JP2014174293A

JP2014174293A - 歌唱音声評価装置および歌唱音声評価システム

Info

Publication number: JP2014174293A
Application number: JP2013046103A
Authority: JP
Inventors: Noriyuki Hata; 紀行畑
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2013-03-08
Filing date: 2013-03-08
Publication date: 2014-09-22
Anticipated expiration: 2033-03-08
Also published as: JP6236807B2

Abstract

【課題】人間による歌唱評価をその場で提示することが可能な歌唱音声評価装置を提供する。
【解決手段】予め人的評価が対応付けられた歌唱音声をサーバに記憶しておき、現在の歌唱音声に類似する歌唱音声を抽出することで、当該類似した歌唱音声に付与されている人的評価が採点結果に反映させる。例えば、図７（Ｂ）に示すように、アレンジを加えて音程を変更して歌唱した事前歌唱音声データの平均人間採点に高い得点が付与されていた場合、機械採点の結果が低くとも、当該アレンジによる人的評価が反映されることになり、機械採点よりも高い採点結果が得られる。
【選択図】図７

Description

この発明は、歌唱音声を評価する歌唱音声評価装置および歌唱音声評価システムに関する。

従来、カラオケ装置は、歌唱者の歌唱を採点する機能を備えるものがあった。カラオケ装置における採点は、お手本となるガイドメロディと比較して、歌唱音声とガイドメロディとの類似度を得点に換算するものが一般的である。

しかし、このような機械採点は、ガイドメロディと類似している場合に得点が高くなるものであり、歌唱自体の官能評価はできていない。例えば、アレンジを加えて歌唱した場合、当該アレンジにより人間が良いと感じる歌唱であってもガイドメロディと類似しないために得点が低くなる場合がある。

そこで、例えば特許文献１には、複数人の聴取者による歌唱評価を行い、聴取者の平均点と機械採点と、のいずれか高い側の得点を採点結果とすることで、人間による主観的な歌唱評価を反映させるカラオケ装置が提案されている。

特開平８−１１５０９１号公報

しかし、特許文献１の装置では、複数人の聴取者による歌唱評価を待つ必要があり、その場で結果を提示することができなかった。

そこで、この発明は、人間による歌唱評価をその場で提示することが可能な歌唱音声評価装置を提供することを目的とする。

この発明の歌唱音声評価装置は、予め歌唱音声および当該歌唱音声に対する人的評価を対応付けて事前歌唱音声データとして記憶した記憶手段と、歌唱音声を入力する歌唱音声入力手段と、前記歌唱音声入力手段で入力した現在の歌唱音声を採点する採点手段と、を備えている。そして、採点手段は、前記現在の歌唱音声と前記事前歌唱音声データとを比較し、前記現在の歌唱音声に類似する事前歌唱音声データを抽出し、当該抽出した事前歌唱音声データにおける人的評価を、採点結果に含めて出力することを特徴とする。

このように、本発明の歌唱音声評価装置は、予め人的評価が対応付けられた歌唱音声を記憶しておき、現在の歌唱音声に類似する歌唱音声を抽出することで、当該類似した歌唱音声に付与されている人的評価が採点結果に反映させることができる。例えば、アレンジを加えて音程を変更して歌唱した事前歌唱音声データにおいて、人間が良いと感じて高い人的評価が得られたものが記憶されている場合、同じようなアレンジで音程を変更して歌唱すると、対応付けられた人的評価が採点結果に反映されるため、人的評価をその場で提示することができる。

なお、類似する事前歌唱音声データは１つだけではなく、複数を抽出し、抽出したそれぞれの事前歌唱音声データの類似度に応じて、それぞれの人的評価を重み付けし、採点結果に反映させることが好ましい。

また、採点結果には、人的評価だけでなく、機械採点の結果も反映されることが好ましい。また、事前歌唱音声データにも、機械採点の結果が含まれ、採点結果に事前歌唱音声データに含まれている機械採点の結果が反映されることが好ましい。

なお、採点結果は、１曲全体の結果だけを出力してもよいし、所定の区間毎（例えばＡメロ、Ｂメロ、サビ）に出力してもよい。

なお、本発明は、歌唱者の端末（カラオケ装置またはユーザの所有する情報処理装置）で歌唱を行い、当該歌唱者の端末がサーバの記憶手段から事前歌唱音声データをダウンロードして、上記採点処理（採点手段）を行う態様も可能である。

この発明によれば、人間による歌唱評価をその場で提示することができる。

カラオケシステムの構成を示すブロック図である。カラオケ装置の構成を示すブロック図である。楽曲データの構造を示す図である。機械採点の概念を説明する図である。サーバ１および評価者端末４の構成を示すブロック図である。図６（Ａ）は、事前歌唱音声データを示す図であり、図６（Ｂ）は、事前歌唱音声データの一覧データを示す図であり、図６（Ｃ）は、人的評価利用採点の概念を示す図である。類似度算出の概念を示す図である。人的評価利用採点の応用例１を示す図である。人的評価利用採点の応用例２を示す図である。人的評価利用採点処理の動作を示すフローチャートである。

図１は、本発明の歌唱音声評価装置を備えたカラオケシステムの構成を示す図である。カラオケシステムは、インターネット等のネットワーク２を介して接続されるサーバ１と、複数のカラオケ店舗３と、複数の評価者端末４と、からなる。

各カラオケ店舗３には、ネットワーク２に接続されるルータ等の中継機５と、中継機５を介してネットワーク２に接続される複数のカラオケ装置７が設けられている。中継機５は、カラオケ店舗３の管理室内等に設置されている。複数台のカラオケ装置７は、それぞれ個室（カラオケボックス）に１台ずつ設置されている。また、各カラオケ装置７には、それぞれリモコン９が設置されている。

評価者端末４は、ＰＣやスマートフォン等の情報処理端末である。評価者端末４のユーザは、サーバ１に蓄積されている事前歌唱音声データ（各カラオケ装置７で歌唱者が歌唱した結果）を評価する。本実施形態では、各カラオケ装置７で歌唱を行うと、当該歌唱者の歌唱音声がサーバ１に送信され、人的評価待ちの事前歌唱音声データとなる。評価者端末４のユーザは、この事前歌唱音声データの歌唱音声を聴き、得点を付与する。この人的評価が事前歌唱音声データに登録されてサーバ１に蓄積される。そして、後に同じ曲を歌唱した歌唱者の歌唱音声がサーバ１に送信されたとき、サーバ１は、受信した現在の歌唱データと事前歌唱音声データとを比較し、類似する事前歌唱音声データを抽出して、当該抽出した事前歌唱音声データにおける人的評価を現在の歌唱音声における採点結果に反映させる。

図２は、カラオケ装置７の構成を示すブロック図である。カラオケ装置７は、装置全体の動作を制御するＣＰＵ１１、および当該ＣＰＵ１１に接続される各種構成部からなる。ＣＰＵ１１には、ＲＡＭ１２、ＨＤＤ１３、ネットワークインタフェース（Ｉ／Ｆ）１４、ＬＣＤ（タッチパネル）１５、Ａ／Ｄコンバータ１７、音源１８、ミキサ（エフェクタ）１９、ＭＰＥＧ等のデコーダ２２、表示処理部２３、操作部２５、および送受信部２６が接続されている。

ＨＤＤ１３は、ＣＰＵ１１の動作用プログラムが記憶されている。ワークメモリであるＲＡＭ１２には、ＣＰＵ１１の動作用プログラムを実行するために読み出すエリア、カラオケ曲を演奏するために楽曲データを読み出すエリア、予約リストや採点結果等のデータを一時記憶するエリア、等が設定される。また、ＨＤＤ１３は、カラオケ曲を演奏するための楽曲データを記憶している。さらに、ＨＤＤ１３は、モニタ２４に背景映像を表示するための映像データも記憶している。映像データは動画、静止画の両方を記憶している。楽曲データや映像データは、定期的にサーバ１（または他の配信センタ）から配信され、更新される。

ＣＰＵ１１は、カラオケ装置７を統括的に制御する制御部であり、機能的にシーケンサを内蔵し、カラオケ演奏を行う。また、ＣＰＵ１１は、音声信号生成処理、映像信号生成処理、機械採点処理、および人的評価利用採点処理を行う。

タッチパネル１５および操作部２５は、カラオケ装置７の前面に設けられている。ＣＰＵ１１は、タッチパネル１５から入力される操作情報に基づいて、操作情報に応じた画像をタッチパネル１５上に表示し、ＧＵＩを実現する。また、リモコン９も同様のＧＵＩを実現するものである。ＣＰＵ１１は、タッチパネル１５、操作部２５、または送受信部２６を介してリモコン９から入力される操作情報に基づいて、各種の動作を行う。例えば、ユーザがタッチパネル１５、操作部２５、またはリモコン９を用いて人的評価利用採点の開始指示を行うと、ＣＰＵ１１は、人的評価利用採点処理を開始する。人的評価利用採点処理の詳細は後述する。

次に、カラオケ演奏を行うための構成について説明する。上述したように、ＣＰＵ１１は、機能的にシーケンサを内蔵している。ＣＰＵ１１は、ＲＡＭ１２の予約リストに登録された予約曲の曲番号に対応する楽曲データをＨＤＤ１３から読み出し、シーケンサでカラオケ演奏を行う。

楽曲データは、例えば図３に示すように、曲番号等が書き込まれているヘッダ、演奏用ＭＩＤＩデータが書き込まれている楽音トラック、ガイドメロディ用ＭＩＤＩデータが書き込まれているガイドメロディトラック、歌詞用ＭＩＤＩデータが書き込まれている歌詞トラック、バックコーラス再生タイミングおよび再生すべき音声データが書き込まれているコーラストラック、等からなっている。なお、楽曲データの形式としては、この例に限るものではない。

楽音トラックには、楽音を発生させる楽器の種類、タイミング、音程（キー）、強さ、長さ、定位（パン）、音響効果（エフェクト）等を示す情報が記録されている。シーケンサは、当該楽音トラックやガイドメロディトラックのデータに基づいて音源１８を制御し、カラオケ曲の楽音を発生する。

また、シーケンサは、コーラストラックの指定するタイミングでバックコーラスの音声データ（楽曲データに付随しているＭＰ３等の圧縮音声データ）を再生する。また、シーケンサは、歌詞トラックに基づいて曲の進行に同期して歌詞の文字パターンを合成し、この文字パターンを映像信号に変換して表示処理部２３に入力する。

音源１８は、シーケンサの処理によってＣＰＵ１１から入力されたデータ（ノートイベントデータ）に応じて楽音信号（デジタル音声信号）を形成する。形成した楽音信号はミキサ１９に入力される。

ミキサ１９は、音源１８が発生した楽音信号、コーラス音、およびマイク１６からＡ／Ｄコンバータ１７を介して入力された歌唱者の歌唱音声に対してエコー等の音響効果を付与するとともに、これらの信号をミキシングする。

ミキシングされた各デジタル音声信号は、サウンドシステム（ＳＳ）２０に入力される。サウンドシステム２０は、Ｄ／Ａコンバータおよびパワーアンプを内蔵しており、入力されたデジタル信号をアナログ信号に変換して増幅し、スピーカ２１から放音する。ミキサ１９が各音声信号に付与する効果およびミキシングのバランスは、ＣＰＵ１１によって制御される。

ＣＰＵ１１は、上記シーケンサによる楽音の発生、歌詞テロップの生成と同期して、ＨＤＤ１３に記憶されている映像データを読み出して背景映像等を再生する。動画の映像データは、ＭＰＥＧ形式にエンコードされている。

ＣＰＵ１１は、読み出した背景映像の映像データをデコーダ２２に入力する。デコーダ２２は、入力されたＭＰＥＧ等のデータを映像信号に変換して表示処理部２３に入力する。表示処理部２３には、背景映像の映像信号以外に上記歌詞テロップの文字パターン等の映像が入力される。表示処理部２３は、背景映像の映像信号の上に歌詞テロップの映像をＯＳＤで合成してモニタ２４に出力する。モニタ２４は、表示処理部２３から入力された映像信号を表示する。

以上の様にして、カラオケ演奏が行われる。次に、機械採点処理について説明する。機械採点処理は、歌唱者の歌唱音声を参照歌唱音声であるガイドメロディトラックと比較することによって行われる。機械採点処理は、ガイドメロディトラックのノートイベントデータ毎に、音程（ピッチ）、タイミング、音量等を比較することによって行われる。

すなわち、ＣＰＵ１１は、入力した歌唱音声（デジタル音声信号）をＲＡＭ１２に一時記憶し、当該歌唱音声のピッチを抽出する。ＣＰＵ１１は、抽出したピッチの値、当該ピッチが変化するタイミング、歌唱音声のレベル、等をガイドメロディトラックと比較し、得点に換算する。

例えば、歌唱音声のピッチが、所定時間以上、ガイドメロディトラックのピッチに合っていた（許容範囲に入っていた）場合には、高い得点を付与する。また、ピッチ変化のタイミングも得点に考慮される。さらに、ビブラート、抑揚、しゃくり（低い音程からなだらかに移行すること）等の技巧の有無に基づいて加点も行われる。

例えば、図４に示すように、ノートＡの区間においては、歌唱音声のピッチが、所定時間以上ガイドメロディトラックのピッチに合っていた（許容範囲に入っていた）ため、当該区間の得点として７０点が付与されている。一方で、ノートＢの区間においては、歌唱音声のピッチとガイドメロディトラックのピッチが大きく異なるため、当該区間の得点として低い得点（２０点）が付与されている。また、ノートＣの区間においては、基礎得点として７０点に加えてビブラートの技巧が検出されたため、合計の９０点が当該区間の得点として付与されている。

以上のようなノート毎の得点は、Ａメロ、Ｂメロ、サビ等の所定の区間毎（あるいは所定時間経過毎）に集計される。集計された得点は、自装置のＲＡＭ１２に一時記憶される。人的評価利用採点処理では、当該集計された得点、および歌唱音声（デジタル音声信号）がネットワークＩ／Ｆ１４を介してサーバ１に送信される。また、１曲の演奏が終了した時点でも、１曲を通した機械採点の結果、および歌唱音声（デジタル音声信号）がサーバ１に送信される。なお、機械採点は、各カラオケ装置７ではなく、サーバ１で行ってもよい。この場合、サーバ１には、歌唱音声のみが送信される。また、機械採点において、上述のような得点化する処理は、必須ではない。例えば、ガイドメロディとのピッチのずれ量、タイミングのずれ量等の情報等をサーバ１に送信し、これらの情報をサーバ１に蓄積する態様であってもよい。

次に、人的評価利用採点処理について説明する。人的評価利用採点処理は、主にサーバ１によって行われる。図５（Ａ）はサーバ１の構成を示すブロック図である。

サーバ１は、ＣＰＵ５１、ＲＡＭ５２、ＨＤＤ５３、およびネットワークＩ／Ｆ５４を備えた情報処理装置である。ＣＰＵ５１は、ＨＤＤ５３に記憶されているサーバ１の動作用プログラムをＲＡＭ５２に読み出し、採点結果蓄積処理および歌唱音声比較処理を行う。

サーバ１のＨＤＤ５３には、事前歌唱音声データが蓄積されている（本発明の記憶手段に相当する）。図６（Ａ）は、事前歌唱音声データの構造を示す図である。サーバ１には、人的評価利用採点の開始指示を行った各カラオケ装置７から、歌唱音声（デジタル音声信号）および機械採点の結果が送信される。サーバ１は、受信した歌唱音声を用いて歌唱音声比較処理および採点結果蓄積処理を行う。歌唱音声比較処理については後述し、まず採点結果蓄積処理について説明する。

サーバ１のＣＰＵ５１は、受信した歌唱音声と機械採点の結果を対応付けて、所定のヘッダ（データ名、曲番号等）を付与してＨＤＤ５３に記憶する。なお、歌唱者名の情報等のその他の情報を受信し、歌唱者名等の情報も対応付けて記憶してもよい。事前歌唱音声データには、評価者端末４のユーザによって評価された得点が平均人間採点として記憶される。ただし、最初にＨＤＤ５３に記憶された時点では、平均人間採点は存在しない。このようにして、図６（Ａ）に示したような事前歌唱音声データがＨＤＤ５３に記憶される。

次に、図５（Ｂ）は、評価者端末４の構成を示すブロック図である。評価者端末４は、ＣＰＵ７１、ＲＡＭ７２、ＲＯＭ７３、ネットワークＩ／Ｆ７４、表示処理部７５、モニタ７６、操作部７７、サウンドシステム（ＳＳ）７８、およびスピーカ７９を備えた情報処理装置である。

ＣＰＵ７１は、ＲＯＭ７３に記憶されている動作用プログラムをＲＡＭ７２に読み出し、歌唱音声再生処理および人的評価処理を行う。

評価者端末４のユーザは、操作部７７を用いて人的評価の開始指示を行う。ＣＰＵ７１は、操作部７７を介して当該人的評価の開始指示を受け付けると、ネットワークＩ／Ｆ７４を介してサーバ１に当該開始指示を送信する。サーバ１は、当該開始指示を受信すると、事前歌唱音声データの一覧データを評価者端末４に送信する。

図６（Ｂ）に示すように、一覧データには、例えば各事前歌唱音声データのデータ名、曲番号に対応する曲名、歌唱者名、平均人間採点結果、機械採点結果等が含まれている。評価者端末４のＣＰＵ７１は、当該一覧データをサーバ１から受信し、一覧データに対応する映像データを生成する。ＣＰＵ７１は、当該映像データを表示処理部７５に出力し、モニタ７６に表示する。ユーザは、操作部７７を介して、当該一覧から再生したい歌唱音声を選択する。

歌唱音声が選択されると、ＣＰＵ７１は、当該選択された歌唱音声の再生リクエストをサーバ１に送信する。サーバ１のＣＰＵ５１は、当該再生リクエストに対応する事前歌唱音声データを読み出し、評価者端末４に送信する。

評価者端末４のＣＰＵ７１は、受信した事前歌唱音声データの歌唱音声（デジタル音声信号）を再生し、サウンドシステム７８に出力する。サウンドシステム７８は、入力された歌唱音声（デジタル信号）をアナログ信号に変換して増幅し、スピーカ７９から放音する。このようにして歌唱音声再生処理がなされる。

ユーザは、再生された歌唱音声を聴き、操作部７７を介して採点を行う。採点は、１曲全体としての得点を付与する形式であってもよいし、Ａメロ、Ｂメロ等の所定の区間毎に得点を付与する形式であってもよい。ユーザが採点した結果（人的評価の結果）は、サーバ１に送信される。

サーバ１のＣＰＵ５１は、受信した得点を過去に蓄積した得点と平均化し、平均人間採点として事前歌唱音声データに記憶する。平均人間採点は、１曲全体としての得点として記憶されていてもよいし、Ａメロ、Ｂメロ等の所定の区間毎の得点として記憶されていてもよい。このようにして採点結果蓄積処理がなされる。なお、採点された回数が多ければ多いほど人気の高い歌唱音声であるとみなし、平均人間採点の得点を高くしてもよい。また、採点を行うユーザ毎に異なる重み付けを付与した重み付け平均処理を行ってもよい。例えば採点回数の多いユーザが採点した得点の重み付けを大きくする。

次に、歌唱音声比較処理について説明する。歌唱力比較処理は、カラオケ装置７から送信された歌唱音声と事前歌唱音声データとを比較し、類似度を算出する処理である。サーバ１のＣＰＵ５１は、カラオケ装置７から受信した歌唱音声（デジタル音声信号）をＲＡＭ５２に一時記憶し、当該歌唱音声のピッチを抽出する。そして、ＣＰＵ５１は、受信した歌唱音声と同じ曲の事前歌唱音声データを読み出し、読み出した事前歌唱音声データに含まれている歌唱音声（デジタル音声信号）と比較する。なお、同じ曲の全ての事前歌唱音声データを読み出してもよいが、例えば最新の事前歌唱音声データから複数個（例えば１０個）だけを読み出してもよい。

類似度の算出は、機械採点と同様の手法で行われる。すなわち、受信した歌唱音声から抽出したピッチの値、当該ピッチが変化するタイミング、歌唱音声のレベル、等を、事前歌唱音声データに含まれている歌唱音声のピッチ、タイミング、レベル等と比較し、点数化する処理である。ただし、歌唱音声にはガイドメロディのようなノートイベントデータが存在しないため、受信した歌唱音声（または事前歌唱音声）のうち、ある程度同じピッチが連続する区間を１つのノートイベントデータとみなして比較を行う。

図７（Ａ）および図７（Ｂ）は、類似度算出の概念を示す図である。同図に示す現在歌唱音声（受信した歌唱音声）は、図４で示した歌唱音声と同じものを示している。図７（Ａ）は、ガイドメロディの音程に対して忠実に歌唱を行った場合の事前歌唱音声データと比較した図である。

この例における現在歌唱音声は、ノートＢの区間においてアレンジを加えて音程を変更して歌唱したものである。したがって、ガイドメロディの音程に対して忠実に歌唱を行った場合の事前歌唱音声データと比較すると、ノートＢの区間では低い類似度（２０％）が算出されるようになっている。

一方、図７（Ｂ）は、アレンジを加えてノートＢの区間の音程を変更して歌唱した場合の事前歌唱音声データと比較した図である。この例では、現在歌唱音声も事前歌唱音声も、ともにノートＢの区間においてアレンジを加えて音程を変更して歌唱しているため、高い類似度（７０％）が算出されている。

以上のような類似度は、Ａメロ、Ｂメロ、サビ等の所定の区間毎（あるいは所定時間経過毎）に集計される。または、１曲を通した平均類似度（全体の類似度）が算出される。

サーバ１のＣＰＵ５１は、区間毎または全体の類似度が高い事前歌唱音声データを抽出する。そして、抽出した事前歌唱音声データに付与されている平均人間採点を、現在の歌唱音声の採点結果に反映させる。例えば、図６（Ｃ）に示すように、最も類似度の高い事前歌唱音声データＣに付与されている平均人間採点（８０点）と、当該最も類似度の高い事前歌唱音声データＣに付与されている機械採点（６０点）とを平均化した得点（７０点）を現在の歌唱音声の採点結果として出力する。

あるいは、最も類似度の高い事前歌唱音声データＣに付与されている平均人間採点（８０点）をそのまま採点結果として出力してもよいし、最も類似度の高い事前歌唱音声データＣに付与されている平均人間採点（８０点）と、現在の歌唱音声における機械採点（例えば６５点）とを平均化した得点（７２．５点）を採点結果として出力してもよい。

例えば、図７（Ｂ）に示したように、アレンジを加えて音程を変更して歌唱した事前歌唱音声データの平均人間採点に高い得点が付与されていた場合、機械採点の結果が低くとも、当該アレンジによる人的評価が反映されることになり、機械採点よりも高い採点結果が得られる。また、逆にガイドメロディに忠実に歌唱した場合であっても、人間が良いと感じなかった歌唱については、機械採点の結果が高くとも、人的評価が反映されることにより機械採点よりも低い採点結果が得られる。

このように、本実施形態のカラオケシステムでは、人間が上手い（または下手）と感じて高い（または低い）人的評価が得られたものが記憶されている場合、同じような歌い方で（例えばアレンジで音程を変更して）歌唱すると、対応付けられた高い（または低い）人的評価が採点結果に反映されるため、人的評価をその場で提示することができる。

なお、図６（Ｃ）の例では、最も類似する事前歌唱音声データの人的評価を利用する例を示したが、複数の事前歌唱音声データを抽出し、抽出したそれぞれの事前歌唱音声データの類似度に応じて、それぞれの人的評価を重み付けし、採点結果に反映させることが好ましい。

図８は、人的評価利用採点の応用例１を示す図である。応用例１では、類似度の高い複数（４つ）の事前歌唱音声データを抽出する例を示している。

この例では、現在の歌唱音声と事前歌唱音声データとの類似度に応じて採点結果に重み付け加算処理を行う。すなわち、最も類似度の高い事前歌唱音声データに最も高い重み（寄与率）を設定し、当該最も類似度の高い事前歌唱音声データに付与されている採点結果を大きく反映させ、類似度が低くなるにつれて重み（寄与率）を低くし、類似度に応じて採点結果を変化させる。

また、この例では、それぞれの事前歌唱音声データにおける平均人間採点と、機械採点とを平均化した得点を複合採点として算出する。そして、複合採点と寄与率とを乗算し、寄与率修正点を算出する。例えば、事前歌唱音声データＣは、平均人間採点（８０点）と機械採点（６０点）とを平均化した複合採点が７０点として算出されているが、寄与率が４０％であるため、修正点として２８点が付与される。同様に、事前歌唱音声データＢは、修正点として２３．５５点が付与され、事前歌唱音声データＡは、修正点として１６．２点が付与され、事前歌唱音声データＤは、修正点として７．３５点が付与される。そしてこれら修正点を加算した得点（７５．１点）が採点結果として出力される。

なお、この例においても、抽出したそれぞれの事前歌唱音声データに付与されている平均人間採点に寄与率を乗算して加算し、機械採点を考慮しないようにしてもよい。ただし、機械採点を反映させることで、人間による主観的な評価だけでなく、音程の正確さ等の客観的な評価も反映させることができ、より高精度な採点を行うことが可能である。

次に、図９は、人的評価利用採点の応用例２を示す図である。応用例２では、応用例１に対し、現在の歌唱音声の機械採点結果も反映させる場合の例を示している。

この例では、複合採点として、それぞれの事前歌唱音声データにおける平均人間採点に対し、現在の歌唱音声の機械採点結果による補正を行う。すなわち、この例では、平均人間採点×（現在歌唱機械採点／事前歌唱音声データの機械採点）＝複合採点として、各事前歌唱音声データの複合採点を算出する。そして、算出した複合採点の結果に寄与率を乗算し、寄与率修正点を算出する。

例えば、事前歌唱音声データＣは、平均人間採点（８０点）に対し、現在歌唱機械採点（６５点）／事前歌唱音声データの機械採点（６０点）が乗算され、８０×（６５／６０）＝８６．６７点が複合採点として算出されている。そして、寄与率が４０％であるため、修正点として３４．６７点が付与される。同様に、事前歌唱音声データＢは、修正点として１８．３点が付与され、事前歌唱音声データＡは、修正点として１３．３２点が付与され、事前歌唱音声データＤは、修正点として５．７５点が付与される。そしてこれら修正点を加算した得点（７２．０４点）が採点結果として出力される。

このように、人的評価を主としながらも、機械採点の結果による微調整を行うことで、より高精度な採点を行うことが可能である。

次に、人的評価利用採点処理の動作について、図１０のフローチャートを参照して説明する。歌唱者がタッチパネル１５、操作部２５、またはリモコン９を用いて人的評価利用採点処理の開始指示を行い、カラオケ演奏が開始されると、図１０に示す動作を行う。

まず、カラオケ装置７のＣＰＵ１１は、カラオケ演奏を行うとともに、歌唱音声の機械採点を開始する（ｓ１１）。次に、ＣＰＵ１１は、所定区間（例えばＡメロ）が経過したか否かを判断し（ｓ１２）、所定区間が経過した場合には、当該所定区間毎に機械採点の結果を集計し、当該所定区間における機械採点結果および歌唱音声をサーバ１に送信する（ｓ１３）。

サーバ１のＣＰＵ５１は、採点結果および歌唱音声を受信すると（ｓ１４）、歌唱音声比較処理を行い、当該区間において類似度の高い事前歌唱音声データを抽出する（ｓ１５）。そして、抽出した事前歌唱音声データに付与されている平均人間採点を、現在の歌唱音声の採点結果に反映させ、採点結果として出力する（ｓ１６）。当該採点結果は、カラオケ装置７に送信される（ｓ１７）。なお、類似する事前歌唱音声データが存在しなかった、または低い（例えば５０％以下の）類似度の事前歌唱音声データだけしか存在しなかった場合には、カラオケ装置７に「評価待ち」を示す情報を送信し、カラオケ装置７においてはモニタ２４に「評価待ちです」等と表示して、機械採点の結果だけを表示するようにしてもよい。

なお、カラオケ装置７からサーバ１に送信された歌唱音声および機械採点の結果は、事前歌唱音声データとして、サーバ１のＨＤＤ５３に蓄積され、ユーザによる人的評価の対象の歌唱音声となる
カラオケ装置７のＣＰＵ１１は、サーバ１から採点結果を受信し（ｓ１８）、当該採点結果をモニタ２４に表示する（ｓ１９）。なお、採点結果は、区間毎の採点結果、および現在までの区間を平均化した全体の採点結果を表示することが好ましい。

最後に、ＣＰＵ１１は、楽曲の演奏が終了したか否かを判断し（ｓ２０）、楽曲の演奏が終了するまではｓ１２以下の処理を繰り返し行う。楽曲の演奏が終了した場合には、１曲全体の採点結果を表示してもよい。

なお、本実施形態においては、カラオケ装置７で歌唱を行い、歌唱音声をサーバ１に送信して、人的評価利用採点処理を行う例を示したが、例えばユーザが自身の所有するＰＣやスマートフォン等の情報処理装置を用いて歌唱を行い、サーバ１または当該情報処理装置が本発明の歌唱音声評価装置を実現することも可能である。すなわち、ユーザは、自身が所有するＰＣやスマートフォンを用いて歌唱を行い、当該ＰＣやスマートフォンが歌唱音声をサーバ１に送信することで、人的評価利用採点処理を実現する。

この場合、ユーザは、自身の所有する情報処理装置を用いて人的評価利用採点処理の開始指示を行う。ユーザが人的評価利用採点処理の開始指示を行うと、当該ユーザの所有する情報処理装置がカラオケ演奏を行う。ユーザの歌唱音声は、サーバ１に送信される（これにより、サーバ１のＣＰＵ５１は、本発明の歌唱音声入力手段を実現する）。そして、サーバ１のＣＰＵ５１が人的評価利用採点処理（図５に示したフローチャートにおけるｓ１５以下の処理）を行い、本発明の採点手段を実現する。このようにして、ユーザ自身の所有する情報処理装置（またはカラオケ装置７）からサーバ１に歌唱音声を送信し、サーバ１により本発明の歌唱音声評価装置を実現することも可能である。また、ユーザの所有する情報処理装置（またはカラオケ装置７）がサーバ１から事前歌唱音声データをダウンロードし、当該情報処理装置が歌唱音声比較処理を行うことも可能である。

なお、本実施形態においては、歌唱音声（デジタル音声信号）をサーバ１に送信し、事前歌唱音声データとして蓄積する例を示したが、歌唱音声を含む映像データ（例えば歌唱者が歌いながら踊る姿を撮影したもの等）をサーバ１に送信し、事前歌唱音声データとして蓄積するようにしてもよい。

１…サーバ
２…ネットワーク
３…カラオケ店舗
４…評価者端末
５…中継機
７…カラオケ装置
９…リモコン
１１…ＣＰＵ
１２…ＲＡＭ
１３…ＨＤＤ
１４…ネットワークＩ／Ｆ
１５…タッチパネル
１６…マイク
１７…Ａ／Ｄコンバータ
１８…音源
１９…ミキサ
２０…サウンドシステム
２１…スピーカ
２２…デコーダ
２３…表示処理部
２４…モニタ
２５…操作部
２６…送受信部

Claims

予め歌唱音声および当該歌唱音声に対する人的評価を対応付けて事前歌唱音声データとして記憶した記憶手段と、
歌唱音声を入力する歌唱音声入力手段と、
前記歌唱音声入力手段で入力した現在の歌唱音声を採点する採点手段と、
を備え、
前記採点手段は、前記現在の歌唱音声と前記事前歌唱音声データとを比較し、前記現在の歌唱音声に類似する事前歌唱音声データを抽出し、当該抽出した事前歌唱音声データにおける人的評価を、採点結果に含めて出力することを特徴とする歌唱音声評価装置。
前記採点手段は、前記現在の歌唱音声に類似する事前歌唱音声データを複数抽出し、
抽出したそれぞれの事前歌唱音声データの類似度に応じて、それぞれの人的評価を重み付けし、前記採点結果に含めて出力する請求項１に記載の歌唱音声評価装置。
前記採点手段は、歌唱音声と参考歌唱音声とを比較する機械採点を行い、当該機械採点の結果を前記採点結果に含めて出力する請求項１または請求項２に記載の歌唱音声評価装置。
前記事前歌唱音声データは、機械採点の結果が含まれ、
前記採点手段は、前記事前歌唱音声データに含まれている機械採点の結果を前記採点結果に含めて出力する請求項１乃至請求項３のいずれかに記載の歌唱音声評価装置。
前記採点手段は、所定の区間毎に前記現在の歌唱音声を採点して採点結果を出力する請求項１乃至請求項４のいずれかに記載の歌唱音声評価装置。
サーバおよび歌唱者の端末からなる歌唱音声評価システムであって、
請求項１乃至請求項５のいずれかに記載の記憶手段を前記歌唱者の端末または前記サーバのいずれかに設け、請求項１乃至請求項５のいずれかに記載の採点手段を前記歌唱者の端末または前記サーバのいずれかに設け、請求項１乃至請求項５のいずれかに記載の歌唱音声入力手段を前記歌唱者の端末に設けたことを特徴とする歌唱音声評価システム。