JP5805474B2

JP5805474B2 - 音声評価装置，音声評価方法，及びプログラム

Info

Publication number: JP5805474B2
Application number: JP2011197391A
Authority: JP
Inventors: 典昭阿瀬見; 伊藤　彰則; 彰則伊藤; 竜之介大道
Original assignee: Tohoku University NUC; Brother Industries Ltd
Current assignee: Tohoku University NUC; Brother Industries Ltd
Priority date: 2011-09-09
Filing date: 2011-09-09
Publication date: 2015-11-04
Anticipated expiration: 2031-09-09
Also published as: JP2013057892A

Description

本発明は、楽曲の演奏中に入力された音を評価する音声評価装置，音声評価方法，及びプログラムに関する。

従来、カラオケ装置の付帯機能として、歌唱力を評価する評価機能（即ち、採点機能）が知られている。この種の評価機能では、採点基準として楽曲ごとに予め用意された当該楽曲の歌唱すべき旋律を構成する音の音高の推移を表す採点基準データと、楽曲の演奏中に入力された音の音高との差分が小さいほど、高い得点を付与することがなされている（例えば、特許文献１参照）。

つまり、特許文献１に記載された採点機能では、利用者が歌唱した結果、採点基準データによって表されている音高の推移を忠実に再現しているほど、評価が高くなる。

特開２００４−１８４５０６号公報

ところで、複数人で一台のカラオケ装置を利用し、さらに、上述した評価機能を用いる場合、当該カラオケ装置の利用者は、高い評価を得るために、採点基準データによって表される音高の推移を忠実に再現するように歌唱することが考えられる。このとき歌唱された音声は、評価機能によって高い評価が得られるものの、歌唱中の利用者以外の他の利用者にとって聴き取り難い可能性があった。

つまり、特許文献１に記載された評価機能では、人にとって聴き取りにくい歌声であっても、高い評価が得られ、音声を聞いた人による評価と、当該評価機能による評価との間に乖離が生じるという問題があった。

そこで、本発明は、楽曲の演奏に合わせた歌唱に対する評価として、人にとっての聴き取りやすさを評価することを目的とする。

上記目的を達成するためになされた本発明の音声評価装置では、特性取得手段が、人の聴覚の周波数特性を表す聴覚感度特性を取得し、音声波形取得手段が、楽曲の１つである対象楽曲の演奏中に入力された音の波形を表す音声波形を取得する。

さらに、周波数成分強度分布導出手段が、音声波形取得手段で取得した音声波形に含まれる周波数、及び各周波数成分の強さを表す周波数成分強度分布を導出し、その周波数成分強度分布における周波数成分の強さの平均値が、予め規定された規定値に一致するように、正規化手段が、当該周波数成分強度分布における周波数成分の強さを正規化する。

そして、評価手段が、特性取得手段で取得した聴覚感度特性と、正規化手段で正規化された周波数成分強度分布とに基づいて導出された音声パワーが大きいほど、高い評価を出力する。なお、ここでいう“音声パワー”とは、正規化された周波数成分強度分布と聴覚感度特性との差が小さいほど、大きな値となる指標である。
さらに、本発明の音声評価装置においては、楽譜データ取得手段が、対象楽曲の楽譜を表し、音源モジュールから出力される個々の出力音について、少なくとも音高及び出力開始タイミングが規定された楽譜データを取得し、帯域特定手段が、楽譜データ取得手段で取得した楽譜データに基づいて、対象楽曲の少なくとも一部の区間における最低音高から最高音高までの周波数帯域である楽曲音域を導出し、該楽曲音域に含まれる１つの出力音の音高から該１つの出力音を基音とした第規定倍音の音高までの周波数帯域を表す音声成分帯域を楽曲音域に加えた音域である歌唱音声帯域を特定する。
この場合、特性取得手段は、聴覚感度特性のうちの帯域特定手段にて特定された歌唱音声帯域に対応する周波数帯域での周波数特性を、聴覚感度特性として取得する。

換言すれば、本発明の音声評価装置では、対象楽曲の演奏中に入力された音の周波数成分強度分布におけるスペクトル包絡が聴覚感度特性に合致するほど、評価が高くなり、スペクトル包絡が聴覚感度特性に合致しないほど、評価が低くなる。

この結果、本発明の音声評価装置によれば、楽曲の演奏に合わせた歌唱に対する評価として、人にとっての聴き取りやすさを評価でき、当該音声評価装置による評価が、音声を聞いた人による評価から乖離することを低減できる。

ここでいう聴覚感度特性とは、例えば、いわゆるＡ特性であっても良いし、この他に、Ｂ特性やＣ特性であっても良い。

また、このような音声評価装置によれば、音声波形取得手段で取得した音声波形の振幅、即ち、入力された音の音圧に拘わらず、その音の人にとっての聴き取りやすさを評価できる。

このような音声評価装置によれば、聴覚感度特性を構成する周波数特性のうち、対象楽曲に対して発声される可能性が高い周波数帯域における周波数特性を用いて入力音を評価するため、当該評価をより適切なものとすることができる。

なお、ここでいう「第規定倍音」とは、２以上の自然数倍の倍音である。さらに、「１つの出力音」は、楽曲音域に含まれる音高（周波数）に対応する出力音であれば、どの音高に対応する音であっても良いが、楽曲音域における最高音高に対応する出力音であることがより好ましい。

また、ここでいう「対象楽曲の少なくとも一部の区間」とは、対象楽曲の時間軸に沿った全区間であっても良い。

一般的な楽曲では、その楽曲における時間軸に沿って、楽曲音域が変化する。

このため、本発明の音声評価装置では、帯域特定手段が、対象楽曲の時間進行に沿って、一部の区間として規定された区間ごとに歌唱音声帯域を順次特定し、特性取得手段が、帯域特定手段にて歌唱音声帯域が特定されるごとに、該歌唱音声帯域に対応する周波数帯域での周波数特性を、聴覚感度特性として取得しても良い。

このような音声評価装置によれば、入力音波形を聴覚感度特性フィルタに通した出力レベル（即ち、聴覚感度特性と周波数成分強度分布との差）の導出は、区間ごとに必要な周
波数帯域に対して実行されることになり、当該一致度の導出に必要な処理量を最小限とすることができる。

ところで、本発明は、音声を評価する方法（即ち、音声評価方法）としてなされていても良い。

この場合、本発明の音声評価方法では、特性取得過程にて、人の聴覚の周波数特性を表す聴覚感度特性を取得し、音声波形取得過程にて、楽曲の１つである対象楽曲の演奏中に入力された音の波形を表す音声波形を取得する。そして、周波数成分強度分布導出過程にて、音声波形取得過程で取得した音声波形に含まれる周波数、及び各周波数成分の強さを表す周波数成分強度分布を導出し、その導出した周波数成分強度分布における周波数成分の強さの平均値が、予め規定された規定値に一致するように、正規化過程にて、周波数成分強度分布における周波数成分の強さを正規化する。

さらに、評価過程にて、特性取得過程で取得した聴覚感度特性と、正規化過程で正規化された周波数成分強度分布とに基づいて導出された音声パワーが大きいほど、高い評価を出力する。
そして、楽譜データ取得過程で、楽譜データを取得し、帯域特定過程で、楽曲音域を導出し、音声成分帯域を楽曲音域に加えた音域である歌唱音声帯域を特定する。さらに、特性取得過程では、聴覚感度特性のうちの帯域特定過程にて特定された歌唱音声帯域に対応する周波数帯域での周波数特性を、聴覚感度特性として取得する。

このような音声評価方法であれば、請求項１に記載された音声評価装置と同様の効果を得ることができる。

さらには、本発明は、プログラムとしてなされていても良い。

この場合、本発明のプログラムは、聴覚感度特性を取得する特性取得手順と、音声波形を取得する音声波形取得手順と、音声波形取得手順で取得した音声波形の周波数成分強度分布を導出する周波数分布導出手順と、周波数成分強度分布を正規化する正規化手順と、特性取得手順で取得した聴覚感度特性と、正規化手順で正規化された周波数成分強度分布とに基づいて導出された音声パワーが大きいほど、高い評価を出力する評価手順とをコンピュータに実行させる必要がある。
さらに、楽譜データを取得する楽譜データ取得手順と、楽曲音域を導出し、音声成分帯域を楽曲音域に加えた音域である歌唱音声帯域を特定する帯域特定手順とをコンピュータに実行させる。さらに、特性取得手順では、聴覚感度特性のうちの帯域特定手順にて特定された歌唱音声帯域に対応する周波数帯域での周波数特性を、聴覚感度特性として取得する。

このようなプログラムによれば、例えば、ＤＶＤ−ＲＯＭ、ＣＤ−ＲＯＭ、ハードディスク等のコンピュータ読み取り可能な記録媒体に記録し、必要に応じてコンピュータにロードさせて起動することや、必要に応じて通信回線を介してコンピュータに取得させて起動することによって用いることができる。そして、コンピュータに各手順を実行させることで、そのコンピュータを、請求項１に記載された音声評価装置として機能させることができる。

本発明が適用されたカラオケシステムの概略構成を示すブロック図である。音声評価処理の処理手順を示すフローチャートである。歌唱音声帯域の決定手法を説明する図である。聴覚感度特性に対する帯域制限を説明する図である。聴覚感度特性スコアの導出方法を説明する図である。

以下に本発明の実施形態を図面と共に説明する。

まず、図１は、カラオケ用に予め加工された楽曲（以下、カラオケ楽曲とする）の演奏に応じてユーザが歌唱するためのカラオケシステムの概略構成を示すブロック図である。

〈カラオケシステム全体の構成〉
図１に示すように、カラオケシステム１は、ユーザによって指定されたカラオケ楽曲の再生を行うカラオケ装置２０と、カラオケ楽曲の再生に必要なデータである楽曲ＭＩＤＩデータをカラオケ装置２０に配信するサーバ３０とを備え、それらカラオケ装置２０とサーバ３０とはネットワーク（例えば、専用回線や、ＷＡＮ等）を介して接続されている。つまり、カラオケシステム１は、いわゆる通信カラオケシステムとして構成されている。

このうち、サーバ３０は、カラオケ楽曲の演奏に必要な処理プログラム（以下、カラオケ処理プログラムと称す）及び楽曲ＭＩＤＩデータを格納する記憶装置（図示せず）と、ＲＯＭ，ＲＡＭ，ＣＰＵを少なくとも有した周知のマイクロコンピュータ（図示せず）とを備えた情報処理装置を中心に構成された周知のカラオケサービス用サーバ装置である。

ところで、楽曲ＭＩＤＩデータは、例えば、ＭＩＤＩ（ＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ）フォーマットにて記述された周知のカラオケ再生用データであり、カラオケ楽曲それぞれについて予め用意されている。

その楽曲ＭＩＤＩデータには、カラオケ楽曲を識別するためのデータである楽曲情報と、対応するカラオケ楽曲１曲を再生演奏するために要する時間を示す時間情報と、対応するカラオケ楽曲についてユーザが歌唱すべき旋律（以下、歌唱旋律とする）に関するデータであるガイドメロディと、そのカラオケ楽曲の歌詞に関するデータである歌詞情報とが少なくとも含まれている。

そして、楽曲情報には、カラオケ楽曲を特定するための曲番号データと、曲名を示す曲名データとが少なくとも含まれている。

また、ガイドメロディは、歌唱旋律としてのカラオケ楽曲の主旋律を形成する各構成音について、それぞれの音高及び音長が表されたものである。具体的に、本実施形態における各構成音の音長は、楽音出力開始時間（いわゆるノートオンタイミング）及び楽音出力終了時間（いわゆるノートオフタイミング）によって表されている。ただし、ここでいう楽音出力開始時間とは、その構成音の出力が開始されるまでのカラオケ楽曲の演奏開始からの時間であり、楽音出力終了時間とは、その構成音の出力が終了されるまでのカラオケ楽曲の演奏開始からの時間である。

〈カラオケ装置について〉
次に、カラオケ装置２０の構成について説明する。

このカラオケ装置２０は、サーバ３０との間でデータ通信を実行するための通信部２２と、通信部２２を介してサーバ３０から取得したカラオケ処理プログラム及び楽曲ＭＩＤＩデータを記憶する記憶部２１と、各種画像を表示するための表示部２３と、ユーザからの指示を受け付ける操作受付部２４とを備えている。さらに、カラオケ装置２０は、音声を入力するためのマイクロホン２６と、マイクロホン２６を介した音声の入力を制御する音声入力部２５と、音を出力するためのスピーカ２７と、スピーカ２７からの音の出力を制御する音声出力部２９と、カラオケ装置２０を構成する各部２１，２２，２３，２４，２５，２９を制御する制御部２８とを備えている。

このうち、通信部２２は、カラオケ装置２０をネットワーク（例えば、専用回線や、ＷＡＮ）に接続して外部と通信を行うための通信インタフェースであり、サーバ３０に各種データを出力すると共に、サーバ３０から各種データや処理プログラムを取得する。

そして、表示部２３は、例えば、液晶ディスプレイ等から構成された表示装置であり、
操作受付部２４は、例えば、複数のキースイッチ等から構成された入力装置や、周知のリモコンを介して入力された指令を受け付ける受信装置などからなる。

また、音声入力部２５は、マイクロホン２６を介して入力された音声（アナログ信号）をサンプリングし、そのサンプリング値（標本値）を制御部２８に入力するＡＤ変換器としての機能を含む構成である。

そして、音声出力部２９は、制御部２８からの制御指令に基づいて、楽曲ＭＩＤＩデータに従ってカラオケ楽曲を再生演奏する周知のＭＩＤＩ音源としての機能を含む構成であり、マイクロホン２６から入力されたユーザの歌声などを、再生演奏音にミキシングしてスピーカ２７から出力させる構成である。

さらに、記憶部２１は、電源が切断されても記憶内容を保持すると共に記憶内容を読み書き可能に構成された記憶装置（例えば、ハードディスクドライブ）である。その記憶部２１は、カラオケ処理プログラムを格納するプログラム格納領域と、楽曲ＭＩＤＩデータを記憶する楽曲ＭＩＤＩデータ格納領域とを少なくとも備えている。

次に、制御部２８は、電源が切断されても記憶内容を保持する必要のあるプログラムやデータを格納するＲＯＭ２８ａと、プログラムやデータを一時的に格納するＲＡＭ２８ｂと、ＲＯＭ２８ａやＲＡＭ２８ｂに記憶されたプログラムやデータに従って、カラオケ装置２０を構成する各部２１，２２，２３，２４，２５，２９に対する制御及び各種演算を実行するＣＰＵ２８ｃとを少なくとも有した周知のマイクロコンピュータを中心に構成されている。なお、ＲＡＭ２８ｂには、記憶部２１から読み出されたカラオケ処理プログラムが記憶され、ＣＰＵ２８ｃは、ＲＡＭ２８ｂに記憶したカラオケ処理プログラムに従って各種処理を実行する。

そのカラオケ処理プログラムとして、操作受付部２４を介してユーザに指定されたカラオケ楽曲を再生演奏すると共に、表示部２３に歌詞を表示する周知のカラオケ演奏処理を、制御部２８が実行するためのカラオケ演奏処理プログラムがある。また、カラオケ処理プログラムとして、カラオケ演奏処理の実行中に入力された音声を評価する音声評価処理を、制御部２８が実行するための音声評価処理プログラムがある。

また、ＲＯＭ２８ａには、音声評価処理において参照され、周波数特性に対する人の聴覚の感度を表す聴覚感度特性が格納されている。本実施形態における聴覚感度特性とは、例えば、Ａ特性（ＪＩＳＣ１５０９）である。なお、聴覚感度特性は、記憶部２１に格納されていても良い。

つまり、カラオケ装置２０では、カラオケ演奏処理プログラムを制御部２８が実行することで、ユーザによって指定されたカラオケ楽曲を再生演奏する共に、そのカラオケ楽曲の歌詞を表示部２３に表示する。

このとき、再生演奏されているカラオケ楽曲に応じてユーザが歌唱すると、カラオケ装置２０では、カラオケ楽曲の再生演奏中に入力された歌唱音声を、そのカラオケ楽曲の再生音にミキシングしてスピーカ２７から出力する。以下、操作受付部２４を介してユーザに指定され、カラオケ演奏処理によって演奏が実施されるカラオケ楽曲を対象楽曲と称す。

〈音声評価処理について〉
ここで、図２は、制御部２８が実行する音声評価処理の処理手順を示すフローチャートである。

この音声評価処理は、カラオケ演奏処理の実行前に、当該音声評価処理を実行する旨の指令が操作受付部２４を介して入力されていると、カラオケ演奏処理の起動時に起動される。

そして、音声評価処理は、起動されると、まず、対象楽曲に対応する楽曲ＭＩＤＩデータを取得する（Ｓ１１０）。続いて、ＲＯＭ２８ａに格納されている聴覚感度特性を取得する（Ｓ１２０）。

さらに、対象楽曲において歌唱されるべき音域（以下、歌唱音声帯域と称す）を特定する（Ｓ１３０）。

ここで、本実施形態のＳ１３０で実行する歌唱音声帯域の特定方法について説明する。このＳ１３０では、具体的には、Ｓ１１０にて取得した楽曲ＭＩＤＩデータに対して予め規定された評価対象区間に含まれるガイドメロディの構成音の音高の中で、最も高い音高（以下、区間最高音高ＮＮｍａｘと称す），最も低い音高（以下、区間最低音高ＮＮｍｉｎと称す）を抽出する。それら区間最高音高ＮＮｍａｘ、及び区間最低音高ＮＮｍｉｎを、下記（１）式、及び下記（２）式に基づいて、周波数に変換する。以下、区間最高音高ＮＮｍａｘに対応する周波数を周波数Ｆ０ｍａｘと称し、区間最低音高ＮＮｍｉｎに対応する周波数を周波数Ｆ０ｍｉｎと称す。

さらに、下記（３）式に基づいて導出した、歌唱音声帯域の帯域下限周波数ＶＦｍｉｎと、下記（４）式に基づいて導出した、歌唱音声帯域の帯域上限周波数ＶＦｍａｘに従って、歌唱音声帯域を特定する。

すなわち、図３に示すように、周波数Ｆ０ｍｉｎを、歌唱音声帯域の帯域下限周波数ＶＦｍｉｎとし、周波数Ｆ０ｍａｘに音声成分帯域ＶＦを加えた周波数を、歌唱音声帯域の帯域上限周波数ＶＦｍａｘとした歌唱音声帯域を特定する。ただし、ここでいう音声成分帯域ＶＦとは、周波数Ｆ０ｍａｘから、周波数Ｆ０ｍａｘの規定数倍の倍音成分に対応する周波数までの周波数帯域である。なお、音声成分帯域ＶＦは、これに限るものではなく、予め規定された周波数帯域（例えば、電話の周波数帯域（３．４ｋＨｚ））を音声成分帯域ＶＦとしても良いし、カラオケシステム１に設けられた歌唱履歴から推定したカラオケ装置２０の利用者の声帯域を音声成分帯域ＶＦとしても良い。

また、本実施形態における評価対象区間とは、対象楽曲において、評価の対象とする複
数の区間であり、例えば、対象楽曲中のフレーズや、Ａメロ，Ｂメロ，サビといった単位の区間が規定されている。

続いて、Ｓ１２０にて取得した聴覚感度特性に対して、歌唱音声帯域による帯域制限を加えた帯域制限特性ＬＲＡ（ｆｉ（ｍ））を導出する（Ｓ１４０）。具体的に、本実施形態のＳ１４０では、まず、Ｓ１２０にて取得した聴覚感度特性での感度ＺＡ（ｆｉ（ｍ））（図４（Ａ）参照，単位［ｄＢ］）を、下記（５）式に従ってパワーの倍率ＲＡ（ｆｉ（ｍ））へと変換する。ただし、ここでの変数ｆｉ（ｍ）は、周波数を表し、変数ｍは、周波数のインデックスを表す。

本実施形態のＳ１４０では、図４（Ｂ）に示すように、Ｓ１３０にて特定した歌唱音声帯域での感度を（５）式にて変換されたパワーの倍率ＲＡ（ｆｉ（ｍ））とし、歌唱音声帯域外での感度を“０”とした聴覚感度特性を、帯域制限特性ＬＲＡ（ｆｉ（ｍ））として導出する。

そして、音声評価処理では、カラオケ演奏処理によって対象楽曲の評価対象区間が演奏されている間に、マイクロホン２６を介して入力された音声の波形を表す歌唱波形データｖｗ（ｋ）を取得する（Ｓ１５０）。なお、歌唱波形データｖｗとは、音声入力部２５にてサンプリング値へと変換された音声であり、符号“ｋ”は、サンプリングした順番を表すインデックスである。

続いて、Ｓ１５０にて取得した歌唱波形データｖｗ（ｋ）について、評価対象区間での平均パワーＡＰを導出する（Ｓ１６０）。

本実施形態のＳ１６０では、具体的に、Ｓ１５０にて取得した歌唱波形データｖｗ（ｋ）を下記（６）式に代入することで、評価対象区間における歌唱波形データｖｗの平均パワーＡＰを導出する。

ただし、（６）式中の符号Ｋ０は、当該評価対象区間における歌唱波形データｖｗのサンプリング数である。

続いて、歌唱波形データｖｗの振幅を正規化した正規化歌唱波形ｎｖｗを導出する（Ｓ１７０）。

具体的に、本実施形態のＳ１７０では、評価対象区間での歌唱波形データｖｗの平均パワーＡＰが、予め規定された規定値αとなるように、下記（７）式に、平均パワーＡＰを代入した上で、歌唱波形データｖｗ（ｋ）を時間軸に沿って順次代入する。

さらに、正規化歌唱波形ｎｖｗ（ｋ）のパワースペクトルＰＳＰ（ｆｉ（ｍ））を求める（図５（Ａ）参照）（Ｓ１８０）。なお、パワースペクトルＰＳＰ（ｆｉ（ｍ））とは、少なくとも、正規化歌唱波形ｎｖｗに含まれる周波数及び周波数成分の強さを表すもの（本発明の周波数成分強度分布に相当）であり、例えば、ＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）によって導出する。

そして、Ｓ１８０にて導出されたパワースペクトルＰＳＰ（ｆｉ（ｍ））及び帯域制限特性ＬＲＡに基づいて、聴覚感度特性スコアＳＣを導出する（Ｓ１９０）。

具体的に、本実施形態のＳ１９０では、下記（８）式に従って、聴覚感度特性スコアＳＣ（本発明の音声パワーに相当）を導出する。

すなわち、本実施形態のＳ１９０にて導出される聴覚感度特性スコアＳＣは、図５（Ｂ）に示すように、パワースペクトルＰＳＰにおける周波数ｆｉ（ｍ）ごとに、帯域制限特性ＬＲＡ（ｆｉ（ｍ））を乗算した（即ち、帯域制限特性ＬＲＡ（ｆｉ（ｍ））の感度によって重み付けした）結果を、周波数軸方向に積分したものである。したがって、聴覚感度特性スコアＳＣは、正規化歌唱波形ｎｖｗのパワースペクトルＰＳＰ（ｆｉ（ｍ））の包絡と、帯域制限特性ＬＲＡ（ｆｉ（ｍ））の感度の包絡との類似性が高い（即ち、両者の差が小さい）ほど、大きな値となる。

続いて、音声評価処理では、聴覚感度特性スコアＳＣを出力する（Ｓ２００）。すなわち、本実施形態のＳ２００では、Ｓ１９０にて導出した聴覚感度特性スコアＳＣを表示部２３に表示する。

さらに、対象楽曲に規定された評価対象区間のうち、時間軸に沿った最後の評価対象区間について、聴覚感度特性スコアＳＣを導出したか否かを判定し（Ｓ２１０）、その判定の結果、時間軸に沿った最後の評価対象区間について、聴覚感度特性スコアＳＣを導出していなければ、（Ｓ２１０：ＮＯ）、Ｓ１３０へと戻る。そのＳ１３０では、時間軸に沿った次の評価対象区間について、歌唱音声帯域を特定し、その後、Ｓ１４０以降のステップを実行する。

一方、Ｓ２１０での判定の結果、時間軸に沿った最後の評価対象区間について、聴覚感度特性スコアＳＣを導出していれば、（Ｓ２１０：ＹＥＳ）、本音声評価処理を終了する。

［実施形態の効果］
以上説明したように、上記実施形態の音声評価処理では、対象楽曲の演奏中に取得した歌唱波形データｖｗの周波数成分強度分布におけるスペクトル包絡が帯域制限特性ＬＲＡ
（ｆｉ（ｍ））の感度の包絡に合致するほど、当該歌唱波形データｖｗに対応する音声が人にとって聴き取りやすいものとして、聴覚感度特性スコアＳＣの値を大きく、即ち、高く評価する。一方、スペクトル包絡が帯域制限特性ＬＲＡ（ｆｉ（ｍ））の感度の包絡に合致しないほど、当該歌唱波形データｖｗに対応する音声が人にとって聴き取りにくいものとして、聴覚感度特性スコアＳＣの値を小さく、即ち、低く評価する。

この結果、上記実施形態の音声評価処理によれば、対象楽曲の演奏に合わせた歌唱に対する評価として、人にとっての聴き取りやすさを評価でき、当該音声評価処理による評価が、音声を聞いた人による評価から乖離することを低減できる。

特に、上記実施形態の音声評価処理では、聴覚感度特性スコアＳＣの導出を、歌唱波形データｖｗの振幅を正規化した上で実行している。この結果、音声評価処理によれば、歌唱波形データｖｗの振幅、即ち、入力された音の音圧に拘わらず、その音の人にとっての聴き取りやすさを評価できる。

また、上記実施形態の音声評価処理では、聴覚感度特性スコアＳＣを導出する際に用いる聴覚感度特性に、評価対象区間にて発声される可能性が高い周波数帯域によって帯域制限を加えている（即ち、帯域制限特性ＬＲＡ（ｆｉ（ｍ））を生成している）。

よって、音声評価処理によれば、入力された音声の評価を、評価対象区間にて発声される可能性が高い周波数帯域における周波数特性を用いて実施するため、当該評価をより適切なものとすることができる。

しかも、音声評価処理では、対象楽曲における時間進行に沿って、帯域制限特性ＬＲＡ（ｆｉ（ｍ））を順次変更する。

つまり、音声評価処理によれば、帯域制限特性ＬＲＡの生成を、評価対象区間ごとに必要な周波数帯域に対して実行することができ、聴覚感度特性スコアＳＣの導出に必要な処理量を最小限とすることができる。

［その他の実施形態］
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。

例えば、上記実施形態では、評価結果としての聴覚感度特性スコアＳＣの出力タイミングを、各評価対象区間に対する聴覚感度特性スコアＳＣを導出した直後、即ち、Ｓ２００としていたが、評価結果の出力タイミングは、これに限るものではない。すなわち、Ｓ２１０にて、時間軸に沿った最後の評価対象区間について、聴覚感度特性スコアＳＣを導出したものと判定された後に、評価結果を出力しても良い。この場合、評価結果として出力する内容は、各評価対象区間に対する聴覚感度特性スコアＳＣの合計でも良いし、平均値でも良い。

また、上記実施形態では、聴覚感度特性に対する帯域制限を評価対象区間ごとに加えていたが、聴覚感度特性に対して帯域制限を加える範囲は、これに限るものではない。例えば、聴覚感度特性に対して帯域制限を加える範囲は、１つの対象楽曲における全範囲であっても良い。

さらに、上記実施形態においては、音声評価処理の起動タイミングを、カラオケ演奏処理の起動時としていたが、音声評価処理の起動タイミングは、これに限るものではない。
例えば、音声評価処理の起動タイミングは、カラオケ演奏処理の実行中に、当該音声評価処理を実行する旨の指令が操作受付部２４を介して入力されたときであっても良いし、カラオケ演奏処理の終了後であっても良い。後者の場合、カラオケ演奏処理によって対象楽曲が演奏されている期間中に入力された歌唱波形データｖｗを記憶し、その記憶された歌唱波形データｖｗを、評価の対象とする必要がある。

また、上記実施形態では、聴覚感度特性を、いわゆるＡ特性としていたが、聴覚感度特性は、これに限るものではなく、例えば、いわゆるＢ特性や、いわゆるＣ特性であっても良い。つまり、聴覚感度特性は、人の聴覚の周波数特性を表すものであれば、どのようなものでも良い。

なお、上記実施形態では、音声評価処理をカラオケ装置にて実行していたが、音声評価処理を実行する装置は、これに限るものではなく、例えば、周知の情報処理装置（いわゆるパーソナルコンピュータ）にて実行しても良い。

［実施形態と特許請求の範囲との対応関係］
最後に、上記実施形態の記載と、特許請求の範囲の記載との関係を説明する。

上記実施形態の音声評価処理におけるＳ１２０及びＳ１４０が、特許請求の範囲の記載における特性取得手段に相当し、音声評価処理におけるＳ１５０が、特許請求の範囲の記載における音声波形取得手段に相当する。さらに、音声評価処理におけるＳ１６０〜Ｓ１８０が、特許請求の範囲の記載における周波数成分強度分布導出手段に相当し、音声評価処理におけるＳ１９０が、特許請求の範囲の記載における評価手段に相当する。

また、上記実施形態の音声評価処理におけるＳ１６０及びＳ１７０が、特許請求の範囲の記載における正規化手段に相当し、音声評価処理におけるＳ１１０が、特許請求の範囲の記載における楽譜データ取得手段に相当し、音声評価処理におけるＳ１３０は、特許請求の範囲の記載における帯域特定手段に相当する。

１…カラオケシステム２０…カラオケ装置２１…記憶部２２…通信部２３…表示部２４…操作受付部２５…音声入力部２６…マイクロホン２７…スピーカ２８…制御部２８ａ…ＲＯＭ２８ｂ…ＲＡＭ２８ｃ…ＣＰＵ２９…音声出力部３０…サーバ

Claims

人の聴覚の周波数特性を表す聴覚感度特性を取得する特性取得手段と、
楽曲の１つである対象楽曲の演奏中に入力された音の波形を表す音声波形を取得する音声波形取得手段と、
前記音声波形取得手段で取得した音声波形に含まれる周波数、及び各周波数成分の強さを表す周波数成分強度分布を導出する周波数成分強度分布導出手段と、
前記周波数成分強度分布導出手段で導出した周波数成分強度分布における周波数成分の強さの平均値が、予め規定された規定値に一致するように、当該周波数成分強度分布における周波数成分の強さを正規化する正規化手段と、
前記特性取得手段で取得した聴覚感度特性と、前記正規化手段で正規化された周波数成分強度分布とに基づいて、当該正規化された周波数成分強度分布と前記聴覚感度特性との差が小さいほど値が大きい音声パワーを導出し、該音声パワーが大きいほど、高い評価を出力する評価手段と、
前記対象楽曲の楽譜を表し、音源モジュールから出力される個々の出力音について、少なくとも音高及び出力開始タイミングが規定された楽譜データを取得する楽譜データ取得手段と、
前記楽譜データ取得手段で取得した楽譜データに基づいて、前記対象楽曲の少なくとも一部の区間における最低音高から最高音高までの周波数帯域である楽曲音域を導出し、該楽曲音域に含まれる１つの出力音の音高から該１つの出力音を基音とした第規定倍音の音高までの周波数帯域を表す音声成分帯域を前記楽曲音域に加えた音域である歌唱音声帯域を特定する帯域特定手段と
を備え、
前記特性取得手段は、
前記聴覚感度特性のうちの前記帯域特定手段にて特定された歌唱音声帯域に対応する周波数帯域での周波数特性を、前記聴覚感度特性として取得する
ことを特徴とする音声評価装置。
前記帯域特定手段は、
前記対象楽曲の時間進行に沿って、前記一部の区間として規定された区間ごとに前記歌唱音声帯域を順次特定し、
前記特性取得手段は、
前記帯域特定手段にて前記歌唱音声帯域が特定されるごとに、該歌唱音声帯域に対応する周波数帯域での周波数特性を、前記聴覚感度特性として取得する
ことを特徴とする請求項１に記載の音声評価装置。
人の聴覚の周波数特性を表す聴覚感度特性を取得する特性取得過程と、
楽曲の１つである対象楽曲の演奏中に入力された音の波形を表す音声波形を取得する音声波形取得過程と、
前記音声波形取得過程で取得した音声波形に含まれる周波数、及び各周波数成分の強さを表す周波数成分強度分布を導出する周波数成分強度分布導出過程と、
前記周波数成分強度分布導出過程で導出した周波数成分強度分布における周波数成分の強さの平均値が、予め規定された規定値に一致するように、当該周波数成分強度分布における周波数成分の強さを正規化する正規化過程と、
前記特性取得過程で取得した聴覚感度特性と、前記正規化過程で正規化された周波数成分強度分布とに基づいて、当該正規化された周波数成分強度分布と前記聴覚感度特性との差が小さいほど値が大きい音声パワーを導出し、該音声パワーが大きいほど、高い評価を出力する評価過程と、
前記対象楽曲の楽譜を表し、音源モジュールから出力される個々の出力音について、少なくとも音高及び出力開始タイミングが規定された楽譜データを取得する楽譜データ取得過程と、
前記楽譜データ取得過程で取得した楽譜データに基づいて、前記対象楽曲の少なくとも一部の区間における最低音高から最高音高までの周波数帯域である楽曲音域を導出し、該楽曲音域に含まれる１つの出力音の音高から該１つの出力音を基音とした第規定倍音の音高までの周波数帯域を表す音声成分帯域を前記楽曲音域に加えた音域である歌唱音声帯域を特定する帯域特定過程と
を備え、
前記特性取得過程は、
前記聴覚感度特性のうちの前記帯域特定過程にて特定された歌唱音声帯域に対応する周波数帯域での周波数特性を、前記聴覚感度特性として取得する
ことを特徴とする音声評価方法。
人の聴覚の周波数特性を表す聴覚感度特性を取得する特性取得手順と、
楽曲の１つである対象楽曲の演奏中に入力された音の波形を表す音声波形を取得する音声波形取得手順と、
前記音声波形取得手順で取得した音声波形に含まれる周波数、及び各周波数成分の強さを表す周波数成分強度分布を導出する周波数成分強度分布導出手順と、
前記周波数成分強度分布導出手順で導出した周波数成分強度分布における周波数成分の強さの平均値が、予め規定された規定値に一致するように、当該周波数成分強度分布における周波数成分の強さを正規化する正規化手順と、
前記特性取得手順で取得した聴覚感度特性と、前記正規化手順で正規化された周波数成分強度分布とに基づいて、当該正規化された周波数成分強度分布と前記聴覚感度特性との差が小さいほど値が大きい音声パワーを導出し、該音声パワーが大きいほど、高い評価を出力する評価手順と、
前記対象楽曲の楽譜を表し、音源モジュールから出力される個々の出力音について、少なくとも音高及び出力開始タイミングが規定された楽譜データを取得する楽譜データ取得手順と、
前記楽譜データ取得手順で取得した楽譜データに基づいて、前記対象楽曲の少なくとも一部の区間における最低音高から最高音高までの周波数帯域である楽曲音域を導出し、該楽曲音域に含まれる１つの出力音の音高から該１つの出力音を基音とした第規定倍音の音高までの周波数帯域を表す音声成分帯域を前記楽曲音域に加えた音域である歌唱音声帯域を特定する帯域特定手順と
をコンピュータに実行させ
前記特性取得手順では、
前記聴覚感度特性のうちの前記帯域特定手順にて特定された歌唱音声帯域に対応する周波数帯域での周波数特性を、前記聴覚感度特性として取得する
ことを特徴とするプログラム。