JP2008015214A

JP2008015214A - 歌唱力評価方法及びカラオケ装置

Info

Publication number: JP2008015214A
Application number: JP2006186167A
Authority: JP
Inventors: Hideyo Takeuchi; 英世竹内; Masahiro Hoguro; 政大保黒; Taizo Umezaki; 太造梅崎
Original assignee: UME TECH KK; DDS KK
Current assignee: UME TECH KK; DDS KK
Priority date: 2006-07-06
Filing date: 2006-07-06
Publication date: 2008-01-24

Abstract

【課題】人間の主観評価に近い得点を算出できる歌唱力評価方法、人間の主観評価に近い
得点を算出できる歌唱力評価機能を有するカラオケ装置を提供すること。
【解決手段】ピッチ抽出部１３は、マイク２から入力された音声信号からピッチ抽出を行
う。ピッチ抽出部１３は人間の全歌唱音域にて半音階を１０等分以上に分割できる非常に
高い音程分解能を持つピッチを抽出する。ビブラート検出部１４は入力音声信号からビブ
ラート検出を行う。得点算出部１５は入力音声を通常歌唱区間とビブラート歌唱区間に分
離して採点する。通常歌唱区間における採点では、ピッチが平均律音階に乗っているかど
うかを判定し、その判定結果を基に得点を算出する。
【選択図】図２

Description

本発明は、歌唱力評価方法及びカラオケ装置に関する。

現在市販されている殆ど全てのカラオケ装置には、カラオケ採点機能が付いている。従
来のカラオケ採点は、マイクから入力された歌唱者の歌声から抽出した音程（ピッチ）と
ガイドメロディの音程を比較して、その一致度に基づき得点を算出するというものである
。

カラオケ採点装置において、歌唱者の歌声からピッチ（音程）を抽出するピッチ抽出手
段は最も重要な機能の一つである。カラオケ採点に用いられるピッチ抽出法としては、特
許文献２の発明に記載されている高速フーリエ変換法が一般的である。一方、主に音声認
識用途に研究されてきたピッチ抽出法としては、非特許文献１及び非特許文献２に記載さ
れている自己相関関数法、非特許文献３に記載のケプストラム法、非特許文献２で提案さ
れている平方根・４乗根スペクトルの自己相関関数法、非特許文献１に記載の対数スペク
トルの自己相関関数法などが知られている。

さらに、上手な歌唱者がアドリブ歌唱を行った場合を考慮したカラオケ採点技術も発明
されている。特許文献１・特許文献２では、歌唱者の音程とガイドメロディを比較するだ
けではなく、ガイドメロディと調和音の関係にある調和音程（アベイラブルノートスケー
ル）を歌唱者の音程と比較し、得点を算出することでアドリブ歌唱に対応している。調和
音程（アベイラブルノートスケール）とは、主旋律や伴奏情報（コード）から導きだすも
ので、不協和音にはならない音程のことをいう。
國枝伸行，島村徹也，鈴木誠史， "対数スペクトルの自己相関関数を利用したピッチ抽出法"，電子情報通信学会論文誌（Ａ），Ｊ８０−Ａ，３，ｐｐ４３５−４４３，１９９７．吉尾重治，趙奇方，島村徹也，鈴木誠史，"平方根及び４乗根パワースペクトルの自己相関に基づくピッチ抽出"，電子情報通信学会論文誌（Ａ），Ｊ８４−Ａ，３，ｐｐ４３６−４４０，２００１．平井重行，片寄晴広，井口征士， "歌の調子外れに対する治療支援システム"，電子情報通信学会論文誌（Ｄ−ＩＩ），Ｊ８４−Ｄ−ＩＩ，９，ｐｐ１９３３−１９４１，２００１．特開平１１−２４９６７４号公報特開２００４−１０２１４７号公報

しかし、これらのカラオケ採点法は人間の感性に合わないとしばしば指摘される。これ
らの採点法が人間の主観に合わない原因について分析すると、「歌唱者の歌声から抽出す
るピッチ抽出精度の問題」、「歌唱力採点法の問題」の２つの要因に分解できる。以下、
これらの問題点について具体的に説明する。

まず、歌唱者の歌声から抽出するピッチ抽出精度の問題について説明する。歌唱力評価
装置に必要なピッチ抽出法は、人が歌うときの全音域を精度良く分析できるのが理想的で
ある。人が歌うときの音域を表３に示す。

一般の人がカラオケで歌う音域は、ベース系歌手が歌う昔のアニメソングや演歌などの
最低音（Ｆ２＝８７．３［Ｈｚ］付近）から、高音はクラッシックソプラノの最高音（Ｃ
６＝１０４６［Ｈｚ］付近）までと考えられる。従って、カラオケ採点用途の理想的なピ
ッチ抽出では、Ｄ２（７３．４［Ｈｚ］）〜Ｃ６（１０４６［Ｈｚ］）付近の約４オクタ
ーブの範囲を判別できれば十分である。しかし、４オクターブの範囲を精度良く検出でき
るピッチ抽出法はこれまで提案されていない。

一方、人間が何を基準に歌の上手い・下手を評価しているか？を観察すると、音楽の先
生が生徒に歌唱指導をするときに最も多く指摘することは"微妙に音程が高い"・"微妙に
音程が低い"というわずかな音程のずれである。例えばＣ４（ド）の音程を歌う歌唱者の
声が"上ずっている"場合、Ｃ４（ド）より半音高いＣ４＃（ド＃）を歌っていることは少
なく、Ｃ４とＣ４＃の中間で歌っていることが多い。つまり、人間の声には、五線譜に
乗らない音が存在する。図４０及び図４１に示すように、歌の上手い人は伴奏に合った音
程で歌うことが多いのに対し、歌があまり上手でない人の音程は伴奏と調和しない"微妙
にずれた音程"で歌ってしまうことが多い。従って、カラオケ採点装置が音楽の先生と同
じような歌唱力評価をするためには、歌唱者の歌声が音程からどれくらい離れているかを
非常に細かく分析できるピッチ抽出機能が必要である。"ド"と"ド＃"の違いを判別できる
程度の分解能では不十分で、"ド"と"ド＃"の間を最低１０等分できる程度の周波数分解能
が必要である。しかし、公知のピッチ抽出法でこれらの要件を満たすものは存在しない。

従来のピッチ分析手法の、周波数分解能の問題についてさらに詳しく説明する。図４２
は、自己相関関数法と、高速フーリエ変換法で分析可能なピッチ周波数ｆと周波数分解能
Δｆの関係を示したものである。なお、（ｘ）は半音階の周波数分解能で、（ｙ）は歌唱
力を正しく評価するために最低限必要と考えられる半音階の１／１０の周波数分解能の境
界を示している。高速フーリエ変換では分析ピッチに関わらず周波数分解能は一定である
。しかし、高速フーリエ変換の周波数分解能は常に（ｙ）の境界線より上にあるため、歌
唱力評価に十分な性能とは言えない。自己相関関数法では、ピッチ周波数が３００［Ｈｚ
］以下の帯域で歌唱力評価に十分な周波数分解能が得られるが、３００［Ｈｚ］以上の帯
域では周波数分解能は低く（粗く）なる。

ところで人間は、歌声の"音程が微妙に高い"，"微妙に低い"という違いを『周波数の高
低』としてではなく『音程の高低』として感じとる。歌唱力を正しく評価するためには、
『周波数分解能が高いピッチ抽出』ではなく『音程に対する分解能が高いピッチ抽出』が
必要と考える。以下、"音程に対する分解能"を"音程分解能"と記すことにする。図４２の
縦軸を『周波数分解能』から『音程分解能』に置き換えると図４３となる。音程分解能Δ
ｃ_ｉは数式２０で定義する。［ｃｅｎｔ］は音の高さの違いを表す単位で、１００［ｃ
ｅｎｔ］が半音の音程差に相当する。音程分解能Δｃ_ｉが５０［ｃｅｎｔ］なら半音階を
２等分して分析でき、音程分解能Δｃ_ｉが１０［ｃｅｎｔ］なら半音階を１０等分して分
析できるという意味になる。比較のため数式２１には、周波数分解能Δｆ_ｉの定義式を記
す。

音程分解能で考えた場合、（ｘ）半音階は１００［ｃｅｎｔ］の水平線、（ｙ）半音階
の１／１０の境界は１０［ｃｅｎｔ］の水平線として図４３に表現される。図４３からは
次のことが分かる。

会話認識用途のピッチ抽出法としてよく知られている自己相関関数法では、分析ピッチ
ｆ＝１００［Ｈｚ］のとき、音程分解能Δｃは約３［ｃｅｎｔ］で非常に細かく分析でき
る。一方、分析ピッチｆ＝１２００［Ｈｚ］のとき、音程分解能Δｃは４２．７［ｃｅｎ
ｔ］となり、半音階の１／２程度の粗い分解能でしか分析できない。自己相関関数では、
低音は細かい音程分解能で分析できるが、高音の音程分解能は粗い。１００［Ｈｚ］付近
は男性低音系の歌唱者が良く使う帯域、１２００［Ｈｚ］は女性ソプラノ系歌唱者が使う
最高音付近と考えられる。すなわち、自己相関関数によるピッチ抽出をそのままカラオケ
採点に用いると、ベース系歌唱者が音程の低い歌を歌った場合は非常に細かい分析ができ
るが、ソプラノ系歌唱者が高い音程の歌を歌ったときの分析精度は著しく低下することに
なる。

特許文献２でカラオケ採点用のピッチ抽出手段として用いられている高速フーリエ変換
では、音程分解能は低音で粗く高音で細かくなる傾向にある。ソプラノ系歌唱者の高い歌
声がやや細かく分析できる程度で、全帯域の音程分解能が非常に粗い。従来のカラオケ採
点装置は、"裏声などの高い声で歌うと高得点が出易い"としばしば指摘される。これは高
音域で高速フーリエ変換の音程分解能が比較的細かくなる特性によるものと考えられるが
、この程度の分解能では歌唱力を正しく評価するのに不十分である。

なお、図４２・図４３に示した高速フーリエ変換の周波数分解能及び音程分解能は、サ
ンプリング周波数４８０００［Ｈｚ］、分析フレーム長３０［ｍｓ］の分析条件で算出し
たものである。これは考えられる最良の分析条件におけるシミュレーション結果である。
実際には、計算量の問題から３０［ｍｓ］のフレーム長はさらに短くしなければ装置化で
きないと推測されるため、現在市販されているカラオケ採点装置のピッチ抽出部における
音程分解能はさらに粗くなっているはずである。

また、非特許文献１、非特許文献２及び非特許文献３に記載のケプストラム法、平方根
・４乗根スペクトルの自己相関関数法、対数スペクトルの自己相関関数法は、「一定長の
分析フレームに対して高速フーリエ変換を行う処理」を含むため、高速フーリエ変換を用
いたピッチ抽出法に比べ周波数分解能が大幅に改善されることはない。

上記のピッチ抽出法は、主に音声認識用に研究・開発されてきたものである。会話認識
・合成用途のピッチ抽出では、周波数分解能が粗いことは問題ではなかった。例えば、会
話音声の合成に用いるピッチが"半音"程度ずれて検出されても実用上問題は無いからであ
る。一方、カラオケ採点や歌唱力評価に用いるピッチ抽出技術に関する文献で、周波数分
解能や音程分解能について検討したものは過去に存在しない。"歌唱力評価用のピッチ抽
出法"はこれまで十分に考察されていなかったのが現状である。

次に、歌唱力採点方法の問題について説明する。ガイドメロディと歌唱者の歌声のピッ
チを比較して得点を算出する従来のカラオケ採点法が人間の主観と合わない理由を以下に
示す。

歌唱者のアドリブ歌唱、例えばプロのジャズシンガーがカラオケで歌った場合について
考える。ジャズシンガーは曲のコード進行をもとに、曲に合うフレーズを即興で作り出し
即興で演奏する。彼らは全てのフレーズを即興で作りだしているわけではない。アドリブ
の９０％〜３０％はあらかじめ覚えているフレーズを組み合わせたもの（別な曲のフレー
ズの使いまわし）である。プロのジャズシンガーはアドリブ歌唱で、ガイドメロディと全
く違う旋律を歌うことがあるが、一般の人はその歌声を聴いて"上手い"・"凄い"などと感
じる。

図４４は、カラオケのガイドメロディと歌唱者の歌声ピッチを比較したものである。カ
ラオケ装置で演奏されるガイドメロディはＭＩＤＩで作られるのが一般的である。ＭＩＤ
Ｉで作られたガイドメロディは直線的（機械的）な変化をするのに対し、歌声のピッチは
直線的にはならない。人間はどう頑張っても機械のようには歌えない。また、歌を聴く人
も機械的で直線的な歌い方が上手いとは感じない。さらに、原曲を歌う歌手の細かい表現
（音程変化：しゃくり上げ、ブルーノート、ビブラートなど）を、ＭＩＤＩで再現するの
は非常に難しいためガイドメロディと歌唱者の音程の間にどうしても差異ができる。

ＭＩＤＩ作者の意図と歌唱者の意図は一致しないことも多い。例えば、ガイドメロディ
は"フルート"・"サックス"など楽器の音色で作られることが多い。ＭＩＤＩ作者の中には
、人の"歌声"ではなく"フルート奏者"のソロ演奏をイメージしてガイドメロディを作る者
もいる。"フルート奏者"をイメージして作られたガイドメロディは、本来なら音符を切る
フレーズでも音符が伸ばしっぱなしになることがある。カラオケ演奏に使われるＭＩＤＩ
楽曲の質はＭＩＤＩ作者により左右される。

上述の理由により、歌とガイドメロディは本質的に異なるものである。従って、『歌が
ガイドメロディに忠実かどうか？』と『歌の上手い下手』はあまり関係がないと考えられ
る。歌唱者の歌声の音程とガイドメロディを比較する採点方式が、人間の主観と合わない
のは当然である。

次に、特許文献１・特許文献２に記載されているアドリブ歌唱を考慮した採点方式では
、ガイドメロディの他に、カラオケガイドメロディや伴奏情報から導き出した不協和音に
はならない調和音程も考慮して採点を行う。しかし、これらの方法には以下の問題点があ
る。

例えばジャズシンガーが良く使う"別な曲のフレーズの使いまわし"がいつもコードや調
和音程に乗るとは限らない、実際には不協和音になる瞬間が存在する。また稀に高度な技
術を持った歌唱者が、意図的に不協和音を作る場合もある。上手な歌唱者はコードに載っ
ていない音や不協和音も上手に使う。ジャズシンガーの自由なアドリブ歌唱は、ガイドメ
ロディやコードから導き出した調和音程に当てはまらない場合がある。

また、コード推定や調和音程の推定には複雑なアルゴリズムが必要となるため、調和音
程（アベイラブルノートスケール）を高い精度で推定することは難しい。さらに、カラオ
ケ楽曲によっては、ＭＩＤＩを採用せず、生バンドの演奏を録音したものもある。生バン
ドの演奏から、コードを調べるためには高速・高性能な演算装置が必要となり、カラオケ
装置のコストアップにつながる。

以上の説明より、人間の主観と相関の強い採点ができるカラオケ採点装置を作るために
は、それぞれ、ピッチ抽出部、歌唱力採点部について根本的な見直しを行う必要がある。

本発明は上記問題を解決するためになされたものであり、人間の主観評価に近い得点を
算出できる歌唱力評価方法、人間の主観評価に近い得点を算出できる歌唱力評価機能を有
するカラオケ装置を提供する。

上記目的を達成するために、本発明の請求項１に記載の歌唱力評価方法は、コンピュー
タに、音声信号入力手段から入力された歌唱者の歌声信号からピッチ（音程）を抽出させ
るピッチ抽出ステップと、当該ピッチ抽出ステップを実行させて得られたピッチ情報をピ
ッチ記憶手段に記憶させるピッチ記憶ステップを実行させ、前記ピッチ記憶手段より前記
ピッチを読み出し、読み出されたピッチと当該ピッチの最近傍にある平均律音階上の音程
との最小距離を算出し、当該最小距離が小さいほど高い得点を算出させることを特徴とす
る。

また、本発明の請求項２に記載の歌唱力評価方法は、コンピュータに、音声信号入力手
段から入力された歌唱者の歌声信号からピッチ（音程）を抽出させるピッチ抽出ステップ
と、当該ピッチ抽出ステップを実行させて得られたピッチ情報をピッチ記憶手段に記憶さ
せるピッチ記憶ステップを実行させ、前記ピッチ記憶手段より前記ピッチを読み出し、読
み出されたピッチと当該ピッチの最近傍にある純正律音階上の音程との最小距離を算出し
、当該最小距離が小さいほど高い得点を算出させることを特徴とする。

また、本発明の請求項３に記載の歌唱力評価方法は、請求項１乃至請求項２の何れかに
記載の発明の構成に加え、前記ピッチ抽出ステップは全分析音域において半音階を１０分
割以上できる音程分解能を備えるピッチを抽出することを特徴とする。

また、本発明の請求項４に記載の歌唱力評価方法は、コンピュータに、音声信号入力手
段より入力された歌唱者の歌声信号からピッチ（音程）情報を抽出させ、ピッチ記憶手段
に記憶させるピッチ抽出・記憶ステップと、前記音声信号入力手段より入力された歌唱者
の歌声信号からビブラート情報を検出させ、ビブラート記憶手段に記憶させるビブラート
検出・記憶ステップとを実行させ、前記ピッチ記憶手段と前記ビブラート記憶手段より読
み出されたピッチ情報とビブラート情報を用いて歌唱区間をビブラート区間とそれ以外の
通常歌唱区間に分離し、分離されたビブラート区間と通常歌唱区間について別々に得点を
算出させる歌唱力評価方法で、前記通常歌唱区間の得点は請求項１乃至請求項３の何れか
に記載の歌唱力評価方法を実行して算出させることを特徴とする。

また、本発明の請求項５に記載の歌唱力評価方法は、コンピュータに、音声信号入力手
段より入力された歌唱者の歌声信号からピッチ（音程）情報を抽出させ、ピッチ記憶手段
に記憶させるピッチ抽出・記憶ステップと、前記音声信号入力手段より入力された歌唱者
の歌声信号からビブラート情報を検出させ、ビブラート記憶手段に記憶させるビブラート
検出・記憶ステップと、前記音声信号入力手段より入力された歌唱者の歌声信号から無声
音を判別することにより無声区間情報を抽出し、無声区間記憶手段に記憶させる無声区間
検出・記憶ステップと、前記音声信号入力手段より入力された歌唱者の歌声信号から音程
変化量を算出し、音程変化量記憶手段に記憶させる音程変化量抽出・記憶ステップとを実
行させ、前記ピッチ記憶手段、前記ビブラート記憶手段、前記無声区間記憶手段、前記音
程変化量記憶手段より読み出された各情報から、歌唱区間を無声区間、ビブラート区間、
ビブラート区間以外で音程変化量が大きい区間、それ以外の通常歌唱区間に分離し、それ
ぞれの歌唱区間に対して得点を算出させることを特徴とする歌唱力評価方法で、前記通常
歌唱区間の得点は請求項１乃至請求項３の何れかに記載の歌唱力評価方法を用いて算出さ
せることを特徴とする。

また、本発明の請求項６に記載の歌唱力評価方法は、請求項４乃至請求項５の何れかに
記載発明の構成に加え、前記ビブラート検出・記憶ステップとして、前記音声信号入力手
段より入力された音声信号から音程変化量を抽出する音程変化量抽出ステップと、当該音
程変化量抽出ステップを実行させて得られた音程変化量を音程変化量記憶手段に順次記憶
させる音程変化量記憶ステップと、前記音程変化量記憶手段より複数の音程変化量を読み
出し、読み出された複数の音程変化量により構成される一定区間長のフレームに対して自
己相関分析または相互相関分析を行うことで相関関数を算出する音程相関関数算出ステッ
プを実行させ、当該音程相関関数算出ステップを実行して得られた相関関数の特性を用い
て入力音声中のビブラート区間を検出することを特徴とする。

また、本発明の請求項７に記載の歌唱力評価方法は、請求項６に記載の発明の構成に加
え、前記音程変化量抽出ステップは、音声信号入力手段より入力された音声信号の周波数
分析を実行させスペクトルを算出するスペクトル算出ステップと、当該スペクトル算出ス
テップを実行させて得られたスペクトルをスペクトル記憶手段に記憶するスペクトル記憶
ステップと、前記スペクトル記憶手段より読み出された２つ以上のスペクトルのずらしマ
ッチングにより音程変化量を抽出することを特徴とする。

また、本発明の請求項８に記載の歌唱力評価方法は、請求項４乃至請求項７の何れかに
記載の発明の構成に加え、前記通常歌唱区間の得点をＤ_ｐ、前記ビブラート区間の得点を
Ｄ_ｒ、任意のパラメータをｘ_１，ｘ_２，…，ｘ_ｎと定義し、ｆ（Ｄ_ｐ，ｘ_１，ｘ_２，…，
ｘ_ｎ）は「Ｄ_ｐとｘ_１，ｘ_２，…，ｘ_ｎを引数に持つ関数」と定義したときに、前記ビブ
ラート区間の得点Ｄ_ｒは、Ｄ_ｒ＝ｆ（Ｄ_ｐ，ｘ_１，ｘ_２，…，ｘ_ｎ）として算出し、前記
ビブラート区間の得点Ｄ_ｒに、通常歌唱区間の得点Ｄ_ｐが反映されるように構成したこと
を特徴とする。

また、本発明の請求項９に記載の歌唱力評価方法は、請求項８に記載の発明の構成に加
え、前記ビブラート区間の得点は、前記通常歌唱区間の得点に実数である定数αを乗じて
算出することを特徴とする。

また、本発明の請求項１０に記載の歌唱力評価方法は、請求項９に記載の発明の構成に
加え、前記定数αをユーザの好みにより調整できることを特徴とする。

また、本発明の請求項１１に記載の歌唱力評価機能を有するカラオケ装置は、音声信号
入力手段から入力された歌唱者の歌声信号からピッチ（音程）を抽出するピッチ抽出手段
と、当該ピッチ抽出手段により得られたピッチ情報を記憶するピッチ記憶手段を備え、前
記ピッチ記憶手段より前記ピッチを読み出し、当該ピッチの最近傍にある平均律音階上の
音程との最小距離を算出し、当該最小距離が小さいほど高い得点を算出することを特徴と
する。

また、本発明の請求項１２に記載の歌唱力評価機能を有するカラオケ装置は、音声信号
入力手段から入力された歌唱者の歌声信号からピッチ（音程）を抽出するピッチ抽出手段
と、当該ピッチ抽出手段により得られたピッチ情報を記憶するピッチ記憶手段を備え、前
記ピッチ記憶手段より前記ピッチを読み出し、当該ピッチの最近傍にある純正律音階上の
音程との最小距離を算出し、当該最小距離が小さいほど高い得点を算出することを特徴と
する。

また、本発明の請求項１３に記載の歌唱力評価機能を有するカラオケ装置は、請求項１
１乃至請求項１２の何れかに記載の発明の構成に加え、前記ピッチ抽出手段は全分析音域
において半音階を１０分割以上できる音程分解能を備えることを特徴とする。

また、本発明の請求項１４に記載の歌唱力評価機能を有するカラオケ装置は、請求項１
１乃至請求項１３の何れかに記載の発明の構成に加え、音声信号入力手段より入力された
歌唱者の歌声信号からピッチ（音程）情報を抽出し、ピッチ記憶手段に記憶するピッチ抽
出手段と、前記音声信号入力手段より入力された歌唱者の歌声信号からビブラート情報を
検出し、ビブラート記憶手段に記憶するビブラート検出手段とを備え、前記ピッチ記憶手
段と前記ビブラート記憶手段より読み出されたピッチ情報とビブラート情報を用いて歌唱
区間をビブラート区間とそれ以外の通常歌唱区間に分離し、分離されたビブラート区間と
通常歌唱区間について別々に得点を算出することを特徴とする。

また、本発明の請求項１５に記載の歌唱力評価機能を有するカラオケ装置は、請求項１
１乃至請求項１３の何れかに記載の発明の構成に加え、音声信号入力手段より入力された
歌唱者の歌声信号からピッチ（音程）情報を抽出し、ピッチ記憶手段に記憶するピッチ抽
出手段と、前記音声信号入力手段より入力された歌唱者の歌声信号からビブラート情報を
検出し、ビブラート記憶手段に記憶するビブラート検出手段と、前記音声信号入力手段よ
り入力された歌唱者の歌声信号から無声音を判別することにより無声区間情報を抽出し、
無声区間記憶手段に記憶する無声区間検出手段と、前記音声信号入力手段より入力された
歌唱者の歌声信号から音程変化量を算出し、音程変化量記憶手段に記憶する音程変化量抽
出手段とを備え、前記ピッチ記憶手段、前記ビブラート記憶手段、前記無声区間記憶手段
、前記音程変化量記憶手段より読み出された各情報から、歌唱区間を無声区間、ビブラー
ト区間、ビブラート区間以外で音程変化量が大きい区間、それ以外の通常歌唱区間に分離
し、それぞれの歌唱区間に対して得点を算出することを特徴とする。

また、本発明の請求項１６に記載の歌唱力評価機能を有するカラオケ装置は、請求項１
４または請求項１５に記載の発明の構成に加え、前記ビブラート検出手段は、音声信号入
力手段より入力された音声信号から音程変化量を抽出する音程変化量抽出手段と、当該音
程変化量抽出手段により得られた音程変化量を音程変化量記憶手段に順次記憶する音程変
化量記憶手段と、前記音程変化量記憶手段より複数の音程変化量を読み出し、読み出され
た複数の音程変化量により構成される一定区間長のフレームに対して自己相関分析または
相互相関分析を行うことで相関関数を算出する音程相関関数算出手段と、当該音程相関関
数算出手段により得られた相関関数を記憶する音程相関関数記憶手段と、前記音程相関関
数記憶手段より読み出された相関関数の特性を用いて入力音声中のビブラート区間を検出
するビブラート検出手段とを備えることを特徴とする。

また、本発明の請求項１７に記載の歌唱力評価機能を有するカラオケ装置は、請求項１
６に記載の発明の構成に加え、前記音程変化量抽出手段は、音声信号入力手段より入力さ
れた音声信号に周波数分析を行いスペクトルを算出するスペクトル算出手段と、当該スペ
クトル算出手段を実施して得られたスペクトルを記憶するスペクトル記憶手段を備え、前
記スペクトル記憶手段より読み出された２つ以上のスペクトルのずらしマッチングにより
音程変化量を抽出することを特徴とする。

また、本発明の請求項１８に記載の歌唱力評価機能を有するカラオケ装置は、請求項１
４乃至請求項１７の何れかに記載の発明の構成に加え、前記通常歌唱区間の得点をＤ_ｐ、
前記ビブラート区間の得点をＤ_ｒ、任意のパラメータをｘ_１，ｘ_２，…，ｘ_ｎと定義し、
ｆ（Ｄ_ｐ，ｘ_１，ｘ_２，…，ｘ_ｎ）は「Ｄ_ｐとｘ_１，ｘ_２，…，ｘ_ｎを引数に持つ関数」
と定義したときに、前記ビブラート区間の得点Ｄ_ｒは、Ｄ_ｒ＝ｆ（Ｄ_ｐ，ｘ_１，ｘ_２，…
，ｘ_ｎ）として算出し、前記ビブラート区間の得点Ｄ_ｒに、通常歌唱区間の得点Ｄ_ｐが反
映されるように構成したことを特徴とする。

また、本発明の請求項１９に記載の歌唱力評価機能を有するカラオケ装置は、請求項１
８に記載の発明の構成に加え、前記ビブラート区間の得点は、前記通常歌唱区間の得点に
実数である定数αを乗じて算出することを特徴とする。

また、本発明の請求項２０に記載の歌唱力評価機能を有するカラオケ装置は、請求項１
９に記載の発明の構成に加え、前記定数αをユーザの好みにより調整できることを特徴と
する。

なお、本発明の請求項に言う『ピッチ抽出ステップ』としては、「音声信号入力手段よ
り入力された音声信号の自己相関分析または相互相関分析を実行させ相関関数を算出させ
る相関関数算出ステップと、当該相関関数算出ステップを実行させて得られた相関関数を
相関関数記憶手段に記憶させる相関関数記憶ステップと、前記相関関数記憶手段より読み
出された相関関数を複数の周波数帯域毎の部分相関関数に分割し、各帯域の部分相関関数
を重ね合わせ合成させることで高音域の周波数分解能を低音域の周波数分解能で補い、高
音域の周波数分解能を向上させた合成相関関数を算出させる合成相関関数算出ステップと
、当該合成相関関数算出ステップを実行して得られた合成相関関数を合成相関関数記憶手
段に記憶させる合成相関関数記憶ステップと、前記合成相関関数記憶手段より読み出され
た合成相関関数に極値を与える周波数をピッチとして抽出させるピッチ抽出ステップとを
実行させることを特徴とするピッチ抽出ステップ」を採用した構成としても良い。

また、本発明の請求項に言う『ピッチ抽出手段』としては、「音声信号入力手段より入
力された音声信号に自己相関分析または相互相関分析を行い相関関数を算出する相関関数
算出手段と、当該相関関数算出手段により得られた相関関数を記憶する相関関数記憶手段
と、前記相関関数記憶手段より読み出された相関関数を複数の周波数帯域毎の部分相関関
数に分割し、各帯域の部分相関関数を重ね合わせ合成することで高音域の周波数分解能を
低音域の周波数分解能で補い、高音域の周波数分解能を向上させた合成相関関数を算出す
る合成相関関数算出手段と、当該合成相関関数算出手段により得られた合成相関関数を記
憶する合成相関関数記憶手段とを備え、前記合成相関関数記憶手段より読み出された合成
相関関数に極値を与える周波数をピッチとして抽出するピッチ抽出手段」を採用した構成
としても良い。

本発明の請求項１に記載の歌唱力評価方法は、カラオケのガイドメロディなどにとらわ
れない自由な歌唱力評価を可能とする。

また、本発明の請求項２に記載の歌唱力評価方法は、カラオケのガイドメロディなどに
とらわれない自由な歌唱力評価を可能とする。

また、本発明の請求項３に記載の歌唱力評価方法は、請求項１乃至請求項２の何れかに
記載の歌唱力評価方法に加え、ピッチ抽出ステップが全分析音域において半音階を１０分
割以上できる音程分解能を備えることにより、音楽の先生が歌を評価するときのような"
音程が微妙に高い"，"微妙に低い"といった特徴を歌唱力評価に反映させることができる
。

また、本発明の請求項４に記載の歌唱力評価方法は、請求項１乃至請求項３の何れかに
記載の歌唱力評価方法に加え、歌唱者のビブラート歌唱を考慮した歌唱力評価を可能とす
る。

また、本発明の請求項５に記載の歌唱力評価方法は、請求項１乃至請求項３の何れかに
記載の歌唱力評価方法に加え歌唱区間を無声区間、ビブラート区間、ビブラート区間以外
で音程変化量が大きい区間、それ以外の通常歌唱区間に分離し別々に得点を算出すること
で精密な歌唱力評価を実現することができる。

また、本発明の請求項６に記載の歌唱力評価方法は、請求項４乃至請求項５の何れかに
記載の発明の構成に加え、入力音声信号より抽出された複数の音程変化量により構成され
るフレームに対して、自己相関分析を行う高精度なビブラート検出・記憶ステップを実行
することで、高精度な歌唱力評価を実現する。

また本発明の請求項７に記載の歌唱力評価方法は、請求項６に記載の発明の構成に加え
音程変化量の算出にスペクトルのずらしマッチングを利用することにより特に外乱の影響
に強い環境でも安定して音程変化量を算出できる利点がある。この構成の歌唱力評価方法
は、例えばノイズや外乱の多いカラオケＢＯＸなどに設置される歌唱力評価装置への搭載
に有効である。

また、本発明の請求項８に記載の歌唱力評価方法は、請求項４乃至請求項７の何れかに
記載の歌唱力評価方法において、通常歌唱区間から算出した得点を反映してビブラート歌
唱区間の得点を算出する構成としている。通常歌唱区間から算出した得点には歌唱者の「
音程の正確さ」が反映されるため、請求項８に記載の歌唱力評価方法は、ビブラート歌唱
区間の得点に「音程の正確さ」を加味することが可能である。

また、本発明の請求項９に記載の歌唱力評価方法は、請求項８に記載の歌唱力評価方法
において、前記通常歌唱区間の得点に定数αを乗ずることで、ビブラート歌唱区間の得点
をより簡単な構成で算出することができる。

また、本発明の請求項１０に記載の歌唱力評価方法は、請求項９に記載の歌唱力評価に
おけるビブラートの寄与度を例えばカラオケＢＯＸのオーナーが好みにより調整できるよ
うにすることができる。

また、本発明の請求項１１に記載の歌唱力評価機能を有するカラオケ装置は、通常のカ
ラオケ採点と異なりカラオケのガイドメロディなどにとらわれない自由な歌唱力評価を可
能とする。

また、本発明の請求項１２に記載の歌唱力評価機能を有するカラオケ装置は、通常のカ
ラオケ採点と異なりカラオケのガイドメロディなどにとらわれない自由な歌唱力評価を可
能とする。

また、本発明の請求項１３に記載の歌唱力評価機能を有するカラオケ装置では、請求項
１１乃至請求項１２の何れかに記載の歌唱力評価方法に加え、ピッチ抽出ステップが全分
析音域において半音階を１０分割以上できる音程分解能を備えることにより、音楽の先生
が歌を評価するときのような"音程が微妙に高い"，"微妙に低い"といった特徴を歌唱力評
価に反映させることができる。

また、本発明の請求項１４に記載の歌唱力評価機能を有するカラオケ装置は、請求項１
１乃至請求項１３の何れかに記載の発明の構成に加え、歌唱者のビブラート歌唱を考慮し
た歌唱力評価を可能とする。

また、本発明の請求項１５に記載の歌唱力評価機能を有するカラオケ装置は、請求項１
１乃至請求項１３の何れかに記載の発明の効果に加え、歌唱区間を無声区間、ビブラート
区間、ビブラート区間以外で音程変化量が大きい区間、それ以外の通常歌唱区間に分離し
別々に得点を算出することで精密な歌唱力評価を実現できる利点がある。

また、本発明の請求項１６に記載のカラオケ装置は、入力音声信号より抽出された複数
の時系列音程変化量に対して自己相関分析を行う検出精度の高いビブラート検出手段を備
える。カラオケ装置に搭載される歌唱力評価機能は、高精度なビブラート検出手段を備え
ることで、ビブラート歌唱に対応した高精度な歌唱力評価が可能となる。

また、本発明の請求項１７に記載の歌唱力評価機能を有するカラオケ装置は、請求項１
６に記載の発明の構成に加え、スペクトルのずらしマッチングを用いたより信頼性の高い
音程変化量抽出手段を採用した構成である。この構成のカラオケ装置は、特にノイズや外
乱の多い環境に設置される場合でも安定して高精度なビブラート検出ができ、ビブラート
歌唱に対応した高精度で信頼性の高い歌唱力評価が可能となる。

また、本発明の請求項１８に記載の歌唱力評価機能を有するカラオケ装置は、請求項１
４乃至請求項１７の何れかに記載の発明の構成に加え、通常歌唱区間から算出した得点を
反映してビブラート歌唱区間の得点を算出する構成としている。通常歌唱区間から算出し
た得点には歌唱者の「音程の正確さ」が反映されるため、請求項１８に記載の歌唱力評価
方法は、ビブラート歌唱区間の得点に「音程の正確さ」を加味することが可能である。

また、本発明の請求項１９に記載の歌唱力評価機能を有するカラオケ装置は、請求項１
８に記載の発明の構成に加え、前記通常歌唱区間の得点に定数αを乗ずることで、ビブラ
ート歌唱区間の得点をより簡単に算出することができる。

また、本発明の請求項２０に記載の歌唱力評価機能を有するカラオケ装置は、請求項１
９に記載の歌唱力評価におけるビブラートの寄与度を例えばカラオケＢＯＸのオーナーが
好みにより調整できる利点がある。

次に本発明を適用した実施の形態について図面を参照して詳しく説明する。まず本発
明の第一実施形態として、歌唱力評価装置を搭載したカラオケ装置について説明する。図
１は第一実施形態におけるカラオケ採点装置の外観である。図１に示すように、カラオケ
装置１にはマイク２、ディスプレイ３、ＡＭＰ４が接続されており、ＡＭＰ４にはスピー
カ５が接続されている。

図２は、カラオケ装置１の内部構造について説明したブロック図である。図２に示すよ
うに、カラオケ装置はＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１９
を中心にした電子回路で構成される。ＣＰＵ１９はＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉ
ｖｅ）１８、ビデオコントローラ６、ミキサ７、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓ
Ｍｅｍｏｒｙ）９、採点処理部１２に接続され、各機器の動作を制御する。マイク２は、
カラオケ装置１内部のＡ／Ｄ変換部１７に接続される。Ａ／Ｄ変換部１７は、ＲＡＭ９と
ミキサ７に接続される。ミキサ７は演奏装置８に接続されており、ミキサ７の出力を演奏
装置８を経由して外部のＡＭＰ４に伝える。ＲＡＭ９には、Ａ／Ｄ変換部１７、採点処理
部１２、ＣＰＵ１９が接続されている。ＲＡＭ９にはＡ／Ｄ変換部１７によりＡ／Ｄ変換
された音声信号、採点処理部１２により算出されたカラオケ採点結果などが記録される。

採点処理部１２は、ピッチ抽出部１３、ビブラート検出部１４、得点算出部１５から構
成され、ピッチ抽出部１３とビブラート検出部１４の出力を基に、得点算出部１５で得点
算出を行う構造になっている。

ＨＤＤ１８には、多数のカラオケ曲の背景映像、演奏データ、歌詞テロップ、その他の
情報が蓄えられている。操作部１６は、パネルスイッチや、リモコン受信回路から成り、
ユーザによる操作信号をＣＰＵ１９に伝える。歌い手が多数のカラオケ曲から特定の曲を
選択し操作部１６より入力すると、ＣＰＵ１９は、その信号を受けてＨＤＤ１８より該当
するカラオケ曲の演奏データを読み出し、ミキサに出力する。

一方、マイク２より入力された歌唱者の歌声は、Ａ／Ｄ変換部１７でサンプリングされ
、ミキサ７に送られる。ミキサ７はマイク２から入力された歌唱者の歌声とＨＤＤ１８よ
り読み出された演奏データを合成し、演奏装置８に出力する。合成された演奏データはＡ
ＭＰ４を経由してスピーカ５から出力される。同時に、ＣＰＵ１９は背景映像および歌詞
テロップをビデオコントローラ６に送る。歌詞テロップは、演奏と同期してディスプレイ
３に表示され、現在演奏されている歌詞テロップの色が変化していく。歌唱者は歌詞テロ
ップを見ながら伴奏に従って歌を歌う。この一連の動作制御はＣＰＵ１９が担当している
。

次に、採点処理部１２の動作について説明する。カラオケ装置に付属するカラオケ採点
機能を使用するかどうかは歌唱者の意思に委ねられる。カラオケ採点を希望する歌唱者は
操作部１６を操作して、採点機能をＯＮにする。歌唱者のカラオケ歌唱が始まると、ＣＰ
Ｕ１９は採点処理部１２に採点開始指示を与える。採点開始指示を与えられた採点処理部
１２はカラオケ採点を開始する。マイク２より入力された歌唱者の歌声は、Ａ／Ｄ変換部
１７によりサンプリングされ、ＤＭＡ（ＤｉｒｅｃｔＭｅｍｏｒｙＡｃｃｅｓｓ）に
よりＲＡＭ９に音声信号として記録される。ピッチ抽出部１３はＲＡＭ９から音声信号を
読み出し、ピッチを算出する。同時に、ビブラート検出部１４はＲＡＭ９から音声信号を
読み出し、ビブラートを検出する。得点算出部１５はピッチ抽出部１３より検出されたピ
ッチ情報と、ビブラート検出部１４により検出されたビブラート情報に基づき、得点を算
出する。算出された得点は、採点結果としてＲＡＭ９に書き込まれる。なお、このＡ／Ｄ
変換部１７が請求項に言う音声信号入力手段に相当する。

演奏終了後、ＣＰＵ１９が採点終了指示を採点処理部１２に与えると、カラオケ採点処
理は終了する。ＣＰＵ１９はＲＡＭ９から読み出した採点結果をビデオコントローラ６に
送る。採点結果はディスプレイ３に表示され、歌唱者は歌の採点結果を確認し一喜一憂す
る。なお、本実施形態では演奏終了後に得点をディスプレイ３に表示しているが、これに
限らず歌唱者が歌い始めてから現時点までの中間得点を順次ディスプレイに表示していき
歌唱者が歌いながら得点を確認できる構造にしても良い。

第一実施形態では、採点処理部１２は、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒ
ｏｃｅｓｓｏｒ）と採点処理を行う採点専用ファームウェアによって構成される。通常の
カラオケ採点装置ではＤＳＰはピッチ算出のみに用いられ、採点処理はＣＰＵが行う構成
が多かったが、本実施形態では採点に関わる殆ど全ての処理をＤＳＰ（採点処理部）が担
当する。この構成により、採点回路設計の自由度が格段に向上すると共に非常に詳細な分
析が可能となる。

次に、ＲＡＭ９に設定される記憶領域について、図３を参照して説明する。音声信号記
憶メモリ９Ａは、Ａ／Ｄ変換部１７によりＡ／Ｄ変換された音声信号を記憶する領域であ
る。自己相関関数記憶メモリ９Ｂは、採点処理部１２内部にあるピッチ抽出部１３で算出
される自己相関関数を記憶する領域である。合成自己相関関数記憶メモリ９Ｃは、ピッチ
抽出部１３で算出される合成自己相関関数を記憶する領域である。有声・無声判定結果記
憶メモリ９Ｄは、ＲＡＭ９より読み出された切り出し音声フレームが有声音か？無声音か
？判定した結果を記憶する領域である。ピッチ記憶メモリ９Ｅは、ピッチ抽出部１３で算
出されるピッチを記憶する領域である。ピッチ変化量Ｉ記憶メモリ９Ｆは、ビブラート検
出部１４により算出されたピッチ変化量Ｉを記憶する領域である。ピッチ変化量ＩＩ記憶
メモリ９Ｇは、ビブラート検出部１４により算出されたピッチ変化量ＩＩを記憶する領域
である。ビブラート情報記憶メモリ９Ｈは、ビブラート検出部１４により算出されたビブ
ラート情報を記憶する領域である。瞬時得点記憶メモリ９Ｉは、得点算出部１５により算
出された瞬時得点を記憶する領域である。累積得点記憶メモリ９Ｊは、得点算出部１５に
より算出された累積得点を記憶する領域である。ビブラート比率記憶メモリ９Ｋは、採点
におけるビブラートの寄与度を記憶する領域である。ワークメモリ９Ｗは、採点処理部が
、採点処理の一時記憶などに使用する領域である。なお、この自己相関関数記憶メモリ９
Ｂ及び合成相関関数記憶メモリ９Ｃが請求項にいう「スペクトル記憶手段」に相当する。
また、ピッチ記憶メモリ９Ｅが請求項に言う「ピッチ記憶手段」に相当し、ビブラート情
報記憶メモリ９Ｈが請求項にいう「ビブラート記憶手段」に相当し、有声・無声判定結果
記憶メモリ９Ｄが請求項にいう「無声区間記憶手段」に相当する。また、ピッチ変化量Ｉ
記憶メモリ９Ｆ及びピッチ変化量ＩＩ記憶メモリ９Ｇは請求項にいう「音程変化量記憶手
段」に相当する。また、ワークメモリ９Ｗが請求項に言う「音程相関関数記憶手段」に相
当する。

図４は、採点処理部１２で行われる採点動作手順について説明したフローチャート、図
５は採点処理部１２のブロック図である。採点処理部１２の動作について、図３、図４、
図５を参照して説明する。採点処理部１２は、ピッチ抽出部１３、ビブラート検出部１４
、得点算出部１５より構成される。

まず、ピッチ抽出部１３の動作について図４に示すフローチャートを参照して説明する
。自己相関関数算出モジュール１３１は、ＲＡＭ９の音声信号記憶メモリ９Ａより読み出
された音声信号を基に自己相関関数を算出し、ＲＡＭ９の自己相関関数記憶メモリ９Ｂに
書き込む（Ｓ１０）。合成自己相関関数算出モジュール１３２は、ＲＡＭ９の自己相関関
数記憶メモリ９Ｂから読み出された自己相関関数を基に合成自己相関関数を算出し、ＲＡ
Ｍ９の合成自己相関関数記憶メモリ９Ｃに書き込む（Ｓ１１）。なお、合成自己相関関数
の詳細については後述する。有声・無声判定モジュール１３３は、ＲＡＭ９の自己相関関
数記憶メモリ９Ｂから読み出された自己相関関数を基に「入力音声が有声音か無声音か？
」の判定を行い、判定結果をＲＡＭ９の有声・無声判定結果記憶領域９Ｄに書き込む（Ｓ
１２）。ピッチ抽出モジュール１３４は、ＲＡＭ９の自己相関関数記憶メモリ９ＢとＲＡ
Ｍ９の合成自己相関関数記憶メモリ９Ｃから、自己相関関数と合成自己相関関数を読み出
し、これらを基にピッチ抽出を行い、検出されたピッチをＲＡＭ９のピッチ記憶メモリ９
Ｅに書き込む（Ｓ１３）。上述Ｓ１０〜Ｓ１３までの処理をピッチ抽出部１３が担当する
。なお、上記Ｓ１２の処理が請求項に言う「無声区間検出・記憶ステップ」に相当し、Ｓ
１２の処理を実行する採点処理部（ＤＳＰ）１２が「無声区間検出手段」に相当する。ま
た、上記Ｓ１３の処理が請求項に言う「ピッチ抽出ステップ」、「ピッチ記憶ステップ」
及び「ピッチ抽出・記憶ステップ」に相当し、Ｓ１３の処理を実行する採点処理部（ＤＳ
Ｐ）１２が「ピッチ抽出手段」に相当する。また、上記Ｓ１１の処理が請求項に言う「ス
ペクトル算出ステップ」及び「スペクトル記憶ステップ」に相当し、Ｓ１１の処理を実行
する採点処理部（ＤＳＰ）１２が「スペクトル算出手段」に相当する。なお、本実施形態
における自己相関関数や合成自己相関関数はスペクトルの一種と考えることができる。

次に、ビブラート検出部１４の処理について説明する。ピッチ変化量Ｉ算出モジュール
１４１は、ＲＡＭ９のピッチ記憶メモリ９Ｅより読み出されたピッチを基にピッチ変化量
Ｉを算出しＲＡＭ９のピッチ変化量Ｉ記憶メモリ９Ｆに書き込む（Ｓ１４）。ピッチ変化
量ＩＩ算出モジュール１４２は、ＲＡＭ９の合成自己相関関数記憶メモリ９Ｃより読み出
された合成自己相関関数を基にピッチ変化量ＩＩを算出し、ＲＡＭ９のピッチ変化量ＩＩ
記憶メモリ９Ｇに書き込む（Ｓ１５）。ビブラート検出モジュール１４３は、ＲＡＭ９の
ピッチ変化量ＩＩ記憶メモリ９Ｇより読み出されたピッチ変化量ＩＩを基にビブラート検
出を行い、ビブラート検出結果をＲＡＭ９のビブラート情報記憶メモリに書き込む（Ｓ１
６）。ビブラート検出モジュールの動作の詳細については後述する。上述Ｓ１４〜Ｓ１６
までの処理をビブラート検出部１４が担当する。なお、上記Ｓ１４またはＳ１５の処理が
請求項に言う「音程変化量抽出ステップ」、「音程変化量記憶ステップ」及び「音程変化
量抽出・記憶ステップ」に相当し、Ｓ１４及びＳ１５の処理を実行する採点処理部（ＤＳ
Ｐ）１２が「音程変化量抽出手段」に相当する。また、上記Ｓ１６の処理が請求項に言う
「ビブラート検出・記憶ステップ」に相当し、Ｓ１６の処理を実行する採点処理部（ＤＳ
Ｐ）１２が「ビブラート検出手段」に相当する。

得点算出部１５は、ＲＡＭ９の有声・無声判定結果記憶メモリ９Ｄ、ピッチ記憶メモリ
９Ｅ、ピッチ変化量Ｉ記憶メモリ９Ｆ、ピッチ変化量ＩＩ記憶メモリ９Ｇ、ビブラート情
報記憶メモリ９Ｈより、それぞれ有声・無声判定結果、ピッチ、ピッチ変化量Ｉ、ピッチ
変化量ＩＩ、ビブラート検出結果を読み出し、これらを基に得点算出を行う（Ｓ１７）。
処理Ｓ１７により得られた得点算出結果は、ＲＡＭ９の瞬時得点記憶メモリ９Ｉ、累積得
点記憶メモリ９Ｊに書き込まれる。これら一連の採点処理は、ＣＰＵ１９から採点終了指
示を受ける（Ｓ１８）ことで終了する。

以下、ピッチ抽出部１３、ビブラート検出部１４、得点算出部１５の動作とその物理的
意味について詳細に説明する。ピッチ抽出部１３では、低音のピッチ抽出に有利な自己相
関関数法を歌唱ピッチ抽出用に改良して用いる。

図６は自己相関関数によるピッチ抽出法について説明したものである。第一実施形態で
は、マイク２より入力された歌唱音声は、Ａ／Ｄ変換器１７によりサンプリング周波数
４８［ｋＨｚ］でサンプリングされ、ＲＡＭ９の音声信号記憶メモリ９Ａに書き込まれる
。採点処理部１２は、ＲＡＭ９の音声信号記憶メモリ９Ａから、１回の分析につき１４４
０［ｐｏｉｎｔ］の分析フレームを切り出し分析を行う。自己相関関数法では、『分析フ
レーム：Ｆ_０＝｛ｘ（１），ｘ（２），…，ｘ（Ｎ）｝』と『分析フレームをｉ［ｐｏｉ
ｎｔ］ずらしたもの：Ｆ_ｉ＝｛ｘ（ｉ），ｘ（１＋ｉ），…，ｘ（Ｎ＋ｉ）｝』の相関を
求める。相関値Ｒ（０，ｉ）を計算する式の一例を数式１に示す。

自己相関関数法では、Ｆ_０とＦ_ｉのずれ量ｉを１〜Ｎ［ｐｏｉｎｔ］まで変化させ、相
関値（類似度）Ｒ（０，ｉ）を順次算出していく。このようにして算出された自己相関関
数Ｒ（０，ｉ）は、メモリ９の自己相関関数記憶メモリ９Ｂに書き込まれる。

通常の自己相関関数を用いたピッチ抽出法では、ピッチ（基本周波数）ｆは、相関値Ｒ
（０，ｉ）を利用して数式２により算出される。数式２は、ずれ量ｉを順次変化させてい
ったときの相関値Ｒ（０，ｉ）が最大になるずれ量ａｒｇｍａｘ_ｉ｛Ｒ（０，ｉ）｝を
音声信号の基本周期として検出し、サンプリング周波数４８０００［Ｈｚ］を基本周期で
割ったものをピッチとして算出するという意味である。

表１（ａ）〜表１（ｃ）は自己相関関数法において、基本周期ｉのときに計算されるピ
ッチｆ_ｉを示したものである。表１（ａ）〜表１（ｃ）や図４３が示すように、自己相関
関数法は、低音域の音程分解能（周波数分解能）が細かくなり高音域の音程分解能が粗く
なる特徴をもつ。

図７（ａ）は男性歌唱者が発声したＡ４（４４０［Ｈｚ］）の歌声に自己相関分析を行
ったものである。自己相関関数は、周波数４４０［Ｈｚ］付近で最大値をとっている。一
方、２２０［Ｈｚ］付近，１１０［Ｈｚ］付近，４４０［Ｈｚ］付近でも自己相関関数は
極大値をとっている。これは、楽音（歌声）には"倍音"が存在するためである。例えば、
Ａ２（１１０Ｈｚ）で発声した歌声は、Ａ３（２２０Ｈｚ）の倍音やＡ４（４４０Ｈｚ）
の倍音を多く含む。

会話認識用途のピッチ抽出では、４４０［Ｈｚ］として検出すべきものを２２０［Ｈｚ
］／８８０［Ｈｚ］と誤って検出する半ピッチ／倍ピッチ誤りが問題となるが、カラオケ
採点用途のピッチ抽出では、半ピッチ／倍ピッチ誤りは大した問題ではないと考える。以
下その理由について説明する。４４０［Ｈｚ］を音階で表すと"Ａ４"である。２２０［Ｈ
ｚ］はＡ４より１オクターブ低い"Ａ３"、８８０［Ｈｚ］はＡ４より１オクターブ高い"
Ａ５"で、何れもＡ（ラ）の音である。カラオケでは、女性が男性歌手の歌を１オクター
ブ高い音程で歌うことがある。さらに、ガイドメロディーのピッチは歌唱者に聞き取り易
くするために原曲の１オクターブ上に設定してあることが多い。歌唱者のピッチとガイド
メロディは１オクターブ異なることもあるし、同じ音程となることもある。従って、カラ
オケ採点にはオクターブ情報は不要である。歌唱者が発声した音程が"Ａ４（４４０［Ｈ
ｚ］）なのか？"，"Ａ３（２２０［Ｈｚ］）なのか？"は問題では無く、音程がＡである
ことが分かれば十分である。

次に自己相関関数の音程分解能を向上させる方法について図７を参照して説明する。自
己相関関数を用いて分析された約４オクターブの帯域を、〔１〕７０〜１５０［Ｈｚ］帯
域、〔２〕１４０〜３００［Ｈｚ］帯域、〔３〕２８０〜６００［Ｈｚ］帯域、〔４〕５
６０〜１２００［Ｈｚ］帯域の４帯域（それぞれ１オクターブ強の帯域）に分割する（図
７（ａ）参照）。次に、〔１〕，〔２〕，〔３〕，〔４〕の各帯域の自己相関関数を加算
・合成する（図７（ｂ）参照）。図７（ｂ）の一部を拡大したものが図７（ｃ）である。
〔１〕の帯域では自己相関関数のポイント数が多く、〔４〕の範囲ではポイント数が少な
い。〔２〕〜〔４〕に、線形補間を行うことで、ポイント数の格差を無くしてから合成す
る。この方法は、高音域（例えば〔４〕）のポイント数を、低音域（〔１〕）のポイント
数で補うことになるため、高音域でピッチ抽出時の音程分解能が粗くなる問題を解消でき
る。さらに、自己相関関数を"補強"するため、突発的なノイズに強いピッチ抽出が可能と
なる。この合成した自己相関関数（以下、合成自己相関関数と記す）が最大値（または、
極大値・極小値・極値）をとる周波数（音程）をピッチ周波数ｆとして検出する。なお、
この合成処理によって生成された合成自己相関関数は１オクターブ強の周波数帯域を持つ
スペクトルとなる。従って、本実施形態における合成自己相関関数からは１オクターブ強
の帯域に整理されたピッチが抽出される。

図７（ｂ）に示す合成自己相関関数は音階毎の音声パワーの強さを示したものと考える
ことができる。図７（ｂ）の例では、パワーは"Ａ"と"Ｇ＃"の中間で最大値をとり、歌唱
者は『Ａ（ラ）より微妙に低い音程』で発声していることが分かる。合成自己相関関数を
用いることで、音程分解能の高い歌唱力評価用のピッチ抽出を実現できる。

しかし、前述の合成自己相関関数が最大値（または、極大値・極小値・極値）をとる周
波数（音程）をピッチとする方法では、フォルマント（声道の共振特性）の影響によりピ
ッチの誤検出が起きる場合がある。この現象について説明する。図８（ａ）は男性低音系
歌唱者の歌声から自己相関関数を算出した例である。この音程はＡ２＃で、自己相関関数
法により正しくピッチを求めることができる。一方、図８（ｂ）は合成自己相関関数と〔
１〕７０〜１５０［Ｈｚ］帯域の自己相関関数を重ね書きしたものである。自己相関関数
を合成することにより、フォルマント（声道の共振特性）の影響を受け、誤ったピッチ（
Ｄ）を検出していることが分かる。

声が低い場合や声に厚みがある（倍音が多い）場合はフォルマントの影響によりピッチ
の誤検出が起き易くなる。図８（ｂ）には、この問題を回避する方法についても説明して
いる。（ａ）自己相関関数からピッチｆを求めた後、（ｂ）合成自己相関関数が最大とな
る周波数をｆ±Δの範囲で最探索し、ピッチｆ’として求め直す『２段探索』を用いてピ
ッチ抽出する。２段探索を用いることで、フォルマントの影響によるピッチ誤検出を回避
できる。第一実施形態では、このようにして計算されたピッチｆがＲＡＭ９のピッチ記憶
メモリ９Ｅに書き込まれる。同様に合成自己相関関数はＲＡＭ９の合成自己相関関数記憶
メモリ９Ｃに書き込まれる。

図９には、合成自己相関関数をピッチ抽出に用いたときの音程分解能を示す。比較のた
め、自己相関関数法と高速フーリエ変換法の音程分解能も示す。合成自己相関関数は、（
ｙ）半音階の１／１０の音程分解能境界よりさらに細かい音程分解能を持ち、半音階を１
８〜３７等分することができる。従来のピッチ抽出法との検出精度の違いを例を用いて説
明する。例えば、高速フーリエ変換法では、歌唱者が１００［Ｈｚ］付近の低い音程で歌
った場合、音程分解能は３００［ｃｅｎｔ］程度となる。１００［ｃｅｎｔ］は半音の差
で、例えば『ド』と『ド＃』の違いである。３００［ｃｅｎｔ］は半音階の３倍である。
つまり、高速フーリエ変換によるピッチ抽出では、低音系男性歌唱者が『ド』で歌ってい
るのか『ド＃』で歌っているのかさえ判別できない。これに対し、本実施形態で示す合成
自己相関関数は周波数帯域に関わらず、半音階を最低１８分割して分析することが可能で
ある。『微妙に高いド＃』とか『微妙に低いド＃』を表現できる。

次に、歌唱者の歌声が有声音か無声音か判別する方法について簡単に説明する。人間の
声には有声音と無声音があるが、一般的に無声音からはピッチを算出することはできない
ことが知られている。このため、ピッチを算出する前に有声音・無声音判定を行う必要が
ある。有声・無声は、数式１で使用する自己相関関数の比Ｒ（０，ｉ_ｍａｘ）／Ｒ（０，
０）を用いて簡単に判定できる。Ｒ（０，ｉ_ｍａｘ）／Ｒ（０，０）が一定しきい値より
大きければ有声音、一定しきい値より小さければ無声音と判定する。本実施形態では、無
声音はピッチの信頼度が低いため歌唱力評価には用いない。また、有声・無声判定法とし
ては、自己相関関数の比に限らずゼロクロス法などの他の公知な有声・無声判定技術を用
いることもできる。

なお、本実施形態では、自己相関関数で分析する周波数帯域をカラオケ採点で必要と考
えられる４オクターブ（７０［Ｈｚ］〜１２００［Ｈｚ］）の範囲とし、〔１〕７０〜１
５０［Ｈｚ］帯域、〔２〕１４０〜３００［Ｈｚ］帯域、〔３〕２８０〜６００［Ｈｚ］
帯域、〔４〕５６０〜１２００［Ｈｚ］帯域の４帯域（それぞれ１オクターブ強の帯域）
に分割しているが、これに限らず、分析帯域は必要に応じて自由に変更することができる
。

例えば、世界屈指のアカペラグループのベースヴォーカルはＡ１（５５Ｈｚ）を発声す
ることができ、高音域を得意とする一部の女性ヴォーカルはＡ６（１７６０Ｈｚ）付近の
高音を含む旋律を歌うという事実もある。これらを考慮に入れて、５０［Ｈｚ］〜１７６
０［Ｈｚ］の帯域を分析する特別仕様の歌唱力評価システムを作ることもできる。この場
合、例えば人間の発声する音程を５０［Ｈｚ］〜１７００［Ｈｚ］の約５オクターブとし
て各分析帯域を、〔１〕５０〜１２０［Ｈｚ］帯域、〔２〕１００〜２４０［Ｈｚ］帯域
、〔３〕２００〜４８０［Ｈｚ］帯域、〔４〕４００〜９６０［Ｈｚ］帯域、〔５〕８０
０〜１９２０［Ｈｚ］帯域の５帯域に分割する。この方法では分析帯域を広げられるだけ
ではなく、音程分解能が飛躍的に向上する利点がある。図１０は、分析帯域を５０［Ｈｚ
］〜１７６０［Ｈｚ］としたときの音程分解能と、分析帯域を７０［Ｈｚ］〜１２００［
Ｈｚ］としたときの音程分解能を比較したものを示す。最低分析周波数を７０［Ｈｚ］か
ら５０［Ｈｚ］まで下げると音程分解能は２．５［ｃｅｎｔ］から１．８［ｃｅｎｔ］に
改善され、より細かい分析ができるようになる。

また、本実施形態ではサンプリング周波数４８０００［Ｈｚ］のＡ／Ｄ変換器１７を使
用した例を示しているが、例えばサンプリング周波数を９６０００［Ｈｚ］に変更しても
音程分解能を向上させることができる。例えば、プロ志向の歌唱者の歌声を分析する場合
には、最低分析周波数を下げる、サンプリング周波数を向上させるなどの調整をすること
が好ましい。ただし、最低分析周波数を下げたり、サンプリング周波数を上げたりすると
分析時間が長くかかることから、これらのパラメータはハードウェアの性能と、分析する
歌唱者のレベルを考慮に入れて適宜決定する必要がある。

なお、本実施形態では数式１に示した自己相関関数を用いてピッチ抽出を行っているが
、これに限らず、例えば数式１を数式３に置き換えることも可能である。数式３はユーク
リッド距離と呼ばれる尺度である。数式１を用いた実施形態では、「相関値Ｒ（０，ｉ）
が最大値（または極大値）をとるずれ量」を分析フレームの基本周期と判定しピッチ抽出
を行っていたが、これを数式３に置き換えた場合は「ユークリッド距離Ｒ（０，ｉ）が最
小値（または極小値）をとるずれ量」を分析フレームの基本周期と判定しピッチ抽出を行
うことができる。ここでいう相関関数は、数式１に限らず「切り出しフレーム同士のずら
し量を変化させて２フレームの相関（類似度）または距離（非類似度）を調べる関数」の
ことである。

また、本ピッチ抽出法の実施形態では、周波数帯域毎に分割した自己相関関数の重ね合
わせにより音程分解能の細かいピッチ抽出法を実現したが、これは例えば隣り合うフレー
ム同士の相関を算出する相互相関関数の重ね合わせでも実現できることは言うまでもない
。

これまで説明してきた、合成自己相関によるピッチ抽出手順の全貌を図１１に示す。採
点処理部１２は、ＲＡＭ９の音声信号記憶メモリ９Ａより音声信号を読み出す（図１１（
ａ）参照）。次に、読み出した音声信号から約３０［ｍｓ］のフレームを切り出す（図１
１（ｂ）参照）。図１１（ｃ）が切り出した音声信号フレームから算出された自己相関関
数である。図１１（ｄ）では、自己相関関数を４つの帯域に分割しこれらを重ね合わせる
ことで合成自己相関関数を求めている。図１１（ｅ）は合成自己相関関数の時系列データ
を９０度回転させて（図１１（ｆ）参照）音程毎のパワーの強さを色の濃さとして表現し
たものである。これは一種のソナグラムで音程毎のパワーの強さが時間の経過と共に変化
していく様子を観察するのに適している。図１１（ｇ）は合成自己相関関数から求めたピ
ッチ周波数（音階）である。本手法により、音程分解能が非常に細かい歌唱力評価用のピ
ッチ抽出が実現する。

次に、ピッチ変化量算出方法について図１２を参照して説明する。ピッチ抽出部１３は
ピッチと合成自己相関関数を算出し、結果をＲＡＭ９に書き込む。ピッチ変化量は、ピッ
チの差分として求める方法と合成自己相関関数のずらしマッチングを用いて求める方法の
２通りがある。ピッチ変化量Ｉ算出モジュール１４１では、ＲＡＭ９のピッチ記憶メモリ
９Ｅより読み出されたピッチを２フレーム分バッファリングし、現在のピッチｆ（ｔ＋１
）と一分析フレーム過去のピッチｆ（ｔ）を用いて、数式４によりピッチ変化量Ｉ（Δｆ
_ｐ）を算出し、ピッチ変化量Ｉ記憶メモリ９Ｆに書き込む。

しかし、ピッチｆ（ｔ）（スカラー）は突発的なノイズの影響を受け易いため、数式４
で算出されたピッチ変化量Ｉ（Δｆ_ｐ）は外乱の多い実環境に対応できない可能性がある
。より信頼性の高いピッチ変化量算出法として、合成自己相関パターン（ベクトル）のず
らしマッチングを用いたピッチ変化量ＩＩ算出も算出する。ピッチ変化量ＩＩ算出モジュ
ール１４２は、ＲＡＭ９の合成自己相関関数記憶メモリ９Ｃより読み出された合成自己相
関関数を２フレーム分バッファリングし、現在の合成自己相関関数と一分析フレーム過去
の合成自己相関関数を用いてピッチ変化量ＩＩ（Δｆ_ｓ）を算出し、ピッチ変化量ＩＩ記
憶メモリ９Ｇに書き込む。

合成自己相関関数のずらしマッチングによるピッチ変化量算出法について具体例を示し
たのが図１３である。図１３（ａ），（ｂ）では、歌声波形から合成自己相関関数を算出
している。

図１３（ｃ）では、合成自己相関関数の隣り合う２フレームｃｏｒ（ｔ，ｉ），ｃｏｒ
（ｔ＋１，ｉ）を切り出し、ずらしマッチングを行っている。ずらしマッチングでは、類
似度が最大となるずれ量Δｔ_ｓを２フレーム間のピッチ（音程）変化量として数式５によ
り求める。
数式６により、ずれ量Δｔ_ｓをピッチ変化量Δｆ_ｓに変換する。

図１３（ｄ）は合成自己相関関数のずらしマッチングにより求めたずれ量Δｔ_ｓである
。音程変化の算出に、合成自己相関関数ｃｏｒ（ｔ，ｉ）のずらしマッチングを用いるこ
とで突発的なノイズに影響され難い信頼性の高いピッチ変化量Δｆ_ｓの算出が可能となる
。

図１４は、数式４により算出した（比較的信頼性の低い）ピッチ変化量Ｉである。図１
４と図１３（ｄ）はほぼ同じ変化をしているが、図１４では突発的に変化量の大きい部分
（信頼性の低い部分）が出てくることがある。信頼性の高いピッチ変化量ＩＩ（Δｆ_ｓ）
と通常のピッチ変化量Ｉ（Δｆ_ｐ＝ｆ（ｔ）−ｆ（ｔ＋１））の差Ｄｆを用いてピッチｆ
（ｔ），ｆ（ｔ＋１）の信頼性を逆算することもできる（数式７参照）。
例えばＤｆが一定しきい値より大きいとき、ピッチ変化量Ｉ（Δｆ_ｐ）を算出する基と
なった信頼性の低いピッチｆ（ｔ），ｆ（ｔ＋１）を採点対象から除外するという使い方
ができる。

なお、数式５ではずらしマッチングの評価関数としてユークリッド距離を用いているが
、これに限らず、評価関数は２つのベクトルの類似度または非類似度（距離）を表す他の
関数で置き換えることができる。例えば数式５のユークリッド距離の式を相互相関関数に
おきかえても良い。

次に、ビブラート検出モジュール１４３の動作について図１５と図１６を参照して説明
する。図１５は、第一実施形態におけるビブラート検出手順を示すフローチャート、図１
６は第一実施形態におけるビブラート検出手順を示すブロック図である。ビブラート検出
モジュール１４３は、ピッチ変化量Δｆを入力として、ビブラート判定結果を出力する。
入力に用いるピッチ変化量Δｆは、ピッチ変化量Ｉ（Δｆ_ｐ）としても良いし、ピッチ変
化量ＩＩ（Δｆ_ｓ）としても良い。例えば、よりビブラート検出の信頼性を高めたい場合
はピッチ変化量ＩＩを用い、演算速度を優先したい場合はピッチ変化量Ｉを用いることも
できる。

ビブラート判定を行うためには、複数フレーム分のピッチ変化量Δｆが必要になる。例
えば、フレーム周期が１０［ｍｓ］の場合、ピッチ変化量は１０［ｍｓ］毎に１つ算出さ
れる。人間の歌声のビブラート周期は１４０［ｍｓ］〜３００［ｍｓ］であることから、
ビブラート算出には合計５００［ｍｓ］分程度のピッチ変化量が必要である。周期性算出
モジュール１４３Ａは、ＲＡＭ９のピッチ変化量ＩＩ記憶メモリ９Ｇ（またはピッチ変化
量Ｉ記憶メモリ９Ｆ）より読み出されたピッチ変化量信号５０フレーム分（５００［ｍｓ
］）のピッチ変化量Δｆをリングバッファに蓄えておき、蓄えられた音程変化量Δｆから
、正位相の相関係数、逆位相の相関係数、分散を算出しＲＡＭ９のワークメモリ９Ｗに記
録する（Ｓ１６１、Ｓ１６２、Ｓ１６３）。なお、上記Ｓ１６１の処理及びＳ１６２の処
理が請求項に言う「音程相関関数算出ステップ」及び「音程相関関数記憶ステップ」に相
当し、Ｓ１６１及びＳ１６２を実行する採点処理部（ＤＳＰ）１２が「音程相関関数算出
手段」に相当する。

正位相・逆位相合成モジュール１４３Ｂは、ワークメモリ９Ｗより正位相の相関係数と
逆位相の相関係数を読み出し、これらを合成した相関係数をワークメモリ９Ｗに書き込む
（Ｓ１６４）。ビブラート尺度算出モジュール１４３Ｃは、正位相・逆位相合成した相関
係数と分散をワークメモリ９Ｗから読み出し、正位相・逆位相合成した相関係数と分散か
らビブラート判定結果とビブラートの美しさを算出し、ＲＡＭ９のビブラート情報記憶メ
モリ９Ｋに書き込む（Ｓ１６５）。

次に、ピッチ変化量からビブラートを検出する手段について実データを用いて詳細に説
明する。図１７は、サンプリング周波数４８０００［Ｈｚ］で標本化された歌声波形であ
る。図１７に示す歌声波形からピッチ周波数を算出したものが図１８である。この歌声波
形にはピッチ周波数が正弦波状に変化しているビブラート区間と、それ以外の区間が存在
する。図１８のピッチの差分をとったものが図１９に示す音程変化波形である。以下、図
１９に示すビブラートなし区間Ａとビブラートあり区間Ｂを使ってビブラート検出の考え
方を説明する。

図２０はビブラートがかかっていない区間Ａの切り出し波形とその自己相関関数につい
て示したものである。自己相関関数は信号の周期性を調べるのに適している関数で、例え
ば次式で算出される。
図２０の例で説明すると、区間Ａの切り出し波形ｘ（ｔ_ｎ）とＡの切り出し波形をτずら
したものｘ（ｔ_ｎ＋τ）の積和をとったものが自己相関関数ｃ（τ）である。区間Ａはビ
ブラート区間ではなく周期性が弱いため、相関関数ｃ（τ）は弱い相関を示す。

一方、図２１は周期性のあるビブラート区間Ｂの切り出し波形について自己相関関数を
求めた例である。自己相関関数はビブラート周期に相当するずれ量τ＝１７のとき、強い
正の相関を示す。一方、τ＝１７の逆位相に相当するτ＝２５では強い負の相関が現れて
いる。負の相関は、ビブラート周期の半分の周期τ＝８付近にも現れる。τ＝８もτ＝１
７の逆位相に相当する。

図２２は図１９に示す音程変化波形の全切り出し区間について求めた正位相の自己相関
係数と、その相関係数の逆位相に相当する相関係数を示したものである。正位相の自己相
関係数は、１４０［ｍｓ］〜３００［ｍｓ］（１４〜３０［ｐｏｉｎｔ］）の範囲でずら
し量を変化させたときの自己相関関数の最大値Ｃ_ｍａｘとして求め、そのときのずれ量
をＰとする。音程変化に周期性がある場合、Ｐの半分のずれ量Ｐ／２（逆位相）では負の
相関が現れるはずである。そこで、ずれ量Ｐ／２のときの自己相関係数Ｃ_ｎｅｇを求める
。ビブラート区間では、正位相の相関係数は大きな値をとり、逆位相の相関係数は小さな
値をとることが分かる。自己相関関数に現れる正位相・逆位相の相関係数の特徴を用いて
高精度なビブラート検出を実現できる。

図２３は、正位相の相関係数Ｃ_ｍａｘと逆位相の相関係数Ｃ_ｎｅｇを合成したものであ
る。合成により、ビブラート区間とそれ以外の区間の差がますます顕著になる。図２３の
相関係数が一定しきい値を超えるフレームをビブラートとして判定することができる。本
手法により、精度の高いビブラート検出が可能である。ビブラートがきれいな周期性を持
っていれば、相関係数が大きくなるため、相関係数の大きさをビブラートの美しさとして
取り出し、後段の採点処理で利用することもできる。

さらに、各フレーム毎の音程変化量の差分信号について分散・標準偏差などの振幅情報
を算出し、「振幅が小さいフレームはビブラート区間と見なさない」などの判定条件を加
えることで、より信頼度の高いビブラート判定が実現できる。なお、ビブラート検出は、
正位相・逆位相の相関係数を合成したものを使って行っても良いし、正位相の相関係数、
逆位相の相関係数を単独で用いても良い。

なお、ここでいう自己相関関数は数式８に限らず、「切り出しフレーム同士のずらし量
を変化させて２フレームの相関（類似度）または距離（非類似度）を調べる関数」のこと
である。例えば、自己相関関数として数式８の代わりに数式９のユークリッド距離を採用
しても良い。

数式８はビブラート周期に相当するずれ量τで最大値をとる関数であるが、数式９はビ
ブラート周期に相当するずれ量τで最小値をとる関数である。同様に、ピッチ変化量の算
出には、数式５（ユークリッド距離）を評価関数として合成自己相関関数のずらしマッチ
ングを行う例を示したが、評価関数はユークリッド距離の代わりに自己相関関数を用いる
こともできる。

なお、本実施の形態においては、ピッチの差分をとった音程変化波形から相関係数を算
出しているが、これに限らずピッチ波形から直接自己相関関数を算出することもできる。
その場合数式１０に示すような形の自己相関関数を利用することが好ましい。

本実施形態で、ピッチの差分を用いているのは、ピッチ波形から直流分の影響を打ち消
すためである。数式１０では、ピッチの差分波形を用いる代わりに、ピッチ波形から平均
値を差し引いて相関関数を算出することにより、直流分（≒平均値）の影響を打ち消して
いる。

さらに、本実施の形態では、自己相関関数を用いてビブラート検出法を説明したが、例
えば同一フレーム同士から算出する自己相関係数の代わりに、隣り合うフレーム同士の相
関を求める相互相関関数を用いることもできる。

本ビブラート検出法では、１つのフレームがビブラート区間に属するかどうか？を５０
ポイントの切り出し波形を用いて算出しているため、ビブラート検出精度が非常に高い。

次に、得点算出部１５にの動作について詳細に説明する。第一実施形態では、入力音声
信号を表２に示す（ｉ）〜（ｉｖ）の４つの区間に分類する。（ｉ）無声区間と（ｉｉｉ
）ピッチの変化が激しい区間（音程変化量が大きい区間）は得点算出には用いず、（ｉｉ
）ビブラート区間と（ｉｖ）通常歌唱区間について得点算出を行う。

図２４は、第一実施形態における得点算出部１５の得点算出手順を示すフローチャート
、図２５は、得点算出部１５のブロック図である。信頼性算出モジュール１５１は、ＲＡ
Ｍ９の有声・無声判定結果記憶メモリ９Ｄ、ピッチ変化量Ｉ記憶メモリ９Ｆ及びピッチ変
化量ＩＩ記憶メモリ９Ｆよりそれぞれ有声・無声判定結果、ピッチ変化量Ｉ、ピッチ変化
量ＩＩを読み出し、これらを基にピッチの信頼性を算出し、算出されたピッチの信頼性を
ＲＡＭ９のワーク領域９Ｗに書き込む（Ｓ１７１）。瞬時得点算出モジュール１５２は、
ＲＡＭ９のピッチ記憶メモリ９Ｅ、ビブラート情報記憶メモリ９Ｈ、ビブラート比率記憶
メモリ９Ｋ、ワーク領域９Ｗよりそれぞれピッチ、ビブラート判定結果、ビブラート比率
、ピッチの信頼性を読み出し、歌唱者の歌声１分析フレーム分の瞬時得点を算出し、算出
した瞬時得点をＲＡＭ９の瞬時得点記憶メモリ９Ｉに書き込む（Ｓ１７２）。

ここで、ＲＡＭ９のビブラート比率記憶メモリ９Ｋに書き込まれるビブラート比率とは
得点におけるビブラートの寄与度を決定する係数で、例えばカラオケＢＯＸのオーナが好
みにより調整することができるパラメータである。得点累積モジュール１５３は、ＲＡＭ
９の瞬時得点記憶メモリ９Ｉより読み出された瞬時得点を累積し、カラオケ採点が始まっ
てから現在に至るまでの累積得点を算出し、ＲＡＭ９の累積得点記憶メモリ９Ｊに記録す
る（Ｓ１７３）。

カラオケ採点終了後、累積得点記憶メモリ９Ｊに記録された累積得点は、ＲＡＭ９より
読み出され、ビデオコントローラ６を経由して、ディスプレイ３に表示される。歌唱者は
、ディスプレイ３に表示された採点結果を見て一喜一憂する。なお、得点は累積得点をそ
のままディスプレイに表示しても良いし、得点変換関数や変換テーブルを通して変換をか
けたものを表示しても良い。これらの変換テーブルや変換関数は事前に得点分布の統計調
査を行った上で、例えば１００点が算出される確率が全体の５％以下になるように設計し
た変換テーブルや変換関数を用いる。

以下、得点算出部１５の得点算出原理について詳細に説明する。本発明の第一実施形態
に示すピッチ抽出部１３では、非常に音程分解能の高いピッチ（半音の幅を１８〜３８分
割して分析）を算出することができる。音程分解能が細かいため、従来のピッチ抽出法で
は困難であった"音程が微妙に上ずっている"・"微妙に低い"ということを識別できる。

図２６は、上手な歌唱者が歌った歌声について分析した結果である。図２７は同一の曲
を下手な歌唱者が歌ったものを分析した結果である。上手い人は音程が正確に１２音階に
乗っているが、下手な人では音程は１２音階から離れてくることが観察できる。

本実施形態に示す採点処理では、「歌唱者の歌声が１２音階に乗っているかどうか？」
だけを判定する。カラオケで再生されるＭＩＤＩ伴奏は平均律音階（１２音階）に乗った
音の集合である。歌声が心地よく聴こえるためには、少なくとも歌声はＭＩＤＩ伴奏と同
じ平均律音階（１２音階）に乗っていなければならない。本採点法では、ＭＩＤＩデータ
を参照せずに"音程が１２音階に乗っているかどうか？"だけを定量化するため、アドリブ
やフェイクの入った歌でも採点できる。歌の音程が１２音階に乗っていれば、ガイドメロ
ディの通りの音調でなくても「上手い」と考える。この採点法では歌唱者が不協和音で歌
った場合でも、音程が１２音階にさえ乗っていれば「上手い」と判定する。不協和音を１
２音階にしっかり乗せることは、声楽的には非常に高度な技術である。それが出来る人は
並外れた技術を持った歌唱者（実は相当上手い）と仮定している。

しかし、音階に乗っているかどうかだけでは歌唱力を十分に評価できない。人間の感性
に近い歌唱力評価をするためにはビブラート部分の評価も重要となってくる。図２８は、
図２６・図２７と同じ曲のフレーズをプロの歌手が歌ったときのピッチ変化である。歌が
上手い歌唱者はビブラートを多用することもある。ビブラート歌唱区間では、通常歌唱区
間と異なる採点方法が必要である。

また、音声認識の分野では、入力音声が無声音の場合はピッチを正確に算出すること
ができないことが知られている。本発明の第一実施形態に示す採点では、入力音声信号に
対し有声・無声判定を行い、無声音と判定された区間は得点算出に用いないこととする。

ピッチの変化が激しい区間についても考慮する必要がある。例えば音符と音符の境目
、しゃくり上げ部分、しゃくり下げ部分では、ピッチの変化が激しいため、歌の上手い下
手に関わらず音程が１２音階に乗りにくくなる。したがって、ビブラート区間以外でピッ
チの変化量が一定しきい値を超える区間は得点算出に用いないこととする。

図２９に得点算出の基本的な考え方を示す。入力音声信号を通常歌唱区間とビブラート
区間に分け、通常歌唱区間の得点Ｄ_ｐ（ｔ_ｎ）と、ビブラート区間の得点Ｄ_ｒ（ｔ_ｎ）を
それぞれ算出する。ピッチの信頼性の低い区間と、ビブラート区間以外でピッチの変化量
が激しい区間は得点算出に用いない。

通常歌唱区間（ビブラート以外の区間）の得点算出法について詳細に説明する。"ピッ
チが平均律音階からどのくらい離れているか？"を示す尺度ｄ_ｐ（ｔ_ｉ）を数式１１で定
義する。図３０は数式１１の意味を図示したものである。ｄ_ｐ（ｔ_ｉ）は、分析時刻ｔに
おける歌唱者のピッチｆ（ｔ_ｉ）と１２音階のうち最も近い音との距離を示す。歌唱者
の歌声ピッチが正確であれば、尺度ｄ_ｐ（ｔ_ｉ）は小さい値となる（尺度ｄ_ｐ（ｔ_ｉ）が
小さい→得点が高い）。なお、数式１１では歌唱者の歌声から抽出したピッチｆ（ｔ_ｉ）
と１オクターブに整理された平均律音階（１２音階）ＭＦの比較を行っている。これは本
実施形態の前段におけるピッチ抽出手段より出力されるピッチが１オクターブ範囲内に整
理されているからである（図７参照）。本実施形態では１オクターブ範囲内のピッチを比
較することで、人間の全歌唱音域の音程と平均律音階を比較していることになる。しかし
、これに限らず、例えばピッチ抽出手段は４オクターブ帯域のピッチを出力する構成とし
て、数式１１はそれに対応する４オクターブ帯域の全音域の平均律音階上の音との比較を
しても良い。また、ピッチ抽出手段は５オクターブ帯域のピッチを出力する構成として、
数式１１はそれに対応する５オクターブ帯域の全音域の平均律音階上の音との比較するも
のとすることも容易にできる。

現在、歌唱者が歌っている状態を想定して考える。歌唱者が歌い始めて、カラオケ採点
が開始されてから現在に至るまでにビブラート区間と判定された区間長の合計をｎｒで表
す。次に、ビブラート区間以外で、ピッチの変化量が激しくなく、ピッチの信頼性がある
と判定された区間を通常歌唱区間と呼ぶことにする。カラオケ採点が開始されてから現在
に至るまでに通常歌唱区間と判定された区間長の合計をｎｐで表す。ビブラート累積区間
長ｎｒと通常歌唱累積区間長ｎｐの合計を累積区間長ｎとすると、ｎ，ｎｐ，ｎｒは数式
１２の関係を満たす。

カラオケ採点が開始されてから現在に至るまでの歌唱時間の合計ｔ_ｎは、分析フレーム
周期Δｔと累積区間長ｎを用いて数式１３で表現できる。なお、本実施形態ではΔｔ＝１
０［ｍｓ］である。
ｄ_ｐ（ｔ_ｉ）は、"時刻ｔ_ｉにおけるピッチｆ（ｔ_ｉ）が平均律音階からどのくらい離
れているか？"を示す尺度で"瞬時得点"である。瞬時得点は、長時間に渡って累積平均を
とることにより信頼性のある得点となる。時刻ｔ_ｎにおける累積平均距離（累積平均得点
）Ｄ_ｐ（ｔ_ｎ）を数式１４により算出する。Ｄ_ｐ（ｔ_ｎ）が通常歌唱区間における音程の
正確さを示す式である。

次に、ビブラート区間の平均得点を算出する。時刻ｔ_ｉにおけるビブラート区間の距離
ｄ_ｒ（ｔ_ｉ）は、採点開始時点から時刻ｔ_ｉに至るまでの音階−ピッチ間の平累積距離
Ｄ_ｐ（ｔ_ｉ）に係数αを乗じたものとして、数式１５で計算する。ビブラート区間の平均
累積距離Ｄ_ｒ（ｔ_ｎ）は数式１６で計算する。αは０〜１．０の範囲の実数である。数式
１５の意味は以下の通りである。

「時刻ｔ_ｉにおいて歌唱者がビブラートをかけている場合、時刻ｔ_ｉにおける歌唱者の
瞬時得点ｄ_ｒ（ｔ_ｉ）は、通常歌唱区間の累積平均点Ｄ_ｐ（ｔ_ｉ）より若干高い得点αＤ
_ｐ（ｔ_ｉ）で置き換える。」

ビブラート得点に通常歌唱区間の平均点ｄ_ｐ（ｔ）・Ｄ_ｐ（ｔ）を反映させることで、
下手な人がビブラートを多用しても高得点にはならないように調整している。この方法に
より、音程の不正確な人がビブラートを使った場合は、音程の正確な人がビブラートを使
った場合より低い得点となる。係数αは採点におけるビブラートの寄与度を調整する係数
で、カラオケＢＯＸオーナーの好みで調整することもできる。例えば演歌が好きなオーナ
ーはαを小さめに設定して、ビブラートの寄与度を高くすることができる。なお、上記Ｄ
_ｐ（ｔ）が請求項にいう「通常歌唱区間の得点Ｄ_ｐ」、Ｄ_ｒ（ｔ）が請求項にいう「ビブ
ラート区間の得点Ｄ_ｒ」、数式１５及び数式１６が請求項に言う「関数ｆ（Ｄ_ｐ，ｘ_１，
ｘ_２，…，ｘ_ｎ）」に相当する。上記係数αが請求項にいう「定数α」に相当する。

総合的な累積距離Ｄ（ｔ）は、通常歌唱区間の平均距離Ｄ_ｐ（ｔ）とビブラート区間の
平均距離Ｄ_ｒ（ｔ）の平均値として数式１７で算出する。累積距離Ｄ（ｔ）は人間が主観
的に付けた得点と強い相関を持つ。この採点法は、周波数分解能が高い高精度なピッチ抽
出と外乱に強い高精度なビブラート検出法があってはじめて効果を発揮する。

次に、本実施形態で算出した尺度Ｄ（ｔ）と人間が主観でつけた得点との相関を調べ、
採点アルゴリズムの評価を行った結果を示す。まず、２０名の歌唱者が同一の曲を歌った
場合について、本採点法の評価を行った。歌唱者（男性１０名・女性１０名）が歌った有
名な歌謡曲を歌唱者以外の３４名の被験者に聞き比べてもらい、プリファレンススコアを
作成した。プリファレンススコアとは、対比較においてその歌声がどの程度の支持率であ
ったかを示す数値である。歌唱データから後半の１フレーズを切り出したものを対比較評
価用データとする。なお、女性歌唱者データにはプロの歌手１名に依頼して採取した歌声
を追加・混入した。これと同時に本実施形態により計算した得点Ｄ（ｔ）を算出し、プリ
ファレンススコアと得点Ｄ（ｔ）の相関図を作成した。

図３１は、女性のデータについて求めたプリファレンススコアと尺度Ｄの相関図である
。プリファレンススコアと尺度Ｄの間には強い相関が見られる。尺度Ｄが最も小さく音程
が最も正確なのは、プロの歌手の歌声である。しかし声が低く、原曲と歌い方が異なるた
め、人間の主観評価（プリファレンススコア）では２位になっていると考えられる。主観
評価で１位となった歌唱者は通常より高めのキーで歌ったため、被験者に与えるインパク
トが強かったと推測される。

図３２は男性の歌声から算出した相関図である。男性データでも、距離Ｄ（ｔ）とプリ
ファレンススコアの相関がみられる。プリファレンススコア約４０点の被験者が最も１２
音階からの距離が小さくなっている。この被験者の歌声を聴くと、音程は正確でビブラー
トも上手にかかっており、技術的には上手な歌唱者である。しかし、歌詞の譜割りなどが
演歌調で原曲と異なり、歌い方に癖があるため主観評価の点数が低下したと推測される。
これらの図から、例えば「Ｄ（ｔ）が２０［ｃｅｎｔ］を切る人はそこそこ上手い」と判
断できる。図３１・図３２より、Ｄ（ｔ）は人間の主観得点と相関の強い尺度となってい
ることが分かる。

次に、歌唱者が異なる曲を歌った場合について本採点法の評価を行った結果を示す。デ
ータの採取方法を図３３に示す。５〜６名の歌唱者のグループを募集した。１グループ：
５〜６名の歌唱者に交代で歌って頂き歌唱データを採取した。歌っている歌唱者以外につ
いて、次に歌う歌唱者は歌う曲の選曲、それ以外の歌唱者は現在歌っている歌唱者の得点
を記録した。なお歌唱者には、歌の途中ではキー変更や、演奏停止をしないで、歌唱曲の
歌える範囲でできる限り多くのジャンルの曲を歌って頂けるようお願いした。得点は満点
を１００点とし、採点者の主観で記入して頂いた。採点者全員がつけた平均得点を主観評
価の得点とする。

２日間評価を行った結果について説明する。図３４は１日目の採取データから求めた相
関図である。この日の参加者は６人、歌唱者１人の歌声に対し残りの５人で採点を行った
ときの平均点数を主観評価の点数としてグラフにプロットした。距離Ｄ（ｔ）と主観評価
の点数には強い相関があることが分かる。

図３５は、２日目の採取データから求めた相関図である。参加者は４０〜６０代の女性
５人である。歌唱者１人の歌声に対し３人で採点を行い残り１人は次に歌う曲を選ぶとい
う分担で採点を行った。この日歌われた曲のほとんどは演歌である。距離Ｄ（ｔ）と主観
評価の点数には相関が見られる。図３４と比べて少し相関が弱い原因としては、採点者が
５人から３人に減少したためと考えられる。

図３１、図３２、図３４、図３５より、Ｄ（ｔ）は人間の主観得点と相関の強い尺度と
なっていることが分かる。従って、例えば尺度Ｄ（ｔ）を線形変換すれば、人間の主観評
価と相関の強い得点を算出することができる。実際のカラオケ装置における採点では、１
００点の出現確率を減少させるなどの工夫が必要となるため、Ｄ（ｔ）［ｃｅｎｔ］に非
線形変換を行い得点に変換することも考えられる。

なお、本実施形態ではガイドメロディ情報を一切使わずにカラオケ採点を行う例を示し
た。しかし、これに限らずガイドメロディと歌唱者の歌声を比較する従来の採点法も併用
した採点システムを構築することも可能である。例えば、ガイドメロディと歌唱者のピッ
チを比較して歌の忠実度を算出し、本実施形態で示した採点法で尺度Ｄ（ｔ）を算出した
後、２つの得点を合成して歌唱者の歌の得点とすることもできる。また、２つの得点の高
い方を選んで最終的な得点とすることも容易に考えられる。

また大抵の場合、カラオケ装置で演奏されるＭＩＤＩ楽曲は平均律音階の集合であるた
め、本実施形態では、歌唱者の歌声から抽出したピッチと平均律音階を比較して歌の得点
を算出する例を示した。しかし、これに限らず、ピッチと純正律音階を比較するのが好ま
しい場合もある。カラオケ装置の伴奏には、生バンドの曲を録音したスタジオ録音曲やプ
ロのアカペラグループが演奏したものを録音したアカペラ伴奏曲も存在する。特にアカペ
ラ伴奏曲などでは、歌唱者の歌声から抽出した純正律音階を比較した方がより精度の高い
歌唱力評価ができることもある。また、生のピアノ演奏を録音したスタジオ録音曲では、
平均律音階をピアノ調律曲線を用いて補正した音階と歌唱者の歌声から抽出したピッチを
比較する方法が好ましい場合もある。これらの音階は、カラオケ楽曲の属性により、適宜
選択するようにカラオケ採点装置を構成することも考えられる。本明細書に記載の平均率
音階とは、ピアノの調律曲線などにより補正された後の平均律音階を含むこととする。

また、本発明の第一実施形態におけるビブラート検出法では、合成自己相関関数のずら
しマッチングを用いて音程の変化量を算出していた。これと同様に、入力歌声信号から合
成自己相関関数の代わりにＬＰＣスペクトル、ＦＦＴスペクトル、群遅延スペクトル、Ｌ
ＰＣケプストラム、自己相関関数などのスペクトル特徴を抽出し、スペクトルのずらしマ
ッチングを用いて外乱に強いピッチ変化量算出・ビブラート検出ができる。一例として、
図３６にＬＰＣ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ）スペクトルを用
いた音程変化量算出法を示す。図３６（ａ）の音声信号に対して線形予測分析を行いＬＰ
Ｃスペクトルを求めたものが図３６（ｂ）である。ＬＰＣスペクトルを観察しても、ビブ
ラートはきれいに現れていることがわかる。例えば、ＬＰＣスペクトルの周波数帯域５０
０［Ｈｚ］〜１０００［Ｈｚ］を切り出し（図３６（ｃ））、切り出した帯域のＬＰＣス
ペクトルのずらしマッチングを用いて音程変化量を算出することができる。

この場合、音声信号記憶メモリ９Ａから読み出された音声信号に線形予測分析を行い、
ＬＰＣスペクトルを求め、メモリ９の所定の位置に記憶する。ずらしマッチングの式は、
数式１８で示される。メモリ９より読み出した隣り合う２フレームのＬＰＣスペクトルｌ
ｐｃ（ｔ，ｉ），ｌｐｃ（ｔ＋１，ｉ）のずれ量を算出する。ずれ量の単位は［Ｈｚ］で
算出される。さらにＬＰＣスペクトルの周波数軸を対数スケールに変換した後、ずらしマ
ッチングを行うようにすれば、全分析周波数帯域の音程分解能が均等になり、より高精度
な分析ができる。ここで算出されたピッチ変化量Δｆ_ｓを入力としてビブラート検出を行
うことは容易である。

さらに、数式１８により算出されたピッチ変化量は、数式５と数式６により算出された
ピッチ変化量と同様、信頼性の高いものとなる。数式１８により算出された信頼性の高い
ピッチ変化量ＩＩ（Δｆ_ｓ）とピッチの差分により算出されたピッチ変化量Ｉ（Δｆ_ｐ）
の差Ｄｆを用いてピッチｆ（ｔ），ｆ（ｔ＋１）の信頼性を逆算することもできる（数式
１９参照）。数式１９は、数式７と同じ形となっている。

次に、本発明における第二の実施形態について図３７〜図３９を参照して説明する。第
二実施形態は、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）上で動作する歌唱訓練／採
点ソフトウェアである。

図３７に示すように、第二実施形態の歌唱訓練／採点装置を構成するＰＣ５０は、周知
のパーソナルコンピュータの一般的な構成からなり、文字や各種の操作指令などを入力す
るためのキーボード６１やマウス５９、入力された結果等を表示するモニタ６５を備えて
いる。また、ＰＣ５０には、ＣＤ−ＲＯＭ６３の内容を読み取るＣＤ−ＲＯＭドライブ６
２が搭載されている。

また、ＰＣ５０は、中央演算処理装置としてのＣＰＵ５１を中心にバスにより相互に接
続されたＲＯＭ５２、ＲＡＭ５３、表示画像メモリ５４、マウスインターフェース５８、
キーボードインターフェース６０、ビデオコントローラ６４、及びＡ／Ｄ変換器６６を備
えている。そして、マウスインターフェース５８にはマウス５９が接続され、キーボード
インターフェース６０にはキーボード６１が接続され、ビデオコントローラ６４にはモニ
タ６５が接続されている。さらに、Ａ／Ｄ変換器６６には、マイク６７が接続されている
。

ＲＯＭ５２は、ＢＩＯＳ等の内蔵されている各種プログラム等を記憶する読み出し専用
のメモリである。ＲＡＭ５３は、実行中のプログラムを一時的に記憶したり、各種データ
等を記憶する読み出し・書き込み可能なメモリである。表示画像メモリ５４は、モニタ６
５に表示する画像の画像データを記憶するメモリである。マウスインターフェース５８は
、マウス５９とのデータ等のやりとりを司るインターフェースである。キーボードインタ
ーフェース６０は、キーボード６１からのキー入力を司るインターフェースである。ビデ
オコントローラ６４は、表示画像メモリ５４に記憶される表示画像データに基づいてモニ
タ６５における画像の表示を制御するコントローラである。Ａ／Ｄ変換器６６は、マイク
６７より入力された音声信号をサンプリングしてＰＣ５０内に採り込む装置である。なお
、このＡ／Ｄ変換器６６が請求項に言う音声信号入力手段に相当する。

ＰＣ５０のオペレーティングシステム（ＯＳ）５６は、ハードディスクドライブ（ＨＤ
Ｄ）５５に記憶されており、ＰＣ５０に電源を投入すると、ＨＤＤ５５のブートブロック
に書き込まれたローダに従ってＲＡＭ５３の所定の領域にロードされる。また、ＨＤＤ５
５には、歌唱訓練／採点ソフトウェア５７が記憶されており、歌唱訓練／採点ソフトウェ
ア５７が起動され、ＲＡＭ５３に読み込まれ、これをＣＰＵ５１が実行することにより、
歌唱訓練処理や歌唱採点処理が行われる。尚、本実施形態においては歌唱訓練／採点ソフ
トウェア５７はＨＤＤ５５に記憶されているが、ＲＯＭ５２に記憶されていてもよいし、
ＣＤ−ＲＯＭ６３に記憶され、ＣＤ−ＲＯＭドライブ６２から読み込まれて実行されるよ
うに構成してもよい。さらに、ＰＣ５０をネットワークに接続し、ネットワーク上のサー
バから歌唱訓練／採点ソフトウェア５７をダウンロードして実行するようにしてもよい。

マイク６７をコンピュータ５０に接続し、歌唱訓練／採点ソフトウェアを起動すると、
歌唱訓練処理／歌唱採点処理が開始される。第二実施形態に示すソフトウェアは音程訓練
モードと歌唱採点モードの２つのモードを持っており、歌唱者は２つのモードのうち１つ
を選択することができる。歌唱者は、マウス５９やキーボード６１などの入力装置を用い
て音程訓練モードと歌唱採点モードどちらかを選択する。

音程訓練モードでは、マイク６７より入力された歌唱者の音声はＡ／Ｄ変換器６６によ
りサンプリング周波数４８［ｋＨｚ］でサンプリングされ、ＲＡＭ５３に書き込まれる。
ＲＡＭ５３の記憶領域は、第一実施形態におけるＲＡＭ９の記憶領域に加え、歌唱訓練／
採点ソフトウェアが格納される記憶領域が存在する。ＲＡＭ５３に書き込まれた音声信号
より合成相関関数が算出され、ＲＡＭ５３の合成自己相関関数記憶メモリに書き込まれる
。次に、ＲＡＭ５３の合成自己相関関数記憶メモリと自己相関関数記憶メモリより合成自
己相関関数と自己相関関数が読み出されピッチが計算され、算出されたピッチはＲＡＭ５
３のピッチ記憶メモリに記憶される。これら合成自己相関関数及びピッチの算出手順は第
一実施形態における図４〜図１１に示したものと全く同じであるので、図４〜図１１の説
明を援用する。

このようにして歌唱者の歌声から算出したピッチは、ＲＡＭ５３から読み出され、ＰＣ５
０のモニタ６５に平均律音階と共に表示される。図３８は、歌唱者が音程訓練モードを利
用して音程訓練を行っているときのモニタ６５の様子を示したものである。図３８におい
て、トンボが歌唱者の音程（ピッチ）の高さ、水平方向に引かれた直線が平均律音階を示
している。音程訓練モードでは、歌唱者の歌声から抽出されたピッチと平均律音階をリア
ルタイムで表示することで、音程の正確さを歌唱者にフィードバックすることができる。
歌唱者は、Ａ４（４４０Ｈｚ）で歌った後、Ｅ５（６６０Ｈｚ）の音程で歌っている。歌
唱者は音階に乗ったピッチで歌っているつもりでも、パソコンのディスプレイに表示して
みるとＥ５の音程が微妙に低いことが分かる。

このソフトウェアは第一実施形態の図１０に示した最低分析周波数５０［Ｈｚ］の合成自
己相関関数を採用することで、５０［Ｈｚ］〜１７００［Ｈｚ］の約５オクターブ帯域の
ピッチを検出、表示することができる。合成自己相関関数を用いたピッチ抽出法は、音程
分解能が高く、非常に細かな音程のずれを分析できる。聴覚が鍛えられたミュージシャン
や音楽の先生にしか分からなかった"微妙に高い"，"微妙に低い"という違いを視覚的に表
現することができる。これは合唱の音程訓練、バンドのヴォーカルの個人練習にも利用で
き、歌唱者の歌の上達を補助することができる。単に歌唱者のピッチを表示するだけのシ
ンプルなものでも、音程訓練用途としては十分役に立つ。

本ソフトウェアを合唱・声楽のトレーニング用途として利用する場合は、基準となる音
階はＡ４＝４４０［Ｈｚ］に合わせるのが好ましいときもあり、Ａ４＝４４２［Ｈｚ］に
合わせるのが好ましいときもある。通常オーケストラなどで用いる基準音は伴奏に用いる
楽器の構成によって変わってくる。また、ピアノ伴奏に合わせて歌うときのトレーニング
では、理論的な平均律音階とピアノの調律音階の差を埋めるために、ピアノの調律曲線を
用いて歌唱者の歌声ピッチや基準となる音階を補正し、表示するのが良い場合もある。ま
た、人の歌声だけで演奏するアカペラ曲の場合、平均律音階ではなく、純正律音階を基準
線として用いるのが好ましい場合もある。本実施形態に示す音程訓練ソフトウェアの音程
訓練モードは、これらの基準となる音階を適宜選択できるメニュー画面を持つ。メニュー
画面はモニタ６５に表示され、音程訓練を行う歌唱者は、マウス５９やキーボード６１な
どの入力装置を用いて基準となる音階を選択できる。

次に、歌唱採点モードでは、マイク６７より入力された歌唱者の音声はＡ／Ｄ変換器６
６によりサンプリング周波数４８［ｋＨｚ］でサンプリングされ、ＲＡＭ５３に書き込ま
れる。ＲＡＭ５３の記憶領域は、第一実施形態におけるＲＡＭ９の記憶領域に加え、歌唱
訓練／採点ソフトウェアが格納される記憶領域が存在する。ＲＡＭ５３に書き込まれた音
声信号より合成相関関数が算出され、ＲＡＭ５３の合成自己相関関数記憶メモリに書き込
まれる。本発明の第一実施形態に示したものと全く同じ手順で自己相関関数、合成自己相
関関数、有声・無声判定結果、ピッチ、ピッチ変化量Ｉ、ピッチ変化量ＩＩ、ビブラート
情報、瞬時得点、累積得点などが算出され、ＲＡＭ５３に書き込まれる。本ソフトウェア
では、第一実施形態で採点処理部（採点ＤＳＰ）１２が行っていた処理をＣＰＵ５１が担
当する。採点処理手順は第一実施形態における図４〜図３５に示したものと全く同じであ
るので、図４〜図３５の説明を援用する。なお第二実施形態では、ＲＡＭ５３が請求項に
言う「ピッチ記憶手段」、「ビブラート記憶手段」、「無声区間記憶手段」及び「音程変
化量記憶手段」及び「スペクトル記憶手段」及び「音程相関関数記憶手段」に相当する。
また、図４におけるＳ１１の処理が請求項に言う「スペクトル算出ステップ」及び「スペ
クトル記憶ステップ」に相当し、Ｓ１１の処理を実行するＣＰＵ５１が「スペクトル算出
手段」に相当する。また、Ｓ１２の処理が請求項に言う「無声区間検出・記憶ステップ」
に相当し、Ｓ１２の処理を実行するＣＰＵ５１が「無声区間検出手段」に相当する。また
、図４におけるＳ１３の処理が請求項に言う「ピッチ抽出ステップ」、「ピッチ記憶ステ
ップ」及び「ピッチ抽出・記憶ステップ」に相当し、Ｓ１３の処理を実行するＣＰＵ５１
が「ピッチ抽出手段」に相当する。また、図４におけるＳ１４またはＳ１５の処理が請求
項に言う「音程変化量抽出ステップ」、「音程変化量記憶ステップ」及び「音程変化量抽
出・記憶ステップ」に相当し、Ｓ１４及びＳ１５の処理を実行するＣＰＵ５１が「音程変
化量抽出手段」に相当する。また、図４におけるＳ１６の処理が請求項に言う「ビブラー
ト検出・記憶ステップ」に相当し、Ｓ１６の処理を実行するＣＰＵ５１が「ビブラート検
出手段」に相当する。なお、図１５におけるＳ１６１の処理及びＳ１６２の処理が請求項
に言う「音程相関関数算出ステップ」及び「音程相関関数記憶ステップ」に相当し、Ｓ１
６１及びＳ１６２を実行する採点処理部（ＤＳＰ）１２が「音程相関関数算出手段」に相
当する。

図３９は、本歌唱訓練／採点ソフトウェアの歌唱採点モードの実行画面である。このア
プリケーションは、得点を算出するのと同時に歌声から抽出したピッチ波形（ＰＩＴＣＨ
）とビブラート波形（ＴＲＥＭＯＬＯ）をリアルタイムで表示でき、さらにビブラートの
美しさ、ビブラート回数などをリアルタイムで算出して表示する。ここで表示しているビ
ブラート波形は、第一実施形態で説明した音程変化量Ｉまたは音程変化量ＩＩのことであ
る。また、ビブラートの美しさとは第一実施形態の図２２・図２３で説明した相関係数の
大きさである。

本ソフトウェアを使用することで、歌唱者は歌の得点を知ると同時に、現在歌っている
フレーズのビブラート形状とビブラートの美しさを目視で確認することができる。この機
能を利用して歌唱者はビブラートの練習が可能である。以上の説明より、カラオケ装置上
で動作するビブラート訓練装置やパソコン上で動作するビブラート訓練装置は容易に実現
できることがわかる。

なお、これらの音程訓練機能・ビブラート訓練機能は本発明の第一実施形態におけるカ
ラオケ装置の"練習モード"などにも応用できることは言うまでもない。カラオケ装置では
、例えば、プロの歌手の歌声から抽出したピッチと歌唱者が歌ったときのピッチを同時に
表示して、カラオケを練習する歌唱者の手助けをする練習ソフトを作ることもできる。ま
た、前述のビブラート検出法によりプロの歌声から検出されたビブラート波形と、カラオ
ケを歌っている歌唱者の歌声から検出されたビブラートを同時にモニタに表示するビブラ
ート練習機能付きカラオケ装置なども容易に実現できる。

本発明は、カラオケ装置に搭載されるカラオケ採点装置及び合唱・声楽などの歌唱評価
用途としての歌唱力評価装置に利用することができる。

本発明の第一実施形態におけるカラオケ装置の外観である。本発明の第一実施形態におけるカラオケ装置のブロック図である。ＲＡＭ９に確保される記憶領域を示す図である。同カラオケ装置の採点処理部の動作を示すフローチャートである。採点処理部１２のブロック図である。自己相関関数の算出法を説明する図である。自己相関関数を帯域毎に分割・合成することで音程分解能（周波数分解能）を向上させる方法を示す図である。本ピッチ抽出法におけるピッチの２段探索法を示す図である。合成自己相関関数法によるピッチ抽出における音程分解能と従来のピッチ抽出法における音程分解能を比較したものを示す図である。合成自己相関関数の最低分析周波数を７０［Ｈｚ］から５０［Ｈｚ］まで下げることにより音程分解能が向上することを示す図である。合成自己相関関数を用いたピッチ抽出手順の全貌を示す図である。本発明の実施形態における音程変化量（２通り）の算出手順を示すブロック図である。合成自己相関関数のずらしマッチングを用いた信頼性の高いピッチ変化量（音程変化量）算出法を示す図である。ピッチ差分から求めた（比較的信頼性の低い）ピッチ変化量を示す図である。本発明の実施形態におけるビブラート検出手順を示すフローチャートである。本発明の実施形態におけるビブラート判定手順を示すブロック図である。ビブラート歌唱区間とそれ以外の歌唱区間を含む歌声波形の図である。図１７の歌声波形から抽出したピッチ（音程）を示す図である。図１８のピッチの差分をとり算出した音程変化量波形の図である図１９のビブラートがかかっていない区間（区間Ａ）の切り出し波形から算出した自己相関関数を示す図である。図１９のビブラートがかかっている区間（区間Ｂ）の切り出し波形から算出した自己相関関数を示す図である図１９のピッチ変化量から算出した「正位相の相関係数」と「逆位相の相関係数」を示した図である。図２２の「正位相の相関係数」と「逆位相の相関係数」を合成したものを示す図を示す図である。本発明の実施形態における得点算出手順を示すフローチャートである。本発明の実施形態における得点算出手順を示すブロック図である。上手な人の歌声（プリファレンススコア：９６点）から抽出した音程を示す図である。下手な人の歌声（プリファレンススコア：２３点）から抽出した音程を示す図である。プロの歌手の歌声（プリファレンススコア：１２２点）から抽出した音程を示す図である。ビブラート歌唱区間とそれ以外の歌唱区間を分離して採点する本採点法の概念を示す図である。歌唱ピッチと平均律音階（１２音階）からの最小距離を示す図である。女性の歌声データから求めたプリファレンススコア（主観評価得点）と、本発明の実施形態で提供する距離尺度Ｄ（ｔ）の相関図である。男性の歌声データから求めたプリファレンススコア（主観評価得点）と、本発明の実施形態で提供する距離尺度Ｄ（ｔ）の相関図である。カラオケ音声データと人の主観による得点の採取手順を示す図である。距離尺度Ｄ（ｔ）と人の主観評価の平均点（データ採取：１日目）を示す図である。距離尺度Ｄ（ｔ）と人の主観評価の平均点（データ採取：２日目）を示す図である。ＬＰＣスペクトルのずらしマッチングを用いた音程変化量（ピッチ変化量）の算出方法を示す図である。本発明の第二実施形態における歌唱訓練／採点装置の概略構成を示すブロック図である。パソコン上で動作するピッチトレーニングソフトの表示画面の図である。ピッチ表示機能、ビブラート表示機能、ビブラートの美しさ算出機能を有するカラオケ採点ソフトウェアの表示画面の図である。人間の歌声には『少し上ずった音』、『微妙に低い音』など五線譜に乗らない音があることを説明する図である。歌の上手な人と歌の下手な人の音程を詳細に分析した結果を示す図である。歌唱力評価に最低限必要と考えられる周波数分解能（ｙ）と、従来のピッチ（音程）検出法における周波数分解能（a）,（e）を示す図である。歌唱力評価に最低限必要と考えられる音程分解能（ｙ）と、従来のピッチ（音程）検出法における音程分解能（a）,（e）を示す図である。カラオケのガイドメロディと、人間の歌声から抽出したピッチを比較したものを示す図である。

符号の説明

１カラオケ装置
２マイク
３ディスプレイ
４ＡＭＰ
５スピーカ
６ビデオコントローラ
７ミキサ（エフェクタ）
８演奏装置
９ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）
１２採点処理部（採点ＤＳＰ）
１３ピッチ抽出部
１４ビブラート検出部
１５得点算出部
１６操作部
１７Ａ／Ｄ変換部
１８ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）
１９ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）
５０ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）
５１ＣＰＵ
５２ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）
５３ＲＡＭ
５４表示画像メモリ
５５ＨＤＤ
５６ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）
５７歌唱訓練／採点ソフトウェア
５８マウスインターフェース
５９マウス
６０キーボードインターフェース
６１キーボード
６２ＣＤ−ＲＯＭドライブ
６３ＣＤ
６４ビデオコントローラ
６５モニタ
６６Ａ／Ｄ変換器
６７マイク
１３１自己相関関数算出モジュール
１３２合成自己相関関数算出モジュール
１３３有声・無声判定モジュール
１３４ピッチ抽出モジュール
１４１ピッチ変化量Ｉ算出モジュール
１４２ピッチ変化量ＩＩ算出モジュール
１４３ビブラート検出モジュール
１４３Ａ周期性算出モジュール
１４３Ｂ正位相・逆位相合成モジュール
１４３Ｃビブラート尺度算出モジュール
１５１信頼性算出モジュール
１５２瞬時得点算出モジュール
１５３得点累積モジュール

Claims

コンピュータに、
音声信号入力手段から入力された歌唱者の歌声信号からピッチ（音程）を抽出させるピッチ抽出ステップと、
当該ピッチ抽出ステップを実行させて得られたピッチ情報をピッチ記憶手段に記憶させるピッチ記憶ステップを実行させ、
前記ピッチ記憶手段より前記ピッチを読み出し、読み出されたピッチと当該ピッチの最近傍にある平均率音階上の音程との最小距離を算出し、
当該最小距離が小さいほど高い得点を算出させることを特徴とする歌唱力評価方法。
コンピュータに、
音声信号入力手段から入力された歌唱者の歌声信号からピッチ（音程）を抽出させるピッチ抽出ステップと、
当該ピッチ抽出ステップを実行させて得られたピッチ情報をピッチ記憶手段に記憶させるピッチ記憶ステップを実行させ、
前記ピッチ記憶手段より前記ピッチを読み出し、読み出されたピッチと当該ピッチの最近傍にある純正率音階上の音程との最小距離を算出し、
当該最小距離が小さいほど高い得点を算出させることを特徴とする歌唱力評価方法。
前記ピッチ抽出ステップは全分析音域において半音階を１０分割以上できる音程分解能を備えるピッチを抽出することを特徴とする請求項１乃至請求項２の何れかに記載の歌唱力評価方法。
コンピュータに、
音声信号入力手段より入力された歌唱者の歌声信号からピッチ（音程）情報を抽出させ、ピッチ記憶手段に記憶させるピッチ抽出・記憶ステップと、
前記音声信号入力手段より入力された歌唱者の歌声信号からビブラート情報を検出させ、ビブラート記憶手段に記憶させるビブラート検出・記憶ステップとを実行させ、
前記ピッチ記憶手段と前記ビブラート記憶手段より読み出されたピッチ情報とビブラート情報を用いて歌唱区間をビブラート区間とそれ以外の通常歌唱区間に分離し、分離されたビブラート区間と通常歌唱区間について別々に得点を算出させる歌唱力評価方法で、
前記通常歌唱区間の得点は請求項１乃至請求項３の何れかに記載の歌唱力評価方法を実行して算出させることを特徴とする歌唱力評価方法。
コンピュータに、
音声信号入力手段より入力された歌唱者の歌声信号からピッチ（音程）情報を抽出させ、ピッチ記憶手段に記憶させるピッチ抽出・記憶ステップと、
前記音声信号入力手段より入力された歌唱者の歌声信号からビブラート情報を検出させ、ビブラート記憶手段に記憶させるビブラート検出・記憶ステップと、
前記音声信号入力手段より入力された歌唱者の歌声信号から無声音を判別することにより無声区間情報を抽出し、無声区間記憶手段に記憶させる無声区間検出・記憶ステップと、
前記音声信号入力手段より入力された歌唱者の歌声信号から音程変化量を算出し、音程変化量記憶手段に記憶させる音程変化量抽出・記憶ステップとを実行させ、
前記ピッチ記憶手段、前記ビブラート記憶手段、前記無声区間記憶手段、前記音程変化量記憶手段より読み出された各情報から、歌唱区間を無声区間、ビブラート区間、ビブラート区間以外で音程変化量が大きい区間、それ以外の通常歌唱区間に分離し、それぞれの歌唱区間に対して得点を算出させることを特徴とする歌唱力評価方法で、
前記通常歌唱区間の得点は請求項１乃至請求項３の何れかに記載の歌唱力評価方法を用いて算出させることを特徴とする歌唱力評価方法。
前記ビブラート検出・記憶ステップとして、
前記音声信号入力手段より入力された音声信号から音程変化量を抽出する音程変化量抽出ステップと、
当該音程変化量抽出ステップを実行させて得られた音程変化量を音程変化量記憶手段に順次記憶させる音程変化量記憶ステップと、
前記音程変化量記憶手段より複数の音程変化量を読み出し、読み出された複数の音程変化量により構成される一定区間長のフレームに対して自己相関分析または相互相関分析を行うことで相関関数を算出する音程相関関数算出ステップを実行させ、
当該音程相関関数算出ステップを実行して得られた相関関数の特性を用いて入力音声中のビブラート区間を検出することを特徴とする請求項４乃至請求項５の何れかに記載の歌唱力評価方法。
前記音程変化量抽出ステップは、
音声信号入力手段より入力された音声信号の周波数分析を実行させスペクトルを算出するスペクトル算出ステップと、
当該スペクトル算出ステップを実行させて得られたスペクトルをスペクトル記憶手段に記憶するスペクトル記憶ステップと、
前記スペクトル記憶手段より読み出された２つ以上のスペクトルのずらしマッチングにより音程変化量を抽出することを特徴とする請求項６に記載の歌唱力評価方法。
前記通常歌唱区間の得点をＤ_ｐ、前記ビブラート区間の得点をＤ_ｒ、任意のパラメータをｘ_１，ｘ_２，…，ｘ_ｎと定義し、
ｆ（Ｄ_ｐ，ｘ_１，ｘ_２，…，ｘ_ｎ）は「Ｄ_ｐとｘ_１，ｘ_２，…，ｘ_ｎを引数に持つ関数」と定義したときに、
前記ビブラート区間の得点Ｄ_ｒは、Ｄ_ｒ＝ｆ（Ｄ_ｐ，ｘ_１，ｘ_２，…，ｘ_ｎ）として算出し、
前記ビブラート区間の得点Ｄ_ｒに、通常歌唱区間の得点Ｄ_ｐが反映されるように構成したことを特徴とする請求項４乃至請求項７の何れかに記載の歌唱力評価方法。
前記ビブラート区間の得点は、前記通常歌唱区間の得点に実数である定数αを乗じて算出することを特徴とする請求項８に記載の歌唱力評価方法。
前記定数αをユーザの好みにより調整できることを特徴とする請求項９に記載の歌唱力評価方法。
音声信号入力手段から入力された歌唱者の歌声信号からピッチ（音程）を抽出するピッチ抽出手段と、
当該ピッチ抽出手段により得られたピッチ情報を記憶するピッチ記憶手段を備え、
前記ピッチ記憶手段より前記ピッチを読み出し、当該ピッチの最近傍にある平均率音階上の音程との最小距離を算出し、
当該最小距離が小さいほど高い得点を算出することを特徴とする歌唱力評価機能を有するカラオケ装置。
音声信号入力手段から入力された歌唱者の歌声信号からピッチ（音程）を抽出するピッチ抽出手段と、
当該ピッチ抽出手段により得られたピッチ情報を記憶するピッチ記憶手段を備え、
前記ピッチ記憶手段より前記ピッチを読み出し、当該ピッチの最近傍にある純正率音階上の音程との最小距離を算出し、
当該最小距離が小さいほど高い得点を算出することを特徴とする歌唱力評価機能を有するカラオケ装置。
前記ピッチ抽出手段は全分析音域において半音階を１０分割以上できる音程分解能を備えることを特徴とする請求項１１乃至請求項１２の何れかに記載の歌唱力評価機能を有するカラオケ装置。
音声信号入力手段より入力された歌唱者の歌声信号からピッチ（音程）情報を抽出し、ピッチ記憶手段に記憶するピッチ抽出手段と、
前記音声信号入力手段より入力された歌唱者の歌声信号からビブラート情報を検出し、ビブラート記憶手段に記憶するビブラート検出手段とを備え、
前記ピッチ記憶手段と前記ビブラート記憶手段より読み出されたピッチ情報とビブラート情報を用いて歌唱区間をビブラート区間とそれ以外の通常歌唱区間に分離し、分離されたビブラート区間と通常歌唱区間について別々に得点を算出することを特徴とする請求項１１乃至請求項１３の何れかに記載の歌唱力評価機能を有するカラオケ装置。
音声信号入力手段より入力された歌唱者の歌声信号からピッチ（音程）情報を抽出し、ピッチ記憶手段に記憶するピッチ抽出手段と、
前記音声信号入力手段より入力された歌唱者の歌声信号からビブラート情報を検出し、ビブラート記憶手段に記憶するビブラート検出手段と、
前記音声信号入力手段より入力された歌唱者の歌声信号から無声音を判別することにより無声区間情報を抽出し、無声区間記憶手段に記憶する無声区間検出手段と、
前記音声信号入力手段より入力された歌唱者の歌声信号から音程変化量を算出し、音程変化量記憶手段に記憶する音程変化量抽出手段とを備え、
前記ピッチ記憶手段、前記ビブラート記憶手段、前記無声区間記憶手段、前記音程変化量記憶手段より読み出された各情報から、歌唱区間を無声区間、ビブラート区間、ビブラート区間以外で音程変化量が大きい区間、それ以外の通常歌唱区間に分離し、それぞれの歌唱区間に対して得点を算出することを特徴とする請求項１１乃至請求項１３の何れかに記載の歌唱力評価機能を有するカラオケ装置。
前記ビブラート検出手段は、
音声信号入力手段より入力された音声信号から音程変化量を抽出する音程変化量抽出手段と、
当該音程変化量抽出手段により得られた音程変化量を音程変化量記憶手段に順次記憶する音程変化量記憶手段と、
前記音程変化量記憶手段より複数の音程変化量を読み出し、読み出された複数の音程変化量により構成される一定区間長のフレームに対して自己相関分析または相互相関分析を行うことで相関関数を算出する音程相関関数算出手段と、
当該音程相関関数算出手段により得られた相関関数を記憶する音程相関関数記憶手段と、
前記音程相関関数記憶手段より読み出された相関関数の特性を用いて入力音声中のビブラート区間を検出するビブラート検出手段とを備えることを特徴とする請求項１４または請求項１５に記載の歌唱力評価機能を有するカラオケ装置。
前記音程変化量抽出手段は、
音声信号入力手段より入力された音声信号に周波数分析を行いスペクトルを算出するスペクトル算出手段と、
当該スペクトル算出手段を実施して得られたスペクトルを記憶するスペクトル記憶手段を備え、
前記スペクトル記憶手段より読み出された２つ以上のスペクトルのずらしマッチングにより音程変化量を抽出することを特徴とする請求項１６に記載の歌唱力評価機能を有するカラオケ装置。
前記通常歌唱区間の得点をＤ_ｐ、前記ビブラート区間の得点をＤ_ｒ、任意のパラメータをｘ_１，ｘ_２，…，ｘ_ｎと定義し、
ｆ（Ｄ_ｐ，ｘ_１，ｘ_２，…，ｘ_ｎ）は「Ｄ_ｐとｘ_１，ｘ_２，…，ｘ_ｎを引数に持つ関数」と定義したときに、
前記ビブラート区間の得点Ｄ_ｒは、Ｄ_ｒ＝ｆ（Ｄ_ｐ，ｘ_１，ｘ_２，…，ｘ_ｎ）として算出し、
前記ビブラート区間の得点Ｄ_ｒに、通常歌唱区間の得点Ｄ_ｐが反映されるように構成したことを特徴とする請求項１４乃至請求項１７の何れかに記載の歌唱力評価機能を有するカラオケ装置。
前記ビブラート区間の得点は、前記通常歌唱区間の得点に実数である定数αを乗じて算出することを特徴とする請求項１８に記載の歌唱力評価機能を有するカラオケ装置。
前記定数αをユーザの好みにより調整できることを特徴とする請求項１９に記載の歌唱力評価機能を有するカラオケ装置。