JP2008015214A - 歌唱力評価方法及びカラオケ装置 - Google Patents

歌唱力評価方法及びカラオケ装置 Download PDF

Info

Publication number
JP2008015214A
JP2008015214A JP2006186167A JP2006186167A JP2008015214A JP 2008015214 A JP2008015214 A JP 2008015214A JP 2006186167 A JP2006186167 A JP 2006186167A JP 2006186167 A JP2006186167 A JP 2006186167A JP 2008015214 A JP2008015214 A JP 2008015214A
Authority
JP
Japan
Prior art keywords
pitch
singing
vibrato
section
storage means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006186167A
Other languages
English (en)
Inventor
Hideyo Takeuchi
英世 竹内
Masahiro Hoguro
政大 保黒
Taizo Umezaki
太造 梅崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
UME TECH KK
DDS KK
Original Assignee
UME TECH KK
DDS KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by UME TECH KK, DDS KK filed Critical UME TECH KK
Priority to JP2006186167A priority Critical patent/JP2008015214A/ja
Publication of JP2008015214A publication Critical patent/JP2008015214A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

【課題】人間の主観評価に近い得点を算出できる歌唱力評価方法、人間の主観評価に近い
得点を算出できる歌唱力評価機能を有するカラオケ装置を提供すること。
【解決手段】ピッチ抽出部13は、マイク2から入力された音声信号からピッチ抽出を行
う。ピッチ抽出部13は人間の全歌唱音域にて半音階を10等分以上に分割できる非常に
高い音程分解能を持つピッチを抽出する。ビブラート検出部14は入力音声信号からビブ
ラート検出を行う。得点算出部15は入力音声を通常歌唱区間とビブラート歌唱区間に分
離して採点する。通常歌唱区間における採点では、ピッチが平均音階に乗っているかど
うかを判定し、その判定結果を基に得点を算出する。
【選択図】図2

Description

本発明は、歌唱力評価方法及びカラオケ装置に関する。
現在市販されている殆ど全てのカラオケ装置には、カラオケ採点機能が付いている。従
来のカラオケ採点は、マイクから入力された歌唱者の歌声から抽出した音程(ピッチ)と
ガイドメロディの音程を比較して、その一致度に基づき得点を算出するというものである
カラオケ採点装置において、歌唱者の歌声からピッチ(音程)を抽出するピッチ抽出手
段は最も重要な機能の一つである。カラオケ採点に用いられるピッチ抽出法としては、特
許文献2の発明に記載されている高速フーリエ変換法が一般的である。一方、主に音声認
識用途に研究されてきたピッチ抽出法としては、非特許文献1及び非特許文献2に記載さ
れている自己相関関数法、非特許文献3に記載のケプストラム法、非特許文献2で提案さ
れている平方根・4乗根スペクトルの自己相関関数法、非特許文献1に記載の対数スペク
トルの自己相関関数法などが知られている。
さらに、上手な歌唱者がアドリブ歌唱を行った場合を考慮したカラオケ採点技術も発明
されている。特許文献1・特許文献2では、歌唱者の音程とガイドメロディを比較するだ
けではなく、ガイドメロディと調和音の関係にある調和音程(アベイラブルノートスケー
ル)を歌唱者の音程と比較し、得点を算出することでアドリブ歌唱に対応している。調和
音程(アベイラブルノートスケール)とは、主旋律や伴奏情報(コード)から導きだすも
ので、不協和音にはならない音程のことをいう。
國枝 伸行,島村 徹也,鈴木 誠史, "対数スペクトルの自己相関関数を利用したピッチ抽出法",電子情報通信学会論文誌(A),J80−A,3,pp435−443,1997. 吉尾 重治,趙 奇方,島村 徹也,鈴木 誠史,"平方根及び4乗根パワースペクトルの自己相関に基づくピッチ抽出",電子情報通信学会論文誌(A),J84−A,3,pp436−440,2001. 平井 重行,片寄 晴広,井口 征士, "歌の調子外れに対する治療支援システム",電子情報通信学会論文誌(D−II),J84−D−II,9,pp1933−1941, 2001. 特開平11−249674号公報 特開2004−102147号公報
しかし、これらのカラオケ採点法は人間の感性に合わないとしばしば指摘される。これ
らの採点法が人間の主観に合わない原因について分析すると、「歌唱者の歌声から抽出す
るピッチ抽出精度の問題」、「歌唱力採点法の問題」の2つの要因に分解できる。以下、
これらの問題点について具体的に説明する。
まず、歌唱者の歌声から抽出するピッチ抽出精度の問題について説明する。歌唱力評価
装置に必要なピッチ抽出法は、人が歌うときの全音域を精度良く分析できるのが理想的で
ある。人が歌うときの音域を表3に示す。
一般の人がカラオケで歌う音域は、ベース系歌手が歌う昔のアニメソングや演歌などの
最低音(F2=87.3[Hz]付近)から、高音はクラッシックソプラノの最高音(C
6=1046[Hz]付近)までと考えられる。従って、カラオケ採点用途の理想的なピ
ッチ抽出では、D2(73.4[Hz])〜C6(1046[Hz])付近の約4オクタ
ーブの範囲を判別できれば十分である。しかし、4オクターブの範囲を精度良く検出でき
るピッチ抽出法はこれまで提案されていない。
一方、人間が何を基準に歌の上手い・下手を評価しているか?を観察すると、音楽の先
生が生徒に歌唱指導をするときに最も多く指摘することは"微妙に音程が高い"・"微妙に
音程が低い"というわずかな音程のずれである。例えばC4(ド)の音程を歌う歌唱者の
声が"上ずっている"場合、C4(ド)より半音高いC4#(ド#)を歌っていることは少
なく、C4とC4# の中間で歌っていることが多い。つまり、人間の声には、五線譜に
乗らない音が存在する。図40及び図41に示すように、歌の上手い人は伴奏に合った音
程で歌うことが多いのに対し、歌があまり上手でない人の音程は伴奏と調和しない"微妙
にずれた音程"で歌ってしまうことが多い。従って、カラオケ採点装置が音楽の先生と同
じような歌唱力評価をするためには、歌唱者の歌声が音程からどれくらい離れているかを
非常に細かく分析できるピッチ抽出機能が必要である。"ド"と"ド#"の違いを判別できる
程度の分解能では不十分で、"ド"と"ド#"の間を最低10等分できる程度の周波数分解能
が必要である。しかし、公知のピッチ抽出法でこれらの要件を満たすものは存在しない。
従来のピッチ分析手法の、周波数分解能の問題についてさらに詳しく説明する。図42
は、自己相関関数法と、高速フーリエ変換法で分析可能なピッチ周波数fと周波数分解能
Δfの関係を示したものである。なお、(x)は半音階の周波数分解能で、(y)は歌唱
力を正しく評価するために最低限必要と考えられる半音階の1/10の周波数分解能の境
界を示している。高速フーリエ変換では分析ピッチに関わらず周波数分解能は一定である
。しかし、高速フーリエ変換の周波数分解能は常に(y)の境界線より上にあるため、歌
唱力評価に十分な性能とは言えない。自己相関関数法では、ピッチ周波数が300[Hz
]以下の帯域で歌唱力評価に十分な周波数分解能が得られるが、300[Hz]以上の帯
域では周波数分解能は低く(粗く)なる。
ところで人間は、歌声の"音程が微妙に高い","微妙に低い"という違いを『周波数の高
低』としてではなく『音程の高低』として感じとる。歌唱力を正しく評価するためには、
『周波数分解能が高いピッチ抽出』ではなく『音程に対する分解能が高いピッチ抽出』が
必要と考える。以下、"音程に対する分解能"を"音程分解能"と記すことにする。図42の
縦軸を『周波数分解能』から『音程分解能』に置き換えると図43となる。音程分解能Δ
は数式20で定義する。[cent]は音の高さの違いを表す単位で、100[c
ent]が半音の音程差に相当する。音程分解能Δcが50[cent]なら半音階を
2等分して分析でき、音程分解能Δcが10[cent]なら半音階を10等分して分
析できるという意味になる。比較のため数式21には、周波数分解能Δfの定義式を記
す。
音程分解能で考えた場合、(x)半音階は100[cent]の水平線、(y)半音階
の1/10の境界は10[cent]の水平線として図43に表現される。図43からは
次のことが分かる。
会話認識用途のピッチ抽出法としてよく知られている自己相関関数法では、分析ピッチ
f=100[Hz]のとき、音程分解能Δcは約3[cent]で非常に細かく分析でき
る。一方、分析ピッチf=1200[Hz]のとき、音程分解能Δcは42.7[cen
t]となり、半音階の1/2程度の粗い分解能でしか分析できない。自己相関関数では、
低音は細かい音程分解能で分析できるが、高音の音程分解能は粗い。100[Hz]付近
は男性低音系の歌唱者が良く使う帯域、1200[Hz]は女性ソプラノ系歌唱者が使う
最高音付近と考えられる。すなわち、自己相関関数によるピッチ抽出をそのままカラオケ
採点に用いると、ベース系歌唱者が音程の低い歌を歌った場合は非常に細かい分析ができ
るが、ソプラノ系歌唱者が高い音程の歌を歌ったときの分析精度は著しく低下することに
なる。
特許文献2でカラオケ採点用のピッチ抽出手段として用いられている高速フーリエ変換
では、音程分解能は低音で粗く高音で細かくなる傾向にある。ソプラノ系歌唱者の高い歌
声がやや細かく分析できる程度で、全帯域の音程分解能が非常に粗い。従来のカラオケ採
点装置は、"裏声などの高い声で歌うと高得点が出易い"としばしば指摘される。これは高
音域で高速フーリエ変換の音程分解能が比較的細かくなる特性によるものと考えられるが
、この程度の分解能では歌唱力を正しく評価するのに不十分である。
なお、図42・図43に示した高速フーリエ変換の周波数分解能及び音程分解能は、サ
ンプリング周波数48000[Hz]、分析フレーム長30[ms]の分析条件で算出し
たものである。これは考えられる最良の分析条件におけるシミュレーション結果である。
実際には、計算量の問題から30[ms]のフレーム長はさらに短くしなければ装置化で
きないと推測されるため、現在市販されているカラオケ採点装置のピッチ抽出部における
音程分解能はさらに粗くなっているはずである。
また、非特許文献1、非特許文献2及び非特許文献3に記載のケプストラム法、平方根
・4乗根スペクトルの自己相関関数法、対数スペクトルの自己相関関数法は、「一定長の
分析フレームに対して高速フーリエ変換を行う処理」を含むため、高速フーリエ変換を用
いたピッチ抽出法に比べ周波数分解能が大幅に改善されることはない。
上記のピッチ抽出法は、主に音声認識用に研究・開発されてきたものである。会話認識
・合成用途のピッチ抽出では、周波数分解能が粗いことは問題ではなかった。例えば、会
話音声の合成に用いるピッチが"半音"程度ずれて検出されても実用上問題は無いからであ
る。一方、カラオケ採点や歌唱力評価に用いるピッチ抽出技術に関する文献で、周波数分
解能や音程分解能について検討したものは過去に存在しない。"歌唱力評価用のピッチ抽
出法"はこれまで十分に考察されていなかったのが現状である。
次に、歌唱力採点方法の問題について説明する。ガイドメロディと歌唱者の歌声のピッ
チを比較して得点を算出する従来のカラオケ採点法が人間の主観と合わない理由を以下に
示す。
歌唱者のアドリブ歌唱、例えばプロのジャズシンガーがカラオケで歌った場合について
考える。ジャズシンガーは曲のコード進行をもとに、曲に合うフレーズを即興で作り出し
即興で演奏する。彼らは全てのフレーズを即興で作りだしているわけではない。アドリブ
の90%〜30%はあらかじめ覚えているフレーズを組み合わせたもの(別な曲のフレー
ズの使いまわし)である。プロのジャズシンガーはアドリブ歌唱で、ガイドメロディと全
く違う旋律を歌うことがあるが、一般の人はその歌声を聴いて"上手い"・"凄い"などと感
じる。
図44は、カラオケのガイドメロディと歌唱者の歌声ピッチを比較したものである。カ
ラオケ装置で演奏されるガイドメロディはMIDIで作られるのが一般的である。MID
Iで作られたガイドメロディは直線的(機械的)な変化をするのに対し、歌声のピッチは
直線的にはならない。人間はどう頑張っても機械のようには歌えない。また、歌を聴く人
も機械的で直線的な歌い方が上手いとは感じない。さらに、原曲を歌う歌手の細かい表現
(音程変化:しゃくり上げ、ブルーノート、ビブラートなど)を、MIDIで再現するの
は非常に難しいためガイドメロディと歌唱者の音程の間にどうしても差異ができる。
MIDI作者の意図と歌唱者の意図は一致しないことも多い。例えば、ガイドメロディ
は"フルート"・"サックス"など楽器の音色で作られることが多い。MIDI作者の中には
、人の"歌声"ではなく"フルート奏者"のソロ演奏をイメージしてガイドメロディを作る者
もいる。"フルート奏者"をイメージして作られたガイドメロディは、本来なら音符を切る
フレーズでも音符が伸ばしっぱなしになることがある。カラオケ演奏に使われるMIDI
楽曲の質はMIDI作者により左右される。
上述の理由により、歌とガイドメロディは本質的に異なるものである。従って、『歌が
ガイドメロディに忠実かどうか?』と『歌の上手い下手』はあまり関係がないと考えられ
る。歌唱者の歌声の音程とガイドメロディを比較する採点方式が、人間の主観と合わない
のは当然である。
次に、特許文献1・特許文献2に記載されているアドリブ歌唱を考慮した採点方式では
、ガイドメロディの他に、カラオケガイドメロディや伴奏情報から導き出した不協和音に
はならない調和音程も考慮して採点を行う。しかし、これらの方法には以下の問題点があ
る。
例えばジャズシンガーが良く使う"別な曲のフレーズの使いまわし"がいつもコードや調
和音程に乗るとは限らない、実際には不協和音になる瞬間が存在する。また稀に高度な技
術を持った歌唱者が、意図的に不協和音を作る場合もある。上手な歌唱者はコードに載っ
ていない音や不協和音も上手に使う。ジャズシンガーの自由なアドリブ歌唱は、ガイドメ
ロディやコードから導き出した調和音程に当てはまらない場合がある。
また、コード推定や調和音程の推定には複雑なアルゴリズムが必要となるため、調和音
程(アベイラブルノートスケール)を高い精度で推定することは難しい。さらに、カラオ
ケ楽曲によっては、MIDIを採用せず、生バンドの演奏を録音したものもある。生バン
ドの演奏から、コードを調べるためには高速・高性能な演算装置が必要となり、カラオケ
装置のコストアップにつながる。
以上の説明より、人間の主観と相関の強い採点ができるカラオケ採点装置を作るために
は、それぞれ、ピッチ抽出部、歌唱力採点部について根本的な見直しを行う必要がある。
本発明は上記問題を解決するためになされたものであり、人間の主観評価に近い得点を
算出できる歌唱力評価方法、人間の主観評価に近い得点を算出できる歌唱力評価機能を有
するカラオケ装置を提供する。
上記目的を達成するために、本発明の請求項1に記載の歌唱力評価方法は、コンピュー
タに、音声信号入力手段から入力された歌唱者の歌声信号からピッチ(音程)を抽出させ
るピッチ抽出ステップと、当該ピッチ抽出ステップを実行させて得られたピッチ情報をピ
ッチ記憶手段に記憶させるピッチ記憶ステップを実行させ、前記ピッチ記憶手段より前記
ピッチを読み出し、読み出されたピッチと当該ピッチの最近傍にある平均音階上の音程
との最小距離を算出し、当該最小距離が小さいほど高い得点を算出させることを特徴とす
る。
また、本発明の請求項2に記載の歌唱力評価方法は、コンピュータに、音声信号入力手
段から入力された歌唱者の歌声信号からピッチ(音程)を抽出させるピッチ抽出ステップ
と、当該ピッチ抽出ステップを実行させて得られたピッチ情報をピッチ記憶手段に記憶さ
せるピッチ記憶ステップを実行させ、前記ピッチ記憶手段より前記ピッチを読み出し、読
み出されたピッチと当該ピッチの最近傍にある純正音階上の音程との最小距離を算出し
、当該最小距離が小さいほど高い得点を算出させることを特徴とする。
また、本発明の請求項3に記載の歌唱力評価方法は、請求項1乃至請求項2の何れかに
記載の発明の構成に加え、前記ピッチ抽出ステップは全分析音域において半音階を10分
割以上できる音程分解能を備えるピッチを抽出することを特徴とする。
また、本発明の請求項4に記載の歌唱力評価方法は、コンピュータに、音声信号入力手
段より入力された歌唱者の歌声信号からピッチ(音程)情報を抽出させ、ピッチ記憶手段
に記憶させるピッチ抽出・記憶ステップと、前記音声信号入力手段より入力された歌唱者
の歌声信号からビブラート情報を検出させ、ビブラート記憶手段に記憶させるビブラート
検出・記憶ステップとを実行させ、前記ピッチ記憶手段と前記ビブラート記憶手段より読
み出されたピッチ情報とビブラート情報を用いて歌唱区間をビブラート区間とそれ以外の
通常歌唱区間に分離し、分離されたビブラート区間と通常歌唱区間について別々に得点を
算出させる歌唱力評価方法で、前記通常歌唱区間の得点は請求項1乃至請求項3の何れか
に記載の歌唱力評価方法を実行して算出させることを特徴とする。
また、本発明の請求項5に記載の歌唱力評価方法は、コンピュータに、音声信号入力手
段より入力された歌唱者の歌声信号からピッチ(音程)情報を抽出させ、ピッチ記憶手段
に記憶させるピッチ抽出・記憶ステップと、前記音声信号入力手段より入力された歌唱者
の歌声信号からビブラート情報を検出させ、ビブラート記憶手段に記憶させるビブラート
検出・記憶ステップと、前記音声信号入力手段より入力された歌唱者の歌声信号から無声
音を判別することにより無声区間情報を抽出し、無声区間記憶手段に記憶させる無声区間
検出・記憶ステップと、前記音声信号入力手段より入力された歌唱者の歌声信号から音程
変化量を算出し、音程変化量記憶手段に記憶させる音程変化量抽出・記憶ステップとを実
行させ、前記ピッチ記憶手段、前記ビブラート記憶手段、前記無声区間記憶手段、前記音
程変化量記憶手段より読み出された各情報から、歌唱区間を無声区間、ビブラート区間、
ビブラート区間以外で音程変化量が大きい区間、それ以外の通常歌唱区間に分離し、それ
ぞれの歌唱区間に対して得点を算出させることを特徴とする歌唱力評価方法で、前記通常
歌唱区間の得点は請求項1乃至請求項3の何れかに記載の歌唱力評価方法を用いて算出さ
せることを特徴とする。
また、本発明の請求項6に記載の歌唱力評価方法は、請求項4乃至請求項5の何れかに
記載発明の構成に加え、前記ビブラート検出・記憶ステップとして、前記音声信号入力手
段より入力された音声信号から音程変化量を抽出する音程変化量抽出ステップと、当該音
程変化量抽出ステップを実行させて得られた音程変化量を音程変化量記憶手段に順次記憶
させる音程変化量記憶ステップと、前記音程変化量記憶手段より複数の音程変化量を読み
出し、読み出された複数の音程変化量により構成される一定区間長のフレームに対して自
己相関分析または相互相関分析を行うことで相関関数を算出する音程相関関数算出ステッ
プを実行させ、当該音程相関関数算出ステップを実行して得られた相関関数の特性を用い
て入力音声中のビブラート区間を検出することを特徴とする。
また、本発明の請求項7に記載の歌唱力評価方法は、請求項6に記載の発明の構成に加
え、前記音程変化量抽出ステップは、音声信号入力手段より入力された音声信号の周波数
分析を実行させスペクトルを算出するスペクトル算出ステップと、当該スペクトル算出ス
テップを実行させて得られたスペクトルをスペクトル記憶手段に記憶するスペクトル記憶
ステップと、前記スペクトル記憶手段より読み出された2つ以上のスペクトルのずらしマ
ッチングにより音程変化量を抽出することを特徴とする。
また、本発明の請求項8に記載の歌唱力評価方法は、請求項4乃至請求項7の何れかに
記載の発明の構成に加え、前記通常歌唱区間の得点をD、前記ビブラート区間の得点を
、任意のパラメータをx,x,…,xと定義し、f(D,x,x,…,
)は「Dとx,x,…,xを引数に持つ関数」と定義したときに、前記ビブ
ラート区間の得点Dは、D=f(D,x,x,…,x)として算出し、前記
ビブラート区間の得点Dに、通常歌唱区間の得点Dが反映されるように構成したこと
を特徴とする。
また、本発明の請求項9に記載の歌唱力評価方法は、請求項8に記載の発明の構成に加
え、前記ビブラート区間の得点は、前記通常歌唱区間の得点に実数である定数αを乗じて
算出することを特徴とする。
また、本発明の請求項10に記載の歌唱力評価方法は、請求項9に記載の発明の構成に
加え、前記定数αをユーザの好みにより調整できることを特徴とする。
また、本発明の請求項11に記載の歌唱力評価機能を有するカラオケ装置は、音声信号
入力手段から入力された歌唱者の歌声信号からピッチ(音程)を抽出するピッチ抽出手段
と、当該ピッチ抽出手段により得られたピッチ情報を記憶するピッチ記憶手段を備え、前
記ピッチ記憶手段より前記ピッチを読み出し、当該ピッチの最近傍にある平均音階上の
音程との最小距離を算出し、当該最小距離が小さいほど高い得点を算出することを特徴と
する。
また、本発明の請求項12に記載の歌唱力評価機能を有するカラオケ装置は、音声信号
入力手段から入力された歌唱者の歌声信号からピッチ(音程)を抽出するピッチ抽出手段
と、当該ピッチ抽出手段により得られたピッチ情報を記憶するピッチ記憶手段を備え、前
記ピッチ記憶手段より前記ピッチを読み出し、当該ピッチの最近傍にある純正音階上の
音程との最小距離を算出し、当該最小距離が小さいほど高い得点を算出することを特徴と
する。
また、本発明の請求項13に記載の歌唱力評価機能を有するカラオケ装置は、請求項1
1乃至請求項12の何れかに記載の発明の構成に加え、前記ピッチ抽出手段は全分析音域
において半音階を10分割以上できる音程分解能を備えることを特徴とする。
また、本発明の請求項14に記載の歌唱力評価機能を有するカラオケ装置は、請求項1
1乃至請求項13の何れかに記載の発明の構成に加え、音声信号入力手段より入力された
歌唱者の歌声信号からピッチ(音程)情報を抽出し、ピッチ記憶手段に記憶するピッチ抽
出手段と、前記音声信号入力手段より入力された歌唱者の歌声信号からビブラート情報を
検出し、ビブラート記憶手段に記憶するビブラート検出手段とを備え、前記ピッチ記憶手
段と前記ビブラート記憶手段より読み出されたピッチ情報とビブラート情報を用いて歌唱
区間をビブラート区間とそれ以外の通常歌唱区間に分離し、分離されたビブラート区間と
通常歌唱区間について別々に得点を算出することを特徴とする。
また、本発明の請求項15に記載の歌唱力評価機能を有するカラオケ装置は、請求項1
1乃至請求項13の何れかに記載の発明の構成に加え、音声信号入力手段より入力された
歌唱者の歌声信号からピッチ(音程)情報を抽出し、ピッチ記憶手段に記憶するピッチ抽
出手段と、前記音声信号入力手段より入力された歌唱者の歌声信号からビブラート情報を
検出し、ビブラート記憶手段に記憶するビブラート検出手段と、前記音声信号入力手段よ
り入力された歌唱者の歌声信号から無声音を判別することにより無声区間情報を抽出し、
無声区間記憶手段に記憶する無声区間検出手段と、前記音声信号入力手段より入力された
歌唱者の歌声信号から音程変化量を算出し、音程変化量記憶手段に記憶する音程変化量抽
出手段とを備え、前記ピッチ記憶手段、前記ビブラート記憶手段、前記無声区間記憶手段
、前記音程変化量記憶手段より読み出された各情報から、歌唱区間を無声区間、ビブラー
ト区間、ビブラート区間以外で音程変化量が大きい区間、それ以外の通常歌唱区間に分離
し、それぞれの歌唱区間に対して得点を算出することを特徴とする。
また、本発明の請求項16に記載の歌唱力評価機能を有するカラオケ装置は、請求項1
4または請求項15に記載の発明の構成に加え、前記ビブラート検出手段は、音声信号入
力手段より入力された音声信号から音程変化量を抽出する音程変化量抽出手段と、当該音
程変化量抽出手段により得られた音程変化量を音程変化量記憶手段に順次記憶する音程変
化量記憶手段と、前記音程変化量記憶手段より複数の音程変化量を読み出し、読み出され
た複数の音程変化量により構成される一定区間長のフレームに対して自己相関分析または
相互相関分析を行うことで相関関数を算出する音程相関関数算出手段と、当該音程相関関
数算出手段により得られた相関関数を記憶する音程相関関数記憶手段と、前記音程相関関
数記憶手段より読み出された相関関数の特性を用いて入力音声中のビブラート区間を検出
するビブラート検出手段とを備えることを特徴とする。
また、本発明の請求項17に記載の歌唱力評価機能を有するカラオケ装置は、請求項1
6に記載の発明の構成に加え、前記音程変化量抽出手段は、音声信号入力手段より入力さ
れた音声信号に周波数分析を行いスペクトルを算出するスペクトル算出手段と、当該スペ
クトル算出手段を実施して得られたスペクトルを記憶するスペクトル記憶手段を備え、前
記スペクトル記憶手段より読み出された2つ以上のスペクトルのずらしマッチングにより
音程変化量を抽出することを特徴とする。
また、本発明の請求項18に記載の歌唱力評価機能を有するカラオケ装置は、請求項1
4乃至請求項17の何れかに記載の発明の構成に加え、前記通常歌唱区間の得点をD
前記ビブラート区間の得点をD、任意のパラメータをx,x,…,xと定義し、
f(D,x,x,…,x)は「Dとx,x,…,xを引数に持つ関数」
と定義したときに、前記ビブラート区間の得点Dは、D=f(D,x,x,…
,x)として算出し、前記ビブラート区間の得点Dに、通常歌唱区間の得点Dが反
映されるように構成したことを特徴とする。
また、本発明の請求項19に記載の歌唱力評価機能を有するカラオケ装置は、請求項1
8に記載の発明の構成に加え、前記ビブラート区間の得点は、前記通常歌唱区間の得点に
実数である定数αを乗じて算出することを特徴とする。
また、本発明の請求項20に記載の歌唱力評価機能を有するカラオケ装置は、請求項1
9に記載の発明の構成に加え、前記定数αをユーザの好みにより調整できることを特徴と
する。
なお、本発明の請求項に言う『ピッチ抽出ステップ』としては、「音声信号入力手段よ
り入力された音声信号の自己相関分析または相互相関分析を実行させ相関関数を算出させ
る相関関数算出ステップと、当該相関関数算出ステップを実行させて得られた相関関数を
相関関数記憶手段に記憶させる相関関数記憶ステップと、前記相関関数記憶手段より読み
出された相関関数を複数の周波数帯域毎の部分相関関数に分割し、各帯域の部分相関関数
を重ね合わせ合成させることで高音域の周波数分解能を低音域の周波数分解能で補い、高
音域の周波数分解能を向上させた合成相関関数を算出させる合成相関関数算出ステップと
、当該合成相関関数算出ステップを実行して得られた合成相関関数を合成相関関数記憶手
段に記憶させる合成相関関数記憶ステップと、前記合成相関関数記憶手段より読み出され
た合成相関関数に極値を与える周波数をピッチとして抽出させるピッチ抽出ステップとを
実行させることを特徴とするピッチ抽出ステップ」を採用した構成としても良い。
また、本発明の請求項に言う『ピッチ抽出手段』としては、「音声信号入力手段より入
力された音声信号に自己相関分析または相互相関分析を行い相関関数を算出する相関関数
算出手段と、当該相関関数算出手段により得られた相関関数を記憶する相関関数記憶手段
と、前記相関関数記憶手段より読み出された相関関数を複数の周波数帯域毎の部分相関関
数に分割し、各帯域の部分相関関数を重ね合わせ合成することで高音域の周波数分解能を
低音域の周波数分解能で補い、高音域の周波数分解能を向上させた合成相関関数を算出す
る合成相関関数算出手段と、当該合成相関関数算出手段により得られた合成相関関数を記
憶する合成相関関数記憶手段とを備え、前記合成相関関数記憶手段より読み出された合成
相関関数に極値を与える周波数をピッチとして抽出するピッチ抽出手段」を採用した構成
としても良い。
本発明の請求項1に記載の歌唱力評価方法は、カラオケのガイドメロディなどにとらわ
れない自由な歌唱力評価を可能とする。
また、本発明の請求項2に記載の歌唱力評価方法は、カラオケのガイドメロディなどに
とらわれない自由な歌唱力評価を可能とする。
また、本発明の請求項3に記載の歌唱力評価方法は、請求項1乃至請求項2の何れかに
記載の歌唱力評価方法に加え、ピッチ抽出ステップが全分析音域において半音階を10分
割以上できる音程分解能を備えることにより、音楽の先生が歌を評価するときのような"
音程が微妙に高い","微妙に低い"といった特徴を歌唱力評価に反映させることができる
また、本発明の請求項4に記載の歌唱力評価方法は、請求項1乃至請求項3の何れかに
記載の歌唱力評価方法に加え、歌唱者のビブラート歌唱を考慮した歌唱力評価を可能とす
る。
また、本発明の請求項5に記載の歌唱力評価方法は、請求項1乃至請求項3の何れかに
記載の歌唱力評価方法に加え歌唱区間を無声区間、ビブラート区間、ビブラート区間以外
で音程変化量が大きい区間、それ以外の通常歌唱区間に分離し別々に得点を算出すること
で精密な歌唱力評価を実現することができる。
また、本発明の請求項6に記載の歌唱力評価方法は、請求項4乃至請求項5の何れかに
記載の発明の構成に加え、入力音声信号より抽出された複数の音程変化量により構成され
るフレームに対して、自己相関分析を行う高精度なビブラート検出・記憶ステップを実行
することで、高精度な歌唱力評価を実現する。
また本発明の請求項7に記載の歌唱力評価方法は、請求項6に記載の発明の構成に加え
音程変化量の算出にスペクトルのずらしマッチングを利用することにより特に外乱の影響
に強い環境でも安定して音程変化量を算出できる利点がある。この構成の歌唱力評価方法
は、例えばノイズや外乱の多いカラオケBOXなどに設置される歌唱力評価装置への搭載
に有効である。
また、本発明の請求項8に記載の歌唱力評価方法は、請求項4乃至請求項7の何れかに
記載の歌唱力評価方法において、通常歌唱区間から算出した得点を反映してビブラート歌
唱区間の得点を算出する構成としている。通常歌唱区間から算出した得点には歌唱者の「
音程の正確さ」が反映されるため、請求項8に記載の歌唱力評価方法は、ビブラート歌唱
区間の得点に「音程の正確さ」を加味することが可能である。
また、本発明の請求項9に記載の歌唱力評価方法は、請求項8に記載の歌唱力評価方法
において、前記通常歌唱区間の得点に定数αを乗ずることで、ビブラート歌唱区間の得点
をより簡単な構成で算出することができる。
また、本発明の請求項10に記載の歌唱力評価方法は、請求項9に記載の歌唱力評価に
おけるビブラートの寄与度を例えばカラオケBOXのオーナーが好みにより調整できるよ
うにすることができる。
また、本発明の請求項11に記載の歌唱力評価機能を有するカラオケ装置は、通常のカ
ラオケ採点と異なりカラオケのガイドメロディなどにとらわれない自由な歌唱力評価を可
能とする。
また、本発明の請求項12に記載の歌唱力評価機能を有するカラオケ装置は、通常のカ
ラオケ採点と異なりカラオケのガイドメロディなどにとらわれない自由な歌唱力評価を可
能とする。
また、本発明の請求項13に記載の歌唱力評価機能を有するカラオケ装置では、請求項
11乃至請求項12の何れかに記載の歌唱力評価方法に加え、ピッチ抽出ステップが全分
析音域において半音階を10分割以上できる音程分解能を備えることにより、音楽の先生
が歌を評価するときのような"音程が微妙に高い","微妙に低い"といった特徴を歌唱力評
価に反映させることができる。
また、本発明の請求項14に記載の歌唱力評価機能を有するカラオケ装置は、請求項1
1乃至請求項13の何れかに記載の発明の構成に加え、歌唱者のビブラート歌唱を考慮し
た歌唱力評価を可能とする。
また、本発明の請求項15に記載の歌唱力評価機能を有するカラオケ装置は、請求項1
1乃至請求項13の何れかに記載の発明の効果に加え、歌唱区間を無声区間、ビブラート
区間、ビブラート区間以外で音程変化量が大きい区間、それ以外の通常歌唱区間に分離し
別々に得点を算出することで精密な歌唱力評価を実現できる利点がある。
また、本発明の請求項16に記載のカラオケ装置は、入力音声信号より抽出された複数
の時系列音程変化量に対して自己相関分析を行う検出精度の高いビブラート検出手段を備
える。カラオケ装置に搭載される歌唱力評価機能は、高精度なビブラート検出手段を備え
ることで、ビブラート歌唱に対応した高精度な歌唱力評価が可能となる。
また、本発明の請求項17に記載の歌唱力評価機能を有するカラオケ装置は、請求項1
6に記載の発明の構成に加え、スペクトルのずらしマッチングを用いたより信頼性の高い
音程変化量抽出手段を採用した構成である。この構成のカラオケ装置は、特にノイズや外
乱の多い環境に設置される場合でも安定して高精度なビブラート検出ができ、ビブラート
歌唱に対応した高精度で信頼性の高い歌唱力評価が可能となる。
また、本発明の請求項18に記載の歌唱力評価機能を有するカラオケ装置は、請求項1
4乃至請求項17の何れかに記載の発明の構成に加え、通常歌唱区間から算出した得点を
反映してビブラート歌唱区間の得点を算出する構成としている。通常歌唱区間から算出し
た得点には歌唱者の「音程の正確さ」が反映されるため、請求項18に記載の歌唱力評価
方法は、ビブラート歌唱区間の得点に「音程の正確さ」を加味することが可能である。
また、本発明の請求項19に記載の歌唱力評価機能を有するカラオケ装置は、請求項1
8に記載の発明の構成に加え、前記通常歌唱区間の得点に定数αを乗ずることで、ビブラ
ート歌唱区間の得点をより簡単に算出することができる。
また、本発明の請求項20に記載の歌唱力評価機能を有するカラオケ装置は、請求項1
9に記載の歌唱力評価におけるビブラートの寄与度を例えばカラオケBOXのオーナーが
好みにより調整できる利点がある。
次に本発明を適用した実施の形態について図面を参照して詳しく説明する。まず本発
明の第一実施形態として、歌唱力評価装置を搭載したカラオケ装置について説明する。図
1は第一実施形態におけるカラオケ採点装置の外観である。図1に示すように、カラオケ
装置1にはマイク2、ディスプレイ3、AMP4が接続されており、AMP4にはスピー
カ5が接続されている。
図2は、カラオケ装置1の内部構造について説明したブロック図である。図2に示すよ
うに、カラオケ装置はCPU(Central Processing Unit)19
を中心にした電子回路で構成される。CPU19はHDD(Hard Disk Dri
ve)18、ビデオコントローラ6、ミキサ7、RAM(Random Access
Memory)9、採点処理部12に接続され、各機器の動作を制御する。マイク2は、
カラオケ装置1内部のA/D変換部17に接続される。A/D変換部17は、RAM9と
ミキサ7に接続される。ミキサ7は演奏装置8に接続されており、ミキサ7の出力を演奏
装置8を経由して外部のAMP4に伝える。RAM9には、A/D変換部17、採点処理
部12、CPU19が接続されている。RAM9にはA/D変換部17によりA/D変換
された音声信号、採点処理部12により算出されたカラオケ採点結果などが記録される。
採点処理部12は、ピッチ抽出部13、ビブラート検出部14、得点算出部15から構
成され、ピッチ抽出部13とビブラート検出部14の出力を基に、得点算出部15で得点
算出を行う構造になっている。
HDD18には、多数のカラオケ曲の背景映像、演奏データ、歌詞テロップ、その他の
情報が蓄えられている。操作部16は、パネルスイッチや、リモコン受信回路から成り、
ユーザによる操作信号をCPU19に伝える。歌い手が多数のカラオケ曲から特定の曲を
選択し操作部16より入力すると、CPU19は、その信号を受けてHDD18より該当
するカラオケ曲の演奏データを読み出し、ミキサに出力する。
一方、マイク2より入力された歌唱者の歌声は、A/D変換部17でサンプリングされ
、ミキサ7に送られる。ミキサ7はマイク2から入力された歌唱者の歌声とHDD18よ
り読み出された演奏データを合成し、演奏装置8に出力する。合成された演奏データはA
MP4を経由してスピーカ5から出力される。同時に、CPU19は背景映像および歌詞
テロップをビデオコントローラ6に送る。歌詞テロップは、演奏と同期してディスプレイ
3に表示され、現在演奏されている歌詞テロップの色が変化していく。歌唱者は歌詞テロ
ップを見ながら伴奏に従って歌を歌う。この一連の動作制御はCPU19が担当している
次に、採点処理部12の動作について説明する。カラオケ装置に付属するカラオケ採点
機能を使用するかどうかは歌唱者の意思に委ねられる。カラオケ採点を希望する歌唱者は
操作部16を操作して、採点機能をONにする。歌唱者のカラオケ歌唱が始まると、CP
U19は採点処理部12に採点開始指示を与える。採点開始指示を与えられた採点処理部
12はカラオケ採点を開始する。マイク2より入力された歌唱者の歌声は、A/D変換部
17によりサンプリングされ、DMA(Direct Memory Access)に
よりRAM9に音声信号として記録される。ピッチ抽出部13はRAM9から音声信号を
読み出し、ピッチを算出する。同時に、ビブラート検出部14はRAM9から音声信号を
読み出し、ビブラートを検出する。得点算出部15はピッチ抽出部13より検出されたピ
ッチ情報と、ビブラート検出部14により検出されたビブラート情報に基づき、得点を算
出する。算出された得点は、採点結果としてRAM9に書き込まれる。なお、このA/D
変換部17が請求項に言う音声信号入力手段に相当する。
演奏終了後、CPU19が採点終了指示を採点処理部12に与えると、カラオケ採点処
理は終了する。CPU19はRAM9から読み出した採点結果をビデオコントローラ6に
送る。採点結果はディスプレイ3に表示され、歌唱者は歌の採点結果を確認し一喜一憂す
る。なお、本実施形態では演奏終了後に得点をディスプレイ3に表示しているが、これに
限らず歌唱者が歌い始めてから現時点までの中間得点を順次ディスプレイに表示していき
歌唱者が歌いながら得点を確認できる構造にしても良い。
第一実施形態では、採点処理部12は、DSP(Digital Signal Pr
ocessor)と採点処理を行う採点専用ファームウェアによって構成される。通常の
カラオケ採点装置ではDSPはピッチ算出のみに用いられ、採点処理はCPUが行う構成
が多かったが、本実施形態では採点に関わる殆ど全ての処理をDSP(採点処理部)が担
当する。この構成により、採点回路設計の自由度が格段に向上すると共に非常に詳細な分
析が可能となる。
次に、RAM9に設定される記憶領域について、図3を参照して説明する。音声信号記
憶メモリ9Aは、A/D変換部17によりA/D変換された音声信号を記憶する領域であ
る。自己相関関数記憶メモリ9Bは、採点処理部12内部にあるピッチ抽出部13で算出
される自己相関関数を記憶する領域である。合成自己相関関数記憶メモリ9Cは、ピッチ
抽出部13で算出される合成自己相関関数を記憶する領域である。有声・無声判定結果記
憶メモリ9Dは、RAM9より読み出された切り出し音声フレームが有声音か?無声音か
?判定した結果を記憶する領域である。ピッチ記憶メモリ9Eは、ピッチ抽出部13で算
出されるピッチを記憶する領域である。ピッチ変化量I記憶メモリ9Fは、ビブラート検
出部14により算出されたピッチ変化量Iを記憶する領域である。ピッチ変化量II記憶
メモリ9Gは、ビブラート検出部14により算出されたピッチ変化量IIを記憶する領域
である。ビブラート情報記憶メモリ9Hは、ビブラート検出部14により算出されたビブ
ラート情報を記憶する領域である。瞬時得点記憶メモリ9Iは、得点算出部15により算
出された瞬時得点を記憶する領域である。累積得点記憶メモリ9Jは、得点算出部15に
より算出された累積得点を記憶する領域である。ビブラート比率記憶メモリ9Kは、採点
におけるビブラートの寄与度を記憶する領域である。ワークメモリ9Wは、採点処理部が
、採点処理の一時記憶などに使用する領域である。なお、この自己相関関数記憶メモリ9
B及び合成相関関数記憶メモリ9Cが請求項にいう「スペクトル記憶手段」に相当する。
また、ピッチ記憶メモリ9Eが請求項に言う「ピッチ記憶手段」に相当し、ビブラート情
報記憶メモリ9Hが請求項にいう「ビブラート記憶手段」に相当し、有声・無声判定結果
記憶メモリ9Dが請求項にいう「無声区間記憶手段」に相当する。また、ピッチ変化量I
記憶メモリ9F及びピッチ変化量II記憶メモリ9Gは請求項にいう「音程変化量記憶手
段」に相当する。また、ワークメモリ9Wが請求項に言う「音程相関関数記憶手段」に相
当する。
図4は、採点処理部12で行われる採点動作手順について説明したフローチャート、図
5は採点処理部12のブロック図である。採点処理部12の動作について、図3、図4、
図5を参照して説明する。採点処理部12は、ピッチ抽出部13、ビブラート検出部14
、得点算出部15より構成される。
まず、ピッチ抽出部13の動作について図4に示すフローチャートを参照して説明する
。自己相関関数算出モジュール131は、RAM9の音声信号記憶メモリ9Aより読み出
された音声信号を基に自己相関関数を算出し、RAM9の自己相関関数記憶メモリ9Bに
書き込む(S10)。合成自己相関関数算出モジュール132は、RAM9の自己相関関
数記憶メモリ9Bから読み出された自己相関関数を基に合成自己相関関数を算出し、RA
M9の合成自己相関関数記憶メモリ9Cに書き込む(S11)。なお、合成自己相関関数
の詳細については後述する。有声・無声判定モジュール133は、RAM9の自己相関関
数記憶メモリ9Bから読み出された自己相関関数を基に「入力音声が有声音か無声音か?
」の判定を行い、判定結果をRAM9の有声・無声判定結果記憶領域9Dに書き込む(S
12)。ピッチ抽出モジュール134は、RAM9の自己相関関数記憶メモリ9BとRA
M9の合成自己相関関数記憶メモリ9Cから、自己相関関数と合成自己相関関数を読み出
し、これらを基にピッチ抽出を行い、検出されたピッチをRAM9のピッチ記憶メモリ9
Eに書き込む(S13)。上述S10〜S13までの処理をピッチ抽出部13が担当する
。なお、上記S12の処理が請求項に言う「無声区間検出・記憶ステップ」に相当し、S
12の処理を実行する採点処理部(DSP)12が「無声区間検出手段」に相当する。ま
た、上記S13の処理が請求項に言う「ピッチ抽出ステップ」、「ピッチ記憶ステップ」
及び「ピッチ抽出・記憶ステップ」に相当し、S13の処理を実行する採点処理部(DS
P)12が「ピッチ抽出手段」に相当する。また、上記S11の処理が請求項に言う「ス
ペクトル算出ステップ」及び「スペクトル記憶ステップ」に相当し、S11の処理を実行
する採点処理部(DSP)12が「スペクトル算出手段」に相当する。なお、本実施形態
における自己相関関数や合成自己相関関数はスペクトルの一種と考えることができる。
次に、ビブラート検出部14の処理について説明する。ピッチ変化量I算出モジュール
141は、RAM9のピッチ記憶メモリ9Eより読み出されたピッチを基にピッチ変化量
Iを算出しRAM9のピッチ変化量I記憶メモリ9Fに書き込む(S14)。ピッチ変化
量II算出モジュール142は、RAM9の合成自己相関関数記憶メモリ9Cより読み出
された合成自己相関関数を基にピッチ変化量IIを算出し、RAM9のピッチ変化量II
記憶メモリ9Gに書き込む(S15)。ビブラート検出モジュール143は、RAM9の
ピッチ変化量II記憶メモリ9Gより読み出されたピッチ変化量IIを基にビブラート検
出を行い、ビブラート検出結果をRAM9のビブラート情報記憶メモリに書き込む(S1
6)。ビブラート検出モジュールの動作の詳細については後述する。上述S14〜S16
までの処理をビブラート検出部14が担当する。なお、上記S14またはS15の処理が
請求項に言う「音程変化量抽出ステップ」、「音程変化量記憶ステップ」及び「音程変化
量抽出・記憶ステップ」に相当し、S14及びS15の処理を実行する採点処理部(DS
P)12が「音程変化量抽出手段」に相当する。また、上記S16の処理が請求項に言う
「ビブラート検出・記憶ステップ」に相当し、S16の処理を実行する採点処理部(DS
P)12が「ビブラート検出手段」に相当する。
得点算出部15は、RAM9の有声・無声判定結果記憶メモリ9D、ピッチ記憶メモリ
9E、ピッチ変化量I記憶メモリ9F、ピッチ変化量II記憶メモリ9G、ビブラート情
報記憶メモリ9Hより、それぞれ有声・無声判定結果、ピッチ、ピッチ変化量I、ピッチ
変化量II、ビブラート検出結果を読み出し、これらを基に得点算出を行う(S17)。
処理S17により得られた得点算出結果は、RAM9の瞬時得点記憶メモリ9I、累積得
点記憶メモリ9Jに書き込まれる。これら一連の採点処理は、CPU19から採点終了指
示を受ける(S18)ことで終了する。
以下、ピッチ抽出部13、ビブラート検出部14、得点算出部15の動作とその物理的
意味について詳細に説明する。ピッチ抽出部13では、低音のピッチ抽出に有利な自己相
関関数法を歌唱ピッチ抽出用に改良して用いる。
図6は自己相関関数によるピッチ抽出法について説明したものである。第一実施形態で
は、マイク2より入力された歌唱音声は、A/D変換器17によりサンプリング周波数
48[kHz]でサンプリングされ、RAM9の音声信号記憶メモリ9Aに書き込まれる
。採点処理部12は、RAM9の音声信号記憶メモリ9Aから、1回の分析につき144
0[point]の分析フレームを切り出し分析を行う。自己相関関数法では、『分析フ
レーム:F={x(1),x(2),…,x(N)}』と『分析フレームをi[poi
nt]ずらしたもの:F={x(i),x(1+i),…,x(N+i)}』の相関を
求める。相関値R(0,i)を計算する式の一例を数式1に示す。
自己相関関数法では、FとFのずれ量iを1〜N[point]まで変化させ、相
関値(類似度)R(0,i)を順次算出していく。このようにして算出された自己相関関
数R(0,i)は、メモリ9の自己相関関数記憶メモリ9Bに書き込まれる。
通常の自己相関関数を用いたピッチ抽出法では、ピッチ(基本周波数)fは、相関値R
(0,i)を利用して数式2により算出される。数式2は、ずれ量iを順次変化させてい
ったときの相関値 R(0,i)が最大になるずれ量argmax{R(0,i)}を
音声信号の基本周期として検出し、サンプリング周波数48000[Hz]を基本周期で
割ったものをピッチとして算出するという意味である。
表1(a)〜表1(c)は自己相関関数法において、基本周期iのときに計算されるピ
ッチfを示したものである。表1(a)〜表1(c)や図43が示すように、自己相関
関数法は、低音域の音程分解能(周波数分解能)が細かくなり高音域の音程分解能が粗く
なる特徴をもつ。
図7(a)は男性歌唱者が発声したA4(440[Hz])の歌声に自己相関分析を行
ったものである。自己相関関数は、周波数440[Hz]付近で最大値をとっている。一
方、220[Hz]付近,110[Hz]付近,440[Hz]付近でも自己相関関数は
極大値をとっている。これは、楽音(歌声)には"倍音"が存在するためである。例えば、
A2(110Hz)で発声した歌声は、A3(220Hz)の倍音やA4(440Hz)
の倍音を多く含む。
会話認識用途のピッチ抽出では、440[Hz]として検出すべきものを220[Hz
]/880[Hz]と誤って検出する半ピッチ/倍ピッチ誤りが問題となるが、カラオケ
採点用途のピッチ抽出では、半ピッチ/倍ピッチ誤りは大した問題ではないと考える。以
下その理由について説明する。440[Hz]を音階で表すと"A4"である。220[H
z]はA4より1オクターブ低い"A3"、880[Hz]はA4より1オクターブ高い"
A5"で、何れもA(ラ)の音である。カラオケでは、女性が男性歌手の歌を1オクター
ブ高い音程で歌うことがある。さらに、ガイドメロディーのピッチは歌唱者に聞き取り易
くするために原曲の1オクターブ上に設定してあることが多い。歌唱者のピッチとガイド
メロディは1オクターブ異なることもあるし、同じ音程となることもある。従って、カラ
オケ採点にはオクターブ情報は不要である。歌唱者が発声した音程が"A4(440[H
z])なのか?","A3(220[Hz])なのか?"は問題では無く、音程がAである
ことが分かれば十分である。
次に自己相関関数の音程分解能を向上させる方法について図7を参照して説明する。自
己相関関数を用いて分析された約4オクターブの帯域を、〔1〕70〜150[Hz]帯
域、〔2〕140〜300[Hz]帯域、〔3〕280〜600[Hz]帯域、〔4〕5
60〜1200[Hz]帯域の4帯域(それぞれ1オクターブ強の帯域)に分割する(図
7(a)参照)。次に、〔1〕,〔2〕,〔3〕,〔4〕の各帯域の自己相関関数を加算
・合成する(図7(b)参照)。図7(b)の一部を拡大したものが図7(c)である。
〔1〕の帯域では自己相関関数のポイント数が多く、〔4〕の範囲ではポイント数が少な
い。〔2〕〜〔4〕に、線形補間を行うことで、ポイント数の格差を無くしてから合成す
る。この方法は、高音域(例えば〔4〕)のポイント数を、低音域(〔1〕)のポイント
数で補うことになるため、高音域でピッチ抽出時の音程分解能が粗くなる問題を解消でき
る。さらに、自己相関関数を"補強"するため、突発的なノイズに強いピッチ抽出が可能と
なる。この合成した自己相関関数(以下、合成自己相関関数と記す)が最大値(または、
極大値・極小値・極値)をとる周波数(音程)をピッチ周波数fとして検出する。なお、
この合成処理によって生成された合成自己相関関数は1オクターブ強の周波数帯域を持つ
スペクトルとなる。従って、本実施形態における合成自己相関関数からは1オクターブ強
の帯域に整理されたピッチが抽出される。
図7(b)に示す合成自己相関関数は音階毎の音声パワーの強さを示したものと考える
ことができる。図7(b)の例では、パワーは"A"と"G#"の中間で最大値をとり、歌唱
者は『A(ラ)より微妙に低い音程』で発声していることが分かる。合成自己相関関数を
用いることで、音程分解能の高い歌唱力評価用のピッチ抽出を実現できる。
しかし、前述の合成自己相関関数が最大値(または、極大値・極小値・極値)をとる周
波数(音程)をピッチとする方法では、フォルマント(声道の共振特性)の影響によりピ
ッチの誤検出が起きる場合がある。この現象について説明する。図8(a)は男性低音系
歌唱者の歌声から自己相関関数を算出した例である。この音程はA2#で、自己相関関数
法により正しくピッチを求めることができる。一方、図8(b)は合成自己相関関数と〔
1〕70〜150[Hz]帯域の自己相関関数を重ね書きしたものである。自己相関関数
を合成することにより、フォルマント(声道の共振特性)の影響を受け、誤ったピッチ(
D)を検出していることが分かる。
声が低い場合や声に厚みがある(倍音が多い)場合はフォルマントの影響によりピッチ
の誤検出が起き易くなる。図8(b)には、この問題を回避する方法についても説明して
いる。(a)自己相関関数からピッチfを求めた後、(b)合成自己相関関数が最大とな
る周波数をf±Δの範囲で最探索し、ピッチf’として求め直す『2段探索』を用いてピ
ッチ抽出する。2段探索を用いることで、フォルマントの影響によるピッチ誤検出を回避
できる。第一実施形態では、このようにして計算されたピッチfがRAM9のピッチ記憶
メモリ9Eに書き込まれる。同様に合成自己相関関数はRAM9の合成自己相関関数記憶
メモリ9Cに書き込まれる。
図9には、合成自己相関関数をピッチ抽出に用いたときの音程分解能を示す。比較のた
め、自己相関関数法と高速フーリエ変換法の音程分解能も示す。合成自己相関関数は、(
y)半音階の1/10の音程分解能境界よりさらに細かい音程分解能を持ち、半音階を1
8〜37等分することができる。従来のピッチ抽出法との検出精度の違いを例を用いて説
明する。例えば、高速フーリエ変換法では、歌唱者が100[Hz]付近の低い音程で歌
った場合、音程分解能は300[cent]程度となる。100[cent]は半音の差
で、例えば『ド』と『ド#』の違いである。300[cent]は半音階の3倍である。
つまり、高速フーリエ変換によるピッチ抽出では、低音系男性歌唱者が『ド』で歌ってい
るのか『ド#』で歌っているのかさえ判別できない。これに対し、本実施形態で示す合成
自己相関関数は周波数帯域に関わらず、半音階を最低18分割して分析することが可能で
ある。『微妙に高いド#』とか『微妙に低いド#』を表現できる。
次に、歌唱者の歌声が有声音か無声音か判別する方法について簡単に説明する。人間の
声には有声音と無声音があるが、一般的に無声音からはピッチを算出することはできない
ことが知られている。このため、ピッチを算出する前に有声音・無声音判定を行う必要が
ある。有声・無声は、数式1で使用する自己相関関数の比R(0,imax)/R(0,
0)を用いて簡単に判定できる。R(0,imax)/R(0,0)が一定しきい値より
大きければ有声音、一定しきい値より小さければ無声音と判定する。本実施形態では、無
声音はピッチの信頼度が低いため歌唱力評価には用いない。また、有声・無声判定法とし
ては、自己相関関数の比に限らずゼロクロス法などの他の公知な有声・無声判定技術を用
いることもできる。
なお、本実施形態では、自己相関関数で分析する周波数帯域をカラオケ採点で必要と考
えられる4オクターブ(70[Hz]〜1200[Hz])の範囲とし、〔1〕70〜1
50[Hz]帯域、〔2〕140〜300[Hz]帯域、〔3〕280〜600[Hz]
帯域、〔4〕560〜1200[Hz]帯域の4帯域(それぞれ1オクターブ強の帯域)
に分割しているが、これに限らず、分析帯域は必要に応じて自由に変更することができる
例えば、世界屈指のアカペラグループのベースヴォーカルはA1(55Hz)を発声す
ることができ、高音域を得意とする一部の女性ヴォーカルはA6(1760Hz)付近の
高音を含む旋律を歌うという事実もある。これらを考慮に入れて、50[Hz]〜176
0[Hz]の帯域を分析する特別仕様の歌唱力評価システムを作ることもできる。この場
合、例えば人間の発声する音程を50[Hz]〜1700[Hz]の約5オクターブとし
て各分析帯域を、〔1〕50〜120[Hz]帯域、〔2〕100〜240[Hz]帯域
、〔3〕200〜480[Hz]帯域、〔4〕400〜960[Hz]帯域、〔5〕80
0〜1920[Hz]帯域の5帯域に分割する。この方法では分析帯域を広げられるだけ
ではなく、音程分解能が飛躍的に向上する利点がある。図10は、分析帯域を50[Hz
]〜1760[Hz]としたときの音程分解能と、分析帯域を70[Hz]〜1200[
Hz]としたときの音程分解能を比較したものを示す。最低分析周波数を70[Hz]か
ら50[Hz]まで下げると音程分解能は2.5[cent]から1.8[cent]に
改善され、より細かい分析ができるようになる。
また、本実施形態ではサンプリング周波数48000[Hz]のA/D変換器17を使
用した例を示しているが、例えばサンプリング周波数を96000[Hz]に変更しても
音程分解能を向上させることができる。例えば、プロ志向の歌唱者の歌声を分析する場合
には、最低分析周波数を下げる、サンプリング周波数を向上させるなどの調整をすること
が好ましい。ただし、最低分析周波数を下げたり、サンプリング周波数を上げたりすると
分析時間が長くかかることから、これらのパラメータはハードウェアの性能と、分析する
歌唱者のレベルを考慮に入れて適宜決定する必要がある。
なお、本実施形態では数式1に示した自己相関関数を用いてピッチ抽出を行っているが
、これに限らず、例えば数式1を数式3に置き換えることも可能である。数式3はユーク
リッド距離と呼ばれる尺度である。数式1を用いた実施形態では、「相関値R(0,i)
が最大値(または極大値)をとるずれ量」を分析フレームの基本周期と判定しピッチ抽出
を行っていたが、これを数式3に置き換えた場合は「ユークリッド距離R(0,i)が最
小値(または極小値)をとるずれ量」を分析フレームの基本周期と判定しピッチ抽出を行
うことができる。ここでいう相関関数は、数式1に限らず「切り出しフレーム同士のずら
し量を変化させて2フレームの相関(類似度)または距離(非類似度)を調べる関数」の
ことである。
また、本ピッチ抽出法の実施形態では、周波数帯域毎に分割した自己相関関数の重ね合
わせにより音程分解能の細かいピッチ抽出法を実現したが、これは例えば隣り合うフレー
ム同士の相関を算出する相互相関関数の重ね合わせでも実現できることは言うまでもない
これまで説明してきた、合成自己相関によるピッチ抽出手順の全貌を図11に示す。採
点処理部12は、RAM9の音声信号記憶メモリ9Aより音声信号を読み出す(図11(
a)参照)。次に、読み出した音声信号から約30[ms]のフレームを切り出す(図1
1(b)参照)。図11(c)が切り出した音声信号フレームから算出された自己相関関
数である。図11(d)では、自己相関関数を4つの帯域に分割しこれらを重ね合わせる
ことで合成自己相関関数を求めている。図11(e)は合成自己相関関数の時系列データ
を90度回転させて(図11(f)参照)音程毎のパワーの強さを色の濃さとして表現し
たものである。これは一種のソナグラムで音程毎のパワーの強さが時間の経過と共に変化
していく様子を観察するのに適している。図11(g)は合成自己相関関数から求めたピ
ッチ周波数(音階)である。本手法により、音程分解能が非常に細かい歌唱力評価用のピ
ッチ抽出が実現する。
次に、ピッチ変化量算出方法について図12を参照して説明する。ピッチ抽出部13は
ピッチと合成自己相関関数を算出し、結果をRAM9に書き込む。ピッチ変化量は、ピッ
チの差分として求める方法と合成自己相関関数のずらしマッチングを用いて求める方法の
2通りがある。ピッチ変化量I算出モジュール141では、RAM9のピッチ記憶メモリ
9Eより読み出されたピッチを2フレーム分バッファリングし、現在のピッチf(t+1
)と一分析フレーム過去のピッチf(t)を用いて、数式4によりピッチ変化量I(Δf
)を算出し、ピッチ変化量I記憶メモリ9Fに書き込む。
しかし、ピッチf(t)(スカラー)は突発的なノイズの影響を受け易いため、数式4
で算出されたピッチ変化量I(Δf)は外乱の多い実環境に対応できない可能性がある
。より信頼性の高いピッチ変化量算出法として、合成自己相関パターン(ベクトル)のず
らしマッチングを用いたピッチ変化量II算出も算出する。ピッチ変化量II算出モジュ
ール142は、RAM9の合成自己相関関数記憶メモリ9Cより読み出された合成自己相
関関数を2フレーム分バッファリングし、現在の合成自己相関関数と一分析フレーム過去
の合成自己相関関数を用いてピッチ変化量II(Δf)を算出し、ピッチ変化量II記
憶メモリ9Gに書き込む。
合成自己相関関数のずらしマッチングによるピッチ変化量算出法について具体例を示し
たのが図13である。図13(a),(b)では、歌声波形から合成自己相関関数を算出
している。
図13(c)では、合成自己相関関数の隣り合う2フレームcor(t,i),cor
(t+1,i)を切り出し、ずらしマッチングを行っている。ずらしマッチングでは、類
似度が最大となるずれ量Δtを2フレーム間のピッチ(音程)変化量として数式5によ
り求める。
数式6により、ずれ量Δtをピッチ変化量Δfに変換する。
図13(d)は合成自己相関関数のずらしマッチングにより求めたずれ量Δtである
。音程変化の算出に、合成自己相関関数cor(t,i)のずらしマッチングを用いるこ
とで突発的なノイズに影響され難い信頼性の高いピッチ変化量Δfの算出が可能となる
図14は、数式4により算出した(比較的信頼性の低い)ピッチ変化量Iである。図1
4と図13(d)はほぼ同じ変化をしているが、図14では突発的に変化量の大きい部分
(信頼性の低い部分)が出てくることがある。信頼性の高いピッチ変化量II(Δf
と通常のピッチ変化量I(Δf=f(t)−f(t+1))の差Dfを用いてピッチf
(t),f(t+1)の信頼性を逆算することもできる(数式7参照)。
例えばDfが一定しきい値より大きいとき、ピッチ変化量I(Δf)を算出する基と
なった信頼性の低いピッチf(t),f(t+1)を採点対象から除外するという使い方
ができる。
なお、数式5ではずらしマッチングの評価関数としてユークリッド距離を用いているが
、これに限らず、評価関数は2つのベクトルの類似度または非類似度(距離)を表す他の
関数で置き換えることができる。例えば数式5のユークリッド距離の式を相互相関関数に
おきかえても良い。
次に、ビブラート検出モジュール143の動作について図15と図16を参照して説明
する。図15は、第一実施形態におけるビブラート検出手順を示すフローチャート、図1
6は第一実施形態におけるビブラート検出手順を示すブロック図である。ビブラート検出
モジュール143は、ピッチ変化量Δfを入力として、ビブラート判定結果を出力する。
入力に用いるピッチ変化量Δfは、ピッチ変化量I(Δf)としても良いし、ピッチ変
化量II(Δf)としても良い。例えば、よりビブラート検出の信頼性を高めたい場合
はピッチ変化量IIを用い、演算速度を優先したい場合はピッチ変化量Iを用いることも
できる。
ビブラート判定を行うためには、複数フレーム分のピッチ変化量Δfが必要になる。例
えば、フレーム周期が10[ms]の場合、ピッチ変化量は10[ms]毎に1つ算出さ
れる。人間の歌声のビブラート周期は140[ms]〜300[ms]であることから、
ビブラート算出には合計500[ms]分程度のピッチ変化量が必要である。周期性算出
モジュール143Aは、RAM9のピッチ変化量II記憶メモリ9G(またはピッチ変化
量I記憶メモリ9F)より読み出されたピッチ変化量信号50フレーム分(500[ms
])のピッチ変化量Δfをリングバッファに蓄えておき、蓄えられた音程変化量Δfから
、正位相の相関係数、逆位相の相関係数、分散を算出しRAM9のワークメモリ9Wに記
録する(S161、S162、S163)。なお、上記S161の処理及びS162の処
理が請求項に言う「音程相関関数算出ステップ」及び「音程相関関数記憶ステップ」に相
当し、S161及びS162を実行する採点処理部(DSP)12が「音程相関関数算出
手段」に相当する。
正位相・逆位相合成モジュール143Bは、ワークメモリ9Wより正位相の相関係数と
逆位相の相関係数を読み出し、これらを合成した相関係数をワークメモリ9Wに書き込む
(S164)。ビブラート尺度算出モジュール143Cは、正位相・逆位相合成した相関
係数と分散をワークメモリ9Wから読み出し、正位相・逆位相合成した相関係数と分散か
らビブラート判定結果とビブラートの美しさを算出し、RAM9のビブラート情報記憶メ
モリ9Kに書き込む(S165)。
次に、ピッチ変化量からビブラートを検出する手段について実データを用いて詳細に説
明する。図17は、サンプリング周波数48000[Hz]で標本化された歌声波形であ
る。図17に示す歌声波形からピッチ周波数を算出したものが図18である。この歌声波
形にはピッチ周波数が正弦波状に変化しているビブラート区間と、それ以外の区間が存在
する。図18のピッチの差分をとったものが図19に示す音程変化波形である。以下、図
19に示すビブラートなし区間Aとビブラートあり区間Bを使ってビブラート検出の考え
方を説明する。
図20はビブラートがかかっていない区間Aの切り出し波形とその自己相関関数につい
て示したものである。自己相関関数は信号の周期性を調べるのに適している関数で、例え
ば次式で算出される。
図20の例で説明すると、区間Aの切り出し波形x(t)とAの切り出し波形をτずら
したものx(t+τ)の積和をとったものが自己相関関数c(τ)である。区間Aはビ
ブラート区間ではなく周期性が弱いため、相関関数c(τ)は弱い相関を示す。
一方、図21は周期性のあるビブラート区間Bの切り出し波形について自己相関関数を
求めた例である。自己相関関数はビブラート周期に相当するずれ量τ=17のとき、強い
正の相関を示す。一方、τ=17の逆位相に相当するτ=25では強い負の相関が現れて
いる。負の相関は、ビブラート周期の半分の周期τ=8付近にも現れる。τ=8もτ=1
7の逆位相に相当する。
図22は図19に示す音程変化波形の全切り出し区間について求めた正位相の自己相関
係数と、その相関係数の逆位相に相当する相関係数を示したものである。正位相の自己相
関係数は、140[ms]〜300[ms](14〜30[point])の範囲でずら
し量を変化させたときの自己相関関数の最大値 Cmaxとして求め、そのときのずれ量
をPとする。音程変化に周期性がある場合、Pの半分のずれ量P/2(逆位相)では負の
相関が現れるはずである。そこで、ずれ量P/2のときの自己相関係数Cnegを求める
。ビブラート区間では、正位相の相関係数は大きな値をとり、逆位相の相関係数は小さな
値をとることが分かる。自己相関関数に現れる正位相・逆位相の相関係数の特徴を用いて
高精度なビブラート検出を実現できる。
図23は、正位相の相関係数Cmaxと逆位相の相関係数Cnegを合成したものであ
る。合成により、ビブラート区間とそれ以外の区間の差がますます顕著になる。図23の
相関係数が一定しきい値を超えるフレームをビブラートとして判定することができる。本
手法により、精度の高いビブラート検出が可能である。ビブラートがきれいな周期性を持
っていれば、相関係数が大きくなるため、相関係数の大きさをビブラートの美しさとして
取り出し、後段の採点処理で利用することもできる。
さらに、各フレーム毎の音程変化量の差分信号について分散・標準偏差などの振幅情報
を算出し、「振幅が小さいフレームはビブラート区間と見なさない」などの判定条件を加
えることで、より信頼度の高いビブラート判定が実現できる。なお、ビブラート検出は、
正位相・逆位相の相関係数を合成したものを使って行っても良いし、正位相の相関係数、
逆位相の相関係数を単独で用いても良い。
なお、ここでいう自己相関関数は数式8に限らず、「切り出しフレーム同士のずらし量
を変化させて2フレームの相関(類似度)または距離(非類似度)を調べる関数」のこと
である。例えば、自己相関関数として数式8の代わりに数式9のユークリッド距離を採用
しても良い。
数式8はビブラート周期に相当するずれ量τで最大値をとる関数であるが、数式9はビ
ブラート周期に相当するずれ量τで最小値をとる関数である。同様に、ピッチ変化量の算
出には、数式5(ユークリッド距離)を評価関数として合成自己相関関数のずらしマッチ
ングを行う例を示したが、評価関数はユークリッド距離の代わりに自己相関関数を用いる
こともできる。
なお、本実施の形態においては、ピッチの差分をとった音程変化波形から相関係数を算
出しているが、これに限らずピッチ波形から直接自己相関関数を算出することもできる。
その場合数式10に示すような形の自己相関関数を利用することが好ましい。
本実施形態で、ピッチの差分を用いているのは、ピッチ波形から直流分の影響を打ち消
すためである。数式10では、ピッチの差分波形を用いる代わりに、ピッチ波形から平均
値を差し引いて相関関数を算出することにより、直流分(≒平均値)の影響を打ち消して
いる。
さらに、本実施の形態では、自己相関関数を用いてビブラート検出法を説明したが、例
えば同一フレーム同士から算出する自己相関係数の代わりに、隣り合うフレーム同士の相
関を求める相互相関関数を用いることもできる。
本ビブラート検出法では、1つのフレームがビブラート区間に属するかどうか?を50
ポイントの切り出し波形を用いて算出しているため、ビブラート検出精度が非常に高い。
次に、得点算出部15にの動作について詳細に説明する。第一実施形態では、入力音声
信号を表2に示す(i)〜(iv)の4つの区間に分類する。(i)無声区間と(iii
)ピッチの変化が激しい区間(音程変化量が大きい区間)は得点算出には用いず、(ii
)ビブラート区間と(iv)通常歌唱区間について得点算出を行う。
図24は、第一実施形態における得点算出部15の得点算出手順を示すフローチャート
、図25は、得点算出部15のブロック図である。信頼性算出モジュール151は、RA
M9の有声・無声判定結果記憶メモリ9D、ピッチ変化量I記憶メモリ9F及びピッチ変
化量II記憶メモリ9Fよりそれぞれ有声・無声判定結果、ピッチ変化量I、ピッチ変化
量IIを読み出し、これらを基にピッチの信頼性を算出し、算出されたピッチの信頼性を
RAM9のワーク領域9Wに書き込む(S171)。瞬時得点算出モジュール152は、
RAM9のピッチ記憶メモリ9E、ビブラート情報記憶メモリ9H、ビブラート比率記憶
メモリ9K、ワーク領域9Wよりそれぞれピッチ、ビブラート判定結果、ビブラート比率
、ピッチの信頼性を読み出し、歌唱者の歌声1分析フレーム分の瞬時得点を算出し、算出
した瞬時得点をRAM9の瞬時得点記憶メモリ9Iに書き込む(S172)。
ここで、RAM9のビブラート比率記憶メモリ9Kに書き込まれるビブラート比率とは
得点におけるビブラートの寄与度を決定する係数で、例えばカラオケBOXのオーナが好
みにより調整することができるパラメータである。得点累積モジュール153は、RAM
9の瞬時得点記憶メモリ9Iより読み出された瞬時得点を累積し、カラオケ採点が始まっ
てから現在に至るまでの累積得点を算出し、RAM9の累積得点記憶メモリ9Jに記録す
る(S173)。
カラオケ採点終了後、累積得点記憶メモリ9Jに記録された累積得点は、RAM9より
読み出され、ビデオコントローラ6を経由して、ディスプレイ3に表示される。歌唱者は
、ディスプレイ3に表示された採点結果を見て一喜一憂する。なお、得点は累積得点をそ
のままディスプレイに表示しても良いし、得点変換関数や変換テーブルを通して変換をか
けたものを表示しても良い。これらの変換テーブルや変換関数は事前に得点分布の統計調
査を行った上で、例えば100点が算出される確率が全体の5%以下になるように設計し
た変換テーブルや変換関数を用いる。
以下、得点算出部15の得点算出原理について詳細に説明する。本発明の第一実施形態
に示すピッチ抽出部13では、非常に音程分解能の高いピッチ(半音の幅を18〜38分
割して分析)を算出することができる。音程分解能が細かいため、従来のピッチ抽出法で
は困難であった"音程が微妙に上ずっている"・"微妙に低い"ということを識別できる。
図26は、上手な歌唱者が歌った歌声について分析した結果である。図27は同一の曲
を下手な歌唱者が歌ったものを分析した結果である。上手い人は音程が正確に12音階に
乗っているが、下手な人では音程は12音階から離れてくることが観察できる。
本実施形態に示す採点処理では、「歌唱者の歌声が12音階に乗っているかどうか?」
だけを判定する。カラオケで再生されるMIDI伴奏は平均音階(12音階)に乗った
音の集合である。歌声が心地よく聴こえるためには、少なくとも歌声はMIDI伴奏と同
じ平均音階(12音階)に乗っていなければならない。本採点法では、MIDIデータ
を参照せずに"音程が12音階に乗っているかどうか?"だけを定量化するため、アドリブ
やフェイクの入った歌でも採点できる。歌の音程が12音階に乗っていれば、ガイドメロ
ディの通りの音調でなくても「上手い」と考える。この採点法では歌唱者が不協和音で歌
った場合でも、音程が12音階にさえ乗っていれば「上手い」と判定する。不協和音を1
2音階にしっかり乗せることは、声楽的には非常に高度な技術である。それが出来る人は
並外れた技術を持った歌唱者(実は相当上手い)と仮定している。
しかし、音階に乗っているかどうかだけでは歌唱力を十分に評価できない。人間の感性
に近い歌唱力評価をするためにはビブラート部分の評価も重要となってくる。図28は、
図26・図27と同じ曲のフレーズをプロの歌手が歌ったときのピッチ変化である。歌が
上手い歌唱者はビブラートを多用することもある。ビブラート歌唱区間では、通常歌唱区
間と異なる採点方法が必要である。
また、音声認識の分野では、入力音声が無声音の場合はピッチを正確に算出すること
ができないことが知られている。本発明の第一実施形態に示す採点では、入力音声信号に
対し有声・無声判定を行い、無声音と判定された区間は得点算出に用いないこととする。
ピッチの変化が激しい区間についても考慮する必要がある。例えば音符と音符の境目
、しゃくり上げ部分、しゃくり下げ部分では、ピッチの変化が激しいため、歌の上手い下
手に関わらず音程が12音階に乗りにくくなる。したがって、ビブラート区間以外でピッ
チの変化量が一定しきい値を超える区間は得点算出に用いないこととする。
図29に得点算出の基本的な考え方を示す。入力音声信号を通常歌唱区間とビブラート
区間に分け、通常歌唱区間の得点D(t)と、ビブラート区間の得点D(t)を
それぞれ算出する。ピッチの信頼性の低い区間と、ビブラート区間以外でピッチの変化量
が激しい区間は得点算出に用いない。
通常歌唱区間(ビブラート以外の区間)の得点算出法について詳細に説明する。"ピッ
チが平均音階からどのくらい離れているか?"を示す尺度d(t)を数式11で定
義する。図30は数式11の意味を図示したものである。d(t)は、分析時刻tに
おける歌唱者のピッチf(t) と12音階のうち最も近い音との距離を示す。歌唱者
の歌声ピッチが正確であれば、尺度d(t)は小さい値となる(尺度d(t)が
小さい→得点が高い)。なお、数式11では歌唱者の歌声から抽出したピッチf(t
と1オクターブに整理された平均音階(12音階)MFの比較を行っている。これは本
実施形態の前段におけるピッチ抽出手段より出力されるピッチが1オクターブ範囲内に整
理されているからである(図7参照)。本実施形態では1オクターブ範囲内のピッチを比
較することで、人間の全歌唱音域の音程と平均音階を比較していることになる。しかし
、これに限らず、例えばピッチ抽出手段は4オクターブ帯域のピッチを出力する構成とし
て、数式11はそれに対応する4オクターブ帯域の全音域の平均音階上の音との比較を
しても良い。また、ピッチ抽出手段は5オクターブ帯域のピッチを出力する構成として、
数式11はそれに対応する5オクターブ帯域の全音域の平均音階上の音との比較するも
のとすることも容易にできる。
現在、歌唱者が歌っている状態を想定して考える。歌唱者が歌い始めて、カラオケ採点
が開始されてから現在に至るまでにビブラート区間と判定された区間長の合計をnrで表
す。次に、ビブラート区間以外で、ピッチの変化量が激しくなく、ピッチの信頼性がある
と判定された区間を通常歌唱区間と呼ぶことにする。カラオケ採点が開始されてから現在
に至るまでに通常歌唱区間と判定された区間長の合計をnpで表す。ビブラート累積区間
長nrと通常歌唱累積区間長npの合計を累積区間長nとすると、n,np,nrは数式
12の関係を満たす。
カラオケ採点が開始されてから現在に至るまでの歌唱時間の合計tは、分析フレーム
周期Δtと累積区間長nを用いて数式13で表現できる。なお、本実施形態ではΔt=1
0[ms]である。
(t)は、"時刻tにおけるピッチf(t) が平均音階からどのくらい離
れているか?"を示す尺度で"瞬時得点"である。瞬時得点は、長時間に渡って累積平均を
とることにより信頼性のある得点となる。時刻tにおける累積平均距離(累積平均得点
)D(t)を数式14により算出する。D(t)が通常歌唱区間における音程の
正確さを示す式である。
次に、ビブラート区間の平均得点を算出する。時刻tにおけるビブラート区間の距離
(t) は、採点開始時点から時刻tに至るまでの音階−ピッチ間の平累積距離
(t)に係数αを乗じたものとして、数式15で計算する。ビブラート区間の平均
累積距離D(t)は数式16で計算する。αは0〜1.0の範囲の実数である。数式
15の意味は以下の通りである。
「時刻tにおいて歌唱者がビブラートをかけている場合、時刻tにおける歌唱者の
瞬時得点d(t)は、通常歌唱区間の累積平均点D(t)より若干高い得点αD
(t)で置き換える。」
ビブラート得点に通常歌唱区間の平均点d(t)・D(t)を反映させることで、
下手な人がビブラートを多用しても高得点にはならないように調整している。この方法に
より、音程の不正確な人がビブラートを使った場合は、音程の正確な人がビブラートを使
った場合より低い得点となる。係数αは採点におけるビブラートの寄与度を調整する係数
で、カラオケBOXオーナーの好みで調整することもできる。例えば演歌が好きなオーナ
ーはαを小さめに設定して、ビブラートの寄与度を高くすることができる。なお、上記D
(t)が請求項にいう「通常歌唱区間の得点D」、D(t)が請求項にいう「ビブ
ラート区間の得点D」、数式15及び数式16が請求項に言う「関数f(D,x
,…,x)」に相当する。上記係数αが請求項にいう「定数α」に相当する。
総合的な累積距離D(t)は、通常歌唱区間の平均距離D(t)とビブラート区間の
平均距離D(t)の平均値として数式17で算出する。累積距離D(t)は人間が主観
的に付けた得点と強い相関を持つ。この採点法は、周波数分解能が高い高精度なピッチ抽
出と外乱に強い高精度なビブラート検出法があってはじめて効果を発揮する。
次に、本実施形態で算出した尺度D(t)と人間が主観でつけた得点との相関を調べ、
採点アルゴリズムの評価を行った結果を示す。まず、20名の歌唱者が同一の曲を歌った
場合について、本採点法の評価を行った。歌唱者(男性10名・女性10名)が歌った有
名な歌謡曲を歌唱者以外の34名の被験者に聞き比べてもらい、プリファレンススコアを
作成した。プリファレンススコアとは、対比較においてその歌声がどの程度の支持率であ
ったかを示す数値である。歌唱データから後半の1フレーズを切り出したものを対比較評
価用データとする。なお、女性歌唱者データにはプロの歌手1名に依頼して採取した歌声
を追加・混入した。これと同時に本実施形態により計算した得点D(t)を算出し、プリ
ファレンススコアと得点D(t)の相関図を作成した。
図31は、女性のデータについて求めたプリファレンススコアと尺度Dの相関図である
。プリファレンススコアと尺度Dの間には強い相関が見られる。尺度Dが最も小さく音程
が最も正確なのは、プロの歌手の歌声である。しかし声が低く、原曲と歌い方が異なるた
め、人間の主観評価(プリファレンススコア)では2位になっていると考えられる。主観
評価で1位となった歌唱者は通常より高めのキーで歌ったため、被験者に与えるインパク
トが強かったと推測される。
図32は男性の歌声から算出した相関図である。男性データでも、距離D(t)とプリ
ファレンススコアの相関がみられる。プリファレンススコア約40点の被験者が最も12
音階からの距離が小さくなっている。この被験者の歌声を聴くと、音程は正確でビブラー
トも上手にかかっており、技術的には上手な歌唱者である。しかし、歌詞の譜割りなどが
演歌調で原曲と異なり、歌い方に癖があるため主観評価の点数が低下したと推測される。
これらの図から、例えば「D(t)が20[cent]を切る人はそこそこ上手い」と判
断できる。図31・図32より、D(t)は人間の主観得点と相関の強い尺度となってい
ることが分かる。
次に、歌唱者が異なる曲を歌った場合について本採点法の評価を行った結果を示す。デ
ータの採取方法を図33に示す。5〜6名の歌唱者のグループを募集した。1グループ:
5〜6名の歌唱者に交代で歌って頂き歌唱データを採取した。歌っている歌唱者以外につ
いて、次に歌う歌唱者は歌う曲の選曲、それ以外の歌唱者は現在歌っている歌唱者の得点
を記録した。なお歌唱者には、歌の途中ではキー変更や、演奏停止をしないで、歌唱曲の
歌える範囲でできる限り多くのジャンルの曲を歌って頂けるようお願いした。得点は満点
を100点とし、採点者の主観で記入して頂いた。採点者全員がつけた平均得点を主観評
価の得点とする。
2日間評価を行った結果について説明する。図34は1日目の採取データから求めた相
関図である。この日の参加者は6人、歌唱者1人の歌声に対し残りの5人で採点を行った
ときの平均点数を主観評価の点数としてグラフにプロットした。距離D(t)と主観評価
の点数には強い相関があることが分かる。
図35は、2日目の採取データから求めた相関図である。参加者は40〜60代の女性
5人である。歌唱者1人の歌声に対し3人で採点を行い残り1人は次に歌う曲を選ぶとい
う分担で採点を行った。この日歌われた曲のほとんどは演歌である。距離D(t)と主観
評価の点数には相関が見られる。図34と比べて少し相関が弱い原因としては、採点者が
5人から3人に減少したためと考えられる。
図31、図32、図34、図35より、D(t)は人間の主観得点と相関の強い尺度と
なっていることが分かる。従って、例えば尺度D(t)を線形変換すれば、人間の主観評
価と相関の強い得点を算出することができる。実際のカラオケ装置における採点では、1
00点の出現確率を減少させるなどの工夫が必要となるため、D(t)[cent]に非
線形変換を行い得点に変換することも考えられる。
なお、本実施形態ではガイドメロディ情報を一切使わずにカラオケ採点を行う例を示し
た。しかし、これに限らずガイドメロディと歌唱者の歌声を比較する従来の採点法も併用
した採点システムを構築することも可能である。例えば、ガイドメロディと歌唱者のピッ
チを比較して歌の忠実度を算出し、本実施形態で示した採点法で尺度D(t)を算出した
後、2つの得点を合成して歌唱者の歌の得点とすることもできる。また、2つの得点の高
い方を選んで最終的な得点とすることも容易に考えられる。
また大抵の場合、カラオケ装置で演奏されるMIDI楽曲は平均音階の集合であるた
め、本実施形態では、歌唱者の歌声から抽出したピッチと平均音階を比較して歌の得点
を算出する例を示した。しかし、これに限らず、ピッチと純正音階を比較するのが好ま
しい場合もある。カラオケ装置の伴奏には、生バンドの曲を録音したスタジオ録音曲やプ
ロのアカペラグループが演奏したものを録音したアカペラ伴奏曲も存在する。特にアカペ
ラ伴奏曲などでは、歌唱者の歌声から抽出した純正音階を比較した方がより精度の高い
歌唱力評価ができることもある。また、生のピアノ演奏を録音したスタジオ録音曲では、
平均音階をピアノ調律曲線を用いて補正した音階と歌唱者の歌声から抽出したピッチを
比較する方法が好ましい場合もある。これらの音階は、カラオケ楽曲の属性により、適宜
選択するようにカラオケ採点装置を構成することも考えられる。本明細書に記載の平均率
音階とは、ピアノの調律曲線などにより補正された後の平均音階を含むこととする。
また、本発明の第一実施形態におけるビブラート検出法では、合成自己相関関数のずら
しマッチングを用いて音程の変化量を算出していた。これと同様に、入力歌声信号から合
成自己相関関数の代わりにLPCスペクトル、FFTスペクトル、群遅延スペクトル、L
PCケプストラム、自己相関関数などのスペクトル特徴を抽出し、スペクトルのずらしマ
ッチングを用いて外乱に強いピッチ変化量算出・ビブラート検出ができる。一例として、
図36にLPC(Linear Predictive Coding)スペクトルを用
いた音程変化量算出法を示す。図36(a)の音声信号に対して線形予測分析を行いLP
Cスペクトルを求めたものが図36(b)である。LPCスペクトルを観察しても、ビブ
ラートはきれいに現れていることがわかる。例えば、LPCスペクトルの周波数帯域50
0[Hz]〜1000[Hz]を切り出し(図36(c))、切り出した帯域のLPCス
ペクトルのずらしマッチングを用いて音程変化量を算出することができる。
この場合、音声信号記憶メモリ9Aから読み出された音声信号に線形予測分析を行い、
LPCスペクトルを求め、メモリ9の所定の位置に記憶する。ずらしマッチングの式は、
数式18で示される。メモリ9より読み出した隣り合う2フレームのLPCスペクトルl
pc(t,i),lpc(t+1,i)のずれ量を算出する。ずれ量の単位は[Hz]で
算出される。さらにLPCスペクトルの周波数軸を対数スケールに変換した後、ずらしマ
ッチングを行うようにすれば、全分析周波数帯域の音程分解能が均等になり、より高精度
な分析ができる。ここで算出されたピッチ変化量Δfを入力としてビブラート検出を行
うことは容易である。
さらに、数式18により算出されたピッチ変化量は、数式5と数式6により算出された
ピッチ変化量と同様、信頼性の高いものとなる。数式18により算出された信頼性の高い
ピッチ変化量II(Δf)とピッチの差分により算出されたピッチ変化量I(Δf
の差Dfを用いてピッチf(t),f(t+1)の信頼性を逆算することもできる(数式
19参照)。数式19は、数式7と同じ形となっている。
次に、本発明における第二の実施形態について図37〜図39を参照して説明する。第
二実施形態は、PC(Personal Computer)上で動作する歌唱訓練/採
点ソフトウェアである。
図37に示すように、第二実施形態の歌唱訓練/採点装置を構成するPC50は、周知
のパーソナルコンピュータの一般的な構成からなり、文字や各種の操作指令などを入力す
るためのキーボード61やマウス59、入力された結果等を表示するモニタ65を備えて
いる。また、PC50には、CD−ROM63の内容を読み取るCD−ROMドライブ6
2が搭載されている。
また、PC50は、中央演算処理装置としてのCPU51を中心にバスにより相互に接
続されたROM52、RAM53、表示画像メモリ54、マウスインターフェース58、
キーボードインターフェース60、ビデオコントローラ64、及びA/D変換器66を備
えている。そして、マウスインターフェース58にはマウス59が接続され、キーボード
インターフェース60にはキーボード61が接続され、ビデオコントローラ64にはモニ
タ65が接続されている。さらに、A/D変換器66には、マイク67が接続されている
ROM52は、BIOS等の内蔵されている各種プログラム等を記憶する読み出し専用
のメモリである。RAM53は、実行中のプログラムを一時的に記憶したり、各種データ
等を記憶する読み出し・書き込み可能なメモリである。表示画像メモリ54は、モニタ6
5に表示する画像の画像データを記憶するメモリである。マウスインターフェース58は
、マウス59とのデータ等のやりとりを司るインターフェースである。キーボードインタ
ーフェース60は、キーボード61からのキー入力を司るインターフェースである。ビデ
オコントローラ64は、表示画像メモリ54に記憶される表示画像データに基づいてモニ
タ65における画像の表示を制御するコントローラである。A/D変換器66は、マイク
67より入力された音声信号をサンプリングしてPC50内に採り込む装置である。なお
、このA/D変換器66が請求項に言う音声信号入力手段に相当する。
PC50のオペレーティングシステム(OS)56は、ハードディスクドライブ(HD
D)55に記憶されており、PC50に電源を投入すると、HDD55のブートブロック
に書き込まれたローダに従ってRAM53の所定の領域にロードされる。また、HDD5
5には、歌唱訓練/採点ソフトウェア57が記憶されており、歌唱訓練/採点ソフトウェ
ア57が起動され、RAM53に読み込まれ、これをCPU51が実行することにより、
歌唱訓練処理や歌唱採点処理が行われる。尚、本実施形態においては歌唱訓練/採点ソフ
トウェア57はHDD55に記憶されているが、ROM52に記憶されていてもよいし、
CD−ROM63に記憶され、CD−ROMドライブ62から読み込まれて実行されるよ
うに構成してもよい。さらに、PC50をネットワークに接続し、ネットワーク上のサー
バから歌唱訓練/採点ソフトウェア57をダウンロードして実行するようにしてもよい。
マイク67をコンピュータ50に接続し、歌唱訓練/採点ソフトウェアを起動すると、
歌唱訓練処理/歌唱採点処理が開始される。第二実施形態に示すソフトウェアは音程訓練
モードと歌唱採点モードの2つのモードを持っており、歌唱者は2つのモードのうち1つ
を選択することができる。歌唱者は、マウス59やキーボード61などの入力装置を用い
て音程訓練モードと歌唱採点モードどちらかを選択する。
音程訓練モードでは、マイク67より入力された歌唱者の音声はA/D変換器66によ
りサンプリング周波数48[kHz]でサンプリングされ、RAM53に書き込まれる。
RAM53の記憶領域は、第一実施形態におけるRAM9の記憶領域に加え、歌唱訓練/
採点ソフトウェアが格納される記憶領域が存在する。RAM53に書き込まれた音声信号
より合成相関関数が算出され、RAM53の合成自己相関関数記憶メモリに書き込まれる
。次に、RAM53の合成自己相関関数記憶メモリと自己相関関数記憶メモリより合成自
己相関関数と自己相関関数が読み出されピッチが計算され、算出されたピッチはRAM5
3のピッチ記憶メモリに記憶される。これら合成自己相関関数及びピッチの算出手順は第
一実施形態における図4〜図11に示したものと全く同じであるので、図4〜図11の説
明を援用する。
このようにして歌唱者の歌声から算出したピッチは、RAM53から読み出され、PC5
0のモニタ65に平均音階と共に表示される。図38は、歌唱者が音程訓練モードを利
用して音程訓練を行っているときのモニタ65の様子を示したものである。図38におい
て、トンボが歌唱者の音程(ピッチ)の高さ、水平方向に引かれた直線が平均音階を示
している。音程訓練モードでは、歌唱者の歌声から抽出されたピッチと平均音階をリア
ルタイムで表示することで、音程の正確さを歌唱者にフィードバックすることができる。
歌唱者は、A4(440Hz)で歌った後、E5(660Hz)の音程で歌っている。歌
唱者は音階に乗ったピッチで歌っているつもりでも、パソコンのディスプレイに表示して
みるとE5の音程が微妙に低いことが分かる。
このソフトウェアは第一実施形態の図10に示した最低分析周波数50[Hz]の合成自
己相関関数を採用することで、50[Hz]〜1700[Hz]の約5オクターブ帯域の
ピッチを検出、表示することができる。合成自己相関関数を用いたピッチ抽出法は、音程
分解能が高く、非常に細かな音程のずれを分析できる。聴覚が鍛えられたミュージシャン
や音楽の先生にしか分からなかった"微妙に高い","微妙に低い"という違いを視覚的に表
現することができる。これは合唱の音程訓練、バンドのヴォーカルの個人練習にも利用で
き、歌唱者の歌の上達を補助することができる。単に歌唱者のピッチを表示するだけのシ
ンプルなものでも、音程訓練用途としては十分役に立つ。
本ソフトウェアを合唱・声楽のトレーニング用途として利用する場合は、基準となる音
階はA4=440[Hz]に合わせるのが好ましいときもあり、A4=442[Hz]に
合わせるのが好ましいときもある。通常オーケストラなどで用いる基準音は伴奏に用いる
楽器の構成によって変わってくる。また、ピアノ伴奏に合わせて歌うときのトレーニング
では、理論的な平均音階とピアノの調律音階の差を埋めるために、ピアノの調律曲線を
用いて歌唱者の歌声ピッチや基準となる音階を補正し、表示するのが良い場合もある。ま
た、人の歌声だけで演奏するアカペラ曲の場合、平均音階ではなく、純正音階を基準
線として用いるのが好ましい場合もある。本実施形態に示す音程訓練ソフトウェアの音程
訓練モードは、これらの基準となる音階を適宜選択できるメニュー画面を持つ。メニュー
画面はモニタ65に表示され、音程訓練を行う歌唱者は、マウス59やキーボード61な
どの入力装置を用いて基準となる音階を選択できる。
次に、歌唱採点モードでは、マイク67より入力された歌唱者の音声はA/D変換器6
6によりサンプリング周波数48[kHz]でサンプリングされ、RAM53に書き込ま
れる。RAM53の記憶領域は、第一実施形態におけるRAM9の記憶領域に加え、歌唱
訓練/採点ソフトウェアが格納される記憶領域が存在する。RAM53に書き込まれた音
声信号より合成相関関数が算出され、RAM53の合成自己相関関数記憶メモリに書き込
まれる。本発明の第一実施形態に示したものと全く同じ手順で自己相関関数、合成自己相
関関数、有声・無声判定結果、ピッチ、ピッチ変化量I、ピッチ変化量II、ビブラート
情報、瞬時得点、累積得点などが算出され、RAM53に書き込まれる。本ソフトウェア
では、第一実施形態で採点処理部(採点DSP)12が行っていた処理をCPU51が担
当する。採点処理手順は第一実施形態における図4〜図35に示したものと全く同じであ
るので、図4〜図35の説明を援用する。なお第二実施形態では、RAM53が請求項に
言う「ピッチ記憶手段」、「ビブラート記憶手段」、「無声区間記憶手段」及び「音程変
化量記憶手段」及び「スペクトル記憶手段」及び「音程相関関数記憶手段」に相当する。
また、図4におけるS11の処理が請求項に言う「スペクトル算出ステップ」及び「スペ
クトル記憶ステップ」に相当し、S11の処理を実行するCPU51が「スペクトル算出
手段」に相当する。また、S12の処理が請求項に言う「無声区間検出・記憶ステップ」
に相当し、S12の処理を実行するCPU51が「無声区間検出手段」に相当する。また
、図4におけるS13の処理が請求項に言う「ピッチ抽出ステップ」、「ピッチ記憶ステ
ップ」及び「ピッチ抽出・記憶ステップ」に相当し、S13の処理を実行するCPU51
が「ピッチ抽出手段」に相当する。また、図4におけるS14またはS15の処理が請求
項に言う「音程変化量抽出ステップ」、「音程変化量記憶ステップ」及び「音程変化量抽
出・記憶ステップ」に相当し、S14及びS15の処理を実行するCPU51が「音程変
化量抽出手段」に相当する。また、図4におけるS16の処理が請求項に言う「ビブラー
ト検出・記憶ステップ」に相当し、S16の処理を実行するCPU51が「ビブラート検
出手段」に相当する。なお、図15におけるS161の処理及びS162の処理が請求項
に言う「音程相関関数算出ステップ」及び「音程相関関数記憶ステップ」に相当し、S1
61及びS162を実行する採点処理部(DSP)12が「音程相関関数算出手段」に相
当する。
図39は、本歌唱訓練/採点ソフトウェアの歌唱採点モードの実行画面である。このア
プリケーションは、得点を算出するのと同時に歌声から抽出したピッチ波形(PITCH
)とビブラート波形(TREMOLO)をリアルタイムで表示でき、さらにビブラートの
美しさ、ビブラート回数などをリアルタイムで算出して表示する。ここで表示しているビ
ブラート波形は、第一実施形態で説明した音程変化量Iまたは音程変化量IIのことであ
る。また、ビブラートの美しさとは第一実施形態の図22・図23で説明した相関係数の
大きさである。
本ソフトウェアを使用することで、歌唱者は歌の得点を知ると同時に、現在歌っている
フレーズのビブラート形状とビブラートの美しさを目視で確認することができる。この機
能を利用して歌唱者はビブラートの練習が可能である。以上の説明より、カラオケ装置上
で動作するビブラート訓練装置やパソコン上で動作するビブラート訓練装置は容易に実現
できることがわかる。
なお、これらの音程訓練機能・ビブラート訓練機能は本発明の第一実施形態におけるカ
ラオケ装置の"練習モード"などにも応用できることは言うまでもない。カラオケ装置では
、例えば、プロの歌手の歌声から抽出したピッチと歌唱者が歌ったときのピッチを同時に
表示して、カラオケを練習する歌唱者の手助けをする練習ソフトを作ることもできる。ま
た、前述のビブラート検出法によりプロの歌声から検出されたビブラート波形と、カラオ
ケを歌っている歌唱者の歌声から検出されたビブラートを同時にモニタに表示するビブラ
ート練習機能付きカラオケ装置なども容易に実現できる。
本発明は、カラオケ装置に搭載されるカラオケ採点装置及び合唱・声楽などの歌唱評価
用途としての歌唱力評価装置に利用することができる。
本発明の第一実施形態におけるカラオケ装置の外観である。 本発明の第一実施形態におけるカラオケ装置のブロック図である。 RAM9に確保される記憶領域を示す図である。 同カラオケ装置の採点処理部の動作を示すフローチャートである。 採点処理部12のブロック図である。 自己相関関数の算出法を説明する図である。 自己相関関数を帯域毎に分割・合成することで音程分解能(周波数分解能)を向上させる方法を示す図である。 本ピッチ抽出法におけるピッチの2段探索法を示す図である。 合成自己相関関数法によるピッチ抽出における音程分解能と従来のピッチ抽出法における音程分解能を比較したものを示す図である。 合成自己相関関数の最低分析周波数を70[Hz]から50[Hz]まで下げることにより音程分解能が向上することを示す図である。 合成自己相関関数を用いたピッチ抽出手順の全貌を示す図である。 本発明の実施形態における音程変化量(2通り)の算出手順を示すブロック図である。 合成自己相関関数のずらしマッチングを用いた信頼性の高いピッチ変化量(音程変化量)算出法を示す図である。 ピッチ差分から求めた(比較的信頼性の低い)ピッチ変化量を示す図である。 本発明の実施形態におけるビブラート検出手順を示すフローチャートである。 本発明の実施形態におけるビブラート判定手順を示すブロック図である。 ビブラート歌唱区間とそれ以外の歌唱区間を含む歌声波形の図である。 図17の歌声波形から抽出したピッチ(音程)を示す図である。 図18のピッチの差分をとり算出した音程変化量波形の図である 図19のビブラートがかかっていない区間(区間A)の切り出し波形から算出した自己相関関数を示す図である。 図19のビブラートがかかっている区間(区間B)の切り出し波形から算出した自己相関関数を示す図である 図19のピッチ変化量から算出した「正位相の相関係数」と「逆位相の相関係数」を示した図である。 図22の「正位相の相関係数」と「逆位相の相関係数」を合成したものを示す図を示す図である。 本発明の実施形態における得点算出手順を示すフローチャートである。 本発明の実施形態における得点算出手順を示すブロック図である。 上手な人の歌声(プリファレンススコア:96点)から抽出した音程を示す図である。 下手な人の歌声(プリファレンススコア:23点)から抽出した音程を示す図である。 プロの歌手の歌声(プリファレンススコア:122点)から抽出した音程を示す図である。 ビブラート歌唱区間とそれ以外の歌唱区間を分離して採点する本採点法の概念を示す図である。 歌唱ピッチと平均音階(12音階)からの最小距離を示す図である。 女性の歌声データから求めたプリファレンススコア(主観評価得点)と、本発明の実施形態で提供する距離尺度D(t)の相関図である。 男性の歌声データから求めたプリファレンススコア(主観評価得点)と、本発明の実施形態で提供する距離尺度D(t)の相関図である。 カラオケ音声データと人の主観による得点の採取手順を示す図である。 距離尺度D(t)と人の主観評価の平均点(データ採取:1日目)を示す図である。 距離尺度D(t)と人の主観評価の平均点(データ採取:2日目)を示す図である。 LPCスペクトルのずらしマッチングを用いた音程変化量(ピッチ変化量)の算出方法を示す図である。 本発明の第二実施形態における歌唱訓練/採点装置の概略構成を示すブロック図である。 パソコン上で動作するピッチトレーニングソフトの表示画面の図である。 ピッチ表示機能、ビブラート表示機能、ビブラートの美しさ算出機能を有するカラオケ採点ソフトウェアの表示画面の図である。 人間の歌声には『少し上ずった音』、『微妙に低い音』など五線譜に乗らない音があることを説明する図である。 歌の上手な人と歌の下手な人の音程を詳細に分析した結果を示す図である。 歌唱力評価に最低限必要と考えられる周波数分解能(y)と、従来のピッチ(音程)検出法における周波数分解能(a),(e)を示す図である。 歌唱力評価に最低限必要と考えられる音程分解能(y)と、従来のピッチ(音程)検出法における音程分解能(a),(e)を示す図である。 カラオケのガイドメロディと、人間の歌声から抽出したピッチを比較したものを示す図である。
符号の説明
1 カラオケ装置
2 マイク
3 ディスプレイ
4 AMP
5 スピーカ
6 ビデオコントローラ
7 ミキサ(エフェクタ)
8 演奏装置
9 RAM(Random Access Memory)
12 採点処理部(採点DSP)
13 ピッチ抽出部
14 ビブラート検出部
15 得点算出部
16 操作部
17 A/D変換部
18 HDD(Hard Disk Drive)
19 CPU(Central Processing Unit)
50 PC(Personal Computer)
51 CPU
52 ROM(Read Only Memory)
53 RAM
54 表示画像メモリ
55 HDD
56 OS(Operating System)
57 歌唱訓練/採点ソフトウェア
58 マウスインターフェース
59 マウス
60 キーボードインターフェース
61 キーボード
62 CD−ROMドライブ
63 CD
64 ビデオコントローラ
65 モニタ
66 A/D変換器
67 マイク
131 自己相関関数算出モジュール
132 合成自己相関関数算出モジュール
133 有声・無声判定モジュール
134 ピッチ抽出モジュール
141 ピッチ変化量I算出モジュール
142 ピッチ変化量II算出モジュール
143 ビブラート検出モジュール
143A 周期性算出モジュール
143B 正位相・逆位相合成モジュール
143C ビブラート尺度算出モジュール
151 信頼性算出モジュール
152 瞬時得点算出モジュール
153 得点累積モジュール

Claims (20)

  1. コンピュータに、
    音声信号入力手段から入力された歌唱者の歌声信号からピッチ(音程)を抽出させるピッチ抽出ステップと、
    当該ピッチ抽出ステップを実行させて得られたピッチ情報をピッチ記憶手段に記憶させるピッチ記憶ステップを実行させ、
    前記ピッチ記憶手段より前記ピッチを読み出し、読み出されたピッチと当該ピッチの最近傍にある平均率音階上の音程との最小距離を算出し、
    当該最小距離が小さいほど高い得点を算出させることを特徴とする歌唱力評価方法。
  2. コンピュータに、
    音声信号入力手段から入力された歌唱者の歌声信号からピッチ(音程)を抽出させるピッチ抽出ステップと、
    当該ピッチ抽出ステップを実行させて得られたピッチ情報をピッチ記憶手段に記憶させるピッチ記憶ステップを実行させ、
    前記ピッチ記憶手段より前記ピッチを読み出し、読み出されたピッチと当該ピッチの最近傍にある純正率音階上の音程との最小距離を算出し、
    当該最小距離が小さいほど高い得点を算出させることを特徴とする歌唱力評価方法。
  3. 前記ピッチ抽出ステップは全分析音域において半音階を10分割以上できる音程分解能を備えるピッチを抽出することを特徴とする請求項1乃至請求項2の何れかに記載の歌唱力評価方法。
  4. コンピュータに、
    音声信号入力手段より入力された歌唱者の歌声信号からピッチ(音程)情報を抽出させ、ピッチ記憶手段に記憶させるピッチ抽出・記憶ステップと、
    前記音声信号入力手段より入力された歌唱者の歌声信号からビブラート情報を検出させ、ビブラート記憶手段に記憶させるビブラート検出・記憶ステップとを実行させ、
    前記ピッチ記憶手段と前記ビブラート記憶手段より読み出されたピッチ情報とビブラート情報を用いて歌唱区間をビブラート区間とそれ以外の通常歌唱区間に分離し、分離されたビブラート区間と通常歌唱区間について別々に得点を算出させる歌唱力評価方法で、
    前記通常歌唱区間の得点は請求項1乃至請求項3の何れかに記載の歌唱力評価方法を実行して算出させることを特徴とする歌唱力評価方法。
  5. コンピュータに、
    音声信号入力手段より入力された歌唱者の歌声信号からピッチ(音程)情報を抽出させ、ピッチ記憶手段に記憶させるピッチ抽出・記憶ステップと、
    前記音声信号入力手段より入力された歌唱者の歌声信号からビブラート情報を検出させ、ビブラート記憶手段に記憶させるビブラート検出・記憶ステップと、
    前記音声信号入力手段より入力された歌唱者の歌声信号から無声音を判別することにより無声区間情報を抽出し、無声区間記憶手段に記憶させる無声区間検出・記憶ステップと、
    前記音声信号入力手段より入力された歌唱者の歌声信号から音程変化量を算出し、音程変化量記憶手段に記憶させる音程変化量抽出・記憶ステップとを実行させ、
    前記ピッチ記憶手段、前記ビブラート記憶手段、前記無声区間記憶手段、前記音程変化量記憶手段より読み出された各情報から、歌唱区間を無声区間、ビブラート区間、ビブラート区間以外で音程変化量が大きい区間、それ以外の通常歌唱区間に分離し、それぞれの歌唱区間に対して得点を算出させることを特徴とする歌唱力評価方法で、
    前記通常歌唱区間の得点は請求項1乃至請求項3の何れかに記載の歌唱力評価方法を用いて算出させることを特徴とする歌唱力評価方法。
  6. 前記ビブラート検出・記憶ステップとして、
    前記音声信号入力手段より入力された音声信号から音程変化量を抽出する音程変化量抽出ステップと、
    当該音程変化量抽出ステップを実行させて得られた音程変化量を音程変化量記憶手段に順次記憶させる音程変化量記憶ステップと、
    前記音程変化量記憶手段より複数の音程変化量を読み出し、読み出された複数の音程変化量により構成される一定区間長のフレームに対して自己相関分析または相互相関分析を行うことで相関関数を算出する音程相関関数算出ステップを実行させ、
    当該音程相関関数算出ステップを実行して得られた相関関数の特性を用いて入力音声中のビブラート区間を検出することを特徴とする請求項4乃至請求項5の何れかに記載の歌唱力評価方法。
  7. 前記音程変化量抽出ステップは、
    音声信号入力手段より入力された音声信号の周波数分析を実行させスペクトルを算出するスペクトル算出ステップと、
    当該スペクトル算出ステップを実行させて得られたスペクトルをスペクトル記憶手段に記憶するスペクトル記憶ステップと、
    前記スペクトル記憶手段より読み出された2つ以上のスペクトルのずらしマッチングにより音程変化量を抽出することを特徴とする請求項6に記載の歌唱力評価方法。
  8. 前記通常歌唱区間の得点をD、前記ビブラート区間の得点をD、任意のパラメータをx,x,…,xと定義し、
    f(D,x,x,…,x)は「Dとx,x,…,xを引数に持つ関数」と定義したときに、
    前記ビブラート区間の得点Dは、D=f(D,x,x,…,x)として算出し、
    前記ビブラート区間の得点Dに、通常歌唱区間の得点Dが反映されるように構成したことを特徴とする請求項4乃至請求項7の何れかに記載の歌唱力評価方法。
  9. 前記ビブラート区間の得点は、前記通常歌唱区間の得点に実数である定数αを乗じて算出することを特徴とする請求項8に記載の歌唱力評価方法。
  10. 前記定数αをユーザの好みにより調整できることを特徴とする請求項9に記載の歌唱力評価方法。
  11. 音声信号入力手段から入力された歌唱者の歌声信号からピッチ(音程)を抽出するピッチ抽出手段と、
    当該ピッチ抽出手段により得られたピッチ情報を記憶するピッチ記憶手段を備え、
    前記ピッチ記憶手段より前記ピッチを読み出し、当該ピッチの最近傍にある平均率音階上の音程との最小距離を算出し、
    当該最小距離が小さいほど高い得点を算出することを特徴とする歌唱力評価機能を有するカラオケ装置。
  12. 音声信号入力手段から入力された歌唱者の歌声信号からピッチ(音程)を抽出するピッチ抽出手段と、
    当該ピッチ抽出手段により得られたピッチ情報を記憶するピッチ記憶手段を備え、
    前記ピッチ記憶手段より前記ピッチを読み出し、当該ピッチの最近傍にある純正率音階上の音程との最小距離を算出し、
    当該最小距離が小さいほど高い得点を算出することを特徴とする歌唱力評価機能を有するカラオケ装置。
  13. 前記ピッチ抽出手段は全分析音域において半音階を10分割以上できる音程分解能を備えることを特徴とする請求項11乃至請求項12の何れかに記載の歌唱力評価機能を有するカラオケ装置。
  14. 音声信号入力手段より入力された歌唱者の歌声信号からピッチ(音程)情報を抽出し、ピッチ記憶手段に記憶するピッチ抽出手段と、
    前記音声信号入力手段より入力された歌唱者の歌声信号からビブラート情報を検出し、ビブラート記憶手段に記憶するビブラート検出手段とを備え、
    前記ピッチ記憶手段と前記ビブラート記憶手段より読み出されたピッチ情報とビブラート情報を用いて歌唱区間をビブラート区間とそれ以外の通常歌唱区間に分離し、分離されたビブラート区間と通常歌唱区間について別々に得点を算出することを特徴とする請求項11乃至請求項13の何れかに記載の歌唱力評価機能を有するカラオケ装置。
  15. 音声信号入力手段より入力された歌唱者の歌声信号からピッチ(音程)情報を抽出し、ピッチ記憶手段に記憶するピッチ抽出手段と、
    前記音声信号入力手段より入力された歌唱者の歌声信号からビブラート情報を検出し、ビブラート記憶手段に記憶するビブラート検出手段と、
    前記音声信号入力手段より入力された歌唱者の歌声信号から無声音を判別することにより無声区間情報を抽出し、無声区間記憶手段に記憶する無声区間検出手段と、
    前記音声信号入力手段より入力された歌唱者の歌声信号から音程変化量を算出し、音程変化量記憶手段に記憶する音程変化量抽出手段とを備え、
    前記ピッチ記憶手段、前記ビブラート記憶手段、前記無声区間記憶手段、前記音程変化量記憶手段より読み出された各情報から、歌唱区間を無声区間、ビブラート区間、ビブラート区間以外で音程変化量が大きい区間、それ以外の通常歌唱区間に分離し、それぞれの歌唱区間に対して得点を算出することを特徴とする請求項11乃至請求項13の何れかに記載の歌唱力評価機能を有するカラオケ装置。
  16. 前記ビブラート検出手段は、
    音声信号入力手段より入力された音声信号から音程変化量を抽出する音程変化量抽出手段と、
    当該音程変化量抽出手段により得られた音程変化量を音程変化量記憶手段に順次記憶する音程変化量記憶手段と、
    前記音程変化量記憶手段より複数の音程変化量を読み出し、読み出された複数の音程変化量により構成される一定区間長のフレームに対して自己相関分析または相互相関分析を行うことで相関関数を算出する音程相関関数算出手段と、
    当該音程相関関数算出手段により得られた相関関数を記憶する音程相関関数記憶手段と、
    前記音程相関関数記憶手段より読み出された相関関数の特性を用いて入力音声中のビブラート区間を検出するビブラート検出手段とを備えることを特徴とする請求項14または請求項15に記載の歌唱力評価機能を有するカラオケ装置。
  17. 前記音程変化量抽出手段は、
    音声信号入力手段より入力された音声信号に周波数分析を行いスペクトルを算出するスペクトル算出手段と、
    当該スペクトル算出手段を実施して得られたスペクトルを記憶するスペクトル記憶手段を備え、
    前記スペクトル記憶手段より読み出された2つ以上のスペクトルのずらしマッチングにより音程変化量を抽出することを特徴とする請求項16に記載の歌唱力評価機能を有するカラオケ装置。
  18. 前記通常歌唱区間の得点をD、前記ビブラート区間の得点をD、任意のパラメータをx,x,…,xと定義し、
    f(D,x,x,…,x)は「Dとx,x,…,xを引数に持つ関数」と定義したときに、
    前記ビブラート区間の得点Dは、D=f(D,x,x,…,x)として算出し、
    前記ビブラート区間の得点Dに、通常歌唱区間の得点Dが反映されるように構成したことを特徴とする請求項14乃至請求項17の何れかに記載の歌唱力評価機能を有するカラオケ装置。
  19. 前記ビブラート区間の得点は、前記通常歌唱区間の得点に実数である定数αを乗じて算出することを特徴とする請求項18に記載の歌唱力評価機能を有するカラオケ装置。
  20. 前記定数αをユーザの好みにより調整できることを特徴とする請求項19に記載の歌唱力評価機能を有するカラオケ装置。
JP2006186167A 2006-07-06 2006-07-06 歌唱力評価方法及びカラオケ装置 Pending JP2008015214A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006186167A JP2008015214A (ja) 2006-07-06 2006-07-06 歌唱力評価方法及びカラオケ装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006186167A JP2008015214A (ja) 2006-07-06 2006-07-06 歌唱力評価方法及びカラオケ装置

Publications (1)

Publication Number Publication Date
JP2008015214A true JP2008015214A (ja) 2008-01-24

Family

ID=39072299

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006186167A Pending JP2008015214A (ja) 2006-07-06 2006-07-06 歌唱力評価方法及びカラオケ装置

Country Status (1)

Country Link
JP (1) JP2008015214A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009098181A2 (en) * 2008-02-06 2009-08-13 Universitat Pompeu Fabra Audio recording analysis and rating
WO2009110026A1 (ja) * 2008-03-05 2009-09-11 株式会社島津製作所 質量分析方法及び質量分析装置
JP2009210593A (ja) * 2008-02-29 2009-09-17 Toshiba Corp 特徴量抽出装置、方法及びプログラム
JP2011209654A (ja) * 2010-03-30 2011-10-20 Konami Digital Entertainment Co Ltd 音声入力評価システム、音声入力評価システムの制御方法、及びプログラム
JP2013190564A (ja) * 2012-03-13 2013-09-26 Yamaha Corp 音声評価装置
WO2016148256A1 (ja) * 2015-03-17 2016-09-22 ヤマハ株式会社 評価装置およびプログラム
JP2016173562A (ja) * 2015-03-17 2016-09-29 ヤマハ株式会社 評価装置およびプログラム
CN110364140A (zh) * 2019-06-11 2019-10-22 平安科技(深圳)有限公司 歌声合成模型的训练方法、装置、计算机设备以及存储介质
CN110853678A (zh) * 2019-11-20 2020-02-28 北京雷石天地电子技术有限公司 颤音识别评分方法、装置、终端和非临时性计算机可读存储介质

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009098181A3 (en) * 2008-02-06 2009-10-15 Universitat Pompeu Fabra Audio recording analysis and rating
WO2009098181A2 (en) * 2008-02-06 2009-08-13 Universitat Pompeu Fabra Audio recording analysis and rating
US8073686B2 (en) 2008-02-29 2011-12-06 Kabushiki Kaisha Toshiba Apparatus, method and computer program product for feature extraction
JP2009210593A (ja) * 2008-02-29 2009-09-17 Toshiba Corp 特徴量抽出装置、方法及びプログラム
JP4599420B2 (ja) * 2008-02-29 2010-12-15 株式会社東芝 特徴量抽出装置
WO2009110026A1 (ja) * 2008-03-05 2009-09-11 株式会社島津製作所 質量分析方法及び質量分析装置
JP2011209654A (ja) * 2010-03-30 2011-10-20 Konami Digital Entertainment Co Ltd 音声入力評価システム、音声入力評価システムの制御方法、及びプログラム
JP2013190564A (ja) * 2012-03-13 2013-09-26 Yamaha Corp 音声評価装置
WO2016148256A1 (ja) * 2015-03-17 2016-09-22 ヤマハ株式会社 評価装置およびプログラム
JP2016173562A (ja) * 2015-03-17 2016-09-29 ヤマハ株式会社 評価装置およびプログラム
CN110364140A (zh) * 2019-06-11 2019-10-22 平安科技(深圳)有限公司 歌声合成模型的训练方法、装置、计算机设备以及存储介质
CN110364140B (zh) * 2019-06-11 2024-02-06 平安科技(深圳)有限公司 歌声合成模型的训练方法、装置、计算机设备以及存储介质
CN110853678A (zh) * 2019-11-20 2020-02-28 北京雷石天地电子技术有限公司 颤音识别评分方法、装置、终端和非临时性计算机可读存储介质

Similar Documents

Publication Publication Date Title
Bittner et al. Deep Salience Representations for F0 Estimation in Polyphonic Music.
Muller et al. Signal processing for music analysis
Li et al. Separation of singing voice from music accompaniment for monaural recordings
Marolt A connectionist approach to automatic transcription of polyphonic piano music
Durrieu et al. Source/filter model for unsupervised main melody extraction from polyphonic audio signals
Tsai et al. Automatic evaluation of karaoke singing based on pitch, volume, and rhythm features
US20080115656A1 (en) Tempo detection apparatus, chord-name detection apparatus, and programs therefor
JP2008015214A (ja) 歌唱力評価方法及びカラオケ装置
Rocamora et al. Comparing audio descriptors for singing voice detection in music audio files
JP2008209572A (ja) 演奏判定装置およびプログラム
Eggink et al. Extracting Melody Lines From Complex Audio.
CN103903628A (zh) 基于音频输入的动态调适音调校正
JP4479701B2 (ja) 楽曲練習支援装置、動的時間整合モジュールおよびプログラム
Abeßer et al. Score-informed analysis of tuning, intonation, pitch modulation, and dynamics in jazz solos
Lerch Software-based extraction of objective parameters from music performances
JP2008015211A (ja) ピッチ抽出方法、歌唱力評価方法、歌唱訓練プログラム及びカラオケ装置
Wong et al. Automatic lyrics alignment for Cantonese popular music
JP2007334364A (ja) カラオケ装置
Friberg et al. CUEX: An algorithm for automatic extraction of expressive tone parameters in music performance from acoustic signals
Dixon Extraction of musical performance parameters from audio data
JP4222919B2 (ja) カラオケ装置
JP2008015388A (ja) 歌唱力評価方法及びカラオケ装置
JP2008015212A (ja) 音程変化量抽出方法、ピッチの信頼性算出方法、ビブラート検出方法、歌唱訓練プログラム及びカラオケ装置
JP4271667B2 (ja) デュエットの同期性を採点するカラオケ採点装置
Molina et al. Automatic scoring of singing voice based on melodic similarity measures

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080223

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090706

A072 Dismissal of procedure [no reply to invitation to correct request for examination]

Free format text: JAPANESE INTERMEDIATE CODE: A073

Effective date: 20110104