JP2001117568A

JP2001117568A - 歌唱評価装置およびカラオケ装置

Info

Publication number: JP2001117568A
Application number: JP30027499A
Authority: JP
Inventors: 保夫 ▲蔭▼山; Yasuo Kageyama; Keino Pedro; ケイノペドロ; Rosukosu Alex; ロスコスアレックス
Original assignee: Universitat Pompeu Fabra UPF; Yamaha Corp
Current assignee: Universitat Pompeu Fabra UPF; Yamaha Corp
Priority date: 1999-10-21
Filing date: 1999-10-21
Publication date: 2001-04-27
Anticipated expiration: 2019-10-21
Also published as: JP4205824B2

Abstract

(57)【要約】【課題】歌唱の巧拙を的確に評価することができる歌
唱評価装置およびこれを用いたカラオケ装置を提供す
る。【解決手段】本発明に係る歌唱評価装置は、歌唱者の
歌唱位置を検出するとともに、歌唱音声の各音楽要素
と、当該歌唱位置に対応した基準音声の基準フレームの
各音楽要素とを比較し、この比較結果に基づいて歌唱を
評価するようになっている。従って、歌唱音声の音程、
音量および声質等の評価を、歌唱タイミングのずれの影
響を受けることなく評価することができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、歌唱の巧拙を評価
可能な歌唱評価装置およびこれを用いたカラオケ装置に
関する。

【０００２】

【従来の技術】従来より、歌唱者の歌唱の巧拙を評価す
る歌唱評価機能を備えた各種のカラオケ装置が提供され
ている。この種のカラオケ装置として、例えば、歌唱者
が歌うべきメロディの音程や音量等を指定する情報を含
む基準歌唱情報（例えばＭＩＤＩデータ）等が記憶され
たメモリと、マイクから入力された歌唱音声の音程およ
び音量等を抽出する抽出部と、上記メモリに記憶された
音程および音量と上記抽出部によって抽出された歌唱音
声の音程および音量とを比較し、この比較結果に基づい
て歌唱を評価する評価部とを具備したカラオケ装置が知
られている。

【０００３】図１２は、上記従来のカラオケ装置におけ
る音程の評価方法を示す概念図である。同図において、
横軸は時間、縦軸は周波数（音程）をそれぞれ表してい
る。また、図中の太線は基準歌唱情報によって指定され
る音程の時間的変化を表しており、細線は歌唱音声から
抽出された音程の時間的変化を表している。同図に示す
ように、このカラオケ装置においては、音程情報によっ
て指定される音程と歌唱音声の音程とが、一定時間（例
えば５０ｍｓ）毎に到来する評価タイミングにおいて比
較され、この比較結果に基づいて歌唱の巧拙が評価され
るようになっている。例えば、図中の評価タイミングＴ
ｋ１においては、音程情報によって指定される音程と、
歌唱音声の音程とが概ね一致しているため、音程につい
ては高い評価が得られることとなる。

【０００４】

【発明が解決しようとする課題】しかしながら、上述し
た評価方法においては以下に示す問題点がある。例え
ば、図１２中の評価タイミングＴｋ２の近傍において
は、歌唱音声の音程および基準音声の音程がともに変化
している。ここで、歌唱音声の変化前の音程は、基準歌
唱音声の変化前の音程と概ね一致しており、歌唱音声の
変化後の音程は、基準歌唱音声の変化後の音程と概ね一
致している。それにもかかわらず、歌唱音声の音程の変
化のタイミングが、音程情報が示す音程の変化のタイミ
ングとずれているため、図中の評価タイミングＴｋ２に
おける評価では、音程が大きくずれているものと判断さ
れ、評価が低くなってしまうという問題がある。

【０００５】ここで、一般に、感情を込めて歌った場合
には、歌唱のタイミングが実際のメロディとずれてしま
う場合がある。また、歌唱のタイミングを意図的にずら
した方が上手く聞こえる場合があるものである。しかし
ながら、上述したように、上記評価方法では、このよう
な意図的なタイミングのずれを正当に評価できない。す
なわち、音程情報が示す音程と正確に一致するように、
感情を込めることなく機械的に歌唱した方が高い評価が
得られるのである。このように、従来のカラオケ装置に
おいては、実際の歌唱の巧拙が評価結果に的確に反映さ
れているとはいえなかった。

【０００６】本発明は、以上説明した事情に鑑みてなさ
れたものであり、歌唱の巧拙を的確に評価することがで
きる歌唱評価装置およびこれを用いたカラオケ装置を提
供することを目的としている。

【０００７】

【課題を解決するための手段】上述した課題を解決する
ために、請求項１に記載の歌唱評価装置は、基準音声を
時間軸上で分割した複数の基準フレーム毎に当該基準音
声の音楽要素を記憶する記憶手段と、歌唱者の歌唱音声
を歌唱フレームに順次分割し、分割により得られた歌唱
フレームに対応した基準フレームを探索するアライメン
ト手段と、前記分割により得られた歌唱フレームの音楽
要素を抽出する分析手段と、前記分析手段によって抽出
された歌唱フレームの音楽要素と、前記アライメント手
段によって探索された基準フレームの音楽要素とを比較
する比較手段と、前記比較手段による比較結果に基づい
て歌唱を評価する評価手段とを具備することを特徴とし
ている。また、請求項２に記載の歌唱評価装置は、請求
項１に記載の構成において、前記記憶手段に記憶された
各基準フレームの音楽要素の時間的変化と、前記分析手
段によって抽出された歌唱フレームの音楽要素の時間的
変化とを比較することにより、歌唱タイミングの一致度
を検出するタイミング比較手段を具備し、前記評価手段
は、前記比較手段およびタイミング比較手段による比較
結果に基づいて歌唱を評価することを特徴としている。
また、請求項３に記載の歌唱評価装置は、請求項１に記
載の構成において、前記アライメント手段は、前記歌唱
フレームに対応した基準フレームを探索するとともに、
探索された基準フレームと、本来歌唱すべき基準フレー
ムとの時間的な差に基づいて歌唱音声と基準音声の歌唱
タイミングの一致度を検出し、前記評価手段は、前記比
較手段による比較結果、および前記アライメント手段に
よって検出された歌唱タイミングの一致度に基づいて歌
唱を評価することを特徴としている。請求項４に記載の
歌唱評価装置は、請求項１〜３のいずれか１の請求項に
記載の構成において、前記音楽要素として音程を含むこ
とを特徴としている。請求項５に記載の歌唱評価装置
は、請求項１〜４のいずれか１の請求項に記載の構成に
おいて、前記音楽要素として音量を含むことを特徴とし
ている。請求項６に記載の歌唱評価装置は、請求項１〜
５のいずれか１の請求項に記載の構成において、前記音
楽要素として声質を含むことを特徴としている。また、
請求項７に記載の歌唱評価装置は、請求項６に記載の構
成において、前記比較手段は、スペクトルマッチング尺
度を用いて前記基準音声の声質と歌唱音声の声質とを比
較することを特徴としている。請求項８に記載の歌唱評
価装置は、請求項６に記載の構成において、前記比較手
段は、前記基準音声の１以上のフォルマント周波数と歌
唱音声の１以上のフォルマント周波数とを比較すること
を特徴としている。また、請求項９に記載の歌唱評価装
置は、請求項１〜８のいずれか１の請求項に記載の構成
において、前記アライメント手段は、歌唱音声の音素と
基準音声の音素とを対比することにより各歌唱フレーム
に対応した基準フレームを探索することを特徴としてい
る。請求項１０に記載の歌唱評価装置は、請求項１〜９
のいずれか１の請求項に記載の構成において、前記アラ
イメント手段は、楽曲の音素列を記憶する音素列記憶手
段と、歌唱音声の代表的なパラメータを特徴ベクトルと
して所定数のシンボルにクラスタ化した符号帳と、各音
素毎の状態遷移確率および前記各シンボルの観測確率と
を記憶する音素情報記憶手段と、前記分割により得られ
た歌唱フレームを特徴パラメータ分析し、前記音素情報
記憶手段に記憶された符号帳に基づいて当該歌唱フレー
ムの特徴パラメータをシンボル量子化して当該歌唱フレ
ームの観測シンボルとする量子化手段と、前記音素情報
記憶手段に記憶された状態遷移確率および観測確率に基
づいて、前記音素列記憶手段に記憶された音素列の各状
態を有限状態ネットワーク上で隠れマルコフモデルによ
って形成する状態形成手段と、前記量子化手段によって
量子化された観測シンボルと、前記状態形成手段によっ
て形成された前記隠れマルコフモデルに従って、１パス
ビタビアルゴリズムによって状態遷移を決定する状態遷
移決定手段と、決定した前記歌唱音声の状態遷移に基づ
いて、各歌唱フレームに対応した基準フレームを探索す
る探索手段とを具備すること特徴としている。

【０００８】また、本発明は、請求項１〜１０のいずれ
か１の請求項に記載の歌唱評価装置と、前記歌唱音声を
入力するための音声入力手段と、楽曲データに従って楽
音信号を生成して出力する音源と、前記歌唱音声および
楽音信号を音として出力する出力手段とを具備すること
を特徴とするカラオケ装置を提供するものである。

【０００９】

【発明の実施の形態】以下、図面を参照して、本発明の
実施形態について説明する。なお、以下に示す実施形態
においては、本発明に係る歌唱評価装置をカラオケ装置
に適用した場合を例に説明する。かかる実施の形態は、
本発明の一態様を示すものであり、この発明を限定する
ものではなく、本発明の範囲内で任意に変更可能であ
る。

【００１０】Ａ：第１実施形態Ａ−１：第１実施形態の構成図１は、本発明の第１実施形態であるカラオケ装置１の
全体構成を示すブロック図である。同図に示すように、
このカラオケ装置１は、歌唱者が発する歌唱音声を電気
信号（以下、「歌唱音声信号」という）に変換して出力
するマイク２と、楽曲の伴奏の演奏等を行うカラオケ処
理部３と、歌唱者による歌唱の巧拙を評価して評価結果
を歌唱者に報知する歌唱評価部４とにより構成されてい
る。

【００１１】カラオケ処理部３は、ＭＩＤＩデータや時
間データおよび歌詞データなどを含む複数の楽曲データ
を記憶した楽曲データ記憶部３１と、歌唱者によって指
定された楽曲データ中のＭＩＤＩデータを時間データに
従って再生するシーケンサ３２と、シーケンサ３２の出
力信号に従って伴奏音等の楽音信号を生成する音源３３
と、この楽音信号とマイク２から供給される歌唱音声信
号とをミキシングして出力するミキサ３４と、ミキサ３
４の出力信号を音として出力するスピーカ３５とを具備
している。

【００１２】歌唱評価部４は、音声信号切出部４１、分
析窓生成部４２、ＦＦＴ（高速フーリエ変換）部４３、
分析部４４、タイミング比較部４５、音程・音量・声質
比較部４６、基準歌唱データベース４７、アライメント
処理部４８、音素辞書記憶部４９、採点結果演算部５０
および採点結果表示部５１を備えている。

【００１３】基準歌唱データベース４７には、基準音声
に関する各種情報、すなわち、基準歌唱情報、音韻テー
ブルおよび音素記述列が記憶されている。基準歌唱情報
および音素記述列は、上記楽曲データ記憶部３１に記憶
された複数の楽曲の各々に対応して記憶されている。一
方、音韻テーブルは、各楽曲の歌手の各々に対応して記
憶されている。

【００１４】ここで、図２（ａ）を参照して、基準歌唱
データベース４７に記憶された基準歌唱情報について説
明する。この基準歌唱情報は、ある楽曲の歌手による歌
唱音声（以下、「基準音声」という）を楽曲の開始時点
から一定時間間隔（以下、「基準フレーム」という）毎
に区切り、各基準フレーム毎に基準音声の音程、音量お
よび音韻を求めて得られたものである。具体的には、こ
の基準歌唱情報は、図２（ａ）に示すように、いずれか
の基準フレームを特定するための基準フレーム番号（Ｆ
ｔ１、Ｆｔ２、…）と、各基準フレーム単位で区切られ
た基準音声の基本周波数を表す基準音程情報（Ｐ４、Ｐ
５等）と、各基準フレーム単位で区切られた基準音声の
平均アンプリチュードを表す基準音量情報（Ａ３、Ａ４
等）と、音韻番号とにより構成されている。また、音韻
番号は、「０」〜「２５６」のいずれかの数値である。
なお、基準音程情報が「０」である基準フレームは、歌
手による歌唱がない基準フレームまたは無声子音（息継
ぎの音などの周期性のない音）のみの基準フレームであ
る。

【００１５】また、基準歌唱データベース４７に記憶さ
れた音韻テーブルは、図２（ｂ）に示すように、上述し
た基準歌唱情報中の音韻番号（０〜２５６）と、各音韻
番号に対応付けられたメルケプストラム係数とにより構
成されている。このメルケプストラム係数は、基準音声
のスペクトル形状、すなわち声質を少ないパラメータで
表すことのできる係数である。このように、上述した基
準歌唱情報中の音韻番号は、音韻テーブル中のメルケプ
ストラム係数のうちのいずれかを指定するための番号と
なっている。

【００１６】基準歌唱データベース４７に記憶された音
素記述列は、図２（ｃ）に示すように、演奏対象となる
楽曲の歌詞に対応して音素を並べた音素列と、音素列を
構成する各音素に対応する基準フレーム（通常、１の音
素に対して複数の基準フレームが対応している）の基準
フレーム番号とにより構成されている。例えば、図２
（ｃ）に示す例においては、基準フレームＦｔ１〜Ｆｔ
３が音素/Ｓｉｌｅｎｃｅ/に対応しており、基準フレー
ムＦｔ４〜Ｆｔ９が音素/ｎ/に対応しており、基準フレ
ームＦｔ１０〜が音素/ａ/に対応している。

【００１７】再び図１において、分析窓生成部４２は、
上述した基準音声の基準フレームと同じ時間的長さを有
する分析窓（例えばハミング窓）を生成して音声信号切
出部４１に出力する。音声信号切出部４１は、この分析
窓生成部４２から供給される分析窓と、マイク２から入
力される歌唱音声信号とを掛け合わせて出力する。すな
わち、音声信号切出部４１は、歌唱音声信号をフレーム
単位で切り出して、ＦＦＴ部４３に出力する。以下で
は、歌唱音声の各フレームを歌唱フレーム（Ｆｍ１、Ｆ
ｍ２、…）と呼ぶ。ＦＦＴ部４３は、音声信号切出部４
１から出力される各歌唱フレーム単位の歌唱音声信号に
対してＦＦＴを施し、分析部４４およびアライメント処
理部４８に出力する。

【００１８】アライメント処理部４８は、歌唱者が楽曲
中のどの部分を歌っているのかを求めるための手段であ
る。具体的には、アライメント処理部４８は、歌唱者の
歌唱位置と基準音声信号の基準フレームとの時間的位置
関係を判別し、歌唱者が歌っている部分が、基準音声の
うちのどの基準フレームに該当するのかを表す歌唱位置
情報を生成するための処理を行う。すなわち、歌唱者に
よる歌唱のタイミングが、本来の歌唱のタイミング（す
なわち、基準音声の歌唱タイミング）とずれている場合
であっても、歌唱者が歌っている部分（歌唱フレーム）
が、基準音声の基準フレームのうちのいずれの基準フレ
ームに該当するのかを判別できるようになっている。

【００１９】ここで、図３を参照して、アライメント処
理部４８の詳細な構成について説明する。同図に示すよ
うに、アライメント処理部４８は、特徴パラメータ分析
部４８１、シンボル量子化部４８２、音素列状態形成部
４８３、状態遷移決定部４８４およびアライメント部４
８５により構成されている。

【００２０】特徴パラメータ分析部４８１は、ＦＦＴ部
４３の出力信号から歌唱音声のスペクトル特性を特徴づ
ける特徴パラメータを抽出し、シンボル量子化部４８２
に出力する。本実施形態においては、特徴パラメータと
して、メルケプストラム係数、差分メルケプストラム係
数、エネルギ係数、差分エネルギ係数、ボイスネス（有
声音尤度）係数の５種類のパラメータを用いる。なお、
差分メルケプストラム係数とは、直前の歌唱フレームと
現在の歌唱フレームとのメルケプストラム係数の差分値
を示す。また、差分エネルギ係数とは、直前の歌唱フレ
ームと現在の歌唱フレームとのエネルギの差分値を示
す。ボイスネス係数とは、ゼロ交差数およびピッチ検出
を行うときに求まる検出誤差値等から総合的に求められ
る値、あるいは、総合的に重み付けして求められる値で
あり、有声音らしさを表す数値である。

【００２１】シンボル量子化部４８２は、音素辞書記憶
部４９に記憶された符号帳（詳細は後述する）を参照し
て、特徴パラメータ分析部４８１から供給される歌唱フ
レーム毎の特徴パラメータに対し、最大尤度をもつ特徴
シンボルを選び出し、状態遷移決定部４８４に出力す
る。

【００２２】音素列状態形成部４８３は、基準歌唱デー
タベース４７に記憶された音素記述列に基づいて隠れマ
ルコフモデルによる音素列の形成を行う。状態遷移決定
部４８４は、シンボル量子化部４８２から供給される歌
唱フレーム単位の特徴シンボルを用いて、後述する１パ
スビタビ（Viterbi）アルゴリズムに従って歌唱音声の
状態遷移を決定する。アライメント部４８５は、状態遷
移決定部４８４によって決定された状態遷移に基づい
て、歌唱音声の音素と基準音声の音素とをフレーム単位
で対応付け、歌唱音声の歌唱フレームに対応する基準音
声の基準フレームを探索し、当該基準フレームの基準フ
レーム番号を歌唱位置情報として出力する。

【００２３】音素辞書記憶部４９には、符号帳および確
率データが記憶されている。符号帳は、図４に示すよう
に、音声信号の代表的な特徴パラメータを特徴ベクトル
として所定数のシンボルにクラスタ化したものである。
すなわち、この符号帳は、歌唱音声信号を各種特徴ベク
トル（メルケプストラム係数、差分メルケプストラム係
数、エネルギ係数、差分エネルギ係数、ボイスネス（有
声音尤度）係数）にベクトル量子化するために用いられ
る。

【００２４】ここで、図４を参照しつつ、本実施形態に
おいて用いる特徴ベクトルについて説明する。メルケプストラム係数（ｂ_MEL）メルケプストラム係数は、音声のスペクトル特性を少な
い次数で表す係数であり、本実施形態では１２次元ベク
トルとして１２８シンボルにクラスタ化されている。差分メルケプストラム係数（ｂ_deltaMEL）差分メルケプストラム係数は、直前の歌唱フレームと現
在の歌唱フレームとのメルケプストラム係数の差分値を
表す係数であり、本実施形態では１２次元ベクトルとし
て１２８シンボルにクラスタ化されている。エネルギ係数（ｂ_ENERGY）エネルギ係数は、音声の強さを表す係数であり、本実施
形態では１次元ベクトルとして３２シンボルにクラスタ
化されている。差分エネルギ係数（ｂ_deltaENERGY）差分エネルギ係数は、直前の歌唱フレームと現在の歌唱
フレームとのエネルギ係数の差分値を表す係数であり、
１次元ベクトルとして３２シンボルにクラスタ化されて
いる。ボイスネス（ｂ_VOICENESS）ボイスネス係数は、有声音らしさを表す特徴ベクトルで
あり、ゼロクロス率およびピッチエラーで特徴づける２
次元ベクトルとして３２シンボルにクラスタ化されてい
る。以上が本実施形態において用いる特徴ベクトルである。

【００２５】次に、音素辞書記憶部４９に記憶された確
率データについて説明する。本実施形態では、音声をモ
デル化するためのサブワード単位としてＰＬＵ（疑似音
素単位）を用いる。具体的には、図５に示すように、日
本語を２７の音素単位で扱うものとし、各音素には状態
数が対応付けられている。状態数とは、サブワード単位
の持続する最も短い基準フレーム数をいう。例えば音素
/ａ/の状態数は「３」であるので、音素/ａ/は少なくと
も３つの基準フレームにわたって続くことを意味する。

【００２６】３状態の各々は、発音の立ち上がり・定常
状態・リリース状態を擬似的に表したものである。音素
/ｂ/や/ｇ/などの破裂音は、本来持つ音韻が短いので２
状態に設定されており、息継ぎ（ASPIRATION）も２状態
に設定されている。そして、無音（SILENCE）は、時間
的変動がないので１状態に設定されている。確率データ
には、図６に示すように、サブワード単位で表される２
７の音素に対して、各状態の遷移確率と、各特徴ベクト
ルのシンボルに対する観測シンボル発生確率とが記述さ
れている。

【００２７】再び図１において、分析部４４は、ＦＦＴ
部４３から供給される歌唱フレーム毎の歌唱音声信号を
分析し、歌唱音声の音程を表す歌唱音程情報と、歌唱音
声の音量を表す歌唱音程情報と、当該歌唱音声のメルケ
プストラム係数とを算出する。分析部４４によって生成
された歌唱音程情報および歌唱音量情報はタイミング比
較部４５に出力される一方、歌唱音程情報、歌唱音量情
報およびメルケプストラム係数は音程・音量・声質比較
部４６に出力される。

【００２８】タイミング比較部４５は、分析部４４から
順次供給される歌唱音程情報および歌唱音量情報と、上
記基準歌唱データベース４７中の基準音程情報および基
準音量情報とを比較することにより、歌唱音声の歌唱タ
イミングと基準音声の歌唱タイミングとの一致度を検出
し、この一致度を表すタイミング比較結果を採点結果演
算部５０に出力する。音程・音量・声質比較部４６は、
歌唱音声の各歌唱フレーム毎の音楽要素（音程、音量お
よび声質）と、当該歌唱フレームに対応する基準音声の
基準フレームの音楽要素とを比較し、比較結果を採点結
果演算部５０に出力する。

【００２９】採点結果演算部５０は、タイミング比較部
４５から供給されるタイミング比較結果と、音程・音量
・声質比較部４６から供給される比較結果と、アライメ
ント処理部４８から供給されるアライメント安定度情報
とに基づいて、当該歌唱の採点を行い、採点結果を採点
結果表示部５１に出力する。なお、本実施形態において
は、タイミング、音程、音量、声質およびアライメント
の各々について、個別に採点を行うものとする。採点結
果表示部５１は、例えばＣＲＴまたは液晶ディスプレイ
装置等の表示装置を備えており、採点結果演算部５０か
ら供給される各採点結果を表示する。ここで、採点結果
演算部５０には、歌唱フレーム毎にタイミング比較結果
等が供給されて各音楽要素毎の採点結果が出力されるた
め、採点結果表示部５１に表示される点数は、歌唱フレ
ーム毎にリアルタイムに変化することとなる。

【００３０】Ａ−２：第１実施形態の動作次に、本実施形態の動作について説明する。まず、ユー
ザが図示しない操作部に対して所定の操作を行うことに
より、いずれかの楽曲を選択するとともに楽曲の開始を
指示すると、シーケンサ３２は当該楽曲に対応した楽曲
データ中のＭＩＤＩデータを時間データに従って音源３
３に出力する。

【００３１】マイク２から入力された歌唱音声信号は、
ミキサ３４と、歌唱評価部４内の歌唱音声切出部４１と
に出力される。ミキサ３４は、音源３３から出力される
楽音信号と、マイク２から入力された歌唱音声信号とを
ミキシングして出力する。この出力信号はスピーカ３５
から音として出力される。

【００３２】一方、音声信号切出部４１は、マイク２か
ら供給される歌唱音声信号と、分析窓生成部４２から供
給される分析窓とを掛け合わせることにより、歌唱音声
信号を歌唱フレーム単位で切り出して出力する。ＦＦＴ
部４３は、この音声信号切出部４１からの出力信号に対
してＦＦＴを施し、分析部４４およびアライメント処理
部４８に出力する。

【００３３】次に、前掲図３に示したアライメント処理
部４８内の各部の動作について説明する。まず、特徴パ
ラメータ分析部４８１は、ＦＦＴ部４３から供給される
各歌唱フレーム毎の周波数スペクトルに対して特徴パラ
メータ解析を行い、各特徴パラメータを出力する。シン
ボル量子化部４８２は、音素辞書記憶部４９に記憶され
た符号帳に含まれる特徴シンボルのうち、特徴パラメー
タ分析部４８１から供給される各特徴パラメータに対し
て最大尤度を持つ特徴シンボルを各特徴ベクトル毎に選
び出し、選び出した特徴シンボルを状態遷移決定部４８
４に出力する。

【００３４】一方、音素列状態形成部４８３は、音素辞
書記憶部４９に記憶された確率データに含まれる状態遷
移確率と基準歌唱データベース４７に記憶された音素記
述列に基づいて、隠れマルコフモデルによる音素の状態
形成を行う（図８（ａ）参照）。

【００３５】ここで、図７を参照して、隠れマルコフモ
デル（ＨＭＭ）について説明する。なお、音声の状態は
一方向へ遷移するので、left to right型のモデルを用
いている。時刻ｔにおいて、状態がｉからｊへ遷移する
確率（状態遷移離散確率）をａ_ijと表す。すなわち、図
７に示す例では、状態にとどまる確率をａ₁₁と表し、
状態から状態へ遷移する確率をａ₁₂と表している。

【００３６】各状態の中には特徴ベクトルがそれぞれ存
在し、各々に異なる観測シンボルがある。これをＸ＝
{ｘ₁、ｘ₂、…、ｘ_T}と表す。そして、時刻ｔにおいて
状態がｊであるときに特徴ベクトルのシンボルｘｔを発
生させる確率（観測シンボル離散確率）をｂ_j（ｘ_t）と
表す。モデルλにおいて、時刻Ｔまでの状態系列をＱ＝
{ｑ₁、ｑ₂、…、ｑ_T}とすると、観測シンボル系列Ｘと
状態系列Ｑとの同時発生確率は、次式で表せる。

【数１】観測シンボル系列は判っているが、状態系列は観測し得
ないという理由で、このようなモデルが隠れマルコフモ
デル（ＨＭＭ）と呼ばれている。本実施形態では、基準
歌唱データベース４７に記憶された音素記述列に基づい
て、図７に示すようなＦＮＳ（有限状態ネットワーク）
を音素単位で形成する。

【００３７】さて、状態遷移決定部４８４は、音素列状
態形成部４８３によって形成された隠れマルコフモデル
と、シンボル量子化部４８２から供給される歌唱フレー
ム単位の各特徴シンボルを用い、１パスビタビアルゴリ
ズムによって歌唱音声の状態遷移を決定する。すなわ
ち、歌唱音声の各歌唱フレームが、いずれの音素に対応
するのかを特定する。

【００３８】ここで、１パスビタビアルゴリズムについ
て説明する。下記式におけるΨ_t（ｊ）は、時刻ｔに対
応する歌唱フレームまでの観測を踏まえて算出した、１
つのパスを経由して得られる時刻ｔの歌唱フレームにお
けるベスト確率δ_t（ｉ）を最大とする状態を選択す
る。すなわち、Ψ_t（ｊ）に従って音素状態が遷移して
いく。初期演算としてδ₁（ｉ）＝１とし、繰り返し演
算として

【数２】を実行する。ここで、ａ_ijは状態ｉから状態ｊへの状態
遷移確率であり、ｂ_j（Ｏ_t）は特徴ベクトルの時刻ｔに
おけるシンボル発生確率である。各観測シンボルは、歌
唱音声から抽出された特徴ベクトルであるから、歌唱者
の発生態様によって観測シンボルが異なり、遷移の態様
も異なるようになる。

【００３９】図８（ｂ）に示す例では、上記式によって
計算された確率を○あるいは△で示している。ここで、
○＞△である。例えば、時刻ｔｍ１から時刻ｔｍ３まで
の観測を踏まえ、状態“Ｓｉｌｅｎｃｅ”から状態“ｎ
１”へのパスが形成される確率は、状態“Ｓｉｌｅｎｃ
ｅ”から状態“Ｓｉｌｅｎｃｅ”へのパスが形成される
確率よりも高く、時刻ｔｍ３におけるベスト確率とな
り、図中太矢印で示すように状態遷移を決定する。

【００４０】このような演算を歌唱音声の各歌唱フレー
ム（Ｆｍ１、Ｆｍ２、…）に対応する時刻（ｔｍ１、ｔ
ｍ２、…）毎に行う。この結果、図８（ｃ）に例示する
ように、時刻ｔｍ３において状態“Ｓｉｌｅｎｃｅ”か
ら状態“ｎ１”に遷移し、時刻ｔｍ５において状態“ｎ
１”から状態“ｎ２”に遷移し、時刻ｔｍ９において状
態“ｎ２”から状態“ｎ３”に遷移し、時刻ｔｍ１１に
おいて状態“ｎ３”から状態“ａ１”に遷移する、とい
った具合に歌唱音声の状態遷移が決定される。これによ
り、歌唱音声の各歌唱フレームが、いずれの音素に対応
するのかを特定することができる。

【００４１】こうして、歌唱音声の各歌唱フレームが、
いずれの音素に対応するのかが特定されると、アライメ
ント部４８５は、特定された音素に対応する基準音声の
基準フレームを特定する。

【００４２】上述したように、隠れマルコフモデルの各
状態は音素記述列に基づいて形成されているので、各状
態に対応する基準音声の音素毎の基準フレームを特定す
ることができるようになっている。本実施形態では、ア
ライメントとして、基準音声および歌唱音声の対応する
音素が同じフレーム同士を、各フレーム毎に時系列で一
致させる処理を行う。具体的には、以下の通りである。

【００４３】図８（ｅ）に示す音素記述列は、前掲図２
（ｃ）に示した音素記述列である。すなわち、基準音声
の基準フレームＦｔ１〜Ｆｔ３が音素/Ｓｉｌｅｎｃｅ/
に対応し、基準フレームＦｔ４〜Ｆｔ９が音素/ｎ/に対
応し、基準フレームＦｔ１０〜の基準フレームが音素/
ａ/に対応している。

【００４４】一方、１パスビタビアルゴリズムによって
歌唱音声の状態遷移が決定され、この結果、図８（ｃ）
に示すように、歌唱音声の歌唱フレームＦｍ１およびＦ
ｍ２が音素/Ｓｉｌｅｎｃｅ/に対応し、歌唱フレームＦ
ｍ３〜Ｆｍ１０が音素/ｎ/に対応し、歌唱フレームＦｍ
１１〜が音素/ａ/に対応していることが判明したものと
する。

【００４５】この結果、図８（ｄ）に示すように、歌唱
音声の各歌唱フレームと、基準音声の各基準フレームと
を対応付ける（アライメントする）ことができる。具体
的には、以下の通りである。

【００４６】まず、音素/Ｓｉｌｅｎｃｅ/に対応するフ
レームとして、歌唱音声の歌唱フレームＦｍ１と基準音
声の基準フレームＦｔ１とを対応付け、歌唱音声の歌唱
フレームＦｍ２と基準音声の基準フレームＦｔ２とを対
応付ける。

【００４７】また、図８（ｃ）に示すように、歌唱音声
が歌唱フレームＦｍ２からＦｍ３に切換わる際に、状態
“Ｓｉｌｅｎｃｅ”から状態“ｎ１”に遷移しているの
で、音素/ｎ/に対応する歌唱フレームとしては、歌唱フ
レームＦｍ３が最初のフレームとなる。一方、基準音声
については、音素/ｎ/に対応する基準フレームは、図８
（ｅ）に示す音素記述列によれば基準フレームＦｔ４か
らであるので、歌唱音声の歌唱フレームＦｍ３と、基準
音声の基準フレームＦｍ４とを対応付ける。

【００４８】次に、歌唱音声の歌唱フレームＦｍ４にお
いては、新たな音素（図８（ｃ）に示す例においては音
素/ａ/）に移行していないので、歌唱音声の歌唱フレー
ムＦｍ４と、基準音声の基準フレームＦｔ５とを対応付
ける。以後同様の処理を繰り返し、歌唱音声の歌唱フレ
ームＦｍ５〜Ｆｍ７の各々と、基準音声の基準フレーム
Ｆｔ６〜Ｆｔ８の各々とを順次対応付けていく。

【００４９】ところで、図８（ｃ）〜（ｅ）に示す例で
は、歌唱音声の歌唱フレームＦｍ３〜Ｆｍ１０の８フレ
ームが音素/ｎ/に対応しているのに対して、基準音声の
音素/ｎ/に対応しているフレームは基準フレームＦｔ４
〜Ｆｔ９である。このように、歌唱者が対象者よりも同
じ音素を長い時間発声してしまう場合が生じるので、本
実施形態では、予め用意したループフレームを用いて基
準音声が歌唱音声よりも短い場合の補間を行う。

【００５０】ループフレームは、図８（ｆ）に示すよう
に、音を伸ばして発音する場合のピッチの変化やアンプ
リチュードの変化を擬似的に再現するためのデータを数
フレーム分記憶しており、例えば、基本周波数の差分
（ΔＰｉｔｃｈ）やアンプリチュードの差分（ΔＡｍ
ｐ）などから構成される。そして、基準歌唱情報中に
は、音素列における各音素の最終フレームにループフレ
ームの呼出しを指示するデータを記述しておく。これに
より、歌唱者が基準音声よりも同じ音素を長い時間発声
してしまった場合でも、良好にアライメントを行うこと
ができる。

【００５１】一方、上述した各フレーム毎の対応付けに
並行して、歌唱音声の各歌唱フレームに対応付けれらた
基準音声の基準フレームの基準フレーム番号を検出し、
この基準フレーム番号を歌唱位置情報として音程・音量
・声質比較部４６に出力する。

【００５２】また、アライメント処理部４８は、アライ
メント安定度情報を採点結果演算部５０に出力する。以
下、アライメント安定度情報について説明する。歌唱者
は、演奏される楽曲の本来の歌詞の言葉とは異なる言葉
で歌唱する場合もあり得る。例えば、本来の歌詞が「な
きながら」であるにも関わらず、歌唱者が「なきなら
が」と誤って歌ってしまうような場合である。この場
合、本来は「ながら」を表す音素列については、音素/
ｎ//ａ/の後、音素/ｇ/に遷移するはずであるが、「な
らが」と歌ってしまった場合には音素/ｎ//ａ/の後に音
素/ｒ/に遷移することとなる。すなわち、歌唱者が歌詞
を誤って歌ってしまった場合には、本来の遷移すべき音
素とは異なる音素に遷移してしまう。すなわち、音素の
飛び越しまたは後退が生じることがある。このように、
アライメント処理部４８内のアライメント部４８５は、
このような音素の飛び越しおよび後退の発生回数を単位
時間毎にカウントし、このカウント値をアライメント安
定度情報として出力するのである。すなわち、アライメ
ント安定度情報は、歌唱者の歌唱している歌詞と、本来
の歌詞との違いの程度を表す情報ということができる。

【００５３】一方、分析部４４は、ＦＦＴ部４３から供
給される歌唱フレーム毎の歌唱音声信号について、歌唱
音程情報、歌唱音量情報およびメルケプストラム係数を
算出する。すなわち、例えば、各歌唱フレーム単位の歌
唱音声信号の基本周波数を歌唱音程情報とし、各歌唱フ
レーム単位の歌唱音声信号の平均アンプリチュードを歌
唱音量情報とする、といった具合である。そして分析部
４４は、歌唱音程情報および歌唱音量情報をタイミング
比較部４５に、歌唱音程情報、歌唱音量情報およびメル
ケプストラム係数を音程・音量・声質比較部４６に、そ
れぞれ出力する。

【００５４】ここで、歌唱音声信号のメルケプストラム
係数の算出手順の一例について説明する。まず、分析部
４４は、ＦＦＴ部４３から供給される歌唱フレーム単位
の歌唱音声信号の周波数スペクトルに対し、メルスケー
ル帯域フィルタ群を用いてメルスケールに従った重み付
けを施す。ここで、メルスケール帯域フィルタ群は、Ｎ
個の帯域フィルタから構成され、図９に示すように、各
々の帯域フィルタの通過帯域がメルスケール上（または
対数周波数軸上）に等間隔に配置されるようになってい
る。これは、人間の聴覚特性（すなわち、低い周波数に
おいては細かい周波数分解能を有し、高い周波数におい
ては粗い周波数分解能を有する）を考慮して、歌唱音声
信号の周波数スペクトルに対してメルスケールに応じた
重み付けがなされるようにするためである。この結果得
られたメルスケール帯域フィルタ群からのＮ個の出力信
号を用いてケプストラム演算を行うことにより、歌唱音
声信号のメルケプストラム係数を求めることができる。
このケプストラム演算は、上記メルスケール帯域フィル
タ群のうちのｋ番目の帯域フィルタからの出力信号のエ
ネルギ合計値を｜Ｓｋ｜とすると、

【数３】によって表される。

【００５５】タイミング処理部４５は、分析部４４から
歌唱音程情報および歌唱音量情報が供給されると、基準
歌唱データベース４７に記憶された基準音程情報および
基準音量情報のうち、演奏が開始された時点からの経過
時刻に対応する基準フレームに対応付けられた基準音程
情報および基準音量情報を読み出す。そして、各歌唱フ
レーム単位で順次供給される歌唱音程情報および歌唱音
量情報から歌唱音声の立ち上がりタイミング（すなわ
ち、歌唱音声の音程または音量が変化するタイミング）
を検出する一方、基準音声の立ち上がりタイミング（す
なわち、基準音声の音程または音量が変化するタイミン
グ）を検出する。そして、歌唱音声の立ち上がりタイミ
ングと基準音声の立ち上がりタイミングとを比較し、各
タイミングの一致度を表すタイミング比較結果を採点結
果演算部５０に出力する。

【００５６】一方、音程・音量・声質比較部４６は、ま
ず、アライメント処理部４８から供給される歌唱位置情
報によって指定される基準フレーム番号に対応付けられ
た基準音程情報、基準音量情報を基準歌唱データベース
４７から読み出すとともに、当該基準フレームにおける
音韻番号に対応付けられたメルケプストラム係数を音韻
テーブルから読み出す。つまり、基準音声の各音楽要素
のうち、歌唱者による歌唱位置に対応した各音楽要素を
読み出すのである。そして、読み出した基準音程情報、
基準音量情報およびメルケプストラム係数の各々を、分
析部４４から供給される歌唱音程情報、歌唱音量情報お
よびメルケプストラム係数と比較し、各々の比較結果で
ある音程比較結果、音量比較結果および声質比較結果を
採点結果演算部５０に出力する。具体的には、歌唱音程
情報と基準音程情報との差分値を音程比較結果とし、歌
唱音量情報と基準音量情報との差分値を音量比較結果と
する。また、歌唱音声のメルケプストラム係数ＣＭと基
準音声のメルケプストラム係数ＣＴとを用い、

【数４】なる演算を行うことにより係数ＤＩＳＴspecの値を求
め、この値を声質比較結果として出力する。すなわち、
このＤＩＳＴspecの値が大きい程、歌唱音声信号のメル
ケプストラム係数と基準音声信号のメルケプストラム係
数との差が大きい、すなわち、歌唱音声の声質と基準音
声の声質とが異なることを意味しており、ＤＩＳＴspec
の値が０である場合には、歌唱音声の声質と基準音声の
声質とがほぼ一致していることを意味している。

【００５７】採点結果演算部５０は、タイミング比較部
４５から供給されるタイミング比較結果と、音程・音量
・声質比較部４６から出力される音程比較結果、音量比
較結果および声質比較結果と、アライメント処理部４８
から出力されるアライメント安定度情報とに基づいて歌
唱を採点し、各要素毎に採点結果を出力する。具体的に
は、例えば、数値「１００」からタイミング比較結果に
応じた数値を減算して歌唱タイミングに関する点数と
し、数値「１００」から音程比較結果に応じた数値を減
算して音程に関する点数とし、数値「１００」から音量
比較結果に応じた数値を減算して音量に関する点数とす
る、といった具合である。採点結果表示部５１は、採点
結果演算部５０から供給される採点結果を表示する。

【００５８】このように、本実施形態においては、歌唱
者の歌唱位置に対応した基準フレームにおける基準歌唱
音声の各音楽要素を、歌唱音声の各音楽要素と比較する
ようになっているため、例えば歌唱者による歌唱位置が
本来の歌唱位置とずれている場合、すなわち、歌唱タイ
ミングがずれている場合であっても、かかる歌唱タイミ
ングのずれの影響を考慮することなく、音程、音量およ
び声質の各音楽要素についてのみの評価を行うことがで
きる。

【００５９】また、本実施形態においては、音程、音量
および歌唱タイミングだけでなく、声質も評価の対象と
しているので、歌唱者の声質と楽曲の歌手の声質との似
具合を評価することができる。

【００６０】Ｂ：第２実施形態Ｂ−１：第２実施形態の構成次に、本発明の第２実施形態に係るカラオケ装置の構成
を説明する。上記第１実施形態においては、タイミング
比較部４５において、歌唱音声の音程および音量とによ
って導出される歌唱タイミングと、基準音声の音程およ
び音量とによって導出される歌唱タイミングとを比較す
ることにより、歌唱タイミングの評価を行うようにし
た。これに対し、本実施形態においては、上述したアラ
イメント処理部４８に歌唱タイミングを比較する機能を
持たせている。

【００６１】図１０は、本実施形態に係るカラオケ装置
１’の構成を示すブロック図である。なお、図１０に示
す各部のうち、前掲図１に示したカラオケ装置１の各部
と共通する部分については同一の符号を付して、その説
明を省略する。図１０に示すように、本実施形態に係る
カラオケ装置１’は、前掲図１に示したタイミング比較
部４５を備えておらず、その代わりにアライメント処理
部４８内のアライメント部４８５が歌唱タイミングの評
価を行う機能を有している。

【００６２】Ｂ−２：第２実施形態の動作続いて、本実施形態の動作について説明する。なお、本
実施形態においては、上述した第１実施形態の動作と比
較してアライメント処理部４８内のアライメント部４８
５の動作のみが異なるので、アライメント部４８５の動
作についてのみ説明し、その他の各部の説明は省略す
る。

【００６３】アライメント部４８５は、上記第１実施形
態と同様の手順で歌唱位置情報を生成し、音程・音量・
声質比較部４６に出力するとともに、アライメント安定
度情報を生成して採点結果演算部５０に出力する。一
方、アライメント部４８５は、歌唱位置情報によって指
定される基準音声の基準フレームと、楽曲の演奏開始時
点からの経過時刻に対応する基準歌唱の基準フレームと
の時間的な差を算出し、この算出結果をタイミング比較
結果として採点結果演算部５０に出力する。すなわち、
このタイミング比較結果には、本来歌唱すべき楽曲中の
位置と、実際に歌唱者が歌唱している楽曲中の位置との
時間的な差、すなわち、歌唱タイミングの一致度が反映
されることとなる。

【００６４】採点結果演算部５０は、上記第１実施形態
と同様の処理によって音程・音量・声質比較部４６から
供給される音程比較情報、音量比較情報および声質比較
情報と、アライメント処理部４８から供給されるタイミ
ング比較結果およびアライメント安定度情報とによって
各音楽要素毎の点数を演算する。この演算結果は、採点
結果表示部５１によって表示される。

【００６５】このように、本実施形態によれば、アライ
メント処理部４８によるアライメント結果に基づいて、
歌唱タイミングの評価を行うようになっているので、上
述した第１実施形態に係るカラオケ装置１と比較して処
理が簡易になる。

【００６６】Ｃ：変形例以上この発明の一実施形態について説明したが、上記実
施形態はあくまでも例示であり、上記実施形態に対して
は、本発明の趣旨から逸脱しない範囲で様々な変形を加
えることができる。変形例としては、例えば以下のよう
なものが考えられる。

【００６７】＜変形例１＞上記各実施形態においては、
音程・音量・声質比較部４６によって音程の比較結果、
音量の比較結果および声質の比較結果を出力するように
したが、これに加えて、例えば歌唱中のビブラートの評
価を行うようにしてもよい。本変形例は、例えば以下の
構成とすることにより実現することができる。

【００６８】まず、楽曲データ記憶部３１に記憶された
各楽曲データ中の、楽曲中のビブラートをかけるべき区
間（以下、「ビブラート区間」という）の最初および最
後に対応する部分にビブラート区間であることを示すフ
ラグを挿入しておく。

【００６９】一方、音程・音量・声質比較部４６は、分
析部４４から順次供給される歌唱音程情報を複数の歌唱
フレームにわたって記憶するメモリを具備している。以
下、このようにしてメモリに記憶された複数の音程から
なる列を音程列という。また、基準歌唱データベース４
７に記憶された基準歌唱情報中の各基準フレームのう
ち、上記ビブラート区間に対応する基準フレーム（通
常、ビブラート区間は複数フレームわたる）には、当該
基準フレームにおける基準音声のビブラートの強度（基
準ビブラート強度）およびビブラートの周波数（基準ビ
ブラート周波数）とが対応付けられている。

【００７０】シーケンサ３２は、楽曲データの再生中に
ビブラート区間の開始を示すフラグを読み出すと、歌唱
評価部４内の音程・音量・声質比較部４６に対して、ビ
ブラート区間が開始したことを通知する。音程・音量・
声質比較部４６は、この通知を受けると、それ以後に分
析部４４から供給される歌唱音程情報を順次メモリに書
込む。一方、シーケンサ３２は、楽曲データ中のビブラ
ート区間の終了を示すフラグを読み出すと、音程・音量
・声質比較部４６に対し、ビブラート区間が終了したこ
とを通知する。音程・音量・声質比較部４６は、この通
知を受けると、その時点までにメモリに記憶された歌唱
音程情報を読み出すとともに、各歌唱音程情報が示す音
程を時系列的に並べた波形を形成する。そして、音程・
音量・声質比較部４６は、形成した波形に対してＦＦＴ
を施す。図１１はこの結果得られた周波数スペクトルの
一例を示す図である。このような周波数スペクトルが得
られると、音程・音量・声質比較部４６は、当該周波数
スペクトルのピークを検出し、当該ピークにおける強度
（歌唱ビブラート強度）とそのピークにおける周波数
（歌唱ビブラート周波数）とを検出する。

【００７１】一方、音程・音量・声質比較部４３は、基
準歌唱データベース４７から、上記ビブラート区間に該
当する複数フレームに対応した基準ビブラート強度およ
び基準ビブラート周波数を読み出す。そして、上記歌唱
ビブラート強度と基準ビブラート強度、および歌唱ビブ
ラート周波数と基準ビブラート周波数とを比較し、この
比較結果をビブラート比較結果として採点結果演算部５
０に出力する。すなわち、この比較結果は、歌唱音声の
ビブラートと、基準音声のビブラートとの一致度を表し
ている。

【００７２】このビブラート比較結果を受け取った採点
結果演算部５０は、上述した各音楽要素（歌唱タイミン
グ、音程等）と同様の処理により、ビブラートの一致度
に関する採点を行い、採点結果を採点結果表示部５１に
出力する。この結果、表示結果表示部５１には、上述し
た歌唱タイミング等の採点結果とともに、ビブラートの
採点結果が表示される。本変形例によれば、歌唱者によ
る歌唱についてより詳細な採点を行うことができる。

【００７３】＜変形例２＞上記各実施形態においては、
歌唱音声の声質と基準音声の声質との比較、すなわち各
スペクトル形状の比較を、スペクトルマッチング尺度の
一種であるメルケプストラム係数を用いて実施するよう
にしたが、この手法に代えて以下の手法を用いてもよ
い。

【００７４】すなわち、例えば、歌唱音声のフォルマン
ト周波数と、基準音声のフォルマント周波数とを比較す
ることにより声質の一致度を検出するようにしてもよ
い。具体的には、歌唱評価部４内の分析部４４は、ＦＦ
Ｔ部４３から供給される歌唱音声の周波数スペクトルか
ら、１以上のフォルマントにおけるフォルマント周波数
を検出して音程・音量・声質比較部４６に出力する。一
方、基準歌唱データベース４７には、基準音声の周波数
スペクトルにおける１以上のフォルマントにおけるフォ
ルマント周波数を、各基準フレーム単位で記憶してお
く。そして、音程・音量・声質比較部４６は、分析部４
４から出力されるフォルマント周波数と、基準歌唱デー
タベース４７に記憶されたフォルマント周波数とを比較
して、この比較結果を採点結果演算部５０に出力する。
これにより、この比較結果に、歌唱音声の声質と基準音
声の声質との一致度を反映させることができる。

【００７５】なお、声質の比較方法は、以上示した方法
に限られるものではない。例えば、ＦＦＴ、ＳＭＳ、ケ
プストラム分析または線形予測分析等を用いて歌唱音声
のスペクトル包絡と基準音声のスペクトル包絡と比較
し、声質比較結果としてもよい。

【００７６】＜変形例３＞上記各実施形態においては、
リアルタイムで採点結果の表示を行うようにしたが、以
下のようにしてもよい。すなわち、採点結果演算部５０
は、各部から供給される各音楽要素毎の比較結果、タイ
ミング比較結果、音程比較結果等を順次メモリに記憶
し、楽曲の演奏が終了した際に、当該メモリに記憶され
た各音楽要素毎の比較結果の平均値を求め、この平均値
に基づいて各音楽要素毎の採点を行うようにしてもよ
い。

【００７７】また、上記実施形態においては、採点結果
を文字として表示するようにしたが、採点結果を歌唱者
に報知する方法はこれに限られるものではない。例え
ば、採点結果を音声によって歌唱者に報知するようにし
てもよい。

【００７８】＜変形例４＞上記各実施形態においては、
歌唱位置に対応した基準音声の基準フレームを楽曲の進
行に伴って逐次検出し、リアルタイムで採点を行うた
め、隠れマルコフモデルを用い、１パスビタビアルゴリ
ズムによって歌唱音声の状態遷移を決定するようにし
た。しかしながら、リアルタイムの採点を行う必要がな
い場合、例えば、楽曲の演奏終了後に採点結果を表示す
るような場合等には、歌唱音声と基準音声との時間的位
置関係を検出するための手法は、上記手法でなくてもよ
い。例えば、歌唱音声の歌唱位置と、基準音声のフレー
ムとを対応付けるために、ＤＰマッチング手法（ＤＴ
Ｗ；Dynamic Time Warping）等を用いてもよい。

【００７９】

【発明の効果】以上説明したように、本発明によれば、
歌唱者の歌唱位置に対応した基準フレームにおける基準
歌唱音声の各音楽要素を、歌唱音声の各音楽要素と比較
するようになっているため、歌唱タイミングがずれてい
る場合であっても、かかる歌唱タイミングのずれの影響
を考慮することなく、音程、音量および声質の各音楽要
素についてのみの評価を行うことができる。

【図面の簡単な説明】

【図１】本発明の第１実施形態であるカラオケ装置の
全体構成を示すブロック図である。

【図２】（ａ）は同カラオケ装置における基準歌唱情
報の内容を例示する図であり、（ｂ）は音韻テーブルの
内容を例示する図であり、（ｃ）は音素記述列の内容を
例示する図である。

【図３】同カラオケ装置におけるアライメント処理部
の構成を示すブロック図である。

【図４】同カラオケ装置における符号帳の内容を説明
するための図である。

【図５】同カラオケ装置において用いられる音素につ
いて説明するための図である。

【図６】同カラオケ装置における確率データの内容を
説明するための図である。

【図７】隠れマルコフモデルについて説明するための
図である。

【図８】同カラオケ装置におけるアライメントの具体
例を示す図である。

【図９】メルスケール帯域フィルタ群の通過帯域を例
示する図である。

【図１０】本発明の第２実施形態であるカラオケ装置
の全体構成を示すブロック図である。

【図１１】第１および第２実施形態に係るカラオケ装
置のビブラート評価について説明するための図である。

【図１２】従来のカラオケ装置における歌唱評価方法
を説明するための図である。

【符号の説明】

１，１’……カラオケ装置、２……マイク（音声入力手
段）、３……カラオケ処理部、３１……楽曲データ記憶
部、３２……シーケンサ、３３……音源、３４……ミキ
サ、３５……スピーカ（出力手段）、４……歌唱評価
部、４１……音声信号切出部、４２……分析窓生成部、
４３……ＦＦＴ部、４４……分析部（分析手段）、４５
……タイミング比較部（タイミング比較手段）、４６…
…音程・音量・声質比較部（比較手段）、４７……基準
歌唱データベース（記憶手段）、４８……アライメント
処理部（アライメント手段）、４８１……特徴パラメー
タ分析部、４８２……ベクトル量子化部、４８３……音
素状態形成部、４８４……状態遷移決定部、４８５……
アライメント部、５０……採点結果演算部（評価手
段）、５１……採点結果表示部。

─────────────────────────────────────────────────────

【手続補正書】

【提出日】平成１２年２月８日（２０００．２．８）

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】００３８

【補正方法】変更

【補正内容】

【００３８】ここで、１パスビタビアルゴリズムについ
て説明する。下記式におけるΨ_t（ｊ）は、時刻ｔに対
応する歌唱フレームまでの観測を踏まえて算出した、１
つのパスを経由して得られる時刻ｔの歌唱フレームにお
けるベスト確率δ_t（ｊ）を最大とする状態を選択す
る。すなわち、Ψ_t（ｊ）に従って音素状態が遷移して
いく。初期演算としてδ₁（ｉ）＝１とし、繰り返し演
算として

【数２】を実行する。ここで、ａ_ijは状態ｉから状態ｊへの状態
遷移確率であり、Ｎは歌唱する曲の音韻数によって決ま
る状態ｉ、ｊのとりうる最大の状態数である。また、ｂ
_j（Ｏ_t）は特徴ベクトルの時刻ｔにおけるシンボル発生
確率である。各観測シンボルは、歌唱音声から抽出され
た特徴ベクトルであるから、歌唱者の発声態様によって
観測シンボルが異なり、遷移の態様も異なるようにな
る。

フロントページの続き (72)発明者ペドロケイノスペインバルセロナ 08002 メルセ 12 (72)発明者アレックスロスコススペインバルセロナ 08002 メルセ 12 Ｆターム(参考） 2C001 AA00 AA17 BA07 BB00 BB04 BB05 BC00 BC09 CA00 CA07 CB01 CC02 5D108 BB06 BF05 BF16 BG06

Claims

【特許請求の範囲】

【請求項１】基準音声を時間軸上で分割した複数の基
準フレーム毎に当該基準音声の音楽要素を記憶する記憶
手段と、歌唱者の歌唱音声を歌唱フレームに順次分割し、分割に
より得られた歌唱フレームに対応した基準フレームを探
索するアライメント手段と、前記分割により得られた歌唱フレームの音楽要素を抽出
する分析手段と、前記分析手段によって抽出された歌唱フレームの音楽要
素と、前記アライメント手段によって探索された基準フ
レームの音楽要素とを比較する比較手段と、前記比較手段による比較結果に基づいて歌唱を評価する
評価手段とを具備することを特徴とする歌唱評価装置。
【請求項２】前記記憶手段に記憶された各基準フレー
ムの音楽要素の時間的変化と、前記分析手段によって抽
出された歌唱フレームの音楽要素の時間的変化とを比較
することにより、歌唱タイミングの一致度を検出するタ
イミング比較手段を具備し、前記評価手段は、前記比較手段およびタイミング比較手
段による比較結果に基づいて歌唱を評価することを特徴
とする請求項１に記載の歌唱評価装置。
【請求項３】前記アライメント手段は、前記歌唱フレームに対応した基準フレームを探索すると
ともに、探索された基準フレームと、本来歌唱すべき基
準フレームとの時間的な差に基づいて歌唱音声と基準音
声の歌唱タイミングの一致度を検出し、前記評価手段は、前記比較手段による比較結果、および
前記アライメント手段によって検出された歌唱タイミン
グの一致度に基づいて歌唱を評価することを特徴とする
請求項１に記載の歌唱評価装置。
【請求項４】前記音楽要素として音程を含むことを特
徴とする請求項１〜３のいずれか１の請求項に記載の歌
唱評価装置。
【請求項５】前記音楽要素として音量を含むことを特
徴とする請求項１〜４のいずれか１の請求項に記載の歌
唱評価装置。
【請求項６】前記音楽要素として声質を含むことを特
徴とする請求項１〜５のいずれか１の請求項に記載の歌
唱評価装置。
【請求項７】前記比較手段は、スペクトルマッチング
尺度を用いて前記基準音声の声質と歌唱音声の声質とを
比較することを特徴とする請求項６に記載の歌唱評価装
置。
【請求項８】前記比較手段は、前記基準音声の１以上
のフォルマント周波数と歌唱音声の１以上のフォルマン
ト周波数とを比較することを特徴とする請求項６に記載
の歌唱評価装置。
【請求項９】前記アライメント手段は、歌唱音声の音
素と基準音声の音素とを対比することにより各歌唱フレ
ームに対応した基準フレームを探索することを特徴とす
る請求項１〜８のいずれか１の請求項に記載の歌唱評価
装置。
【請求項１０】前記アライメント手段は、楽曲の音素列を記憶する音素列記憶手段と、歌唱音声の代表的なパラメータを特徴ベクトルとして所
定数のシンボルにクラスタ化した符号帳と、各音素毎の
状態遷移確率および前記各シンボルの観測確率とを記憶
する音素情報記憶手段と、前記分割により得られた歌唱フレームを特徴パラメータ
分析し、前記音素情報記憶手段に記憶された符号帳に基
づいて当該歌唱フレームの特徴パラメータをシンボル量
子化して当該歌唱フレームの観測シンボルとする量子化
手段と、前記音素情報記憶手段に記憶された状態遷移確率および
観測確率に基づいて、前記音素列記憶手段に記憶された
音素列の各状態を有限状態ネットワーク上で隠れマルコ
フモデルによって形成する状態形成手段と、前記量子化手段によって量子化された観測シンボルと、
前記状態形成手段によって形成された前記隠れマルコフ
モデルに従って、１パスビタビアルゴリズムによって状
態遷移を決定する状態遷移決定手段と、決定した前記歌唱音声の状態遷移に基づいて、各歌唱フ
レームに対応した基準フレームを探索する探索手段とを
具備することを特徴とする請求項１〜９のいずれか１の
請求項に記載の歌唱評価装置。
【請求項１１】請求項１〜１０のいずれか１の請求項
に記載の歌唱評価装置と、前記歌唱音声を入力するための音声入力手段と、楽曲データに従って楽音信号を生成して出力する音源
と、前記歌唱音声および楽音信号を音として出力する出力手
段とを具備することを特徴とするカラオケ装置。