JP4367436B2

JP4367436B2 - 音声信号処理装置、音声信号処理方法および音声信号処理プログラム

Info

Publication number: JP4367436B2
Application number: JP2006146867A
Authority: JP
Inventors: 琢哉藤島; ボナダジョルディ; ロスコスアレックス; メイヤーオスカー
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2005-05-26
Filing date: 2006-05-26
Publication date: 2009-11-18
Anticipated expiration: 2026-05-26
Also published as: JP2007004152A

Description

この発明は、楽音の音高，開始タイミング，終了タイミングを含む楽音情報を時系列に配列したリファレンスデータと、楽音を演奏または歌唱した音声信号との対応する位置を決定する音声信号処理装置に関するものである。

従来、歌唱者の歌唱をリファレンスとなる基準メロディデータとの一致度の高さで評価して採点するカラオケ装置（例えば特許文献１を参照）はカラオケ店舗等で多く用いられている。この基準メロディデータとは、カラオケ楽曲の楽音を正確な音高で歌唱した場合における楽音の音高，この音高の開始タイミング及び終了タイミングを含む楽音情報を時系列に配列したリファレンスデータである。
特開平８−６３１７７号公報

しかしながら、上記従来のカラオケ装置では、歌唱者が歌唱テクニックとして溜めて（ゆっくり）歌ったり、速く歌ったりした場合には、基準メロディデータとの一致度が低くなり、歌唱に対する評価が低くなってしまっていた。すなわち、従来のカラオケ装置では、単に基準メロディデータと歌唱者の歌唱した音声信号とを比較するだけであった。このため、歌唱者がリファレンスと同じスピードで歌唱しなかった場合には、歌唱の音声信号と基準メロディデータとの参照位置がずれてしまう。このため、歌唱の音声信号と基準メロディデータとの一致度が低くなってしまい、歌唱に対する評価が低くなる。

本発明は、上述した課題を解決するために、歌唱者の楽音の歌唱（又は演奏）スピードにかかわらず、基準メロディデータ（リファレンス）と歌唱した音声信号との対応を正確に取ることができ、カラオケ装置に適用した場合に歌唱の正確な採点が可能な音声信号処理装置、音声信号処理方法および音声信号処理プログラムを提供することを目的としている。

上記課題を解決するために本発明では以下の手段を採用している。

（１）本発明は、楽曲の楽音の音高，この音高の開始タイミング及び終了タイミングを含む楽音情報を時系列に配列したリファレンスデータを入力して記憶するリファレンスデータ記憶部と、前記楽音を演奏又は歌唱した音声信号を入力する音声信号入力部と、入力された音声信号を所定時間のフレームに分割し、各フレーム毎に音声信号の特徴量を検出する特徴量検出部と、検出した特徴量を一定時間分記憶するバッファと、前記リファレンスデータの各楽音情報の開始タイミング又は終了タイミングごとに、この開始タイミングまたは終了タイミングに対応する前記音声信号の楽曲の推移点を、前記バッファに記憶した前記開始タイミングまたは終了タイミングを中心とした一定時間範囲の特徴量に基づいて検出するマッチング部と、を備えたことを特徴とする音声信号処理装置である。
なお、前記一定時間は、前記マッチング部が前記推移点を検出する処理を１回実行するのにかかる時間である。

（２）本発明は、上述した音声信号処理装置において、前記特徴量として少なくとも音高、音量、音色変化度を用いる、ことを特徴とする。

（３）本発明は、上述した音声信号処理装置において、前記マッチング部は、リファレンスの前記一定時間の範囲に配列されている複数の楽音情報をそれぞれ１つの状態としてモデル化し、各フレームの特徴量に基づいて、各状態が任意のフレームから他の任意のフレームまで継続する確率を求め、前記一定時間内の最初の状態から最後の状態に推移する経路のうち最も確率の高い経路を検索し、この検索した経路における１の推移点を前記開始タイミング又は終了タイミングに対応づける、ことを特徴とする。

（４）本発明は、上述した音声信号処理装置において、前記経路探索は、Ｖｉｔｅｒｂｉアルゴリズムを用いて行う、ことを特徴とする。

（５）本発明は、楽曲の楽音の音高，この音高の開始タイミング及び終了タイミングを含む楽音情報を時系列に配列したリファレンスデータを入力して記憶するステップと、前記楽音を演奏又は歌唱した音声信号を入力するステップと、入力された音声信号を所定時間のフレームに分割し、各フレーム毎に音声信号の特徴量を検出するステップと、検出した特徴量を一定時間分記憶するステップと、前記リファレンスデータの各楽音情報の開始タイミング又は終了タイミングごとに、この開始タイミングまたは終了タイミングに対応する前記音声信号の楽曲の推移点を、前記バッファに記憶した前記開始タイミングまたは終了タイミングを中心とした一定時間範囲の特徴量に基づいて検出するステップと、を含むことを特徴とする音声信号処理方法である。

（６）本発明は、信号処理装置に、楽曲の楽音の音高，この音高の開始タイミング及び終了タイミングを含む楽音情報を時系列に配列したリファレンスデータを入力して記憶するステップと、前記楽音を演奏又は歌唱した音声信号を入力するステップと、入力された音声信号を所定時間のフレームに分割し、各フレーム毎に音声信号の特徴量を検出するステップと、検出した特徴量を一定時間分記憶するステップと、前記リファレンスデータの各楽音情報の開始タイミング又は終了タイミングごとに、この開始タイミングまたは終了タイミングに対応する前記音声信号の楽曲の推移点を、前記バッファに記憶した前記開始タイミングまたは終了タイミングを中心とした一定時間範囲に基づいて検出するステップと、を実行させることを特徴とする音声信号処理プログラムである。

本発明によれば、一定時間分の特徴量に基づいて、開始タイミングまたは終了タイミングに対応する音声信号の推移点が検出される。この様に、一定時間分の特徴量を用いてこの音声信号の推移点が検出されるため、複数のフレームの単位ですなわちフレーム群として特徴量を判断して、推移点を検出することができる。これによって、正確にリファレンスデータと楽音を歌唱又は演奏した音声信号との対応を取ることができる。

また、リファレンスデータの各楽音情報の開始タイミング又は終了タイミング毎に開始タイミングまたは終了タイミングに対応する音声信号の推移点が検出される。これによって、リファレンスデータと楽音を歌唱又は演奏した音声信号との対応をリアルタイムで取ることができる。

以下に、本発明の音声信号処理装置をカラオケ装置に適用した場合の実施形態を図１〜図６を参照して詳細に説明する。本実施形態にかかるカラオケ装置１は、歌唱者の歌唱をリファレンスとなる基準メロディデータとの一致度の高さで評価して採点する機能を備える。ここでの基準メロディデータは、カラオケ楽曲の楽音を正確な音高で歌唱した場合における楽音の音高，この音高の開始タイミング及び終了タイミングを含む楽音情報を時系列に配列したリファレンスデータである。ここで、歌唱音声データと歌唱者の歌唱の一致度の高さを単に比較して評価する構成では、上述したように、歌唱者が歌唱テクニックとして溜めて（ゆっくり）歌ったり、速く歌ったりした場合には、基準メロディデータとの一致度が低くなる。すなわち、歌唱者の歌唱と、基準メロディデータとの参照位置がずれてしまい、一致度が低くなる。

本実施形態にかかるカラオケ装置１では、上述した不都合を回避するために、歌唱者の歌唱スピードにかかわらず、基準メロディデータと歌唱との比較位置の対応を取る処理（対応付け処理）を行う機能を備える。

以下に、この対応付け処理について説明する。図１は、本実施形態にかかるカラオケ装置１が対応付けのために用いる基準メロディデータと音推移モデルとを示す図である。

図１で示すように、音推移モデルとは、基準メロディデータの１音（音符）を一状態としてモデル化したものである隠れマルコフモデル（ＨＭＭ）である。各状態は次の状態への遷移と自己ループを持つ。音推移モデルでは１音とともに無音状態も一状態（ステイタス）として示すが、本図では１音のみを１ステイタスとして示す。この音推移モデルと歌唱の特徴を示す特徴パラメータとを用いて、Ｖｉｔｅｒｂｉ（ビタビ）アルゴリズムを用いて対応付け処理を実行する。ここで、歌唱の特徴を示す特徴パラメータは、例えば、歌唱のスペクトル変化を示す音色変化度（デルタティンバ）や、音高（ピッチ）及び音量（エネルギ）等を用いるが、具体的にどのようなパラメータを用いるかについては詳しくは後述する。

図２は、縦軸方向に音推移モデルをとり、横軸方向を時間軸として、状態の推移例を示した図である。この対応付け処理では、歌唱者の歌唱の音声信号を２５ｍｓｅｃ毎にフレームとして切り出し、約２秒分のフレーム（約８０フレーム）の特徴パラメータに基づいて最適な歌唱の音推移経路を探索する。ここでは、フレーム数に基づく状態維持（自己ループ）確率をＰｃｏｓｔ（ｎ）として表し、各状態のコスト確率の積（対数和）が最も大きくなる音推移経路を最適経路として確定する。

コスト確率は、判断対象となる特定のフレームから後続の特定のフレームまでの各フレームに含まれる特徴パラメータに対応付けルールを当てはめて求める。この対応付けルールは、詳しくは後述するが、人が常識や経験則に基づいて設定したヒューリスティックルールである。例えば、特徴パラメータのうちデルタティンバ（音色変化度）の値が大きい場合には、音色変化が大きいことが示される。音色変化が大きい場合にはある１音から他の１音に推移しているという対応付けルールに、この特徴パラメータを当てはめる。すると、判断対象となるフレームが１音の開始時点に位置する可能性が高いことが判断される。

このようなコスト確率の計算を、各状態において、開始フレームから終了フレームまでの全てのフレームの組み合わせについて求め、このコスト確率群の中から最も積が大きくなる経路を選択すればよい。ただし、この実施形態では、Ｖｉｔｅｒｂｉアルゴリズムを用いて最適経路を探索するため、開始フレームから終了フレームまでの全てのフレームの組み合わせについてのコスト確率を求める必要はない。

なお、上述の説明の最適な音推移経路とは、実施の歌唱者の歌唱（図中（ａ）で示す）と合致した音推移経路であるということである。

以下に、上述した対応付け処理を行う機能を備えたことを特徴とする本カラオケ装置１の構成を説明する。図３は、本カラオケ装置１の構成を概略的に示すブロック図である。カラオケ装置１は、歌唱者の歌唱音声を集音するためのマイクロフォン２（以下「マイク２」と記載する）及びカラオケ楽曲を放音するためのスピーカ３を接続する。

そして、カラオケ装置１は、カラオケ楽曲を再生するための自動演奏部１１及び入力された歌唱音声をデジタル化するためのＡＤ（Analog/Digital）コンバータ１２の他に、上述した対応付け処理を行うための各種機能部であるＦＦＴ処理部１３、特徴パラメータ取得部１４、特徴パラメータバッファ１５、ルール記憶部１６、リファレンスバッファ１７及びマッチング処理部１８を備える。

自動演奏部１１は、カラオケ楽曲データを記憶する記憶部や、このカラオケ楽曲データを演奏するシーケンサ，音源等を備えており、ユーザの操作を受け付ける操作部等も備えている。自動演奏部１１は、マイク２からＡＤコンバータ１２を介して入力された歌唱者の歌唱と自動演奏したカラオケ楽曲とを合成してスピーカ３に入力する。

ＡＤコンバータ１２は、接続端子１２ａに接続されたマイク２から、接続端子１２ａを介して入力されたアナログの歌唱音声データをデジタルデータに変換してＦＦＴ処理部１３及び特徴パラメータ取得部１４に入力する。ＦＦＴ処理部１３では、入力されたサンプリングデータ列である歌唱音声データを２５ｍｓｅｃ毎に分割して高速フーリエ変換（ＦＦＴ）する。なお、高速フーリエ変換時には、有限の時間窓による誤差スペクトルを抑制するために、サンプリングデータ列に窓関数を掛ける。このＦＦＴによって得られた周波数スペクトルは、ＦＦＴ処理部１３から特徴パラメータ取得部１４に入力される。

特徴パラメータ取得部１４は、例えばＣＰＵ等で実現され、ＡＤコンバータ１２から直接に時間領域の信号波形である歌唱音声データが入力されるとともに、ＦＦＴ処理部１３から周波数領域の情報である周波数スペクトルが入力される。特徴パラメータ取得部１４は歌唱音声データ及びその周波数スペクトルから、歌唱音声データの様々な特徴を示す複数の特徴パラメータを取得する。この特徴パラメータの取得は、上記２５ｍｓｅｃのフレーム毎に行われる。

図４は、図３で示す特徴パラメータ取得部１４の構成をより詳細に示すブロック図である。特徴パラメータ取得部１４は、ＡＤコンバータ１２から入力された歌唱音声データから時間領域の特徴パラメータを割り出す時間領域情報取得部１４１およびＦＦＴ処理部１３から入力された周波数スペクトルから周波数領域の特徴パラメータを割り出す周波数領域情報取得部１４２を備えている。

時間領域情報取得部１４１は、入力された歌唱音声データをＦＦＴ処理部１３と同期した２５ｍｓｅｃ間隔のフレームに分割し、各フレームごとに時間領域の特徴パラメータを取得する。

時間領域情報取得部１４１が取得する特徴パラメータは、以下のとおりである。
ゼロクロスタイミング：Zero crossing
エネルギ：Energy
エネルギ変化度：Delta energy
持続時間（デユレーション）：Duration
ピッチ間隔：Pitch interval
ピッチ傾斜：Pitch slope
ピッチ範囲：Pitch range
ピッチ安定度：Pitch stability
等である。上記パラメータの平均及び偏差も必要に応じ取得する。なお、右側の英文表記は、図４における表記を示している。

周波数領域情報取得部１４２は、ＦＦＴ処理部１３から入力された２５ｍｓの波形の周波数スペクトルから周波数領域の特徴パラメータを取得する。周波数領域情報取得部１４２が取得する特徴パラメータは以下のとおりである。

低音領域エネルギ：LF energy
高音領域エネルギ：HF energy
フィルタバンク（４０要素）：Filter bank
ケプストラム（２４要素）：Cepstrum
スペクトル平滑度：Spectral flatness
フィルタバンク変化度：Delta filter bank
ケプストラム変化度：Delta cepstrum
音色変化度：Delta timbre
ピッチ：Pitch
ピッチ変化度：Delta pitch
ビブラート深さ：Vibrato depth
ビブラート速さ：Vibrato rate
倍音周波数：Harmonic frequency
倍音レベル：Harmonic amplitude
倍音位相：Harmonic phase
倍音安定度：Harmonic stability
純音度：Sinusoidality
等である。なお、英語表記は、各特徴パラメータの図４における表記を表す。

上記ピッチは、音声信号の基本周波数から取得され、エネルギーは音声信号の音量の瞬時値から取得される。ビブラートについては、上記エネルギーおよびピッチの時間変動を正弦関数で近似し、当該近似された正弦波の周波数をビブラート速さ(Vibrato rate)として取得し、当該近似された正弦波の最大振幅をビブラート深さ(Vibrato depth) として取得する。

音色変化度は、振幅スペクトルの対数を逆フーリエ変換を行なった値（ケプストラム）に関するフレーム間の変化量を示す値であり、周波数スペクトルの変化を良く表しているパラメータである。この音色変化度を特徴パラメータとして後述する判定に用いることにより、状態の遷移による音の変化をよりよく検出することかできる。とくに、音色変化度の特徴パラメータにより、他の特徴パラメータで検出が困難な「母音」から「母音」への音の変化をよく検出することができる。

時間領域情報取得部１４１および周波数領域情報取得部１４２で取得された特徴パラメータは、特徴パラメータバッファ１５に入力される。

特徴パラメータバッファ１５は、入力された特徴パラメータを時間情報（タイムスタンプ）を付して記憶する。この時間情報は、特徴パラメータの元データであるフレームの時間軸上の位置を表す情報である。特徴パラメータバッファ１５は、最新の２秒分の特徴パラメータのみを記憶し、古い特徴パラメータは破棄する。記憶時間は、後述のマッチング処理部１８が繰り返し実行する特徴判定処理を１回実行するのにかかる時間程度にすればよい。これにより、特徴パラメータバッファ１５は、全曲分の特徴パラメータを記憶する必要がなくなり、メモリ容量を効果的に小さくすることができる。

ルール記憶部１６は、対応付け処理において特徴パラメータで示す音声の特徴量からコスト確率を求めるためのルール（対応付けルール）を示すデータが記憶される。この対応付けルールは、人が常識や経験則に基づいて設定したヒューリスティックルールであるが、機械学習によるものであってもよい。

この対応付けルールの一例を以下に説明する。対応付けルールには、無音区間であるときに用いられる無音ルールと、有音区間であるときに用いられる音ルールとがある。

無音ルールは、例えば、「(I) 無音は有声とされるフレーム（ピッチが０でないフレーム）の割合が低い、(II)無音は分析対象となるフレーム中の先頭１０フレームの部分（あるいは区間のフレーム総数が10未満の場合は全フレームの前半分）、に３フレームを超えた有音フレームがない(III)無音は分析対象となるフレーム中の末尾１０フレームの部分（あるいは区間のフレーム総数が10未満の場合は全フレームの後ろ半分）に２，３フレームを超えた有音フレームがない」というものがある。

また、音ルールには、例えば、時間に関するルールとして、「(I) １音の開始時刻は対応する基準メロディデータの１音の開始時刻に近い、(II)音推移モデルの所定のステイタスに対応付けて設定した最短値よりは長く持続している場合には、判断するフレーム群は所定のステイタスに位置する可能性が高い、(III) 基準メロディデータの１音の持続時間と対応する持続時間である場合には、判断するフレーム群はこのデータのステイタスに位置する可能性が高い」というルールがある。

また、例えばピッチに関するルールとして、「(I) 判断対象となるフレーム群の最初と最後に有声とされるフレームが存在すると、判断対象となるフレーム群は無音のステイタスにはない、(II)最初の所定区間に２、３の無音フレーム（ピッチが０であるフレーム）が存在すると、判断対象となるフレーム群は無音のステイタスにはない、(III) 判断対象となるフレーム群の末尾の所定数のフレームと先頭の所定数のフレームとを比較すると最初の方に長いピッチセグメント（連続した有声フレーム）がある場合は、判断対象となるフレーム群は無音のステイタスにはない、(VIII)判断対象となるフレーム群の有声フレームの重心が前半のフレームに位置する場合には、判断対象となるフレーム群は無音のステイタスにはない」というルールがある。

また、例えばエネルギに関するルールとして、「(I) 判断対象となるフレーム群の最初と最後の所定区間とで、ステイタスに対応付けて設定した最小値よりエネルギが大きいフレームがあると、対応するステイタスに判断対象となるフレーム群が位置する可能性が高い、(II)判断対象となるフレーム群の平均値がステイタスに対応付けて設定した最小値よりも大きいと、対応するステイタスに判断対象となるフレーム群が位置する可能性が高い、(III) 判断対象となるフレーム群における平均値が基準メロディデータの対応する１音の平均値と近い場合には、この１音に対応するステイタスに判断対象となるフレーム群が居る可能性が高い」というルールがある。

その他のルールとして、例えば、「(I) 分析対象となるフレーム群における２音のピッチ差が、対応付けの判断対象となる基準メロディデータの２音のピッチ差と近い場合には、フレーム群はこの２音の基準メロディデータに対応するステイタスに居る可能性が高い、(II)１音の開始は、エネルギ変化が負ではない、(III) ビブラートの途中では、１音は終了しない、(IV)１音の最初と最後の位置は、音色変化度が大きい（デルタティンバが大きい）時刻位置に近い」とのルールがある。

また、「(I) ゼロクロシングの数が、少ないほど、有音である確率が高い、(II)励振傾斜の変化度（Delta Excitation Slope）が小さいほど、有音である確率が高い、(III) 全フレームの中で、有音とされるフレームの割合が多いほど、有音である確率が高い、(IV)設定した最小値より大きいエネルギーが観測されていれば、有音である確率が高い、(VI)計測されたピッチが、基準メロデイ情報の中の、対応する音のピッチに近いほど、有音である可能性が高い」というルールがある。

これらのルールには確率が付与されている。たとえば、gaussian(mean=2,var=2) にもとづいて個数から0.0から1.0の範囲の確率値が導出される。特徴パラメータが各ルールに合致する程度に応じて各ルールの確率が乗算される。これによって、コスト確率が算出される。判定ルールの設定には、当該判定に必要とされる測定の誤差がしばしばガウス分布を成すことから、ガウス分布 gaussian(mean,var) = exp(-0.5 * ((mean - x)/var) ^ 2)を使うことが合理的である。あるいは、主に計算量の節約の観点から、たとえば折線（近似直線）で判定ルールを表現するようにしても良く、ファジー論理の考え方で判定ルールを表現するように構成しても良い。さらにまた、ガウス分布と折線（近似直線）とファジー論理を区分的に組み合わせるように構成してもよい。

リファレンスバッファ１７には、自動演奏部１１から再生するカラオケ楽曲データに同期した基準メロディデータが入力され、この基準メロディデータを記憶する。また、リファレンスバッファ１７は、音推移モデル（図１を参照）を記憶する。この音推移モデルは、この基準メロディデータがリファレンスバッファに入力されたときに、この基準メロディデータに基づいてマッチング処理部１８によって生成され、リファレンスバッファ１７に記憶される。

マッチング処理部１８は、上述した対応付け処理を行うことで、最適な歌唱の音推移経路を検出する。すなわち、対応付け処理では、図１を用いて上述したように、特徴パラメータバッファ１５に特徴パラメータが記憶されている各フレーム毎に判断対象となる状態についてのコスト確率及び推移フレーム数を算出する。このコスト確率及び推移フレーム数の算出は、特徴パラメータをルール記憶部１６に記憶される対応付けルールに当てはめることで行われる。マッチング処理部１８はこの対応付け処理をリアルタイムで行う。

図５〜図７は、図３の示すカラオケ装置１が実行するリアルタイムの対応付け処理を説明するための図（その１〜その３）である。マッチング処理部１８は、リファレンスの変化タイミングから前後一秒ずつのデータを用いてマッチングを行うため、カラオケ楽曲の開始から１秒遅れて、特徴パラメータ及び対応付けルールを用いて音推移モデルの最初のステイタス１の開始時点を確定する。この最初のステイタスの開始時点の検出は、無音から有音に変化した時点であるため容易に検出することができる。ここでは、最初のステイタス１の開始時点のみが確定されて、最初のステイタス１のフレーム数（長さ）までは確定されない（図５を参照）。

そして、図６で示すように、マッチング処理部１８は、基準メロディデータを参照して、基準メロディデータの最初の１音（ステイタス１に対応する１音）の終了時（ステイタス２に対応する第２音の開始時）が到来する検出タイミングでステイタス１の終了時点を検出して確定する。ここで、基準メロディデータには、１音の開始位置（もしくは終了位置）にタイムスタンプが含まれている。このタイムスタンプは、基準メロディデータにおけるタイムスタンプを含む位置（１音の開始位置もしくは終了位置）に対応するカラオケ楽曲の位置が再生された時刻を示す。このタイムスタンプの示す時刻の１秒遅れの時刻がここでの検出タイミングとなる。

このステイタス１の終了時点の確定は、特徴パラメータバッファ１５に記憶される各フレームの特徴パラメータを用いて上述したように最適な音推移経路を探索することで行われる。ここで、特徴パラメータバッファ１５には２秒分のフレームが記憶されており、検出タイミングから前後一秒間分のフレームの特徴パラメータが記憶されている。このため、この前後一秒間分のフレームの特徴パラメータを用いて、最適な音推移経路が探索される。

本図で示すように、検出タイミングの前後一秒間分のフレーム群にステイタス２だけではなく、ステイタス３、ステイタス４と上位のステイタスに位置するフレームが含まれる場合がある。ここでは、後続のステイタスもコスト確率の判断対象とすることで、ステイタス２の終了時点、ステイタス３の開始時点・終了時点及びステイタス４の開始時点等も検出することができる。

なお、上述したように、基準メロディデータとともに特徴パラメータにもタイムスタンプが付与されている。このタイムスタンプと基準メロディデータのタイムスタンプを参照することで、検出タイミングの前後１秒間分のフレーム群が位置する可能性のあるステイタスを検出することができる。この検出したステイタスが判断対象とすべきステイタスとされる。

もっとも、ステイタス２の上位のステイタスについて判断対象となっていても、基準メロディデータのステイタス１に対応する１音の終了時では、図７で示すように、ステイタス１の終了時点（ステイタス１の開始時点からの持続時間）及びステイタス２の開始時点のみを確定して、ステイタス２の終了時点（ステイタス２の開始時点からの持続時間）を含むその他の経路を示すデータを破棄する。

この様にして、このステイタスに対応する基準メロディデータの１音の終了時に、この１音に対応するステイタスの終了位置及び１つ上位のステイタスの開始位置を確定させてゆく。図５〜図７の例では、基準メロディデータのステイタス１に対応する１音（Ｆ）の終了時点ではステイタス１の終了時点、ステイタス２に対応する１音（Ｇ♭）の終了時点ではステイタス２の終了時点、ステイタス３に対応する１音（Ｆ）の終了時点ではステイタス３の終了時点を確定させてゆく。これによって、マッチング処理部１８はリアルタイムで最適な音推移経路を探索するのである。

マッチング処理部１８は、音推移経路が確定するごとに、確定した経路を示すマッチング情報を生成する。このマッチング情報は、１音及び無音の開始タイミング及び終了タイミングを含む。

図３に戻って、カラオケ装置１は、上記構成に加えて、採点部１９と表示部２０とを更に備える。採点部１９は、マッチング処理部１８で取得したマッチング情報が入力される。これとともに、本図では図示を省略しているが、採点部１９には、自動演奏部１１から基準メロディデータが入力されるとともに、マイク２からＡＤコンバータ１２を介して歌唱音声データが入力される。採点部１９は、入力されたマッチング情報及び基準メロディデータに基づいて歌唱者の歌唱を評価する。この評価は、基準メロディデータと歌唱者の歌唱音声データのうち、マッチング情報で対応していると示されている位置どうしを比較することで行う。この比較によって、一致度が高い程歌唱に高評価がつけられる。採点部１９は、この評価を例えば１００点を満点とした得点として採点し、採点結果を表示部２０に入力する。表示部２０は、歌唱者に採点結果を表示する。

上記構成によって、本実施形態では、音色変化度を特徴パラメータとして用いてコスト確率を算出するため、正確に音素の切れ目（すなわち１音の開始・終了時点）を検出することができる。すなわち、従来のピークやエネルギのみを用いて音素の切れ目を検出する構成では限界のあった、「母音」から「母音」への音素の切れ目を、スペクトルの変化度を示すデルタティンバを用いることで高い測定精度で検出することができる。

また、最適な音推移経路を探索するために、コスト確率を用いるため、より正確に最適な音推移経路を探索することができる。

また、リアルタイムで最適な音推移経路を探索することができる。このため、例えば、リアルタイムで歌唱の採点結果を採点部１９で算出し、表示部２０に表示する構成等を採用することができる。

本実施形態は、以下の変形例を採用することができる。

（１）本実施形態では、リアルタイムで対応付け処理を行うが、これに限定されない。すなわち、基準メロディデータの終了時まで、算出された全てのコスト確率を特徴パラメータバッファ１５で記憶し、基準メロディデータの終了時に、全てのコスト確率を用いて最適な音推移経路が探索される構成であってもよい。この場合には、特徴パラメータバッファ１５の記憶容量が大きくなるが、リアルタイムで行うよりも正確に最適な音推移経路を探索することができる。

（２）本実施形態では、音声信号処理装置をカラオケ装置１に適用したが、本発明はこれに限定されない。入力された歌唱者の歌唱や演奏と基準メロディデータの対応付けを行うための装置であればどの様な装置にも適用することができる。また、本実施形態では、マッチング結果を歌唱の採点に用いているがマッチング結果の用途についてもこれに限定されるものではない。

本実施形態にかかるカラオケ装置が対応付けのために用いる基準メロディデータと音推移モデルとを示す図である。本カラオケ装置が行う歌唱と基準メロディデータとの対応付けを説明するための図である。本カラオケ装置の構成を概略的に示すブロック図である。図３で示す特徴パラメータ取得部の構成をより詳細に示すブロック図である。図３の示すカラオケ装置が実行するリアルタイムの対応付け処理を説明するための図（その１）である。図３の示すカラオケ装置が実行するリアルタイムの対応付け処理を説明するための図（その２）である。図３の示すカラオケ装置が実行するリアルタイムの対応付け処理を説明するための図（その３）である。

符号の説明

１−カラオケ装置（音声信号処理装置）１２ａ−接続端子（音声信号入力部）１３−ＦＦＴ処理部（特徴量検出部）１４−特徴パラメータ取得部（特徴量検出部）
１５−特徴パラメータバッファ（バッファ）１７−リファレンスバッファ（リファレンスデータ記憶部）１８−マッチング処理部（マッチング部）

Claims

楽曲の楽音の音高，この音高の開始タイミング及び終了タイミングを含む楽音情報を時系列に配列したリファレンスデータを入力して記憶するリファレンスデータ記憶部と、
前記楽音を演奏又は歌唱した音声信号を入力する音声信号入力部と、
入力された音声信号を所定時間のフレームに分割し、各フレーム毎に音声信号の特徴量を検出する特徴量検出部と、
検出した特徴量を一定時間分記憶するバッファと、
前記リファレンスデータの各楽音情報の開始タイミング又は終了タイミングごとに、この開始タイミングまたは終了タイミングに対応する前記音声信号の楽曲の推移点を、前記バッファに記憶した前記開始タイミングまたは終了タイミングを中心とした一定時間範囲の特徴量に基づいて検出するマッチング部と、
を備えたことを特徴とする音声信号処理装置。
前記一定時間は、前記マッチング部が前記推移点を検出する処理を１回実行するのにかかる時間である請求項１に記載の音声信号処理装置。
前記特徴量として少なくとも音高、音量、音色変化度を用いる、ことを特徴とする請求項１又は２に記載の音声信号処理装置。
前記マッチング部は、
リファレンスの前記一定時間の範囲に配列されている複数の楽音情報をそれぞれ１つの状態としてモデル化し、
各フレームの特徴量に基づいて、各状態が任意のフレームから他の任意のフレームまで継続する確率を求め、
前記一定時間内の最初の状態から最後の状態に推移する経路のうち最も確率の高い経路を検索し、
この検索した経路における１の推移点を前記開始タイミング又は終了タイミングに対応づける、ことを特徴とする請求項１〜３のいずれかに記載の音声信号処理装置。
前記経路探索は、Ｖｉｔｅｒｂｉアルゴリズムを用いて行う、
ことを特徴とする請求項１〜４のいずれかに記載の音声信号処理装置。
楽曲の楽音の音高，この音高の開始タイミング及び終了タイミングを含む楽音情報を時系列に配列したリファレンスデータを入力して記憶するステップと、
前記楽音を演奏又は歌唱した音声信号を入力するステップと、
入力された音声信号を所定時間のフレームに分割し、各フレーム毎に音声信号の特徴量を検出するステップと、
検出した特徴量を一定時間分記憶するステップと、
前記リファレンスデータの各楽音情報の開始タイミング又は終了タイミングごとに、この開始タイミングまたは終了タイミングに対応する前記音声信号の楽曲の推移点を、前記バッファに記憶した前記開始タイミングまたは終了タイミングを中心とした一定時間範囲の特徴量に基づいて検出するステップと、
を含むことを特徴とする音声信号処理方法。
信号処理装置に、
楽曲の楽音の音高，この音高の開始タイミング及び終了タイミングを含む楽音情報を時系列に配列したリファレンスデータを入力して記憶するステップと、
前記楽音を演奏又は歌唱した音声信号を入力するステップと、
入力された音声信号を所定時間のフレームに分割し、各フレーム毎に音声信号の特徴量を検出するステップと、
検出した特徴量を一定時間分記憶するステップと、
前記リファレンスデータの各楽音情報の開始タイミング又は終了タイミングごとに、この開始タイミングまたは終了タイミングに対応する前記音声信号の楽曲の推移点を、前記バッファに記憶した前記開始タイミングまたは終了タイミングを中心とした一定時間範囲に基づいて検出するステップと、
を実行させることを特徴とする音声信号処理プログラム。