JP4367436B2 - 音声信号処理装置、音声信号処理方法および音声信号処理プログラム - Google Patents

音声信号処理装置、音声信号処理方法および音声信号処理プログラム Download PDF

Info

Publication number
JP4367436B2
JP4367436B2 JP2006146867A JP2006146867A JP4367436B2 JP 4367436 B2 JP4367436 B2 JP 4367436B2 JP 2006146867 A JP2006146867 A JP 2006146867A JP 2006146867 A JP2006146867 A JP 2006146867A JP 4367436 B2 JP4367436 B2 JP 4367436B2
Authority
JP
Japan
Prior art keywords
audio signal
time
pitch
signal processing
start timing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006146867A
Other languages
English (en)
Other versions
JP2007004152A (ja
Inventor
琢哉 藤島
ボナダ ジョルディ
ロスコス アレックス
メイヤー オスカー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2006146867A priority Critical patent/JP4367436B2/ja
Publication of JP2007004152A publication Critical patent/JP2007004152A/ja
Application granted granted Critical
Publication of JP4367436B2 publication Critical patent/JP4367436B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)

Description

この発明は、楽音の音高,開始タイミング,終了タイミングを含む楽音情報を時系列に配列したリファレンスデータと、楽音を演奏または歌唱した音声信号との対応する位置を決定する音声信号処理装置に関するものである。
従来、歌唱者の歌唱をリファレンスとなる基準メロディデータとの一致度の高さで評価して採点するカラオケ装置(例えば特許文献1を参照)はカラオケ店舗等で多く用いられている。この基準メロディデータとは、カラオケ楽曲の楽音を正確な音高で歌唱した場合における楽音の音高,この音高の開始タイミング及び終了タイミングを含む楽音情報を時系列に配列したリファレンスデータである。
特開平8−63177号公報
しかしながら、上記従来のカラオケ装置では、歌唱者が歌唱テクニックとして溜めて(ゆっくり)歌ったり、速く歌ったりした場合には、基準メロディデータとの一致度が低くなり、歌唱に対する評価が低くなってしまっていた。すなわち、従来のカラオケ装置では、単に基準メロディデータと歌唱者の歌唱した音声信号とを比較するだけであった。このため、歌唱者がリファレンスと同じスピードで歌唱しなかった場合には、歌唱の音声信号と基準メロディデータとの参照位置がずれてしまう。このため、歌唱の音声信号と基準メロディデータとの一致度が低くなってしまい、歌唱に対する評価が低くなる。
本発明は、上述した課題を解決するために、歌唱者の楽音の歌唱(又は演奏)スピードにかかわらず、基準メロディデータ(リファレンス)と歌唱した音声信号との対応を正確に取ることができ、カラオケ装置に適用した場合に歌唱の正確な採点が可能な音声信号処理装置、音声信号処理方法および音声信号処理プログラムを提供することを目的としている。
上記課題を解決するために本発明では以下の手段を採用している。
(1)本発明は、楽曲の楽音の音高,この音高の開始タイミング及び終了タイミングを含む楽音情報を時系列に配列したリファレンスデータを入力して記憶するリファレンスデータ記憶部と、前記楽音を演奏又は歌唱した音声信号を入力する音声信号入力部と、入力された音声信号を所定時間のフレームに分割し、各フレーム毎に音声信号の特徴量を検出する特徴量検出部と、検出した特徴量を一定時間分記憶するバッファと、前記リファレンスデータの各楽音情報の開始タイミング又は終了タイミングごとに、この開始タイミングまたは終了タイミングに対応する前記音声信号の楽曲の推移点を前記バッファに記憶した前記開始タイミングまたは終了タイミングを中心とした一定時間範囲の特徴量に基づいて検出するマッチング部と、を備えたことを特徴とする音声信号処理装置である。
なお、前記一定時間は、前記マッチング部が前記推移点を検出する処理を1回実行するのにかかる時間である。
(2)本発明は、上述した音声信号処理装置において、前記特徴量として少なくとも音高、音量、音色変化度を用いる、ことを特徴とする。
(3)本発明は、上述した音声信号処理装置において、前記マッチング部は、リファレンスの前記一定時間の範囲に配列されている複数の楽音情報をそれぞれ1つの状態としてモデル化し、各フレームの特徴量に基づいて、各状態が任意のフレームから他の任意のフレームまで継続する確率を求め、前記一定時間内の最初の状態から最後の状態に推移する経路のうち最も確率の高い経路を検索し、この検索した経路における1の推移点を前記開始タイミング又は終了タイミングに対応づける、ことを特徴とする。
(4)本発明は、上述した音声信号処理装置において、前記経路探索は、Viterbiアルゴリズムを用いて行う、ことを特徴とする。
(5)本発明は、楽曲の楽音の音高,この音高の開始タイミング及び終了タイミングを含む楽音情報を時系列に配列したリファレンスデータを入力して記憶するステップと、前記楽音を演奏又は歌唱した音声信号を入力するステップと、入力された音声信号を所定時間のフレームに分割し、各フレーム毎に音声信号の特徴量を検出するステップと、検出した特徴量を一定時間分記憶するステップと、前記リファレンスデータの各楽音情報の開始タイミング又は終了タイミングごとに、この開始タイミングまたは終了タイミングに対応する前記音声信号の楽曲の推移点を前記バッファに記憶した前記開始タイミングまたは終了タイミングを中心とした一定時間範囲の特徴量に基づいて検出するステップと、を含むことを特徴とする音声信号処理方法である。
(6)本発明は、信号処理装置に、楽曲の楽音の音高,この音高の開始タイミング及び終了タイミングを含む楽音情報を時系列に配列したリファレンスデータを入力して記憶するステップと、前記楽音を演奏又は歌唱した音声信号を入力するステップと、入力された音声信号を所定時間のフレームに分割し、各フレーム毎に音声信号の特徴量を検出するステップと、検出した特徴量を一定時間分記憶するステップと、前記リファレンスデータの各楽音情報の開始タイミング又は終了タイミングごとに、この開始タイミングまたは終了タイミングに対応する前記音声信号の楽曲の推移点を前記バッファに記憶した前記開始タイミングまたは終了タイミングを中心とした一定時間範囲に基づいて検出するステップと、を実行させることを特徴とする音声信号処理プログラムである。
本発明によれば、一定時間分の特徴量に基づいて、開始タイミングまたは終了タイミングに対応する音声信号の推移点が検出される。この様に、一定時間分の特徴量を用いてこの音声信号の推移点が検出されるため、複数のフレームの単位ですなわちフレーム群として特徴量を判断して、推移点を検出することができる。これによって、正確にリファレンスデータと楽音を歌唱又は演奏した音声信号との対応を取ることができる。
また、リファレンスデータの各楽音情報の開始タイミング又は終了タイミング毎に開始タイミングまたは終了タイミングに対応する音声信号の推移点が検出される。これによって、リファレンスデータと楽音を歌唱又は演奏した音声信号との対応をリアルタイムで取ることができる。
以下に、本発明の音声信号処理装置をカラオケ装置に適用した場合の実施形態を図1〜図6を参照して詳細に説明する。本実施形態にかかるカラオケ装置1は、歌唱者の歌唱をリファレンスとなる基準メロディデータとの一致度の高さで評価して採点する機能を備える。ここでの基準メロディデータは、カラオケ楽曲の楽音を正確な音高で歌唱した場合における楽音の音高,この音高の開始タイミング及び終了タイミングを含む楽音情報を時系列に配列したリファレンスデータである。ここで、歌唱音声データと歌唱者の歌唱の一致度の高さを単に比較して評価する構成では、上述したように、歌唱者が歌唱テクニックとして溜めて(ゆっくり)歌ったり、速く歌ったりした場合には、基準メロディデータとの一致度が低くなる。すなわち、歌唱者の歌唱と、基準メロディデータとの参照位置がずれてしまい、一致度が低くなる。
本実施形態にかかるカラオケ装置1では、上述した不都合を回避するために、歌唱者の歌唱スピードにかかわらず、基準メロディデータと歌唱との比較位置の対応を取る処理(対応付け処理)を行う機能を備える。
以下に、この対応付け処理について説明する。図1は、本実施形態にかかるカラオケ装置1が対応付けのために用いる基準メロディデータと音推移モデルとを示す図である。
図1で示すように、音推移モデルとは、基準メロディデータの1音(音符)を一状態としてモデル化したものである隠れマルコフモデル(HMM)である。各状態は次の状態への遷移と自己ループを持つ。音推移モデルでは1音とともに無音状態も一状態(ステイタス)として示すが、本図では1音のみを1ステイタスとして示す。この音推移モデルと歌唱の特徴を示す特徴パラメータとを用いて、Viterbi(ビタビ)アルゴリズムを用いて対応付け処理を実行する。ここで、歌唱の特徴を示す特徴パラメータは、例えば、歌唱のスペクトル変化を示す音色変化度(デルタティンバ)や、音高(ピッチ)及び音量(エネルギ)等を用いるが、具体的にどのようなパラメータを用いるかについては詳しくは後述する。
図2は、縦軸方向に音推移モデルをとり、横軸方向を時間軸として、状態の推移例を示した図である。この対応付け処理では、歌唱者の歌唱の音声信号を25msec毎にフレームとして切り出し、約2秒分のフレーム(約80フレーム)の特徴パラメータに基づいて最適な歌唱の音推移経路を探索する。ここでは、フレーム数に基づく状態維持(自己ループ)確率をPcost(n)として表し、各状態のコスト確率の積(対数和)が最も大きくなる音推移経路を最適経路として確定する。
コスト確率は、判断対象となる特定のフレームから後続の特定のフレームまでの各フレームに含まれる特徴パラメータに対応付けルールを当てはめて求める。この対応付けルールは、詳しくは後述するが、人が常識や経験則に基づいて設定したヒューリスティックルールである。例えば、特徴パラメータのうちデルタティンバ(音色変化度)の値が大きい場合には、音色変化が大きいことが示される。音色変化が大きい場合にはある1音から他の1音に推移しているという対応付けルールに、この特徴パラメータを当てはめる。すると、判断対象となるフレームが1音の開始時点に位置する可能性が高いことが判断される。
このようなコスト確率の計算を、各状態において、開始フレームから終了フレームまでの全てのフレームの組み合わせについて求め、このコスト確率群の中から最も積が大きくなる経路を選択すればよい。ただし、この実施形態では、Viterbiアルゴリズムを用いて最適経路を探索するため、開始フレームから終了フレームまでの全てのフレームの組み合わせについてのコスト確率を求める必要はない。
なお、上述の説明の最適な音推移経路とは、実施の歌唱者の歌唱(図中(a)で示す)と合致した音推移経路であるということである。
以下に、上述した対応付け処理を行う機能を備えたことを特徴とする本カラオケ装置1の構成を説明する。図3は、本カラオケ装置1の構成を概略的に示すブロック図である。カラオケ装置1は、歌唱者の歌唱音声を集音するためのマイクロフォン2(以下「マイク2」と記載する)及びカラオケ楽曲を放音するためのスピーカ3を接続する。
そして、カラオケ装置1は、カラオケ楽曲を再生するための自動演奏部11及び入力された歌唱音声をデジタル化するためのAD(Analog/Digital)コンバータ12の他に、上述した対応付け処理を行うための各種機能部であるFFT処理部13、特徴パラメータ取得部14、特徴パラメータバッファ15、ルール記憶部16、リファレンスバッファ17及びマッチング処理部18を備える。
自動演奏部11は、カラオケ楽曲データを記憶する記憶部や、このカラオケ楽曲データを演奏するシーケンサ,音源等を備えており、ユーザの操作を受け付ける操作部等も備えている。自動演奏部11は、マイク2からADコンバータ12を介して入力された歌唱者の歌唱と自動演奏したカラオケ楽曲とを合成してスピーカ3に入力する。
ADコンバータ12は、接続端子12aに接続されたマイク2から、接続端子12aを介して入力されたアナログの歌唱音声データをデジタルデータに変換してFFT処理部13及び特徴パラメータ取得部14に入力する。FFT処理部13では、入力されたサンプリングデータ列である歌唱音声データを25msec毎に分割して高速フーリエ変換(FFT)する。なお、高速フーリエ変換時には、有限の時間窓による誤差スペクトルを抑制するために、サンプリングデータ列に窓関数を掛ける。このFFTによって得られた周波数スペクトルは、FFT処理部13から特徴パラメータ取得部14に入力される。
特徴パラメータ取得部14は、例えばCPU等で実現され、ADコンバータ12から直接に時間領域の信号波形である歌唱音声データが入力されるとともに、FFT処理部13から周波数領域の情報である周波数スペクトルが入力される。特徴パラメータ取得部14は歌唱音声データ及びその周波数スペクトルから、歌唱音声データの様々な特徴を示す複数の特徴パラメータを取得する。この特徴パラメータの取得は、上記25msecのフレーム毎に行われる。
図4は、図3で示す特徴パラメータ取得部14の構成をより詳細に示すブロック図である。特徴パラメータ取得部14は、ADコンバータ12から入力された歌唱音声データから時間領域の特徴パラメータを割り出す時間領域情報取得部141およびFFT処理部13から入力された周波数スペクトルから周波数領域の特徴パラメータを割り出す周波数領域情報取得部142を備えている。
時間領域情報取得部141は、入力された歌唱音声データをFFT処理部13と同期した25msec間隔のフレームに分割し、各フレームごとに時間領域の特徴パラメータを取得する。
時間領域情報取得部141が取得する特徴パラメータは、以下のとおりである。
ゼロクロスタイミング:Zero crossing
エネルギ:Energy
エネルギ変化度:Delta energy
持続時間(デユレーション):Duration
ピッチ間隔:Pitch interval
ピッチ傾斜:Pitch slope
ピッチ範囲:Pitch range
ピッチ安定度:Pitch stability
等である。上記パラメータの平均及び偏差も必要に応じ取得する。なお、右側の英文表記は、図4における表記を示している。
周波数領域情報取得部142は、FFT処理部13から入力された25msの波形の周波数スペクトルから周波数領域の特徴パラメータを取得する。周波数領域情報取得部142が取得する特徴パラメータは以下のとおりである。
低音領域エネルギ:LF energy
高音領域エネルギ:HF energy
フィルタバンク(40要素):Filter bank
ケプストラム(24要素):Cepstrum
スペクトル平滑度:Spectral flatness
フィルタバンク変化度:Delta filter bank
ケプストラム変化度:Delta cepstrum
音色変化度:Delta timbre
ピッチ:Pitch
ピッチ変化度:Delta pitch
ビブラート深さ:Vibrato depth
ビブラート速さ:Vibrato rate
倍音周波数:Harmonic frequency
倍音レベル:Harmonic amplitude
倍音位相:Harmonic phase
倍音安定度:Harmonic stability
純音度:Sinusoidality
等である。なお、英語表記は、各特徴パラメータの図4における表記を表す。
上記ピッチは、音声信号の基本周波数から取得され、エネルギーは音声信号の音量の瞬時値から取得される。ビブラートについては、上記エネルギーおよびピッチの時間変動を正弦関数で近似し、当該近似された正弦波の周波数をビブラート速さ(Vibrato rate)として取得し、当該近似された正弦波の最大振幅をビブラート深さ(Vibrato depth) として取得する。
音色変化度は、振幅スペクトルの対数を逆フーリエ変換を行なった値(ケプストラム)に関するフレーム間の変化量を示す値であり、周波数スペクトルの変化を良く表しているパラメータである。この音色変化度を特徴パラメータとして後述する判定に用いることにより、状態の遷移による音の変化をよりよく検出することかできる。とくに、音色変化度の特徴パラメータにより、他の特徴パラメータで検出が困難な「母音」から「母音」への音の変化をよく検出することができる。
時間領域情報取得部141および周波数領域情報取得部142で取得された特徴パラメータは、特徴パラメータバッファ15に入力される。
特徴パラメータバッファ15は、入力された特徴パラメータを時間情報(タイムスタンプ)を付して記憶する。この時間情報は、特徴パラメータの元データであるフレームの時間軸上の位置を表す情報である。特徴パラメータバッファ15は、最新の2秒分の特徴パラメータのみを記憶し、古い特徴パラメータは破棄する。記憶時間は、後述のマッチング処理部18が繰り返し実行する特徴判定処理を1回実行するのにかかる時間程度にすればよい。これにより、特徴パラメータバッファ15は、全曲分の特徴パラメータを記憶する必要がなくなり、メモリ容量を効果的に小さくすることができる。
ルール記憶部16は、対応付け処理において特徴パラメータで示す音声の特徴量からコスト確率を求めるためのルール(対応付けルール)を示すデータが記憶される。この対応付けルールは、人が常識や経験則に基づいて設定したヒューリスティックルールであるが、機械学習によるものであってもよい。
この対応付けルールの一例を以下に説明する。対応付けルールには、無音区間であるときに用いられる無音ルールと、有音区間であるときに用いられる音ルールとがある。
無音ルールは、例えば、「(I) 無音は有声とされるフレーム(ピッチが0でないフレーム)の割合が低い、(II)無音は分析対象となるフレーム中の先頭10フレームの部分(あるいは区間のフレーム総数が10未満の場合は全フレームの前半分)、に3フレームを超えた有音フレームがない(III)無音は分析対象となるフレーム中の末尾10フレームの部分(あるいは区間のフレーム総数が10未満の場合は全フレームの後ろ半分)に2,3フレームを超えた有音フレームがない」というものがある。
また、音ルールには、例えば、時間に関するルールとして、「(I) 1音の開始時刻は対応する基準メロディデータの1音の開始時刻に近い、(II)音推移モデルの所定のステイタスに対応付けて設定した最短値よりは長く持続している場合には、判断するフレーム群は所定のステイタスに位置する可能性が高い、(III) 基準メロディデータの1音の持続時間と対応する持続時間である場合には、判断するフレーム群はこのデータのステイタスに位置する可能性が高い」というルールがある。
また、例えばピッチに関するルールとして、「(I) 判断対象となるフレーム群の最初と最後に有声とされるフレームが存在すると、判断対象となるフレーム群は無音のステイタスにはない、(II)最初の所定区間に2、3の無音フレーム(ピッチが0であるフレーム)が存在すると、判断対象となるフレーム群は無音のステイタスにはない、(III) 判断対象となるフレーム群の末尾の所定数のフレームと先頭の所定数のフレームとを比較すると最初の方に長いピッチセグメント(連続した有声フレーム)がある場合は、判断対象となるフレーム群は無音のステイタスにはない、(VIII)判断対象となるフレーム群の有声フレームの重心が前半のフレームに位置する場合には、判断対象となるフレーム群は無音のステイタスにはない」というルールがある。
また、例えばエネルギに関するルールとして、「(I) 判断対象となるフレーム群の最初と最後の所定区間とで、ステイタスに対応付けて設定した最小値よりエネルギが大きいフレームがあると、対応するステイタスに判断対象となるフレーム群が位置する可能性が高い、(II)判断対象となるフレーム群の平均値がステイタスに対応付けて設定した最小値よりも大きいと、対応するステイタスに判断対象となるフレーム群が位置する可能性が高い、(III) 判断対象となるフレーム群における平均値が基準メロディデータの対応する1音の平均値と近い場合には、この1音に対応するステイタスに判断対象となるフレーム群が居る可能性が高い」というルールがある。
その他のルールとして、例えば、「(I) 分析対象となるフレーム群における2音のピッチ差が、対応付けの判断対象となる基準メロディデータの2音のピッチ差と近い場合には、フレーム群はこの2音の基準メロディデータに対応するステイタスに居る可能性が高い、(II)1音の開始は、エネルギ変化が負ではない、(III) ビブラートの途中では、1音は終了しない、(IV)1音の最初と最後の位置は、音色変化度が大きい(デルタティンバが大きい)時刻位置に近い」とのルールがある。
また、「(I) ゼロクロシングの数が、少ないほど、有音である確率が高い、(II)励振傾斜の変化度(Delta Excitation Slope)が小さいほど、有音である確率が高い、(III) 全フレームの中で、有音とされるフレームの割合が多いほど、有音である確率が高い、(IV)設定した最小値より大きいエネルギーが観測されていれば、有音である確率が高い、(VI)計測されたピッチが、基準メロデイ情報の中の、対応する音のピッチに近いほど、有音である可能性が高い」というルールがある。
これらのルールには確率が付与されている。たとえば、gaussian(mean=2,var=2) にもとづいて個数から0.0から1.0の範囲の確率値が導出される。特徴パラメータが各ルールに合致する程度に応じて各ルールの確率が乗算される。これによって、コスト確率が算出される。判定ルールの設定には、当該判定に必要とされる測定の誤差がしばしばガウス分布を成すことから、ガウス分布 gaussian(mean,var) = exp(-0.5 * ((mean - x)/var) ^ 2)を使うことが合理的である。あるいは、主に計算量の節約の観点から、たとえば折線(近似直線)で判定ルールを表現するようにしても良く、ファジー論理の考え方で判定ルールを表現するように構成しても良い。さらにまた、ガウス分布と折線(近似直線)とファジー論理を区分的に組み合わせるように構成してもよい。
リファレンスバッファ17には、自動演奏部11から再生するカラオケ楽曲データに同期した基準メロディデータが入力され、この基準メロディデータを記憶する。また、リファレンスバッファ17は、音推移モデル(図1を参照)を記憶する。この音推移モデルは、この基準メロディデータがリファレンスバッファに入力されたときに、この基準メロディデータに基づいてマッチング処理部18によって生成され、リファレンスバッファ17に記憶される。
マッチング処理部18は、上述した対応付け処理を行うことで、最適な歌唱の音推移経路を検出する。すなわち、対応付け処理では、図1を用いて上述したように、特徴パラメータバッファ15に特徴パラメータが記憶されている各フレーム毎に判断対象となる状態についてのコスト確率及び推移フレーム数を算出する。このコスト確率及び推移フレーム数の算出は、特徴パラメータをルール記憶部16に記憶される対応付けルールに当てはめることで行われる。マッチング処理部18はこの対応付け処理をリアルタイムで行う。
図5〜図7は、図3の示すカラオケ装置1が実行するリアルタイムの対応付け処理を説明するための図(その1〜その3)である。マッチング処理部18は、リファレンスの変化タイミングから前後一秒ずつのデータを用いてマッチングを行うため、カラオケ楽曲の開始から1秒遅れて、特徴パラメータ及び対応付けルールを用いて音推移モデルの最初のステイタス1の開始時点を確定する。この最初のステイタスの開始時点の検出は、無音から有音に変化した時点であるため容易に検出することができる。ここでは、最初のステイタス1の開始時点のみが確定されて、最初のステイタス1のフレーム数(長さ)までは確定されない(図5を参照)。
そして、図6で示すように、マッチング処理部18は、基準メロディデータを参照して、基準メロディデータの最初の1音(ステイタス1に対応する1音)の終了時(ステイタス2に対応する第2音の開始時)が到来する検出タイミングでステイタス1の終了時点を検出して確定する。ここで、基準メロディデータには、1音の開始位置(もしくは終了位置)にタイムスタンプが含まれている。このタイムスタンプは、基準メロディデータにおけるタイムスタンプを含む位置(1音の開始位置もしくは終了位置)に対応するカラオケ楽曲の位置が再生された時刻を示す。このタイムスタンプの示す時刻の1秒遅れの時刻がここでの検出タイミングとなる。
このステイタス1の終了時点の確定は、特徴パラメータバッファ15に記憶される各フレームの特徴パラメータを用いて上述したように最適な音推移経路を探索することで行われる。ここで、特徴パラメータバッファ15には2秒分のフレームが記憶されており、検出タイミングから前後一秒間分のフレームの特徴パラメータが記憶されている。このため、この前後一秒間分のフレームの特徴パラメータを用いて、最適な音推移経路が探索される。
本図で示すように、検出タイミングの前後一秒間分のフレーム群にステイタス2だけではなく、ステイタス3、ステイタス4と上位のステイタスに位置するフレームが含まれる場合がある。ここでは、後続のステイタスもコスト確率の判断対象とすることで、ステイタス2の終了時点、ステイタス3の開始時点・終了時点及びステイタス4の開始時点等も検出することができる。
なお、上述したように、基準メロディデータとともに特徴パラメータにもタイムスタンプが付与されている。このタイムスタンプと基準メロディデータのタイムスタンプを参照することで、検出タイミングの前後1秒間分のフレーム群が位置する可能性のあるステイタスを検出することができる。この検出したステイタスが判断対象とすべきステイタスとされる。
もっとも、ステイタス2の上位のステイタスについて判断対象となっていても、基準メロディデータのステイタス1に対応する1音の終了時では、図7で示すように、ステイタス1の終了時点(ステイタス1の開始時点からの持続時間)及びステイタス2の開始時点のみを確定して、ステイタス2の終了時点(ステイタス2の開始時点からの持続時間)を含むその他の経路を示すデータを破棄する。
この様にして、このステイタスに対応する基準メロディデータの1音の終了時に、この1音に対応するステイタスの終了位置及び1つ上位のステイタスの開始位置を確定させてゆく。図5〜図7の例では、基準メロディデータのステイタス1に対応する1音(F)の終了時点ではステイタス1の終了時点、ステイタス2に対応する1音(G♭)の終了時点ではステイタス2の終了時点、ステイタス3に対応する1音(F)の終了時点ではステイタス3の終了時点を確定させてゆく。これによって、マッチング処理部18はリアルタイムで最適な音推移経路を探索するのである。
マッチング処理部18は、音推移経路が確定するごとに、確定した経路を示すマッチング情報を生成する。このマッチング情報は、1音及び無音の開始タイミング及び終了タイミングを含む。
図3に戻って、カラオケ装置1は、上記構成に加えて、採点部19と表示部20とを更に備える。採点部19は、マッチング処理部18で取得したマッチング情報が入力される。これとともに、本図では図示を省略しているが、採点部19には、自動演奏部11から基準メロディデータが入力されるとともに、マイク2からADコンバータ12を介して歌唱音声データが入力される。採点部19は、入力されたマッチング情報及び基準メロディデータに基づいて歌唱者の歌唱を評価する。この評価は、基準メロディデータと歌唱者の歌唱音声データのうち、マッチング情報で対応していると示されている位置どうしを比較することで行う。この比較によって、一致度が高い程歌唱に高評価がつけられる。採点部19は、この評価を例えば100点を満点とした得点として採点し、採点結果を表示部20に入力する。表示部20は、歌唱者に採点結果を表示する。
上記構成によって、本実施形態では、音色変化度を特徴パラメータとして用いてコスト確率を算出するため、正確に音素の切れ目(すなわち1音の開始・終了時点)を検出することができる。すなわち、従来のピークやエネルギのみを用いて音素の切れ目を検出する構成では限界のあった、「母音」から「母音」への音素の切れ目を、スペクトルの変化度を示すデルタティンバを用いることで高い測定精度で検出することができる。
また、最適な音推移経路を探索するために、コスト確率を用いるため、より正確に最適な音推移経路を探索することができる。
また、リアルタイムで最適な音推移経路を探索することができる。このため、例えば、リアルタイムで歌唱の採点結果を採点部19で算出し、表示部20に表示する構成等を採用することができる。
本実施形態は、以下の変形例を採用することができる。
(1)本実施形態では、リアルタイムで対応付け処理を行うが、これに限定されない。すなわち、基準メロディデータの終了時まで、算出された全てのコスト確率を特徴パラメータバッファ15で記憶し、基準メロディデータの終了時に、全てのコスト確率を用いて最適な音推移経路が探索される構成であってもよい。この場合には、特徴パラメータバッファ15の記憶容量が大きくなるが、リアルタイムで行うよりも正確に最適な音推移経路を探索することができる。
(2)本実施形態では、音声信号処理装置をカラオケ装置1に適用したが、本発明はこれに限定されない。入力された歌唱者の歌唱や演奏と基準メロディデータの対応付けを行うための装置であればどの様な装置にも適用することができる。また、本実施形態では、マッチング結果を歌唱の採点に用いているがマッチング結果の用途についてもこれに限定されるものではない。
本実施形態にかかるカラオケ装置が対応付けのために用いる基準メロディデータと音推移モデルとを示す図である。 本カラオケ装置が行う歌唱と基準メロディデータとの対応付けを説明するための図である。 本カラオケ装置の構成を概略的に示すブロック図である。 図3で示す特徴パラメータ取得部の構成をより詳細に示すブロック図である。 図3の示すカラオケ装置が実行するリアルタイムの対応付け処理を説明するための図(その1)である。 図3の示すカラオケ装置が実行するリアルタイムの対応付け処理を説明するための図(その2)である。 図3の示すカラオケ装置が実行するリアルタイムの対応付け処理を説明するための図(その3)である。
符号の説明
1−カラオケ装置(音声信号処理装置) 12a−接続端子(音声信号入力部) 13−FFT処理部(特徴量検出部) 14−特徴パラメータ取得部(特徴量検出部)
15−特徴パラメータバッファ(バッファ) 17−リファレンスバッファ(リファレンスデータ記憶部) 18−マッチング処理部(マッチング部)

Claims (7)

  1. 楽曲の楽音の音高,この音高の開始タイミング及び終了タイミングを含む楽音情報を時系列に配列したリファレンスデータを入力して記憶するリファレンスデータ記憶部と、
    前記楽音を演奏又は歌唱した音声信号を入力する音声信号入力部と、
    入力された音声信号を所定時間のフレームに分割し、各フレーム毎に音声信号の特徴量を検出する特徴量検出部と、
    検出した特徴量を一定時間分記憶するバッファと、
    前記リファレンスデータの各楽音情報の開始タイミング又は終了タイミングごとに、この開始タイミングまたは終了タイミングに対応する前記音声信号の楽曲の推移点を前記バッファに記憶した前記開始タイミングまたは終了タイミングを中心とした一定時間範囲の特徴量に基づいて検出するマッチング部と、
    を備えたことを特徴とする音声信号処理装置。
  2. 前記一定時間は、前記マッチング部が前記推移点を検出する処理を1回実行するのにかかる時間である請求項1に記載の音声信号処理装置。
  3. 前記特徴量として少なくとも音高、音量、音色変化度を用いる、ことを特徴とする請求項1又は2に記載の音声信号処理装置。
  4. 前記マッチング部は、
    リファレンスの前記一定時間の範囲に配列されている複数の楽音情報をそれぞれ1つの状態としてモデル化し、
    各フレームの特徴量に基づいて、各状態が任意のフレームから他の任意のフレームまで継続する確率を求め、
    前記一定時間内の最初の状態から最後の状態に推移する経路のうち最も確率の高い経路を検索し、
    この検索した経路における1の推移点を前記開始タイミング又は終了タイミングに対応づける、ことを特徴とする請求項1〜3のいずれかに記載の音声信号処理装置。
  5. 前記経路探索は、Viterbiアルゴリズムを用いて行う、
    ことを特徴とする請求項1〜のいずれかに記載の音声信号処理装置。
  6. 楽曲の楽音の音高,この音高の開始タイミング及び終了タイミングを含む楽音情報を時系列に配列したリファレンスデータを入力して記憶するステップと、
    前記楽音を演奏又は歌唱した音声信号を入力するステップと、
    入力された音声信号を所定時間のフレームに分割し、各フレーム毎に音声信号の特徴量を検出するステップと、
    検出した特徴量を一定時間分記憶するステップと、
    前記リファレンスデータの各楽音情報の開始タイミング又は終了タイミングごとに、この開始タイミングまたは終了タイミングに対応する前記音声信号の楽曲の推移点を前記バッファに記憶した前記開始タイミングまたは終了タイミングを中心とした一定時間範囲の特徴量に基づいて検出するステップと、
    を含むことを特徴とする音声信号処理方法。
  7. 信号処理装置に、
    楽曲の楽音の音高,この音高の開始タイミング及び終了タイミングを含む楽音情報を時系列に配列したリファレンスデータを入力して記憶するステップと、
    前記楽音を演奏又は歌唱した音声信号を入力するステップと、
    入力された音声信号を所定時間のフレームに分割し、各フレーム毎に音声信号の特徴量を検出するステップと、
    検出した特徴量を一定時間分記憶するステップと、
    前記リファレンスデータの各楽音情報の開始タイミング又は終了タイミングごとに、この開始タイミングまたは終了タイミングに対応する前記音声信号の楽曲の推移点を前記バッファに記憶した前記開始タイミングまたは終了タイミングを中心とした一定時間範囲に基づいて検出するステップと、
    を実行させることを特徴とする音声信号処理プログラム。
JP2006146867A 2005-05-26 2006-05-26 音声信号処理装置、音声信号処理方法および音声信号処理プログラム Expired - Fee Related JP4367436B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006146867A JP4367436B2 (ja) 2005-05-26 2006-05-26 音声信号処理装置、音声信号処理方法および音声信号処理プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005154737 2005-05-26
JP2006146867A JP4367436B2 (ja) 2005-05-26 2006-05-26 音声信号処理装置、音声信号処理方法および音声信号処理プログラム

Publications (2)

Publication Number Publication Date
JP2007004152A JP2007004152A (ja) 2007-01-11
JP4367436B2 true JP4367436B2 (ja) 2009-11-18

Family

ID=37689785

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006146867A Expired - Fee Related JP4367436B2 (ja) 2005-05-26 2006-05-26 音声信号処理装置、音声信号処理方法および音声信号処理プログラム

Country Status (1)

Country Link
JP (1) JP4367436B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5593608B2 (ja) * 2008-12-05 2014-09-24 ソニー株式会社 情報処理装置、メロディーライン抽出方法、ベースライン抽出方法、及びプログラム
GB201802440D0 (en) * 2018-02-14 2018-03-28 Jukedeck Ltd A method of generating music data

Also Published As

Publication number Publication date
JP2007004152A (ja) 2007-01-11

Similar Documents

Publication Publication Date Title
KR100949872B1 (ko) 악곡 연습 지원 장치, 악곡 연습 지원 장치의 제어 방법, 악곡 연습 지원 장치를 제어하는 제어 방법을 컴퓨터로 실행시키는 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체
US5521324A (en) Automated musical accompaniment with multiple input sensors
CN109979488B (zh) 基于重音分析的人声转乐谱系统
US8859872B2 (en) Method for giving feedback on a musical performance
JP4205824B2 (ja) 歌唱評価装置およびカラオケ装置
US20180357920A1 (en) Tuning estimating apparatus, evaluating apparatus, and data processing apparatus
JP4479701B2 (ja) 楽曲練習支援装置、動的時間整合モジュールおよびプログラム
US8013231B2 (en) Sound signal expression mode determining apparatus method and program
JP5790496B2 (ja) 音響処理装置
Wong et al. Automatic lyrics alignment for Cantonese popular music
JP5747562B2 (ja) 音響処理装置
JP4367437B2 (ja) 音声信号処理装置、音声信号処理方法および音声信号処理プログラム
JP4367436B2 (ja) 音声信号処理装置、音声信号処理方法および音声信号処理プログラム
JP4900017B2 (ja) ビブラート検出装置、ビブラート評価装置、ビブラート検出方法、ビブラート評価方法およびプログラム
JP6098422B2 (ja) 情報処理装置、及びプログラム
JP2011022489A (ja) 音高認識方法、音高認識プログラム、記録媒体、及び音高認識システム
JP2008040260A (ja) 楽曲練習支援装置、動的時間整合モジュールおよびプログラム
Ikemiya et al. Transferring vocal expression of f0 contour using singing voice synthesizer
JP6075314B2 (ja) プログラム,情報処理装置,及び評価方法
JP5810947B2 (ja) 発声区間特定装置、音声パラメータ生成装置、及びプログラム
JP6075313B2 (ja) プログラム,情報処理装置,及び評価データ生成方法
JP4048249B2 (ja) カラオケ装置
JP5585320B2 (ja) 歌唱音声評価装置
JP2008040258A (ja) 楽曲練習支援装置、動的時間整合モジュールおよびプログラム
JP6365483B2 (ja) カラオケ装置,カラオケシステム,及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090417

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090511

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090709

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090709

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090804

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090817

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120904

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130904

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees