JP2013140234A

JP2013140234A - 音響処理装置

Info

Publication number: JP2013140234A
Application number: JP2011290276A
Authority: JP
Inventors: Takafumi Tanaka; 啓文田中; Jose Bosch Vincent Van; ホセボシュビセントファン; Kazunobu Kondo; 多伸近藤
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2011-12-29
Filing date: 2011-12-29
Publication date: 2013-07-18
Anticipated expiration: 2031-12-29
Also published as: JP5790496B2

Abstract

【課題】共通の楽曲の音響信号と楽曲情報とを時間軸上においてより高い精度で同期させることを可能にする。
【解決手段】共通の楽曲についての音響信号と楽曲情報とから、前者における主旋律の基本周波数の時間変動を表す第１の時系列データと、後者の主旋律における基本周波数の時間変動を表す第２の時系列データとを生成し、両時系列データに基づいて楽曲情報と音響信号とにおいて互いに対応する音の発音タイミングの時間差を適応フィルタ処理により算定し、その時間差が解消されるように楽曲情報と音響信号の何れか一方を補正する音響処理装置を提供する。
【選択図】図１

Description

この発明は、共通の楽曲を表す音響信号と楽曲情報の同期再生技術に関する。

この種の技術の一例としては、特許文献１に開示された技術が挙げられる。特許文献１には、歌唱曲の伴奏音の時間波形を表す音響信号と、同曲の各パートを構成する音符の音高および発音タイミングと主旋律の音符に合わせて歌唱する歌詞とを示すデータからなる楽曲情報を時間軸上において同期させ、伴奏音の発音に同期させて歌詞を表示するカラオケ装置の記載がある。この特許文献１に開示されたカラオケ装置では、楽曲情報の再生を音響信号の再生に同期させるために、楽曲情報の表す曲の長さと音響信号の表す曲の長さとを比較し、前者が後者に一致するように楽曲情報の再生テンポを調整している。

特開２００４−２１２４７３号公報特開２００１−１２５５６２号公報

しかし、特許文献１に開示された技術では、楽曲情報の再生テンポの調整のみで音響信号の再生と楽曲情報の再生とを同期させようとしているため、楽曲情報において、音響信号の各部と同時刻に再生されるべき各部が同時刻に再生されず、曲の再生と歌詞の表示とが一致しない事態が発生するといった問題がある。
本発明は上記課題に鑑みて為されたものであり、共通の楽曲の音響信号と楽曲情報とを時間軸上においてより高い精度で同期させることを可能にする技術を提供することを目的とする。

上記課題を解決するために本発明は、楽曲の楽音の時間波形を表す音響信号を解析し、前記楽曲における音の並びについての基本周波数の時間変動を表す第１の時系列データを生成する第１の時系列データ生成手段と、前記楽曲を構成するパート毎に当該パートを構成する音符の音高と発音タイミングとを表すデータをその発音順に配列した楽曲情報を解析し、前記音の並びについての基本周波数の時間変動を表す第２の時系列データを生成する第２の時系列データ生成手段と、前記楽曲情報を解析し、前記音の並びを構成する音の各時刻における発音確率を表すとともに、当該音が緩やかに立上ること、または当該音が緩やかに立下がることの少なくとも一方を表す第３の時系列データを生成する第３の時系列データ生成手段と、前記第１、第２および第３の時系列データに基づいて、前記楽曲情報と前記音響信号とにおける互いに対応する音の発音タイミングの時間差を算定し、その時間差が解消されるように前記楽曲情報と前記音響信号の何れか一方を補正する補正手段と、を有することを特徴とする音響処理装置、またはコンピュータを上記各手段として機能させることを特徴とするプログラムを提供する。

ここで、上記時間差の算定態様としては、第１および第２の時系列データの相互相関係数を算出する態様も勿論考えられるが、以下に述べる適応フィルタ処理を利用する態様が格別に好適である。すなわち、第１の時系列データへの当該フィルタ係数列の畳み込み結果が第２の時系列データと一致するものとなるように定められるフィルタ係数列に基づいて発音タイミングの時間差を算定する処理を、音の立ち上がりまたは立下りの少なくとも一方において周波数が徐々に変化するように前記第３の時系列データに基づく制御を行いつつ実行する態様である。後述するように、第１の時系列データの表すピッチ軌跡は周波数が連続的に変化する波形となる一方、第２の時系列データの表すピッチ軌跡は音の立上がりおよび立下りにおいて波形が急峻に変化する矩形波状となる。このような波形の相違があるため上記時間差を精度良く算定することは難しいのであるが、上記のように音の立ち上がりまたは立下りの少なくとも一方において周波数が徐々に変化するように制御しつつ上記適応フィルタ処理を実行することで、上記時間差を精度良く算定することが可能になる。加えて、相互相関係数を利用して上記時間差を算出する態様では概ね数十秒分の第１および第２の時系列データの算出し、それら時系列データに基づいて相互相関係数を算出することが必要となるが、上記適応フィルタ処理を利用する態様では相互相関係数を利用する態様に比較してより少ない数の第１および第２の時系列データを用いて上記時間差を算定することが可能になる。なお、上記適応フィルタ処理を実際に実行して上記時間差を算出しても良く、また、上記適応フィルタ処理を行うことによって上記フィルタ係数列はWiener-Hopf解に近づくことが知られているから、Wiener-Hopf解を示す数式を直接数値演算して上記フィルタ係数列を算出しても良い。要は、上記適応フィルタ処理により定まるフィルタ係数列に基づいて上記時間差を算出する態様であれば良い。

より好ましい態様としては、前記第１の時系列データ生成手段は、前記音響信号を所定時間ずつ区画して得られる単位区間毎に当該単位区間の音響信号の基本周波数の候補を複数特定する周波数検出手段と、前記単位区間の各々について前記周波数検出手段により特定された複数の候補のうちから選択した基本周波数を複数の単位区間にわたり配列した系列であって前記音響信号における前記音の並びの基本周波数に該当する可能性が高い推定系列を、当該音の並びを構成する音の尤度に基づくビタビアルゴリズム処理により特定し、当該推定系列に基づいて前記第１の時系列データを生成する基本周波数解析手段と、を含み、前記基本周波数解析手段は、前記第３の時系列データの表す確率にしたがって各単位区間における前記尤度を補正しつつ前記ビタビアルゴリズム処理を実行して前記推定系列を特定する態様が考えられる。例えば上記音の並びが主旋律である場合には、従来のビタビアルゴリズム処理では、上記尤度として主旋律らしさを表す特徴量（歌唱曲であれば、歌唱音がその主旋律を奏でるのであるから、歌唱音らしさを表すＭＦＣＣなど）に基づいて主旋律の音の有無を表す確率を用いることが一般的であった。これに対して本態様では、全く別個独立の観点から上記音の並びを構成する音の有無を表す確率を用いて上記尤度が補正され、ビタビアルゴリズム処理による演算結果の信頼度をより高くすることが可能になり、音響信号の表す音の並び（例えば、主旋律）における基本周波数の時間波形（或いは当該時間波形を表す第１の時系列データ）をより高い精度で求めることが可能になる。

また、別の好ましい態様としては、テンポを音響信号におけるものと同じにする補正を楽曲情報に施し、当該補正後の楽曲情報から第２の時系列データを生成する処理を第２の時系列データ生成手段に実行させる態様が考えられる。楽曲の歌唱音や演奏音を表す音響信号では、演出効果を狙って歌唱或いは演奏のテンポが途中で変動していることがあり、このような場合には、第３の時系列データに基づく制御を行いつつ適応フィルタ処理を行ったとしても、上記時間差を精度良く算定することができない場合がある。本態様においては、楽曲情報のテンポを音響信号のテンポに揃える補正を当該楽曲情報に施した後に、当該補正後の楽曲情報から第２の時系列データが生成され、当該第２の時系列データと第１の時系列データとに基づいて楽曲情報と音響信号とにおける互いに対応する音の発音タイミングの時間差が補正される。このため、本態様によれば、共通の楽曲の楽曲情報と音響信号とにおいて、音響信号における歌唱または演奏のテンポが途中で変動していたとしても、両者を時間軸上において精度良く同期させることが可能になる。

ここで、楽曲情報のテンポを音響信号のテンポに揃える補正の具体的な実現態様としては、前記楽曲情報の表す前記音の並びにおける音の時間波形を所定時間分の単位区間に区画するとともに前記音響信号を同単位区間に区画し、前者の各単位区間と後者の各単位区間とについて波形の特徴が同一のまたは類似するもの同士をＤＰマッチングによって対応付ける対応付け手段を第２の時系列データ生成手段に設け、前記対応付け手段による対応付けの結果に基づいてテンポを前記音響信号に合わせる処理を前記第２の時系列データ生成手段に実行させ、その処理結果に基づいて前記第２の時系列データを生成させる態様が考えられる。

また、上記対応付け手段による対応付けの具体的な態様としては、音響信号の各単位区間から各々の要素が１２音階の各音の発音の有無を表す１２次元ベクトルであるクロマベクトルを算出するとともに、楽曲情報を解析して単位区間毎にクロマベクトルを算出し、後者のクロマベクトルと前者のクロマベクトルとを各単位区間における波形の特徴を表す特徴量としてＤＰマッチングを実行する態様が考えられる。具体的には、楽曲情報の表すパートの各々について単位区間毎にクロマベクトルを算出し、各単位区間において各パートのクロマベクトルを重み付け加算して、音響信号から算出したクロマベクトルとのＤＰマッチングを行うとともに、重み付け加算においては前記音の並びに対応するパートの重みを最も重くするようにすれば良い。また、楽曲情報から算出されるクロマベクトルに対して、音の立上りにおいて当該音に対応する要素が徐々に表れるようにする補正、または音の立下りにおいて当該音に対応する要素が徐々に消えるようにする補正の少なくとも一方を第３の時系列データにしたがって施し、当該補正後のクロマベクトルを用いて音響信号から算出したクロマベクトルとのＤＰマッチングを行うようにしても良い。

また、上記課題を解決するために本発明は、楽曲の楽音の時間波形を表す音響信号を解析し、当該音響信号が表す音の並びにおける基本周波数の時間変動を表す第１の時系列データを生成する第１の時系列データ生成手段と、前記楽曲を構成するパート毎に当該パートを構成する音符の音高と発音タイミングとを表すデータをその発音順に配列した楽曲情報を解析し、前記音の並びに対応するパートにおける基本周波数の時間変動を表す第２の時系列データを生成する第２の時系列データ生成手段と、前記第２の時系列データと前記第１の時系列データとに基づいて前記楽曲情報と前記音響信号とにおける互いに対応する音の発音タイミングの時間差を算定し、その時間差が解消されるように前記楽曲情報と前記音響信号の何れか一方を補正する補正手段と、を有し、前記補正手段は、前記第１の時系列データへの当該フィルタ係数列の畳み込み結果が前記第２のデータ列と一致するものとなるように定められるフィルタ係数列に基づいて前記時間差を算定することを特徴とする音響処理装置、またはコンピュータを上記各手段として機能させることを特徴とするプログラム、を提供する。このような態様によれば、相互相関係数を利用して上記時間差を算定する場合に比較して、より少ない数の第１および第２の時系列データを用いて上記時間差を算定し、その補正を行うことが可能になる。

また、上記課題を解決するために本発明は、楽曲情報を解析し、当該楽曲情報の表す楽曲における音の並びを構成する音についての各時刻における発音確率を表すとともに、当該音が緩やかに立上ることまたは当該音が緩やかに立下がることの少なくとも一方を表す時系列データを生成する時系列データ生成手段と、前記楽曲の楽音の時間波形を表す音響信号を所定時間分ずつ区画して得られる単位区間毎に複数の基本周波数を特定する周波数検出手段と、前記単位区間の各々について前記周波数検出手段により特定された複数の基本周波数から選択した基本周波数を複数の単位区間にわたり配列した系列であって前記音響信号における前記音の並びの基本周波数に該当する可能性が高い推定系列を、当該音の並びを構成する音の尤度を用いたビタビアルゴリズム処理により特定し、当該推定系列に基づいて前記音響信号における前記音の並びの基本周波数の時間変動を表す時系列データを生成する基本周波数解析手段と、を有し、前記基本周波数解析手段は、前記時系列データ生成手段により生成された時系列データの表す確率にしたがって前記各単位区間における前記尤度を補正しつつ前記ビタビアルゴリズム処理を実行して前記推定系列を特定することを特徴とする音響処理装置、またはコンピュータを上記各手段として機能させることを特徴とするプログラム、を提供する。このような態様によれば、音響信号における音の並びの基本周波数の時間波形を従来よりも高い精度で特定することが可能になる。

また、上記課題を解決するために本発明は、楽曲を構成するパート毎に当該パートを構成する音符の音高と発音タイミングとを表すデータをその発音順に配列した楽曲情報を解析し、当該楽曲情報の表す楽曲における音の並びを構成する音についての各時刻における発音確率を表すとともに当該音が緩やかに立上ることまたは当該音が緩やかに立下がることの少なくとも一方を表す時系列データを生成する時系列データ生成手段と、前記楽曲情報の表す前記音の並びにおける音の時間波形を所定時間分の単位区間に区画するとともに前記楽曲の音の時間波形を表す音響信号を同単位区間に区画し、前者の各単位区間と後者の各単位区間とについて波形の特徴が同一のまたは類似するもの同士をＤＰマッチングによって対応付ける対応付け手段と、前記対応付け手段による対応付けの結果に基づいてテンポを前記音響信号に合わせる処理を前記楽曲情報に施す楽曲情報補正手段と、を有し、前記対応付け手段は、前記音響信号の各単位区間から各々の要素が１２音階の各音の発音の有無を表す１２次元ベクトルであるクロマベクトルを算出するとともに、前記楽曲情報を解析して単位区間毎にクロマベクトルを算出し、後者のクロマベクトルに対して音の立上りにおいて当該音に対応する要素が徐々に表れるようにする補正、または音の立下りにおいて当該音に対応する要素が徐々に消えるようにする補正の少なくとも一方を前記時系列データにしたがって施し、当該補正後のクロマベクトルを用いて前記音響信号から算出したクロマベクトルとのＤＰマッチングを行うことを特徴とする音響処理装置、またはコンピュータを上記各手段として機能させることを特徴とするプログラム、を提供する。このような態様によれば、共通の楽曲を表す音響信号のテンポに楽曲情報のテンポを揃えることが可能になる。

この発明の第１実施形態の音響処理装置１００Ａの構成例を示す図である。同実施形態における遅延量算定処理を説明するための図である。同実施形態における第１ピッチ軌跡生成部２２０の構成を示すブロック図である。同実施形態における基本周波数解析部３３の構成を示すブロック図である。同実施形態における周波数検出部６２の動作を示すフローチャートである。同実施形態において帯域成分を生成する窓関数の模式図である。同実施形態における周波数検出部６２の動作を示す図である。同実施形態において周波数検出部６２が基本周波数を検出する動作を示す図である。同実施形態における指標算定部６４の動作を示すフローチャートである。同実施形態において指標算定部６４が特徴量（ＭＦＣＣ）を抽出する動作を示す図である。同実施形態における第１処理部７１の動作を示すフローチャートである。同実施形態において第１処理部７１が単位区間毎に候補周波数を選択する処理を示す図である。同実施形態における第１処理部７１の処理に適用される確率を説明する図である。同実施形態における第１処理部７１の処理に適用される確率を説明する図である。同実施形態における第２処理部７２の動作を示すフローチャートである。同実施形態において第２処理部７２が単位区間毎に目標成分の有無を判定する処理を説明する図である。同実施形態における第２処理部７２の処理に適用される確率を説明する図である。同実施形態における第２処理部７２の処理に適用される確率を説明する図である。同実施形態における第２処理部７２の処理に適用される確率を説明する図である。この発明の第２実施形態の音響処理装置１００Ｂの構成例を示す図である。同実施形態において確率軌跡算定部２２８により算定される確率軌跡曲線を説明する図である。同実施形態において遅延量算定部２４４が実行する適応フィルタ処理を説明する図である。この発明の第３実施形態の音響処理装置１００Ｃの構成例を示す図である。同実施形態における第１ピッチ軌跡生成部２４０の構成例を示す図である。この発明の第４実施形態の音響処理装置１００Ｄの構成例を示す図である。同実施形態における第２ピッチ軌跡生成部２４２の構成例を示すブロック図である。同実施形態における複数の音響信号の相互間の対応を示す対応テーブルＴ_ＢＬ１の模式図である。同実施形態における同期点検出部５２の動作を示すフローチャートである。同実施形態における基準点を特定する動作を示すフローチャートである。同実施形態における同期点検出部５２の動作を説明する図である。同実施形態における同期点検出部５２の詳細な動作を示すフローチャートである。同実施形態における区間対照部５４の動作を説明するための模式図である。

以下、図面を参照しつつ本発明の実施形態について説明する。
（Ａ：第１実施形態）
図１は、本発明の第１実施形態の音響処理装置１００Ａの構成例を示す図である。図１に示すように、音響処理装置１００Ａには信号供給装置２００が接続される。信号供給装置２００は、相異なる音源が発音した複数の音響成分（歌唱音や伴奏音）の混合音の時間波形を表現する音響信号ｘを音響処理装置１００Ａに供給する。周囲の音響を収音して音響信号ｘを生成する収音機器や、可搬型または内蔵型の記録媒体（例えばＣＤ）から音響信号ｘを取得して音響処理装置１００Ａに供給する再生装置や、通信網から音響信号ｘを受信して音響処理装置１００Ａに供給する通信装置が信号供給装置２００として採用され得る。

音響処理装置１００Ａは、信号供給装置２００から供給される音響信号ｘと、この音響信号ｘにより音の時間波形が表される楽曲についての楽曲情報ＤＭとにおいて互いに対応する音の発音タイミングの時間差を補正し、音響信号ｘと楽曲情報ＤＭとを時間軸上において同期させる装置である。ここで、楽曲情報ＤＭとは、楽曲を構成するパート毎に当該パートを構成する各音符の音高を時系列に指定する情報である。例えば、音符の音高を指定するイベントデータ（ノートオンイベント）と各イベントデータの処理の時点を指定するタイミングデータとを楽曲のパート毎に時系列に配列したＳＭＦ（Standard MIDI File）形式またはＳＭＡＦ（Synthetic music
Mobile Application Format）の時系列データが楽曲情報ＤＭとして好適である。

図１に示すように、音響処理装置１００Ａは、演算処理装置２２Ａと記憶装置２４とを具備するコンピュータシステムで実現される。記憶装置２４は、演算処理装置２２Ａが実行するプログラムや演算処理装置２２Ａが使用する各種の情報を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体が記憶装置２４として任意に採用される。図１に示すように、記憶装置２４は、演算処理装置２２Ａが使用する情報の一つとして楽曲情報ＤＭを記憶しており、この楽曲情報ＤＭを演算処理装置２２Ａへ供給する。なお、音響信号ｘを記憶装置２４に格納した構成（したがって、信号供給装置２００は省略される）や、信号供給装置２００によって楽曲情報ＤＭを音響処理装置１００Ａへ供給する構成も採用され得る。

演算処理装置２２Ａは、記憶装置２４に格納されたプログラムを実行することで、共通の楽曲についての音響信号ｘと楽曲情報ＤＭとを時間軸上で同期させるための複数の機能、すなわち、第１ピッチ軌跡生成部２２０、第２ピッチ軌跡生成部２２２、遅延量算定部２２４、および遅延補正部２２６を実現する。なお、演算処理装置２２Ａの各機能を複数の集積回路に分散した構成や、専用の電子回路（ＤＳＰ）が各機能を実現する構成も採用され得る。

第１ピッチ軌跡生成部２２０には音響信号ｘが与えられる。第１ピッチ軌跡生成部２２０は、音響信号ｘの表す音における主旋律（メロディ）の基本周波数の時間波形（以下、第１のピッチ軌跡）を表す時系列データｘ（ｎ）を当該音響信号ｘを解析して生成し、遅延量算定部２２４に与える第１の時系列データ生成手段として機能する。より詳細に説明すると、第１ピッチ軌跡生成部２２０は、音響信号ｘを所定時間長ずつ区画して得られる各単位区間Ｔｕについて主旋律（例えば、歌唱音）を構成する音の基本周波数Ｆｔａｒの値を表す周波数情報ＤＦを生成し、これら周波数情報ＤＦを時系列データｘ（ｎ）として出力する。なお、記号ｎは時系列データｘ（ｎ）の抽出元となった単位区間Ｔｕを示すインデックスである。複数の単位区間Ｔｕのなかには、主旋律の音を含んでいない（すなわち、主旋律が発音されていない）ものが有り得る。第１ピッチ軌跡生成部２２０は、主旋律の音を含んでいない単位区間Ｔｕについては基本周波数Ｆｔａｒの値がゼロであることを示す周波数情報ＤＦを生成する。単位区間Ｔｕから特定の音響成分（以下「目標成分」、本実施形態では目標成分は主旋律である）の基本周波数を抽出する方法について種々の態様が考えられる。この第１ピッチ軌跡生成部２２０の具体的な構成および動作については後に明らかにする。

第２ピッチ軌跡生成部２２２は、楽曲情報ＤＭにしたがって発音される音のうち主旋律を構成する音の基本周波数の時間波形（以下、第２のピッチ軌跡）を表す時系列データｄ（ｎ）を楽曲情報ＤＭを解析して生成し、遅延量算定部２２４に与える第２の時系列データ生成手段として機能する。より詳細に説明すると、第２ピッチ軌跡生成部２２２は、楽曲情報ＤＭの主旋律パートに含まれているイベントデータおよびタイミングデータを参照して主旋律の基本周波数の時間変動を表すピッチ軌跡を生成し、このピッチ軌跡を単位区間Ｔｕの時間長に応じたサンプリング周期でサンプリングして時系列データｄ（ｎ）を生成する。

遅延量算定部２２４は、Ｎ個の単位区間Ｔｕについての時系列データｘ（ｎ）および時系列データｄ（ｎ）を受け取ったことを契機として、音響信号ｘと楽曲情報ＤＭとにおける互いに対応する音の発音タイミングの時間差（本実施形態では、前者を基準とした場合の後者の遅延量）Ｄを算定する処理を実行する。従来、当該時間差の算定方法としては、時系列データｘ（ｎ）と時系列データｄ（ｎ）の相互相関係数を利用する方法が用いられることが多かった。これに対して、本実施形態では、図２（ａ）に示す適応フィルタ処理を実行することで上記時間差が算定される。図２（ａ）を参照すれば明らかなように、この適応フィルタ処理は、時系列データｘ（ｎ）をフィルタ係数列ｗ（ｉ）のＦＩＲフィルタに入力して得られる信号ｙ（ｎ）と参照信号ｄ（ｎ）との誤差信号ｅ（ｎ）が最小になるよう係数列ｗ（ｉ）を更新する処理である。遅延量算定部２２４は、このようして算定されるフィルタ係数列ｗ（ｉ）のうちの最大のもののインデックスを時系列データｘ（ｎ）に対する時系列データｄ（ｎ）の遅延量Ｄとして特定し、当該遅延量Ｄを遅延補正部２２６に与える。例えば、行列Ｗを構成する成分のうちｋ行１列成分ｗ（ｋ）が最大であった場合には、遅延量算定部２２４は、時系列データｘ（ｎ）に対する時系列データｄ（ｎ）の遅延量Ｄとしてｋを遅延補正部２２６に与える。この遅延量Ｄ（＝ｋ）は、時系列データｘ（ｎ−ｋ）と時系列データｄ（ｎ）とが対応していることを意味している。

図２（ａ）に示す適応フィルタ処理を実行することで、音響信号ｘと楽曲情報ＤＭとにおける互いに対応する音の発音タイミングの時間差を算定することができる理由は以下の通りである。まず、図２（ｂ）に示すように、時系列データｘ（ｎ）を未知のシステムに入力しその出力信号として時系列データｄ（ｎ）が得られると仮定し、上記未知のシステムが係数列ｗ（１）〜ｗ（Ｎ）のＦＩＲフィルタにより表現されると仮定する。すると、上記未知のシステムの出力信号ｙ（ｎ）は以下の数式（１）のように表すことができる。数式（１）から理解されるように、係数列ｗ（ｉ）には、ｘ（ｎ）に対するｙ（ｎ）の遅延の情報が含まれていることが期待される。

ここで、係数列ｗ（１）〜ｗ（Ｎ）を適応フィルタ処理（図２（ａ）参照）により求めると、この係数列ｗ（ｉ）は以下の数式（２Ａ）または数式（２Ｂ）に示すWiener-Hopf解に近づくことが知られている。数式（２Ａ）および数式（２Ｂ）において記号Ｗは係数列ｗ（ｉ）に対応するＮ行１列行列を意味し、記号Ｐは時系列データｘ（ｎ）と時系列データｄ（ｎ）との相互相関ベクトル（Ｎ行１列の行列）を意味し、数式（２Ａ）の記号Ｒは時系列データｘ（ｎ）の自己相関行列（Ｎ行Ｎ列の行列）を意味し、数式（２Ｂ）の記号Ｒ^−１は、同自己相関行列の逆行列を意味する。

ここで、数式（２Ａ）または数式（２Ｂ）を参照すれば明らかように、自己相関行列Ｒを無視すれば係数列ｗ（ｉ）を求めることは、入力信号と参照信号の相互相関を求めることと同等である。すなわち、行列Ｗを適応フィルタ処理により求めることは入力信号と参照信号の相互相関を求めることと等価なのである。これが、図２（ａ）に示す適応フィルタ処理によって、音響信号ｘと楽曲情報ＤＭとにおける互いに対応する音の発音タイミングの時間差を算定することができる理由である。また、本実施形態の方法によれば、数十秒分よりも少ない数の時系列データｘ（ｎ）およびｄ（ｎ）があれば上記時間差を算定することができ、適応フィルタの性能（収束速度）次第ではさらに少ないデータ数で上記時間差を算定することが可能である。相互相関係数を利用して上記時間差を算定する場合には概ね数十秒分の時系列データｘ（ｎ）およびｄ（ｎ）が必要となることが知られている。したがって、本実施形態によれば、相互相関係数を利用して上記時間差を算出する場合に比較してより少ないデータ量の演算で上記時間差を補正することが可能になる。本実施形態では上記適応フィルタ処理を実行して係数列ｗ（ｉ）を算出したが、時系列データｘ（ｎ）およびｄ（ｎ）に基づいて自己相関行列Ｒおよび相互相関ベクトルＰを算出し、この自己相関行列Ｒおよび相互相関ベクトルＰを用いて数式（２Ａ）を満たす行列Ｗを掃き出し法等により求めても良く、さらに自己相関行列Ｒの逆行列Ｒ^−１を算出し数式（２Ｂ）に示す演算を行って行列Ｗを求めても勿論良い。

遅延補正部２２６は、楽曲情報ＤＭに含まれる各タイミングデータを、遅延量算定部２２４から与えられる遅延量Ｄに応じた時間だけ早いタイミングを表すタイミングデータに補正して新たな楽曲情報ＤＭ´を生成し出力する。この楽曲情報ＤＭ´においては、各音について音響信号ｘにおいて対応する音との発音タイミングの時間差が補正されているため、音響信号ｘの再生と同時に楽曲情報ＤＭ´の再生を開始すると、両者が時間軸上において同期することとなる。なお、本実施形態では、共通の楽曲の音響信号ｘと楽曲情報ＤＭにおいて互いに対応する音の発音タイミングの時間差を楽曲情報ＤＭの補正により解消したが、音響信号ｘの補正により当該時間差を解消しても勿論良い。また、本実施形態では、音響信号ｘに対して楽曲情報ＤＭが遅れている場合について説明したが、楽曲情報ＤＭに対して音響信号ｘが遅延している場合においても同様に両者の時間差を補正することができる。要は、音響信号ｘを所定時間だけ先行させた状態で上記時間差を算出すれば良く、具体的には音響信号ｘの先頭から上記所定時間に応じた数分の単位区間Ｔｕを無視し、以降の単位区間Ｔｕについて周波数情報ＤＦを算出するようにすれば良い。

以上説明したように、本実施形態の音響処理装置１００Ａによれば、相互相関係数を利用する場合よりも少ないデータ量の演算で、共通の楽曲を表す楽曲情報ＤＭおよび音響信号ｘにおける互いに対応する音の発音タイミングの時間差を補正し、時間軸上において両者を同期させることが可能になる。

次に、先に説明を省略した第１ピッチ軌跡生成部２２０の構成および動作について説明する。
＜第１ピッチ軌跡生成部２２０＞
図３は、第１ピッチ軌跡生成部２２０の構成を示すブロック図である。
図３に示すように、第１ピッチ軌跡生成部２２０は、周波数分析部３１と基本周波数解析部３３とを含んでいる。既に述べたように、第１ピッチ軌跡生成部２２０は、音響信号ｘを時間軸上で区分した単位区間Ｔｕから目標成分の基本周波数を抽出するものである。ここで、目標成分とは、本実施形態では主旋律を構成する成分である。この目標成分の抽出を行うため、周波数分析部３１は、音響信号ｘの単位区間Ｔｕ毎に周波数スペクトルＸを生成する。この周波数スペクトルＸは、相異なる周波数（周波数帯域）ｆに対応する複数の周波数成分Ｘ（ｆ，ｔ）で表現される複素スペクトルである。記号ｔは時間（例えば単位時間Ｔｕの番号）を意味する。周波数スペクトルＸの生成には、例えば短時間フーリエ変換等の公知の周波数分析が任意に採用され得る。

基本周波数解析部３３は、周波数分析部３１が生成した周波数スペクトルＸを解析することで目標成分の基本周波数Ｆｔａｒ（ｔａｒ：ｔａｒｇｅｔ）の時系列を特定して単位区間Ｔｕ毎に周波数情報ＤＦを生成する。具体的には、音響信号ｘの複数の単位区間Ｔｕのうち目標成分が存在する各単位区間Ｔｕについては目標成分の基本周波数Ｆｔａｒを指定する周波数情報ＤＦが生成され、複数の単位区間Ｔｕのうち目標成分が存在しない各単位区間Ｔｕについては目標成分の非発音を意味する周波数情報ＤＦが生成される。

図４は、基本周波数解析部３３のブロック図である。図４に示すように、基本周波数解析部３３は、周波数検出部６２と指標算定部６４と遷移解析部６６と情報生成部６８とを有する。基本周波数解析部３３では、目標成分の基本周波数Ｆｔａｒの候補となるＮ個の周波数（以下、「候補周波数」という）Ｆｃ（１）〜Ｆｃ（Ｎ）を周波数検出部６２が単位区間Ｔｕ毎に特定し、目標成分が存在する単位区間ＴｕについてＮ個の候補周波数Ｆｃ（１）〜Ｆｃ（Ｎ）の何れかを遷移解析部６６が目標成分の基本周波数Ｆｔａｒとして選定する。指標算定部６４は、遷移解析部６６での解析処理に適用されるＮ個の特性指標値Ｖ（１）〜Ｖ（Ｎ）を単位区間Ｔｕ毎に算定する。情報生成部６８は、遷移解析部６６による解析処理の結果に応じた周波数情報ＤＦを生成および出力する。基本周波数解析部３３の各要素の機能を以下に説明する。

＜周波数検出部６２＞
周波数検出部６２は、音響信号ｘの各音響成分に対応するＮ個の候補周波数Ｆｃ（１）〜Ｆｃ（Ｎ）を検出する。候補周波数Ｆｃ（ｎ）（ｎ＝１〜Ｎ）の検出には公知の技術が任意に採用され得るが、図５を参照して以下に例示する方法が格別に好適である。図５の処理は単位区間Ｔｕ毎に実行される。なお、以下に例示する方法の詳細は、A. P. Klapuri,”Multiple fundamental frequency
estimation based on harmonicity and spectral smoothnes”, IEEE Trans. Speech and
Audio Proc., 11(6), 804-816, 2003に開示されている。

図５の処理を開始すると、周波数検出部６２は、周波数分析部３１が生成した周波数スペクトルＸのピークを強調した周波数スペクトルＺｐを生成する（Ｓ２２）。具体的には、周波数検出部６２は、以下の数式（３Ａ）から数式（３Ｃ）の演算で周波数スペクトルＺｐの各周波数ｆの周波数成分Ｚｐ（ｆ，ｔ）を算定する。

数式（３Ｃ）の定数ｋ_０および定数ｋ_１は所定値（例えばｋ_０＝５０Ｈｚ、ｋ_１＝６ｋＨｚ）に設定される。数式（３Ｂ）は、周波数スペクトルＸのピークを強調する演算である。数式（３Ａ）の記号Ｘａは、周波数スペクトルＸの周波数成分Ｘ（ｆ，ｔ）の周波数軸上の移動平均である。したがって、数式（３Ａ）から理解されるように、周波数スペクトルＸのピークに対応する周波数成分Ｚｐ（ｆ，ｔ）が極大となり、相隣接するピーク間の周波数成分Ｚｐ（ｆ，ｔ）が０となる周波数スペクトルＺｐが生成される。

周波数検出部６２は、周波数スペクトルＺｐをＪ個の帯域成分Ｚｐ＿１（ｆ，ｔ）〜Ｚｐ＿Ｊ（ｆ，ｔ）に分割する（Ｓ２３）。第ｊ番目（ｊ＝１〜Ｊ）の帯域成分Ｚｐ＿ｊ（ｆ，ｔ）は、以下の数式（４）で表現されるように、処理Ｓ２２で生成した周波数スペクトルＺｐ（周波数成分Ｚｐ（ｆ，ｔ））に窓関数Ｗｊ（ｆ）を乗算した成分である。

数式（４）の記号Ｗｊ（ｆ）は、周波数軸上に設定された窓関数を意味する。窓関数Ｗ１（ｆ）〜ＷＪ（ｆ）は、人間の聴覚特性（メル尺度）を考慮して、図６に示すように高域側ほど分解能が低下するように設定される。図７には、処理Ｓ２３で生成される第ｊ番目の帯域成分Ｚｐ＿ｊ（ｆ，ｔ）が図示されている。

周波数検出部６２は、処理S２３で算定したＪ個の帯域成分Ｚｐ＿１（ｆ，ｔ）〜Ｚｐ＿Ｊ（ｆ，ｔ）の各々について、以下の数式（５）で表現される関数値Ｌｊ（δＦ）を算定する（Ｓ２４）。

図７に示すように、帯域成分Ｚｐ＿ｊ（ｆ，ｔ）は、周波数ＦＬｊから周波数ＦＨｊまでの周波数帯域Ｂｊ内に分布する。周波数帯域Ｂｊ内には、低域側の周波数ＦＬｊに対して周波数Ｆｓ（オフセット）だけ高域側の周波数（ＦＬｊ＋Ｆｓ）を起点として周波数δＦの間隔（周期）毎に対象周波数ｆｐが設定される。周波数Ｆｓおよび周波数δＦは可変値である。記号Ｉ（Ｆｓ，δＦ）は、周波数帯域Ｂｊ内の対象周波数ｆｐの総数を意味する。以上の説明から理解されるように、関数値ａ（Ｆｓ，δＦ）は、周波数帯域Ｂｊ内のＩ（Ｆｓ，δＦ）個の対象周波数ｆｐの各々における帯域成分Ｚｐ＿ｊ（ｆ，ｔ）の合計値（Ｉ（Ｆｓ，δＦ）個の数値の総和）に相当する。変数ｃ（Ｆｓ，δＦ）は、関数値ａ（Ｆｓ，δＦ）を正規化する要素である。

数式（５）の記号ｍａｘ｛Ａ（Ｆｓ，δＦ）｝は、相異なる周波数Ｆｓについて算定された関数値Ａ（Ｆｓ，δＦ）のうちの最大値を意味する。図８は、数式（５）で算定される関数値Ｌｊ（δＦ）と各対象周波数ｆｐの周波数δＦとの関係を示すグラフである。図８に示すように、関数値Ｌｊ（δＦ）には複数のピークが存在する。数式（５）から理解されるように、周波数δＦの間隔で配列する各対象周波数ｆｐが帯域成分Ｚｐ＿ｊ（ｆ，ｔ）の各ピークの周波数（すなわち、調波周波数）に近似するほど、関数Ｌｊ（δＦ）は大きな数値になる。すなわち、関数値Ｌｊ（δＦ）がピークとなる周波数δＦは、帯域成分Ｚｐ＿ｊ（ｆ，ｔ）の基本周波数に該当する可能性が高い。

周波数検出部６２は、処理Ｓ２４で帯域成分Ｚｐ＿ｊ（ｆ，ｔ）毎に算定した関数値Ｌｊ（δＦ）をＪ個の帯域成分Ｚｐ＿１（ｆ，ｔ）〜Ｚｐ＿Ｊ（ｆ，ｔ）について加算または平均することで関数値Ｌｓ（δＦ）（Ｌｓ（δＦ）＝Ｌ１（δＦ）＋Ｌ２（δＦ）＋Ｌ３（δＦ）＋……＋ＬＪ（δＦ））を算定する（Ｓ２５）。以上の説明から理解されるように、周波数δＦが音響信号ｘの何れかの音響成分の基本周波数に近いほど、関数値Ｌｓ（δＦ）は大きい数値となる。すなわち、関数値Ｌｓ（δＦ）は、各周波数δＦが音響成分の基本周波数に該当する尤度（確率）を意味し、関数値Ｌｓ（δＦ）の分布は周波数δＦを確率変数とする基本周波数の確率密度関数に相当する。

周波数検出部６２は、処理Ｓ２５で算定した尤度Ｌｓ（δＦ）の複数のピークのうち各ピークでの尤度Ｌｓ（δＦ）の数値の降順でＮ個（すなわち尤度Ｌｓ（δＦ）が大きい方からＮ個）のピークを選択し、各ピークに対応するＮ個の周波数δＦを候補周波数Ｆｃ（１）〜Ｆｃ（Ｎ）として特定する（Ｓ２６）。尤度Ｌｓ（δＦ）が大きい周波数δＦを目標成分（歌唱音）の基本周波数Ｆｔａｒの候補となる候補周波数Ｆｃ（１）〜Ｆｃ（Ｎ）として選択するのは、音響信号ｘのなかで比較的顕著な音響成分（音量が大きい音響成分）である目標成分は、目標成分以外の音響成分と比較して尤度Ｌｓ（δＦ）が大きい数値となり易いという傾向があるからである。以上に説明した図５の処理（Ｓ２２〜Ｓ２６）が単位区間Ｔｕ毎に実行されることでＮ個の候補周波数Ｆｃ（１）〜Ｆｃ（Ｎ）が単位区間Ｔｕ毎に特定される。

＜指標算定部６４＞
図４の指標算定部６４は、周波数検出部６２が処理Ｓ２６で特定したＮ個の候補周波数Ｆｃ（１）〜Ｆｃ（Ｎ）の各々について、音声信号ｘのうちその候補周波数Ｆｃ（ｎ）（ｎ＝１〜Ｎ）に対応する調波成分の音響特性（典型的には音色）と目標成分に想定される音響特性との類否を示す特性指標値Ｖ（ｎ）を単位区間Ｔｕ毎に算定する。すなわち、特性指標値Ｖ（ｎ）は、候補周波数Ｆｃ（ｎ）が目標成分に該当する可能性を音響特性の観点から評価した指標（歌唱音を目標成分とした本実施形態では音声らしさの尤度）に相当する。以下の説明では、音響特性を表現する特徴量としてＭＦＣＣ（Mel Frequency Cepstral Coefficient）を例示する。ただし、ＭＦＣＣ以外の特徴量を利用することも可能である。

図９は、指標算定部６４の動作のフローチャートである。図９の処理が単位区間Ｔｕ毎に順次実行されることで単位区間Ｔｕ毎にＮ個の特性指標値Ｖ（１）〜Ｖ（Ｎ）が算定される。図９の処理を開始すると、指標算定部６４は、Ｎ個の候補周波数Ｆｃ（１）〜Ｆｃ（Ｎ）から１個の候補周波数Ｆｃ（ｎ）を選択する（Ｓ３１）。そして、指標算定部６４は、音響信号ｘの複数の音響成分のうち処理Ｓ３１で選択した候補周波数Ｆｃ（ｎ）を基本周波数とする調波成分の特徴量（ＭＦＣＣ）を算定する（Ｓ３２〜Ｓ３５）。

まず、指標算定部６４は、図１０に示すように、周波数分析部３１が生成した周波数スペクトルＸからパワースペクトル｜Ｘ^２｜を生成し（Ｓ３２）、パワースペクトル｜Ｘ^２｜のうち処理Ｓ３１で選択した候補周波数Ｆｃ（ｎ）とその倍音周波数κＦｃ（ｎ）（κ＝２，３，４……）との各々に対応するパワー値を特定する（Ｓ３３）。例えば、指標算定部６４は、候補周波数Ｆｃ（ｎ）と各倍音周波数κＦｃ（ｎ）とを中心周波数として周波数軸上に設定した窓関数（例えば三角窓）をパワースペクトル｜Ｘ^２｜に乗算し、窓関数毎の乗算値の最大値を候補周波数Ｆｃ（ｎ）および各倍音周波数κＦｃ（ｎ）に対応するパワー値として特定する。

指標算定部６４は、図１０に示すように、候補周波数Ｆｃ（ｎ）および各倍音周波数κＦｃ（ｎ）について処理Ｓ３３で算定したパワー値を補間することで包絡線ＥＮＶ（ｎ）を生成する（Ｓ３４）。具体的には、パワー値を変換した対数値（ｄｂ値）の補間を実行してからパワー値に再変換することで包絡線ＥＮＶ（ｎ）が算定される。処理Ｓ３４での補間は例えばラグランジュ補間等の公知の補間技術が任意に採用され得る。以上の説明から明らかように、包絡線ＥＮＶ（ｎ）は、音響信号ｘのうち候補周波数Ｆｃ（ｎ）を基本周波数とする調波成分の周波数スペクトルの包絡線に相当する。指標算定部６４は、処理Ｓ３４で算定した包絡線ＥＮＶ（ｎ）から特徴量（ＭＦＣＣ）を算定する（Ｓ３５）。ＭＦＣＣの算定の方法は任意である。

指標算定部６４は、処理Ｓ３５で算定したＭＦＣＣから特性指標値Ｖ（ｎ）（目標成分らしさの尤度）を算定する（Ｓ３６）。特性指標値の算定の方法は任意であるが、ＳＶＭ（Support Vector Machine）が好適である。すなわち、指標算定部６４は、音声（歌唱音）と非音声（例えば楽器の演奏音）とが混在する学習サンプルを複数のクラスタに分類する分離平面（境界）を事前に学習し、各クラスタ内のサンプルが音声に該当する確率（例えば０以上かつ１以下の中間的な数値）をクラスタ毎に設定する。特性指標値Ｖ（ｎ）を算定する段階では、指標算定部６４は、処理Ｓ３５で算定したＭＦＣＣが所属するべきクラスタを分離平面の適用で決定し、そのクラスタに付与された確率を特性指標値Ｖ（ｎ）として特定する。例えば候補周波数Ｆｃ（ｎ）に対応する音響成分が目標成分（歌唱音）に該当する可能性が高いほど特性指標値Ｖ（ｎ）は１に近い値に設定され、目標成分に該当しない確率が高いほど特性指標値Ｖ（ｎ）は０に近い値に設定される。

指標算定部６４は、Ｎ個の候補周波数Ｆｃ（１）〜Ｆｃ（Ｎ）の全部について以上の処理（Ｓ３１〜Ｓ３６）を実行したか否かを判定する（Ｓ３７）。処理Ｓ３７の判定結果が否定である場合、指標算定部６４は、未処理の候補周波数Ｆｃ（ｎ）を選択したうえで（Ｓ３１）、前述の処理Ｓ３２から処理Ｓ３７の処理を実行する。そして、Ｎ個の候補周波数Ｆｃ（１）〜Ｆｃ（Ｎ）の全部を処理すると（Ｓ３７：ＹＥＳ）、指標算定部６４は図９の処理を終了する。したがって、相異なる候補周波数Ｆｃ（ｎ）に対応するＮ個の特性指標値Ｖ（１）〜Ｖ（Ｎ）が単位区間Ｔｕ毎に順次算定される。

＜遷移解析部６６＞
図４の遷移解析部６６は、周波数検出部６２が単位区間Ｔｕ毎に算定したＮ個の候補周波数Ｆｃ（１）〜Ｆｃ（Ｎ）から、目標成分の基本周波数Ｆｔａｒに該当する可能性が高い候補周波数Ｆｃ（ｎ）を選択する。すなわち、基本周波数Ｆｔａｒの時系列が特定される。図４に示すように、遷移解析部６６は、第１処理部７１と第２処理部７２とを含んで構成される。第１処理部７１および第２処理部７２の各々の機能について以下に詳述する。

＜第１処理部７１＞
第１処理部７１は、Ｎ個の候補周波数Ｆｃ（１）〜Ｆｃ（Ｎ）のうち目標成分の基本周波数Ｆｔａｒに該当する可能性が高い候補周波数Ｆｃ（ｎ）を単位区間Ｔｕ毎に特定する。図１１は、第１処理部７１の動作のフローチャートである。周波数検出部６２がＮ個の候補周波数Ｆｃ（１）〜Ｆｃ（Ｎ）を最新の１個の単位区間（以下では特に「新規単位区間」という）Ｔｕについて特定するたびに図１１の処理が実行される。

図１１の処理は、概略的には、図１２に示すように、新規単位区間Ｔｕを最後尾とするＫ個の単位区間Ｔｕにわたる経路（以下では「推定系列」という）ＲＡを特定する処理である。推定系列ＲＡは、各単位区間ＴｕのＮ個の候補周波数Ｆｃ（ｎ）（図１２では４個の候補周波数Ｆｃ（１）〜Ｆｃ（４））のうち目標成分に該当する可能性（尤度）が高い候補周波数Ｆｃ（ｎ）をＫ個の単位区間Ｔｕについて配列した時系列（候補周波数Ｆｃ（ｎ）の遷移）に相当する。推定系列ＲＡの探索には公知の技術が任意に採用され得るが、演算量の削減の観点から動的計画法が格別に好適である。図１１では、動的計画法の例示であるビタビ（Ｖｉｔｅｒｂｉ）アルゴリズムを利用して推定系列ＲＡを特定する場合が想定されている。図１１の処理を以下に詳述する。

第１処理部７１は、新規単位区間Ｔｕについて特定されたＮ個の候補周波数Ｆｃ（１）〜Ｆｃ（Ｎ）のうちの１個の候補周波数Ｆｃ（ｎ）を選択する（Ｓ４１）。そして、第１処理部７１は、図１３に示すように、処理Ｓ４１で選択した候補周波数Ｆｃ（ｎ）が新規単位区間Ｔｕに出現する確率（Ｐ_Ａ１（ｎ），Ｐ_Ａ２（ｎ））を算定する（Ｓ４１）。

確率Ｐ_Ａ１（ｎ）は、候補周波数Ｆｃ（ｎ）について図５の処理Ｓ２５で算定された尤度Ｌｓ（δＦ）（＝Ｌｓ（Ｆｃ（ｎ）））に応じて可変に設定される。具体的には、候補周波数Ｆｃ（ｎ）の尤度Ｌｓ（Ｆｃ（ｎ））が大きいほど確率Ｐ_Ａ１（ｎ）は大きい数値に設定される。第１処理部７１は、例えば、尤度Ｌｓ（Ｆｃ（ｎ））に応じた変数λ（ｎ）を確率変数とする正規分布（平均μ_Ａ１，分散σ_Ａ１ ^２）を表現する以下の数式（６）の演算で候補周波数Ｆｃ（ｎ）の確率Ｐ_Ａ１（ｎ）を算定する。

数式（６）の変数λ（ｎ）は、例えば尤度Ｌｓ（Ｆｃ（ｎ））を正規化した数値である。尤度Ｌｓ（Ｆｃ（ｎ））の正規化の方法は任意であるが、例えば尤度Ｌｓ（Ｆｃ（ｎ））を尤度Ｌｓ（δＦ）の最大値で除算した数値が正規化後の尤度λ（ｎ）として好適である。平均μ_Ａ１および分散σ_Ａ１ ^２の数値は実験的または統計的に選定される（例えば、μ_Ａ１＝１，σ_Ａ１＝０．４）。

処理Ｓ４２で算定される確率Ｐ_Ａ２（ｎ）は、候補周波数Ｆｃ（ｎ）について指標算定部６４が算定した特性指標値Ｖ（ｎ）に応じて可変に設定される。具体的には、候補周波数Ｆｃ（ｎ）の特性指標値Ｖ（ｎ）が大きい（目標成分に該当する可能性が高い）ほど確率Ｐ_Ａ２（ｎ）は大きい数値に設定される。第１処理部７１は、例えば、特性指標値Ｖ（ｎ）を確率変数とする正規分布（平均μ_Ａ２，分散σ_Ａ２ ^２）を表現する以下の数式（７）の演算で候補周波数Ｆｃ（ｎ）の確率Ｐ_Ａ２（ｎ）を算定する。平均μ_Ａ２および分散σ_Ａ２ ^２の数値は実験的または統計的に選定される（例えば、μ_Ａ２＝σ_Ａ２＝１）。

第１処理部７１は、図１３に示すように、新規単位区間Ｔｕについて処理Ｓ４１で選択した候補周波数Ｆｃ（ｎ）と、直前の単位区間ＴｕのＮ個の候補周波数Ｆｃ（１）〜Ｆｃ（Ｎ）との組み合わせについてＮ個の確率Ｐ_Ａ３（ｎ）＿１〜Ｐ_Ａ３（ｎ）＿Ｎを算定する（Ｓ４３）。確率Ｐ_Ａ３（ｎ）＿ν（ν＝１〜Ｎ）は、直前の単位区間Ｔｕの第ν番目の候補周波数Ｆｃ（ν）から新規単位区間Ｔｕの候補周波数Ｆｃ（ｎ）に遷移する確率を意味する。具体的には、単位区間Ｔｕの間で音響成分の音高が極端に変化する可能性が低いという傾向を考慮して、直前の候補周波数Ｆｃ（ν）と現在の候補周波数Ｆｃ（ｎ）との差異（音高差）が大きいほど、確率Ｐ_Ａ３（ｎ）＿νは小さい数値に設定される。第１処理部７１は、例えば以下の数式（８）の演算でＮ個の確率Ｐ_Ａ３（ｎ）＿１〜Ｐ_Ａ３（ｎ）＿Ｎを算定する。

数式（８）は、関数値ｍｉｎ｛６，ｍａｘ（０，｜ε｜−０．５）｝を確率変数とする正規分布（平均μ_Ａ３，分散σ_Ａ３ ^２）を表現する。数式（８）の記号εは、半音を単位として直前の候補周波数Ｆｃ（ν）と現在の候補周波数Ｆｃ（ｎ）との差分を表現した変数を意味する。関数値ｍｉｎ｛６，ｍａｘ（０，｜ε｜−０．５）｝は、半音単位の周波数差εの絶対値｜ε｜から０．５を減算した数値（負数となる場合は０）が６を下回る場合にはその値に設定され、数値が６を上回る場合（すなわち、６半音を上回る程度に周波数が相違する場合）には６に設定される。なお、音響信号ｘの最初の単位区間Ｔｕの確率Ｐ_Ａ３（ｎ）＿１〜Ｐ_Ａ３（ｎ）＿Ｎは所定の値（例えば１）に設定される。また、平均μ_Ａ３および分散σ_Ａ３ ^２の数値は実験的または統計的に選定される（例えば、μ_Ａ３＝０，σ_Ａ３＝４）。

以上の手順で確率（Ｐ_Ａ１（ｎ），Ｐ_Ａ２（ｎ），Ｐ_Ａ３（ｎ）＿１〜Ｐ_Ａ３（ｎ）＿Ｎ）を算定すると、第１処理部７１は、図１４に示すように、新規単位区間Ｔｕの候補周波数Ｆｃ（ｎ）と、直前の単位区間ＴｕのＮ個の候補周波数Ｆｃ（１）〜Ｆｃ（Ｎ）との各組み合わせについて確率π_Ａ（１）〜π_Ａ（Ｎ）を算定する（Ｓ４４）。確率π_Ａ（ｎ）は、図１３の確率Ｐ_Ａ１（ｎ）と確率Ｐ_Ａ２（ｎ）と確率Ｐ_Ａ３（ｎ）＿νとに応じた数値である。例えば、確率Ｐ_Ａ１（ｎ）と確率Ｐ_Ａ２（ｎ）と確率Ｐ_Ａ３（ｎ）＿νの各々の対数値の加算値が確率π_Ａ（ｎ）として算定される。以上の説明から理解されるように、確率π_Ａ（ｎ）は、直前の単位区間Ｔｕの第ν番目の候補周波数Ｆｃ（ν）から新規単位区間Ｔｕの候補周波数Ｆｃ（ｎ）に遷移する確率（尤度）を意味する。

第１処理部７１は、処理Ｓ４４で算定したＮ個の確率π_Ａ（１）〜π_Ａ（Ｎ）のうちの最大値π_Ａ＿ｍａｘを選択し、図１４に示すように、直前の単位区間ＴｕのＮ個の候補周波数Ｆｃ（１）〜Ｆｃ（Ｎ）のうち最大値π_Ａ＿ｍａｘに対応する候補周波数Ｆｃ（ν）と候補周波数Ｆｃ（ｎ）とを連結する経路（図１４の太線）を設定する（Ｓ４５）。更に、第１処理部７１は、新規単位区間Ｔｕの候補周波数Ｆｃ（ｎ）について確率Π_Ａ（ｎ）を算定する（Ｓ４６）。確率Π_Ａ（ｎ）は、直前の単位区間ＴｕのＮ個の候補周波数Ｆｃ（１）〜Ｆｃ（Ｎ）のうち処理Ｓ４５で選択した候補周波数ｆｃ（ν）について過去に算定した確率Π_Ａ（ν）と現在の候補周波数について処理Ｓ４５で算定した確率π_Ａ＿ｍａｘとに応じた数値（例えば各々の対数値の加算値）に応じて設定される。

第１処理部７１は、新規単位区間ＴｕのＮ個の候補周波数Ｆｃ（１）〜Ｆｃ（Ｎ）の全部について以上の処理（Ｓ４１〜Ｓ４６）を実行したか否かを判定する（Ｓ４７）。処理Ｓ４７の判定の結果が否定である場合、第１処理部７１は、未処理の候補周波数Ｆｃ（ｎ）を新規に選択したうえで（Ｓ４１）、処理Ｓ４２から処理Ｓ４７を実行する。すなわち、処理Ｓ４１から処理Ｓ４７が新規単位区間ＴｕのＮ個の候補周波数Ｆｃ（１）〜Ｆｃ（Ｎ）の各々について実行され、直前の単位区間Ｔｕの１個の候補周波数Ｆｃ（ν）からの経路（処理Ｓ４５）とその経路に対応する確率Π_Ａ（ｎ）（処理Ｓ４６）とが新規単位区間Ｔｕの周波数候補Ｆｃ（ｎ）毎に算出される。

新規単位区間Ｔｕの全部（Ｎ個）の候補周波数Ｆｃ（１）〜Ｆｃ（Ｎ）について処理が完了すると（Ｓ４７：ＹＥＳ）、第１処理部７１は、新規単位区間Ｔｕを最後尾とするＫ個の単位区間Ｔｕにわたる推定系列ＲＡを確定する（Ｓ４８）。推定系列ＲＡは、新規単位区間ＴｕのＮ個の候補周波数Ｆｃ（１）〜Ｆｃ（Ｎ）のうち処理Ｓ４６で算定した確率Π_Ａ（ｎ）が最大となる候補周波数Ｆｃ（ｎ）から、処理Ｓ４５で連結した各候補周波数Ｆｃ（ｎ）をＫ個の単位区間Ｔｕに亘って順次に遡及（バックトラック）した経路である。なお、処理Ｓ４１から処理Ｓ４７を完了した単位区間ＴｕがＫ個未満である段階（すなわち、音響信号ｘの始点から第（Ｋ−１）個までの各単位区間Ｔｕについて処理が完了した段階）では推定系列ＲＡの確定（処理Ｓ４８）は実行されない。以上説明したように、周波数検出部６２が新規単位区間ＴｕについてＮ個の候補周波数Ｆｃ（１）〜ＦＣ（Ｎ）を特定するたびに、その新規単位区間Ｔｕを最後尾とするＫ個の単位区間Ｔｕにわたる推定系列ＲＡが特定される。

＜第２処理部７２＞
ところで、音響信号ｘのなかには目標成分が存在しない単位区間Ｔｕ（例えば歌唱音が停止した区間）も存在する。第１処理部７１による推定系列ＲＡの探索では各単位区間における目標成分の有無が判定されないから、実際には目標成分が存在しない単位区間Ｔｕについても推定系列ＲＡ上では候補周波数Ｆｃ（ｎ）が特定される。以上の事情を考慮して、第２処理部７２は、推定系列ＲＡの各候補周波数Ｆｃ（ｎ）に対応するＫ個の単位区間Ｔｕの各々について目標成分の有無を判定する。

図１５は、第２処理部７２の動作のフローチャートである。第１処理部７１が推定系列ＲＡを特定するたび（単位区間Ｔｕ毎）に図１５の処理が実行される。図１５の処理は、概略的には、図１６に示すように、推定系列ＲＡに対応するＫ個の単位区間Ｔｕにわたる経路（以下では「状態系列」という）ＲＢを特定する処理である。状態系列ＲＢは、Ｋ個の単位区間Ｔｕの各々について目標成分の発音状態Ｓｖ（ｖ：voiced）および非発音状態Ｓｕ（ｕ：unvoiced）の何れかを選択して配列した時系列（発音状態／非発音状態の遷移）に相当する。各単位区間Ｔｕの発音状態Ｓｖは、推定系列ＲＡのうちその単位区間Ｔｕの候補周波数Ｆｃ（ｎ）が目標成分として発音される状態を意味し、非発音状態Ｓｕは、目標成分が発音されない状態を意味する。状態系列ＲＢの探索には公知の技術が任意に採用され得るが、演算量削減の観点から動的計画法が格別に好適である。図１５では、動的計画法の例示であるビタビアルゴリズムを利用して状態系列ＲＢを特定する場合が想定されている。図１５の処理を以下に詳述する。

第２処理部７２は、Ｋ個の単位区間Ｔｕの何れか（以下「選択単位区間」という）を選択する（Ｓ５１）。具体的には、図１５の第１回目の処理Ｓ５１ではＫ個の単位区間Ｔｕのうち最初の単位区間Ｔｕが選択され、第２回目以降の処理Ｓ５１の実行毎に直後の単位区間Ｔｕが選択される。

第２処理部７２は、図１７に示すように、選択単位区間Ｔｕについて確率Ｐ_Ｂ１＿ｖと確率Ｐ_Ｂ１＿ｕとを算出する（Ｓ５２）。確率Ｐ_Ｂ１＿ｖは、選択単位区間Ｔｕにて目標成分が発音状態Ｓｖに該当する確率を意味し、確率Ｐ_Ｂ１＿ｕは、選択単位区間Ｔｕにて目標成分が非発音状態Ｓｕに該当する確率を意味する。

選択単位区間Ｔｕの候補周波数Ｆｃ（ｎ）が目標成分に該当する可能性が高いほど、その候補周波数Ｆｃ（ｎ）について指標算定部６４が算定した特性指標値Ｖ（ｎ）（目標成分らしさ）は大きい数値になるという傾向を考慮して、発音状態Ｓｖの確率Ｐ_Ｂ１＿ｖの算定には特性指標値Ｖ（ｎ）が適用される。具体的には、第２処理部７２は、特性指標値Ｖ（ｎ）を確率変数とする正規分布（平均μ_Ｂ１，分散σ_Ｂ１ ^２）を表現する以下の数式（９）の演算で確率Ｐ_Ｂ１＿ｖを算定する。数式（９）から理解されるように、特性指標値Ｖ（ｎ）が大きいほど確率Ｐ_Ｂ１＿ｖは大きい値に設定される。平均μ_Ｂ１および分散σ_Ｂ１ ^２の数値は実験的または統計的に選定される（例えば、μ_Ｂ１＝σ_Ｂ１＝１）。

他方、非発音状態Ｓｕの確率Ｐ_Ｂ１＿ｕは、例えば以下の数式（１０）で算定される固定値である。

次いで、第２処理部７２は、図１７にて破線で示すように、選択単位区間Ｔｕの発音状態Ｓｖおよび非発音状態Ｓｕと直前の単位区間Ｔｕの発音状態Ｓｖおよび非発音状態Ｓｕとの組み合わせについて遷移の確率（Ｐ_Ｂ２＿ｖｖ，Ｐ_Ｂ２＿ｕｖ，Ｐ_Ｂ２＿ｕｕ，Ｐ_Ｂ２＿ｖｕ）を算定する（Ｓ５３）。確率Ｐ_Ｂ２＿ｖｖは、図１７から理解されるように、直前の単位区間Ｔｕの発音状態Ｓｖから選択単位区間Ｔｕの発音状態Ｓｖに遷移する確率（ｖｖ：voiced→voiced）を意味する。同様に、確率Ｐ_Ｂ２＿ｕｖは、非発音状態Ｓｕから発音状態Ｓｖに遷移する確率（ｕｖ：unvoiced→voiced）を意味し、確率Ｐ_Ｂ２＿ｕｕは、非発音状態Ｓｕから非発音状態Ｓｕに遷移する確率（ｕｕ：unvoiced→unvoiced）を意味し、確率Ｐ_Ｂ２＿ｖｕは、発音状態Ｓｖから非発音状態Ｓｕに遷移する確率（ｖｕ：voiced→unvoiced）を意味する。具体的には、第２処理部７２は、各確率を以下の数式（１１Ａ）および数式（１１Ｂ）のように算定する。

前述の数式（８）で算定される確率Ｐ_Ａ３（ｎ）＿νと同様に、直前の単位区間Ｔｕと選択単位区間Ｔｕとの間で候補周波数Ｆｃ（ｎ）の周波数差εの絶対値｜ε｜が大きいほど数式（１１Ａ）の確率Ｐ_Ｂ２＿ｖｖは小さい数値に設定される。数式（１１Ａ）の平均μ_Ｂ２および分散σ_Ｂ２ ^２の数値は実験的または統計的に選定される（例えば、μ_Ｂ２＝０，σ_Ｂ２＝４）。数式（１１Ａ）および数式（１１Ｂ）から理解されるように、相前後する単位区間Ｔｕにて発音状態Ｓｖが維持される確率Ｐ_Ｂ２＿ｖｖは、発音状態Ｓｖおよび非発音状態Ｓｕの一方から他方へ遷移する確率（Ｐ_Ｂ２＿ｕｖ，Ｐ_Ｂ２＿ｖｕ）や非発音状態Ｓｕが維持される確率Ｐ_Ｂ２＿ｕｕと比較して低い確率に設定される。

第２処理部７２は、直前の単位区間Ｔｕの発音状態Ｓｖおよび非発音状態Ｓｕの何れかを、選択単位区間Ｔｕの発音状態Ｓｖに関する各確率（Ｐ_Ｂ１＿ｖ，Ｐ_Ｂ２＿ｖｖ，Ｐ_Ｂ２＿ｕｖ）に応じて選択して選択単位区間Ｔｕの発音状態Ｓｖに連結する（Ｓ５４Ａ〜Ｓ５４Ｃ）。まず、第２処理部７２は、図１８に示すように、直前の選択単位区間Ｔｕの状態（発音状態Ｓｖ／非発音状態Ｓｕ）から選択単位区間Ｔｕの発音状態Ｓｖに遷移する確率（π_Ｂｖｖ，π_Ｂｕｖ）を算定する（Ｓ５４Ａ）。確率π_Ｂｖｖは、直前の単位区間Ｔｕの発音状態Ｓｖから選択単位区間Ｔｕの発音状態Ｓｖに遷移する確率であり、処理Ｓ５２で算定した確率Ｐ_Ｂ１＿ｖと処理Ｓ５３で算定した確率Ｐ_Ｂ２＿ｖｖとに応じた数値（例えば各々の対数値の加算値）に設定される。同様に、確率π_Ｂｕｖは、直前の単位区間Ｔｕの非発音状態Ｓｕから選択単位区間Ｔｕの発音状態Ｓｖに遷移する確率を意味し、確率Ｐ_Ｂ１＿ｕと確率Ｐ_Ｂ２＿ｕｖとに応じて算定される。

第２処理部７２は、図１８に示すように、直前の単位区間Ｔｕの状態（発音状態Ｓｖ／非発音状態Ｓｕ）のうち確率π_Ｂｖｖおよび確率π_Ｂｕｖの最大値π_Ｂｖ＿ｍａｘに対応する状態を選択して選択単位区間Ｔｕの発音状態Ｓｖと連結し（Ｓ５４Ｂ）、選択単位区間Ｔｕについて確率Π_Ｂを算定する（Ｓ５４Ｃ）。確率Π_Ｂは、直前の単位区間Ｔｕについて処理Ｓ５４Ｂで選択した状態について過去に算定された確率Π_Ｂと処理Ｓ５４Ｂで特定した最大値π_Ｂｖ＿ｍａｘとに応じた数値（例えば各々の対数値の加算値）に設定される。

第２処理部７２は、選択単位区間Ｔｕの非発音状態Ｓｕについても同様に、直前の単位区間Ｔｕの発音状態Ｓｖおよび非発音状態Ｓｕの何れかを、選択単位区間Ｔｕの非発音状態Ｓｕに関する各確率（Ｐ_Ｂ１＿ｕ，Ｐ_Ｂ２＿ｕｕ，Ｐ_Ｂ２＿ｖｕ）に応じて選択してその非発音状態Ｓｕに連結する（Ｓ５５Ａ〜Ｓ５５Ｃ）。すなわち、第２処理部７２は、図１９に示すように、確率Ｐ_Ｂ１＿ｕおよび確率Ｐ_Ｂ２＿ｕｕに応じた確率（すなわち非発音状態Ｓｕから非発音状態Ｓｕに遷移する確率）π_Ｂｕｕと、確率Ｐ_Ｂ１＿ｕおよび確率Ｐ_Ｂ２＿ｖｕに応じた確率π_Ｂｖｕとを算定し（Ｓ５５Ａ）、直前の単位区間Ｔｕの発音状態Ｓｖおよび非発音状態Ｓｕのうち確率π_Ｂｕｕおよび確率π_Ｂｖｕの最大値π_Ｂｕ＿ｍａｘに対応する状態（図１９では発音状態Ｓｖ）を選択して選択単位区間Ｔｕの非発音状態Ｓｕに連結する（Ｓ５５Ｂ）。そして、第２処理部７２は、処理Ｓ５５Ｂで選択した状態について過去に算定した確率Π_Ｂと処理Ｓ５５Ｂで選択した確率π_Ｂｕ＿ｍａｘとに応じて選択単位区間Ｔｕの非発音状態Ｓｕの確率Π_Ｂを算定する（Ｓ５５Ｃ）。

選択単位区間Ｔｕの発音状態Ｓｖおよび非発音状態Ｓｕの各々について以上の手順で直前の単位区間Ｔｕの状態との連結（Ｓ５４Ｂ，Ｓ５５Ｂ）と確率Π_Ｂの算定（Ｓ５４Ｃ，Ｓ５５Ｃ）とを完了すると、第２処理部７２は、Ｋ個の単位区間Ｔｕの全部について処理が完了したか否かを判定する（Ｓ５６）。処理Ｓ５６の判定の結果が否定である場合、第２処理部７２は、現在の選択単位区間Ｔｕの直後の単位区間Ｔｕを新規な選択単位区間Ｔｕとして選択したうえで（Ｓ５１）、前述の処理Ｓ５２からＳ５６の処理を実行する。

Ｋ個の単位区間Ｔｕの各々について処理が完了すると（Ｓ５６：ＹＥＳ）、第２処理部７２は、Ｋ個の単位区間Ｔｕにわたる状態系列ＲＢを確定する（Ｓ５７）。具体的には、第２処理部７２は、Ｋ個のうち最後尾の単位区間Ｔｕの発音状態Ｓｖおよび非発音状態Ｓｕのうち確率Π_Ｂが大きい状態から、処理Ｓ５４Ｂまたは処理Ｓ５５Ｂで連結した経路をＫ個の単位区間Ｔｕにわたって順次に遡及することで状態系列ＲＢを特定する。そして、Ｋ個の単区間Ｔｕにわたる状態系列ＲＢのうち第１番目の単位区間Ｔｕでの状態（発音状態Ｓｖ／非発音状態Ｓｕ）を、１個の単位区間Ｔｕの状態（目標成分の発音の有無）として確定する（Ｓ５８）。すなわち、新規単位区間Ｔｕから（Ｋ−１）個だけ過去の単位区間Ｔｕについて目標成分の有無（発音状態Ｓｖ／非発音状態Ｓｕ）が判定される。

＜情報生成部６８＞
情報生成部６８は、遷移解析部６６による処理の結果（推定系列ＲＡ、状態系列ＲＢ）に応じて単位区間Ｔｕ毎に周波数情報ＤＦを生成する。具体的には、第２処理部７２が特定した状態系列ＲＢにて発音状態Ｓｖに該当する単位区間Ｔｕについて、情報生成部６８は、第１処理部７１が特定した推定系列ＲＡのＫ個の候補周波数Ｆｃ（ｎ）のうちその単位区間Ｔｕに対応する候補周波数Ｆｃ（ｎ）を目標成分の基本周波数Ｔａｒとして指定する周波数情報ＤＦを生成する。他方、状態系列ＲＢにおいて非発音状態Ｓｕに該当する単位区間Ｔｕについて、情報生成部６８は、目標成分の非発音を意味する周波数情報ＤＦ（例えば数値がゼロに設定された周波数情報ＤＦ）を生成する。
以上が第１ピッチ軌跡生成部２２０の構成および第１ピッチ軌跡生成部２２０を構成する各部の動作の詳細である。

以上に説明した形態では、音響信号ｘから抽出されるＮ個の候補周波数Ｆｃ（１）〜Ｆｃ（Ｎ）のうち目標成分に該当する可能性が高い候補周波数Ｆｃ（ｎ）を単位区間Ｔｕ毎に選択した推定系列ＲＡと、単位区間Ｔｕ毎の目標成分の有無（発音状態Ｓｖ／非発音状態Ｓｕ）を推定した状態系列ＲＢとが生成され、推定系列ＲＡと状態系列ＲＢとの双方を利用して周波数情報ＤＦが生成される。したがって、目標成分の発音が途中で途切れる場合でも目標成分の基本周波数ｔａｒの時系列を適切に検出することが可能である。例えば、遷移解析部６６が第１処理部７１のみを具備する構成と比較すると、音響信号ｘのうち目標成分が実際には存在しない単位区間Ｔｕについて基本周波数Ｆｔａｒが誤検出される可能性を低減することが可能である。

各周波数δＦが音響信号ｘの基本周波数に該当する尤度Ｌｓ（δＦ）に応じた確率Ｐ_Ａ１（ｎ）が推定系列ＲＡの探索に適用されるから、音響信号ｘのうち高強度の目標成分の基本周波数Ｆｔａｒの時系列を高精度に特定できるという利点もある。また、音響信号ｘのうち各候補周波数Ｆｃ（ｎ）に対応する調波成分の音響特性と所期の音響特性との類否を示す特性指標値Ｖ（ｎ）に応じた確率Ｐ_Ａ２（ｎ）や確率Ｐ_Ｂ１＿ｖが推定系列ＲＡや状態系列ＲＢの探索に適用されるか、所期の音響特性の目標成分の基本周波数Ｆｔａｒの時系列（発音の有無）を高精度に特定できるという利点もある。

更に、相前後する各単位区間Ｔｕでの候補周波数Ｆｃ（ｎ）の周波数差εに応じた確率Ｐ_Ａ３（ｎ）＿νおよびＰ_Ｂ２＿ｖｖが推定系列ＲＡや状態系列ＲＢの探索に適用されるから、基本周波数が短時間に過度に変化するような推定系列ＲＡや状態系列ＲＢの誤検出が防止され、結果的に目標成分の基本周波数Ｆｔａｒの時系列（発音の有無）を高精度に特定できるという利点がある。

（Ｂ：第２実施形態）
次いで本発明の第２実施形態について説明する。
図２０は、本発明の第２実施形態の音響処理装置１００Ｂの構成を示すブロック図である。図２０では図１におけるものと同一の構成要素には同一の符号が付されている。図２０と図１とを対比すれば明らかなように、音響処理装置１００Ｂは演算処理装置２２Ａに変えて演算処理装置２２Ｂを有する点が音響処理装置１００Ａと異なる。

音響処理装置１００Ｂは、音響処理装置１００Ａと同様に、音響信号ｘと楽曲情報ＤＭとの発音タイミングの時間差を補正する装置である。ただし、音響処理装置１００Ｂの記憶装置２４には第１実施形態におけるものと異なるプログラムが記憶されている。このため、音響信号ｘと楽曲情報ＤＭとの発音タイミングの時間差を補正するために音響処理装置１００Ｂが実行する処理は、第１実施形態におけるものとは異なる処理となる。

より詳細に説明すると、演算処理装置２２Ｂは、記憶装置２４に格納されたプログラムを実行することで、第１ピッチ軌跡生成部２２０、第２ピッチ軌跡生成部２２２、遅延量算定部２４４、遅延補正部２２６、および確率軌跡算定部２２８として機能する。図２０と図１とを対比すれば明らかように、演算処理装置２２Ｂの構成は、確率軌跡算定部２２８を設けた点と、遅延量算定部２２４に換えて遅延量算定部２４４を設けた点が、演算処理部２２Ａの構成と異なる。以下、第１実施形態との相違点である確率軌跡算定部２２８および遅延量算定部２４４について詳細に説明する。

図２０に示すように、確率軌跡算定部２２８には楽曲情報ＤＭが与えられる。確率軌跡算定部２２８は、楽曲情報ＤＭを解析し、主旋律を構成する音についての各時刻における発音確率を表すとともに、音が緩やかに立上がりかつ緩やかに立下がることを表す第３の時系列データｃ（ｎ）を生成して遅延量算定部２４４に与える。より詳細に説明すると、確率軌跡算定部２２８は、音の立上がりにおいては値が０から１まで徐々に変化する一方、音の立下りにおいては値が１から０まで徐々に変化し、かつピッチが一定である期間（ピッチがゼロの期間、すなわち、主旋律の音が発音されていない期間を含む）が長いほど１に近い値となる時系列データｃ（ｎ）を楽曲情報ＤＭの主旋律パートに含まれているイベントデータおよびタイミングデータに基づいて生成する。例えば、楽曲情報ＤＭの主旋律パートにおけるピッチが図２１（ａ）のように時間変化する場合には、確率軌跡算定部２２８は、図２１（ｂ）に示す確率曲線を表す時系列データｃ（ｎ）を当該楽曲情報ＤＭに基づいて生成する、といった具合である。

ここで、時系列データｃ（ｎ）の具体的な生成方法としては、楽曲情報ＤＭの主旋律パートに含まれているイベントデータの表すノートのオン／オフタイミングに対応する各時点を中心とする所定時間長の区間を二次関数（一次、或いはより高次の関数でも良い）等を用いて平滑化（補間）して時系列データｃ（ｎ）を生成する態様が考えられる。この場合、楽音等の波形が図２１（ｃ）のように音量が急激に立上るアタック部と緩やかに減衰するリリース部とを有することを考慮し、図２１（ｄ）に示すように上記平滑化する区間の時間長を立上り時と立下り時とで異ならせる。具体的には、立上り区間ＴＡを立下り区間ＴＳよりも短くする。すなわち、立上り時の勾配を立下り時の勾配よりも大きくする。このようにすると、より自然な音の立上り感および立下り感を再現することができると期待される。なお、音の立上り区間Ｔ_Ａと立下り区間Ｔ_Ｓの長さの比をどの程度にするのかについては適宜実験を行って定めても良く、統計的に定めても良い。また、本実施形態では、二次関数等による補間によって音の立上がおよび立下りを緩やかにしたが、上記所定区間におけるサンプリングレートを高くすることで実現しても良い。

遅延量算定部２４４は、音響信号ｘと楽曲情報ＤＭとにおける互いに対応する音の発音タイミングの時間差Ｄを適応フィルタ処理によって算定する点は遅延量算定部２２４と同一である。ただし、遅延量算定部２４４は、時系列データｄ（ｎ）の表すピッチ軌跡を、図２２に示すように、音の立ち上がりおよび立下りにおいて周波数が徐々に変化するように時系列データｃ（ｎ）に基づいて制御しつつ上記適応フィルタ処理を実行する点が遅延量算定部２２４と異なる。ここで、遅延量算定部２４４に上記制御を行わせるようにした理由は以下の通りである。

楽曲情報ＤＭの主旋律パートに含まれているイベントデータおよびタイミングデータに基づいて得られるピッチ軌跡は、前掲図２１（ａ）に示すように、音の立上りおよび立下りにおいて急峻に変化する矩形波状の波形となり、当該ピッチ軌跡をサンプリングして時系列データｄ（ｎ）を生成する際にサンプリング位置が１サンプルでもずれるとそのサンプリング位置における音の発音の有無が大きく変化する。このため、このような時系列データｄ（ｎ）を用いて楽曲情報ＤＭと音響信号ｘにおける互いに対応する音の発音タイミングの時間差を算定しようとしても、精度良く算定することができない場合がある。このような不具合が生じないようにするため、本実施形態では、時系列データｄ（ｎ）の表すピッチ軌跡を、図２２に示すように、音の立ち上がりおよび立下りにおいて周波数が徐々に変化するように制御しつつ上記適応フィルタ処理を実行することとし、さらに当該制御に時系列データｃ（ｎ）を利用するようにしたのである。したがって、本実施形態によれば、第１実施形態よりも高い精度で上記時間差を算出し、共通の楽曲についての楽曲情報ＤＭと音響信号ｘとの同期再生をより高い精度で実現することが可能になる。

（Ｃ：第３実施形態）
次いで本発明の第３実施形態の音響処理装置１００Ｃについて説明する。この音響処理装置１００Ｃも、音響処理装置１００Ａや音響処理装置１００Ｂと同様に、共通の楽曲についての音響信号ｘと楽曲情報ＤＭとにおける互いに対応する音の発音タイミングの時間差を補正する装置である。図２３は、本実施形態の音響処理装置１００Ｃの構成を示すブロック図である。図２３では図１におけるものと同一の構成要素には同一の符号が付されている。図２３と図１とを対比すれば明らかように、音響処理装置１００Ｃは演算処理装置２２Ｂに変えて演算処理装置２２Ｃを有する点が音響処理装置１００Ａと異なる。

演算処理装置２２Ｃは、記憶装置２４に格納されたプログラムを実行することで、第１ピッチ軌跡生成部２４０、第２ピッチ軌跡生成部２２２、遅延量算定部２２４、遅延補正部２２６、および確率軌跡算定部２２８として機能する。図２３に示すように、本実施形態では、第１ピッチ軌跡生成部２２０に換えて第１ピッチ軌跡生成部２４０が設けられている点と、確率軌跡算定部２２８により生成される時系列データｃ（ｎ）が第１ピッチ軌跡生成部２４０に与えられる点が上記第１実施形態と異なる。確率軌跡算定部２２８については第２実施形態にて説明したものと同一である。このため、以下では、第１ピッチ軌跡生成部２４０を中心に説明する。

図２４（ａ）は第１ピッチ軌跡生成部２４０の構成例を示すブロック図である。第１ピッチ軌跡生成部２４０は、前述した第１および第２実施形態における第１ピッチ軌跡生成部２２０と同様に、音響信号ｘを解析して第１のピッチ軌跡を表す時系列データｘ（ｎ）を生成し出力する時系列データ生成手段である。図２４（ａ）と図３とを比較すれば明らかなように、第１ピッチ軌跡生成部２４０は、基本周波数解析部３３に換えて基本周波数解析部３３０を有している点が第１ピッチ軌跡生成部２２０と異なる。

基本周波数解析部３３０は、第１および第２実施形態における基本周波数解析部３３と同様に、周波数分析部３１が生成した周波数スペクトルＸを解析することで目標成分の基本周波数Ｆｔａｒの時系列を特定して単位区間Ｔｕ毎に周波数情報ＤＦを生成する。図２４（ｂ）は基本周波数解析部３３０の構成例を示す図であり、基本周波数解析部３３０は、遷移解析部６６に換えて遷移解析部６６０を有している点が基本周波数解析部３３と異なる。そして、遷移解析部６６０は第２処理部７２に換えて第２処理部７２０を有している点が遷移解析部６６と異なる。この第２処理部７２０は、状態系列ＲＢの算定を行う点では第２処理部７２と同一であるが、時系列データｃ（ｎ）を用いて尤度（Π_Ｂ（ｎ））の補正を行いつつ状態系列ＲＢの算定を行う点が第２処理部７２と異なる。

より詳細に説明すると、第２処理部７２０は、各単位区間Ｔｕにおいて時系列データｃ（ｎ）の表す確率曲線（各時刻における主旋律の音の発音／非発音の確率を表す曲線：図２１（ｂ）参照）の示す確率の対数値を確率Π_Ｂ（ｎ）に加算した値を新たな尤度（確率Π_Ｂ（ｎ））としてビタビアルゴリズム処理を実行し、状態系列ＲＢを特定する。ここで、第２処理部７２における処理において使用されていた尤度は歌唱音らしさを表す特性指標値Ｖ（ｎ）に応じて算定されており、上記確率曲線の表す確率とは独立に主旋律の音の有無を表している。このように、本実施形態では、歌唱音らしさとは全く別個の観点から見た主旋律の音の有無を表す確率を用いて上記尤度が補正されるため、ビタビアルゴリズム処理による推定精度をより高めることができると期待される。

このように、本実施形態の音響処理装置１００Ｃによれば、上記第１実施形態或いは第２実施形態よりも高い精度で音響信号ｘについての主旋律のピッチ軌跡を算出することが可能になる。なお、本実施形態では、ビタビアルゴリズムにしたがって状態系列ＲＢを特定する際に用いる尤度を時系列ｃ（ｎ）に応じて補正する場合について説明した。同様に、推定系列ＲＡを特定する際の尤度（Π_Ａ（ｎ））を時系列データｃ（ｎ）に応じて補正することも考えられる。しかし、ノートオンからノートオフに遷移する部分、或いはノートオフからノートオンに遷移する部分において楽曲情報ＤＭを過度に信頼すると、実際の演奏開始タイミングとのズレや、オーバーシュート／アンダーシュートなどを考慮しずらくなる。したがって、本実施形態のように、状態系列ＲＢを特定する際に用いる尤度の補正に時系列データｃ（ｎ）を用いるほうが好ましいと言える。なお、本実施形態では、第１実施形態の第１ピッチ軌跡生成部２２０を第１ピッチ軌跡生成部２４０に置き換え、確率軌跡算定部２２８を設ける場合について説明したが、第２実施形態の第１ピッチ軌跡生成部２２０を上記第１ピッチ軌跡生成部２４０で置き換えても勿論良い。

（Ｄ：第４実施形態）
次いで本発明の第４実施形態の音響処理装置１００Ｄについて説明する。この音響処理装置１００Ｄも、音響処理装置１００Ａ、音響処理装置１００Ｂおよび音響処理装置１０Ｃと同様に、共通の楽曲についての音響信号ｘと楽曲情報ＤＭとにおける互いに対応する音の発音タイミングの時間差を補正する装置である。図２５は、音響処理装置１００Ｄの構成を示すブロック図である。図２５では図１におけるものと同一の構成要素には同一の符号が付されている。図２５と図１とを対比すれば明らかように、音響処理装置１００Ｄの構成は、演算処理装置２２Ａに換えて演算処理装置２２Ｄを設けた点が音響処理装置１００Ａの構成と異なる。

演算処理装置２２Ｄは、記憶装置２４に格納されたプログラムを実行することで、第１ピッチ軌跡生成部２２０、第２ピッチ軌跡生成部２４２、遅延量算定部２２４、遅延補正部２２６、および確率軌跡算定部２２８として機能する。図２５に示すように、演算処理装置２２Ｄの構成は、第２ピッチ軌跡生成部２２２に換えて第２ピッチ軌跡生成部２４２を有する点と、確率軌跡算定部２２８を有する点が演算処理装置２２Ａの構成と異なる。本実施形態においても確率軌跡算定部２２８は第２実施形態におけるものと同一であるため説明を省略し、以下では第２ピッチ軌跡生成部２４２を中心に説明する。

図２６は、第２ピッチ軌跡生成部２４２の構成例を示す図である。図２６に示すように、第２ピッチ軌跡生成部２４２は、解析処理部４０、およびテンポ補正部６０を有している。解析処理部４０は、音響信号ｘと楽曲情報ＤＭが指定する各楽音の時系列とについて楽曲中で相対応する位置を特定（同期解析）する。解析処理部４０は、第１特徴抽出部４２と第２特徴抽出部４６と同期解析部４８とを含んでいる。

第１特徴抽出部４２は、音響信号ｘを時間軸上で区分した単位区間（フレーム）Ｆ_１毎に（図２７参照）、音響信号ｘのクロマベクトル（ピッチクラスプロファイル（ＰＣＰ：pitch class profile））Ψ_１を順次に算定する。クロマベクトルΨ_１は、音響信号ｘの和声感（ハーモニー感）の指標となる特徴量であり、音階中の相異なる音名（Ｃ，Ｃ#，Ｄ，Ｄ#，Ｅ，Ｆ，Ｆ#，Ｇ，Ｇ#，Ａ，Ａ#，Ｂ）に対応する１２次元のベクトルで表現される。クロマベクトルΨ_１を構成する１２個の要素の各々は、音響信号ｘのうち当該要素に対応する音名の周波数成分（１オクターブに相当する周波数帯域を音名毎に区分した１２個の周波数帯域のうち当該音名に対応する周波数帯域の成分）の強度を複数のオクターブについて加算または平均した数値に相当する。すなわち、第１特徴抽出部４２は、高速フーリエ変換などの公知の技術で音響信号ｘの単位区間Ｆ₁毎に周波数スペクトル（パワースペクトル）を生成し、周波数スペクトルのうち１オクターブに相当する周波数帯域を複数のオクターブについて加算することでクロマベクトルΨ_１を生成する。

第２特徴抽出部４６は、楽曲情報ＤＭの表す音の時間波形を時間軸上で区分したとした場合における単位区間Ｆ_２毎に（図２７参照）、当該楽曲情報ＤＭについてのクロマベクトルΨ_２を以下の要領で算出する。本実施形態においては、単位区間Ｆ_１と単位区間Ｆ_２とは同じ時間長の区間であるが、単位区間Ｆ_１と単位区間Ｆ_２とを相異なる時間長に設定しても勿論良い。より詳細に説明すると、第２特徴抽出部４６は、楽曲のパート毎に楽曲情報ＤＭに含まれる当該パートのイベントデータおよびタイミングデータを参照し、イベントデータの表すノート番号の周波数に相当する音名にてノートオンからノートオフの期間に値が１の要素を有し、それ以外は値が０の要素を有する１２次元ベクトルを単位区間Ｆ_２毎に生成する。そして、第２特徴抽出部４６は、各パートについて単位区間Ｆ_２毎に算出した上記１２次元ベクトルを、同じ単位区間Ｆ_２に対応するもの同士を重み付け加算する。なお、この重み付け加算において各パートの重みをどの程度にするのかについては適宜実験を行って定めても良く、統計的に定めても良いが、主旋律パートから算出したものに最も重い重みを付与することが好ましい。そして、第２特徴抽出部４６は、単位区間Ｆ_２毎に重み付け加算を行って得られた１２次元ベクトルの時系列に対して、音の立上りにおいては当該音に対応する要素が徐々に表れ（すなわち、当該要素の値が時間の経過とともに０から１まで徐々に増加し）、かつ立下りにおいては当該音に対応する要素が徐々に消える（当該要素の値が時間の経過とともに１から０まで徐々に減少する）ようにする補正を時系列データｃ（ｎ）にしたがって施し（例えば、該当する要素に同時刻における時系列データｃ（ｎ）を乗算する等）、当該補正後の１２次元ベクトルをクロマベクトルΨ_２として出力する。なお、本実施形態と類似の方法として、ＭＩＤＩ音源を用いて楽曲情報ＤＭを波形化し、第１特徴抽出部４２と同様の処理を行ってクロマベクトルを生成する態様も考えられる。

図２６の同期解析部４８は、第１特徴抽出部４２が単位区間Ｆ_１毎に生成した各クロマベクトルΨ_１と第２特徴抽出部４６が単位区間Ｆ_２毎に生成した各クロマベクトルΨ_２とを比較し、音響信号Ｐ_１と楽曲情報ＤＭ（以下、便宜上、「音響信号Ｐ_２」とも呼ぶ）とにおいて楽曲中で相互に対応する時間軸上の位置（例えば楽曲の同じ楽音に対応する位置）を比較の結果に応じて特定する。具体的には、同期解析部４８は、図２７に例示した対応テーブルＴ_ＢＬ１を生成する。対応テーブルＴ_ＢＬ１は、音響信号Ｐ_１の複数の単位区間Ｆ_１（Ｆ_１［１］〜Ｆ_１［Ｍ］）と音響信号Ｐ_２の複数の単位区間Ｆ_２（Ｆ_２［１］〜Ｆ_２［Ｎ］）とのうちクロマベクトルΨ_１とクロマベクトルΨ_２とが相互に類似する（すなわち、波形の特徴が同一のまたは類似する）単位区間Ｆ_１と単位区間Ｆ_２とを対応させるデータテーブルである。

図２６に示すように、同期解析部４８は、同期点検出部５２と区間対照部５４とを含んでいる。同期点検出部５２は、音響信号Ｐ_１の同期点Ｓ_１と音響信号Ｐ_２の同期点Ｓ_２とを検出する。同期点Ｓ_１および同期点Ｓ_２は、楽曲の歌唱や伴奏が開始する時点（楽曲の開始前の無音の区間が終了する時点）である。すなわち、同期点Ｓ_１および同期点Ｓ_２は、音響信号Ｐ_１と音響信号Ｐ_２とが最初に同期する時点に相当する。同期点Ｓ_ｋ（ｋ＝１，２）は単位区間Ｆ_ｋの番号で指定される。

図２８は、同期点検出部５２の動作のフローチャートである。同期点検出部５２は、音響信号Ｐ_ｋ（ｋ＝１，２）の基準点α_ｋを特定する（ＳＡ１，ＳＡ２）。基準点α_ｋ（ｋ＝１，２）は音響信号Ｐ_ｋの強度（音量）が最初に閾値を上回る時点である。

図２９は、同期点検出部５２が基準点α_ｋを特定する処理（ＳＡ１，ＳＡ２）のフローチャートである。同期点検出部５２は、基準点α_ｋをゼロ（各音響信号Ｐ_ｋにおける最初の単位区間Ｆ_ｋ）に初期化したうえで（ＳＢ１）、音響信号Ｐ_ｋのうち基準点α_ｋでの強度Ｌ_ｋが所定の閾値Ｌ_ＴＨを上回るか否かを判定する（ＳＢ２）。強度Ｌ_ｋが閾値Ｌ_ＴＨを下回る場合（ＳＢ２：ＮＯ）、同期点検出部５２は、基準点α_ｋを所定値δ（例えばδ＝１）だけ後方の時点に更新し（ＳＢ３）、更新後の基準点α_ｋについてステップＳＢ２の処理を実行する。強度Ｌ_ｋが閾値Ｌ_ＴＨを上回ると（ＳＢ２：ＹＥＳ）、同期点検出部５２は図２９の処理を終了する。したがって、音響信号Ｐ_ｋのうち強度Ｌ_ｋが最初に閾値Ｌ_ＴＨを上回る時点が基準点α_ｋとして確定する。

ところで、音響信号Ｐ_２のうち強度Ｌ_２が最初に閾値Ｌ_ＴＨを上回る基準点α_２は、楽曲が実際に開始する時点（音響信号Ｐ_１にて楽曲が開始する時点）に該当しない可能性がある。例えば、伴奏音に先立って歌唱音が開始する楽曲のカラオケ用の楽曲情報ＤＭを想定すると、音響信号Ｐ_２においては歌唱者が拍子を把握するための拍子音が伴奏音の開始前に発生する。したがって、拍子音の時点が基準点α_２として検出される可能性がある。そこで、同期点検出部５２は、図２８のステップＳＡ３において、音響信号Ｐ_１の各クロマベクトルΨ_１と音響信号Ｐ_２の各クロマベクトルΨ_２とを比較する（すなわち両者の音楽的な類否を判断する）ことで、音響信号Ｐ_２における正確な同期点Ｓ_２を特定する。音響信号Ｐ_１の同期点Ｓ_１は、ステップＳＡ１で特定した基準点α_１に設定される。

図３０は、図２８のステップＳＡ３の処理の概要を示す説明図である。同期点検出部５２は、音響信号Ｐ_１のうち同期点Ｓ_１（基準点α_１）を始点とする参照区間σ_ＲＥＦのクロマベクトルΨ_１と、音響信号Ｐ_２のうち始点Ｓ_Ｘや時間長Ｗ_Ｘが相違する複数の候補区間σ_Ｘの各々のクロマベクトルΨ_２とを比較する。すなわち、同期点検出部５２は、図３０に示すように、時間軸上の始点Ｓ_Ｘを変化させた複数の場合の各々について、音響信号Ｐ_２のうち当該始点Ｓ_Ｘからの時間長Ｗ_Ｘが相違する複数の候補区間σ_Ｘの各々のクロマベクトルΨ_２を、音響信号Ｐ_１の参照区間σ_ＲＥＦのクロマベクトルΨ_１と比較する。そして、同期点検出部５２は、複数の候補区間σ_ＸのうちクロマベクトルΨ_２が参照区間σ_ＲＥＦのクロマベクトルΨ_１に最も類似する候補区間σ_Ｘを、参照区間σ_ＲＥＦに対応する同期区間σ_Ｓとして特定する。同期区間σ_Ｓの始点が同期点Ｓ_２に相当する。

図３１は、図３０の動作のフローチャートである。図３１に示すように、同期点検出部５２は、候補区間σ_Ｘと参照区間σ_ＲＥＦとの音楽的な類否の指標（以下「類否指標」という）γが代入される変数βを最大値γ_ＭＡＸに初期化し、参照区間σ_ＲＥＦの同期点Ｓ_１を基準点α_１に設定する（ＳＣ１）。また、同期点検出部５２は、候補区間σ_Ｘの時間長Ｗ_Ｘを下限値Ｌ_Ａに初期化し、候補区間σ_Ｘの始点Ｓ_Ｘを、図３０に示すように、図２８のステップＳＡ２で特定した基準点α_２から所定の時間長Ｔだけ手前の時点（α_２−Ｔ）に初期化する（ＳＣ２）。下限値Ｌ_Ａは、参照区間σ_ＲＥＦよりも短い時間（例えば時間長Ｗ_ＲＥＦの半分）に設定される。また、時間長Ｔは、例えば参照区間σ_ＲＥＦの時間長Ｗ_ＲＥＦの半分（Ｗ_ＲＥＦ/２）に設定される。

同期点検出部５２は、音響信号Ｐ_１の参照区間σ_ＲＥＦ内の各単位区間Ｆ_１のクロマベクトルΨ_１と、音響信号Ｐ_２のうち始点Ｓ_Ｘから時間長Ｗ_Ｘにわたる候補区間σ_Ｘ内の各単位区間Ｆ_２のクロマベクトルΨ_２とを比較する（ＳＣ３，ＳＣ４）。具体的には、同期点検出部５２は、候補区間σ_Ｘを参照区間σ_ＲＥＦの時間長Ｗ_ＲＥＦに伸縮し（すなわち、始点および終点を参照区間σ_ＲＥＦに合致させ）、伸縮後の候補区間σ_Ｘのうち参照区間σ_ＲＥＦ内の各単位区間Ｆ_１に対応する時点のクロマベクトルΨ_２を、伸縮前の候補区間σ_Ｘ内の各単位区間Ｆ_２のクロマベクトルΨ_２の補間により算定する（ＳＣ３）。そして、同期点検出部５２は、参照区間σ_ＲＥＦ内のクロマベクトルΨ_１と候補区間σ_Ｘ内の補間後のクロマベクトルΨ_２との距離Ｄを、相対応する時点のクロマベクトルΨ_１とクロマベクトルΨ_２との対毎に算定し、距離Ｄの総和または平均を類否指標γとして算定する（ＳＣ４）。距離Ｄは、クロマベクトルΨ_１とクロマベクトルΨ_２との類否の尺度となる指標値である。例えば、クロマベクトルΨ_１とクロマベクトルΨ_２との内積や幾何距離が距離Ｄとして算定される。したがって、類否指標γが小さいほど、音響信号Ｐ_１の参照区間σ_ＲＥＦと音響信号Ｐ_２の候補区間σ_Ｘとが音楽的に類似するという傾向がある。

同期点検出部５２は、ステップＳＣ４で算定した類否指標γが変数βを下回るか否かを判定する（ＳＣ５）。類否指標γが変数βを下回る場合（ＳＣ５：ＹＥＳ）、同期点検出部５２は、直前のステップＳＣ４で算定した類否指標γを変数βに代入し、現時点の候補区間σ_Ｘの時間長Ｗ_Ｘを同期区間σ_Ｓの暫定的な時間長Ｗ_Ｓとして設定し、現時点の候補区間σ_Ｘの始点Ｓ_Ｘを暫定的な同期点Ｓ_２（同期区間σ_Ｓの始点）として設定する（ＳＣ６）。他方、類否指標γが変数βを上回る場合（ＳＣ５：ＮＯ）、同期点検出部５２は、ステップＳＣ６を実行せずに処理をステップＳＣ７に移行する。すなわち、時間長Ｗ_Ｓおよび同期点Ｓ_２は、参照区間σ_ＲＥＦに音楽的に類似する候補区間σ_Ｘの時間長Ｗ_Ｘおよび始点Ｓ_Ｘに順次に更新される。

次いで、同期点検出部５２は、現時点の候補区間σ_Ｘの時間長Ｗ_Ｘに所定値Ｂを加算し（ＳＣ７）、加算後の時間長Ｗ_Ｘが上限値Ｌ_Ｂを上回るか否かを判定する（ＳＣ８）。上限値Ｌ_Ｂは、参照区間σ_ＲＥＦよりも長い時間（例えば時間長Ｗ_ＲＥＦの１．５倍）に設定される。ステップＳＣ８の結果が否定である場合、同期点検出部５２は処理をステップＳＣ３に移行する。すなわち、図３０に示すように、更新前の候補区間σ_Ｘと始点Ｓ_Ｘが共通で時間長Ｗ_Ｘが相違する（所定値Ｂだけ長い）新たな候補区間σ_Ｘについて参照区間σ_ＲＥＦとの類否が判定される（ＳＣ３〜ＳＣ８）。

他方、ステップＳＣ８の結果が肯定である場合（Ｗ_Ｘ＞Ｌ_Ｂ）、同期点検出部５２は、図３０に示すように、候補区間σ_Ｘの始点Ｓ_Ｘを所定値Ｃだけ後方に移動し、候補区間σ_Ｘの時間長Ｗ_Ｘを下限値Ｌ_Ａ（例えば参照区間σ_ＲＥＦの時間長Ｗ_ＲＥＦの半分）に初期化する（ＳＣ９）。そして、同期点検出部５２は、ステップＳＣ９での更新後の始点Ｓ_Ｘが、図３０に示すように音響信号Ｐ_２の基準点α_２から所定値Ｔ（例えば時間長Ｗ_ＲＥＦの半分）だけ経過した時点よりも後方か否かを判定する（ＳＣ１０）。ステップＳＣ１０の結果が否定である場合、同期点検出部５２は、ステップＳＣ９での更新後の始点Ｓ_ＸについてステップＳＣ３以降の処理（候補区間σ_Ｘの時間長Ｗ_Ｘを変化させながら参照区間σ_ＲＥＦと始点Ｓ_Ｘからの候補区間σ_Ｘとを比較する処理）を反復する。他方、ステップＳＣ１０の結果が肯定である場合、同期点検出部５２は図３１の処理を終了する。

以上の処理の結果、図３０に示すように、音響信号Ｐ_２の基準点α_２から前後の時間長Ｔ（合計２Ｔ）にわたる範囲内で始点Ｓ_Ｘを所定値Ｃずつ移動させた複数の場合の各々について、下限値Ｌ_Ａから上限値Ｌ_Ｂまでの範囲内で時間長Ｗ_Ｘを所定値Ｂずつ変化させた複数の候補区間σ_Ｘの各々と参照区間σ_ＲＥＦとの音楽的な類否が判定される。そして、図３１の処理が終了した段階では、複数の候補区間σ_Ｘのうち類否指標γが最小となる候補区間σ_Ｘ（参照区間σ_ＲＥＦに最も類似する候補区間σ_Ｘ）の時間長Ｗ_Ｘおよび始点Ｓ_Ｘが、同期区間σ_Ｓの時間長Ｗ_Ｓおよび同期点Ｓ_２として確定する。以上が同期点検出部５２の動作である。

図２６の区間対照部５４は、音響信号Ｐ_１の各単位区間Ｆ_１と音響信号Ｐ_２の各単位区間Ｆ_２との対応を解析することで対応テーブルＴ_ＢＬ１を生成する。つまり、区間対照部５４は、音響信号Ｐ_１の各単位区間Ｆ_１と音響信号Ｐ_２の各単位区間Ｆ_２とについて波形の特徴（本実施形態では、音楽的な特徴）が同一のまたは類似するもの同士を対応付ける対応付け手段の役割を果たす。区間対照部５４による音響信号Ｐ_１と音響信号Ｐ_２との対比には、以下に例示するＤＰ（dynamic programming：動的計画法）マッチングが好適に採用される。図３２に示すように、区間対照部５４は、音響信号Ｐ_１のうち同期点Ｓ_１に対応する単位区間Ｆ_１［１］から最後の単位区間Ｆ_１［Ｍ］までの時系列（横軸）と、音響信号Ｐ_２のうち同期点検出部５２が図３１の処理で特定した同期点Ｓ_２に対応する単位区間Ｆ_２［１］から最後の単位区間Ｆ_２［Ｎ］までの時系列（縦軸）とを対比する。すなわち、同期点検出部５２による前述の処理は、区間対照部５４による解析の対象となる区間の先頭（楽曲の開始点）を音響信号Ｐ_１と音響信号Ｐ_２とで対応させる処理（先頭合わせ）に相当する。

区間対照部５４は、まず、音響信号Ｐ_１の単位区間Ｆ_１［１］〜Ｆ_１［Ｍ］の時系列と音響信号Ｐ_２の単位区間Ｆ_２［１］〜Ｆ_２［Ｎ］の時系列との各々から単位区間Ｆ_１［ｍ］（ｍ＝１〜Ｍ）および単位区間Ｆ_２［ｎ］（ｎ＝１〜Ｎ）を選択する全通りの組合せについて、単位区間Ｆ_１［ｍ］のクロマベクトルΨ_１と単位区間Ｆ_２［ｎ］のクロマベクトルΨ_２との距離Ｄ［ｍ，ｎ］（例えば内積や幾何距離）を算定する。したがって、距離Ｄ［１，１］〜Ｄ［Ｍ，Ｎ］で構成されるＭ行×Ｎ列の行列（コストマトリクス）が生成される。

区間対照部５４は、単位区間Ｆ_１［１］（同期点Ｓ_１）および単位区間Ｆ_２［１］（同期点Ｓ_２）の組合せに対応する時点ｐ［１，１］から、任意の単位区間Ｆ_１［ｍ］および単位区間Ｆ_２［ｎ］の組合せに対応する時点ｐ［ｍ，ｎ］までの複数の経路のうち、距離Ｄ［１，１］〜Ｄ［ｍ，ｎ］の累積値ｇ［ｍ，ｎ］が最小値となる経路について当該累積値ｇ［ｍ，ｎ］を順次に特定する。そして、区間対照部５４は、図３２に示すように、音響信号Ｐ_１の最後の単位区間Ｆ_１［Ｍ］と音響信号Ｐ_２の最後の単位区間Ｆ_２［Ｎ］とに対応する時点ｐ［Ｍ，Ｎ］での累積値ｇ［Ｍ，Ｎ］が最小となる最適経路（マッチングパス）ＭＰを特定し、最適経路ＭＰ上の各時点に対応する単位区間Ｆ_１［ｍ］と単位区間Ｆ_２［ｎ］とを対応させた図２７の対応テーブルＴ_ＢＬ１を作成する。

テンポ補正部６０は、楽曲情報ＤＭのうち主旋律パートが指定する楽音の波形を表す音響信号を生成し、当該音響信号をサンプリングして時系列データｄ（ｎ）を生成する。テンポ補正部６０は、音響信号Ｐ_１の再生に同期するように楽曲情報ＤＭの再生テンポを対応テーブルＴ_ＢＬ１に応じて可変に設定する。具体的には、テンポ補正部６０は、対応テーブルＴ_ＢＬ１にて各単位区間Ｆ_１に対応づけられた単位区間Ｆ_２が当該単位区間Ｆ_１の再生と同期して再生れるように楽曲情報ＤＭの再生テンポを制御する。これにより、音響信号Ｐ_１（すなわち、音響信号ｘ）とテンポを揃えた時系列データｄ（ｎ）が生成される。以下、当該時系列データｄ（ｎ）と音響信号ｘから生成される時系列データｘ（ｎ）とに基づいて音響信号ｘと楽曲情報ＤＭとにおける互いに対応する音の発音タイミングの時間差が補正される。

以上説明したように本実施形態の音響処理装置１００Ｄによれば、共通の楽曲についての楽曲情報ＤＭと音響信号ｘとにおいて互いに対応する音の発音タイミングに時間差があり、かつ音響信号ｘのテンポが途中から変っている場合（すなわち、楽曲全体にわたって当該時間差が一様ではない場合）であっても両者を時間軸上において同期させることが可能になる。なお、本実施形態では、クロマベクトルを用いたＤＰマッチングによって音響信号ｘと楽曲情報ＤＭのテンポのずれを事前に補正する場合について説明したが、他の特徴量（例えばスペクトログラムやＭＦＣＣ）を用いたＤＰマッチングにより両者のテンポずれを補正するようにしても勿論良い。また、本実施形態では、第１実施形態の音響処理装置１００Ａの第２ピッチ軌跡生成部２２２を第２ピッチ軌跡生成部２４２で置き換え、確率軌跡算定部２２８を設ける場合について説明した。しかし、第２実施形態の音響処理装置１００Ｂの第２ピッチ軌跡生成部２２２を第２ピッチ軌跡生成部２４２で置き換えても良く、また、第３実施形態の音響処理装置１００Ｃの第２ピッチ軌跡生成部２２２を第２ピッチ軌跡生成部２４２で置き換えても良い。さらに、第２実施形態における第１ピッチ軌跡生成部２２０を上記第３実施形態の第１ピッチ軌跡生成部２４０で置き換え、かつ第２実施形態の第２ピッチ軌跡生成部２２２を本実施形態の第２ピッチ軌跡生成部２４２で置き換えても良い。

（Ｅ：変形例）
以上本発明の各実施形態について説明したが、これら実施形態に以下の変形を加えても勿論良い。
（１）上記各実施形態の音響処理装置の具体的な利用態様としては、特許文献１に開示された技術と同様にカラオケ装置における伴奏音と歌詞の同期再生への適用が考えられる。また、相異なる音源が発音した複数の音響成分（歌唱音や伴奏音）の混合音の時間波形を表現する音響信号から各音響成分を分離抽出するためのマスクを生成する装置（所謂音源分離装置）への適用も考えられる。このような音源分離装置の具体例としては、楽曲の歌唱音と伴奏音とを含む音響信号から歌唱音成分を除去してカラオケ演奏用の音響信号をバッチ処理等により事前に作成するカラオケオーサリング装置が挙げられる。他にも、楽曲の歌いまわしについて複数のバリエーションで記録された音響信号の各々に対して当該楽曲の楽曲情報を同期させて「歌いまわし教師情報」を作成し、この教師情報と採点における歌唱ピッチ推定結果とのマッチングで採点を行うことや、複数の「歌いまわし教師情報」のどれに近いかを点数化して表示することへの応用が考えられる。

（２）指標算定部６４は省略され得る。指標算定部６４を省略した構成では、第１処理部７１による推定系列ＲＡの特定や第２処理部７２による状態系列ＲＢの特定に特性指標値Ｖ（ｎ）が適用されない。例えば、図１１の処理Ｓ４２での確率Ｐ_Ａ２（ｎ）の算定が省略され、尤度Ｌｓ（Ｆｃ（ｎ））に応じた確率Ｐ_Ａ１（ｎ）と前後の単位区間Ｔｕでの周波数差εに応じた確率Ｐ_Ａ３（ｎ）＿νとに応じて推定系列ＲＡが特定される。また、図１５の処理Ｓ５２での確率Ｐ_Ｂ１＿ｖの算定が省略され、処理Ｓ５３で算定される確率（Ｐ_Ｂ２＿ｖｖ，Ｐ_Ｂ２＿ｕｖ，Ｐ_Ｂ２＿ｕｕ，Ｐ_Ｂ２＿ｖｕ）に応じて状態系列ＲＢが特定される。また、特性指標値Ｖ（ｎ）を算定する手段はＳＶＭに限定されない。例えばk-meansアルゴリズム等の公知の技術による学習の結果を利用した構成でも、特性指標値Ｖ（ｎ）の算定が実現される。

（３）上記第１〜第４実施形態では、共通の楽曲についての楽曲情報と音響信号とにおける互いに対応する音の発音タイミングの時間差を適応フィルタ処理によって求めたが、ＤＰマッチング等の他の方法によって当該時間差を求めても勿論良い。

（４）周波数検出部６２がＮ個の候補周波数Ｆｃ（１）〜Ｆｃ（Ｎ）を検出する方法は任意である。例えば特許文献２に開示された方法で基本周波数の確率密度関数を推定し、確率密度の顕著なピークが存在するＮ個の基本周波数を候補周波数Ｆｃ（１）〜Ｆｃ（Ｎ）として特定する構成も採用され得る。

（５）上記第３実施形態では、時系列データｃ（ｎ）を時系列データｘ（ｎ）の生成に利用するとともに、当該時系列データｘ（ｎ）と時系列データｄ（ｎ）とを用いて、共通の楽曲についての音響信号ｘと楽曲情報ＤＭとにおける互いに対応する音の発音タイミングの時間差を補正した。しかし、第３実施形態の音響処理装置１００Ｃから第２ピッチ軌跡生成部２２２、遅延量算定部２２４および遅延補正部２２６を省略し、時系列データｘ（ｎ）の生成までに留めても良い。このような音響処理装置は、共通する楽曲の音響信号ｘと楽曲情報ＤＭの何れか一方を補正することにより両者の同期を図るものではないが、音響信号ｘについての主旋律のピッチ軌跡の算出精度を向上させるものであり、広い意味では音響信号ｘと楽曲情報ＤＭの両者の同期を図る技術と言える。同様に、第４実施形態の音響処理装置１００Ｄから第１ピッチ軌跡生成部２２２、遅延量算定部２２４および遅延補正部２２６を省略して新たな音響処理装置を構成しても良く、さらに、テンポ補正部６０に換えて、楽曲情報ＤＭにおける音の発音タイミングを表すデータを対応テーブルＴ_ＢＬ１の格納内容に応じて補正する楽曲情報補正手段を設けて新たな音響処理装置を構成しても良い。

（６）上記各実施形態では、本発明の特徴を顕著に示す処理を演算処理装置に実行させるプログラムが記憶装置２４に予め記憶されていた。しかし、これらプログラムを例えばＣＤ−ＲＯＭ（Compact Disk-Read Only Memory）等のコンピュータ読み取り可能な記録媒体に書き込んで配布しても良く、また、インターネットなどの電気通信回線経由のダウンロードにより配布しても良い。このようにして配布されるプログラムにしたがって一般的なコンピュータを作動させることで、当該コンピュータを本発明の音響処理装置として機能させることが可能になるからである。

（７）上記各実施形態では、楽曲の主旋律における基本周波数の時間変化を表すピッチ軌跡に着目して共通の楽曲についての音響信号と楽曲情報との同期再生を実現する場合について説明したが、主旋律以外の「音の並び」（例えば特徴的な旋律やフレーズなど）に着目して上記同期再生を実現しても勿論良い。また、上記第各実施形態では、確率軌跡算定部２２８により算定される時系列データｃ（ｎ）に基づいて、音の立上り区間については音が緩やかに立上り、かつ音の立下り区間については音が緩やかに立下がるようにする制御（例えば、第２実施形態では、周波数が緩やかに変化するようにする制御、第４実施形態では、当該音に対応するクロマベクトルの要素が徐々に表れ、徐々に消えるようにする制御）を行った。しかし、音の立上り区間と立下り区間の何れか一方についてのみ上記制御を行うようにしても勿論良い。そして、音の立上り区間についてのみ上記制御を行う場合には、時系列データｃ（ｎ）として、音の並び（例えば、主旋律）を構成する音の各時刻における発音確率を表すとともに、当該音が緩やかに立上ることを表す時系列データを確率軌跡算定部２２８に算定させるようにすれば良い。同様に、音の立下り区間についてのみ上記制御を行う場合には、時系列データｃ（ｎ）として、音の並び（例えば、主旋律）を構成する音の各時刻における発音確率を表すとともに、当該音が緩やかに立下がることを表す時系列データを確率軌跡算定部２２８に算定させるようにすれば良い。

１００Ａ，１００Ｂ，１００Ｃ，１００Ｄ…音響処理装置、２００…信号供給装置、２２Ａ，２２Ｂ、２２Ｃ、２２Ｄ…演算処理装置、２４…記憶装置、２２０，２４０…第１ピッチ軌跡生成部、２２２，２４２…第２ピッチ軌跡生成部、２２４，２４４…遅延量算定部、２２６…遅延補正部、２２８…確率軌跡算定部。

Claims

楽曲の楽音の時間波形を表す音響信号を解析し、前記楽曲における音の並びについての基本周波数の時間変動を表す第１の時系列データを生成する第１の時系列データ生成手段と、
前記楽曲を構成するパート毎に当該パートを構成する音符の音高と発音タイミングとを表すデータをその発音順に配列した楽曲情報を解析し、前記音の並びについての基本周波数の時間変動を表す第２の時系列データを生成する第２の時系列データ生成手段と、
前記楽曲情報を解析し、前記音の並びを構成する音の各時刻における発音確率を表すとともに、当該音が緩やかに立上ること、または当該音が緩やかに立下がることの少なくとも一方を表す第３の時系列データを生成する第３の時系列データ生成手段と、
前記第１、第２および第３の時系列データに基づいて、前記楽曲情報と前記音響信号とにおける互いに対応する音の発音タイミングの時間差を算定し、その時間差が解消されるように前記楽曲情報と前記音響信号の何れか一方を補正する補正手段と、
を有することを特徴とする音響処理装置。
前記補正手段は、前記第１の時系列データへの当該フィルタ係数列の畳み込み結果が前記第２の時系列データと一致するものとなるように定められるフィルタ係数列に基づいて前記発音タイミングの時間差を算定する処理を、音の立ち上がりまたは立下りの少なくとも一方において周波数が徐々に変化するように前記第３の時系列データに基づく制御を行いつつ実行することを特徴とする請求項１に記載の音響処理装置。
前記第１の時系列データ生成手段は、
前記音響信号を所定時間ずつ区画して得られる単位区間毎に当該単位区間の音響信号の基本周波数の候補を複数特定する周波数検出手段と、
前記単位区間の各々について前記周波数検出手段により特定された複数の候補のうちから選択した基本周波数を複数の単位区間にわたり配列した系列であって前記音響信号における前記音の並びの基本周波数に該当する可能性が高い推定系列を、当該音の並びを構成する音の尤度に基づくビタビアルゴリズム処理により特定し、当該推定系列に基づいて前記第１の時系列データを生成する基本周波数解析手段と、を含み、
前記基本周波数解析手段は、
前記第３の時系列データの表す確率にしたがって各単位区間における前記尤度を補正しつつ前記ビタビアルゴリズム処理を実行して前記推定系列を特定することを特徴とする請求項１または２に記載の音響処理装置。
前記第２の時系列データ生成手段は、
前記楽曲情報の表す前記音の並びにおける音の時間波形を所定時間分の単位区間に区画するとともに前記音響信号を同単位区間に区画し、前者の各単位区間と後者の各単位区間とについて波形の特徴が同一のまたは類似するもの同士をＤＰマッチングによって対応付ける対応付け手段を有し、前記対応付け手段による対応付けの結果に基づいてテンポを前記音響信号に合わせる処理を実行し、前記第２の時系列データを生成することを特徴とする請求項１〜３の何れか１項に記載の音響処理装置。
前記対応付け手段は、前記音響信号の各単位区間から各々の要素が１２音階の各音の発音の有無を表す１２次元ベクトルであるクロマベクトルを算出するとともに、前記楽曲情報を解析して単位区間毎にクロマベクトルを算出し、後者のクロマベクトルと前者のクロマベクトルとを各単位区間における波形の特徴を表す特徴量としてＤＰマッチングを実行することを特徴とする請求項４に記載の音響処理装置。