JP5287616B2

JP5287616B2 - 音響処理装置およびプログラム

Info

Publication number: JP5287616B2
Application number: JP2009204512A
Authority: JP
Inventors: 美希荒井; 誠一橋本; 康之梅山
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2009-09-04
Filing date: 2009-09-04
Publication date: 2013-09-11
Anticipated expiration: 2029-09-04
Also published as: JP2011053589A

Description

本発明は、楽曲の楽音の波形を表す複数の音響信号の相互間の対応を特定する技術に関する。

楽曲のＭＩＤＩ（Musical Instrument Digital Interface）データが時系列に指定する歌詞や楽譜（例えばコード譜やタブ譜）の表示と、例えばＣＤから取得した当該楽曲の音響信号（以下「再生音響信号」という）の再生とを並列に実行すれば、再生音響信号の高音質な伴奏音のもとで歌詞や楽譜を確認しながら歌唱や演奏を練習することが可能である。しかし、時間軸上で相互に同期するようにＭＩＤＩデータと再生音響信号とを作成するという煩雑な作業が必要となる。

そこで、例えば特許文献１には、楽曲の歌詞の表示が再生音響信号の再生に同期するようにＭＩＤＩデータを変換する技術が開示されている。具体的には、再生音響信号の再生の総時間とＭＩＤＩデータの再生の総時間との長短に応じてＭＩＤＩデータのテンポを調整する構成や、再生音響信号における歌唱音の開始点とＭＩＤＩデータの歌詞の開始点とが合致するようにＭＩＤＩデータのテンポを調整する構成が提案されている。

特開２００４−２１２４７３号公報

しかし、特許文献１の技術のもとでは、楽曲の特定の区間（全区間や歌唱区間）の始点や終点にて再生音響信号の再生と歌詞の表示とが同期するに過ぎないから、当該区間の途中の時点では両者の同期が担保されないという問題がある。なお、以上の説明では歌詞の表示を例示したが、歌詞の表示以外の様々な動作を指示する制御データの処理を再生音響信号の再生に同期させる場合にも同様の問題が発生し得る。以上の事情を考慮して、本発明は、制御データの処理と音響信号の再生とを高精度に同期させることを目的とする。

以上の課題を解決するために、本発明に係る音響処理装置は、楽曲に関する情報を時系列に指定する制御データを記憶する記憶手段と、楽曲の楽音の波形を表す第１音響信号の特徴量を単位区間毎に順次に生成する第１特徴抽出手段と、制御データが指定する情報の時系列に同期する楽音の波形を表す第２音響信号の特徴量を単位区間毎に順次に生成する第２特徴抽出手段と、第１音響信号を時間軸上で区分した複数の参照区間の各々について、当該参照区間内の複数の単位区間の各々の特徴量と、第２音響信号のうち候補区間内の複数の単位区間の各々の特徴量との比較を、時間長が相違する複数の候補区間の各々について実行し、複数の候補区間のうち各単位区間の特徴量が当該参照区間内の各単位区間の特徴量に類似する候補区間を、当該参照区間に対応する同期区間として特定する区間対照手段と、第１音響信号の各参照区間の再生と、当該参照区間について区間対照手段が特定した同期区間に対応する制御データの処理とが同期するように、制御データを処理する制御手段とを具備する。

以上の構成においては、第１音響信号の複数の参照区間の各々について、第２音響信号のうち当該参照区間に特徴量が類似する同期区間が特定されるから、例えば楽曲の全区間や歌唱区間の始点または終点のみで音響信号の再生と歌詞の表示とを同期させる特許文献１の構成と比較すると、第１音響信号の再生と制御データの処理（例えば歌詞の表示）とを高精度に同期させることが可能である。また、候補区間の時間長を変化させながら第１音響信号の参照区間と第２音響信号の候補区間とが比較され、複数の候補区間のうち参照区間に類似する候補区間が同期区間として特定されるから、第１音響信号や第２音響信号のテンポが楽曲中で変化する場合でも、相対応する参照区間と同期区間とを高精度に検出できるという利点がある。また、参照区間および候補区間は複数の単位区間で構成されるから、第１音響信号と第２音響信号との対応を単位区間毎に解析する構成と比較して、同期解析手段の処理の負荷が軽減されるという利点もある。

本発明の好適な態様において、区間対照手段は、時間長が相違する複数の候補区間の各々について、参照区間に対応するように当該候補区間を伸縮し、第２音響信号のうち参照区間内の各単位区間に対応する時点の特徴量を、伸縮前の候補区間内の各単位区間の特徴量の補間により算定し、参照区間内の各単位区間の特徴量と当該候補区間の補間後の各特徴量とを比較する。以上の態様においては、第２音響信号のうち参照区間内の各単位区間に対応する時点の特徴量が補間により算定されたうえで参照区間内の各単位区間の特徴量と比較されるから、例えば補間を実行せずに候補区間内の各特徴量を参照区間内の各特徴量と比較する構成と比較して、参照区間と候補区間との類否を高精度に判定することが可能である。

以上の各態様の具体例において、記憶手段は、楽曲を構成する楽音の時系列を指定する楽音データを記憶し、楽音データから第２音響信号を生成するデータ変換手段を具備する。以上の態様においては、同期解析手段による処理（同期解析）に適用される第２音響信号が楽音データから生成されるので、例えばカラオケ用の楽曲データを流用できるという利点がある。また、第２音響信号が楽音データとは別個に用意された構成と比較すると、記憶装置に必要な容量が削減されるという利点もある。

以上の各形態における特徴量は、例えばクロマベクトルである。すなわち、第１特徴抽出手段は、第１音響信号のクロマベクトルを単位区間毎に順次に生成し、第２特徴抽出手段は、第２音響信号のクロマベクトルを単位区間毎に順次に生成する。以上の構成においては、音響信号の和声感の指標となるクロマベクトルが特徴量として生成されるから、例えば第１音響信号の拍点と第２音響信号の拍点とを同期させる構成と比較して、第１音響信号と第２音響信号とで相対応する位置を高精度に特定できるという利点がある。クロマベクトルは、相異なる音名（クロマ）に対応する複数の要素の各々が、音響信号のうち当該要素に対応する音名の成分の強度を複数のオクターブにわたって加算した数値（例えば加算値や平均値）に応じて設定されたベクトル（ピッチクラスプロファイル）を意味する。

以上の各態様に係る音響処理装置は、音響の処理に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、楽曲に関する情報を時系列に指定する制御データを記憶する記憶手段を具備するコンピュータに、楽曲の楽音の波形を表す第１音響信号の特徴量を単位区間毎に順次に生成する第１特徴抽出処理と、制御データが指定する情報の時系列に同期する楽音の波形を表す第２音響信号の特徴量を単位区間毎に順次に生成する第２特徴抽出処理と、第１音響信号を時間軸上で区分した複数の参照区間の各々について、当該参照区間内の複数の単位区間の各々の特徴量と、第２音響信号のうち候補区間内の複数の単位区間の各々の特徴量との比較を、時間長が相違する複数の候補区間の各々について実行し、複数の候補区間のうち各単位区間の特徴量が当該参照区間内の各単位区間の特徴量に類似する候補区間を、当該参照区間に対応する同期区間として特定する区間対照処理と、第１音響信号の各参照区間の再生と、当該参照区間について区間対照処理で特定した同期区間に対応する制御データの処理とが同期するように、制御データを処理する制御処理とを実行させる。以上のプログラムによれば、本発明に係る音響処理装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。

実施形態に係る音響処理装置のブロック図である。複数の音響信号の相互間の対応を示す対応テーブルの模式図である。同期点検出部の動作のフローチャートである。基準点を特定する動作のフローチャートである。同期点検出部の動作の説明図である。同期点検出部の詳細な動作のフローチャートである。区間対照部の動作の説明図である。区間対照部の動作のフローチャートである。

＜Ａ：実施形態＞
図１は、本発明の実施形態に係る音響処理装置１００のブロック図である。音響処理装置１００は、楽曲の楽音の再生と楽曲の歌詞の表示とを並列に実行するカラオケ装置として好適に利用される。図１に示すように、音響処理装置１００には、表示装置７２と収音装置７４と放音装置７６と入力装置７８と信号供給装置８０とが接続される。

表示装置（例えば液晶表示装置）７２は、音響処理装置１００による制御のもとに楽曲の歌詞を表示する。収音装置（マイク）７４は、周囲の音響（歌唱音や楽器の演奏音など）に応じた音響信号ＱBを生成する。なお、周囲の音響に応じたアナログ信号をデジタルの音響信号ＱBに変換するＡ/Ｄ変換器の図示は省略されている。放音装置（例えばスピーカやヘッドホン）７６は、音響処理装置１００から出力される音響信号ＱCに応じた音響を再生する。入力装置７８は、利用者からの操作を受付ける操作子で構成される。

信号供給装置８０は、楽曲の楽音（歌唱音や伴奏音）の波形を表すデジタルの音響信号Ｐ1を音響処理装置１００に供給する。例えば、半導体記録媒体や光ディスクなどの記録媒体から音響信号Ｐ1を取得して音響処理装置１００に出力する再生装置（例えば、携帯型の音楽再生装置）や、インターネットなどの通信網から音響信号Ｐ1を受信して音響処理装置１００に出力する通信装置が、信号供給装置８０として好適に採用される。

音響処理装置１００は、演算処理装置１２と記憶装置１４とで構成されるコンピュータシステムである。記憶装置１４は、演算処理装置１２が実行するプログラムや演算処理装置１２が使用するデータを記憶する。半導体記録媒体や磁気記録媒体などの公知の記録媒体が記憶装置１４として任意に採用される。なお、音響信号Ｐ1を記憶装置１４に格納した構成も採用される。

図１に示すように、記憶装置１４は、相異なる楽曲に対応する複数の楽曲データＤ0を記憶する。例えばインターネットなどの通信網を介して受信された楽曲データＤ0が記憶装置１４に格納される。楽曲データＤ0は、楽曲を構成する各楽音を時系列に指定する楽音データＤAと、楽曲の歌詞の文字を時系列に指定する表示データＤBとを含んで構成される。例えば、楽音の音高・強度や歌詞の文字を指定するイベントデータと各イベントデータの処理の時点（例えば相前後するイベントデータの処理の間隔）を指定するタイミングデータとを時系列に配列したＭＩＤＩ形式（具体的にはＸＦ形式）のデータ列が楽曲データＤ0（ＤA，ＤB）として好適に採用される。

楽音データＤAが指定する楽音の時系列と表示データＤBが指定する歌詞の時系列とが時間軸上で相互に対応（同期）するように楽音データＤAと表示データＤBとは作成される。他方、楽曲データＤ0の楽曲と音響信号Ｐ1の楽曲とは共通し得るが、楽曲データＤ0と音響信号Ｐ1とは別個に作成されるから、楽音データＤAが指定する楽音の時系列（表示データＤBが指定する歌詞の時系列）と音響信号Ｐ1が表す楽音の波形とは完全には同期しない。

演算処理装置１２は、記憶装置１４に格納されたプログラムを実行することで、音響信号Ｐ1の再生（楽曲のストリーミング再生）と表示データＤBが指定する歌詞の表示とを同期させるための複数の機能（第１保持部１６１，第２保持部１６２，再生制御部２０，出力処理部３０，解析処理部４０，表示制御部６０）を実現する。したがって、音響処理装置１００の利用者は、音響信号Ｐ1の再生音（楽音データＤAから生成される楽音よりも一般的には高音質な楽音）のもとで歌詞を確認しながら歌唱を練習することが可能である。なお、演算処理装置１２の各機能を複数の集積回路に分散した構成や、専用の電子回路（ＤＳＰ）が各機能を実現する構成も採用され得る。

入力装置７８の操作で利用者が指定した楽曲の音響信号Ｐ1が信号供給装置８０から第１保持部１６１に供給される。第１保持部１６１は、信号供給装置８０から供給される音響信号Ｐ1を順次に取得および保持するバッファ回路である。他方、第２保持部１６２は、入力装置７８の操作で利用者が選択した楽曲の楽曲データＤ0（楽音データＤAおよび表示データＤB）を記憶装置１４から順次に取得および保持するバッファ回路である。

再生制御部２０は、第１保持部１６１に保持された音響信号Ｐ1から音響信号ＱAを生成する。具体的には、再生制御部２０は、成分抑制部２２とピッチ変換部２４とテンポ調整部２６とを含んで構成される。成分抑制部２２は、音響信号Ｐ1のうち特定のパートの成分を抑制（理想的には除去）する。例えば、音響処理装置１００の利用者が音響信号Ｐ1の再生音（伴奏音）に合わせて歌唱する場合、成分抑制部２２は、音響信号Ｐ1のうち歌唱音のパートの成分を抑制する。成分抑制部２２による処理（マイナスワン処理）には公知の技術が任意に採用される。ピッチ変換部２４は、入力装置７８に対する利用者からの操作（キー指定）に応じて音響信号Ｐ1のピッチを変更する。テンポ調整部２６は、入力装置７８に対する利用者からの操作（テンポ指定）に応じて音響信号Ｐ1のテンポを変更する。

再生制御部２０（テンポ調整部２６）による処理後の音響信号ＱAは出力処理部３０に供給される。出力処理部３０は、音響信号ＱAおよび音響信号ＱBから音響信号ＱCを生成して放音装置７６に出力する。出力処理部３０は、再生制御部２０からの音響信号ＱAと収音装置７４からの音響信号ＱBとを混合する混合部（ミキサ）３２と、混合部３２による処理後の音響信号に各種の効果（例えばリバーブやエコー）を付与する効果付与部３４と、効果付与部３４による処理後の音響信号をアナログの音響信号ＱCに変換するＤ/Ａ変換部３６とを含んで構成される。音響信号ＱCに応じた音響が放音装置７６から放射される。

図１の解析処理部４０は、第１保持部１６１に保持された音響信号Ｐ1と楽音データＤAが指定する各楽音の時系列とについて楽曲中で相対応する位置を特定（同期解析）する。解析処理部４０は、第１特徴抽出部４２とデータ変換部４４と第２特徴抽出部４６と同期解析部４８とを含んで構成される。

第１特徴抽出部４２は、第１保持部１６１が保持する音響信号Ｐ1を時間軸上で区分した単位区間（フレーム）Ｆ1毎に、音響信号Ｐ1のクロマベクトル（ピッチクラスプロファイル（ＰＣＰ：pitch class profile））Ψ1を順次に算定する。クロマベクトルΨ1は、音響信号Ｐ1の和声感（ハーモニー感）の指標となる特徴量であり、音階中の相異なる音名（Ｃ，Ｃ#，Ｄ，Ｄ#，Ｅ，Ｆ，Ｆ#，Ｇ，Ｇ#，Ａ，Ａ#，Ｂ）に対応する１２次元のベクトルで表現される。クロマベクトルΨ1を構成する１２個の要素の各々は、音響信号Ｐ1のうち当該要素に対応する音名の周波数成分（１オクターブに相当する周波数帯域を音名毎に区分した１２個の周波数帯域のうち当該音名に対応する周波数帯域の成分）の強度を複数のオクターブについて加算または平均した数値に相当する。すなわち、第１特徴抽出部４２は、高速フーリエ変換などの公知の技術で音響信号Ｐ1の単位区間Ｆ1毎に周波数スペクトル（パワースペクトル）を生成し、周波数スペクトルのうち１オクターブに相当する周波数帯域を複数のオクターブについて加算することでクロマベクトルΨ1を生成する。

図１のデータ変換部４４は、第２保持部１６２が保持する楽曲データＤ0のうち楽音データＤAが指定する楽音の波形を表す音響信号Ｐ2を生成する。具体的には、楽音データＤAのイベントデータが指定する楽音の波形を順次に発生する公知の音源（ＭＩＤＩ音源）がデータ変換部４４として好適に採用される。データ変換部４４が生成する音響信号Ｐ2が表す楽音の波形は表示データＤBが指定する歌詞の時系列に同期する。すなわち、音響信号Ｐ2を再生したときに各楽音が発生する時点と、当該楽音の再生の時点で歌唱すべき歌詞を表示データＤBが指定する時点とは時間軸上で対応（理想的には合致）する。

第２特徴抽出部４６は、データ変換部４４が生成した音響信号Ｐ2を時間軸上で区分した単位区間Ｆ2毎に、音響信号Ｐ2のクロマベクトル（ピッチクラスプロファイル）Ψ2を順次に算定する。クロマベクトルΨ2は、クロマベクトルΨ1と同様に、相異なる音名（クロマ）に対応する１２個の要素の各々が、音響信号Ｐ2のうち当該要素に対応する音名の成分の強度を複数のオクターブにわたって加算または平均した数値に設定された１２次元のベクトルである。第２特徴抽出部４６は、第１特徴抽出部４２と同様の方法で、音響信号Ｐ2のクロマベクトルΨ2を単位区間Ｆ2毎に生成する。単位区間Ｆ1と単位区間Ｆ2とは同じ時間長の区間である。ただし、単位区間Ｆ1と単位区間Ｆ2とを相異なる時間長に設定した構成も採用され得る。

図１の同期解析部４８は、第１特徴抽出部４２が単位区間Ｆ1毎に生成した各クロマベクトルΨ1と第２特徴抽出部４６が単位区間Ｆ2毎に生成した各クロマベクトルΨ2とを比較し、音響信号Ｐ1と音響信号Ｐ2とにおいて楽曲中で相互に対応する時間軸上の位置（例えば楽曲の同じ楽音に対応する位置）を比較の結果に応じて特定する。具体的には、同期解析部４８は、図２に例示した対応テーブルＴBLを生成する。対応テーブルＴBLは、音響信号Ｐ1の複数の時点Ｒ1（Ｒ1[0]，Ｒ1[1]，Ｒ1[2]，……）と音響信号Ｐ2の複数の時点Ｒ2（Ｒ2[0]，Ｒ2[1]，Ｒ2[2]，……）とを対応させるデータテーブルである。音響信号Ｐ1の時点Ｒ1[i]（ｉ＝０，１，２，……）と音響信号Ｐ2の時点Ｒ2[i]とは楽曲中で相対応する時点である。時点Ｒ1[i]は単位区間Ｆ1の番号で指定され、時点Ｒ2[i]は単位区間Ｆ2の番号で指定される。

図１に示すように、同期解析部４８は、同期点検出部５２と区間対照部５４とを含んで構成される。同期点検出部５２は、音響信号Ｐ1の同期点Ｓ1と音響信号Ｐ2の同期点Ｓ2とを検出する。同期点Ｓ1および同期点Ｓ2は、楽曲の歌唱や伴奏が開始する時点（楽曲の開始前の無音の区間が終了する時点）である。すなわち、同期点Ｓ1および同期点Ｓ2は、音響信号Ｐ1と音響信号Ｐ2とが最初に同期する時点に相当する。図２に示すように、時点Ｒ1[0]は同期点Ｓ1に設定され、時点Ｒ2[0]は同期点Ｓ2に設定される。

図３は、同期点検出部５２の動作のフローチャートである。例えば入力装置７８に対する所定の操作を契機として音響信号Ｐ1の再生の開始前に図３の処理が実行される。同期点検出部５２は、音響信号Ｐ1の基準点α1と音響信号Ｐ2の基準点α2とを特定する（ＳA1，ＳA2）。基準点αk（ｋ＝１，２）は、音響信号Ｐkの強度（音量）が最初に閾値を上回る時点である。

図４は、同期点検出部５２が基準点αkを特定する処理（ＳA1，ＳA2）のフローチャートである。同期点検出部５２は、基準点αkをゼロ（音響信号Ｐkの最初の単位区間Ｆk）に初期化したうえで（ＳB1）、音響信号Ｐkのうち基準点αkでの強度Ｌkが所定の閾値ＬTHを上回るか否かを判定する（ＳB2）。強度Ｌkが閾値ＬTHを下回る場合（ＳB2：NO）、同期点検出部５２は、基準点αkを所定値δ（例えばδ＝１）だけ後方の時点に更新し（ＳB3）、更新後の基準点αkについてステップＳB2の処理を実行する。強度Ｌkが閾値ＬTHを上回ると（ＳB2：YES）、同期点検出部５２は図４の処理を終了する。したがって、音響信号Ｐkのうち強度Ｌkが最初に閾値ＬTHを上回る時点が基準点αkとして確定する。

ところで、音響信号Ｐ2のうち強度Ｌ2が最初に閾値ＬTHを上回る基準点α2は、楽曲が実際に開始する時点（音響信号Ｐ1にて楽曲が開始する時点）に該当しない可能性がある。例えば、伴奏音に先立って歌唱音が開始する楽曲のカラオケ用の楽曲データＤ0を想定すると、楽曲データＤ0（楽音データＤA）から生成される音響信号Ｐ2においては、歌唱者が拍子を把握するための拍子音が伴奏音の開始前に発生する。したがって、拍子音の時点が基準点α2として検出される可能性がある。そこで、同期点検出部５２は、図３のステップＳA3において、音響信号Ｐ1の各クロマベクトルΨ1と音響信号Ｐ2の各クロマベクトルΨ2とを比較する（すなわち両者の音楽的な類否を判断する）ことで、音響信号Ｐ2における正確な同期点Ｓ2を特定する。音響信号Ｐ1の同期点Ｓ1は、ステップＳA1で特定した基準点α1に設定される。

図５は、図３のステップＳA3の処理の概要を示す説明図である。同期点検出部５２は、音響信号Ｐ1のうち同期点Ｓ1（基準点α1）を始点とする参照区間σREFのクロマベクトルΨ1と、音響信号Ｐ2のうち始点ＳXや時間長ＷXが相違する複数の候補区間σXの各々のクロマベクトルΨ2とを比較する。すなわち、同期点検出部５２は、図５に示すように、時間軸上の始点ＳXを変化させた複数の場合の各々について、音響信号Ｐ2のうち当該始点ＳXからの時間長ＷXが相違する複数の候補区間σXの各々のクロマベクトルΨ2を、音響信号Ｐ1の参照区間σREFのクロマベクトルΨ1と比較する。そして、同期点検出部５２は、複数の候補区間σXのうちクロマベクトルΨ2が参照区間σREFのクロマベクトルΨ1に最も類似する候補区間σXを、参照区間σREFに対応する同期区間σSとして特定する。同期区間σSの始点が同期点Ｓ2に相当する。

図６は、図５の動作のフローチャートである。図６に示すように、同期点検出部５２は、候補区間σXと参照区間σREFとの音楽的な類否の指標（以下「類否指標」という）γが代入される変数βを最大値γMAXに初期化し、参照区間σREFの同期点Ｓ1を基準点α1に設定する（ＳC1）。また、同期点検出部５２は、候補区間σXの時間長ＷXを下限値ＬAに初期化し、候補区間σXの始点ＳXを、図５に示すように、図３のステップＳA2で特定した基準点α2から所定の時間長Ｔだけ手前の時点（α2−Ｔ）に初期化する（ＳC2）。下限値ＬAは、参照区間σREFよりも短い時間（例えば時間長ＷREFの半分）に設定される。また、時間長Ｔは、例えば参照区間σREFの時間長ＷREFの半分（ＷREF/２）に設定される。

同期点検出部５２は、音響信号Ｐ1の参照区間σREF内の各単位区間Ｆ1のクロマベクトルΨ1と、音響信号Ｐ2のうち始点ＳXから時間長ＷXにわたる候補区間σX内の各単位区間Ｆ2のクロマベクトルΨ2とを比較する（ＳC3，ＳC4）。具体的には、同期点検出部５２は、候補区間σXを参照区間σREFの時間長ＷREFに伸縮し（すなわち、始点および終点を参照区間σREFに合致させ）、伸縮後の候補区間σXのうち参照区間σREF内の各単位区間Ｆ1に対応する時点のクロマベクトルΨ2を、伸縮前の候補区間σX内の各単位区間Ｆ2のクロマベクトルΨ2の補間により算定する（ＳC3）。そして、同期点検出部５２は、参照区間σREF内のクロマベクトルΨ1と候補区間σX内の補間後のクロマベクトルΨ2との距離Ｄを、相対応する時点のクロマベクトルΨ1とクロマベクトルΨ2との対毎に算定し、距離Ｄの総和または平均を類否指標γとして算定する（ＳC4）。距離Ｄは、クロマベクトルΨ1とクロマベクトルΨ2との類否の尺度となる指標値である。例えば、クロマベクトルΨ1とクロマベクトルΨ2との内積や幾何距離が距離Ｄとして算定される。したがって、類否指標γが小さいほど、音響信号Ｐ1の参照区間σREFと音響信号Ｐ2の候補区間σXとが音楽的に類似するという傾向がある。

同期点検出部５２は、ステップＳC4で算定した類否指標γが変数βを下回るか否かを判定する（ＳC5）。類否指標γが変数βを下回る場合（ＳC5：YES）、同期点検出部５２は、直前のステップＳC4で算定した類否指標γを変数βに代入し、現時点の候補区間σXの時間長ＷXを同期区間σSの暫定的な時間長ＷSとして設定し、現時点の候補区間σXの始点ＳXを暫定的な同期点Ｓ2（同期区間σSの始点）として設定する（ＳC6）。他方、類否指標γが変数βを上回る場合（ＳC5：NO）、同期点検出部５２は、ステップＳC6を実行せずに処理をステップＳC7に移行する。すなわち、時間長ＷSおよび同期点Ｓ2は、参照区間σREFに音楽的に類似する候補区間σXの時間長ＷXおよび始点ＳXに順次に更新される。

次いで、同期点検出部５２は、現時点の候補区間σXの時間長ＷXに所定値Ｂを加算し（ＳC7）、加算後の時間長ＷXが上限値ＬBを上回るか否かを判定する（ＳC8）。上限値ＬBは、参照区間σREFよりも長い時間（例えば時間長ＷREFの1.5倍）に設定される。ステップＳC8の結果が否定である場合、同期点検出部５２は処理をステップＳC3に移行する。すなわち、図５に示すように、更新前の候補区間σXと始点ＳXが共通で時間長ＷXが相違する（所定値Ｂだけ長い）新たな候補区間σXについて参照区間σREFとの類否が判定される（ＳC3〜ＳC8）。

他方、ステップＳC8の結果が肯定である場合（ＷX＞ＬB）、同期点検出部５２は、図５に示すように、候補区間σXの始点ＳXを所定値Ｃだけ後方に移動し、候補区間σXの時間長ＷXを下限値ＬA（例えば参照区間σREFの時間長ＷREFの半分）に初期化する（ＳC9）。そして、同期点検出部５２は、ステップＳC9での更新後の始点ＳXが、図５に示すように音響信号Ｐ2の基準点α2から所定値Ｔ（例えば時間長ＷREFの半分）だけ経過した時点よりも後方か否かを判定する（ＳC10）。ステップＳC10の結果が否定である場合、同期点検出部５２は、ステップＳC9での更新後の始点ＳXについてステップＳC3以降の処理（候補区間σXの時間長ＷXを変化させながら参照区間σREFと始点ＳXからの候補区間σXとを比較する処理）を反復する。他方、ステップＳC10の結果が肯定である場合、同期点検出部５２は図６の処理を終了する。

以上の処理の結果、図５に示すように、音響信号Ｐ2の基準点α2から前後の時間長Ｔ（合計２Ｔ）にわたる範囲内で始点ＳXを所定値Ｃずつ移動させた複数の場合の各々について、下限値ＬAから上限値ＬBまでの範囲内で時間長ＷXを所定値Ｂずつ変化させた複数の候補区間σXの各々と参照区間σREFとの音楽的な類否が判定される。そして、図６の処理が終了した段階では、複数の候補区間σXのうち類否指標γが最小となる候補区間σX（参照区間σREFに最も類似する候補区間σX）の時間長ＷXおよび始点ＳXが、同期区間σSの時間長ＷSおよび同期点Ｓ2として確定する。以上が同期点検出部５２の動作である。

図１の区間対照部５４は、音響信号Ｐ1と音響信号Ｐ2との楽曲中の対応を解析することで図２の対応テーブルＴBLを生成する。具体的には、区間対照部５４は、図２に示すように、音響信号Ｐ1を時間軸上で区分した複数の参照区間σREF（σREF[1]，σREF[2]，……）の各々に対応する同期区間σS（σS[1]，σS[2]，……）を音響信号Ｐ2について順次に特定する。各参照区間σREFの時間長ＷREFは、単位区間Ｆ1の所定個に相当する固定値である。対応テーブルＴBLに格納される時点Ｒ1[i]は音響信号Ｐ1の参照区間σREF[i]の終点に相当し、時点Ｒ2[i]は音響信号Ｐ2の同期区間σS[i]の終点に相当する。

図７は、区間対照部５４の動作の説明図である。図７に示すように、区間対照部５４は、音響信号Ｐ1の複数の参照区間σREFの各々（σREF[i]）について、当該参照区間σREF[i]の各単位区間Ｆ1のクロマベクトルΨ1と音響信号Ｐ2の候補区間σX内の各単位区間Ｆ2のクロマベクトルΨ2とを、候補区間σXの時間長ＷXを変化させながら順次に比較する。そして、区間対照部５４は、複数の候補区間σXのうち参照区間σREF[i]に音楽的に最も類似する候補区間σXを同期区間σS[i]として特定する。以上の処理が順次に反復されることで、音響信号Ｐ2は、図７に示すように、相異なる参照区間σREF[i]に対応する複数の同期区間σS（σS[1]，σS[2]，……）に区分される。

図８は、区間対照部５４の動作のフローチャートである。同期点検出部５２が図６の処理を完了すると図８の処理が開始される。区間対照部５４は、参照区間σREFや同期区間σSを識別する変数（番号）ｉをゼロに初期化したうえで、図７に示すように、音響信号Ｐ1の時点Ｒ1[i]（参照区間σREF[1]の始点Ｒ1[0]）を同期点Ｓ1に設定し、音響信号Ｐ2の時点Ｒ2[i]（候補区間σS[1]の始点Ｒ2[0]）を同期点Ｓ2に設定する（ＳD1）。同期点Ｓ1は、同期点検出部５２が図３のステップＳA1で特定した基準点α1に相当し、同期点Ｓ2は、同期点検出部５２が図６の処理で特定した時点である。

次いで、区間対照部５４は、変数ｉを１に変更したうえで、図７に示すように、音響信号Ｐ1の時点Ｒ1[i]（参照区間σREF[1]の終点Ｒ1[1]）を、同期点Ｓ1（時点Ｒ1[0]）から時間長ＷREFだけ経過した時点（Ｓ1＋ＷREF）に設定し、音響信号Ｐ2の時点Ｒ2[i]（同期区間σS[1]の終点Ｒ2[1]）を、同期点Ｓ2（時点Ｒ2[0]）から同期区間σS[1]の時間長ＷS[1]だけ経過した時点（Ｓ2＋ＷS[1]）に設定する（ＳD2）。音響信号Ｐ2の最初の同期区間σS[1]は、同期点検出部５２が図６の処理で特定した同期区間σSである。したがって、図６の処理（ステップＳC6）で同期点検出部５２が設定した時間長ＷSが同期区間σS[1]の時間長ＷS[1]として図８のステップＳD2に適用される。

次いで、区間対照部５４は、変数ｉに１を加算したうえで（ＳD3）、変数βを最大値γMAXに初期化し、基準長ＷPREを時間長ＷS[i-1]に初期化し、候補区間σXの時間長ＷXを基準長ＷPRE（ＷS[i-1]）の半分に初期化する（ＳD4）。基準長ＷPREは、候補区間σXの時間長ＷXを変化させる範囲を規定する数値である。

以上の初期化が完了すると、区間対照部５４は、図６のステップＳC3およびステップＳC4と同様に、音響信号Ｐ1の参照区間σREF[i]内の各単位区間Ｆ1のクロマベクトルΨ1と、音響信号Ｐ2のうち時点Ｒ2[i-1]から時間長ＷXにわたる候補区間σX内の各単位区間Ｆ2のクロマベクトルΨ2とを比較する（ＳD5，ＳD6）。具体的には、区間対照部５４は、音響信号Ｐ2の候補区間σXを参照区間σREF[i]の時間長ＷREFに伸縮し、伸縮後の候補区間σXのうち参照区間σREF[i]内の各単位区間Ｆ1に対応する時点のクロマベクトルΨ2を、伸縮前の候補区間σX内の各単位区間Ｆ2のクロマベクトルΨ2の補間により算定する（ＳD5）。そして、区間対照部５４は、参照区間σREF[i]内の各クロマベクトルΨ1と補間後の各クロマベクトルΨ2との距離Ｄの総和または平均を類否指標γとして算定する（ＳD6）。

区間対照部５４は、ステップＳD6で算定した類否指標γが変数βを下回るか否かを判定する（ＳD7）。類否指標γが変数βを下回る場合（ＳD7：YES）、区間対照部５４は、直前のステップＳD6で算定した類否指標γを変数βに代入し、現時点の候補区間σXの時間長ＷXを同期区間σS[i]の暫定的な時間長ＷS[i]として設定する（ＳD8）。他方、類否指標γが変数βを上回る場合（ＳD7：NO）、区間対照部５４は、ステップＳD8を実行せずに処理をステップＳD9に移行する。すなわち、時間長ＷS[i]は、参照区間σREF[i]に音楽的に類似する候補区間σXの時間長ＷXに順次に更新される。

次いで、区間対照部５４は、現時点の候補区間σXの時間長ＷXに所定値Ｂを加算し（ＳD9）、加算後の時間長ＷXが基準長ＷPRE（時間長ＷS[i-1]）の1.5倍を上回るか否かを判定する（ＳD10）。ステップＳD10の結果が否定である場合、区間対照部５４は処理をステップＳD5に移行する。すなわち、図７に示すように、更新前の候補区間σXと始点（時点Ｒ2[i-1]）が共通で時間長ＷXが相違する（所定値Ｂだけ長い）新たな候補区間σXについて参照区間σREF[i]との類否が判定される（ＳD5〜ＳD10）。

他方、ステップＳD10の結果が肯定である場合、区間対照部５４は、現時点での時間長ＷS[i]を同期区間σS[i]の時間長として確定する（ＳD11）。すなわち、区間対照部５４は、図７に示すように、同期区間σS[i]の終点Ｒ2[i]を、既知の時点Ｒ2[i-1]から現時点での時間長ＷS[i]だけ後方の時点（Ｒ2[i-1]＋ＷS[i]）に設定する。また、区間対照部５４は、参照区間σREF[i]の終点Ｒ1[i]を、時点Ｒ1[i-1]から時間長ＷREFだけ後方の時点（Ｒ1[i-1]＋ＷREF）に設定する。ステップＳD11で算定した時点Ｒ1[i]および時点Ｒ2[i]は、記憶装置１４の対応テーブルＴBL（図２）に格納される。

区間対照部５４は、音響信号Ｐ1および音響信号Ｐ2の全区間の処理が完了したか否かを判定する（ＳD12）。具体的には、区間対照部５４は、ステップＳD11で確定した時点Ｒ1[i]から時間長ＷREFだけ経過した時点（Ｒ1[i]＋ＷREF）が音響信号Ｐ1の終点よりも後方であるか否かの判定と、ステップＳD11で確定した時点Ｒ2[i]から時間長ＷS[i]だけ経過した時点（Ｒ2[i]＋ＷS[i]）が音響信号Ｐ2の終点よりも後方であるか否かの判定とを実行する。そして、双方の判定の結果が否定である場合（全区間の処理が完了していない場合）、区間対照部５４は、変数ｉに１を加算したうえで（ＳD3）、ステップＳD4からステップＳD12の処理（すなわち、更新後の変数ｉに対応する同期区間σS[i]の特定）を実行する。他方、ステップＳD12の何れかの判定の結果が肯定である場合（音響信号Ｐ1または音響信号Ｐ2について全区間の処理が完了した場合）、区間対照部５４は図８の処理を終了する。

以上の処理の結果、図７に示すように、同期区間σS[i-1]の終点Ｒ2[i-1]からの時間長ＷXを基準長ＷPREの半分から1.5倍までの範囲内で所定値Ｂずつ変化させた複数の候補区間σXの各々と参照区間σREF[i]との音楽的な類否が順次に判定される。そして、複数の候補区間σXのうち類否指標γが最小となる候補区間σX（参照区間σREF[i]に最も類似する候補区間σX）が音響信号Ｐ2の同期区間σS[i]として特定され、音響信号Ｐ1の各参照区間σREF[i]と音響信号Ｐ2の各同期区間σS[i]とを対応させる図２の対応テーブルＴBLが記憶装置１４に生成される。

図１の表示制御部６０は、第２保持部１６２に保持された表示データＤBが指定する歌詞の各文字を表示装置７２に順次に表示させる。表示制御部６０は、音響信号Ｐ1の再生に同期するように表示データＤBの処理（表示装置７２に対する表示の指示）のテンポを対応テーブルＴBLに応じて可変に設定する。すなわち、音響信号Ｐ2の同期区間σS[i]（Ｒ2[i-1]〜Ｒ2[i]）に対応する歌詞の文字が、音響信号Ｐ1の参照区間σREF[i]（Ｒ1[i-1]〜Ｒ1[i]）が再生される期間内に表示装置７２に表示されるように、表示制御部６０は表示データＤBの処理のテンポを制御する。

例えば、表示制御部６０は、参照区間σREF[i]の時間長ＷREFに対する同期区間σS[i]の時間長ＷS[i]の相対比（(Ｒ2[i]−Ｒ2[i-1])/(Ｒ1[i]−Ｒ1[i-1])を所定の基準値に乗算したテンポで表示データＤBを処理する。したがって、対応テーブルＴBLで指定される時点Ｒ2[i]が時点Ｒ1[i]から遅延した時点である場合、同期区間σS[i]に対応する歌詞が表示されるテンポは上昇し、時点Ｒ2[i]が時点Ｒ1[i]に先行する時点である場合、同期区間σS[i]に対応する歌詞が表示されるテンポは低下する。すなわち、音響信号Ｐ1の再生と歌詞の表示とは同期する。なお、表示データＤBの処理のテンポはテンポ調整部２６が設定したテンポにも依存する。すなわち、表示制御部６０は、テンポ調整部２６が設定したテンポが速いほど表示データＤBの処理のテンポを上昇させる。

以上の形態においては、音響信号Ｐ1の各参照区間σREF[i]に楽曲中で対応する同期区間σS[i]が音響信号Ｐ2について特定され、相対応する参照区間σREF[i]と同期区間σS[i]とが同期するように表示データＤBの処理のテンポが可変に制御される。したがって、楽曲の全区間や歌唱区間の始点または終点のみで音響信号の再生と歌詞の表示とを同期させる特許文献１の技術と比較すると、例えば楽曲の途中で音響信号Ｐ1と楽曲データＤ0との同期が外れる場合でも、音響信号Ｐ1の再生と歌詞の表示とを高精度に同期させることが可能である。

なお、音響信号Ｐ1の再生と歌詞の表示とを同期させる方法としては、例えば、音響信号Ｐ1の拍点と音響信号Ｐ2の拍点とを対応させる方法も想定され得る。しかし、拍点を利用する方法では、例えば音響信号Ｐ1または音響信号Ｐ2の拍点の検出漏れに起因して音響信号Ｐ1の再生と歌詞の表示とがずれた場合（例えば音響信号Ｐ1の再生に対して１拍分だけ遅延して歌詞が表示される場合）に、両者の同期を回復することが困難であるという問題がある。本実施形態においては、和声感の指標となるクロマベクトル（Ψ1，Ψ2）の比較の結果に応じて音響信号Ｐ1の再生と歌詞の表示との同期が確保されるから、両者の同期が外れる可能性が低く、仮に何らかの事情で両者の同期が外れた場合でも速やかに同期を回復することが可能である。

ところで、音響信号Ｐ1の再生と歌詞の表示とを高精度に同期させる構成としては、単位区間Ｆ1毎のクロマベクトルΨ1と単位区間Ｆ2毎のクロマベクトルΨ2との比較で各単位区間Ｆ1と各単位区間Ｆ2との対応を解析する構成（以下「対比例」という）も想定される。しかし、対比例においては、クロマベクトルΨ1とクロマベクトルΨ2との類否を単位区間（Ｆ1，Ｆ2）毎に判定する必要があるから、同期解析部４８の処理の負荷が過大となる。本実施形態においては、複数の単位区間Ｆ1で構成される参照区間σREFと複数の単位区間Ｆ2で構成される同期区間σSとの対応が解析される（すなわち、複数の単位区間を単位として同期解析を実行する）から、対比例と比較して、同期解析部４８の処理の負荷が軽減されるという利点もある。

また、本実施形態においては、音響信号Ｐ2のうち時間長ＷXを変化させた複数の候補区間σXの各々が音響信号Ｐ1の参照区間σREF[i]と比較され、複数の候補区間σXのうち参照区間σREF[i]に類似する候補区間σXが同期区間σS[i]として特定される。したがって、例えば音響信号Ｐ1や音響信号Ｐ2のテンポが楽曲中で変化する場合でも、相互に同期する参照区間σREF[i]と同期区間σS[i]とを高精度に検出できるという利点がある。

なお、区間対照部５４が特定する同期区間σS[i]の時間長ＷS[i]は、候補区間σXの時間長ＷXの変化の範囲（以下「探索範囲」という）内の数値に制限される。したがって、探索範囲が固定された構成では、実際の同期区間σS[i]は充分に長いにも関わらず時間長ＷS[i]が探索範囲の上限値に制限される場合や、実際の同期区間σS[i]は充分に短いにも関わらず時間長ＷS[i]が探索範囲の下限値に制限される場合がある。すなわち、同期区間σS[i]の時間長ＷS[i]を正確に特定できない可能性がある。

本実施形態における時間長ＷXの探索範囲は、直前の同期区間σS[i-1]の時間長ＷS[i-1]（基準長ＷPRE）に応じて設定される。具体的には、本実施形態の探索範囲は時間長ＷS[i-1]の半分から1.5倍までの範囲である。したがって、直前の同期区間σS[i-1]の時間長ＷS[i-1]が長いほど、同期区間σS[i]の候補となる候補区間σXの時間長ＷXの上限値（1.5×ＷS[i-1]）は長い時間となり、時間長ＷS[i-1]が短いほど候補区間σXの時間長ＷXの下限値（0.5×ＷS[i-1]）は短い時間となる。そして、相前後する同期区間σS（σS[i-1]，σS[i]）で時間長ＷSが極端に相違する可能性は低いという傾向があるから、本実施形態によれば、探索範囲を固定した構成と比較して、同期区間σS[i]の時間長ＷS[i]が探索範囲内に包含される可能性が高い。したがって、探索範囲に制限されずに時間長ＷS[i]を正確に特定できるという利点がある。もっとも、同期区間σS[i]の時間長ＷS[i]の変動が小さいことを前提とすれば、時間長ＷS[i]が探索範囲に制限される可能性は低いから、探索範囲を固定した構成も採用され得る。

また、本実施形態においては、音響信号Ｐ2のうち始点ＳXおよび時間長ＷXを変化させた複数の候補区間σXの各々が音響信号Ｐ1の参照区間σREFと比較され、複数の候補区間σXのうち参照区間σREFに類似する候補区間σX（同期区間σS）の始点ＳXが、音響信号Ｐ1の同期点Ｓ1に対応する同期点Ｓ2として特定される。したがって、例えば、音響信号Ｐ1に存在しない音響（例えば拍子音）が音響信号Ｐ2の先頭の部分に含まれる場合でも、音響信号Ｐ1と音響信号Ｐ2とで相互に同期する同期点（Ｓ1，Ｓ2）を正確に検出できるという利点がある。ただし、音響信号Ｐ2の先頭の部分の音響が特段の問題とならない場合には、基準点α2を同期点Ｓ2とする構成も採用され得る。

＜Ｂ：変形例＞
以上の形態には様々な変形が加えられる。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様は併合され得る。

（１）変形例１
以上の実施形態で固定値として例示した各数値は可変値に適宜に変更され得る。例えば、以上の実施形態では参照区間σREFの時間長ＷREFを所定値に固定したが、時間長ＷREFを可変に制御する構成も好適である。具体的には、楽曲データＤ0が指定するテンポや楽音データＤAが指定する音数に応じて同期解析部４８が時間長ＷREFを可変に制御する構成が採用される。例えば、同期解析部４８は、テンポが速いほど時間長ＷREFを短い時間に設定し、単位時間あたりの音数が多いほど時間長ＷREFを短い時間に設定する。以上の構成によれば、テンポが速い楽曲や音数が多い楽曲についても音響信号Ｐ1と音響信号Ｐ2との対応を高精度に特定できるという利点がある。

また、以上の実施形態においては、候補区間σXの時間長ＷXを変動させる範囲（探索範囲）を規定する時間長Ｔを所定値に固定したが、時間長Ｔを可変に制御する構成も好適である。例えば、同期解析部４８は、楽曲データＤ0が指定するテンポが速いほど時間長Ｔを短い時間に設定し（探索範囲を狭い範囲に設定し）、楽音データＤAが単位時間あたりに指定する音数が多いほど時間長Ｔを短い時間に設定する。以上の構成によれば、楽曲のテンポが速い場合や音数が多い場合でも適切な同期区間σSを高精度に特定できるという利点がある。

さらに、以上の実施形態においては、候補区間σXの時間長ＷXの変化量Ｂや始点ＳXの移動量Ｃを所定値に固定したが、変化量Ｂや移動量Ｃを可変に制御する構成も好適である。例えば、同期解析部４８は、楽曲データＤ0で指定されるテンポが速いほど変化量Ｂや移動量Ｃを小さい数値に設定し、楽音データＤAが単位時間あたりに指定する音数が多いほど変化量Ｂや移動量Ｃを小さい数値に設定する。以上の構成によれば、楽曲のテンポが速い場合や音数が多い場合でも適切な同期区間σSを高精度に特定できるという利点がある。

（２）変形例２
表示装置７２に表示される情報は歌詞に限定されない。例えば、楽曲の楽譜（コード譜やタブ譜）を表示データＤBが時系列に指定する構成や、楽曲に関する画像（例えばカラオケの背景画像）を表示データＤBが時系列に指定する構成も好適である。すなわち、表示データＤBは、楽曲の歌唱や演奏に関する画像（歌詞，楽譜，背景画像）を時系列に指定するデータとして包括される。なお、表示データＤBが楽音データＤAとは別個に用意された構成は必須ではない。例えば、楽音データＤAが時系列に指定する楽音を楽曲の楽譜の表示に流用する構成も採用される。

また、音響信号Ｐ1の再生と同期させるべき動作は、歌詞や楽譜の表示に限定されない。具体的には、楽曲の再生に関する動作を時系列に指示する指示データの処理（当該動作を実行する要素の制御）を音響信号Ｐ1の再生と同期させる構成が採用される。指示データは、表示データＤBと同様に、楽音データＤAが指定する楽音の時系列と指示データによる指示の時系列とが時間軸上で相互に対応（同期）するように作成される。例えば、楽曲の再生時における照明機器の動作（明滅や照度）を時系列に指定する指示データや、効果付与部３４が付加する音響効果の態様（効果の種類や程度）を時系列に指定する指示データを、表示データＤBの代わりに（または表示データＤBとともに）、音響信号Ｐ1の再生と同期して処理する構成も好適である。

以上の例示から理解されるように、表示データＤBや指示データは、楽曲に関する情報（歌詞や楽譜、または、楽曲の再生に関する要素の動作の指示）を時系列に指定する制御データとして包括され、制御データを処理する要素（例えば以上の各形態における表示制御部６０）は、音響信号Ｐ1の再生と制御データの処理とが同期するように、同期解析部４８による解析の結果に応じて制御データを処理する要素（制御手段）として包括される。

（３）変形例３
以上の形態においてはデータ変換部４４が楽音データＤAから音響信号Ｐ2を生成する構成を例示したが、同期解析用の音響信号Ｐ2を楽音データＤAの代わりに（または楽音データＤAとともに）記憶装置１４に格納した構成も採用される。解析処理部４０は、記憶装置１４に格納された音響信号Ｐ2について同期解析を実行する。音響信号Ｐ2を記憶装置１４に格納した構成ではデータ変換部４４が省略され得る。もっとも、データ変換部４４を具備する構成によれば、カラオケ用に作成された既存の楽曲データＤ0の楽音データＤAを解析処理部４０による同期解析に流用できるという利点や、音響信号Ｐ2を記憶装置１４に格納する構成と比較して記憶装置１４に必要な容量が削減されるという利点がある。

（４）変形例４
以上の形態においては楽音データＤAを音響信号Ｐ1との同期解析のみに利用する構成を例示したが、楽音データＤAに応じた音響信号Ｐ2を音響信号Ｐ1とともに再生する構成も好適に採用される。例えば、ガイドメロディを示す楽音データＤAから音響信号Ｐ2を生成して音響信号Ｐ1とともに再生すれば、利用者による歌唱や演奏の練習を支援することが可能である。また、再生制御部２０は適宜に省略される。例えば、成分抑制部２２を省略して音響信号Ｐ1の全部のパートを再生する構成や、ピッチ変換部２４やテンポ調整部２６を省略してピッチやテンポを変化させない構成も採用され得る。

（５）変形例５
第１特徴抽出部４２や第２特徴抽出部４６が抽出する特徴量はクロマベクトル（Ψ1，Ψ2）に限定されない。例えば、音響信号Ｐ1や音響信号Ｐ2のピッチを抽出して同期解析に適用する構成が採用され得る。以上の説明から理解されるように、特徴量は、音響信号Ｐ1と音響信号Ｐ2との音楽的な類否を判定するための尺度として包括される。

（６）変形例６
以上の各形態では、音響信号Ｐkの強度（音量）に応じて基準点αkを特定する図４の処理と、クロマベクトル（Ψ1，Ψ2）の比較で同期点Ｓ2を特定する図６の処理とを同期点検出部５２が実行した。しかし、クロマベクトルは和声感（和音感）を示す特徴量であるから、楽曲が例えば打楽器の楽音から開始する場合には同期点Ｓ2の正確な特定が困難となる。したがって、同期点検出部５２が図４の処理のみを実行する構成（図６の処理を省略した構成）も採用される。図４の処理で特定した基準点αkが同期点Ｓkとして区間対照部５４による処理に適用される。

（７）変形例７
音響信号Ｐ1と音響信号Ｐ2とにおける楽曲中の対応を解析する処理を音響信号Ｐ1の再生と並列に実行する構成も採用され得る。

１００……音響処理装置、１２……演算処理装置、１４……記憶装置、１６１……第１保持部、１６２……第２保持部、２０……再生制御部、２２……成分抑制部、２４……ピッチ変換部、２６……テンポ調整部、３０……出力処理部、３２……混合部、３４……効果付与部、３６……Ｄ/Ａ変換部、４０……解析処理部、４２……第１特徴抽出部、４４……データ変換部、４６……第２特徴抽出部、４８……同期解析部、５２……同期点検出部、５４……区間対照部、６０……表示制御部、７２……表示装置、７４……収音装置、７６……放音装置、７８……入力装置、８０……信号供給装置。

Claims

楽曲に関する情報を時系列に指定する制御データを記憶する記憶手段と、
楽曲の楽音の波形を表す第１音響信号の特徴量を単位区間毎に順次に生成する第１特徴抽出手段と、
前記制御データが指定する情報の時系列に同期する楽音の波形を表す第２音響信号の特徴量を単位区間毎に順次に生成する第２特徴抽出手段と、
前記第１音響信号を時間軸上で区分した複数の参照区間の各々について、当該参照区間内の複数の単位区間の各々の特徴量と、前記第２音響信号のうち候補区間内の複数の単位区間の各々の特徴量との比較を、時間長が相違する複数の候補区間の各々について実行し、前記複数の候補区間のうち各単位区間の特徴量が当該参照区間内の各単位区間の特徴量に類似する候補区間を、当該参照区間に対応する同期区間として特定する区間対照手段と、
前記第１音響信号の前記各参照区間の再生と、当該参照区間について前記区間対照手段が特定した同期区間に対応する前記制御データの処理とが同期するように、前記制御データを処理する制御手段と
を具備する音響処理装置。
前記区間対照手段は、時間長が相違する複数の候補区間の各々について、前記参照区間に対応するように当該候補区間を伸縮し、前記第２音響信号のうち前記参照区間内の各単位区間に対応する時点の特徴量を、伸縮前の候補区間内の各単位区間の特徴量の補間により算定し、前記参照区間内の各単位区間の特徴量と当該候補区間の補間後の各特徴量とを比較する
請求項１の音響処理装置。
前記記憶手段は、楽曲を構成する楽音の時系列を指定する楽音データを記憶し、
前記楽音データから前記第２音響信号を生成するデータ変換手段を具備する
請求項１または請求項２の音響処理装置。
楽曲に関する情報を時系列に指定する制御データを記憶する記憶手段を具備するコンピュータに、
楽曲の楽音の波形を表す第１音響信号の特徴量を単位区間毎に順次に生成する第１特徴抽出処理と、
前記制御データが指定する情報の時系列に同期する楽音の波形を表す第２音響信号の特徴量を単位区間毎に順次に生成する第２特徴抽出処理と、
前記第１音響信号を時間軸上で区分した複数の参照区間の各々について、当該参照区間内の複数の単位区間の各々の特徴量と、前記第２音響信号のうち候補区間内の複数の単位区間の各々の特徴量との比較を、時間長が相違する複数の候補区間の各々について実行し、前記複数の候補区間のうち各単位区間の特徴量が当該参照区間内の各単位区間の特徴量に類似する候補区間を、当該参照区間に対応する同期区間として特定する区間対照処理と、
前記第１音響信号の前記各参照区間の再生と、当該参照区間について前記区間対照処理で特定した同期区間に対応する前記制御データの処理とが同期するように、前記制御データを処理する制御処理と
を実行させるプログラム。