JP5391939B2

JP5391939B2 - 音響処理装置およびプログラム

Info

Publication number: JP5391939B2
Application number: JP2009204511A
Authority: JP
Inventors: 美希荒井; 誠一橋本; 康之梅山
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2009-09-04
Filing date: 2009-09-04
Publication date: 2014-01-15
Anticipated expiration: 2029-09-04
Also published as: JP2011053588A

Description

本発明は、楽曲の楽音の波形を表す複数の音響信号の相互間の対応を特定する技術に関する。

楽曲のＭＩＤＩ（Musical Instrument Digital Interface）データが時系列に指定する歌詞や楽譜（例えばコード譜やタブ譜）の表示と、例えばＣＤから取得した当該楽曲の音響信号（以下「再生音響信号」という）の再生とを並列に実行すれば、再生音響信号の高音質な伴奏音のもとで歌詞や楽譜を確認しながら歌唱や演奏を練習することが可能である。しかし、時間軸上で相互に同期するようにＭＩＤＩデータと再生音響信号とを作成するという煩雑な作業が必要となる。

そこで、例えば特許文献１には、楽曲の歌詞の表示が再生音響信号の再生に同期するようにＭＩＤＩデータを変換する技術が開示されている。具体的には、再生音響信号の再生の総時間とＭＩＤＩデータの再生の総時間との長短に応じてＭＩＤＩデータのテンポを調整する構成や、再生音響信号における歌唱音の開始点とＭＩＤＩデータの歌詞の開始点とが合致するようにＭＩＤＩデータのテンポを調整する構成が提案されている。

特開２００４−２１２４７３号公報

しかし、特許文献１の技術のもとでは、楽曲の特定の区間（全区間や歌唱区間）の始点や終点にて再生音響信号の再生と歌詞の表示とが同期するに過ぎないから、当該区間の途中の時点では両者の同期が担保されないという問題がある。なお、以上の説明では歌詞の表示を例示したが、歌詞の表示以外の様々な動作を指示する制御データの処理を再生音響信号の再生に同期させる場合にも同様の問題が発生し得る。以上の事情を考慮して、本発明は、制御データの処理と音響信号の再生とを高精度に同期させることを目的とする。

以上の課題を解決するために、本発明の音響処理装置は、楽曲に関する情報を時系列に指定する制御データを記憶する記憶手段と、楽曲の楽音の波形を表す第１音響信号の特徴量を順次に生成する第１特徴抽出手段と、制御データが指定する情報の時系列に同期する楽音の波形を表す第２音響信号の特徴量を順次に生成する第２特徴抽出手段と、第１音響信号の特徴量と第２音響信号の特徴量とを比較し、第１音響信号と第２音響信号とにおいて楽曲中で相対応する時間軸上の位置を比較の結果に応じて特定する同期解析手段と、第１音響信号の再生と制御データの処理とが同期するように、同期解析手段による解析の結果に応じて制御データを処理する制御手段とを具備する。

以上の構成においては、第１音響信号と第２音響信号とにおいて楽曲中で相対応する時間軸上の位置が、第１音響信号から順次に生成された特徴量と第２音響信号から順次に生成された特徴量との比較の結果に応じて特定されるから、例えば楽曲の全区間や歌唱区間の始点または終点のみで音響信号の再生と歌詞の表示とを同期させる特許文献１の構成と比較すると、第１音響信号の再生と制御データの処理（例えば歌詞の表示）とを高精度に同期させることが可能である。

本発明の第１の態様において、第１特徴抽出手段は、第１音響信号の単位区間毎に特徴量を生成し、第２特徴抽出手段は、第２音響信号の単位区間毎に特徴量を生成し、同期解析手段は、第１音響信号の各単位区間の特徴量と第２音響信号の各単位区間の特徴量とを比較し、楽曲中で相対応する第１音響信号の各単位区間と第２音響信号の各単位区間とを、比較の結果に応じて特定する区間対照手段を含む。以上の構成によれば、第１音響信号の各単位区間の特徴量と第２音響信号の各単位区間の特徴量とが比較されるから、第１音響信号と第２音響信号との対応を単位区間毎に仔細に特定できるという利点がある。以上の態様の具体例は、例えば第１実施形態として後述される。

本発明の第２の態様において、同期解析手段は、第１音響信号を時間軸上で区分した複数の参照区間の各々について、当該参照区間内の複数の単位区間の各々の特徴量と、第２音響信号のうち候補区間内の複数の単位区間の各々の特徴量との比較を、時間長が相違する複数の候補区間の各々について実行し、複数の候補区間のうち各単位区間の特徴量が当該参照区間内の各単位区間の特徴量に類似する候補区間を、当該参照区間に対応する同期区間として特定する区間対照手段を含む。以上の態様においては、候補区間の時間長を変化させながら第１音響信号の参照区間と第２音響信号の候補区間とが比較され、複数の候補区間のうち参照区間に類似する候補区間が同期区間として特定されるから、第１音響信号や第２音響信号のテンポが楽曲中で変化する場合でも、相対応する参照区間と同期区間とを高精度に検出できるという利点がある。また、参照区間と候補区間とは複数の単位区間で構成されるから、単位区間毎の対応を解析する第１の態様と比較して、同期解析手段の処理の負荷が軽減されるという利点もある。以上の態様の具体例は、例えば第２実施形態として後述される。

本発明の第３の態様において、同期解析手段は、第１音響信号のうちの参照区間の特徴量と第２音響信号の候補区間の特徴量との比較を、時間軸上の位置が相違する複数の候補区間の各々について実行し、複数の候補区間のうち特徴量が参照区間の特徴量に類似する候補区間を、当該参照区間に対応する同期区間として特定する同期点検出手段を含む。以上の態様においては、候補区間の始点の位置を変化させながら第１音響信号の参照区間と第２音響信号の候補区間とが比較されるから、第１音響信号と第２音響信号とで相対応する時点の位置が時間軸上で相違する場合でも、第１音響信号と第２音響信号とで相対応する時点を高精度に特定できるという利点がある。

第３の態様の具体例において、同期点検出手段は、第２音響信号のうち始点の位置が共通で時間長が相違する複数の候補区間の各々の特徴量と参照区間の特徴量との比較を、始点の位置を変化させた複数の場合について実行し、参照区間と比較した複数の候補区間のうち特徴量が参照区間の特徴量に類似する候補区間を同期区間として特定する。以上の態様においては、候補区間の時間長を変化させながら第１音響信号の参照区間と第２音響信号の候補区間とが比較されるから、第１音響信号や第２音響信号のテンポが楽曲中で変化する場合でも、相対応する参照区間と同期区間とを高精度に検出できるという利点がある。

第３の態様の具体例において、同期点検出手段は、第１音響信号のうち強度が最初に閾値を上回る第１基準点と、第２音響信号のうち強度が最初に閾値を上回る第２基準点とを特定し、第１基準点を始点とする参照区間の特徴量と、第２基準点を含む所定の範囲内で始点を変化させた複数の候補区間の各々の特徴量と比較する。以上の態様においては、第２基準点を含む所定の範囲内で候補区間の始点を変化させながら、第１音響信号のうち第１基準点から開始する参照区間の特徴量と第２音響信号の候補区間の特徴量とが比較されるから、例えば、第１音響信号には存在しない音響（例えば拍子音）が第２音響信号の先頭の部分に含まれる場合であっても、第１音響信号と第２音響信号とが最初に対応する時点を正確に検出できるという利点がある。以上の態様の具体例は、例えば第１実施形態として後述される。

第３の態様の具体例において、同期点検出手段は、第１音響信号のうち利用者からの指示に応じて可変に設定された再生指示点を含む参照区間の特徴量と、第２音響信号のうち再生指示点に応じて設定された基準点を含む所定の範囲内で始点を変化させた複数の候補区間の各々の特徴量とを比較する。以上の態様においては、基準点を含む所定の範囲内で候補区間の始点を変化させながら、第１音響信号のうち再生指示点から開始する参照区間の特徴量と第２音響信号の候補区間の特徴量とが比較されるから、第１音響信号の再生と制御データの処理とを任意の再生指示点から同期させることが可能である。なお、以上の態様の具体例は、例えば第３実施形態として後述される。

以上の各形態における特徴量は、例えばクロマベクトルである。すなわち、第１特徴抽出手段は、第１音響信号のクロマベクトルを順次に生成し、第２特徴抽出手段は、第２音響信号のクロマベクトルを順次に生成する。以上の構成においては、音響信号の和声感の指標となるクロマベクトルが特徴量として生成されるから、例えば第１音響信号の拍点と第２音響信号の拍点とを同期させる構成と比較して、第１音響信号と第２音響信号とで相対応する位置を高精度に特定できるという利点がある。クロマベクトルは、相異なる音名（クロマ）に対応する複数の要素の各々が、音響信号のうち当該要素に対応する音名の成分の強度を複数のオクターブにわたって加算した数値（例えば加算値や平均値）に応じて設定されたベクトル（ピッチクラスプロファイル）を意味する。

以上の各態様の具体例において、記憶手段は、楽曲を構成する楽音の時系列を指定する楽音データを記憶し、楽音データから第２音響信号を生成するデータ変換手段を具備する。以上の態様においては、同期解析手段による処理（同期解析）に適用される第２音響信号が楽音データから生成されるので、例えばカラオケ用の楽曲データを流用できるという利点がある。また、第２音響信号が楽音データとは別個に用意された構成と比較すると、記憶装置に必要な容量が削減されるという利点もある。

また、以上の各態様の具体例において、同期解析手段は、時間長が相違する複数の候補区間の各々について、参照区間に対応するように当該候補区間を伸縮し、第２音響信号のうち参照区間内の各単位区間に対応する時点の特徴量を、伸縮前の候補区間内の各単位区間の特徴量の補間により算定し、参照区間内の各単位区間の特徴量と当該候補区間の補間後の各特徴量とを比較する。以上の態様においては、第２音響信号のうち参照区間内の各単位区間に対応する時点の特徴量が補間により算定されたうえで参照区間内の各単位区間の特徴量と比較されるから、例えば補間を実行せずに候補区間内の各特徴量と参照区間内の各特徴量とを比較する構成と比較して、参照区間と候補区間との類否を高精度に判定することが可能である。

以上の各態様に係る音響処理装置は、音響の処理に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、楽曲に関する情報を時系列に指定する制御データを記憶する記憶手段を具備するコンピュータに、楽曲の楽音の波形を表す第１音響信号のクロマベクトルを順次に生成する第１特徴抽出処理と、制御データが指定する情報の時系列に同期する楽音の波形を表す第２音響信号のクロマベクトルを順次に生成する第２特徴抽出処理と、第１音響信号のクロマベクトルと第２音響信号のクロマベクトルとを比較し、第１音響信号と第２音響信号とにおいて楽曲中で相対応する時間軸上の位置を比較の結果に応じて特定する同期解析処理と、第１音響信号の再生と制御データの処理とが同期するように、同期解析処理の結果に応じて制御データを処理する制御処理とを実行させる。以上のプログラムによれば、本発明に係る音響処理装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。

第１実施形態に係る音響処理装置のブロック図である。複数の音響信号の相互間の対応を示す対応テーブルの模式図である。同期点検出部の動作のフローチャートである。基準点を特定する動作のフローチャートである。同期点検出部の動作の説明図である。同期点検出部の詳細な動作のフローチャートである。区間対照部の動作を説明するための模式図である。歌詞の表示が楽音の再生に先行する場合の表示制御部の動作の説明図である。歌詞の表示が楽音の再生に遅延する場合の表示制御部の動作の説明図である。第２実施形態に係る音響処理装置の動作の説明図である。第２実施形態に係る音響処理装置の動作のフローチャートである。第２実施形態における対応テーブルの模式図である。第３実施形態に係る音響処理装置の動作の説明図である。第３実施形態に係る音響処理装置の動作のフローチャートである。

＜Ａ：第１実施形態＞
図１は、本発明の第１実施形態に係る音響処理装置１００のブロック図である。音響処理装置１００は、楽曲の楽音の再生と楽曲の歌詞の表示とを並列に実行するカラオケ装置として好適に利用される。図１に示すように、音響処理装置１００には、表示装置７２と収音装置７４と放音装置７６と入力装置７８と信号供給装置８０とが接続される。

表示装置（例えば液晶表示装置）７２は、音響処理装置１００による制御のもとに楽曲の歌詞を表示する。収音装置（マイク）７４は、周囲の音響（歌唱音や楽器の演奏音など）に応じた音響信号ＱBを生成する。なお、周囲の音響に応じたアナログ信号をデジタルの音響信号ＱBに変換するＡ/Ｄ変換器の図示は省略されている。放音装置（例えばスピーカやヘッドホン）７６は、音響処理装置１００から出力される音響信号ＱCに応じた音響を再生する。入力装置７８は、利用者からの操作を受付ける操作子で構成される。

信号供給装置８０は、楽曲の楽音（歌唱音や伴奏音）の波形を表すデジタルの音響信号Ｐ1を音響処理装置１００に供給する。例えば、半導体記録媒体や光ディスクなどの記録媒体から音響信号Ｐ1を取得して音響処理装置１００に出力する再生装置（例えば、携帯型の音楽再生装置）や、インターネットなどの通信網から音響信号Ｐ1を受信して音響処理装置１００に出力する通信装置が、信号供給装置８０として好適に採用される。

音響処理装置１００は、演算処理装置１２と記憶装置１４とで構成されるコンピュータシステムである。記憶装置１４は、演算処理装置１２が実行するプログラムや演算処理装置１２が使用するデータを記憶する。半導体記録媒体や磁気記録媒体などの公知の記録媒体が記憶装置１４として任意に採用される。なお、音響信号Ｐ1を記憶装置１４に格納した構成も採用される。

図１に示すように、記憶装置１４は、相異なる楽曲に対応する複数の楽曲データＤ0を記憶する。例えばインターネットなどの通信網を介して受信された楽曲データＤ0が記憶装置１４に格納される。楽曲データＤ0は、楽曲を構成する各楽音を時系列に指定する楽音データＤAと、楽曲の歌詞の文字を時系列に指定する表示データＤBとを含んで構成される。例えば、楽音の音高・強度や歌詞の文字を指定するイベントデータと各イベントデータの処理の時点（例えば相前後するイベントデータの処理の間隔）を指定するタイミングデータとを時系列に配列したＭＩＤＩ形式（具体的にはＸＦ形式）のデータ列が楽曲データＤ0（ＤA，ＤB）として好適に採用される。

楽音データＤAが指定する楽音の時系列と表示データＤBが指定する歌詞の時系列とが時間軸上で相互に対応（同期）するように楽音データＤAと表示データＤBとは作成される。他方、楽曲データＤ0の楽曲と音響信号Ｐ1の楽曲とは共通し得るが、楽曲データＤ0と音響信号Ｐ1とは別個に作成されるから、楽音データＤAが指定する楽音の時系列（表示データＤBが指定する歌詞の時系列）と音響信号Ｐ1が表す楽音の波形とは完全には同期しない。

演算処理装置１２は、記憶装置１４に格納されたプログラムを実行することで、音響信号Ｐ1の再生（楽曲のストリーミング再生）と表示データＤBが指定する歌詞の表示とを同期させるための複数の機能（第１保持部１６１，第２保持部１６２，再生制御部２０，出力処理部３０，解析処理部４０，表示制御部６０）を実現する。したがって、音響処理装置１００の利用者は、音響信号Ｐ1の再生音（楽音データＤAから生成される楽音よりも一般的には高音質な楽音）のもとで歌詞を確認しながら歌唱を練習することが可能である。なお、演算処理装置１２の各機能を複数の集積回路に分散した構成や、専用の電子回路（ＤＳＰ）が各機能を実現する構成も採用され得る。

入力装置７８の操作で利用者が指定した楽曲の音響信号Ｐ1が信号供給装置８０から第１保持部１６１に供給される。第１保持部１６１は、信号供給装置８０から供給される音響信号Ｐ1を順次に取得および保持するバッファ回路である。他方、第２保持部１６２は、入力装置７８の操作で利用者が選択した楽曲の楽曲データＤ0（楽音データＤAおよび表示データＤB）を記憶装置１４から順次に取得および保持するバッファ回路である。

再生制御部２０は、第１保持部１６１に保持された音響信号Ｐ1から音響信号ＱAを生成する。具体的には、再生制御部２０は、成分抑制部２２とピッチ変換部２４とテンポ調整部２６とを含んで構成される。成分抑制部２２は、音響信号Ｐ1のうち特定のパートの成分を抑制（理想的には除去）する。例えば、音響処理装置１００の利用者が音響信号Ｐ1の再生音（伴奏音）に合わせて歌唱する場合、成分抑制部２２は、音響信号Ｐ1のうち歌唱音のパートの成分を抑制する。成分抑制部２２による処理（マイナスワン処理）には公知の技術が任意に採用される。ピッチ変換部２４は、入力装置７８に対する利用者からの操作（キー指定）に応じて音響信号Ｐ1のピッチを変更する。テンポ調整部２６は、入力装置７８に対する利用者からの操作（テンポ指定）に応じて音響信号Ｐ1のテンポを変更する。

再生制御部２０（テンポ調整部２６）による処理後の音響信号ＱAは出力処理部３０に供給される。出力処理部３０は、音響信号ＱAおよび音響信号ＱBから音響信号ＱCを生成して放音装置７６に出力する。出力処理部３０は、再生制御部２０からの音響信号ＱAと収音装置７４からの音響信号ＱBとを混合する混合部（ミキサ）３２と、混合部３２による処理後の音響信号に各種の効果（例えばリバーブやエコー）を付与する効果付与部３４と、効果付与部３４による処理後の音響信号をアナログの音響信号ＱCに変換するＤ/Ａ変換部３６とを含んで構成される。音響信号ＱCに応じた音響が放音装置７６から放射される。

図１の解析処理部４０は、第１保持部１６１に保持された音響信号Ｐ1と楽音データＤAが指定する各楽音の時系列とについて楽曲中で相対応する位置を特定（同期解析）する。解析処理部４０は、第１特徴抽出部４２とデータ変換部４４と第２特徴抽出部４６と同期解析部４８とを含んで構成される。

第１特徴抽出部４２は、第１保持部１６１が保持する音響信号Ｐ1を時間軸上で区分した単位区間（フレーム）Ｆ1毎に（図２参照）、音響信号Ｐ1のクロマベクトル（ピッチクラスプロファイル（ＰＣＰ：pitch class profile））Ψ1を順次に算定する。クロマベクトルΨ1は、音響信号Ｐ1の和声感（ハーモニー感）の指標となる特徴量であり、音階中の相異なる音名（Ｃ，Ｃ#，Ｄ，Ｄ#，Ｅ，Ｆ，Ｆ#，Ｇ，Ｇ#，Ａ，Ａ#，Ｂ）に対応する１２次元のベクトルで表現される。クロマベクトルΨ1を構成する１２個の要素の各々は、音響信号Ｐ1のうち当該要素に対応する音名の周波数成分（１オクターブに相当する周波数帯域を音名毎に区分した１２個の周波数帯域のうち当該音名に対応する周波数帯域の成分）の強度を複数のオクターブについて加算または平均した数値に相当する。すなわち、第１特徴抽出部４２は、高速フーリエ変換などの公知の技術で音響信号Ｐ1の単位区間Ｆ1毎に周波数スペクトル（パワースペクトル）を生成し、周波数スペクトルのうち１オクターブに相当する周波数帯域を複数のオクターブについて加算することでクロマベクトルΨ1を生成する。

図１のデータ変換部４４は、第２保持部１６２が保持する楽曲データＤ0のうち楽音データＤAが指定する楽音の波形を表す音響信号Ｐ2を生成する。具体的には、楽音データＤAのイベントデータが指定する楽音の波形を順次に発生する公知の音源（ＭＩＤＩ音源）がデータ変換部４４として好適に採用される。データ変換部４４が生成する音響信号Ｐ2が表す楽音の波形は表示データＤBが指定する歌詞の時系列に同期する。すなわち、音響信号Ｐ2を再生したときに各楽音が発生する時点と、当該楽音の再生の時点で歌唱すべき歌詞を表示データＤBが指定する時点とは時間軸上で対応（理想的には合致）する。

第２特徴抽出部４６は、データ変換部４４が生成した音響信号Ｐ2を時間軸上で区分した単位区間Ｆ2毎に（図２参照）、音響信号Ｐ2のクロマベクトル（ピッチクラスプロファイル）Ψ2を順次に算定する。クロマベクトルΨ2は、クロマベクトルΨ1と同様に、相異なる音名（クロマ）に対応する１２個の要素の各々が、音響信号Ｐ2のうち当該要素に対応する音名の成分の強度を複数のオクターブにわたって加算または平均した数値に設定された１２次元のベクトルである。第２特徴抽出部４６は、第１特徴抽出部４２と同様の方法で、音響信号Ｐ2のクロマベクトルΨ2を単位区間Ｆ2毎に生成する。単位区間Ｆ1と単位区間Ｆ2とは同じ時間長の区間である。ただし、単位区間Ｆ1と単位区間Ｆ2とを相異なる時間長に設定した構成も採用され得る。

図１の同期解析部４８は、第１特徴抽出部４２が単位区間Ｆ1毎に生成した各クロマベクトルΨ1と第２特徴抽出部４６が単位区間Ｆ2毎に生成した各クロマベクトルΨ2とを比較し、音響信号Ｐ1と音響信号Ｐ2とにおいて楽曲中で相互に対応する時間軸上の位置（例えば楽曲の同じ楽音に対応する位置）を比較の結果に応じて特定する。具体的には、同期解析部４８は、図２に例示した対応テーブルＴBL1を生成する。対応テーブルＴBL1は、音響信号Ｐ1の複数の単位区間Ｆ1（Ｆ1[1]〜Ｆ1[M]）と音響信号Ｐ2の複数の単位区間Ｆ2（Ｆ2[1]〜Ｆ2[N]）とのうちクロマベクトルΨ1とクロマベクトルΨ2とが相互に類似する単位区間Ｆ1と単位区間Ｆ2とを対応させるデータテーブルである。

図１に示すように、同期解析部４８は、同期点検出部５２と区間対照部５４とを含んで構成される。同期点検出部５２は、音響信号Ｐ1の同期点Ｓ1と音響信号Ｐ2の同期点Ｓ2とを検出する。同期点Ｓ1および同期点Ｓ2は、楽曲の歌唱や伴奏が開始する時点（楽曲の開始前の無音の区間が終了する時点）である。すなわち、同期点Ｓ1および同期点Ｓ2は、音響信号Ｐ1と音響信号Ｐ2とが最初に同期する時点に相当する。同期点Ｓ1は単位区間Ｆ1の番号で指定され、同期点Ｓ2は単位区間Ｆ2の番号で指定される。

図３は、同期点検出部５２の動作のフローチャートである。例えば入力装置７８に対する所定の操作を契機として音響信号Ｐ1の再生の開始前に図３の処理が実行される。同期点検出部５２は、音響信号Ｐ1の基準点α1と音響信号Ｐ2の基準点α2とを特定する（ＳA1，ＳA2）。基準点αk（ｋ＝１，２）は、音響信号Ｐkの強度（音量）が最初に閾値を上回る時点である。

図４は、同期点検出部５２が基準点αkを特定する処理（ＳA1，ＳA2）のフローチャートである。同期点検出部５２は、基準点αkをゼロ（音響信号Ｐkの最初の単位区間Ｆk）に初期化したうえで（ＳB1）、音響信号Ｐkのうち基準点αkでの強度Ｌkが所定の閾値ＬTHを上回るか否かを判定する（ＳB2）。強度Ｌkが閾値ＬTHを下回る場合（ＳB2：NO）、同期点検出部５２は、基準点αkを所定値δ（例えばδ＝１）だけ後方の時点に更新し（ＳB3）、更新後の基準点αkについてステップＳB2の処理を実行する。強度Ｌkが閾値ＬTHを上回ると（ＳB2：YES）、同期点検出部５２は図４の処理を終了する。したがって、音響信号Ｐkのうち強度Ｌkが最初に閾値ＬTHを上回る時点が基準点αkとして確定する。

ところで、音響信号Ｐ2のうち強度Ｌ2が最初に閾値ＬTHを上回る基準点α2は、楽曲が実際に開始する時点（音響信号Ｐ1にて楽曲が開始する時点）に該当しない可能性がある。例えば、伴奏音に先立って歌唱音が開始する楽曲のカラオケ用の楽曲データＤ0を想定すると、楽曲データＤ0（楽音データＤA）から生成される音響信号Ｐ2においては、歌唱者が拍子を把握するための拍子音が伴奏音の開始前に発生する。したがって、拍子音の時点が基準点α2として検出される可能性がある。そこで、同期点検出部５２は、図３のステップＳA3において、音響信号Ｐ1の各クロマベクトルΨ1と音響信号Ｐ2の各クロマベクトルΨ2とを比較する（すなわち両者の音楽的な類否を判断する）ことで、音響信号Ｐ2における正確な同期点Ｓ2を特定する。音響信号Ｐ1の同期点Ｓ1は、ステップＳA1で特定した基準点α1に設定される。

図５は、図３のステップＳA3の処理の概要を示す説明図である。同期点検出部５２は、音響信号Ｐ1のうち同期点Ｓ1（基準点α1）を始点とする参照区間σREFのクロマベクトルΨ1と、音響信号Ｐ2のうち始点ＳXや時間長ＷXが相違する複数の候補区間σXの各々のクロマベクトルΨ2とを比較する。すなわち、同期点検出部５２は、図５に示すように、時間軸上の始点ＳXを変化させた複数の場合の各々について、音響信号Ｐ2のうち当該始点ＳXからの時間長ＷXが相違する複数の候補区間σXの各々のクロマベクトルΨ2を、音響信号Ｐ1の参照区間σREFのクロマベクトルΨ1と比較する。そして、同期点検出部５２は、複数の候補区間σXのうちクロマベクトルΨ2が参照区間σREFのクロマベクトルΨ1に最も類似する候補区間σXを、参照区間σREFに対応する同期区間σSとして特定する。同期区間σSの始点が同期点Ｓ2に相当する。

図６は、図５の動作のフローチャートである。図６に示すように、同期点検出部５２は、候補区間σXと参照区間σREFとの音楽的な類否の指標（以下「類否指標」という）γが代入される変数βを最大値γMAXに初期化し、参照区間σREFの同期点Ｓ1を基準点α1に設定する（ＳC1）。また、同期点検出部５２は、候補区間σXの時間長ＷXを下限値ＬAに初期化し、候補区間σXの始点ＳXを、図５に示すように、図３のステップＳA2で特定した基準点α2から所定の時間長Ｔだけ手前の時点（α2−Ｔ）に初期化する（ＳC2）。下限値ＬAは、参照区間σREFよりも短い時間（例えば時間長ＷREFの半分）に設定される。また、時間長Ｔは、例えば参照区間σREFの時間長ＷREFの半分（ＷREF/２）に設定される。

同期点検出部５２は、音響信号Ｐ1の参照区間σREF内の各単位区間Ｆ1のクロマベクトルΨ1と、音響信号Ｐ2のうち始点ＳXから時間長ＷXにわたる候補区間σX内の各単位区間Ｆ2のクロマベクトルΨ2とを比較する（ＳC3，ＳC4）。具体的には、同期点検出部５２は、候補区間σXを参照区間σREFの時間長ＷREFに伸縮し（すなわち、始点および終点を参照区間σREFに合致させ）、伸縮後の候補区間σXのうち参照区間σREF内の各単位区間Ｆ1に対応する時点のクロマベクトルΨ2を、伸縮前の候補区間σX内の各単位区間Ｆ2のクロマベクトルΨ2の補間により算定する（ＳC3）。そして、同期点検出部５２は、参照区間σREF内のクロマベクトルΨ1と候補区間σX内の補間後のクロマベクトルΨ2との距離Ｄを、相対応する時点のクロマベクトルΨ1とクロマベクトルΨ2との対毎に算定し、距離Ｄの総和または平均を類否指標γとして算定する（ＳC4）。距離Ｄは、クロマベクトルΨ1とクロマベクトルΨ2との類否の尺度となる指標値である。例えば、クロマベクトルΨ1とクロマベクトルΨ2との内積や幾何距離が距離Ｄとして算定される。したがって、類否指標γが小さいほど、音響信号Ｐ1の参照区間σREFと音響信号Ｐ2の候補区間σXとが音楽的に類似するという傾向がある。

同期点検出部５２は、ステップＳC4で算定した類否指標γが変数βを下回るか否かを判定する（ＳC5）。類否指標γが変数βを下回る場合（ＳC5：YES）、同期点検出部５２は、直前のステップＳC4で算定した類否指標γを変数βに代入し、現時点の候補区間σXの時間長ＷXを同期区間σSの暫定的な時間長ＷSとして設定し、現時点の候補区間σXの始点ＳXを暫定的な同期点Ｓ2（同期区間σSの始点）として設定する（ＳC6）。他方、類否指標γが変数βを上回る場合（ＳC5：NO）、同期点検出部５２は、ステップＳC6を実行せずに処理をステップＳC7に移行する。すなわち、時間長ＷSおよび同期点Ｓ2は、参照区間σREFに音楽的に類似する候補区間σXの時間長ＷXおよび始点ＳXに順次に更新される。

次いで、同期点検出部５２は、現時点の候補区間σXの時間長ＷXに所定値Ｂを加算し（ＳC7）、加算後の時間長ＷXが上限値ＬBを上回るか否かを判定する（ＳC8）。上限値ＬBは、参照区間σREFよりも長い時間（例えば時間長ＷREFの1.5倍）に設定される。ステップＳC8の結果が否定である場合、同期点検出部５２は処理をステップＳC3に移行する。すなわち、図５に示すように、更新前の候補区間σXと始点ＳXが共通で時間長ＷXが相違する（所定値Ｂだけ長い）新たな候補区間σXについて参照区間σREFとの類否が判定される（ＳC3〜ＳC8）。

他方、ステップＳC8の結果が肯定である場合（ＷX＞ＬB）、同期点検出部５２は、図５に示すように、候補区間σXの始点ＳXを所定値Ｃだけ後方に移動し、候補区間σXの時間長ＷXを下限値ＬA（例えば参照区間σREFの時間長ＷREFの半分）に初期化する（ＳC9）。そして、同期点検出部５２は、ステップＳC9での更新後の始点ＳXが、図５に示すように音響信号Ｐ2の基準点α2から所定値Ｔ（例えば時間長ＷREFの半分）だけ経過した時点よりも後方か否かを判定する（ＳC10）。ステップＳC10の結果が否定である場合、同期点検出部５２は、ステップＳC9での更新後の始点ＳXについてステップＳC3以降の処理（候補区間σXの時間長ＷXを変化させながら参照区間σREFと始点ＳXからの候補区間σXとを比較する処理）を反復する。他方、ステップＳC10の結果が肯定である場合、同期点検出部５２は図６の処理を終了する。

以上の処理の結果、図５に示すように、音響信号Ｐ2の基準点α2から前後の時間長Ｔ（合計２Ｔ）にわたる範囲内で始点ＳXを所定値Ｃずつ移動させた複数の場合の各々について、下限値ＬAから上限値ＬBまでの範囲内で時間長ＷXを所定値Ｂずつ変化させた複数の候補区間σXの各々と参照区間σREFとの音楽的な類否が判定される。そして、図６の処理が終了した段階では、複数の候補区間σXのうち類否指標γが最小となる候補区間σX（参照区間σREFに最も類似する候補区間σX）の時間長ＷXおよび始点ＳXが、同期区間σSの時間長ＷSおよび同期点Ｓ2として確定する。以上が同期点検出部５２の動作である。

図１の区間対照部５４は、音響信号Ｐ1の各単位区間Ｆ1と音響信号Ｐ2の各単位区間Ｆ2との対応を解析することで対応テーブルＴBL1を生成する。区間対照部５４による音響信号Ｐ1と音響信号Ｐ2との対比には、以下に例示するＤＰ（dinamic programming：動的計画法）マッチングが好適に採用される。図７に示すように、区間対照部５４は、音響信号Ｐ1のうち同期点Ｓ1に対応する単位区間Ｆ1[1]から最後の単位区間Ｆ1[M]までの時系列（横軸）と、音響信号Ｐ2のうち同期点検出部５２が図６の処理で特定した同期点Ｓ2に対応する単位区間Ｆ2[1]から最後の単位区間Ｆ2[N]までの時系列（縦軸）とを対比する。すなわち、同期点検出部５２による前述の処理は、区間対照部５４による解析の対象となる区間の先頭（楽曲の開始点）を音響信号Ｐ1と音響信号Ｐ2とで対応させる処理（先頭合わせ）に相当する。

区間対照部５４は、まず、音響信号Ｐ1の単位区間Ｆ1[1]〜Ｆ1[M]の時系列と音響信号Ｐ2の単位区間Ｆ2[1]〜Ｆ2[N]の時系列との各々から単位区間Ｆ1[m]（ｍ＝１〜Ｍ）および単位区間Ｆ2[n]（ｎ＝１〜Ｎ）を選択する全通りの組合せについて、単位区間Ｆ1[m]のクロマベクトルΨ1と単位区間Ｆ2[n]のクロマベクトルΨ2との距離Ｄ[m,n]（例えば内積や幾何距離）を算定する。したがって、距離Ｄ[1,1]〜Ｄ[M,N]で構成されるＭ行×Ｎ列の行列（コストマトリクス）が生成される。

区間対照部５４は、単位区間Ｆ1[1]（同期点Ｓ1）および単位区間Ｆ2[1]（同期点Ｓ2）の組合せに対応する時点ｐ[1,1]から、任意の単位区間Ｆ1[m]および単位区間Ｆ2[n]の組合せに対応する時点ｐ[m,n]までの複数の経路のうち、距離Ｄ[1,1]〜Ｄ[m,n]の累積値ｇ[m,n]が最小値となる経路について当該累積値ｇ[m,n]を順次に特定する。そして、区間対照部５４は、図７に示すように、音響信号Ｐ1の最後の単位区間Ｆ1[M]と音響信号Ｐ2の最後の単位区間Ｆ2[N]とに対応する時点ｐ[M,N]での累積値ｇ[M,N]が最小となる最適経路（マッチングパス）ＭPを特定し、最適経路ＭP上の各時点に対応する単位区間Ｆ1[m]と単位区間Ｆ2[n]とを対応させた図２の対応テーブルＴBL1を作成する。

図１の表示制御部６０は、第２保持部１６２に保持された表示データＤBが指定する歌詞の各文字を表示装置７２に順次に表示させる。表示制御部６０は、音響信号Ｐ1の再生に同期するように表示データＤBの処理（表示装置７２に対する表示の指示）のテンポを対応テーブルＴBL1に応じて可変に設定する。具体的には、対応テーブルＴBL1にて各単位区間Ｆ1に対応づけられた単位区間Ｆ2の歌詞の文字が、音響信号Ｐ1のうち当該単位区間Ｆ1が再生される時点で表示装置７２に表示されるように、表示制御部６０は表示データＤBの処理のテンポを制御する。また、表示データＤBの処理のテンポはテンポ調整部２６が設定したテンポにも依存する。すなわち、表示制御部６０は、テンポ調整部２６が設定したテンポが速いほど表示データＤBの処理のテンポを上昇させる。

例えば、図８のように、音響信号Ｐ1の単位区間Ｆ1[1]と音響信号Ｐ2の単位区間Ｆ2[1]とが対応し、音響信号Ｐ1の単位区間Ｆ1[2]およびＦ1[3]と音響信号Ｐ2の単位区間Ｆ2[2]とが対応する場合を想定する。図８の関係のもとで表示データＤBの処理のテンポを固定した場合、音響信号Ｐ1の再生に対して歌詞の表示が先に進み、音響信号Ｐ1の再生と歌詞の表示とが同期しない状態となる。そこで、表示制御部６０は、図８に示すように、単位区間Ｆ2[1]の表示データＤBを処理するテンポの半分のテンポ（tempo×1/2）で単位区間Ｆ2[2]内の表示データＤBを処理する。したがって、音響信号Ｐ1の単位区間Ｆ1[2]および単位区間Ｆ1[3]が再生される区間内（単位区間Ｆ1[2]の始点から単位区間Ｆ1[3]の終点まで）では、表示データＤBのうち単位区間Ｆ2[2]の歌詞が表示され、音響信号Ｐ1の単位区間Ｆ1[4]の再生が開始する時点で単位区間Ｆ2[3]の歌詞の表示が開始する。

他方、図９のように、音響信号Ｐ1の単位区間Ｆ1[1]と音響信号Ｐ2の単位区間Ｆ2[1]とが対応し、音響信号Ｐ1の単位区間Ｆ1[2]と音響信号Ｐ2の単位区間Ｆ2[2]〜Ｆ2[4]とが対応する場合を想定する。図９の関係のもとで表示データＤBの処理のテンポを固定した場合、歌詞の表示が音響信号Ｐ1の再生に対して遅延し、音響信号Ｐ1の再生と歌詞の表示とが同期しない状態となる。そこで、表示制御部６０は、図９に示すように、単位区間Ｆ2[1]の表示データＤBを処理するテンポの３倍のテンポ（tempo×３）で単位区間Ｆ2[2]〜Ｆ2[4]内の表示データＤBを処理する。したがって、音響信号Ｐ1の単位区間Ｆ1[2]が再生される区間内（単位区間Ｆ1[2]の始点から終点まで）では、表示データＤBのうち単位区間Ｆ2[2]〜Ｆ2[4]の歌詞が順次に表示され、音響信号Ｐ1の単位区間Ｆ1[3]の再生が開始する時点で単位区間Ｆ2[5]の歌詞の表示が開始する。

表示データＤBの処理のテンポは例えば以下の方法で制御される。まず、表示制御部６０は、単位区間Ｆ1と単位区間Ｆ2との先後に応じて、表示データＤBの再生速度（例えば、所定の時間内に処理する単位区間Ｆ2の個数（frame/sec））を算出する。例えば、歌詞の表示が音響信号Ｐ1の再生に先行する場合（図８の場合）には再生速度を低速に設定し、歌詞の表示が音響信号Ｐ1の再生に遅延する場合（図９の場合）には再生速度を高速に設定する。そして、表示制御部６０は、表示データＤBの処理の間隔の単位（分解能）を規定するチック（tick）の間隔を再生速度に応じて可変に設定する（例えば、再生速度が高いほどチックの間隔を短縮する）ことで表示データＤBの処理のテンポを可変に制御する。

以上の形態においては、音響信号Ｐ1の各単位区間Ｆ1と音響信号Ｐ2の各単位区間Ｆ2との音楽的な類否に応じて楽曲中での単位区間Ｆ1と単位区間Ｆ2との対応が解析され、相対応する単位区間Ｆ1と単位区間Ｆ2とが同期するように表示データＤBの処理のテンポが可変に制御される。したがって、例えば楽曲の全区間や歌唱区間の始点または終点のみで音響信号の再生と歌詞の表示とを同期させる特許文献１の構成と比較すると、例えば楽曲の途中で音響信号Ｐ1と楽曲データＤ0との同期が外れる場合でも、音響信号Ｐ1の再生と歌詞の表示とを高精度に同期させることが可能である。

ところで、音響信号Ｐ1の再生と歌詞の表示とを同期させる方法としては、例えば、音響信号Ｐ1の拍点と音響信号Ｐ2の拍点とを対応させる方法も想定され得る。しかし、拍点を利用する方法では、例えば音響信号Ｐ1または音響信号Ｐ2の拍点の検出漏れに起因して音響信号Ｐ1の再生と歌詞の表示とがずれた場合（例えば音響信号Ｐ1の再生に対して１拍分だけ遅延して歌詞が表示される場合）に、両者の同期を回復することが困難であるという問題がある。本実施形態においては、和声感の指標となるクロマベクトル（Ψ1，Ψ2）の比較の結果に応じて音響信号Ｐ1の再生と歌詞の表示との同期が確保されるから、両者の同期が外れる可能性が低く、仮に何らかの事情で両者の同期が外れた場合でも速やかに同期を回復することが可能である。

さらに、第１実施形態においては、音響信号Ｐ2のうち始点ＳXおよび時間長ＷXを変化させた複数の候補区間σXの各々が音響信号Ｐ1の参照区間σREFと比較され、複数の候補区間σXのうち参照区間σREFに類似する候補区間σX（同期区間σS）の始点ＳXが、音響信号Ｐ1の同期点Ｓ1に対応する同期点Ｓ2として特定される。したがって、例えば、音響信号Ｐ1に存在しない音響（例えば拍子音）が音響信号Ｐ2の先頭の部分に含まれる場合でも、音響信号Ｐ1と音響信号Ｐ2とで相互に同期する同期点（Ｓ1，Ｓ2）を正確に検出できるという利点がある。ただし、音響信号Ｐ2の先頭の部分の音響が特段の問題とならない場合には、基準点α2を同期点Ｓ2とする構成も採用され得る。

＜Ｂ：第２実施形態＞
次に、本発明の第２実施形態について説明する。第２実施形態においては、区間対照部５４の動作が第１実施形態とは相違する。図１０は、第２実施形態における区間対照部５４の動作の説明図である。なお、以下の各形態において作用や機能が第１実施形態と同等である要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。

図１０に示すように、音響信号Ｐ1は複数の参照区間σREF（σREF[1]，σREF[2]，……）に区分される。各参照区間σREFの時間長ＷREFは、単位区間Ｆ1の所定個に相当する固定値である。区間対照部５４は、各参照区間σREF[i]に対応する同期区間σS[i]（σS[1]，σS[2]，……）を音響信号Ｐ2について順次に特定する（ｉ＝１，２，３，……）。具体的には、図１０に示すように、区間対照部５４は、音響信号Ｐ1の複数の参照区間σREFの各々（σREF[i]）について、当該参照区間σREF[i]の各単位区間Ｆ1のクロマベクトルΨ1と音響信号Ｐ2の候補区間σX内の各単位区間Ｆ2のクロマベクトルΨ2とを、候補区間σXの時間長ＷXを変化させながら順次に比較する。そして、区間対照部５４は、複数の候補区間σXのうち参照区間σREF[i]に音楽的に最も類似する候補区間σXを同期区間σS[i]として特定する。以上の処理が順次に反復されることで、音響信号Ｐ2は、図１０に示すように、相異なる参照区間σREF[i]に対応する複数の同期区間σS（σS[1]，σS[2]，……）に区分される。図１０の時点Ｒ1[i]は音響信号Ｐ1の参照区間σREF[i]の終点に相当し、時点Ｒ2[i]は音響信号Ｐ2の同期区間σS[i]の終点に相当する。

図１１は、区間対照部５４の動作のフローチャートである。同期点検出部５２が図３の処理を完了すると図１１の処理が開始される。区間対照部５４は、参照区間σREFや同期区間σSを識別する変数（番号）ｉをゼロに初期化したうえで、図１０に示すように、音響信号Ｐ1の時点Ｒ1[i]（参照区間σREF[1]の始点Ｒ1[0]）を同期点Ｓ1に設定し、音響信号Ｐ2の時点Ｒ2[i]（候補区間σS[1]の始点Ｒ2[0]）を同期点Ｓ2に設定する（ＳD1）。同期点Ｓ1は、同期点検出部５２が図３のステップＳA1で特定した基準点α1に相当し、同期点Ｓ2は、同期点検出部５２が図６の処理で特定した時点である。

次いで、区間対照部５４は、変数ｉを１に変更したうえで、図１０に示すように、音響信号Ｐ1の時点Ｒ1[i]（参照区間σREF[1]の終点Ｒ1[1]）を、同期点Ｓ1（時点Ｒ1[0]）から時間長ＷREFだけ経過した時点（Ｓ1＋ＷREF）に設定し、音響信号Ｐ2の時点Ｒ2[i]（同期区間σS[1]の終点Ｒ2[1]）を、同期点Ｓ2（時点Ｒ2[0]）から同期区間σS[1]の時間長ＷS[1]だけ経過した時点（Ｓ2＋ＷS[1]）に設定する（ＳD2）。音響信号Ｐ2の最初の同期区間σS[1]は、同期点検出部５２が図６の処理で特定した同期区間σSである。したがって、図６の処理（ステップＳC6）で同期点検出部５２が設定した時間長ＷSが同期区間σS[1]の時間長ＷS[1]として図１１のステップＳD2に適用される。

次いで、区間対照部５４は、変数ｉに１を加算したうえで（ＳD3）、変数βを最大値γMAXに初期化し、基準長ＷPREを時間長ＷS[i-1]に初期化し、候補区間σXの時間長ＷXを基準長ＷPRE（ＷS[i-1]）の半分に初期化する（ＳD4）。基準長ＷPREは、候補区間σXの時間長ＷXを変化させる範囲を規定する数値である。

以上の初期化が完了すると、区間対照部５４は、図６のステップＳC3およびステップＳC4と同様に、音響信号Ｐ1の参照区間σREF[i]内の各単位区間Ｆ1のクロマベクトルΨ1と、音響信号Ｐ2のうち時点Ｒ2[i-1]から時間長ＷXにわたる候補区間σX内の各単位区間Ｆ2のクロマベクトルΨ2とを比較する（ＳD5，ＳD6）。具体的には、区間対照部５４は、音響信号Ｐ2の候補区間σXを参照区間σREF[i]の時間長ＷREFに伸縮し、伸縮後の候補区間σXのうち参照区間σREF[i]内の各単位区間Ｆ1に対応する時点のクロマベクトルΨ2を、伸縮前の候補区間σX内の各単位区間Ｆ2のクロマベクトルΨ2の補間により算定する（ＳD5）。そして、区間対照部５４は、参照区間σREF[i]内の各クロマベクトルΨ1と補間後の各クロマベクトルΨ2との距離Ｄの総和または平均を類否指標γとして算定する（ＳD6）。

区間対照部５４は、ステップＳD6で算定した類否指標γが変数βを下回るか否かを判定する（ＳD7）。類否指標γが変数βを下回る場合（ＳD7：YES）、区間対照部５４は、直前のステップＳD6で算定した類否指標γを変数βに代入し、現時点の候補区間σXの時間長ＷXを同期区間σS[i]の暫定的な時間長ＷS[i]として設定する（ＳD8）。他方、類否指標γが変数βを上回る場合（ＳD7：NO）、区間対照部５４は、ステップＳD8を実行せずに処理をステップＳD9に移行する。すなわち、時間長ＷS[i]は、参照区間σREF[i]に音楽的に類似する候補区間σXの時間長ＷXに順次に更新される。

次いで、区間対照部５４は、現時点の候補区間σXの時間長ＷXに所定値Ｂを加算し（ＳD9）、加算後の時間長ＷXが基準長ＷPRE（時間長ＷS[i-1]）の1.5倍を上回るか否かを判定する（ＳD10）。ステップＳD10の結果が否定である場合、区間対照部５４は処理をステップＳD5に移行する。すなわち、図１０に示すように、更新前の候補区間σXと始点（時点Ｒ2[i-1]）が共通で時間長ＷXが相違する（所定値Ｂだけ長い）新たな候補区間σXについて参照区間σREF[i]との類否が判定される（ＳD5〜ＳD10）。

他方、ステップＳD10の結果が肯定である場合、区間対照部５４は、現時点での時間長ＷS[i]を同期区間σS[i]の時間長として確定する（ＳD11）。すなわち、区間対照部５４は、図１０に示すように、同期区間σS[i]の終点Ｒ2[i]を、既知の時点Ｒ2[i-1]から現時点での時間長ＷS[i]だけ後方の時点（Ｒ2[i-1]＋ＷS[i]）に設定する。また、区間対照部５４は、参照区間σREF[i]の終点Ｒ1[i]を、時点Ｒ1[i-1]から時間長ＷREFだけ後方の時点（Ｒ1[i-1]＋ＷREF）に設定する。

そして、区間対照部５４は、音響信号Ｐ1および音響信号Ｐ2の全区間の処理が完了したか否かを判定する（ＳD12）。具体的には、区間対照部５４は、ステップＳD11で確定した時点Ｒ1[i]から時間長ＷREFだけ経過した時点（Ｒ1[i]＋ＷREF）が音響信号Ｐ1の終点よりも後方であるか否かの判定と、ステップＳD11で確定した時点Ｒ2[i]から時間長ＷS[i]だけ経過した時点（Ｒ2[i]＋ＷS[i]）が音響信号Ｐ2の終点よりも後方であるか否かの判定とを実行する。そして、双方の判定の結果が否定である場合（全区間の処理が完了していない場合）、区間対照部５４は、変数ｉに１を加算したうえで（ＳD3）、ステップＳD4からステップＳD12の処理（すなわち、更新後の変数ｉに対応する同期区間σS[i]の特定）を実行する。他方、ステップＳD12の何れかの判定の結果が肯定である場合（音響信号Ｐ1または音響信号Ｐ2について全区間の処理が完了した場合）、区間対照部５４は図１１の処理を終了する。

以上の処理の結果、図１０に示すように、同期区間σS[i-1]の終点Ｒ2[i-1]からの時間長ＷXを基準長ＷPREの半分から1.5倍までの範囲内で所定値Ｂずつ変化させた複数の候補区間σXの各々と参照区間σREF[i]との音楽的な類否が順次に判定される。そして、複数の候補区間σXのうち類否指標γが最小となる候補区間σX（参照区間σREF[i]に最も類似する候補区間σX）が音響信号Ｐ2の同期区間σS[i]として特定される。区間対照部５４が以上の処理を実行することで、音響信号Ｐ1の各参照区間σREF[i]と音響信号Ｐ2の各同期区間σS[i]とを対応させる図１２の対応テーブルＴBL2が記憶装置１４に生成される。対応テーブルＴBL2は、図１２に示すように、各参照区間σREF[i]の終点Ｒ1[i]と当該参照区間σREF[i]に対応する同期区間σS[i]の終点Ｒ2[i]とを対応づけるデータテーブルである。

表示制御部６０は、音響信号Ｐ1の再生に同期するように表示データＤBの処理（表示装置７２に対する表示の指示）のテンポを対応テーブルＴBL2に応じて可変に設定する。具体的には、音響信号Ｐ2の同期区間σS[i]（Ｒ2[i-1]〜Ｒ2[i]）に対応する歌詞の文字が、音響信号Ｐ1の参照区間σREF[i]（Ｒ1[i-1]〜Ｒ1[i]）が再生される期間内に表示装置７２に表示されるように、表示制御部６０は表示データＤBの処理のテンポを制御する。例えば、表示制御部６０は、参照区間σREF[i]の時間長ＷREFに対する同期区間σS[i]の時間長ＷS[i]の相対比（(Ｒ2[i]−Ｒ2[i-1])/(Ｒ1[i]−Ｒ1[i-1])を所定の基準値に乗算したテンポで表示データＤBを処理する。

以上の形態においては、音響信号Ｐ1の各参照区間σREF[i]に楽曲中で対応する同期区間σS[i]が音響信号Ｐ2について特定され、相対応する参照区間σREF[i]と同期区間σS[i]とが同期するように表示データＤBの処理のテンポが可変に制御される。したがって、楽曲の全区間や歌唱区間の始点または終点のみで音響信号の再生と歌詞の表示とを同期させる特許文献１の技術と比較すると、例えば楽曲の途中で音響信号Ｐ1と楽曲データＤ0との同期が外れる場合でも、音響信号Ｐ1の再生と歌詞の表示とを高精度に同期させることが可能である。さらに、第２実施形態においては、複数の単位区間Ｆ1で構成される参照区間σREFと複数の単位区間Ｆ2で構成される同期区間σSとの対応が解析される（すなわち、複数の単位区間を単位として同期解析を実行する）から、各単位区間Ｆ1と各単位区間Ｆ2との対応を解析する第１実施形態と比較して、同期解析部４８の処理の負荷が軽減されるという利点もある。もっとも、第１実施形態によれば、第２実施形態と比較して、音響信号Ｐ1と音響信号Ｐ2との対応を単位区間（Ｆ1，Ｆ2）毎に仔細に特定できるという利点がある。

また、第２実施形態においては、音響信号Ｐ2のうち時間長ＷXを変化させた複数の候補区間σXの各々が音響信号Ｐ1の参照区間σREF[i]と比較され、複数の候補区間σXのうち参照区間σREF[i]に類似する候補区間σXが同期区間σS[i]として特定される。したがって、例えば音響信号Ｐ1や音響信号Ｐ2のテンポが楽曲中で変化する場合でも、相互に同期する参照区間σREF[i]と同期区間σS[i]とを高精度に検出できるという利点がある。

ところで、区間対照部５４が特定する同期区間σS[i]の時間長ＷS[i]は、候補区間σXの時間長ＷXの変化の範囲（以下「探索範囲」という）内の数値に制限される。したがって、探索範囲が固定された構成では、実際の同期区間σS[i]は充分に長いにも関わらず時間長ＷS[i]が探索範囲の上限値に制限される場合や、実際の同期区間σS[i]は充分に短いにも関わらず時間長ＷS[i]が探索範囲の下限値に制限される場合がある。すなわち、同期区間σS[i]の時間長ＷS[i]を正確に特定できないという問題がある。

他方、第２実施形態における時間長ＷXの探索範囲は、直前の同期区間σS[i-1]の時間長ＷS[i-1]（基準長ＷPRE）に応じて設定される。具体的には、第２実施形態の探索範囲は時間長ＷS[i-1]の半分から1.5倍までの範囲である。したがって、直前の同期区間σS[i-1]の時間長ＷS[i-1]が長いほど、同期区間σS[i]の候補となる候補区間σXの時間長ＷXの上限値（1.5×ＷS[i-1]）は長い時間となり、時間長ＷS[i-1]が短いほど候補区間σXの時間長ＷXの下限値（0.5×ＷS[i-1]）は短い時間となる。そして、相前後する同期区間σS（σS[i-1]，σS[i]）で時間長ＷSが極端に相違する可能性は低いという傾向があるから、第２実施形態によれば、探索範囲を固定した構成と比較して、同期区間σS[i]の時間長ＷS[i]が探索範囲内に包含される可能性が高い。したがって、探索範囲に制限されずに時間長ＷS[i]を正確に特定できるという利点がある。もっとも、同期区間σS[i]の時間長ＷS[i]の変動が小さいことを前提とすれば、時間長ＷS[i]が探索範囲に制限される可能性は低いから、探索範囲を固定した構成も採用され得る。

＜Ｃ：第３実施形態＞
第３実施形態の音響処理装置１００においては、入力装置７８に対する利用者からの操作に応じて音響信号Ｐ1の再生点が変更される。例えば、表示制御部６０は、図１３の操作画面７２０を表示する。操作画面７２０は、楽曲（音響信号Ｐ1）の全区間を表す直線状の再生領域７２１と、再生領域７２１上に配置された指示子７２２とを含むＧＵＩである。指示子７２２は、楽曲のうち再生中の時点を示す画像である。したがって、楽曲の再生が進行するにつれて、指示子７２２は再生領域７２１の左端から右端に向けて経時的に移動する。利用者は、入力装置７８を操作して指示子７２２を移動することで楽曲の再生点を任意に変更することが可能である。

第３実施形態の同期点検出部５２は、第１実施形態と同様の機能のほか（または第１実施形態の機能に代えて）、音響信号Ｐ1のうち利用者による変更後の再生点（以下「再生指示点」という）に楽曲中で対応する音響信号Ｐ2の時点を特定する機能を具備する。図１４は、再生点の変更が指示された場合に同期点検出部５２が実行する処理のフローチャートである。利用者による再生点の変更を契機として図１４の処理が開始される。

図１４の処理を開始すると、同期点検出部５２は、音響信号Ｐ1のうち再生指示点ｔ1を含む参照区間σREFを設定する（ＳE1）。例えば、図１３に示すように、再生指示点ｔ1を始点とする所定の時間長ＷREFの区間が参照区間σREFとして特定される。次いで、同期点検出部５２は、音響信号Ｐ2のうち再生指示点ｔ1に対応する基準点ｔ2を特定する（ＳE2）。例えば、同期点検出部５２は、図１３に示すように音響信号Ｐ2のうち再生指示点ｔ1と同時刻の時点や、音響信号Ｐ2の全区間に対する位置が音響信号Ｐ1の全区間に対する再生指示点ｔ1の位置と同等となる時点（例えば音響信号Ｐ2の始点からみて全区間の１／３に相当する時点）を基準点ｔ2として特定する。

そして、同期点検出部５２は、基準点α1および基準点α2から同期点Ｓ1および同期点Ｓ2を特定する第１実施形態と同様の方法で、再生指示点ｔ1および基準点ｔ2から同期点Ｓ1および同期点Ｓ2を特定する（ＳE3）。すなわち、同期点検出部５２は、基準点α1を再生指示点ｔ1に置換するとともに基準点α2を基準点ｔ2に置換して図６の処理を実行することで同期点Ｓ1および同期点Ｓ2を特定する。

具体的には、同期点検出部５２は、図１３に示すように、音響信号Ｐ1のうちステップＳE1で特定した参照区間σREF内の各クロマベクトルΨ1と音響信号Ｐ2に画定された候補区間σX内の各クロマベクトルΨ2との類否指標γを、候補区間σXの始点ＳXおよび時間長ＷXを変化させた複数の場合の各々について算定する。始点ＳXは、ステップＳE2で特定した基準点ｔ2から前後に所定の時間長Ｔ（合計２Ｔ）にわたる範囲内で順次に変更され、時間長ＷXは、下限値ＬAから上限値ＬBまでの範囲内（例えば時間長ＷREFの半分から1.5倍の範囲内）で順次に変更される。同期点検出部５２は、複数の候補区間σXのうち類否指標γが最小となる候補区間σX（すなわちステップＳE1で特定した参照区間σREFに音楽的に最も類似する候補区間σX）を同期区間σSとして探索し、同期区間σSの始点を同期点Ｓ2として特定する。

区間対照部５４は、音響信号Ｐ1のうち同期点Ｓ1から開始する各単位区間Ｆ1と音響信号Ｐ2のうち同期点Ｓ2から開始する各単位区間Ｆ2との対応を第１実施形態と同様の方法で特定する。なお、音響信号Ｐ1のうち同期点Ｓ1から開始する各参照区間σREFと音響信号Ｐ2のうち同期点Ｓ2から開始する各同期区間σSとを第２実施形態と同様の方法で区間対照部５４が特定する構成も好適である。

第３実施形態においては、利用者からの指示に応じて可変に設定された再生指示点ｔ1と再生指示点ｔ1に応じた基準点ｔ2とから同期点Ｓ1および同期点Ｓ2が特定されるから、音響信号Ｐ1の再生と歌詞の表示とを任意の再生指示点ｔ1から同期させることが可能である。また、音響信号Ｐ1の再生と歌詞の表示とが任意の再生指示点ｔ1から同期するから、音響信号Ｐ1および音響信号Ｐ2の全区間にわたる相互間の対応を楽曲の再生前に特定しておく必要はない。すなわち、音響信号Ｐ1と音響信号Ｐ2とにおける楽曲中の対応を解析する処理を音響信号Ｐ1の再生と並列に実行する構成でも、利用者が再生指示点ｔ1を指示した場合には、音響信号Ｐ1の再生と歌詞の表示とを当該再生指示点ｔ1から同期させることが可能である。したがって、楽曲の全区間にわたる音響信号Ｐ1を第１保持部１６１に格納する構成や、楽曲の全区間にわたる楽音データＤAを第２保持部１６２に格納する構成は不要である。すなわち、第１保持部１６１や第２保持部１６２の容量が削減されるという利点もある。

＜Ｄ：変形例＞
以上の形態には様々な変形が加えられる。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様は併合され得る。

（１）変形例１
第１実施形態においては、候補区間σXの始点ＳXおよび時間長ＷXを変化させて参照区間σREFと順次に比較したが、図６の処理では同期点Ｓ2が特定されれば足りる（同期区間σSの時間長ＷSの特定までは必須ではない）から、時間長ＷXを所定値（例えば時間長ＷREF）に固定して始点ＳXのみを変化させる構成も採用される。すなわち、図６のステップＳC7およびステップＳC8は省略され得る。再生指示点ｔ1および基準点ｔ2から同期点Ｓ1および同期点Ｓ2を特定する第３実施形態の処理でも同様に、時間長ＷXを所定値に固定して始点ＳXのみを変化させる構成が採用され得る。

（２）変形例２
以上の各形態で固定値として例示した各数値は可変値に適宜に変更され得る。例えば、以上の各形態では参照区間σREFの時間長ＷREFを所定値に固定したが、時間長ＷREFを可変に制御する構成も好適である。具体的には、楽曲データＤ0が指定するテンポや楽音データＤAが指定する音数に応じて同期解析部４８が時間長ＷREFを可変に制御する構成が採用される。例えば、同期解析部４８は、テンポが速いほど時間長ＷREFを短い時間に設定し、単位時間あたりの音数が多いほど時間長ＷREFを短い時間に設定する。以上の構成によれば、テンポが速い楽曲や音数が多い楽曲についても音響信号Ｐ1と音響信号Ｐ2との対応を高精度に特定できるという利点がある。

また、以上の各形態においては、候補区間σXの時間長ＷXを変動させる範囲（探索範囲）を規定する時間長Ｔを所定値に固定したが、時間長Ｔを可変に制御する構成も好適である。例えば、同期解析部４８は、楽曲データＤ0が指定するテンポが速いほど時間長Ｔを短い時間に設定し（探索範囲を狭い範囲に設定し）、楽音データＤAが単位時間あたりに指定する音数が多いほど時間長Ｔを短い時間に設定する。以上の構成によれば、楽曲のテンポが速い場合や音数が多い場合でも適切な同期区間σSを高精度に特定できるという利点がある。

さらに、以上の各形態においては、候補区間σXの時間長ＷXの変化量Ｂや始点ＳXの移動量Ｃを所定値に固定したが、変化量Ｂや移動量Ｃを可変に制御する構成も好適である。例えば、同期解析部４８は、楽曲データＤ0で指定されるテンポが速いほど変化量Ｂや移動量Ｃを小さい数値に設定し、楽音データＤAが単位時間あたりに指定する音数が多いほど変化量Ｂや移動量Ｃを小さい数値に設定する。以上の構成によれば、楽曲のテンポが速い場合や音数が多い場合でも適切な同期区間σSを高精度に特定できるという利点がある。

また、楽曲の後方ほど音響信号Ｐ1と音響信号Ｐ2との同期のずれが顕著となる。そこで、第３実施形態では、参照区間σREFの時間長ＷREFや探索範囲を規定する時間長Ｔを、図１３の指示子７２２の移動量Δｔに応じて可変に制御する構成が好適である。具体的には、同期解析部４８は、移動量Δｔが大きいほど（すなわち、再生指示点ｔ1が楽曲の後方に位置するほど）、時間長ＷREFまたは時間長Ｔを長い時間に設定する。以上の構成によれば、移動量Δｔが大きい場合でも、再生指示点ｔ1以後における音響信号Ｐ1と音響信号Ｐ2との対応を正確に特定することが可能である。

（３）変形例３
表示装置７２に表示される情報は歌詞に限定されない。例えば、楽曲の楽譜（コード譜やタブ譜）を表示データＤBが時系列に指定する構成や、楽曲に関する画像（例えばカラオケの背景画像）を表示データＤBが時系列に指定する構成も好適である。すなわち、表示データＤBは、楽曲の歌唱や演奏に関する画像（歌詞，楽譜，背景画像）を時系列に指定するデータとして包括される。なお、表示データＤBが楽音データＤAとは別個に用意された構成は必須ではない。例えば、楽音データＤAが時系列に指定する楽音を楽曲の楽譜の表示に流用する構成も採用される。

また、音響信号Ｐ1の再生と同期させるべき動作は、歌詞や楽譜の表示に限定されない。具体的には、楽曲の再生に関する動作を時系列に指示する指示データの処理（当該動作を実行する要素の制御）を音響信号Ｐ1の再生と同期させる構成が採用される。指示データは、表示データＤBと同様に、楽音データＤAが指定する楽音の時系列と指示データによる指示の時系列とが時間軸上で相互に対応（同期）するように作成される。例えば、楽曲の再生時における照明機器の動作（明滅や照度）を時系列に指定する指示データや、効果付与部３４が付加する音響効果の態様（効果の種類や程度）を時系列に指定する指示データを、表示データＤBの代わりに（または表示データＤBとともに）、音響信号Ｐ1の再生と同期して処理する構成も好適である。

以上の例示から理解されるように、表示データＤBや指示データは、楽曲に関する情報（歌詞や楽譜、または、楽曲の再生に関する要素の動作の指示）を時系列に指定する制御データとして包括され、制御データを処理する要素（例えば以上の各形態における表示制御部６０）は、音響信号Ｐ1の再生と制御データの処理とが同期するように、同期解析部４８による解析の結果に応じて制御データを処理する要素（制御手段）として包括される。

（４）変形例４
以上の形態においてはデータ変換部４４が楽音データＤAから音響信号Ｐ2を生成する構成を例示したが、同期解析用の音響信号Ｐ2を楽音データＤAの代わりに（または楽音データＤAとともに）記憶装置１４に格納した構成も採用される。解析処理部４０は、記憶装置１４に格納された音響信号Ｐ2について同期解析を実行する。音響信号Ｐ2を記憶装置１４に格納した構成ではデータ変換部４４が省略され得る。もっとも、データ変換部４４を具備する構成によれば、カラオケ用に作成された既存の楽曲データＤ0の楽音データＤAを解析処理部４０による同期解析に流用できるという利点や、音響信号Ｐ2を記憶装置１４に格納する構成と比較して記憶装置１４に必要な容量が削減されるという利点がある。

（５）変形例５
以上の形態においては楽音データＤAを音響信号Ｐ1との同期解析のみに利用する構成を例示したが、楽音データＤAに応じた音響信号Ｐ2を音響信号Ｐ1とともに再生する構成も好適に採用される。例えば、ガイドメロディを示す楽音データＤAから音響信号Ｐ2を生成して音響信号Ｐ1とともに再生すれば、利用者による歌唱や演奏の練習を支援することが可能である。また、再生制御部２０は適宜に省略される。例えば、成分抑制部２２を省略して音響信号Ｐ1の全部のパートを再生する構成や、ピッチ変換部２４やテンポ調整部２６を省略してピッチやテンポを変化させない構成も採用され得る。

（６）変形例６
以上の各形態では、音響信号Ｐkの強度（音量）に応じて基準点αkを特定する図４の処理と、クロマベクトル（Ψ1，Ψ2）の比較で同期点Ｓ2を特定する図６の処理とを同期点検出部５２が実行した。しかし、クロマベクトルは和声感（和音感）を示す特徴量であるから、楽曲が例えば打楽器の楽音から開始する場合には同期点Ｓ2の正確な特定が困難となる。したがって、同期点検出部５２が図４の処理のみを実行する構成（図６の処理を省略した構成）も採用される。図４の処理で特定した基準点αkが同期点Ｓkとして区間対照部５４による処理に適用される。

１００……音響処理装置、１２……演算処理装置、１４……記憶装置、１６１……第１保持部、１６２……第２保持部、２０……再生制御部、２２……成分抑制部、２４……ピッチ変換部、２６……テンポ調整部、３０……出力処理部、３２……混合部、３４……効果付与部、３６……Ｄ/Ａ変換部、４０……解析処理部、４２……第１特徴抽出部、４４……データ変換部、４６……第２特徴抽出部、４８……同期解析部、５２……同期点検出部、５４……区間対照部、６０……表示制御部、７２……表示装置、７４……収音装置、７６……放音装置、７８……入力装置、８０……信号供給装置。

Claims

楽曲を構成する楽音の時系列を指定する楽音データと前記楽曲に関する情報を時系列に指定する制御データとを記憶する記憶手段と、
楽曲の楽音の波形を表す第１音響信号のクロマベクトルを順次に生成する第１特徴抽出手段と、
前記制御データが指定する情報の時系列に同期する楽音の波形を表す第２音響信号を前記楽音データから生成するデータ変換手段と、
前記第２音響信号のクロマベクトルを順次に生成する第２特徴抽出手段と、
前記第１音響信号のクロマベクトルと前記第２音響信号のクロマベクトルとを比較し、前記第１音響信号と前記第２音響信号とにおいて楽曲中で相対応する時間軸上の位置を前記比較の結果に応じて特定する同期解析手段と、
前記第１音響信号の再生と前記制御データの処理とが同期するように、前記同期解析手段による解析の結果に応じて前記制御データを処理する制御手段と
を具備する音響処理装置。
前記第１特徴抽出手段は、前記第１音響信号の単位区間毎にクロマベクトルを生成し、
前記第２特徴抽出手段は、前記第２音響信号の単位区間毎にクロマベクトルを生成し、
前記同期解析手段は、前記第１音響信号の各単位区間のクロマベクトルと前記第２音響信号の各単位区間のクロマベクトルとを比較し、楽曲中で相対応する前記第１音響信号の各単位区間と前記第２音響信号の各単位区間とを、前記比較の結果に応じて特定する
請求項１の音響処理装置。
楽曲を構成する楽音の時系列を指定する楽音データと前記楽曲に関する情報を時系列に指定する制御データとを記憶する記憶手段を具備するコンピュータに、
楽曲の楽音の波形を表す第１音響信号のクロマベクトルを順次に生成する第１特徴抽出処理と、
前記制御データが指定する情報の時系列に同期する楽音の波形を表す第２音響信号を前記楽音データから生成するデータ変換処理と、
前記第２音響信号のクロマベクトルを順次に生成する第２特徴抽出処理と、
前記第１音響信号のクロマベクトルと前記第２音響信号のクロマベクトルとを比較し、前記第１音響信号と前記第２音響信号とにおいて楽曲中で相対応する時間軸上の位置を前記比較の結果に応じて特定する同期解析処理と、
前記第１音響信号の再生と前記制御データの処理とが同期するように、前記同期解析処理の結果に応じて前記制御データを処理する制御処理と
を実行させるプログラム。