JP6747236B2

JP6747236B2 - 音響解析方法および音響解析装置

Info

Publication number: JP6747236B2
Application number: JP2016207627A
Authority: JP
Inventors: 竜之介大道; 嘉山　啓; 啓嘉山
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2016-10-24
Filing date: 2016-10-24
Publication date: 2020-08-26
Anticipated expiration: 2036-10-24
Also published as: JP2018072368A

Description

本発明は、音声および楽音等の各種の音を表す音信号を解析する技術に関する。

歌唱音声等の音を表す音信号の解析により発音点（オンセット）を特定する技術が従来から提案されている。例えば特許文献１には、音信号から算定される音量の時間的な変化が大きい時点を発音点として特定する構成が開示されている。

特開２０１０−１１７５０１号公報

しかし、単純に音量の変化が大きい時点を発音点として特定する構成では、実際の発音点を高精度に特定することは実際には困難である。以上の事情を考慮して、本発明の好適な態様は、音信号が表す音の発音点を高精度に特定することを目的とする。

以上の課題を解決するために、本発明の好適な態様に係る音響解析方法は、複数の音符の時系列に沿って発音された音を表す音信号を解析する方法であって、コンピュータが、前記複数の音符の各々に設定された複数の候補点の各々について、当該候補点における前記音信号の強度の変動量に応じた第１指標を算定し、前記第１指標を利用して、前記複数の候補点の何れかを音符毎に発音点として選択した最尤系列を特定する。
また、本発明の好適な態様に係る音響解析装置は、複数の音符の時系列に沿って発音された音を表す音信号を解析する装置であって、前記複数の音符の各々に設定された複数の候補点の各々について、当該候補点における前記音信号の強度の変動量に応じた第１指標を算定する第１演算部と、前記第１指標を利用して、前記複数の候補点の何れかを音符毎に発音点として選択した最尤系列を特定する推定処理部とを具備する。

本発明の好適な態様に係る音響解析装置の構成図である。音符期間および解析期間の説明図である。音響解析装置の機能に着目した構成図である。発音点を特定する処理の説明図である。発音点特定部の構成図である。発音点特定部の動作の説明図である。発音点特定処理のフローチャートである。音高特定部の構成図である。第２処理のフローチャートである。第２処理部が音高を特定する処理の具体例である。第２処理部が音高を特定する処理の具体例である。解析期間の時間長と加重値との関係の説明図である。音高特定処理のフローチャートである。音高の漸次的な変動および状態遷移モデルの説明図である。補正値設定部の構成図である。補正値設定処理のフローチャートである。後処理部の構成図である。第２実施形態における音高特定部の構成図である。第２実施形態における音高特定処理のフローチャートである。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る音響解析装置１００を例示する構成図である。音響解析装置１００は、制御装置１２と記憶装置１４と放音装置１６とを具備するコンピュータシステムで実現される。例えば携帯電話機，スマートフォンまたはパーソナルコンピュータ等の各種の情報処理装置が音響解析装置１００として利用され得る。

制御装置１２は、例えばＣＰＵ（Central Processing Unit）等の処理回路で構成され、音響解析装置１００の各要素を統括的に制御する。記憶装置１４は、制御装置１２が実行するプログラムと制御装置１２が使用する各種のデータとを記憶する。例えば磁気記録媒体および半導体記録媒体等の公知の記録媒体が記憶装置１４として利用され得る。相互に別体で構成された同種または異種の複数の記録媒体の組合せを記憶装置１４として利用することも可能である。

第１実施形態の記憶装置１４は、音を表す音信号Ｘを記憶する。第１実施形態の音信号Ｘは、時系列に配列された複数（Ｎ個）の音符で構成される特定の楽曲（以下「対象楽曲」という）を歌唱した音声を表す時間領域の信号である。音信号Ｘは、例えば歌唱音声の収録により生成されて記憶装置１４に事前に格納される。なお、例えば通信装置（図示略）が他装置から通信網を介して受信した音信号Ｘを処理することも可能である。

また、記憶装置１４は、対象楽曲の内容を表す楽曲情報Ｄを記憶する。楽曲情報Ｄは、対象楽曲を構成する複数の音符の各々について音高（以下「基準音高」という）Ｐrefと音符期間とを指定する。任意の１個の音符の基準音高Ｐrefは、対象楽曲を歌唱する発声者がその音符について発音すべき模範的な音高を意味する。また、図２に例示される通り、任意の１個の音符の音符期間は、その音符の発音が開始されるべき時点（以下「開始点」という）Ｔsと発音が終了されるべき時点（以下「終了点」という）Ｔeとで規定される。なお、楽曲情報Ｄの形式は任意である。例えば、音高Ｐrefを番号（ノートナンバ）により指定して発音または消音を指示する指示データと、各指示データの発生時点（開始点Ｔsまたは終了点Ｔe）を指定する時間データとが時系列に配列されたＭＩＤＩ（Musical Instrument Digital Interface）形式のファイル（ＳＭＦ：Standard MIDI File）が楽曲情報Ｄの好適例である。

対象楽曲を歌唱する発声者は、対象楽曲の各音符の基準音高Ｐrefに一致するように順次に発音する。しかし、発声者の歌唱の巧拙等の各種の事情に起因して、対象楽曲のうち任意の１個の音符に対応する区間内で発声者が発音する音高は、その音符の基準音高Ｐrefに近似するけれども厳密には一致しない。第１実施形態の音響解析装置１００は、音信号Ｘが表す音の音高を対象楽曲の各音符の基準音高Ｐrefに近付ける補正を実行することで音信号Ｙを生成する信号処理装置である。図１の放音装置１６（例えばスピーカまたはヘッドホン）は、音高補正後の音信号Ｙに応じた音波を放射する。なお、音信号Ｙをデジタルからアナログに変換するＤ/Ａ変換器、および、変換後の音信号Ｙを増幅する増幅器の図示は便宜的に省略した。

制御装置１２は、記憶装置１４に記憶されたプログラムを実行することで、音信号Ｘから音信号Ｙを生成するための複数の機能（音響解析部２２，音高補正部２４）を実現する。なお、制御装置１２の機能を複数の装置に分散した構成、または、制御装置１２の機能の少なくとも一部を専用の電子回路が実現する構成も採用され得る。

図１の音響解析部２２は、音信号Ｘの解析により補正値Ｃ[k]を設定する。記号ｋは、時間軸上に設定された複数の時点（以下「解析時点」という）のうち任意の１個を示す変数である。すなわち、音響解析部２２は、相異なる複数の解析時点の各々について補正値Ｃ[k]を設定する。補正値Ｃ[k]は、音信号Ｘの１個の解析時点における音高（以下「観測音高」という）Ｐ[k]を補正するための変数である。

音高補正部２４は、音信号Ｘの観測音高Ｐ[k]を補正する。具体的には、音響解析部２２は、音響解析部２２が設定した補正値Ｃ[k]に応じて音信号Ｘの観測音高Ｐ[k]を補正することで音信号Ｙを生成する。例えば、観測音高Ｐ[k]を補正値Ｃ[k]だけ上昇または低下させることで音信号Ｙが生成される。ただし、補正値Ｃ[k]を利用して観測音高Ｐ[k]を補正する方法は任意である。

図３は、音響解析部２２の機能に着目した構成図である。図３に例示される通り、音響解析部２２は、前処理部３２と強度算定部３４と音高算定部３６と発音点特定部４０と音高特定部５０と差分算定部６０と補正値設定部７０と後処理部８０とを具備する。前処理部３２は、所定の前処理を音信号Ｘに対して実行する。第１実施形態の前処理は、音信号Ｘのサンプリング周波数を所定値に低下させるリサンプリング処理を含む。リサンプリング処理の結果、音響解析部２２の以降の処理負荷が削減されるとともに雑音成分等の高周波成分が抑圧される。なお、音信号Ｘの高周波成分を抑圧する低域通過フィルタ処理を前処理として実行することも可能である。前処理部３２を省略してもよい。

強度算定部３４は、前処理部３２による処理後の音信号Ｘの強度Ｌ[k]を解析時点毎（例えば１ミリ秒毎）に算定する。すなわち、音信号Ｘの強度Ｌ[k]の時系列が生成される。強度Ｌ[k]は、音信号Ｘが表す音の大きさの指標（例えば音量またはパワー）である。強度算定部３４による強度Ｌ[k]の算定には、公知の技術が任意に採用され得る。なお、人間の聴覚特性を近似したＡ特性を音信号Ｘに付与したうえで強度Ｌ[k]を算定することも可能である。音高算定部３６は、前処理部３２による処理後の音信号Ｘについて観測音高Ｐ[k]を解析時点毎に算定する。すなわち、複数の観測音高Ｐ[k]の時系列が生成される。観測音高Ｐ[k]は、音信号Ｘが表す音の高さの指標（基本周波数またはピッチ）である。音高算定部３６による観測音高Ｐ[k]の算定には、自己相関法等の公知の技術が任意に採用され得る。

＜発音点特定部４０＞
前述の通り、発声者は複数の音符の時系列に沿って発音することで対象楽曲を歌唱する。したがって、対象楽曲の任意の１個の音符に対応する音の発音を発声者が開始する時点（以下「発音点」という）Ｑは、理想的には当該音符の開始点Ｔsに一致するが、現実的には開始点Ｔsとは相違する。第１実施形態の発音点特定部４０は、音信号Ｘにおいて対象楽曲の各音符に対応する音の発音点Ｑを特定する。各音符に対応する音を発声者が発音する時点では音信号Ｘの強度Ｌ[k]が変動する。そこで、発音点特定部４０は、強度算定部３４が解析した強度Ｌ[k]の時間的な変動に応じて各発音点Ｑを特定する。対象楽曲を構成するＮ個の音符の各々について発音点Ｑ（合計Ｎ個）が特定される。

図４は、第１実施形態の発音点特定部４０がＮ個の発音点Ｑを特定する処理の概要の説明図である。図４に例示される通り、対象楽曲のＮ個の音符の各々について複数の候補点Ｑcが設定される。任意の１個の音符に対応する複数の候補点Ｑcは、当該音符に対応する発音点Ｑの候補となる時間軸上の時点であり、楽曲情報Ｄが当該音符について指定する開始点Ｔsの周囲に設定される。例えば、開始点Ｔsの前方および後方に所定の間隔（例えば１ミリ秒間隔）で合計２００個の候補点Ｑcが設定される。第１実施形態の発音点特定部４０は、対象楽曲のＮ個の音符の各々について、複数の候補点Ｑcの何れかを当該音符の発音点Ｑとして特定する。

図５は、発音点特定部４０を例示する構成図であり、図６は、発音点特定部４０の動作の説明図である。図５に例示される通り、第１実施形態の発音点特定部４０は、第１演算部４２と第２演算部４４と推定処理部４６とを具備する。

第１演算部４２は、Ｎ個の音符の各々に設定された複数の候補点Ｑcの各々について局所コストθ[n,i]を算定する。局所コストθ[n,i]は、対象楽曲の第ｎ番目（ｎ＝０〜N-1）の音符に設定された複数の候補点Ｑcのうち第ｉ番目の候補点Ｑcが実際の発音点Ｑに該当するコストを意味する。すなわち、局所コストθ[n,i]は、第ｎ番目の音符における第ｉ番目の候補点Ｑcが発音点Ｑに該当するか否かの確度の指標（第１指標の例示）である。具体的には、第ｉ番目の候補点Ｑcが発音点Ｑに該当する可能性が高いほど局所コストθ[n,i]が小さい数値となるように、第１演算部４２は、Ｎ個の音符の各々について候補点Ｑc毎の局所コストθ[n,i]を算定する。

各音符に対応する音が発音される時点では音信号Ｘの強度Ｌ[k]が変動するという前述の傾向を考慮して、第１実施形態の第１演算部４２は、任意の１個の候補点Ｑcにおける音信号Ｘの強度Ｌ[k]の変動量（増加量または減少量）δl[k]に応じて局所コストθ[n,i]を算定する。概略的には、音信号Ｘの強度Ｌ[k]の変動量δl[k]が大きい（すなわち候補点Ｑcが発音点Ｑに該当する可能性が高い）ほど局所コストθ[n,i]が小さい数値となるように、第１演算部４２は局所コストθ[n,i]を算定する。音信号Ｘの強度Ｌ[k]が時間的に安定するほど局所コストθ[n,i]は大きい数値になる（すなわち候補点Ｑcが発音点Ｑに該当する可能性が低い）、と換言することも可能である。以上の説明から理解される通り、局所コストθ[n,i]（第１指標の例示）は、候補点Ｑcが発音点Ｑに該当するか否かの確度を音信号Ｘの強度Ｌ[k]の変動という観点から評価した指標である。

音信号Ｘにおける強度Ｌ[k]の変動量δl[k]は、例えば以下の数式(1)で表現される。第１演算部４２は、強度算定部３４が算定した強度Ｌ[k]を適用した数式(1)の演算により変動量δl[k]を算定する。

記号Ｆ[m]は、中心時刻（ｍ＝０）で最大値となり、中心時刻から正側および負側に離間するほど数値が減少して端部（ｍ＝±Ｍ）でゼロとなる窓幅(2M+1)の窓関数である。窓幅を規定する定数Ｍは所定の正数に設定される。数式(1)および図６から理解される通り、第ｋ番目の解析時点の前後で強度Ｌ[k]の変動が大きいほど、変動量δl[k]は絶対値が大きい数値となる。また、窓関数Ｆ[m]とともに変数ｍ（−Ｍ≦ｍ≦Ｍ）が強度Ｌ[k+m]に乗算されるから、図６からも理解される通り、強度Ｌ[k]が増加している過程の変動量δl[k]は正数となり、強度Ｌ[k]が減少している過程の変動量δl[k]は負数となる。なお、変動量δl[k]の算定方法は数式(1)に限定されない。例えば第ｋ番目の解析時点の強度Ｌ[k]と直前の強度Ｌ[k-1]との差分を変動量δl[k]として算定することも可能である。

図５の第１演算部４２は、数式(1)で算定した変動量δl[k]に応じた安定指標Ｗl[k]を算定する。安定指標Ｗl[k]は、強度Ｌ[k]の時間的な安定性の指標である。前述の通り、強度Ｌ[k]の変動が大きい（強度Ｌ[k]が不安定に変動する）ほど変動量δl[k]の絶対値は大きい数値となるから、概略的には、図６からも理解される通り、変動量δl[k]の絶対値が大きいほど安定指標Ｗl[k]が小さい数値（すなわち安定性が低いことを意味する数値）となるように安定指標Ｗl[k]は算定される。具体的には、第１演算部４２は、数式(1)で算定した変動量δl[k]を適用した以下の数式(2)の演算により各解析時点の安定指標Ｗl[k]を算定する。

数式(2)の第１段目は、強度Ｌ[k]が増加している過程（δl[k]≧０）における安定指標Ｗl[k]の演算式であり、第２段目は、強度Ｌ[k]が減少している過程（δl[k]＜０）における安定指標Ｗl[k]の演算式である。数式(1)で算定される変動量δl[k]の変動範囲が広いことを考慮して、数式(2)の演算は、安定指標Ｗl[k]の変動範囲を変動量δl[k]の変動範囲と比較して圧縮するための演算を含む。数式(2)の係数α1は、変動範囲の圧縮の度合を示す定数であり、例えば所定の正数に設定される。

ところで、典型的には強度Ｌ[k]が増加する時点が発音点Ｑに該当するが、強度Ｌ[k]が減少する時点も発音点Ｑに該当する可能性がある。例えば、「あ[a]」に連続して「う[u]」と発音する場合を想定する。「う[u]」の音量は「あ[a]」の音量を下回る傾向があるから、「う[u]」の発音が開始される発音点Ｑでは強度Ｌ[k]が減少する。ただし、強度Ｌ[k]が減少する時点が発音点Ｑに該当する可能性は、強度Ｌ[k]が増加する時点が発音点Ｑに該当する可能性と比較して低いという傾向がある。以上の傾向を考慮して、数式(2)の係数φは、変動量δl[k]に対する安定指標Ｗl[k]の変動の傾向を、強度Ｌ[k]の増加時と減少時とで相違させるための変数である。すなわち、正負非対称の関数（数式(2)）により変動量δl[k]が非線形圧縮される。係数φは、例えば所定の正数（例えば０.３）に設定される。

以上の説明から理解される通り、変動量δl[k]の絶対値が大きいほど安定指標Ｗl[k]が小さい数値となり、変動量δl[k]の絶対値が小さいほど安定指標Ｗl[k]は大きい数値となる。前述の通り、第ｋ番目の解析時点の変動量δl[k]の絶対値が大きい（すなわち安定指標Ｗl[k]が小さい）ほど当該解析時点が発音点Ｑに該当する可能性は高い。以上の関係を考慮して、第１実施形態では、候補点Ｑcに一致する解析時点について算定された安定指標Ｗl[k]を当該候補点Ｑcの局所コストθ[n,i]として利用する。したがって、候補点Ｑcにおける強度Ｌ[k]の変動量δl[k]の絶対値が大きい（すなわち安定指標Ｗl[k]が小さい）ほど、局所コストθ[n,i]は小さい数値（すなわち当該候補点Ｑcが発音点Ｑに該当する可能性が高いことを意味する数値）に設定される。前述の通り係数φを数式(2)に導入した結果、候補点Ｑcにおいて音信号Ｘの強度Ｌ[k]が増加する場合（δl[k]≧０）と減少する場合（δl[k]＜０）とでは、強度Ｌ[k]の変動（変動量δl[k]）に対する局所コストθ[n,i]（安定指標Ｗl[k]）の変動の度合が相違する。

図５の第２演算部４４は、対象楽曲内で相前後する２個の音符（第(n-1)番目，第ｎ番目）の組合せ毎に遷移コストξ[n,i,j]を算定する。第ｎ番目の音符の遷移コストξ[n,i,j]は、直前（第(n-1)番目）の音符に対応する複数の候補点Ｑcのうち第ｊ番目の候補点Ｑcを選択した場合に、第ｎ番目の音符に対応する複数の候補点Ｑcのうち第ｉ番目の候補点Ｑcが実際の発音点Ｑに該当するコストを意味する。すなわち、遷移コストξ[n,i,j]は、第ｎ番目の音符における第ｉ番目の候補点Ｑcが発音点Ｑに該当するか否かの確度の指標（第２指標の例示）である。具体的には、第(n-1)番目の音符（第１音符の例示）における第ｊ番目の候補点Ｑcが発音点Ｑに該当するという仮定のもとで、第ｎ番目の音符（第２音符の例示）における第ｉ番目の候補点Ｑcが当該音符の発音点Ｑに該当する可能性が高いほど、遷移コストξ[n,i,j]が小さい数値となるように、第２演算部４４は、相前後する２個の音符の組合せ毎に遷移コストξ[n,i,j]を算定する。

具体的には、第２演算部４４は、以下の数式(3)の演算で遷移コストξ[n,i,j]を算定する。なお、対象楽曲内の最初の音符（ｎ＝０）に対応する遷移コストξ[0,i,j]はゼロに設定される。

数式(3)の時間差ΔＴs[n]は、第ｎ番目の音符の開始点Ｔs[n]と第(n-1)番目の音符の開始点Ｔs[n-1]との時間差(Ｔs[n]−Ｔs[n-1])である。すなわち、時間差ΔＴs[n]は、対象楽曲の第ｎ番目の音符と第(n-1)番目の音符との模範的な時間差に相当する。他方、時間差ΔＱc[n,i,j]は、第ｎ番目の音符に対応する第ｉ番目の候補点Ｑc[n,i]と第(n-1)番目の音符に対応する第ｊ番目の候補点Ｑc[n-1,j]との時間差(Ｑc[n,i]−Ｑc[n-1,j])である。数式(3)から理解される通り、遷移コストξ[n,i,j]は、第ｎ番目の音符（第１音符）および第(n-1)番目の音符（第２音符）の時間差ΔＴs[n]と、候補点Ｑc[n,i]および候補点Ｑc[n-1,j]の時間差ΔＱc[n,i,j]との差異に応じて算定される。具体的には、候補点Ｑc[n,i]と候補点Ｑc[n-1,j]との時間差ΔＱc[n,i,j]が対象楽曲の模範的な時間差ΔＴs[n]に近いほど、遷移コストξ[n,i,j]は小さい数値（すなわち第ｎ番目の音符の第ｉ番目の候補点Ｑc[n,i]が発音点Ｑに該当する可能性が高いことを意味する数値）となる。以上の説明から理解される通り、遷移コストξ[n,i,j]（第２指標の例示）は、候補点Ｑcが発音点Ｑに該当するか否かの確度を２個の候補点Ｑc間の時間差という観点から評価した指標である。

図５の推定処理部４６は、第１演算部４２が算定した各局所コストθ[n,i]と第２演算部４４が算定した各遷移コストξ[n,i,j]とを利用して、複数の候補点Ｑcの何れかを音符毎に発音点Ｑとして選択および配列した時系列（以下「最尤系列」という）Ｚを特定する。具体的には、各発音点Ｑの近傍で強度Ｌ[k]が変動し（すなわち局所コストθ[n,i]が抑制され）、かつ、相前後する２個の発音点Ｑの時間差が対象楽曲の模範的な時間差ΔＴs[n]から乖離しない（すなわち遷移コストξ[n,i,j]が抑制される）という傾向のもとで、対象楽曲の全体的に最尤なＮ個の候補点Ｑcの時系列が最尤系列Ｚとして特定される。対象楽曲内の相異なる音符に対応するＮ個の発音点Ｑの各々の時刻を示す時系列データが最尤系列Ｚとして生成される。最尤系列Ｚの特定には、以下の例示の通り、例えば動的計画法（Dynamic Programming）等の最尤推定が好適に利用される。

第１実施形態の推定処理部４６は、局所コストθ[n,i]と遷移コストξ[n,i,j]とを利用した以下の数式(4)の演算により累積コストｄ[n,i]を算定する。相異なる候補点Ｑcに対応する複数の累積コストｄ[n,i]（ｄ[n,0]，ｄ[n,1]，ｄ[n,2]，…）がＮ個の音符の各々について算定される。なお、対象楽曲内の最初の音符（ｎ＝０）に対応する累積コストｄ[0,i]はゼロに設定される。

数式(4)の係数α2は、遷移コストξ[n,i,j]の加重値であり、所定の正数に設定される。数式(4)から理解される通り、推定処理部４６は、第(n-1)番目までの音符の累積コストｄ[n-1,j]と当該音符からの遷移コストξ[n,i,j]との加重和の最小値（min）を第ｎ番目の音符の局所コストθ[n,i]に加算することで累積コストｄ[n,i]を算定する。相異なる候補点Ｑcに対応する複数の累積コストｄ[n,i]が対象楽曲のＮ個（第０番目から第(N-1)番目）の音符の各々について算定される。推定処理部４６は、Ｎ個の音符の各々について、複数の候補点Ｑcのうち最小の累積コストｄ[n,i]に対応する候補点Ｑcの番号ｊをバックポインタｊmin[n]として記憶装置１４に格納する。バックポインタｊmin[n]は、例えば以下の数式(5)で表現される。

対象楽曲のＮ個の音符の各々について累積コストｄ[n,i]を算定すると、推定処理部４６は、対象楽曲の最後に位置する第(N-1)番目の音符について算定した複数の累積コストｄ[N-1,i]（ｄ[N-1,0]，ｄ[N-1,1]，ｄ[N-1,2]，…）のうち最小値に対応する候補点Ｑcの番号ｉmin[N-1]（ｉmin[N-1]＝arg min｛ｄ[N-1,i]｝）を選択する。そして、推定処理部４６は、記憶装置１４に保持されたバックポインタｊmin[n]で指定される候補点Ｑcを逆順（時間軸上の遡及方向）に辿って順次に発音点Ｑとして選択することで最尤系列Ｚを特定する。

図７は、第１実施形態の発音点特定部４０が各音符の発音点Ｑを特定する処理（以下「発音点特定処理」という）のフローチャートである。利用者からの指示を契機として発音点特定処理が開始される。

発音点特定処理を開始すると、第１演算部４２は、Ｎ個の音符の各々に設定された複数の候補点Ｑcの各々について局所コストθ[n,i]を算定する（Ｓa1）。具体的には、第１演算部４２は、強度算定部３４が算定した強度Ｌ[k]の変動量δl[k]を解析時点毎に算定し（Ｓa11）、変動量δl[k]に応じた安定指標Ｗl[k]を算定する（Ｓa12）。そして、第１演算部４２は、候補点Ｑcに一致する解析時点について算定された安定指標Ｗl[k]を当該候補点Ｑcの局所コストθ[n,i]として設定する（Ｓa13）。他方、第２演算部４４は、対象楽曲内で相前後する２個の音符（第(n-1)番目，第ｎ番目）の組合せ毎に遷移コストξ[n,i,j]を算定する（Ｓa2）。なお、第１演算部４２による局所コストθ[n,i]の算定（Ｓa1）と第２演算部４４による遷移コストξ[n,i,j]の算定（Ｓa2）との順序は逆転され得る。推定処理部４６は、局所コストθ[n,i]と遷移コストξ[n,i,j]とを利用して最尤系列Ｚを特定する（Ｓa3）。具体的には、推定処理部４６は、局所コストθ[n,i]と遷移コストξ[n,i,j]とから累積コストｄ[n,i]とバックポインタｊmin[n]とを算定する（Ｓa31）。そして、推定処理部４６は、対象楽曲の最後（第(N-1)番目）の音符について算定された最小の累積コストｄ[n,i]に対応する候補点Ｑcから、バックポインタｊmin[n]で指定される各候補点Ｑcに沿って順次に遡及することで、Ｎ個の発音点Ｑを時系列に配列した最尤系列Ｚを特定する（Ｓa32）。以上が発音点特定部４０の具体例である。

ところで、音信号Ｘの強度Ｌ[k]の時間的な変動が大きい時点を単純に発音点Ｑとして特定する構成も想定され得る。しかし、単純に強度Ｌ[k]の変化が大きい時点を発音点Ｑとして特定する構成では、実際の発音点Ｑを高精度に特定することは実際には困難である。第１実施形態では、音符毎の複数の候補点Ｑcの各々について当該候補点Ｑcでの強度Ｌ[k]の変動量δl[k]に応じて算定された局所コストθ[n,i]を利用して、複数の候補点Ｑcの何れかが音符毎に発音点Ｑとして選択した最尤系列が特定される。したがって、例えば単純に強度Ｌ[k]の変動量δl[k]が大きい時点を発音点Ｑとして特定する構成と比較して、対象楽曲の全体的な傾向を反映した適切な発音点Ｑを特定することが可能である。

また、第１実施形態では、相前後する２個の音符の間の開始点Ｔsの時間差ΔＴs[k]と、候補点Ｑcの時間差ΔＱc[n,i,j]との差異に応じた遷移コストξ[n,i,j]が最尤系列Ｚの特定に利用される。したがって、相前後する２個の音符間の時間差ΔＴs[k]と候補点Ｑcの時間差ΔＱc[n,i,j]との差異が抑制されるように音符毎の適切な発音点Ｑを特定することが可能である。

第１実施形態では、候補点Ｑcにおいて音信号Ｘの強度Ｌ[k]が増加する場合と減少する場合とで、強度Ｌ[k]の変動に対する局所コストθ[n,i]の変動の度合が相違する。したがって、音信号Ｘの強度Ｌ[k]の変動量が同等でも、強度Ｌ[k]の増加時と減少時とでは、当該変化の時点が発音点Ｑに該当する可能性が相違するという傾向のもとで、発音点Ｑを高精度に特定可能な適切な局所コストθ[n,i]を算定することが可能である。

第１実施形態では、Ｎ個の音符の各々における開始点Ｔsの周囲に複数の候補点Ｑcが設定される。したがって、各音符が開始音の近傍で発音されるという傾向のもとで、各音符の発音点を効率的に特定することが可能である。

以上に説明した通り、発音点特定部４０は、対象楽曲のＮ個の音符の各々について発音点Ｑを特定する。以下の説明では、図２に例示される通り、対象楽曲の任意の１個の音符について特定された発音点Ｑから、楽曲情報Ｄが当該音符について指定する終了点Ｔeまでの期間を、「解析期間Ｓ」と表記する。解析期間Ｓは対象楽曲の音符毎に設定される。楽曲情報Ｄが音符毎に指定する音符期間の開始点Ｔsが発音点Ｑに変更されることで、当該音符の音符期間が解析期間Ｓ（すなわち実際に音声が存在する期間）に更新されるとも換言され得る。図３の音高特定部５０および補正値設定部７０は、対象楽曲の相異なる音符に対応するＮ個の解析期間Ｓを対象として処理を実行する。音高特定部５０および補正値設定部７０の各々の具体的な構成および動作について以下に詳述する。なお、図２では解析期間Ｓが音符期間よりも短い場合を例示したが、発音点Ｑが開始点Ｔsよりも時間的に前方である場合には、解析期間Ｓは音符期間よりも長い期間となる。

＜音高特定部５０＞
音高特定部５０は、音信号Ｘが表す音の音高（以下「解析音高」という）Ｐx[n]をＮ個の解析期間Ｓの各々について特定する。具体的には、音高特定部５０は、音高算定部３６が解析時点毎に音信号Ｘから算定した観測音高Ｐ[k]を利用して解析期間Ｓ毎（対象楽曲の音符毎）の解析音高Ｐx[n]を特定する。解析期間Ｓ毎に単一の数値の解析音高Ｐx[n]が特定される。任意の１個の解析期間Ｓの解析音高Ｐx[n]は、その解析期間Ｓ内の相異なる解析時点について算定された複数の観測音高Ｐ[k]の代表値とも換言され得る。図８は、音高特定部５０を例示する構成図である。図８に例示される通り、第１実施形態の音高特定部５０は、指標算定部５２と第１処理部５４と第２処理部５６と演算処理部５８とを具備する。

指標算定部５２は、安定指標Ｗp[k]を解析時点毎に算定する。安定指標Ｗp[k]は、観測音高Ｐ[k]の時間的な安定性の指標である。第１実施形態の指標算定部５２は、以下の例示の通り、各解析時点における観測音高Ｐ[k]の変動量δp[k]を算定し、変動量δp[k]に応じた安定指標Ｗp[k]を解析時点毎に算定する。

指標算定部５２は、まず、数式(1)と同様の窓関数Ｆ[m]を使用した数式(6)の演算により各解析時点の変動量δp[k]を算定する。なお、変動量δp[k]の算定方法は数式(6)に限定されない。例えば第ｋ番目の解析時点の観測音高Ｐ[k]と直前の観測音高Ｐ[k-1]との差分を変動量δp[k]として算定することも可能である。

数式(6)から理解される通り、第ｋ番目の解析時点の前後で観測音高Ｐ[k]の変動が大きいほど、変動量δp[k]は絶対値が大きい数値となる。したがって、概略的には、変動量δp[k]の絶対値が大きい（観測音高Ｐ[k]が不安定に変動する）ほど安定指標Ｗp[k]が小さい数値（すなわち安定性が低いことを意味する数値）となるように安定指標Ｗp[k]は算定される。具体的には、第１演算部４２は、数式(6)で算定した変動量δp[k]を適用した以下の数式(7)の演算により各解析時点の安定指標Ｗp[k]を算定する。

数式(7)の演算は、安定指標Ｗp[k]の変動範囲を変動量δp[k]の変動範囲と比較して圧縮するための演算を含む。数式(7)の係数α3は、変動範囲の圧縮の度合を示す定数であり、例えば所定の正数に設定される。数式(7)から理解される通り、変動量δp[k]の絶対値が大きい（観測音高Ｐ[k]が不安定に変動する）ほど安定指標Ｗp[k]は小さい数値となり、変動量δp[k]の絶対値が小さい（観測音高Ｐ[k]が安定的に維持される）ほど安定指標Ｗp[k]は大きい数値となる。したがって、観測音高Ｐ[k]の安定性の指標として安定指標Ｗp[k]を利用することが可能である。

ところで、観測音高Ｐ[k]の時間的な変動（時間的にどのように変動するか）、および、観測音高Ｐ[k]が変動した場合に受聴者が知覚する音高の傾向（観測音高Ｐ[k]の変動時に受聴者が解析期間Ｓからどのような音高を認識するか）は、解析期間Ｓの長短に依存するという傾向がある。以上の傾向を考慮して、第１実施形態では、解析期間Ｓが長い場合に好適な第１処理Ｓc1と、解析期間Ｓが短い場合に好適な第２処理Ｓc2とが、各解析期間Ｓの解析音高Ｐx[n]の特定に利用される。第１処理Ｓc1と第２処理Ｓc2とは処理内容が相違する。図８の第１処理部５４は、第１処理Ｓc1により各解析期間Ｓの音高Ｐa[n]（第１音高の例示）を特定し、第２処理部５６は、第２処理Ｓc2により各解析期間Ｓの音高Ｐb[n]（第２音高の例示）を特定する。音高Ｐa[n]および音高Ｐb[n]の各々は、解析期間Ｓ毎の単一の数値である。演算処理部５８は、第１処理部５４が特定した音高Ｐa[n]と第２処理部５６が特定した音高Ｐb[n]とを利用して解析期間Ｓ毎に解析音高Ｐx[n]を算定する。第１処理部５４と第２処理部５６と演算処理部５８との各々の機能について以下に詳述する。

第１処理部５４が実行する第１処理Ｓc1は、解析期間Ｓ内の相異なる解析時点について音高算定部３６が算定した複数の観測音高Ｐ[k]を平均（具体的には加重平均）することで音高Ｐa[n]を算定する処理である。実際には音声の音高が発音中に変動する場合でも、受聴者は、時間的に安定している箇所の音高が発音されたと知覚し易いという傾向がある。音声が長時間にわたり継続的に発音された場合にはこの傾向が特に顕著である。以上の傾向を考慮して、第１実施形態の第１処理部５４は、指標算定部５２が算定した安定指標Ｗp[k]に応じた加重値を利用して解析期間Ｓ内の複数の観測音高Ｐ[k]を加重平均することで解析期間Ｓの音高Ｐa[n]を算定する。具体的には、第１処理部５４は、以下の数式(8)の演算により音高Ｐa[n]を算定する。数式(8)から理解される通り、解析期間Ｓ内で安定指標Ｗp[k]が大きい解析時点の観測音高Ｐ[k]ほど音高Ｐa[n]に対して優勢に反映される。

以上に説明した通り、第１処理Ｓc1では、解析期間Ｓ内の複数の観測音高Ｐ[k]を平均（具体的には加重平均）することで音高Ｐa[n]が算定される。したがって、例えば解析期間Ｓ内の複数の観測音高Ｐ[k]の何れかを音高Ｐa[n]として選択する構成と比較して、長時間にわたる発音に対して受聴者が実際に知覚する音高に近い適切な音高Ｐa[n]を特定できるという利点がある。第１実施形態の第１処理Ｓc1では特に、安定指標Ｗp[k]に応じた加重値を利用して解析期間Ｓ内の複数の観測音高Ｐ[k]を加重平均することで音高Ｐa[n]が算定される。したがって、例えば解析期間Ｓ内の複数の観測音高Ｐ[k]の単純平均により音高Ｐa[n]を算定する構成と比較して、受聴者が知覚する音高に近い適切な音高Ｐa[n]を特定できるという前述の効果は格別に顕著である。ただし、解析期間Ｓ内の複数の観測音高Ｐ[k]の単純平均で音高Ｐa[n]を算定することも可能である。

図８の第２処理部５６は、以上に例示した第１処理Ｓc1とは処理内容が相違する第２処理Ｓc2により音高Ｐb[n]を解析期間Ｓ毎に特定する。図９は、第２処理Ｓc2のフローチャートである。解析期間Ｓ毎に第２処理Ｓc2が実行される。図９に例示される通り、第２処理Ｓc2を開始すると、第２処理部５６は、解析期間Ｓ内の複数の観測音高Ｐ[k]の時系列（以下「音高遷移」という）が、当該解析期間Ｓに対応する音符の基準音高Ｐrefと交差するか否かを判定する（Ｓc21）。すなわち、基準音高Ｐrefからみて正側または負側の一方から他方に観測音高Ｐ[k]が変動しているか否か（観測音高Ｐ[k]が基準音高Ｐrefを跨いで変動しているか否か）が判定される。

短時間の音声の受聴者は、実際には音声の音高が発音中に変動する場合でも、音高遷移の極値（極大値または極小値）に相当する音高が発音されたと知覚する、という傾向がある。以上の傾向を考慮して、解析期間Ｓ内の音高遷移が基準音高Ｐrefと交差しない場合（Ｓc21：NO）、第２処理部５６は、図１０に例示される通り、解析期間Ｓ内の複数の観測音高Ｐ[k]のうち基準音高Ｐrefに最も近い観測音高Ｐ[k]を音高Ｐb[n]として特定する（Ｓc22）。具体的には、例えば図１０の例示のように解析期間Ｓ内の全部の観測音高Ｐ[k]が基準音高Ｐrefを下回る場合には、解析期間Ｓ内の複数の観測音高Ｐ[k]の最大値（典型的には極大値）が音高Ｐb[n]として選択される。また、解析期間Ｓ内の全部の観測音高Ｐ[k]が基準音高Ｐrefを上回る場合には、解析期間Ｓ内の複数の観測音高Ｐ[k]の最小値（典型的には極小値）が音高Ｐb[n]として選択される。

他方、音高遷移が基準音高Ｐrefと交差する場合（Ｓc21：YES）、第２処理部５６は、音高遷移と基準音高Ｐrefとの交差の回数が２回以下であり、かつ、解析期間Ｓ内で観測音高Ｐ[k]が基準音高Ｐrefを上回る時間が閾値τ1を上回る、という条件（以下「音高条件」という）の成否を判定する（Ｓc23）。閾値τ1は、例えば、解析期間Ｓの全長に対して所定の割合（例えば７５％）に相当する可変の時間長に設定される。図１１に例示される通り、解析期間Ｓ内の時点ｓ1において基準音高Ｐrefの負側から正側に観測音高Ｐ[k]が変動し、閾値τ1を上回る時間が時点ｓ1から経過した時点ｓ2において観測音高Ｐ[k]が基準音高Ｐrefの正側から負側に変動した場合に、第２処理部５６は音高条件が成立したと判定する。

音高条件が成立する場合（Ｓc23：YES）、第２処理部５６は、解析期間Ｓ内の複数の観測音高Ｐ[k]の何れかを音高Ｐb[n]として選択する（Ｓc24）。具体的には、第２処理部５６は、解析期間Ｓ内の複数の観測音高Ｐ[k]のうち、当該解析期間Ｓの基準音高Ｐrefを上回り、かつ、安定指標Ｗp[k]が示す安定性が高い１個の観測音高Ｐ[k]を、音高Ｐb[n]として選択する。例えば、解析期間Ｓで基準音高Ｐrefを上回る複数の観測音高Ｐ[k]のうち、安定指標Ｗp[k]が最大値となる１個の観測音高Ｐ[k]が、音高Ｐb[n]として選択される。

音高遷移と基準音高Ｐrefとが交差しない場合（Ｓc21：YES）と、音高条件が成立する場合（Ｓc23：NO）との何れにも該当しない場合（Ｓc23：NO）、第２処理部５６は、解析期間Ｓに対応する基準音高Ｐrefを当該解析期間Ｓの音高Ｐb[n]として特定する（Ｓc25）。以上が第２処理Ｓc2の具体例である。

以上に説明した通り、第１実施形態では、解析期間Ｓ内の音高遷移が基準音高Ｐrefに交差しない場合に、解析期間Ｓ内で基準音高Ｐrefに最も近い観測音高Ｐ[k]が音高Ｐb[n]として特定される。したがって、短時間の発音に対して受聴者が実際に知覚する音高に近い適切な音高Ｐb[n]を特定できるという利点がある。また、第１実施形態では、音高条件が成立した場合に、解析期間Ｓの基準音高Ｐrefを上回り、かつ、安定指標Ｗp[k]が示す安定性が高い観測音高Ｐ[k]が音高Ｐb[n]として特定される。したがって、時間的に安定している箇所の音高が発音されたと受聴者が知覚し易いという前述の傾向のもとで、受聴者が実際に知覚する音高に近い適切な音高Ｐb[n]を特定できるという利点がある。他方、音高遷移と基準音高Ｐrefとが交差しない場合（Ｓc21：YES）と、音高条件が成立する場合（Ｓc23：NO）との何れにも該当しない場合には、解析期間Ｓに対応する基準音高Ｐrefが音高Ｐb[n]として特定される。したがって、音高遷移と基準音高Ｐrefとの交差の有無または音高条件の成否に関わらず、各解析時点の観測音高Ｐ[k]に応じた音高Ｐb[n]を特定する構成と比較して、音高Ｐb[n]の特定に必要な処理負荷が軽減されるという利点がある。

図８の演算処理部５８は、第１処理部５４が特定した音高Ｐa[n]と第２処理部５６が特定した音高Ｐb[n]とを利用して解析期間Ｓ毎に解析音高Ｐx[n]を算定する。第１実施形態の演算処理部５８は、音高Ｐa[n]と音高Ｐb[n]の加重平均により解析音高Ｐx[n]を算定する。前述の通り、解析期間Ｓが長い場合には第１処理Ｓc1が好適であり、解析期間Ｓが短い場合には第２処理Ｓc2が好適である。以上の傾向を考慮して、第１実施形態の演算処理部５８は、解析期間Ｓの時間長ｔS[n]に応じた加重値を利用した音高Ｐa[n]および音高Ｐb[n]の加重平均により解析音高Ｐx[n]を算定する。具体的には、演算処理部５８は、音高Ｐa[n]と音高Ｐb[n]とを利用した以下の数式(9)の演算により解析音高Ｐx[n]を解析期間Ｓ毎に算定する。

数式(9)において、音高Ｐa[n]に対する加重値ωa[n]と音高Ｐb[n]に対する加重値ωb[n]とは、例えば第ｎ番目の解析期間Ｓの時間長ｔS[n]を利用した以下の数式(10a)および数式(10b)で定義される。数式(10a)の係数α4および係数α5は所定の正数である。

図１２は、数式(10a)の加重値ωa[n]と数式(10b)の加重値ωb[n]と解析期間Ｓの時間長ｔS[n]との関係の説明図である。図１２では、係数α4を0.05に設定し、係数α5を450msに設定した。図１２に例示される通り、解析期間Ｓの時間長ｔS[n]が長いほど、加重値ωa[n]が増加するとともに加重値ωb[n]が減少し、解析期間Ｓの時間長ｔS[n]が短いほど、加重値ωa[n]が減少するとともに加重値ωb[n]が増加する。したがって、解析期間Ｓの時間長ｔS[n]が長いほど、第１処理Ｓc1で特定された音高Ｐa[n]が解析音高Ｐx[n]に優勢に反映され、解析期間Ｓの時間長ｔS[n]が短いほど、第２処理Ｓc2で特定された音高Ｐb[n]が解析音高Ｐx[n]に優勢に反映される。

図１３は、音高特定部５０が各解析期間Ｓの解析音高Ｐx[n]を特定する処理（以下「音高特定処理」という）のフローチャートである。図７に例示した発音点特定処理の実行後に図１３の音高特定処理が実行される。

音高特定処理を開始すると、指標算定部５２は、安定指標Ｗp[k]を解析時点毎に算定する（Ｓc0）。安定指標Ｗp[k]が算定されると、第１処理部５４は、前述の第１処理Ｓc1により各解析期間Ｓの音高Ｐa[n]を特定し、第２処理部５６は、前述の第２処理Ｓc2により各解析期間Ｓの音高Ｐb[n]を特定する。演算処理部５８は、解析期間Ｓの時間長ｔS[n]に応じた加重値ωa[n]および加重値ωb[n]を利用して音高Ｐa[n]と音高Ｐb[n]とを加重平均することで、解析期間Ｓ毎に解析音高Ｐx[n]を算定する（Ｓc3）。なお、第１処理部５４による第１処理Ｓc1と第２処理部５６による第２処理Ｓc2との順序は逆転され得る。

前述の通り、観測音高Ｐ[k]の時間的な変動、および、観測音高Ｐ[k]の変動時に受聴者が知覚する音高の傾向は、解析期間Ｓの長短に依存するという傾向がある。したがって、例えば自己相関法等の公知の技術により単純に音高を特定するだけでは、聴感的に知覚される音高に整合する結果を得ることは実際には困難である。第１実施形態では、第１処理Ｓc1で特定された音高Ｐa[n]と第２処理Ｓc2で特定された音高Ｐb[n]とが、解析期間Ｓの時間長ｔS[n]に応じた加重値（ωa[n]，ωb[n]）により加重平均される。したがって、解析期間Ｓが長い場合と短い場合とで観測音高Ｐ[k]の時間的な変動の傾向が相違し得るという事情のもとで、解析期間Ｓの長短に関わらず高精度に解析音高Ｐx[n]を特定できるという利点がある。

図３に例示された差分算定部６０は、対象楽曲の各音符の基準音高Ｐrefと音高特定部５０が特定した解析音高Ｐx[n]との差分に応じた補正値Ｃa[k]を解析時点毎に算定する。具体的には、時間軸上の任意の１個の解析時点における補正値Ｃa[k]は、対象楽曲のうち当該解析時点を含む音符の基準音高Ｐrefと、当該解析時点を含む解析期間Ｓの解析音高Ｐx[n]との差分（Ｃa[k]＝Ｐref−Ｐx[n]）として算定される。したがって、解析音高Ｐx[n]が基準音高Ｐrefを上回る区間（例えば発声者が基準音高Ｐrefを上回る音高で発音した場合）では、補正値Ｃa[k]は負数（音高の低下を指示する補正値）に設定される。他方、解析音高Ｐx[n]が基準音高Ｐrefを下回る区間（例えば発声者が基準音高Ｐrefを下回る音高で発音した場合）では、補正値Ｃa[k]は正数（音高の上昇を指示する補正値）に設定される。

＜補正値設定部７０＞
差分算定部６０が算定した補正値Ｃa[k]を音信号Ｘの観測音高Ｐ[k]に加算することで、対象楽曲の各音符を単位として（すなわち解析期間Ｓ毎に）、観測音高Ｐ[k]を基準音高Ｐrefに近付ける補正が実現される。しかし、実際の歌唱音声では、図１４に例示される通り、発声者が一定の音高を意図して発音した場合でも、１個の音符の区間内で観測音高Ｐ[k]が経時的に一方向に変動（典型的には低下）する場合がある。以上に例示した観測音高Ｐ[k]の漸次的な変動（以下「漸次変動」という）は、発音が短時間であれば受聴者に知覚され難く特段の問題と認識されないが、発音が長時間にわたる場合には受聴者に顕著に知覚され易いという傾向がある。以上の傾向を考慮して、第１実施形態の補正値設定部７０は、１個の音符に対応する解析期間Ｓ内で相前後する２個の区間において観測音高Ｐ[k]を相互に逆方向に補正するための補正値Ｃb[k]を解析時点毎に設定する。図１５は、補正値設定部７０を例示する構成図である。図１５に例示される通り、第１実施形態の補正値設定部７０は、区間画定部７２と区間選択部７４と設定処理部７６とを具備する。

区間画定部７２は、複数の解析期間Ｓの各々について先頭区間Ｕsと第１区間Ｕ1と第２区間Ｕ2と末尾区間Ｕeとを画定する。先頭区間Ｕsは、解析期間Ｓの始点（発音点Ｑ）を含む区間であり、末尾区間Ｕeは、解析期間Ｓの終点（終了点Ｔe）を含む区間である。先頭区間Ｕsは、解析期間Ｓのうち観測音高Ｐ[k]の漸次変動の開始前に観測音高Ｐ[k]が不安定に変動する区間である。末尾区間Ｕeは、解析期間Ｓのうち観測音高Ｐ[k]の漸次変動の終了後に観測音高Ｐ[k]が不安定に変動する区間である。先頭区間Ｕsおよび末尾区間Ｕeは、観測音高Ｐ[k]の変動の傾向が暫時変動とは相違する区間とも換言され得る。

第１区間Ｕ1および第２区間Ｕ2は、先頭区間Ｕsと末尾区間Ｕeとの間に位置し、観測音高Ｐ[k]の漸次変動が観測される区間である。すなわち、第１区間Ｕ1の始点から第２区間Ｕ2の終点にかけて観測音高Ｐ[k]は漸次的に低下する。第１区間Ｕ1は、先頭区間Ｕsに後続する区間であり、第２区間Ｕ2は、第１区間Ｕ1に後続する区間である。概略的には、第１区間Ｕ1は、解析期間Ｓの解析音高Ｐx[n]を上回る音高から解析音高Ｐx[n]まで観測音高Ｐ[k]が徐々に低下する区間である。また、概略的には、第２区間Ｕ2は、解析音高Ｐx[n]を下回る音高まで観測音高Ｐ[k]が解析音高Ｐx[n]から徐々に低下する区間である。

第１実施形態の区間画定部７２は、１個の音符の区間内で観測音高Ｐ[k]が経時的に変動する傾向を記述した統計モデルを利用して、先頭区間Ｕsと第１区間Ｕ1と第２区間Ｕ2と末尾区間Ｕeとを解析期間Ｓ毎に画定する。具体的には、区間画定部７２は、図１４に例示される通り、解析期間Ｓ内の相異なる区間に対応する複数の状態σ（σ1，σ2，σ3，σ4）を含む状態遷移モデルμを利用する。第１実施形態の状態遷移モデルμは、時間的な遡及が禁止されるleft-to-right型のＨＭＭ（Hidden Markov Model）である。図１４の状態σ1は先頭区間Ｕsに対応し、状態σ2は第１区間Ｕ1に対応し、状態σ3は第２区間Ｕ2に対応し、状態σ4は末尾区間Ｕeに対応する。区間毎の観測音高Ｐ[k]の変動の傾向が反映されるように、各状態σの出力確率の確率分布と状態σ間の遷移確率の確率分布とが事前に設定される。なお、状態σ2と状態σ3とを含む状態遷移モデルμを利用して解析期間Ｓを第１区間Ｕ1と第２区間Ｕ2との２個に区分することも可能である。

区間画定部７２は、解析期間Ｓの音高遷移（複数の観測音高Ｐ[k]の時系列）をＨＭＭに適用し、例えばビタビ（Viterbi）アルゴリズム等の動的計画法により最尤の状態系列を推定する。区間画定部７２は、最尤の状態系列のなかで状態σが遷移する地点を境界として解析期間Ｓを先頭区間Ｕsと第１区間Ｕ1と第２区間Ｕ2と末尾区間Ｕeとに区分する。また、区間画定部７２は、状態遷移モデルμに対する音高遷移の尤度λを算定する。尤度λは、状態遷移モデルμで想定された漸次変動に解析期間Ｓの音高遷移が適合する度合の指標であり、解析期間Ｓ内での漸次変動の明瞭性の指標とも換言され得る。例えば尤度λが大きいほど、明瞭な漸次変動が観測区間Ｓ内に存在すると評価できる。なお、実際の尤度λは、例えば解析期間Ｓ内の解析時点の総数（観測音高Ｐ[k]の総数）に応じて正規化された対数尤度である。

図１５の区間選択部７４は、補正値Ｃb[k]を使用した補正の対象となる解析期間Ｓ（以下「選択解析期間Ｓ」という）をＮ個の解析期間Ｓから選択する。具体的には、漸次変動が観測される解析期間Ｓが選択解析期間Ｓとして選択される。前述の通り、観測音高Ｐ[k]の漸次変動は、長時間にわたり発音が継続された場合に特に受聴者に知覚され易いという傾向がある。以上の傾向を考慮して、第１実施形態では、解析期間Ｓの時間長ｔS[n]が所定の閾値τ2を上回ることを選択解析期間Ｓの条件として想定する。他方、解析期間Ｓが長時間にわたる場合でも漸次変動が観測されない場合もある。そこで、第１実施形態では、区間画定部７２が算定した尤度λが閾値λTHを上回ることも選択解析期間Ｓの条件として想定する。尤度λが閾値λTHを上回ることは、状態遷移モデルμでモデル化された傾向に音高遷移が適合すること（すなわち、解析期間Ｓ内に漸次変動が観測されること）を意味する。以上の例示の通り、第１実施形態の区間選択部７４は、時間長ｔS[n]が閾値τ2を上回り、かつ、尤度λが閾値λTHを上回る解析期間Ｓを、選択解析期間ＳとしてＮ個の候補から選択する。

図１５の設定処理部７６は、選択解析期間Ｓ内の解析時点毎に補正値Ｃb[k]を設定する。第１実施形態の設定処理部７６は、区間画定部７２が画定した第１区間Ｕ1および第２区間Ｕ2の各々における解析時点毎に補正値Ｃb[k]を設定する。具体的には、設定処理部７６は、以下の数式(11)の演算により補正値Ｃb[k]を算定する。なお、第１区間Ｕ1内の複数の解析時点にわたり補正値Ｃb[k]は共通の数値である。同様に、第２区間Ｕ2内の複数の解析時点にわたり補正値Ｃb[k]は共通の数値である。

数式(11)の記号Ｐave[n]は、第１区間Ｕ1または第２区間Ｕ2内における複数の観測音高Ｐ[k]の平均値（以下「平均音高」という）である。例えば複数の観測音高Ｐ[k]の単純平均や加重平均が平均音高Ｐave[n]として算定される。

第１区間Ｕ1は、解析音高Ｐx[n]を上回る音高から解析音高Ｐx[n]まで観測音高Ｐ[k]が徐々に低下する区間である。したがって、平均音高Ｐave[n]は解析音高Ｐx[n]を上回る（Ｐave[n]＞Ｐx[n]）。数式(11)の係数Λは正数である（詳細は後述）から、第１区間Ｕ1内の各解析時点について設定される補正値Ｃb[k]は負数である。すなわち、第１区間Ｕ1内の各解析時点については、観測音高Ｐ[k]を低下させる補正値Ｃb[k]が算定される。

他方、第２区間Ｕ2は、解析音高Ｐx[n]を下回る音高まで観測音高Ｐ[k]が解析音高Ｐx[n]から徐々に低下する区間である。したがって、平均音高Ｐave[n]は解析音高Ｐx[n]を下回る（Ｐave[n]＜Ｐx[n]）。したがって、第２区間Ｕ2内の各解析時点について設定される補正値Ｃb[k]は正数である。すなわち、第２区間Ｕ2内の各解析時点については、観測音高Ｐ[k]を上昇させる補正値Ｃb[k]が算定される。以上の説明から理解される通り、第１実施形態の補正値設定部７０は、第１区間Ｕ1内の観測音高Ｐ[k]を第１方向（正方向）に補正し、第２区間Ｕ2内の観測音高Ｐ[k]を第１方向とは反対の第２方向（負方向）に補正するための補正値Ｃb[k]を設定する。

数式(11)の係数Λは、区間画定部７２が解析期間Ｓの区画のために算定した尤度λを含む以下の数式(12)の演算により算定される。

数式(12)は、尤度λの変動範囲を０以上かつ１以下の範囲に圧縮する演算である。係数α6および係数α7は所定の正数に設定される。数式(12)から理解される通り、尤度λが大きい（すなわち漸次変動が顕著である）ほど係数Λは大きい数値となる。すなわち、解析期間Ｓ内で漸次変動が明瞭である（例えば第１区間Ｕ1および第２区間Ｕ2での観測音高Ｐ[k]の変動が大きい）ほど、補正値Ｃb[k]による観測音高Ｐ[k]の補正量は大きくなる。

図１６は、補正値設定部７０が補正値Ｃb[k]を設定する処理（以下「補正値設定処理」という）のフローチャートである。図７に例示した発音点特定処理の実行後に図１６の補正値設定処理が実行される。なお、図１３の音高特定処理と図１６の補正値設定処理との先後は任意である。

補正値設定処理を開始すると、区間画定部７２は、相異なる音符に対応するＮ個の解析期間Ｓの各々について先頭区間Ｕsと第１区間Ｕ1と第２区間Ｕ2と末尾区間Ｕeとを画定する（Ｓd1）。区間選択部７４は、Ｎ個の解析期間Ｓから選択解析期間Ｓを選択する（Ｓd2）。具体的には、時間長ｔS[n]が閾値τ2を上回るとともに尤度λが閾値λTHを上回る解析期間Ｓが選択解析期間Ｓとして選択される。設定処理部７６は、区間選択部７４が選択した選択解析期間Ｓ内の解析時点毎に補正値Ｃb[k]を設定する（Ｓd3）。具体的には、設定処理部７６は、第１区間Ｕ1内の観測音高Ｐ[k]を第１方向に補正し、第２区間Ｕ2内の観測音高Ｐ[k]を第１方向とは反対の第２方向に補正するための補正値Ｃb[k]を設定する。

以上に説明した通り、第１実施形態では、対象楽曲の１個の音符に対応する解析期間Ｓ（すなわち理想的には観測音高Ｐ[k]が一定に維持されるべき区間）の第１区間Ｕ1と第２区間Ｕ2とで観測音高Ｐ[k]を逆方向に補正するための補正値Ｃb[k]が設定される。したがって、解析期間Ｓ内での観測音高Ｐ[k]の漸次変動を適切に補正可能な補正値Ｃb[k]を設定できるという利点がある。

第１実施形態では、状態遷移モデルμを使用して第１区間Ｕ1と第２区間Ｕ2とが画定されるから、状態遷移モデルμでモデル化された漸次変動のもとで第１区間Ｕ1と第２区間Ｕ2とを適切に画定できるという利点がある。また、第１実施形態では、先頭区間Ｕsに対応する状態σ1と末尾区間Ｕeに対応する状態σ4とを含む状態遷移モデルμが第１区間Ｕ1および第２区間Ｕ2の画定に利用されるから、解析期間Ｓのうち例えば観測音高Ｐ[k]が不安定に変動する先頭区間Ｕsまたは末尾区間Ｕeを除外して適切な第１区間Ｕ1および第２区間Ｕ2を画定できるという利点がある。

また、第１実施形態では、状態遷移モデルμに対する尤度λが閾値λTHを上回る解析期間Ｓについて補正値Ｃb[k]が設定される。したがって、状態遷移モデルμでモデル化された漸次変動が実際には観測されない解析期間Ｓについてまで補正値Ｃb[k]が設定される可能性を低減できるという利点がある。また、状態遷移モデルμを利用した解析期間Ｓの区分のために算定された尤度λが、選択解析期間Ｓの選別にも流用されるから、解析期間Ｓの区分とは無関係の方法で選択解析期間Ｓを選別する構成と比較して補正値設定部７０の処理負荷が軽減されるという利点もある。

図３の後処理部８０は、差分算定部６０が算定した補正値Ｃa[k]と補正値設定部７０が設定した補正値Ｃb[k]とから解析時点毎に補正値Ｃ[k]を設定する。図１７は、後処理部８０を例示する構成図である。図１７に例示される通り、第１実施形態の後処理部８０は、第１調整部８２と第２調整部８４と補正値合成部８６とを具備する。

第１調整部８２は、差分算定部６０が順次に算定する補正値Ｃa[k]を調整する。具体的には、第１調整部８２は、平滑部８２１と調整部８２２とを含んで構成される。平滑部８２１は、複数の補正値Ｃa[k]の時系列を時間軸上で平滑化する。平滑部８２１による平滑化の結果、補正値Ｃa[k]の急激な変動が緩和される。調整部８２２は、平滑化後の各補正値Ｃa[k]に所定の係数を乗算する。なお、平滑部８２１および調整部８２２の一方または双方を省略することも可能である。

第２調整部８４は、補正値設定部７０が順次に設定する補正値Ｃb[k]を調整する。具体的には、第２調整部８４は、第１調整部８２と同様に、平滑部８４１と調整部８４２とを含んで構成される。平滑部８４１は、複数の補正値Ｃb[k]の時系列を時間軸上で平滑化する。前述の通り、第１区間Ｕ1と第２区間Ｕ2とでは補正値Ｃb[k]の符号が反転するが、平滑部８４１による平滑化の結果、第１区間Ｕ1と第２区間Ｕ2との境界における補正値Ｃb[k]の急激な変動が緩和される。調整部８４２は、平滑化後の各補正値Ｃb[k]に所定の係数を乗算する。なお、平滑部８４１および調整部８４２の一方または双方を省略することも可能である。また、平滑部８２１と調整部８２２との順序、または平滑部８４１と調整部８４２との順序は逆転され得る。

図１７の補正値合成部８６は、第１調整部８２による処理後の各補正値Ｃa[k]と第２調整部８４による処理後の各補正値Ｃb[k]とから、音高補正部２４が観測音高Ｐ[k]の補正に使用する補正値Ｃ[k]を解析時点毎に順次に生成する。例えば、補正値Ｃa[k]と補正値Ｃb[k]との加算で補正値Ｃ[k]を算定する加算器が補正値合成部８６として好適に利用される。前述の通り、音高補正部２４は、音響解析部２２（補正値合成部８６）が設定した補正値Ｃ[k]に応じて音信号Ｘの観測音高Ｐ[k]を補正することで音信号Ｙを生成する。

ところで、例えば解析時点毎の観測音高Ｐ[k]と基準音高Ｐrefとの差分に応じて解析時点毎に個別に補正値Ｃ[k]を算定する構成（以下「対比例」という）では、各解析時点の観測音高Ｐ[k]が基準音高Ｐrefに近付くように解析時点毎に補正される。したがって、対比例の構成では、例えば発声者に特有の観測音高Ｐ[k]の変動（すなわち歌唱の個性）、または、解析期間Ｓ内でのビブラートおよびしゃくり等の歌唱表現に由来する観測音高Ｐ[k]の微細な変動が低減ないし解消され、補正後の音が機械的で不自然な音と知覚される可能性がある。

対比例とは対照的に、第１実施形態では、基準音高Ｐrefと解析期間Ｓ毎の解析音高Ｐx[n]との差分が補正値Ｃa[k]として算定される。すなわち、任意の１個の解析期間Ｓ内では複数の解析時点にわたり補正値Ｃa[k]が共通する。したがって、解析期間Ｓ内での観測音高Ｐ[k]の微細な変動は、補正値Ｃa[k]に起因した補正では低減されない。同様に、補正値設定部７０が設定する補正値Ｃb[k]は、第１区間Ｕ1および第２区間Ｕ2の各々において複数の解析時点にわたり共通の数値である。したがって、第１区間Ｕ1および第２区間Ｕ2の各々における観測音高Ｐ[k]の微細な変動は、補正値Ｃb[k]を利用した補正の前後で維持される。以上の説明から理解される通り、第１実施形態では、対比例と比較して、発声者の個性や歌唱表現に由来する観測音高Ｐ[k]の変動を維持した聴感的に自然な音を生成できるという利点がある。

＜第２実施形態＞
本発明の第２実施形態について説明する。なお、以下に例示する各態様において作用または機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

第１実施形態では、第１処理Ｓc1で算定された音高Ｐa[n]と第２処理Ｓc2で算定された音高Ｐb[n]とを、解析期間Ｓの時間長ｔS[n]に応じた加重値（ωa[n]，ωb[n]）により加重平均することで解析音高Ｐx[n]を算定した。第２実施形態の音高特定部５０は、解析期間Ｓの時間長ｔS[n]に応じて第１処理Ｓc1および第２処理Ｓc2の何れかを選択的に実行することで解析音高Ｐx[n]を算定する。音高特定部５０以外の構成および動作については第１実施形態と同様である。

図１８は、第２実施形態における音高特定部５０を例示する構成図である。図１８に例示される通り、第２実施形態の音高特定部５０は、指標算定部５２と演算処理部５９とを含んで構成される。指標算定部５２は、第１実施形態と同様に、観測音高Ｐ[k]の安定指標Ｗp[k]を解析時点毎に算定する。演算処理部５９は、第１処理Ｓc1および第２処理Ｓc2の何れかを選択的に実行することで解析音高Ｐx[k]を算定する。

図１９は、第２実施形態における音高特定処理のフローチャートである。図７に例示した発音点特定処理の実行後に図１９の音高特定処理が実行される。音高特定処理を開始すると、指標算定部５２は、安定指標Ｗp[k]を解析時点毎に算定する（Ｓc0）。

演算処理部５９は、解析期間Ｓの時間長ｔS[n]が所定の閾値τ3を上回るか否かを判定する（Ｓc4）。時間長ｔS[n]が閾値τ3を上回る場合（Ｓc4：YES）、演算処理部５９は、第１処理Ｓc1を実行することで音高Ｐa[n]を解析音高Ｐx[n]として算定する。第１処理Ｓc1の内容は第１実施形態と同様である。すなわち、演算処理部５９は、前掲の数式(8)の例示の通り、安定指標Ｗp[k]を加重値として複数の観測音高Ｐ[k]を加重平均することで解析期間Ｓの音高Ｐa[n]を算定する。他方、時間長ｔS[n]が閾値τ3を下回る場合（Ｓc4：NO）、演算処理部５９は、第２処理Ｓc2を実行することで音高Ｐb[n]を解析音高Ｐx[n]として算定する。第２処理Ｓc2の内容は第１実施形態（図９）と同様である。

第２実施形態においても第１実施形態と同様の効果が実現される。第２実施形態では、第１処理Ｓc1による音高Ｐa[n]の算定と第２処理Ｓc2による音高Ｐb[n]の算定とが解析期間Ｓの時間長ｔS[n]に応じて選択的に実行される。したがって、第１実施形態と同様に、
解析期間Ｓが長い場合と短い場合とで観測音高Ｐ[k]の時間的な変動の傾向が相違し得るという事情のもとで、解析期間Ｓの長短に関わらず高精度に解析音高Ｐx[n]を特定できるという利点がある。また、第２実施形態では、第１処理Ｓc1と第２処理Ｓc2とが選択的に実行されるから、時間長ｔS[n]に関わらず第１処理Ｓc1および第２処理Ｓc2の双方が実行される第１実施形態と比較して、解析音高Ｐx[n]の特定に必要な処理負荷が軽減されるという利点もある。

もっとも、第１実施形態において第１処理Ｓc1と第２処理Ｓc2との双方を実行することは必須ではない。例えば、図１２に例示される通り、時間長ｔS[n]が所定の閾値τaを上回る場合には第２処理Ｓc2を省略し、時間長ｔS[n]が所定の閾値τb（τb＜τa）を下回る場合には第１処理Ｓc1を省略することも可能である。時間長ｔS[n]が閾値τaと閾値τbとの間にある場合に、第１処理Ｓc1と第２処理Ｓc2との双方が実行され、前掲の数式(9)の例示の通り音高Ｐa[n]と音高Ｐb[n]との加重平均により解析音高Ｐx[n]が算定される。

＜変形例＞
以上に例示した態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。

（１）前述の各形態では、発音点Ｑから終了点Ｔeまでの期間を解析期間Ｓとして例示したが、解析期間Ｓの画定の方法は以上の例示に限定されない。例えば、発音点Ｑから終了点Ｔeまでの期間を暫定期間として画定し、暫定期間のうち先頭側の一部（以下「除外期間」という）を除外した期間を解析期間Ｓとして使用することも可能である。除外期間としては、例えば暫定期間のうち先頭を含む所定の時間長または所定の比率の期間が例示され得る。また、観測音高Ｐ[K]が極端に低い解析期間Ｓ、または、時間長ｔS[n]が極端に短い解析期間Ｓを処理対象から除外することも可能である。

（２）前述の各形態では、時間長ｔS[n]が閾値τ2を上回り、かつ、尤度λが閾値λTHを上回る解析期間Ｓを選択解析期間Ｓとして補正値Ｃb[k]を特定したが、補正値Ｃb[k]の算定対象となる選択解析期間Ｓの条件は以上の例示に限定されない。例えば、解析期間Ｓ内の有声音の区間の時間長が閾値を上回ること、第１区間Ｕ1と第２区間Ｕ2との合計長が閾値を上回ること、第１区間Ｕ1および第２区間Ｕ2の各々の時間長が閾値を上回ること、第１区間Ｕ1および第２区間Ｕ2のうち長い方の時間長が短い方の時間長の所定倍以下であること等を条件として、選択解析期間Ｓを選択することも可能である。

（３）前述の各形態では、対象楽曲の各音符の開始点Ｔsの周囲に複数の候補点Ｑcを等間隔に配置したが、複数の候補点Ｑcの時間軸上の位置は以上の例示に限定されない。例えば、複数の候補点Ｑcの疎密が時間軸上で相違する構成も採用され得る。例えば、開始点Ｔsに近い位置では、開始点Ｔsから遠い位置と比較して狭い間隔で密に、候補点Ｑcを配置することが可能である。

（４）前述の各形態では、対象楽曲の歌唱音声を表す音信号Ｘを例示したが、音信号Ｘが表す音は歌唱音声に限定されない。例えば、楽器の演奏により発音される楽音（対象楽曲の演奏音）を表す音信号Ｘの解析にも、前述の各形態は採用され得る。以上の例示から理解される通り、好適な態様における音信号Ｘは、複数の音符の時系列に沿って発音された音（典型的には歌唱音声や楽音）を表す信号として包括的に表現される。

（５）移動体通信網またはインターネット等の通信網を介して端末装置（例えば携帯電話機またはスマートフォン）と通信するサーバ装置により音響解析装置１００を実現することも可能である。例えば、音響解析装置１００は、端末装置から通信網を介して受信した音信号Ｘに対する処理で音信号Ｙを生成して端末装置に送信する。

また、前述の各形態では、音響解析部２２と音高補正部２４とを具備する音響解析装置１００を例示したが、音高補正部２４は省略され得る。例えば、音高補正部２４を端末装置が具備する構成では、音響解析装置１００は、端末装置から通信網を介して受信した音信号Ｘから補正値Ｃ[k]を生成して端末装置に送信する。

端末装置が強度算定部３４および音高算定部３６を具備する構成では、音響解析装置１００は、端末装置から通信網を介して受信した強度Ｌ[k]および観測音高Ｐ[k]から補正値Ｃ[k]を生成して端末装置に送信する。すなわち、強度算定部３４および音高算定部３６は音響解析装置１００から省略され得る。端末装置が差分算定部６０および後処理部８０を具備する構成では、音響解析装置１００は、音高特定部５０が生成した解析音高Ｐx[k]と補正値設定部７０が生成した補正値Ｃb[k]とを端末装置に送信する。すなわち、差分算定部６０および後処理部８０は音響解析装置１００から省略され得る。

（６）発音点特定部４０と音高特定部５０と補正値設定部７０との各々を別個の音響解析装置１００として独立に実現することも可能である。音高特定部５０および補正値設定部７０の各々にとって発音点特定部４０は必須の要件ではない。例えば、楽曲情報Ｄで指定される音符期間を解析期間Ｓとして音高特定部５０および補正値設定部７０が処理を実行することも可能である。

（７）前述の各形態で例示した通り、音響解析装置１００は、制御装置１２とプログラムとの協働で実現される。本発明の好適な態様に係るプログラムは、複数の音符の時系列に沿って発音された音を表す音信号Ｘを解析するために、複数の音符の各々に設定された複数の候補点Ｑcの各々について、当該候補点Ｑcにおける音信号Ｘの強度Ｌ[k]の変動量δl[k]に応じた局所コストθ[n,i]を算定する第１演算部４２、および、局所コストθ[n,i]を利用して、複数の候補点Ｑcの何れかを音符毎に発音点Ｑとして選択した最尤系列Ｚを特定する推定処理部４６としてコンピュータを機能させる。以上に例示したプログラムは、例えば、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。

記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。なお、「非一過性の記録媒体」とは、一過性の伝搬信号（transitory, propagating signal）を除く全てのコンピュータ読取可能な記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに配信することも可能である。

（８）以上に例示した形態から、例えば以下の構成が把握される。
＜態様１＞
本発明の好適な態様（態様１）に係る音響解析方法は、複数の音符の時系列に沿って発音された音を表す音信号を解析する方法であって、コンピュータ（単体のコンピュータまたは複数のコンピュータで構成されるコンピュータシステム）が、前記複数の音符の各々に設定された複数の候補点の各々について、当該候補点における前記音信号の強度の変動量に応じた第１指標を算定し、前記第１指標を利用して、前記複数の候補点の何れかを音符毎に発音点として選択した最尤系列を特定する。以上の態様では、音符毎の複数の候補点の各々について当該候補点での強度の変動量に応じて算定された第１指標を利用して、複数の候補点の何れかが音符毎に発音点として選択される。したがって、単純に強度の変動量が大きい時点を発音点として特定する構成と比較して、複数の音符の時系列の全体的な傾向を反映した適切な発音点を特定することが可能である。
＜態様２＞
態様１の好適例（態様２）では、前記コンピュータが、前記複数の音符のうち相前後する第１音符および第２音符の組合せ毎に、前記第１音符および前記第２音符の時間差と、前記第１音符の前記複数の候補点の何れかおよび前記第２音符の前記複数の候補点の何れかの時間差との差異に応じた第２指標を算定し、前記最尤系列の特定においては、前記第１指標と前記第２指標とを利用して、前記最尤系列を特定する。以上の態様では、相前後する第１音符および第２音符の間の開始点の時間差と、第１音符および第２音符の間の候補点の時間差との差異に応じた第２指標が最尤系列の特定に利用される。したがって、相前後する２個の音符間の開始点の時間差と候補点の時間差との差異が抑制されるように音符毎の適切な発音点を特定することが可能である。
＜態様３＞
態様１または態様２の好適例（態様３）では、前記第１指標の算定において、前記候補点において前記音信号の強度が増加する場合と減少する場合とで前記強度の変化に対する前記第１指標の変化の度合が相違するように、前記第１指標を算定する。以上の態様では、候補点において音信号の強度が増加する場合と減少する場合とで、音信号の強度の変化に対する第１指標の変化の度合が相違するから、音信号の強度の変動量が同等でも、強度の増加時と減少時とでは、当該変化の時点が発音点に該当する可能性が相違するという傾向のもとで、発音点を高精度に特定可能な適切な第１指標を算定できるという利点がある。
＜態様４＞
態様１から態様３の何れかの好適例（態様４）においては、前記複数の音符の各々における開始点の周囲に前記複数の候補点が設定される。以上の態様では、複数の音符の各々における開始点の周囲に複数の候補点が設定されるから、各音符が所期の開始点の近傍で発音されるという傾向のもとで、各音符の発音点を効率的に特定することが可能である。
＜態様５＞
本発明の好適な態様（態様５）に係る音響解析装置は、複数の音符の時系列に沿って発音された音を表す音信号を解析する装置であって、前記複数の音符の各々に設定された複数の候補点の各々について、当該候補点における前記音信号の強度の変動量に応じた第１指標を算定する第１演算部と、前記第１指標を利用して、前記複数の候補点の何れかを音符毎に発音点として選択した最尤系列を特定する推定処理部とを具備する。

１００…音響解析装置、１２…制御装置、１４…記憶装置、１６…放音装置、２２…音響解析部、２４…音高補正部、３２…前処理部、３４…強度算定部、３６…音高算定部、４０…発音点特定部、４２…第１演算部、４４…第２演算部、４６…推定処理部、５０…音高特定部、５２…指標算定部、５４…第１処理部、５６…第２処理部、５８，５９…演算処理部、６０…差分算定部、７０…補正値設定部、７２…区間画定部、７４…区間選択部、７６…設定処理部、８０…後処理部。

Claims

複数の音符の時系列に沿って発音された音を表す音信号を解析する方法であって、
コンピュータが、
前記複数の音符の各々に設定された複数の候補点の各々について、当該候補点における前記音信号の強度の変動量に応じた第１指標を算定し、
前記第１指標を利用して、前記複数の候補点の何れかを音符毎に発音点として選択した最尤系列を特定する
音響解析方法。
前記コンピュータが、
前記複数の音符のうち相前後する第１音符および第２音符の組合せ毎に、前記第１音符および前記第２音符の時間差と、前記第１音符の前記複数の候補点の何れかおよび前記第２音符の前記複数の候補点の何れかの時間差との差異に応じた第２指標を算定し、
前記最尤系列の特定においては、前記第１指標と前記第２指標とを利用して、前記最尤系列を特定する
請求項１の音響解析方法。
前記第１指標の算定においては、前記候補点において前記音信号の強度が増加する場合と減少する場合とで前記強度の変化に対する前記第１指標の変化の度合が相違するように、前記第１指標を算定する
請求項１または請求項２の音響解析方法。
前記複数の音符の各々における開始点の周囲に前記複数の候補点が設定される
請求項１から請求項３の何れかの音響解析方法。
複数の音符の時系列に沿って発音された音を表す音信号を解析する装置であって、
前記複数の音符の各々に設定された複数の候補点の各々について、当該候補点における前記音信号の強度の変動量に応じた第１指標を算定する第１演算部と、
前記第１指標を利用して、前記複数の候補点の何れかを音符毎に発音点として選択した最尤系列を特定する推定処理部と
を具備する音響解析装置。