JP6225818B2

JP6225818B2 - ピッチ情報生成装置、ピッチ情報生成方法、及びプログラム

Info

Publication number: JP6225818B2
Application number: JP2014093734A
Authority: JP
Inventors: 福太郎奥山
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2014-04-30
Filing date: 2014-04-30
Publication date: 2017-11-08
Anticipated expiration: 2034-04-30
Also published as: US10242697B2; US20170047083A1; WO2015166981A1; JP2015210480A

Description

本発明は、音響のピッチ（基本周波数）に関する情報を音響信号から検出する技術に関する。

音響のピッチに関する情報（以下「ピッチ情報」という）を音響信号から検出する技術としては、例えば自己相関を用いてピッチ情報を検出する方法が広く知られている。また、例えば特許文献１には、入力された音響信号のエンベロープからピッチ情報を特定する方法が開示されている。特許文献２には、複数のピッチ検出器を用いてピッチ情報を検出し、検出した複数のピッチ情報から最適なものを求めることが記載されている。

特許４２１０９３４号公報特開平１１−３１１９８８号公報

ところで、音響信号は、ある音域において倍音の周波数成分を多く含み、別の音域において波形の周期のピークが不安定となる場合がある。特許文献１に記載の技術では、所定の時定数で音響信号の入力波形に追随するエンベロープを生成し、入力波形がゼロクロスしたタイミングでエンベロープをホールドし、その後ホールドしたエンベロープと入力波形とが交差すると、再び入力波形に追随するエンベロープを生成する。ここで、音響信号には基音のピークとは別個のピーク（例えば倍音に相当するピーク）があり、音響信号のピッチは基音の各ピークの間隔（周期）で定まる。よって、エンベロープは基音のピークを掴むことが必要である。しかし、特許文献１に記載の技術では、時定数を小さく設定した場合にはエンベロープが急峻に減衰するため、振幅（強度）が小さい位置でエンベロープがホールドされる。このため、本来の目標となる基音のピークとは別個のピークが誤検出される可能性が高い。よって、音響信号に倍音の周波数成分が多く含まれる音域においてピッチを高精度に検出することができない。一方、時定数を大きく設定すればエンベロープが緩やかに減衰し振幅が大きな位置でエンベロープがホールドされるため、本来の目標ではないピークを誤検出する可能性は低減される。ところが、ピークが不安定となりがちな音域では基音のピークがホールド波形を下回る可能性があり、この場合にはピッチを正確に検出することができなくなる。よって、特許文献１に記載の技術ではピッチを高精度に検出可能な周波数の範囲が限定されてしまう。

自己相関を用いた場合には、エンベロープからピッチ情報を特定する方法と比較して、演算量が多いという問題がある。また、例えばピアノの最低音のように基音の周波数特性が波形に現われにくい場合や、本来なら基音に対して整数倍で発生するはずの倍音が単純な整数倍で現れない場合（いわゆるインハーモニシティ）には、基音について、ピークから次のピークまでの波形と、次のピークからその次のピークまでの波形が必ずしも一致しなくなり、自己相関によってピッチ情報を検出できないことがある。また、特許文献２に記載の技術のピッチ検出器は、入力波形の所定の区間（テンプレート波形）と入力波形との相関からピッチ情報を検出する。したがって、基音の周波数特性が波形に現われにくい場合等に、自己相関を用いた場合と同様の問題が生じ得る。
以上の事情を考慮して、本発明は、音響信号のピッチ情報を、広い音域について、高精度に且つ少ない演算量で生成することを解決課題の一つとする。

以上の課題を解決するために、本発明に係るピッチ情報生成装置の一態様は、音響信号のピッチを示すピッチ情報を生成するものであって、第１の音域について、前記音響信号のピークに応じた検出値から第１の変化度で減衰する第１のエンベロープを生成する第１エンベロープ生成部と、前記第１の音域よりも周波数の高い音域を含む第２の音域について、前記音響信号のピークに応じた検出値から前記第１の変化度より単位時間あたりの変化の度合いが大きい第２の変化度で減衰する第２のエンベロープを生成する第２エンベロープ生成部と、前記第１のエンベロープと前記第２のエンベロープとに基づいて、前記ピッチ情報を特定するピッチ情報特定部とを備える。この態様においては、音響信号のピークに応じた検出値から、音域に応じた変化度で減衰するエンベロープを生成してピッチ情報を特定するから、広い音域についてのピッチ情報を少ない演算量で高精度に生成することが可能である。なお、変化度の一例として、「時定数」がある。

本発明の好適な態様にかかるピッチ情報生成装置は、前記第１の音域に対応する周波数成分を強調する処理を前記音響信号に施して前記第１エンベロープ生成部に供給する周波数特性調整部を備える。この態様においては、周波数が相対的に低い音域では、当該音域に対応する周波数成分を強調する処理を音響信号に施したうえでエンベロープを生成するから、ピッチの周波数特性が音響信号に現われにくい場合でも、かかる処理を施さない場合と比較して、ピッチ情報をより高精度に検出することが可能となる。

本発明の好適な態様において、前記第１エンベロープ生成部は、前記音響信号に第１係数を乗算して前記ピークに応じた検出値を生成し、前記第２エンベロープ生成部は、前記音響信号に第２係数を乗算して前記ピークに応じた検出値を生成し、前記第２係数は前記第１係数よりも小さい。この態様においては、周波数が高い音域では、周波数が低い音域よりも小さい係数でピークに応じた検出値を生成する（すなわちゲインを小さくする）ので、音響信号の波形のピークのバラツキが抑制されるという利点がある。

本発明の好適な態様において、前記第１の音域と前記第２の音域とは一部が互いに重なっており、前記ピッチ情報特定部は、前記第１のエンベロープに基づいてピッチを特定可能な場合、前記音響信号のピッチを示す第１のピッチ情報を生成する第１ピッチ情報生成部と、前記第２のエンベロープに基づいてピッチを特定可能な場合、前記音響信号のピッチを示す第２のピッチ情報を出力する第２ピッチ情報生成部と、前記第１のピッチ情報が生成され、前記第２のピッチ情報が生成されなかった場合、前記第１のピッチ情報を前記ピッチ情報として出力し、前記第２のピッチ情報が生成され、前記第１のピッチ情報が生成されなかった場合、前記第２のピッチ情報を前記ピッチ情報として出力し、前記第１のピッチ情報及び前記第２のピッチ情報が生成された場合、前記第２のピッチ情報を前記ピッチ情報として出力する選択部とを備える。

この態様においては、周波数が低い音域に対応するピッチ情報（第１のピッチ情報）と周波数が高い音域に対応するピッチ情報（第２のピッチ情報）とが生成された場合には、第１のピッチ情報の生成の基となる第１のエンベロープの生成に際して用いた第１の変化度よりも単位時間あたりの変化の度合いが大きい第２の変化度を用いて生成された第２のエンベロープに基づく第２のピッチ情報を選択する。エンベロープの波形の変化の度合いが大きいほど応答速度が速く音響信号の次のピークを捉えやすいから、この態様によれば、より高精度にピッチ情報を生成可能となる。

また、この態様においては、第１の音域と第２の音域とは一部が互いに重なっている。仮に、音域を排他的に設定したとすると、第１エンベロープ生成部が担当する音域の上限近傍や第２エンベロープ生成部が担当する下限近傍の周波数では、波形によってはピークを正確に捉えることができず、各第１ピッチ情報生成部及び第２ピッチ情報生成部がピッチ情報を出力できないことがあり得る。隣り合う２つの音域が重複するように割り当てることによって、第１ピッチ情報生成部及び第２ピッチ情報生成部の一方がピッチ情報を生成不能な場合に、第１ピッチ情報生成部及び第２ピッチ情報生成部の他方でピッチ情報を生成可能な場合、ピッチ情報を生成することができる。

加えて、本発明にかかるピッチ情報生成方法の一態様は、音響信号のピッチを示すピッチ情報を生成する方法であって、第１の音域について、前記音響信号のピークに応じた検出値から第１の変化度で減衰する第１のエンベロープを生成し、前記第１の音域よりも周波数の高い音域を含む第２の音域について、前記音響信号のピークに応じた検出値から前記第１の変化度より単位時間あたりの変化の度合いが大きい第２の変化度で減衰する第２のエンベロープを生成し、前記第１のエンベロープと前記第２のエンベロープとに基づいて、前記ピッチ情報を特定する。この方法によれば、上述したピッチ情報生成方法と同様の効果が得られる。

また、以上の各態様に係るピッチ情報生成装置は、音声の処理に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムの一態様は、コンピュータを、第１の音域について、音響信号のピークに応じた検出値から第１の変化度で減衰する第１のエンベロープを生成する第１エンベロープ生成部と、前記第１の音域よりも周波数の高い音域を含む第２の音域について、前記音響信号のピークに応じた検出値から前記第１の変化度より単位時間あたりの変化の度合いが大きい第２の変化度で減衰する第２のエンベロープを生成する第２エンベロープ生成部と、前記第１のエンベロープと前記第２のエンベロープとに基づいて、前記ピッチ情報を特定するピッチ情報特定部と、して機能させる。以上のプログラムによれば、本発明に係るピッチ情報生成装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。

本発明の一実施形態に係るピッチ情報生成装置の使用例を説明するための概念図である。ピッチ情報生成装置のハードウェア構成を示すブロック図である。ピッチ情報生成装置の表示画面の一例を示す図である。ピッチ情報生成装置の機能ブロック図である。各エンベロープ生成部（高音域エンベロープ生成部、中音域エンベロープ生成部、及び低音域エンベロープ生成部）の機能ブロック図である。各エンベロープ生成部の動作を説明するための概念図である。実施形態の効果を説明するための概念図である。実施形態の効果を説明するための概念図である。実施形態の効果を説明するための概念図である。ピッチ情報生成処理のフローチャートである。選択処理のフローチャートである。

図１は、本発明の一実施形態に係るピッチ情報生成装置１００の使用例を説明するための概念図である。図示の使用例では、サーバ装置２００からインターネットなどの通信網Ｎを介してピッチ情報生成装置１００へピッチ情報生成プログラムをダウンロードできるようになっている。ピッチ情報生成装置１００は、ピッチ情報生成プログラムを実行することによって、アコースティックピアノＳから発音されたピアノ演奏音のピッチ情報を生成し、ピッチ情報に基づいてアコースティックピアノＳの調律を補助する画面を表示する。ピッチ情報生成装置１００は、例えば、iPhone（登録商標）などのスマートフォンやその他のタブレット端末により構成される。

図２は、ピッチ情報生成装置１００のハードウェア構成を示すブロック図である。同図に示されるように、ピッチ情報生成装置１００は、無線又は有線で通信網Ｎと通信可能な通信部１１と、タッチパネル式の操作入力が可能な表示部１３と、記憶部１４とオーディオインタフェース１５とこれら各部を制御するＣＰＵ１２を備え、各部がバス１７を介して接続される。ピッチ情報生成装置１００は、さらに、アコースティックピアノＳから発音されたピアノ演奏音を取り込むためのマイク１６を備える。マイク１６によって集音された音響の音響信号Ａが、ピッチ情報生成装置１００に対する入力波形として供給される。オーディオインタフェース１５は、マイク１６から供給されるアナログの音響信号ＡをＡ／Ｄ１５ａによってデジタル信号に変換したうえでＣＰＵ１２に供給する。図２においては、マイク１６がピッチ情報生成装置１００に内蔵される構成を示すが、マイク４はピッチ情報生成装置１００に外部接続される構成であってもよい。

記憶部１４は、音響信号Ａからピッチ情報を生成するためのピッチ情報生成プログラムや各種のデータを記憶する。半導体記録媒体や磁気記録媒体などの公知の記録媒体が記憶部１４として任意に採用される。ピッチ情報生成プログラムは、例えばＵＳＢ（Universal Serial Bus）メモリなどの記録媒体に記憶された形態で利用者に提供されてピッチ情報生成装置１００にインストールされてもよい。

図３は、ピッチ情報生成プログラムが実行された時にピッチ情報生成装置１００の表示部１３に表示される表示画面の一例である。表示画面Ｆには、調律対象キーの周波数（すなわち、調律の目標とする周波数。以下、「目標周波数」という）と音響信号Ａの周波数との位相関係（周波数のずれ）を示すインジケータ１３２を表示するインジケータ表示部１３１が設けられている。インジケータ１３２は、音響信号Ａの周期性を２段階の濃度で画像化（周期パターン化）したものであり、目標周波数と音響信号Ａの周波数の位相が一致すると、見かけ上、一定位置で停止しているように表示される一方、音声信号Ａの周波数が目標周波数とずれている場合には、見かけ上、インジケータ１３２がインジケータ表示部３１上を流れているように表示される。操作者は、調律するアコースティックピアノＳの鍵盤キーのいずれかを押し下げてピアノ演奏音を発生せしめ、当該ピアノ演奏音の音響信号に応じて表示部１３に表示されたインジケータ１３２を参照し、インジケータ１３２が停止するように、アコースティックピアノＳを調律する。

また、表示画面Ｆには、数値や音名（Ａ〜Ｆ）等の情報を入力するためのボタン画像群や終了（「Exit」）ボタン画像等からなる操作入力部１３３が表示される。操作者は、画面上に表示されたボタン画像にタッチ等して入力操作を行なうことができる。パラメータ表示部１３４には、音響信号Ａの周波数に関する各種パラメータの設定情報や測定情報が表示される。パラメータ表示部１３４に表示されるパラメータには、音響信号Ａの周波数に対応するオクターブと音名（ノート）を示す「OCT-NOTE」、そのキーナンバ「KEY No.」、調律カーブからのズレを示すセント値「CENT」、測定基準として選択されている測定カーブ「CURVE」、及びキーナンバ「４９」に対応するピッチ（基準周波数）「PITCH」がある。キーナンバは、ピアノ鍵盤（８８鍵）の各鍵に対して、最低音の鍵から最高音の鍵の順に１〜８８の番号が順次割り当てられた各鍵に固有の番号である。キーナンバ「４９」に対応する基準周波数は、４４０Ｈｚ、４４１Ｈｚ、４４２Ｈｚなどのうち操作者があらかじめ設定した値であり、この基準周波数を基準として他のキーナンバの正規の周波数が定まる。正規の周波数は、各ピッチ毎に設定される値であり、例えばテーブル参照や演算等により設定されてよい。

本実施形態において、ピッチ情報生成装置１００は、鍵盤キーの押し下げにより発音されられた音響信号Ａのピッチ情報を生成すると、その生成したピッチ情報に対応するキーナンバを「KEY No.」に表示すると共に、当該キーナンバに対応するオクターブと音名を「OCT-NOTE」に表示する。ここで「KEY No.」に表示されるキーナンバは、各キーナンバに対応する正規の周波数のうち、ピッチ情報生成装置１００が検出したピッチ情報に最も近い正規の周波数から特定される。

図４は、ピッチ情報生成装置のＣＰＵ１２がピッチ情報生成プログラムを実行することにより得られる機能ブロック図である。ピッチ情報生成装置１００にはマイク１６及びＡ／Ｄ１５ａを介して音響信号Ａ[a]が供給される。音響信号Ａ[a]は、音響の時間軸上の波形をＡ／Ｄ１５ａのサンプリング周期ごとサンプリングして得られた波形の強度（振幅またはパワー）ａを時系列で示すデータである。ピッチ情報生成装置１００は、音響信号Ａ[a]からピッチ情報Ｄ[PA]を特定して出力し、表示部１３に表示する。ピッチ情報Ｄ[PA]は、音響信号Ａ[a]のピッチＰAに関連する情報である。

ＣＰＵ１２は、記憶部１４に格納されたピッチ情報生成プログラムを実行することで複数の要素（周波数特性調整部２０，低音域エンベロープ生成部３０−１，中音域エンベロープ生成部３０−２，高音域エンベロープ生成部３０−３，ピッチ情報特定部４０）として機能する。なお、音響信号Ａ[a]の処理に専用される電子回路（ＤＳＰ）がＣＰＵ１２の各要素を実現する構成や、ＣＰＵ１２の各要素を複数の集積回路に分散的に搭載した構成も採用され得る。

低音域エンベロープ生成部３０−１は「２０Ｈｚ〜２００Ｈｚ」の低音域について、音響信号Ａ[a]から第１のエンベロープを生成する。中音域エンベロープ生成部３０−２は「１００Ｈｚ〜１０００Ｈｚ」の中音域について、音響信号Ａ[a]から第２のエンベロープを生成する。高音域エンベロープ生成部３０−３は「７００Ｈｚ〜５０００Ｈｚ」の高音域について、音響信号Ａ[a]から第３のエンベロープを生成する。低音域と中音域とは一部が互いに重なっており、中音域と高音域とは一部が互いに重なっている。換言すると、中音域は低音域よりも周波数が高い音域を含み、高音域は中音域よりも周波数が高い音域を含む。

ピッチ情報生成装置１００に供給された音響信号Ａ[a]は周波数特性調整部２０、中音域エンベロープ生成部３０−２、及び高音域エンベロープ生成部３０−３のそれぞれに供給される。周波数特性調整部２０は、音響信号Ａ[a]のうち、低音域（２０Ｈｚ〜２００Ｈｚ）の一部又は全部に対応する周波数成分を強調する処理を音響信号Ａ[a]に対して施して低音域エンベロープ生成部３０−１に供給する。周波数特性調整部２０としては、例えばローパスフィルターやハイカットフィルターが例示される。

図５は、各エンベロープ生成部の機能ブロック図である。各低音域エンベロープ生成部３０−１、中音域エンベロープ生成部３０−２、及び高音域エンベロープ生成部３０−３（以下の説明において、適宜「エンベロープ生成部３０」と総称する）は、音響信号Ａ[a]の各ピークでの強度ａから経時的に変化する検出値（ｅ_p，ｅ_n）の時系列から成るエンベロープを生成する。各エンベロープ生成部３０は、正側エンベロープ生成部３２と負側エンベロープ生成部３４とで構成される。以下の説明において、添字「_p」が付加された符号は正側エンベロープ生成部３２（正数の強度ａ）に関する要素を意味し、添字「_n」が付加された符号は負側エンベロープ生成部３４（負数の強度ａ）に関する要素を意味する。

図６は、各エンベロープ生成部３０の動作を説明するためのタイミングチャートである。図６に示すように、正側エンベロープ生成部３２は、音響信号Ａ[a]のうち強度ａが正数であるピークＫ_p（より正確には、ピークＫ_pに応じた検出値）から変化度Ｒで減衰する正側エンベロープ（検出値ｅ_pの時系列）を生成する。一方、負側エンベロープ生成部３４は、音響信号Ａ[a]のうち強度ａが負数であるピークＫ_n（より正確には、ピークＫ_nに応じた検出値）から変化度Ｒで減衰する負側エンベロープ（検出値ｅ_nの時系列）を生成する。

図５に示すように、高音域エンベロープ生成部３０−３の正側エンベロープ生成部３２は、ゲイン付与部５０と比較部５２と遅延部５４と基準値算定部５６とを含んで構成される。ゲイン付与部５０は、音響信号Ａ[a]のうち正数である強度ａに係数Ｅ３を乗算して出力する。基準値算定部５６は基準値ｘ_pを順次に算定する。比較部５２は、基準値算定部５６が算定した基準値ｘ_pと、ゲイン付与部５０から出力される音響信号Ａ[a]の強度ａとを順次に比較し、基準値ｘ_pおよび強度ａのうちの大きい方を検出値ｅ_pとして選択する。したがって、図６に示すように、音響信号Ａ[a]の正側のピークＫ_pにて強度ａが基準値ｘ_pを上回る区間Ｑ1_p内では強度ａが検出値ｅ_pとして順次に選択され、基準値ｘ_pが強度ａを上回る区間Ｑ2_p内では基準値ｘ_pが検出値ｅ_pとして順次に選択され、ピッチ情報特定部４０に供給される。図５に示すように、検出値ｅ_pは、遅延部５４にて所定長（例えば音響信号Ａ[a]の１サンプル分の時間）だけ遅延されたうえで基準値算定部５６に供給される。

基準値算定部５６は、比較部５２が順次に選択する検出値ｅ_pと変化度Ｒ３とから基準値ｘ_pを算定する。さらに詳述すると、基準値算定部５６は、検出値ｅ_pと変化度Ｒ３との乗算値を基準値ｘ_pとして順次に算定する乗算器である。変化度Ｒ３は１を下回る正数に設定される。したがって、基準値ｘ_pが強度ａを上回る図６の区間Ｑ2_p内において、比較部５２による検出値ｅ_p（基準値ｘ_p）は、音響信号Ａ[a]の正側のピークＫ_pの強度ａ（極大値）から変化度Ｒ３に応じた速度で経時的に減衰する。変化度Ｒ３が大きい（１に近い）ほど検出値ｅ_pの経時的な変化は急峻となり、変化度Ｒ３が小さいほど検出値ｅ_pの経時的な変化は緩慢となる。換言すると、変化度Ｒ３は、検出値ｅ_pの単位時間あたりの変化の度合い（すなわち、変化速度）を示すものとして捉えられる。

負側エンベロープ生成部３４は、正側エンベロープ生成部３２と同様に、ゲイン付与部５０と比較部５２と遅延部５４と基準値算定部５６とを含んで構成される。ただし、各数値の大小や正負の関係が正側エンベロープ生成部３２とは逆転する。さらに詳述すると、負側処理部３４の基準値算定部５６が算定する基準値ｘ_nは負数であり、基準値ｘ_nおよび音響信号Ａ[a]の強度ａのうちの小さい方（絶対値が大きい方）を比較部５２が検出値ｅ_nとして順次に選択する。すなわち、図６に示すように、音響信号Ａ[a]の負側のピークＫ_nにて強度ａが基準値ｘ_nを下回る区間Ｑ1_n内では強度ａが検出値ｅ_nとして選択され、基準値ｘ_nが強度ａを下回る区間Ｑ2_n内では基準値ｘ_nが検出値ｅ_nとして選択される。変化度Ｒ３は正側エンベロープ生成部３２と共通（１を下回る正数）である。よって、図６の区間Ｑ2_n内において、検出値ｅ_n（基準値ｘ_n）は、音響信号Ａ[a]の負側のピークＫ_nの強度ａ（極小値）から変化度Ｒ３に応じた速度で経時的に減衰する。

中音域エンベロープ生成部３０−２や低音域エンベロープ生成部３０−１は、図５に示す高音域エンベロープ生成部３０−３と同様の構成を有する。ただし、各中音域エンベロープ生成部３０−２及び低音域エンベロープ生成部３０−１は、高音域エンベロープ生成部３０−３においてエンベロープの生成に用いる変化度Ｒ３とは異なる変化度Ｒ２，Ｒ１をそれぞれ用いる。詳述すると、中音域エンベロープ生成部３０−２の正側エンベロープ生成部３２（又は負側エンベロープ生成部３４）の基準値算定部５６が用いる変化度Ｒ２は、高音域エンベロープ生成部３０−３の正側エンベロープ生成部３２（又は負側エンベロープ生成部３４）の基準値算定部５６が用いる変化度Ｒ３よりも小さい。また、低音域エンベロープ生成部３０−１の正側エンベロープ生成部３２（又は負側エンベロープ生成部３４）の基準値算定部５６が用いる変化度Ｒ１は、中音域エンベロープ生成部３０−２の正側エンベロープ生成部３２（又は負側エンベロープ生成部３４）の基準値算定部５６が用いる変化度Ｒ２よりもさらに小さい（すなわち、Ｒ３＞Ｒ２＞Ｒ１）。このように、各変化度Ｒ１，Ｒ２，Ｒ３は、各エンベロープ生成部３０の担当音域（低音域、中音域、又は高音域）に応じて設定されている。

また、各低音域エンベロープ生成部３０−１及び中音域エンベロープ生成部３０−２の各ゲイン付与部５０は、高音域エンベロープ生成部３０−３のゲイン付与部５０で音響信号Ａ[a]の強度ａに対して乗算される係数Ｅ３とは異なる係数Ｅ１，Ｅ２を用いる。本実施形態では、各低音域エンベロープ生成部３０−１において正側エンベロープ生成部３２（又は負側エンベロープ生成部３４）のゲイン付与部５０が用いる係数Ｅ１と、中音域エンベロープ生成部３０−２において正側エンベロープ生成部３２（又は負側エンベロープ生成部３４）のゲイン付与部５０が用いる係数Ｅ２はいずれも「１」に設定され、高音域エンベロープ生成部３０−３において正側エンベロープ生成部３２（又は負側エンベロープ生成部３４）のゲイン付与部５０が用いる係数Ｅ３は、「１」よりも小さい正数に設定される（Ｅ３＜Ｅ１＝Ｅ２＝１）。周波数が高い音域では、周波数が低い音域と比較して音響信号Ａ[a]のピークが不安定となりがちである。本実施形態では、周波数が高い音域について、周波数が低い音域についてするよりも絶対値が小さい係数でピークＫ_pに応じた検出値を生成する（すなわちゲインを小さくする）ので、音響信号Ａ[a]の波形のピークのバラツキが抑制されるという利点がある。
このように、各低音域エンベロープ生成部３０−１、中音域エンベロープ生成部３０−２、及び高音域エンベロープ生成部３０−３は、異なる変化度Ｒ１，Ｒ２，Ｒ３と異なる係数Ｅ１，Ｅ２，Ｅ３をそれぞれ用いるから、同じ音響信号Ａ[a]が入力された場合にも、各低音域エンベロープ生成部３０−１から出力される第１のエンベロープと、中音域エンベロープ生成部３０−２から出力される第２のエンベロープと、高音域エンベロープ生成部３０−３から出力される第３のエンベロープとは異なるものとなる。

図７は、周波数が高い音響信号ＡH[a]を中音域エンベロープ生成部３０−２に入力した場合（Ａ）と、同じく周波数が高い音響信号ＡH[a]を高音域エンベロープ生成部３０−３に入力した場合（Ｂ）を対比して示すタイミングチャートである。図７（Ｂ）では、図示の便宜上、音響信号ＡH[a]の強度ａの時系列を示す波形を「点線ＡH［ａ］」として表し、ゲイン付与部５０から出力される強度ａの時系列を示す波形を「実線ＡH［ａ’］」として表す。一方、中音域エンベロープ生成部３０−２では、係数Ｅ２が「１」であるので、図７（Ａ）では、音響信号ＡH[a]を単に「実線ＡH［ａ］」として表す。
図７に示すように、周波数が高い音響信号ＡH[a]は、目標とするピッチに対応する周期で発生するピークＫ_pが不安定となりがちである。このため、ピークＫ_pから変化度Ｒ２で緩やかに減衰するエンベロープを生成する中音域エンベロープ生成部３０−２に音響信号ＡH[a]を入力した場合には、図７（Ａ）に示すように、ピークＫ_pをすべて掴むエンベロープを生成することができない。一方、変化度Ｒ２よりも大きい変化度Ｒ３でピークに応じた検出値Ｋ_p’から急峻に減衰するエンベロープを生成する高音域エンベロープ生成部３０−３に音響信号ＡH[a]を入力した場合には、図７（Ｂ）に示すように、すべてのピークに応じた検出値Ｋ_p’を漏れなく掴むことができる。このように、周波数が高い音響信号ＡH[a]からエンベロープを生成するには、中音域エンベロープ生成部３０−２よりも高音域エンベロープ生成部３０−３を用いた方が、音響信号ＡH[a]のピッチ情報Ｄ[PA]をより高精度に検出することができる。

これに対して、図８は、音響信号ＡH[a]よりも周波数が低い音響信号ＡM[a]を高音域エンベロープ生成部３０−３に入力した場合（Ａ）と、音響信号ＡM[a]を中音域エンベロープ生成部３０−２に入力した場合（Ｂ）を対比して示すタイミングチャートである。図８（Ａ）では、図示の便宜上、音響信号ＡM[a]の強度ａの時系列を示す波形を「点線ＡM［ａ］」として表し、ゲイン付与部５０から出力される強度ａの時系列を示す波形を「実線ＡM［ａ’］」として表す。一方、中音域エンベロープ生成部３０−２では、係数Ｅ２が「１」であるので、図８（Ｂ）では、音響信号ＡM[a]を単に「実線ＡM［ａ］」として表す。
図８に示すように、音響信号ＡM[a]は、本来の目標になるピッチに対応する周期で発生するピークＫ_pの他に、倍音に対応して周期で発生するピークＨ_p（倍音のピークに応じた検出値Ｈ_p’）が発生する。このため、ピークに応じた検出値Ｋ_p’から変化度Ｒ３で急峻に減衰するエンベロープを生成する高音域エンベロープ生成部３０−３に音響信号ＡM[a]を入力した場合には、図８（Ａ）に示すように、倍音に対応するピークに応じた検出値Ｈ_p’が合わせて検出されてしまい、目標になるピッチに対応するピークに応じた検出値Ｋ_p’だけを包絡するエンベロープを生成することができない。これに対して、ピークＫ_pから変化度Ｒ３よりも小さな変化度Ｒ２で緩やかに減衰するエンベロープを生成する中音域エンベロープ生成部３０−２に音響信号ＡM[a]を入力した場合には、図８（Ｂ）に示すように、倍音に対応するピークＨ_pが検出されないため、目標とするピッチに対応するピークＫ_pだけを包絡するエンベロープを生成することができる。このように、音響信号ＡHよりも周波数が低い音響信号ＡM[a]からエンベロープを生成するには、高音域エンベロープ生成部３０−３よりも中音域エンベロープ生成部３０−２を用いた方が、音響信号ＡM[a]のピッチ情報Ｄ[PA]をより高精度に検出することができる。

ピアノの最低音（８８鍵のピアノの場合２７．５Ｈｚ）に近い音域の音響信号Ａ[a]は、基音が弱く、倍音が多く含まれるという性質がある。このため、本来の目標になる基音に対応したピッチを表すエンベロープを生成することが倍音の影響で困難な場合がある。そこで、本実施形態では、周波数特性調整部２０を設けることにより、音響信号Ａ[a]のうち、低音域に対応する周波数成分の一部又は全部を強調する処理を音響信号Ａ[a]に対して施したうえで低音域エンベロープ生成部３０−１に供給する。

図９は、周波数が低い音域の音響信号ＡL[a]が周波数特性調整部２０による処理を経ることなく低音域エンベロープ生成部３０−１に供給された場合（Ａ）と、音響信号ＡL[a]が周波数特性調整部２０による処理を経た後に低音域エンベロープ生成部３０−１に供給された場合（Ｂ）を対比して示すタイミングチャートである。図９（Ａ）に示すように、周波数が低い音域の音響信号ＡL[a]は、ピッチＰAに対応する周期に倍音に対応するピークＨ_pを多数含み、本来の目標になる基音に対応するピークＫ_pが現われにくい。このため、音響信号ＡL[a]が周波数特性調整部２０を通ることなく低音域エンベロープ生成部３０−１に供給された場合には、ピークＫ_pを漏れなく包絡したエンベロープを生成できない場合がある。また、倍音に対応するピークＨ_pが誤検出される可能性もある。一方、図９（Ｂ）に示すように、音響信号ＡL[a]が周波数特性調整部２０による処理を経た後に低音域エンベロープ生成部３０−１に供給された場合には、本来の目標とするピッチの周波数成分に対応した周期が分かり易く現われる。すなわち、基音に対応する周波数成分が強調され、倍音に対応する周波数成分が抑制される。よって、周波数特性調整部２０を低音域エンベロープ生成部３０−１に設けることにより、周波数が低い音域の音響信号ＡL[a]のピッチ情報Ｄ[PA]をより高精度に検出することができる。

次にピッチ情報特定部４０について説明する。図４に示すように、ピッチ情報特定部４０は、第１ピッチ情報生成部４１-１と第２ピッチ情報生成部４１-２と第３ピッチ情報生成部４１-３と選択部４２とを具備して構成される。第１ピッチ情報生成部４１-１、第２ピッチ情報生成部４１-２、及び第３ピッチ情報生成部４１-３はそれぞれ低音域エンベロープ生成部３０−１、中音域エンベロープ生成部３０−２、及び高音域エンベロープ生成部３０−３から出力された各エンベロープに基づき、音響信号Ａ[a]のピッチＰAを特定可能な場合には、第１のピッチ情報Ｄ[PA1]、第２のピッチ情報Ｄ[PA2]、及び第３のピッチ情報Ｄ[PA3]をそれぞれ生成する。

次に、ピッチ情報生成処理について説明する。ピッチ情報生成処理は、ＣＰＵ１２の機能要素としての第１乃至第３ピッチ情報生成部４１-１乃至４１-３が実行する処理である。
図１０は、第３ピッチ情報生成部４１-３が実行するピッチ情報生成処理のフローチャートである。図１０に示すように、まず第３ピッチ情報生成部４１-３は、高音域エンベロープ生成部３０−３から供給された第３のエンベロープ（検出値ｅ_p，ｅ_n）から第３のピッチ情報Ｄ[PA3]を特定する（Ｓ１）。例えば図６に示すように、第３ピッチ情報生成部４１-３は、正側の検出値ｅ_pがピークＫ_pから減衰して、検出値ｅ_pと音響信号Ａ[a]の強度ａとの大小関係が反転する交点Ｉ_p（すなわち正側の第３のエンベロープと音響信号Ａ[a]の交点）を特定し、各交点Ｉ_pの間隔（音響信号Ａ[a]の周期）から音響信号Ａ[a]のピッチＰA3_pを特定する。同様に、第３ピッチ情報生成部４１-３は、負側の検出値ｅ_nがピークＫ_nから減衰して、検出値ｅ_nと音響信号Ａ[a]の強度ａとの大小関係が反転する交点Ｉ_n（すなわち負側の第３のエンベロープと音響信号Ａ[a]の交点）を特定し、各交点Ｉ_nの間隔（音響信号Ａ[a]の周期）から音響信号Ａ[a]のピッチＰA3_nを特定する。そして、第３ピッチ情報生成部４１-３は、ピッチＰA3_pとピッチＰA3_nとから確定的なピッチＰA3を特定する。例えば、ピッチＰA3_pおよびピッチＰA3_nのうち大きい方をピッチＰA3として特定する方法や、ピッチＰA3_pとピッチＰA3_nとの平均値をピッチＰA3として特定する方法が好適である。

続いて第３ピッチ情報生成部４１-３は、特定したピッチＰA3が所定の音域内にあるか否かを判定する（Ｓ２）。具体的には、第３ピッチ情報生成部４１-３は、特定したピッチＰA3が高音域「７００Ｈｚ〜５０００Ｈｚ」の範囲内にあるか否かを判定する。この判定条件が充足される場合には（Ｓ２：ＹＥＳ）、第３ピッチ情報生成部４１-３は、ピッチＰA3を示す第３のピッチ情報Ｄ[PA3]を出力する（Ｓ３）。一方、判定条件が充足されない場合には（Ｓ２：ＮＯ）、ステップＳ１に戻り、以降の処理を再び実行する。
上述したように、高音域エンベロープ生成部３０−３は、高音域の音響信号ＡH[a]のエンベロープを高精度に生成可能な機能要素である。よって、高音域エンベロープ生成部３０−３に供給された音響信号Ａ[a]が仮に中音域の音響信号ＡM[a]である場合には、第３ピッチ情報生成部４１-３が特定したピッチＰA3は低精度のものとなる可能性がある。このため、第３ピッチ情報生成部４１-３は、ピッチＰA3が高音域「７００Ｈｚ〜５０００Ｈｚ」の範囲内にある場合にのみ、当該ピッチＰA3を示す第３のピッチ情報Ｄ[PA3]を選択部４２に供給する。すなわち、第３ピッチ情報生成部４１-３は、第３のエンベロープに基づいてピッチＰA3を特定可能な場合、音響信号Ａ[a]のピッチＰA3を示す第３のピッチ情報Ｄ[PA3]を生成する。

第１ピッチ情報生成部４１-１と第２ピッチ情報生成部４１-２も同様に、ピッチＰA1とピッチＰA2をそれぞれ生成し、生成したピッチが所定の音域内にあるか否かを判定する（第１ピッチ情報生成部４１-１はピッチＰA1が低音域「２０Ｈｚ〜２００Ｈｚ」の範囲内にあるか否かを判定する。第２ピッチ情報生成部４１-２はピッチＰA2が中音域「１００Ｈｚ〜１０００Ｈｚ」の範囲内にあるか否かを判定する）。各第１ピッチ情報生成部４１-１及び第２ピッチ情報生成部４１-２は、各ピッチＰA1及びピッチＰA2がそれぞれ所定の音域内にある場合にのみ、ピッチＰA1を示す第１のピッチ情報Ｄ[PA1]及びピッチＰA2を表す第２のピッチ情報Ｄ[PA2]をそれぞれ選択部４２に供給する。すなわち、第１ピッチ情報生成部４１-１は、第１のエンベロープに基づいてピッチＰA1を特定可能な場合、音響信号Ａ[a]のピッチを示す第１のピッチ情報Ｄ[PA1]を生成する。また、第２ピッチ情報生成部４１-２は、第２のエンベロープに基づいてピッチＰA2を特定可能な場合、音響信号Ａ[a]のピッチを示す第２のピッチ情報Ｄ[PA2]を生成する。

図１１は、選択処理のフローチャートである。選択処理は、ＣＰＵ１２の機能要素としての選択部４２が実行する処理である。図１１に示すように、まず選択部４２は、供給されたピッチ情報の個数が「２」であるか否かを判定する（Ｓ１１）。上述したように、低音域「２０Ｈｚ〜２００Ｈｚ」と中音域「１００Ｈｚ〜１０００Ｈｚ」とは一部が互いに重なっており、中音域「１００Ｈｚ〜１０００Ｈｚ」と高音域「７００Ｈｚ〜５０００Ｈｚ」とは一部が互いに重なっている。よって、音響信号Ａ[a]のピッチＰAが例えば１００Ｈｚ〜２００Ｈｚの範囲内にある場合、第１ピッチ情報生成部４１-１が生成した第１のピッチ情報Ｄ[PA1]と第２ピッチ情報生成部４１-２が生成した第２のピッチ情報Ｄ[PA2]の２つが選択部４２に対して供給される。一方、音響信号Ａ[a]のピッチＰAが各音域の非重複部分にある場合、選択部４２には第１ピッチ情報生成部４１-１が生成した第１のピッチ情報Ｄ[PA1]、第２ピッチ情報生成部４１-２が生成した第２のピッチ情報Ｄ[PA2]、又は第３ピッチ情報生成部４１-３が生成した第３のピッチ情報Ｄ[PA3]のいずれか１つが供給される。

ステップＳ１１の判定条件が充足されない場合（Ｓ１１：ＮＯ）、すなわち供給されたピッチ情報の個数が「１」である場合、選択部４２は当該１のピッチ情報を確定的なピッチ情報Ｄ[PA]として出力する（Ｓ１３）。
一方、ステップＳ１１の判定条件が充足される場合（Ｓ１１：ＹＥＳ）、すなわち供給されたピッチ情報の個数が「２」である場合、選択部４２は当該２つのピッチ情報のうちより高音域を担当するピッチ情報生成部４１が出力したピッチ情報Ｄ[PA]を選択する（Ｓ１２）。具体的には、第１ピッチ情報生成部４１-１が生成した第１のピッチ情報Ｄ[PA1]と第２ピッチ情報生成部４１-２が生成した第２のピッチ情報Ｄ[PA2]の２つが選択部４２に供給された場合、選択部４２は第２のピッチ情報Ｄ[PA2]を選択する。また、第２ピッチ情報生成部４１-２が生成した第２のピッチ情報Ｄ[PA2]と第３ピッチ情報生成部４１-３が生成した第３のピッチ情報Ｄ[PA3]の２つが選択部４２に供給された場合、選択部４２は第３のピッチ情報Ｄ[PA3]を選択する。

エンベロープの波形の変化の度合いが大きいほど（すなわち変化度Ｒが大きいほど）応答速度が速く音響信号の次のピークＫ_pを捉えやすいから、同じ音域であればより大きい変化度Ｒを用いるエンベロープ生成部３０の方がより高精度にピッチ情報を生成可能である。そこで、本実施形態では、重なる音域において２つのピッチ情報Ｄ[PA]が特定可能な場合には、ピッチ情報Ｄ[PA]の基となるエンベロープの生成に用いた変化度Ｒがより大きいピッチ情報Ｄ[PA]を選択する。また、仮に、音域を排他的に設定したとすると、エンベロープ生成部３０が担当する音域の上限近傍や下限近傍の周波数では、波形によってはピークを正確に掴むことができず、ピッチ情報生成部４１がピッチ情報を出力できないことがあり得る。隣り合う２つの音域を重複するように割り当てることによって、一方のピッチ情報生成部４１がピッチ情報を生成不能な場合であっても、他方のピッチ情報生成部４１でピッチ情報を生成可能な場合、ピッチ情報Ｄ[PA]を生成することができる。

続いて選択部４２は、選択したピッチ情報を確定的なピッチ情報Ｄ[PA]として出力した後（Ｓ１３）、ステップＳ１１に戻り、新たなピッチ情報Ｄ[PA]について選択処理を再び実行する。

以上の処理ののち、表示部１３の表示画面Ｆにおいては、選択部４２が出力したピッチ情報Ｄ[PA]が示すピッチＰAに対応するキーナンバが「KEY No.」に表示され、キーナンバに対応するオクターブと音名が「OCT-NOTE」に表示される。ピアノの調律において、調律師がある鍵盤キーを押し下げることによって得られるピアノ演奏音の音響信号のピッチは、当該鍵盤キーに対応する正規の周波数からずれているが、この範囲は正規の周波数に対して±１％程度なので、隣の鍵盤キーの正規の周波数までずれることはない。したがって、検出されたピッチから調律の目標とする目標周波数を特定し、目標周波数に対応するキーナンバを特定することができる。操作者は、調律対象キーを押し下げする度ごとに出力されるピッチ情報Ｄ[PA]が示すピッチPAと、自動的に設定された目標周波数とが一致するように（すなわち表示画面Ｆのインジケータ１３２が停止するように）、調律対象キーを調律する。操作者が現在の調律対象キーの調律を終えて別の調律対象キーを押し下げし新たな音響を発音せしめると、この音響信号Ａ[a]についてピッチ情報Ｄ[PA]が新たに生成されて目標周波数が特定される。表示画面Ｆにおいては、「KEY No.」に表示されるキーナンバと、「OCT-NOTE」に表示されるオクターブと音名が、新たに特定された目標周波数に応じたものに切り替わる。操作者はインジケータ１３２を見ながら調律対象キーを発音させ、インジケータ１３２が停止するように、調律対象キーを調律する。

以上説明したように、本実施形態にかかるピッチ情報生成装置１００によれば、音響信号Ａ[a]のピークＫ_pに応じた検出値から、音域に応じた変化度Ｒで減衰するエンベロープを生成してピッチ情報を特定するから、広い音域についてのピッチ情報を少ない演算量で高精度に生成することが可能である。
また、調律対象キーに対応するキーナンバ等が自動的に設定されるので、調律対象キーのキーナンバを操作入力部１３３から入力して設定する場合と比較して、調律対象キーの設定にかかる煩わしさが除去される。

＜変形例＞
以上に例示した形態には様々な変形が加えられる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から２以上の態様を任意に選択して組合せてもよい。

（１）変形例１
基準値算定部５６が変化度Ｒと検出値ｅ（ｅ_p，ｅ_n）とから基準値ｘ（ｘ_p，ｘ_n）を算定する方法は適宜に変更される。よって例えば、正側の検出値ｅ_pから変化度を減算することで基準値ｘ_pを算定する構成や、負側の検出値ｅ_nに変化度を加算することで基準値ｘ_nを算定する構成が採用される。すなわち、変化度に応じた速度で減衰する（正側の基準値ｘ_pが減少し、または負側の基準値ｘ_nが増加する）ように基準値ｘが算定される構成であれば、基準値ｘを算定する具体的な方法は本発明において任意である。そして、より周波数が高い音域を担当するエンベロープ生成部３０ほど、基準値ｘの変化の速度が高くなるように変化度を設定する構成が好適である。
また、上述した実施形態で説明した変化度Ｒは、遅延部５４の出力に乗算する係数として与えられたが、本発明はこれに限定されるものではなく、エンベロープの時間当たりの変化の度合いを示す指標であればいかなるものであってもよい。例えば、変化度は、いわゆる時定数であってもよいし、あるいは、エンベロープを直線的に変化させる場合には、その傾きであってもよい。

（２）変形例２
上記実施形態では、各エンベロープ生成部３０は１つの変化度Ｒを用いるが、２以上の変化度Ｒを用いる態様も採用される。例えば、ゲイン付与部５０の作用によってピークＫ_p，Ｋ_nに応じた値（絶対値）が音響信号Ａ[a]の強度ａよりも小さいものとなる場合、ピークＫ_p，Ｋ_nに応じた値から減衰するエンベロープが音響信号Ａの波形Ａ[a]と交差したタイミングで（すなわち、エンベロープの検出値ｅ_p,ｅ_n（絶対値）が音響信号Ａの強度ａを超えたタイミングで）、エンベロープの変化速度がより遅くなる（すなわち緩やかに減衰する）別の変化度Ｒに切り替えるのが好適である。この態様によれば、エンベロープが急峻に減衰するものから緩やかに減衰するものに切り替わるので、本来の目標となる基音のピークとは別個のピーク（倍音や雑音等によって生じた別個のピーク）を誤検出する可能性が軽減される。
（３）変形例３
以上の各形態においては各エンベロープ生成部３０を正側エンベロープ生成部３２と負側処理部３４とで構成したが、各エンベロープ生成部３０が正側エンベロープ生成部３２および負側エンベロープ生成部３４の一方のみを具備する構成も好適である。例えば、各エンベロープ生成部３０が正側エンベロープ生成部３２のみを具備する構成では、正側の検出値ｅ_pから検出される各交点Ｉ_pの間隔から音響信号ＡのピッチＰAが特定される。

（４）変形例４
ピッチ情報Ｄ[PA]は、音響信号ＡのピッチＰAに関連する情報という意味であり、以上の形態における音響信号ＡのピッチＰA（周波数）には限定されない。例えば、ピッチＰAに対応する周期（ピッチ周期［すなわち時間］）やピッチＰAに対応するキーナンバをピッチ情報Ｄとして特定する構成も好適である。

（５）変形例５
上記実施形態では、ピッチ情報生成の対象である音域を低音域「２０Ｈｚ〜２００Ｈｚ」、中音域「１００Ｈｚ〜１０００Ｈｚ」、高音域「７００Ｈｚ〜５０００Ｈｚ」の３音域に区分するが、これに限定されず、２音域に区分してもよく、４以上の音域に区分してもよい。よって、エンベロープ生成部３０及びピッチ情報生成部４１の各個数は、２個であってもよく、４個以上であってもよい。また、音域の一部が互いに重ならなくてもよい。この場合には選択部４２は設けずともよい。
すなわち、本発明のピッチ情報生成装置は、「第１の音域」と、「第１の音域」よりも周波数が高い音域を含む「第２の音域」にそれぞれ対応する少なくとも２つのエンベロープ生成部を具備すればよい。また、「第１の音域」と「第２の音域」とが隣り合う（すなわち連続する）構成は必須ではない。すなわち、ピッチ情報生成の対象とする音域を３つの音域（例えば低音域、中音域、高音域）に区分した場合において、「第１の音域」は低音域であってもよく、この場合には、「第２の音域」が中音域又は高音域であってもよい。また、「第１の音域」が中音域であってもよく、この場合には「第２の音域」は高音域であってもよい。
例えば、中音域を「第１の音域」、高音域を「第２の音域」とした場合、実施形態の中音域エンベロープ生成部３０−２は、第１の音域について、音響信号のピークに応じた検出値から第１の変化度で減衰する第１のエンベロープを生成する第１エンベロープ生成部として機能し、高音域エンベロープ生成部３０−３は、第２の音域について、音響信号のピークに応じた検出値から第２の変化度で減衰する第２のエンベロープを生成する第２エンベロープ生成部として機能する。同様に、実施形態の第２ピッチ情報生成部４１−２は、第１のエンベロープに基づいてピッチを特定可能な場合、音響信号のピッチを示す第１のピッチ情報を生成する第１ピッチ情報生成部として機能し、第３ピッチ情報生成部４１−３は、第２のエンベロープに基づいてピッチを特定可能な場合、音響信号のピッチを示す第２のピッチ情報を生成する第２ピッチ情報生成部として機能する。
また、各音域の上限周波数及び下限周波数は一例であり、本発明の効果を損なわない範囲内で適宜変更され得る。

（６）変形例６
ゲイン付与部５０を各低音域エンベロープ生成部３０−１、中音域エンベロープ生成部３０−２、高音域エンベロープ生成部３０−３にそれぞれ具備させる構成は適宜変更される。例えば、高音域エンベロープ生成部３０−３（２音域に区分した場合には、周波数がより高い音域を担当するエンベロープ生成部３０、４以上の音域に区分した場合は、最も高い音域を担当するエンベロープ生成部３０を含む１以上のエンベロープ生成部３０）だけにゲイン付与部５０を具備させる構成が好適である。また、いずれのエンベロープ生成部３０もゲイン付与部５０を具備しない構成も採用される。また、周波数特性調整部２０を具備しない構成も採用される。
また、上記実施形態では、各エンベロープ生成部３０のゲイン付与部５０で用いられる係数を「Ｅ３＜Ｅ１＝Ｅ２＝１」とするが、本発明の効果を損なわない範囲内で適宜変更され得る。

（７）変形例７
上記実施形態では、エンベロープと音響信号Ａ[a]との各交点Ｉ_p,Ｉ_nの間隔からピッチＰAを特定するが、代わりに、各ピークＫ_pの間隔からピッチＰAを特定する構成も採用される。また、各エンベロープ生成部３０は、音響信号Ａ[a]のピークＫから変化度Ｒに応じた速度で経時的に検出値ｅが減衰する（すなわち、音響信号Ａ[a]のエンベロープの傾斜が変化度Ｒに応じて制御される）ように検出値ｅの時系列を特定する要素として包括され、実施形態の基準値ｘと強度ａとの比較は必須の要件ではない。

（８）変形例８
上記実施形態では、選択部４２が出力した確定的なピッチ情報Ｄ[PA]に基づいて、調律対象キーに対応するキーナンバ等が自動的に設定されるが、調律対象キーのキーナンバを操作者が操作入力部１３３から入力して設定する構成としてもよい。この場合であっても、選択部４２が出力した確定的なピッチ情報Ｄ[PA]と、設定したキーナンバに対応する目標周波数との位相関係がインジケータ１３２に表示されるから、高精度に検出されたピッチ情報に基づく調律が可能である。

（９）変形例９
本発明にかかるピッチ情報生成装置はピアノの楽音に限らず他の楽器の楽音や歌声などのピッチの検出にも適用され得る。また、ピッチ情報生成装置１００は、スマートフォンやその他のタブレット端末に限らず、デスクトップ型パーソナルコンピュータ、ノート型パーソナルコンピュータ、ＵＭＰＣ（Ultra-Mobile Personal Computer）、携帯用ゲーム機等でもよい。

１００……ピッチ情報生成装置、１２……ＣＰＵ、１３……表示部、１４……記憶部、２０……周波数特性調整部、３０-１……低音域エンベロープ生成部、３０-２……中音域エンベロープ生成部、３０-３……高音域エンベロープ生成部、３２……正側エンベロープ生成部、３４……負側エンベロープ生成部、４０……ピッチ情報特定部、４１-１……第１ピッチ情報生成部、４１-２……第２ピッチ情報生成部、４１-３……第３ピッチ情報生成部、４２……選択部、５０……ゲイン付与部、５２……比較部、５４……遅延部、５６……基準値算定部。

Claims

音響信号のピッチを示すピッチ情報を生成するピッチ情報生成装置であって、
第１の音域について、前記音響信号のピークに応じた検出値から第１の変化度で減衰する第１のエンベロープを生成する第１エンベロープ生成部と、
前記第１の音域よりも周波数の高い音域を含む第２の音域について、前記音響信号のピークに応じた検出値から前記第１の変化度より単位時間あたりの変化の度合いが大きい第２の変化度で減衰する第２のエンベロープを生成する第２エンベロープ生成部と、
前記第１のエンベロープと前記第２のエンベロープとに基づいて、前記ピッチ情報を特定するピッチ情報特定部と、
を備えたピッチ情報生成装置。
前記第１の音域に対応する周波数成分を強調する処理を前記音響信号に施して前記第１エンベロープ生成部に供給する周波数特性調整部を備えた請求項１に記載のピッチ情報生成装置。
前記第１エンベロープ生成部は、前記音響信号に第１係数を乗算して前記ピークに応じた検出値を生成し、
前記第２エンベロープ生成部は、前記音響信号に第２係数を乗算して前記ピークに応じた検出値を生成し、
前記第２係数は前記第１係数よりも小さい、
ことを特徴とする請求項１又は請求項２に記載のピッチ情報生成装置。
前記第１の音域と前記第２の音域とは一部が互いに重なっており、
前記ピッチ情報特定部は、
前記第１のエンベロープに基づいてピッチを特定可能な場合、前記音響信号のピッチを示す第１のピッチ情報を生成する第１ピッチ情報生成部と、
前記第２のエンベロープに基づいてピッチを特定可能な場合、前記音響信号のピッチを示す第２のピッチ情報を出力する第２ピッチ情報生成部と、
前記第１のピッチ情報が生成され、前記第２のピッチ情報が生成されなかった場合、前記第１のピッチ情報を前記ピッチ情報として出力し、前記第２のピッチ情報が生成され、前記第１のピッチ情報が生成されなかった場合、前記第２のピッチ情報を前記ピッチ情報として出力し、
前記第１のピッチ情報及び前記第２のピッチ情報が生成された場合、前記第２のピッチ情報を前記ピッチ情報として出力する選択部とを備える、
ことを特徴とする請求項１乃至３のうちいずれか１項に記載のピッチ情報生成装置。
音響信号のピッチを示すピッチ情報を生成するピッチ情報生成方法であって、
第１の音域について、前記音響信号のピークに応じた検出値から第１の変化度で減衰する第１のエンベロープを生成し、
前記第１の音域よりも周波数の高い音域を含む第２の音域について、前記音響信号のピークに応じた検出値から前記第１の変化度より単位時間あたりの変化の度合いが大きい第２の変化度で減衰する第２のエンベロープを生成し、
前記第１のエンベロープと前記第２のエンベロープとに基づいて、前記ピッチ情報を特定する、
ことを特徴するピッチ情報生成方法。
音響信号のピッチを示すピッチ情報を生成するプログラムであって、
コンピュータを、
第１の音域について、音響信号のピークに応じた検出値から第１の変化度で減衰する第１のエンベロープを生成する第１エンベロープ生成部と、
前記第１の音域よりも周波数の高い音域を含む第２の音域について、前記音響信号のピークに応じた検出値から前記第１の変化度より単位時間あたりの変化の度合いが大きい第２の変化度で減衰する第２のエンベロープを生成する第２エンベロープ生成部と、
前記第１のエンベロープと前記第２のエンベロープとに基づいて、前記ピッチ情報を特定するピッチ情報特定部と、
して機能させるプログラム。