JP6225818B2 - ピッチ情報生成装置、ピッチ情報生成方法、及びプログラム - Google Patents

ピッチ情報生成装置、ピッチ情報生成方法、及びプログラム Download PDF

Info

Publication number
JP6225818B2
JP6225818B2 JP2014093734A JP2014093734A JP6225818B2 JP 6225818 B2 JP6225818 B2 JP 6225818B2 JP 2014093734 A JP2014093734 A JP 2014093734A JP 2014093734 A JP2014093734 A JP 2014093734A JP 6225818 B2 JP6225818 B2 JP 6225818B2
Authority
JP
Japan
Prior art keywords
pitch information
envelope
pitch
acoustic signal
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014093734A
Other languages
English (en)
Other versions
JP2015210480A (ja
Inventor
福太郎 奥山
福太郎 奥山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2014093734A priority Critical patent/JP6225818B2/ja
Priority to PCT/JP2015/062968 priority patent/WO2015166981A1/ja
Publication of JP2015210480A publication Critical patent/JP2015210480A/ja
Priority to US15/336,123 priority patent/US10242697B2/en
Application granted granted Critical
Publication of JP6225818B2 publication Critical patent/JP6225818B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10GREPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
    • G10G7/00Other auxiliary devices or accessories, e.g. conductors' batons or separate holders for resin or strings
    • G10G7/02Tuning forks or like devices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/44Tuning means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H3/00Instruments in which the tones are generated by electromechanical means
    • G10H3/12Instruments in which the tones are generated by electromechanical means using mechanical resonant generators, e.g. strings or percussive instruments, the tones of which are picked up by electromechanical transducers, the electrical signals being further manipulated or amplified and subsequently converted to sound by a loudspeaker or equivalent instrument
    • G10H3/125Extracting or recognising the pitch or fundamental frequency of the picked up signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • G10L2025/906Pitch tracking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Description

本発明は、音響のピッチ(基本周波数)に関する情報を音響信号から検出する技術に関する。
音響のピッチに関する情報(以下「ピッチ情報」という)を音響信号から検出する技術としては、例えば自己相関を用いてピッチ情報を検出する方法が広く知られている。また、例えば特許文献1には、入力された音響信号のエンベロープからピッチ情報を特定する方法が開示されている。特許文献2には、複数のピッチ検出器を用いてピッチ情報を検出し、検出した複数のピッチ情報から最適なものを求めることが記載されている。
特許4210934号公報 特開平11−311988号公報
ところで、音響信号は、ある音域において倍音の周波数成分を多く含み、別の音域において波形の周期のピークが不安定となる場合がある。特許文献1に記載の技術では、所定の時定数で音響信号の入力波形に追随するエンベロープを生成し、入力波形がゼロクロスしたタイミングでエンベロープをホールドし、その後ホールドしたエンベロープと入力波形とが交差すると、再び入力波形に追随するエンベロープを生成する。ここで、音響信号には基音のピークとは別個のピーク(例えば倍音に相当するピーク)があり、音響信号のピッチは基音の各ピークの間隔(周期)で定まる。よって、エンベロープは基音のピークを掴むことが必要である。しかし、特許文献1に記載の技術では、時定数を小さく設定した場合にはエンベロープが急峻に減衰するため、振幅(強度)が小さい位置でエンベロープがホールドされる。このため、本来の目標となる基音のピークとは別個のピークが誤検出される可能性が高い。よって、音響信号に倍音の周波数成分が多く含まれる音域においてピッチを高精度に検出することができない。一方、時定数を大きく設定すればエンベロープが緩やかに減衰し振幅が大きな位置でエンベロープがホールドされるため、本来の目標ではないピークを誤検出する可能性は低減される。ところが、ピークが不安定となりがちな音域では基音のピークがホールド波形を下回る可能性があり、この場合にはピッチを正確に検出することができなくなる。よって、特許文献1に記載の技術ではピッチを高精度に検出可能な周波数の範囲が限定されてしまう。
自己相関を用いた場合には、エンベロープからピッチ情報を特定する方法と比較して、演算量が多いという問題がある。また、例えばピアノの最低音のように基音の周波数特性が波形に現われにくい場合や、本来なら基音に対して整数倍で発生するはずの倍音が単純な整数倍で現れない場合(いわゆるインハーモニシティ)には、基音について、ピークから次のピークまでの波形と、次のピークからその次のピークまでの波形が必ずしも一致しなくなり、自己相関によってピッチ情報を検出できないことがある。また、特許文献2に記載の技術のピッチ検出器は、入力波形の所定の区間(テンプレート波形)と入力波形との相関からピッチ情報を検出する。したがって、基音の周波数特性が波形に現われにくい場合等に、自己相関を用いた場合と同様の問題が生じ得る。
以上の事情を考慮して、本発明は、音響信号のピッチ情報を、広い音域について、高精度に且つ少ない演算量で生成することを解決課題の一つとする。
以上の課題を解決するために、本発明に係るピッチ情報生成装置の一態様は、音響信号のピッチを示すピッチ情報を生成するものであって、第1の音域について、前記音響信号のピークに応じた検出値から第1の変化度で減衰する第1のエンベロープを生成する第1エンベロープ生成部と、前記第1の音域よりも周波数の高い音域を含む第2の音域について、前記音響信号のピークに応じた検出値から前記第1の変化度より単位時間あたりの変化の度合いが大きい第2の変化度で減衰する第2のエンベロープを生成する第2エンベロープ生成部と、前記第1のエンベロープと前記第2のエンベロープとに基づいて、前記ピッチ情報を特定するピッチ情報特定部とを備える。この態様においては、音響信号のピークに応じた検出値から、音域に応じた変化度で減衰するエンベロープを生成してピッチ情報を特定するから、広い音域についてのピッチ情報を少ない演算量で高精度に生成することが可能である。なお、変化度の一例として、「時定数」がある。
本発明の好適な態様にかかるピッチ情報生成装置は、前記第1の音域に対応する周波数成分を強調する処理を前記音響信号に施して前記第1エンベロープ生成部に供給する周波数特性調整部を備える。この態様においては、周波数が相対的に低い音域では、当該音域に対応する周波数成分を強調する処理を音響信号に施したうえでエンベロープを生成するから、ピッチの周波数特性が音響信号に現われにくい場合でも、かかる処理を施さない場合と比較して、ピッチ情報をより高精度に検出することが可能となる。
本発明の好適な態様において、前記第1エンベロープ生成部は、前記音響信号に第1係数を乗算して前記ピークに応じた検出値を生成し、前記第2エンベロープ生成部は、前記音響信号に第2係数を乗算して前記ピークに応じた検出値を生成し、前記第2係数は前記第1係数よりも小さい。この態様においては、周波数が高い音域では、周波数が低い音域よりも小さい係数でピークに応じた検出値を生成する(すなわちゲインを小さくする)ので、音響信号の波形のピークのバラツキが抑制されるという利点がある。
本発明の好適な態様において、前記第1の音域と前記第2の音域とは一部が互いに重なっており、前記ピッチ情報特定部は、前記第1のエンベロープに基づいてピッチを特定可能な場合、前記音響信号のピッチを示す第1のピッチ情報を生成する第1ピッチ情報生成部と、前記第2のエンベロープに基づいてピッチを特定可能な場合、前記音響信号のピッチを示す第2のピッチ情報を出力する第2ピッチ情報生成部と、前記第1のピッチ情報が生成され、前記第2のピッチ情報が生成されなかった場合、前記第1のピッチ情報を前記ピッチ情報として出力し、前記第2のピッチ情報が生成され、前記第1のピッチ情報が生成されなかった場合、前記第2のピッチ情報を前記ピッチ情報として出力し、前記第1のピッチ情報及び前記第2のピッチ情報が生成された場合、前記第2のピッチ情報を前記ピッチ情報として出力する選択部とを備える。
この態様においては、周波数が低い音域に対応するピッチ情報(第1のピッチ情報)と周波数が高い音域に対応するピッチ情報(第2のピッチ情報)とが生成された場合には、第1のピッチ情報の生成の基となる第1のエンベロープの生成に際して用いた第1の変化度よりも単位時間あたりの変化の度合いが大きい第2の変化度を用いて生成された第2のエンベロープに基づく第2のピッチ情報を選択する。エンベロープの波形の変化の度合いが大きいほど応答速度が速く音響信号の次のピークを捉えやすいから、この態様によれば、より高精度にピッチ情報を生成可能となる。
また、この態様においては、第1の音域と第2の音域とは一部が互いに重なっている。仮に、音域を排他的に設定したとすると、第1エンベロープ生成部が担当する音域の上限近傍や第2エンベロープ生成部が担当する下限近傍の周波数では、波形によってはピークを正確に捉えることができず、各第1ピッチ情報生成部及び第2ピッチ情報生成部がピッチ情報を出力できないことがあり得る。隣り合う2つの音域が重複するように割り当てることによって、第1ピッチ情報生成部及び第2ピッチ情報生成部の一方がピッチ情報を生成不能な場合に、第1ピッチ情報生成部及び第2ピッチ情報生成部の他方でピッチ情報を生成可能な場合、ピッチ情報を生成することができる。
加えて、本発明にかかるピッチ情報生成方法の一態様は、音響信号のピッチを示すピッチ情報を生成する方法であって、第1の音域について、前記音響信号のピークに応じた検出値から第1の変化度で減衰する第1のエンベロープを生成し、前記第1の音域よりも周波数の高い音域を含む第2の音域について、前記音響信号のピークに応じた検出値から前記第1の変化度より単位時間あたりの変化の度合いが大きい第2の変化度で減衰する第2のエンベロープを生成し、前記第1のエンベロープと前記第2のエンベロープとに基づいて、前記ピッチ情報を特定する。この方法によれば、上述したピッチ情報生成方法と同様の効果が得られる。
また、以上の各態様に係るピッチ情報生成装置は、音声の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムの一態様は、コンピュータを、第1の音域について、音響信号のピークに応じた検出値から第1の変化度で減衰する第1のエンベロープを生成する第1エンベロープ生成部と、前記第1の音域よりも周波数の高い音域を含む第2の音域について、前記音響信号のピークに応じた検出値から前記第1の変化度より単位時間あたりの変化の度合いが大きい第2の変化度で減衰する第2のエンベロープを生成する第2エンベロープ生成部と、前記第1のエンベロープと前記第2のエンベロープとに基づいて、前記ピッチ情報を特定するピッチ情報特定部と、して機能させる。以上のプログラムによれば、本発明に係るピッチ情報生成装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
本発明の一実施形態に係るピッチ情報生成装置の使用例を説明するための概念図である。 ピッチ情報生成装置のハードウェア構成を示すブロック図である。 ピッチ情報生成装置の表示画面の一例を示す図である。 ピッチ情報生成装置の機能ブロック図である。 各エンベロープ生成部(高音域エンベロープ生成部、中音域エンベロープ生成部、及び低音域エンベロープ生成部)の機能ブロック図である。 各エンベロープ生成部の動作を説明するための概念図である。 実施形態の効果を説明するための概念図である。 実施形態の効果を説明するための概念図である。 実施形態の効果を説明するための概念図である。 ピッチ情報生成処理のフローチャートである。 選択処理のフローチャートである。
図1は、本発明の一実施形態に係るピッチ情報生成装置100の使用例を説明するための概念図である。図示の使用例では、サーバ装置200からインターネットなどの通信網Nを介してピッチ情報生成装置100へピッチ情報生成プログラムをダウンロードできるようになっている。ピッチ情報生成装置100は、ピッチ情報生成プログラムを実行することによって、アコースティックピアノSから発音されたピアノ演奏音のピッチ情報を生成し、ピッチ情報に基づいてアコースティックピアノSの調律を補助する画面を表示する。ピッチ情報生成装置100は、例えば、iPhone(登録商標)などのスマートフォンやその他のタブレット端末により構成される。
図2は、ピッチ情報生成装置100のハードウェア構成を示すブロック図である。同図に示されるように、ピッチ情報生成装置100は、無線又は有線で通信網Nと通信可能な通信部11と、タッチパネル式の操作入力が可能な表示部13と、記憶部14とオーディオインタフェース15とこれら各部を制御するCPU12を備え、各部がバス17を介して接続される。ピッチ情報生成装置100は、さらに、アコースティックピアノSから発音されたピアノ演奏音を取り込むためのマイク16を備える。マイク16によって集音された音響の音響信号Aが、ピッチ情報生成装置100に対する入力波形として供給される。オーディオインタフェース15は、マイク16から供給されるアナログの音響信号AをA/D15aによってデジタル信号に変換したうえでCPU12に供給する。図2においては、マイク16がピッチ情報生成装置100に内蔵される構成を示すが、マイク4はピッチ情報生成装置100に外部接続される構成であってもよい。
記憶部14は、音響信号Aからピッチ情報を生成するためのピッチ情報生成プログラムや各種のデータを記憶する。半導体記録媒体や磁気記録媒体などの公知の記録媒体が記憶部14として任意に採用される。ピッチ情報生成プログラムは、例えばUSB(Universal Serial Bus)メモリなどの記録媒体に記憶された形態で利用者に提供されてピッチ情報生成装置100にインストールされてもよい。
図3は、ピッチ情報生成プログラムが実行された時にピッチ情報生成装置100の表示部13に表示される表示画面の一例である。表示画面Fには、調律対象キーの周波数(すなわち、調律の目標とする周波数。以下、「目標周波数」という)と音響信号Aの周波数との位相関係(周波数のずれ)を示すインジケータ132を表示するインジケータ表示部131が設けられている。インジケータ132は、音響信号Aの周期性を2段階の濃度で画像化(周期パターン化)したものであり、目標周波数と音響信号Aの周波数の位相が一致すると、見かけ上、一定位置で停止しているように表示される一方、音声信号Aの周波数が目標周波数とずれている場合には、見かけ上、インジケータ132がインジケータ表示部31上を流れているように表示される。操作者は、調律するアコースティックピアノSの鍵盤キーのいずれかを押し下げてピアノ演奏音を発生せしめ、当該ピアノ演奏音の音響信号に応じて表示部13に表示されたインジケータ132を参照し、インジケータ132が停止するように、アコースティックピアノSを調律する。
また、表示画面Fには、数値や音名(A〜F)等の情報を入力するためのボタン画像群や終了(「Exit」)ボタン画像等からなる操作入力部133が表示される。操作者は、画面上に表示されたボタン画像にタッチ等して入力操作を行なうことができる。パラメータ表示部134には、音響信号Aの周波数に関する各種パラメータの設定情報や測定情報が表示される。パラメータ表示部134に表示されるパラメータには、音響信号Aの周波数に対応するオクターブと音名(ノート)を示す「OCT-NOTE」、そのキーナンバ「KEY No.」、調律カーブからのズレを示すセント値「CENT」、測定基準として選択されている測定カーブ「CURVE」、及びキーナンバ「49」に対応するピッチ(基準周波数)「PITCH」がある。キーナンバは、ピアノ鍵盤(88鍵)の各鍵に対して、最低音の鍵から最高音の鍵の順に1〜88の番号が順次割り当てられた各鍵に固有の番号である。キーナンバ「49」に対応する基準周波数は、440Hz、441Hz、442Hzなどのうち操作者があらかじめ設定した値であり、この基準周波数を基準として他のキーナンバの正規の周波数が定まる。正規の周波数は、各ピッチ毎に設定される値であり、例えばテーブル参照や演算等により設定されてよい。
本実施形態において、ピッチ情報生成装置100は、鍵盤キーの押し下げにより発音されられた音響信号Aのピッチ情報を生成すると、その生成したピッチ情報に対応するキーナンバを「KEY No.」に表示すると共に、当該キーナンバに対応するオクターブと音名を「OCT-NOTE」に表示する。ここで「KEY No.」に表示されるキーナンバは、各キーナンバに対応する正規の周波数のうち、ピッチ情報生成装置100が検出したピッチ情報に最も近い正規の周波数から特定される。
図4は、ピッチ情報生成装置のCPU12がピッチ情報生成プログラムを実行することにより得られる機能ブロック図である。ピッチ情報生成装置100にはマイク16及びA/D15aを介して音響信号A[a]が供給される。音響信号A[a]は、音響の時間軸上の波形をA/D15aのサンプリング周期ごとサンプリングして得られた波形の強度(振幅またはパワー)aを時系列で示すデータである。ピッチ情報生成装置100は、音響信号A[a]からピッチ情報D[PA]を特定して出力し、表示部13に表示する。ピッチ情報D[PA]は、音響信号A[a]のピッチPAに関連する情報である。
CPU12は、記憶部14に格納されたピッチ情報生成プログラムを実行することで複数の要素(周波数特性調整部20,低音域エンベロープ生成部30−1,中音域エンベロープ生成部30−2,高音域エンベロープ生成部30−3,ピッチ情報特定部40)として機能する。なお、音響信号A[a]の処理に専用される電子回路(DSP)がCPU12の各要素を実現する構成や、CPU12の各要素を複数の集積回路に分散的に搭載した構成も採用され得る。
低音域エンベロープ生成部30−1は「20Hz〜200Hz」の低音域について、音響信号A[a]から第1のエンベロープを生成する。中音域エンベロープ生成部30−2は「100Hz〜1000Hz」の中音域について、音響信号A[a]から第2のエンベロープを生成する。高音域エンベロープ生成部30−3は「700Hz〜5000Hz」の高音域について、音響信号A[a]から第3のエンベロープを生成する。低音域と中音域とは一部が互いに重なっており、中音域と高音域とは一部が互いに重なっている。換言すると、中音域は低音域よりも周波数が高い音域を含み、高音域は中音域よりも周波数が高い音域を含む。
ピッチ情報生成装置100に供給された音響信号A[a]は周波数特性調整部20、中音域エンベロープ生成部30−2、及び高音域エンベロープ生成部30−3のそれぞれに供給される。周波数特性調整部20は、音響信号A[a]のうち、低音域(20Hz〜200Hz)の一部又は全部に対応する周波数成分を強調する処理を音響信号A[a]に対して施して低音域エンベロープ生成部30−1に供給する。周波数特性調整部20としては、例えばローパスフィルターやハイカットフィルターが例示される。
図5は、各エンベロープ生成部の機能ブロック図である。各低音域エンベロープ生成部30−1、中音域エンベロープ生成部30−2、及び高音域エンベロープ生成部30−3(以下の説明において、適宜「エンベロープ生成部30」と総称する)は、音響信号A[a]の各ピークでの強度aから経時的に変化する検出値(e_p,e_n)の時系列から成るエンベロープを生成する。各エンベロープ生成部30は、正側エンベロープ生成部32と負側エンベロープ生成部34とで構成される。以下の説明において、添字「_p」が付加された符号は正側エンベロープ生成部32(正数の強度a)に関する要素を意味し、添字「_n」が付加された符号は負側エンベロープ生成部34(負数の強度a)に関する要素を意味する。
図6は、各エンベロープ生成部30の動作を説明するためのタイミングチャートである。図6に示すように、正側エンベロープ生成部32は、音響信号A[a]のうち強度aが正数であるピークK_p(より正確には、ピークK_pに応じた検出値)から変化度Rで減衰する正側エンベロープ(検出値e_pの時系列)を生成する。一方、負側エンベロープ生成部34は、音響信号A[a]のうち強度aが負数であるピークK_n(より正確には、ピークK_nに応じた検出値)から変化度Rで減衰する負側エンベロープ(検出値e_nの時系列)を生成する。
図5に示すように、高音域エンベロープ生成部30−3の正側エンベロープ生成部32は、ゲイン付与部50と比較部52と遅延部54と基準値算定部56とを含んで構成される。ゲイン付与部50は、音響信号A[a]のうち正数である強度aに係数E3を乗算して出力する。基準値算定部56は基準値x_pを順次に算定する。比較部52は、基準値算定部56が算定した基準値x_pと、ゲイン付与部50から出力される音響信号A[a]の強度aとを順次に比較し、基準値x_pおよび強度aのうちの大きい方を検出値e_pとして選択する。したがって、図6に示すように、音響信号A[a]の正側のピークK_pにて強度aが基準値x_pを上回る区間Q1_p内では強度aが検出値e_pとして順次に選択され、基準値x_pが強度aを上回る区間Q2_p内では基準値x_pが検出値e_pとして順次に選択され、ピッチ情報特定部40に供給される。図5に示すように、検出値e_pは、遅延部54にて所定長(例えば音響信号A[a]の1サンプル分の時間)だけ遅延されたうえで基準値算定部56に供給される。
基準値算定部56は、比較部52が順次に選択する検出値e_pと変化度R3とから基準値x_pを算定する。さらに詳述すると、基準値算定部56は、検出値e_pと変化度R3との乗算値を基準値x_pとして順次に算定する乗算器である。変化度R3は1を下回る正数に設定される。したがって、基準値x_pが強度aを上回る図6の区間Q2_p内において、比較部52による検出値e_p(基準値x_p)は、音響信号A[a]の正側のピークK_pの強度a(極大値)から変化度R3に応じた速度で経時的に減衰する。変化度R3が大きい(1に近い)ほど検出値e_pの経時的な変化は急峻となり、変化度R3が小さいほど検出値e_pの経時的な変化は緩慢となる。換言すると、変化度R3は、検出値e_pの単位時間あたりの変化の度合い(すなわち、変化速度)を示すものとして捉えられる。
負側エンベロープ生成部34は、正側エンベロープ生成部32と同様に、ゲイン付与部50と比較部52と遅延部54と基準値算定部56とを含んで構成される。ただし、各数値の大小や正負の関係が正側エンベロープ生成部32とは逆転する。さらに詳述すると、負側処理部34の基準値算定部56が算定する基準値x_nは負数であり、基準値x_nおよび音響信号A[a]の強度aのうちの小さい方(絶対値が大きい方)を比較部52が検出値e_nとして順次に選択する。すなわち、図6に示すように、音響信号A[a]の負側のピークK_nにて強度aが基準値x_nを下回る区間Q1_n内では強度aが検出値e_nとして選択され、基準値x_nが強度aを下回る区間Q2_n内では基準値x_nが検出値e_nとして選択される。変化度R3は正側エンベロープ生成部32と共通(1を下回る正数)である。よって、図6の区間Q2_n内において、検出値e_n(基準値x_n)は、音響信号A[a]の負側のピークK_nの強度a(極小値)から変化度R3に応じた速度で経時的に減衰する。
中音域エンベロープ生成部30−2や低音域エンベロープ生成部30−1は、図5に示す高音域エンベロープ生成部30−3と同様の構成を有する。ただし、各中音域エンベロープ生成部30−2及び低音域エンベロープ生成部30−1は、高音域エンベロープ生成部30−3においてエンベロープの生成に用いる変化度R3とは異なる変化度R2,R1をそれぞれ用いる。詳述すると、中音域エンベロープ生成部30−2の正側エンベロープ生成部32(又は負側エンベロープ生成部34)の基準値算定部56が用いる変化度R2は、高音域エンベロープ生成部30−3の正側エンベロープ生成部32(又は負側エンベロープ生成部34)の基準値算定部56が用いる変化度R3よりも小さい。また、低音域エンベロープ生成部30−1の正側エンベロープ生成部32(又は負側エンベロープ生成部34)の基準値算定部56が用いる変化度R1は、中音域エンベロープ生成部30−2の正側エンベロープ生成部32(又は負側エンベロープ生成部34)の基準値算定部56が用いる変化度R2よりもさらに小さい(すなわち、R3>R2>R1)。このように、各変化度R1,R2,R3は、各エンベロープ生成部30の担当音域(低音域、中音域、又は高音域)に応じて設定されている。
また、各低音域エンベロープ生成部30−1及び中音域エンベロープ生成部30−2の各ゲイン付与部50は、高音域エンベロープ生成部30−3のゲイン付与部50で音響信号A[a]の強度aに対して乗算される係数E3とは異なる係数E1,E2を用いる。本実施形態では、各低音域エンベロープ生成部30−1において正側エンベロープ生成部32(又は負側エンベロープ生成部34)のゲイン付与部50が用いる係数E1と、中音域エンベロープ生成部30−2において正側エンベロープ生成部32(又は負側エンベロープ生成部34)のゲイン付与部50が用いる係数E2はいずれも「1」に設定され、高音域エンベロープ生成部30−3において正側エンベロープ生成部32(又は負側エンベロープ生成部34)のゲイン付与部50が用いる係数E3は、「1」よりも小さい正数に設定される(E3<E1=E2=1)。周波数が高い音域では、周波数が低い音域と比較して音響信号A[a]のピークが不安定となりがちである。本実施形態では、周波数が高い音域について、周波数が低い音域についてするよりも絶対値が小さい係数でピークK_pに応じた検出値を生成する(すなわちゲインを小さくする)ので、音響信号A[a]の波形のピークのバラツキが抑制されるという利点がある。
このように、各低音域エンベロープ生成部30−1、中音域エンベロープ生成部30−2、及び高音域エンベロープ生成部30−3は、異なる変化度R1,R2,R3と異なる係数E1,E2,E3をそれぞれ用いるから、同じ音響信号A[a]が入力された場合にも、各低音域エンベロープ生成部30−1から出力される第1のエンベロープと、中音域エンベロープ生成部30−2から出力される第2のエンベロープと、高音域エンベロープ生成部30−3から出力される第3のエンベロープとは異なるものとなる。
図7は、周波数が高い音響信号AH[a]を中音域エンベロープ生成部30−2に入力した場合(A)と、同じく周波数が高い音響信号AH[a]を高音域エンベロープ生成部30−3に入力した場合(B)を対比して示すタイミングチャートである。図7(B)では、図示の便宜上、音響信号AH[a]の強度aの時系列を示す波形を「点線AH[a]」として表し、ゲイン付与部50から出力される強度aの時系列を示す波形を「実線AH[a’]」として表す。一方、中音域エンベロープ生成部30−2では、係数E2が「1」であるので、図7(A)では、音響信号AH[a]を単に「実線AH[a]」として表す。
図7に示すように、周波数が高い音響信号AH[a]は、目標とするピッチに対応する周期で発生するピークK_pが不安定となりがちである。このため、ピークK_pから変化度R2で緩やかに減衰するエンベロープを生成する中音域エンベロープ生成部30−2に音響信号AH[a]を入力した場合には、図7(A)に示すように、ピークK_pをすべて掴むエンベロープを生成することができない。一方、変化度R2よりも大きい変化度R3でピークに応じた検出値K_p’から急峻に減衰するエンベロープを生成する高音域エンベロープ生成部30−3に音響信号AH[a]を入力した場合には、図7(B)に示すように、すべてのピークに応じた検出値K_p’を漏れなく掴むことができる。このように、周波数が高い音響信号AH[a]からエンベロープを生成するには、中音域エンベロープ生成部30−2よりも高音域エンベロープ生成部30−3を用いた方が、音響信号AH[a]のピッチ情報D[PA]をより高精度に検出することができる。
これに対して、図8は、音響信号AH[a]よりも周波数が低い音響信号AM[a]を高音域エンベロープ生成部30−3に入力した場合(A)と、音響信号AM[a]を中音域エンベロープ生成部30−2に入力した場合(B)を対比して示すタイミングチャートである。図8(A)では、図示の便宜上、音響信号AM[a]の強度aの時系列を示す波形を「点線AM[a]」として表し、ゲイン付与部50から出力される強度aの時系列を示す波形を「実線AM[a’]」として表す。一方、中音域エンベロープ生成部30−2では、係数E2が「1」であるので、図8(B)では、音響信号AM[a]を単に「実線AM[a]」として表す。
図8に示すように、音響信号AM[a]は、本来の目標になるピッチに対応する周期で発生するピークK_pの他に、倍音に対応して周期で発生するピークH_p(倍音のピークに応じた検出値H_p’)が発生する。このため、ピークに応じた検出値K_p’から変化度R3で急峻に減衰するエンベロープを生成する高音域エンベロープ生成部30−3に音響信号AM[a]を入力した場合には、図8(A)に示すように、倍音に対応するピークに応じた検出値H_p’が合わせて検出されてしまい、目標になるピッチに対応するピークに応じた検出値K_p’だけを包絡するエンベロープを生成することができない。これに対して、ピークK_pから変化度R3よりも小さな変化度R2で緩やかに減衰するエンベロープを生成する中音域エンベロープ生成部30−2に音響信号AM[a]を入力した場合には、図8(B)に示すように、倍音に対応するピークH_pが検出されないため、目標とするピッチに対応するピークK_pだけを包絡するエンベロープを生成することができる。このように、音響信号AHよりも周波数が低い音響信号AM[a]からエンベロープを生成するには、高音域エンベロープ生成部30−3よりも中音域エンベロープ生成部30−2を用いた方が、音響信号AM[a]のピッチ情報D[PA]をより高精度に検出することができる。
ピアノの最低音(88鍵のピアノの場合27.5Hz)に近い音域の音響信号A[a]は、基音が弱く、倍音が多く含まれるという性質がある。このため、本来の目標になる基音に対応したピッチを表すエンベロープを生成することが倍音の影響で困難な場合がある。そこで、本実施形態では、周波数特性調整部20を設けることにより、音響信号A[a]のうち、低音域に対応する周波数成分の一部又は全部を強調する処理を音響信号A[a]に対して施したうえで低音域エンベロープ生成部30−1に供給する。
図9は、周波数が低い音域の音響信号AL[a]が周波数特性調整部20による処理を経ることなく低音域エンベロープ生成部30−1に供給された場合(A)と、音響信号AL[a]が周波数特性調整部20による処理を経た後に低音域エンベロープ生成部30−1に供給された場合(B)を対比して示すタイミングチャートである。図9(A)に示すように、周波数が低い音域の音響信号AL[a]は、ピッチPAに対応する周期に倍音に対応するピークH_pを多数含み、本来の目標になる基音に対応するピークK_pが現われにくい。このため、音響信号AL[a]が周波数特性調整部20を通ることなく低音域エンベロープ生成部30−1に供給された場合には、ピークK_pを漏れなく包絡したエンベロープを生成できない場合がある。また、倍音に対応するピークH_pが誤検出される可能性もある。一方、図9(B)に示すように、音響信号AL[a]が周波数特性調整部20による処理を経た後に低音域エンベロープ生成部30−1に供給された場合には、本来の目標とするピッチの周波数成分に対応した周期が分かり易く現われる。すなわち、基音に対応する周波数成分が強調され、倍音に対応する周波数成分が抑制される。よって、周波数特性調整部20を低音域エンベロープ生成部30−1に設けることにより、周波数が低い音域の音響信号AL[a]のピッチ情報D[PA]をより高精度に検出することができる。
次にピッチ情報特定部40について説明する。図4に示すように、ピッチ情報特定部40は、第1ピッチ情報生成部41-1と第2ピッチ情報生成部41-2と第3ピッチ情報生成部41-3と選択部42とを具備して構成される。第1ピッチ情報生成部41-1、第2ピッチ情報生成部41-2、及び第3ピッチ情報生成部41-3はそれぞれ低音域エンベロープ生成部30−1、中音域エンベロープ生成部30−2、及び高音域エンベロープ生成部30−3から出力された各エンベロープに基づき、音響信号A[a]のピッチPAを特定可能な場合には、第1のピッチ情報D[PA1]、第2のピッチ情報D[PA2]、及び第3のピッチ情報D[PA3]をそれぞれ生成する。
次に、ピッチ情報生成処理について説明する。ピッチ情報生成処理は、CPU12の機能要素としての第1乃至第3ピッチ情報生成部41-1乃至41-3が実行する処理である。
図10は、第3ピッチ情報生成部41-3が実行するピッチ情報生成処理のフローチャートである。図10に示すように、まず第3ピッチ情報生成部41-3は、高音域エンベロープ生成部30−3から供給された第3のエンベロープ(検出値e_p,e_n)から第3のピッチ情報D[PA3]を特定する(S1)。例えば図6に示すように、第3ピッチ情報生成部41-3は、正側の検出値e_pがピークK_pから減衰して、検出値e_pと音響信号A[a]の強度aとの大小関係が反転する交点I_p(すなわち正側の第3のエンベロープと音響信号A[a]の交点)を特定し、各交点I_pの間隔(音響信号A[a]の周期)から音響信号A[a]のピッチPA3_pを特定する。同様に、第3ピッチ情報生成部41-3は、負側の検出値e_nがピークK_nから減衰して、検出値e_nと音響信号A[a]の強度aとの大小関係が反転する交点I_n(すなわち負側の第3のエンベロープと音響信号A[a]の交点)を特定し、各交点I_nの間隔(音響信号A[a]の周期)から音響信号A[a]のピッチPA3_nを特定する。そして、第3ピッチ情報生成部41-3は、ピッチPA3_pとピッチPA3_nとから確定的なピッチPA3を特定する。例えば、ピッチPA3_pおよびピッチPA3_nのうち大きい方をピッチPA3として特定する方法や、ピッチPA3_pとピッチPA3_nとの平均値をピッチPA3として特定する方法が好適である。
続いて第3ピッチ情報生成部41-3は、特定したピッチPA3が所定の音域内にあるか否かを判定する(S2)。具体的には、第3ピッチ情報生成部41-3は、特定したピッチPA3が高音域「700Hz〜5000Hz」の範囲内にあるか否かを判定する。この判定条件が充足される場合には(S2:YES)、第3ピッチ情報生成部41-3は、ピッチPA3を示す第3のピッチ情報D[PA3]を出力する(S3)。一方、判定条件が充足されない場合には(S2:NO)、ステップS1に戻り、以降の処理を再び実行する。
上述したように、高音域エンベロープ生成部30−3は、高音域の音響信号AH[a]のエンベロープを高精度に生成可能な機能要素である。よって、高音域エンベロープ生成部30−3に供給された音響信号A[a]が仮に中音域の音響信号AM[a]である場合には、第3ピッチ情報生成部41-3が特定したピッチPA3は低精度のものとなる可能性がある。このため、第3ピッチ情報生成部41-3は、ピッチPA3が高音域「700Hz〜5000Hz」の範囲内にある場合にのみ、当該ピッチPA3を示す第3のピッチ情報D[PA3]を選択部42に供給する。すなわち、第3ピッチ情報生成部41-3は、第3のエンベロープに基づいてピッチPA3を特定可能な場合、音響信号A[a]のピッチPA3を示す第3のピッチ情報D[PA3]を生成する。
第1ピッチ情報生成部41-1と第2ピッチ情報生成部41-2も同様に、ピッチPA1とピッチPA2をそれぞれ生成し、生成したピッチが所定の音域内にあるか否かを判定する(第1ピッチ情報生成部41-1はピッチPA1が低音域「20Hz〜200Hz」の範囲内にあるか否かを判定する。第2ピッチ情報生成部41-2はピッチPA2が中音域「100Hz〜1000Hz」の範囲内にあるか否かを判定する)。各第1ピッチ情報生成部41-1及び第2ピッチ情報生成部41-2は、各ピッチPA1及びピッチPA2がそれぞれ所定の音域内にある場合にのみ、ピッチPA1を示す第1のピッチ情報D[PA1]及びピッチPA2を表す第2のピッチ情報D[PA2]をそれぞれ選択部42に供給する。すなわち、第1ピッチ情報生成部41-1は、第1のエンベロープに基づいてピッチPA1を特定可能な場合、音響信号A[a]のピッチを示す第1のピッチ情報D[PA1]を生成する。また、第2ピッチ情報生成部41-2は、第2のエンベロープに基づいてピッチPA2を特定可能な場合、音響信号A[a]のピッチを示す第2のピッチ情報D[PA2]を生成する。
図11は、選択処理のフローチャートである。選択処理は、CPU12の機能要素としての選択部42が実行する処理である。図11に示すように、まず選択部42は、供給されたピッチ情報の個数が「2」であるか否かを判定する(S11)。上述したように、低音域「20Hz〜200Hz」と中音域「100Hz〜1000Hz」とは一部が互いに重なっており、中音域「100Hz〜1000Hz」と高音域「700Hz〜5000Hz」とは一部が互いに重なっている。よって、音響信号A[a]のピッチPAが例えば100Hz〜200Hzの範囲内にある場合、第1ピッチ情報生成部41-1が生成した第1のピッチ情報D[PA1]と第2ピッチ情報生成部41-2が生成した第2のピッチ情報D[PA2]の2つが選択部42に対して供給される。一方、音響信号A[a]のピッチPAが各音域の非重複部分にある場合、選択部42には第1ピッチ情報生成部41-1が生成した第1のピッチ情報D[PA1]、第2ピッチ情報生成部41-2が生成した第2のピッチ情報D[PA2]、又は第3ピッチ情報生成部41-3が生成した第3のピッチ情報D[PA3]のいずれか1つが供給される。
ステップS11の判定条件が充足されない場合(S11:NO)、すなわち供給されたピッチ情報の個数が「1」である場合、選択部42は当該1のピッチ情報を確定的なピッチ情報D[PA]として出力する(S13)。
一方、ステップS11の判定条件が充足される場合(S11:YES)、すなわち供給されたピッチ情報の個数が「2」である場合、選択部42は当該2つのピッチ情報のうちより高音域を担当するピッチ情報生成部41が出力したピッチ情報D[PA]を選択する(S12)。具体的には、第1ピッチ情報生成部41-1が生成した第1のピッチ情報D[PA1]と第2ピッチ情報生成部41-2が生成した第2のピッチ情報D[PA2]の2つが選択部42に供給された場合、選択部42は第2のピッチ情報D[PA2]を選択する。また、第2ピッチ情報生成部41-2が生成した第2のピッチ情報D[PA2]と第3ピッチ情報生成部41-3が生成した第3のピッチ情報D[PA3]の2つが選択部42に供給された場合、選択部42は第3のピッチ情報D[PA3]を選択する。
エンベロープの波形の変化の度合いが大きいほど(すなわち変化度Rが大きいほど)応答速度が速く音響信号の次のピークK_pを捉えやすいから、同じ音域であればより大きい変化度Rを用いるエンベロープ生成部30の方がより高精度にピッチ情報を生成可能である。そこで、本実施形態では、重なる音域において2つのピッチ情報D[PA]が特定可能な場合には、ピッチ情報D[PA]の基となるエンベロープの生成に用いた変化度Rがより大きいピッチ情報D[PA]を選択する。また、仮に、音域を排他的に設定したとすると、エンベロープ生成部30が担当する音域の上限近傍や下限近傍の周波数では、波形によってはピークを正確に掴むことができず、ピッチ情報生成部41がピッチ情報を出力できないことがあり得る。隣り合う2つの音域を重複するように割り当てることによって、一方のピッチ情報生成部41がピッチ情報を生成不能な場合であっても、他方のピッチ情報生成部41でピッチ情報を生成可能な場合、ピッチ情報D[PA]を生成することができる。
続いて選択部42は、選択したピッチ情報を確定的なピッチ情報D[PA]として出力した後(S13)、ステップS11に戻り、新たなピッチ情報D[PA]について選択処理を再び実行する。
以上の処理ののち、表示部13の表示画面Fにおいては、選択部42が出力したピッチ情報D[PA]が示すピッチPAに対応するキーナンバが「KEY No.」に表示され、キーナンバに対応するオクターブと音名が「OCT-NOTE」に表示される。ピアノの調律において、調律師がある鍵盤キーを押し下げることによって得られるピアノ演奏音の音響信号のピッチは、当該鍵盤キーに対応する正規の周波数からずれているが、この範囲は正規の周波数に対して±1%程度なので、隣の鍵盤キーの正規の周波数までずれることはない。したがって、検出されたピッチから調律の目標とする目標周波数を特定し、目標周波数に対応するキーナンバを特定することができる。操作者は、調律対象キーを押し下げする度ごとに出力されるピッチ情報D[PA]が示すピッチPAと、自動的に設定された目標周波数とが一致するように(すなわち表示画面Fのインジケータ132が停止するように)、調律対象キーを調律する。操作者が現在の調律対象キーの調律を終えて別の調律対象キーを押し下げし新たな音響を発音せしめると、この音響信号A[a]についてピッチ情報D[PA]が新たに生成されて目標周波数が特定される。表示画面Fにおいては、「KEY No.」に表示されるキーナンバと、「OCT-NOTE」に表示されるオクターブと音名が、新たに特定された目標周波数に応じたものに切り替わる。操作者はインジケータ132を見ながら調律対象キーを発音させ、インジケータ132が停止するように、調律対象キーを調律する。
以上説明したように、本実施形態にかかるピッチ情報生成装置100によれば、音響信号A[a]のピークK_pに応じた検出値から、音域に応じた変化度Rで減衰するエンベロープを生成してピッチ情報を特定するから、広い音域についてのピッチ情報を少ない演算量で高精度に生成することが可能である。
また、調律対象キーに対応するキーナンバ等が自動的に設定されるので、調律対象キーのキーナンバを操作入力部133から入力して設定する場合と比較して、調律対象キーの設定にかかる煩わしさが除去される。
<変形例>
以上に例示した形態には様々な変形が加えられる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から2以上の態様を任意に選択して組合せてもよい。
(1)変形例1
基準値算定部56が変化度Rと検出値e(e_p,e_n)とから基準値x(x_p,x_n)を算定する方法は適宜に変更される。よって例えば、正側の検出値e_pから変化度を減算することで基準値x_pを算定する構成や、負側の検出値e_nに変化度を加算することで基準値x_nを算定する構成が採用される。すなわち、変化度に応じた速度で減衰する(正側の基準値x_pが減少し、または負側の基準値x_nが増加する)ように基準値xが算定される構成であれば、基準値xを算定する具体的な方法は本発明において任意である。そして、より周波数が高い音域を担当するエンベロープ生成部30ほど、基準値xの変化の速度が高くなるように変化度を設定する構成が好適である。
また、上述した実施形態で説明した変化度Rは、遅延部54の出力に乗算する係数として与えられたが、本発明はこれに限定されるものではなく、エンベロープの時間当たりの変化の度合いを示す指標であればいかなるものであってもよい。例えば、変化度は、いわゆる時定数であってもよいし、あるいは、エンベロープを直線的に変化させる場合には、その傾きであってもよい。
(2)変形例2
上記実施形態では、各エンベロープ生成部30は1つの変化度Rを用いるが、2以上の変化度Rを用いる態様も採用される。例えば、ゲイン付与部50の作用によってピークK_p,K_nに応じた値(絶対値)が音響信号A[a]の強度aよりも小さいものとなる場合、ピークK_p,K_nに応じた値から減衰するエンベロープが音響信号Aの波形A[a]と交差したタイミングで(すなわち、エンベロープの検出値e_p,e_n(絶対値)が音響信号Aの強度aを超えたタイミングで)、エンベロープの変化速度がより遅くなる(すなわち緩やかに減衰する)別の変化度Rに切り替えるのが好適である。この態様によれば、エンベロープが急峻に減衰するものから緩やかに減衰するものに切り替わるので、本来の目標となる基音のピークとは別個のピーク(倍音や雑音等によって生じた別個のピーク)を誤検出する可能性が軽減される。
(3)変形例3
以上の各形態においては各エンベロープ生成部30を正側エンベロープ生成部32と負側処理部34とで構成したが、各エンベロープ生成部30が正側エンベロープ生成部32および負側エンベロープ生成部34の一方のみを具備する構成も好適である。例えば、各エンベロープ生成部30が正側エンベロープ生成部32のみを具備する構成では、正側の検出値e_pから検出される各交点I_pの間隔から音響信号AのピッチPAが特定される。
(4)変形例4
ピッチ情報D[PA]は、音響信号AのピッチPAに関連する情報という意味であり、以上の形態における音響信号AのピッチPA(周波数)には限定されない。例えば、ピッチPAに対応する周期(ピッチ周期[すなわち時間])やピッチPAに対応するキーナンバをピッチ情報Dとして特定する構成も好適である。
(5)変形例5
上記実施形態では、ピッチ情報生成の対象である音域を低音域「20Hz〜200Hz」、中音域「100Hz〜1000Hz」、高音域「700Hz〜5000Hz」の3音域に区分するが、これに限定されず、2音域に区分してもよく、4以上の音域に区分してもよい。よって、エンベロープ生成部30及びピッチ情報生成部41の各個数は、2個であってもよく、4個以上であってもよい。また、音域の一部が互いに重ならなくてもよい。この場合には選択部42は設けずともよい。
すなわち、本発明のピッチ情報生成装置は、「第1の音域」と、「第1の音域」よりも周波数が高い音域を含む「第2の音域」にそれぞれ対応する少なくとも2つのエンベロープ生成部を具備すればよい。また、「第1の音域」と「第2の音域」とが隣り合う(すなわち連続する)構成は必須ではない。すなわち、ピッチ情報生成の対象とする音域を3つの音域(例えば低音域、中音域、高音域)に区分した場合において、「第1の音域」は低音域であってもよく、この場合には、「第2の音域」が中音域又は高音域であってもよい。また、「第1の音域」が中音域であってもよく、この場合には「第2の音域」は高音域であってもよい。
例えば、中音域を「第1の音域」、高音域を「第2の音域」とした場合、実施形態の中音域エンベロープ生成部30−2は、第1の音域について、音響信号のピークに応じた検出値から第1の変化度で減衰する第1のエンベロープを生成する第1エンベロープ生成部として機能し、高音域エンベロープ生成部30−3は、第2の音域について、音響信号のピークに応じた検出値から第2の変化度で減衰する第2のエンベロープを生成する第2エンベロープ生成部として機能する。同様に、実施形態の第2ピッチ情報生成部41−2は、第1のエンベロープに基づいてピッチを特定可能な場合、音響信号のピッチを示す第1のピッチ情報を生成する第1ピッチ情報生成部として機能し、第3ピッチ情報生成部41−3は、第2のエンベロープに基づいてピッチを特定可能な場合、音響信号のピッチを示す第2のピッチ情報を生成する第2ピッチ情報生成部として機能する。
また、各音域の上限周波数及び下限周波数は一例であり、本発明の効果を損なわない範囲内で適宜変更され得る。
(6)変形例6
ゲイン付与部50を各低音域エンベロープ生成部30−1、中音域エンベロープ生成部30−2、高音域エンベロープ生成部30−3にそれぞれ具備させる構成は適宜変更される。例えば、高音域エンベロープ生成部30−3(2音域に区分した場合には、周波数がより高い音域を担当するエンベロープ生成部30、4以上の音域に区分した場合は、最も高い音域を担当するエンベロープ生成部30を含む1以上のエンベロープ生成部30)だけにゲイン付与部50を具備させる構成が好適である。また、いずれのエンベロープ生成部30もゲイン付与部50を具備しない構成も採用される。また、周波数特性調整部20を具備しない構成も採用される。
また、上記実施形態では、各エンベロープ生成部30のゲイン付与部50で用いられる係数を「E3<E1=E2=1」とするが、本発明の効果を損なわない範囲内で適宜変更され得る。
(7)変形例7
上記実施形態では、エンベロープと音響信号A[a]との各交点I_p,I_nの間隔からピッチPAを特定するが、代わりに、各ピークK_pの間隔からピッチPAを特定する構成も採用される。また、各エンベロープ生成部30は、音響信号A[a]のピークKから変化度Rに応じた速度で経時的に検出値eが減衰する(すなわち、音響信号A[a]のエンベロープの傾斜が変化度Rに応じて制御される)ように検出値eの時系列を特定する要素として包括され、実施形態の基準値xと強度aとの比較は必須の要件ではない。
(8)変形例8
上記実施形態では、選択部42が出力した確定的なピッチ情報D[PA]に基づいて、調律対象キーに対応するキーナンバ等が自動的に設定されるが、調律対象キーのキーナンバを操作者が操作入力部133から入力して設定する構成としてもよい。この場合であっても、選択部42が出力した確定的なピッチ情報D[PA]と、設定したキーナンバに対応する目標周波数との位相関係がインジケータ132に表示されるから、高精度に検出されたピッチ情報に基づく調律が可能である。
(9)変形例9
本発明にかかるピッチ情報生成装置はピアノの楽音に限らず他の楽器の楽音や歌声などのピッチの検出にも適用され得る。また、ピッチ情報生成装置100は、スマートフォンやその他のタブレット端末に限らず、デスクトップ型パーソナルコンピュータ、ノート型パーソナルコンピュータ、UMPC(Ultra-Mobile Personal Computer)、携帯用ゲーム機等でもよい。
100……ピッチ情報生成装置、12……CPU、13……表示部、14……記憶部、20……周波数特性調整部、30-1……低音域エンベロープ生成部、30-2……中音域エンベロープ生成部、30-3……高音域エンベロープ生成部、32……正側エンベロープ生成部、34……負側エンベロープ生成部、40……ピッチ情報特定部、41-1……第1ピッチ情報生成部、41-2……第2ピッチ情報生成部、41-3……第3ピッチ情報生成部、42……選択部、50……ゲイン付与部、52……比較部、54……遅延部、56……基準値算定部。

Claims (6)

  1. 音響信号のピッチを示すピッチ情報を生成するピッチ情報生成装置であって、
    第1の音域について、前記音響信号のピークに応じた検出値から第1の変化度で減衰する第1のエンベロープを生成する第1エンベロープ生成部と、
    前記第1の音域よりも周波数の高い音域を含む第2の音域について、前記音響信号のピークに応じた検出値から前記第1の変化度より単位時間あたりの変化の度合いが大きい第2の変化度で減衰する第2のエンベロープを生成する第2エンベロープ生成部と、
    前記第1のエンベロープと前記第2のエンベロープとに基づいて、前記ピッチ情報を特定するピッチ情報特定部と、
    を備えたピッチ情報生成装置。
  2. 前記第1の音域に対応する周波数成分を強調する処理を前記音響信号に施して前記第1エンベロープ生成部に供給する周波数特性調整部を備えた請求項1に記載のピッチ情報生成装置。
  3. 前記第1エンベロープ生成部は、前記音響信号に第1係数を乗算して前記ピークに応じた検出値を生成し、
    前記第2エンベロープ生成部は、前記音響信号に第2係数を乗算して前記ピークに応じた検出値を生成し、
    前記第2係数は前記第1係数よりも小さい、
    ことを特徴とする請求項1又は請求項2に記載のピッチ情報生成装置。
  4. 前記第1の音域と前記第2の音域とは一部が互いに重なっており、
    前記ピッチ情報特定部は、
    前記第1のエンベロープに基づいてピッチを特定可能な場合、前記音響信号のピッチを示す第1のピッチ情報を生成する第1ピッチ情報生成部と、
    前記第2のエンベロープに基づいてピッチを特定可能な場合、前記音響信号のピッチを示す第2のピッチ情報を出力する第2ピッチ情報生成部と、
    前記第1のピッチ情報が生成され、前記第2のピッチ情報が生成されなかった場合、前記第1のピッチ情報を前記ピッチ情報として出力し、前記第2のピッチ情報が生成され、前記第1のピッチ情報が生成されなかった場合、前記第2のピッチ情報を前記ピッチ情報として出力し、
    前記第1のピッチ情報及び前記第2のピッチ情報が生成された場合、前記第2のピッチ情報を前記ピッチ情報として出力する選択部とを備える、
    ことを特徴とする請求項1乃至3のうちいずれか1項に記載のピッチ情報生成装置。
  5. 音響信号のピッチを示すピッチ情報を生成するピッチ情報生成方法であって、
    第1の音域について、前記音響信号のピークに応じた検出値から第1の変化度で減衰する第1のエンベロープを生成し、
    前記第1の音域よりも周波数の高い音域を含む第2の音域について、前記音響信号のピークに応じた検出値から前記第1の変化度より単位時間あたりの変化の度合いが大きい第2の変化度で減衰する第2のエンベロープを生成し、
    前記第1のエンベロープと前記第2のエンベロープとに基づいて、前記ピッチ情報を特定する、
    ことを特徴するピッチ情報生成方法。
  6. 音響信号のピッチを示すピッチ情報を生成するプログラムであって、
    コンピュータを、
    第1の音域について、音響信号のピークに応じた検出値から第1の変化度で減衰する第1のエンベロープを生成する第1エンベロープ生成部と、
    前記第1の音域よりも周波数の高い音域を含む第2の音域について、前記音響信号のピークに応じた検出値から前記第1の変化度より単位時間あたりの変化の度合いが大きい第2の変化度で減衰する第2のエンベロープを生成する第2エンベロープ生成部と、
    前記第1のエンベロープと前記第2のエンベロープとに基づいて、前記ピッチ情報を特定するピッチ情報特定部と、
    して機能させるプログラム。
JP2014093734A 2014-04-30 2014-04-30 ピッチ情報生成装置、ピッチ情報生成方法、及びプログラム Active JP6225818B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2014093734A JP6225818B2 (ja) 2014-04-30 2014-04-30 ピッチ情報生成装置、ピッチ情報生成方法、及びプログラム
PCT/JP2015/062968 WO2015166981A1 (ja) 2014-04-30 2015-04-30 ピッチ情報生成装置、ピッチ情報生成方法、プログラム、及びコンピュータ読み取り可能な記録媒体
US15/336,123 US10242697B2 (en) 2014-04-30 2016-10-27 Pitch information generation device, pitch information generation method, and computer-readable recording medium therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014093734A JP6225818B2 (ja) 2014-04-30 2014-04-30 ピッチ情報生成装置、ピッチ情報生成方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2015210480A JP2015210480A (ja) 2015-11-24
JP6225818B2 true JP6225818B2 (ja) 2017-11-08

Family

ID=54358705

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014093734A Active JP6225818B2 (ja) 2014-04-30 2014-04-30 ピッチ情報生成装置、ピッチ情報生成方法、及びプログラム

Country Status (3)

Country Link
US (1) US10242697B2 (ja)
JP (1) JP6225818B2 (ja)
WO (1) WO2015166981A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6904198B2 (ja) * 2017-09-25 2021-07-14 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
KR102124326B1 (ko) * 2018-03-16 2020-06-19 주식회사 잼이지 센서기반으로 사운드를 발생시키는 악기 연주음 검출장치
CN109192218B (zh) * 2018-09-13 2021-05-07 广州酷狗计算机科技有限公司 音频处理的方法和装置
US11804201B2 (en) * 2019-04-26 2023-10-31 Roland Corporation Tuning device and tuning method

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01101600A (ja) * 1987-10-14 1989-04-19 Matsushita Electric Ind Co Ltd ピッチ周期抽出方法
JP3419175B2 (ja) * 1995-09-29 2003-06-23 ヤマハ株式会社 エンベロープ検出方法
JP3945905B2 (ja) * 1998-04-28 2007-07-18 株式会社コルグ ピッチ検出装置
JP4210934B2 (ja) * 2003-04-22 2009-01-21 ヤマハ株式会社 音高抽出装置およびプログラム
US7102072B2 (en) 2003-04-22 2006-09-05 Yamaha Corporation Apparatus and computer program for detecting and correcting tone pitches
JP4207902B2 (ja) * 2005-02-02 2009-01-14 ヤマハ株式会社 音声合成装置およびプログラム
JP4645241B2 (ja) * 2005-03-10 2011-03-09 ヤマハ株式会社 音声処理装置およびプログラム
US8620646B2 (en) * 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope

Also Published As

Publication number Publication date
US10242697B2 (en) 2019-03-26
US20170047083A1 (en) 2017-02-16
WO2015166981A1 (ja) 2015-11-05
JP2015210480A (ja) 2015-11-24

Similar Documents

Publication Publication Date Title
JP6391265B2 (ja) 電子鍵盤楽器
JP6225818B2 (ja) ピッチ情報生成装置、ピッチ情報生成方法、及びプログラム
JP4470823B2 (ja) 音名検出器及びプログラム
JP5454317B2 (ja) 音響解析装置
JP6690181B2 (ja) 楽音評価装置及び評価基準生成装置
JP6554850B2 (ja) 電子鍵盤楽器、共鳴音発生装置、方法、プログラムおよび電子楽器
JP2007108070A (ja) 信号処理装置、信号処理方法、及びコンピュータプログラム
JP6543895B2 (ja) 効果付加装置、方法、およびプログラム、電子楽器
JP2015200685A (ja) アタック位置検出プログラムおよびアタック位置検出装置
CN111415681B (zh) 一种基于音频数据确定音符的方法及装置
EP3757984B1 (en) Electronic musical instrument, method and program
JP2019057889A5 (ja)
JP5169753B2 (ja) 共鳴音付加装置および電子楽器
JP6716921B2 (ja) 信号処理装置、プログラム、及び、方法
JP2021056295A (ja) 楽曲解析装置、楽曲解析方法、および楽曲解析プログラム
JP2009150920A (ja) エコーキャンセル装置、カラオケ装置、エコーキャンセル方法およびプログラム
JP2018156040A (ja) 偏差表示機
JP7176113B2 (ja) 楽曲構造解析装置および楽曲構造解析プログラム
US20230215407A1 (en) Electronic musical instrument, method of generating musical sound, and computer-readable storage medium
JP5131172B2 (ja) 周期特定装置およびプログラム
JP2011095409A (ja) グリッド検出装置及びプログラム
WO2020059085A1 (ja) 演奏装置およびノイズ削減プログラム
KR101779563B1 (ko) 오디오 신호의 배음 성분 부스팅 방법 및 장치
JPH0997071A (ja) エンベロープ検出方法
KR20190086872A (ko) 고조파를 제거한 미디 파일 생성 방법 및 오디오 파일 변환 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170321

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170421

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170912

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170925

R151 Written notification of patent or utility model registration

Ref document number: 6225818

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151