JP4336316B2

JP4336316B2 - ピッチ信号を追跡するための方法

Info

Publication number: JP4336316B2
Application number: JP2004563423A
Authority: JP
Inventors: チャザン、ダン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2002-12-27
Filing date: 2003-12-03
Publication date: 2009-09-30
Anticipated expiration: 2023-12-03
Also published as: CN1729508A; CN100578611C; EP1579423B1; TWI238378B; WO2004059616A1; KR20050085166A; EP1579423A1; US7251597B2; KR100920625B1; US20040128124A1; JP2006512604A; TW200428356A; AU2003282317A1

Description

本発明は、ピッチ信号を平滑化するためのピッチ追跡に関する。

ピッチ検出器は、たとえば、音声認識機構からの音声再構成などの音声圧縮（コーディング）、音声合成、その他を含む、広範囲の適用例に使用される。

当技術分野では、たとえば、１９９１年発行のIEEEASSP vol 39の４０〜４８ページに掲載されたY. Medan、E. Yair、D. ChazanによるSuperResolution Pitch Determination for Speech Signalsなど、ピッチ検出器の様々な技法が知られている。

ピッチ検出器は、特定の場合にピッチの整数倍数（integermultiple）または整数比（integer fraction）を見つける傾向がある。ほとんどの場合、その理由は、ピッチの急速変化または２つの音の間の遷移ならびにきしる音またはかすれた音の存在によるものであり、そのいずれもスペクトルの正規構造を損傷する（mar）ものである。この損傷の結果、追加のスペクトル線が生成され、それは多くの場合、ピッチ周波数の半分の倍数になるが、３分の１および４分の１の周波数も発生する可能性がある。このような追加の線が見落とされると、ピッチ周波数の倍数が見つかる。これらが間違ってカウントされると、ピッチ周波数の一部分が検出される。

指定の損傷したピッチ信号を使用する音声圧縮などの適用例は、パフォーマンスの低下を明示することになる。

関連技術としては、２００２年発行のCircuitsand Systems, 2002. ISCAS 2002. IEEE International Symposium on, 2002.のＩＩ−８４３〜ＩＩ−８４６ページｖｏｌ．２に掲載されたA. Shah、R. P. Ramachandran、M. A. LewisによるRobust pitch estimation using an event based adaptive Gaussianderivative filterを含み、これは雑音のある音声でピッチを見つけることを目指している。
１９９１年発行のIEEEASSP vol 39の４０〜４８ページに掲載されたY. Medan、E. Yair、D. ChazanによるSuperResolution Pitch Determination for Speech Signals ２００２年発行のCircuitsand Systems, 2002. ISCAS 2002. IEEE International Symposium on, 2002.のＩＩ−８４３〜ＩＩ−８４６ページｖｏｌ．２に掲載されたA. Shah、R. P. Ramachandran、M. A. LewisによるRobust pitch estimation using an event based adaptive Gaussianderivative filter

したがって、当技術分野では、検出ピッチ信号内の損傷したピッチ値を平滑化するための技法を提供する必要がある。

本発明は、
（ｉ）一連のピッチ値からなる検出ピッチ信号を受信するステップを有し、前記検出信号内の各現行ピッチ値ごとに、少なくとも以下の（ｉｉ）〜（ｉｖ）を実行する方法であって、
（ｉｉ）複数隣接ピッチ値から整合した複数ピッチ値からなる少なくとも１つの部分列（sub-sequence）を構築するステップと、
（ｉｉｉ）前記少なくとも１つの部分列の重要度（significance）を計算し、最高重要度を有する部分列または整合した複数部分列の集合を選択するステップと、
（ｉｖ）前記現行ピッチ値が最高重要度を有する前記部分列と整合しない場合に、最高重要度を有する前記部分列と整合したものにするために、１より大きい整数値でそれを割るかまたは１より大きい整数値をそれに掛けることにより、前記現行ピッチ値を平滑化するステップと、
を有する、ピッチ信号を追跡するための方法を提供する。

本発明は、
（ｉ）一連のピッチ値からなる検出ピッチ信号を受信するステップを有し、前記検出信号内の各現行ピッチ値ならびにその任意の整数倍数および逆整数倍数（inverse integer multiple）ごとに、前記整数が所定の値より小さい場合に、少なくとも以下の（ｉｉ）〜（ｉｉｉ）を実行する方法であって、
（ｉｉ）複数隣接ピッチ値から整合した複数ピッチ値からなる少なくとも１つの部分列を構築し、検出ピッチ値が前記部分列と整合しない場合に、前記部分列と整合したものにするために、１より大きい整数値でそれを割るかまたは１より大きい整数値をそれに掛けるステップと、
（ｉｉｉ）前記少なくとも１つの部分列の重要度を計算し、最高重要度を有する部分列を選択し、それにより前記現行ピッチ値を平滑化したものにするステップと、
を有する、ピッチ信号を追跡するための方法をさらに提供する。

さらに、本発明は、
一連のピッチ値からなる検出ピッチ信号を受信するためのレシーバを有し、前記検出信号内の各現行ピッチ値ごとに、プロセッサにより少なくとも以下の（ｉｉ）〜（ｉｖ）を実行するシステムであって、
（ｉｉ）複数隣接ピッチ値から整合した複数ピッチ値からなる少なくとも１つの部分列を構築するステップと、
（ｉｉｉ）前記少なくとも１つの部分列の重要度を計算し、最高重要度を有する部分列または整合した複数部分列の集合を選択するステップと、
（ｉｖ）前記現行ピッチ値が最高重要度を有する前記部分列と整合しない場合に、最高重要度を有する前記部分列と整合したものにするために、１より大きい整数値でそれを割るかまたは１より大きい整数値をそれに掛けることにより、前記現行ピッチ値を平滑化するステップと、
を有する、ピッチ信号を追跡するためのシステムを提供する。

さらに、本発明は、
一連のピッチ値からなる検出ピッチ信号を受信するためのレシーバを有し、前記検出信号内の各現行ピッチ値ならびにその任意の整数倍数および逆整数倍数ごとに、前記整数が所定の値より小さい場合に、プロセッサにより少なくとも以下の（ｉｉ）〜（ｉｉｉ）を実行するシステムであって、
（ｉｉ）複数隣接ピッチ値から整合した複数ピッチ値からなる少なくとも１つの部分列を構築し、検出ピッチ値が前記部分列と整合しない場合に、前記部分列と整合したものにするために、１より大きい整数値でそれを割るかまたは１より大きい整数値をそれに掛けるステップと、
（ｉｉｉ）前記少なくとも１つの部分列の重要度を計算し、最高重要度を有する部分列を選択し、それにより前記現行ピッチ値を平滑化したものにするステップと、
を有する、ピッチ信号を追跡するためのシステムを提供する。

本発明は、
一連のピッチ値からなる検出ピッチ信号を受信するためのレシーバを含み、前記検出信号内の各現行ピッチ値ごとに、少なくとも以下の（ｉ）〜（ｉｉｉ）を実行するコンピュータ・プログラムであって、
（ｉ）複数隣接ピッチ値から整合した複数ピッチ値からなる少なくとも１つの部分列を構築するステップと、
（ｉｉ）前記少なくとも１つの部分列の重要度を計算し、最高重要度を有する部分列または整合した複数部分列の集合を選択するステップと、
（ｉｉｉ）前記現行ピッチ値が最高重要度を有する前記部分列と整合しない場合に、最高重要度を有する前記部分列と整合したものにするために、１より大きい整数値でそれを割るかまたは１より大きい整数値をそれに掛けることにより、前記現行ピッチ値を平滑化するステップと、
を含む、ピッチ信号の追跡を実行するためのコンピュータ・コードを含むコンピュータ・プログラムを提供する。

本発明は、
（ｉ）一連のピッチ値からなる検出ピッチ信号を受信するステップを含み、前記検出信号内の各現行ピッチ値ならびにその任意の整数倍数および逆整数倍数ごとに、前記整数が所定の値より小さい場合に、少なくとも以下の（ｉｉ）〜（ｉｉｉ）を実行するコンピュータ・プログラムであって、
（ｉｉ）複数隣接ピッチ値から整合した複数ピッチ値からなる少なくとも１つの部分列を構築し、検出ピッチ値が前記部分列と整合しない場合に、前記部分列と整合したものにするために、１より大きい整数値でそれを割るかまたは１より大きい整数値をそれに掛けるステップと、
（ｉｉｉ）前記少なくとも１つの部分列の重要度を計算し、最高重要度を有する部分列を選択し、それにより前記現行ピッチ値を平滑化したものにするステップと、
を含む、ピッチ信号の追跡を実行するためのコンピュータ・コードを含むコンピュータ・プログラムをさらに提供する。

次に、本発明を理解するため、ならびに、それを実際に実行できる方法を知るために、添付図面に関連して、非制限的例としてのみ、好ましい一実施形態について説明する。

最初に図１を参照すると、本発明の一実施形態によりピッチ追跡を使用するシステムの汎用ブロック図が示されている。図示の通り、生の音声信号は入力手段、たとえば、マイクロホン１２により受信され、（デジタル信号に変更された後）ピッチ検出のために、たとえば、ソフトウェアで実現された適切な本質的に既知のツール（図１には明示的に図示していない）を実行する（ユーザＰＣ１４および関連ストレージ１６内の）プロセッサに供給される。

ピッチ信号は別として、ピッチ検出器はフレーム・エネルギを発生する可能性があり、これは、ピッチが計算されたフレーム内の信号の強さの何らかの尺度であり、ピッチの質の何らかの尺度であって、検出されたピッチ周波数を有する周期信号としてその信号を記述できる程度である。次に、このように検出されたピッチ信号と、おそらくエネルギおよび適合度（degree of fit）は、ピッチ信号を平滑化するためにピッチ追跡モジュール（図１には明示的に図示していない）に供給されるが、いずれについても以下により詳細に説明する。たとえば、音声圧縮の場合、音声信号は本質的に既知の音声コーディング・アルゴリズム（たとえば、スペクトル・コーディング）の対象になり、コード化信号はリモートで、たとえば、ネットワーク１８により伝送される。

本発明は、当然のことながら、図１の特定のアーキテクチャあるいは実現例あるいは適用例（音声コーディング）またはこれらの組合せによって拘束されず、したがって、すべて必要に応じてならびに適宜、他の変形例が適用可能である。非制限的例として、この実現例は、スタンドアロンＰＣ環境ではなく、分散環境にすることができる。

次に、本発明の様々な諸実施形態によるピッチ追跡の構造および動作の理解を支援する、ピッチ信号の特性の簡単な概要を示す。したがって、声帯（vocal chard）は励起を発生し、その周波数は時間とともに連続的に変化するものと想定すると、連続的で正しい（真の）ピッチ値の数列は常に連続的であり、すなわち、連続値は互いに値が接近している。通常、正しいピッチ値と損傷したピッチ値を含む検出ピッチ信号について考慮する。ｐ１およびｐ２が２つのピッチ値（たとえば、図２のピッチ信号２０内の２１と２２）であるとする。ｐ１（たとえば、２１）が正しいピッチ値であり、ｐ２が損傷したピッチ値（たとえば、２２）である場合、後者は真のピッチ（すなわち、損傷したピッチ値２２に対応する「平滑化」ピッチ値、たとえば、２３）の倍数ｍになる。正しいｍは、数列｛ｐ１，ｐ２／ｍ｝が最も平滑であるという条件から見つけることができる。平滑度は、必ずしもそうであるわけではないが、概して、以下のピッチ間の距離尺度を使用して測定される。
Ｄ（ｐ１，ｐ２）＝｜（ｐ１−ｐ２）／（ｐ１＋ｐ２）｜

これは、上記の距離尺度を使用して接近性が測定される場合に、ｐ２／ｍ（平滑化ピッチ値、たとえば、２３を表す）が可能な限りｐ１に接近していることを意味する。同様に、ｐ２（すなわち、損傷したピッチ値）が真のピッチ（すなわち、対応する平滑化ピッチ値）の整数（ｍ）部分である場合、｛ｐ１，ｐ２^＊ｍ｝がその数列内で可能な限り平滑なものになるようにｍを見つけることができる。ｐ２（すなわち、損傷したピッチ値）が真のピッチの整数比であるという後者のシナリオは、図２には図示されていない。

本発明によるピッチ追跡アルゴリズムは、検出ピッチ信号のどの値が真の値であり、どれが損傷したものであるか（すなわち、それらが真の［平滑化］ピッチ値の整数倍数であるかまたは整数比であるか）を決定することを目指している。このアルゴリズムは、これが可能である限り、平滑なピッチ信号を得るために、損傷したピッチ値をさらに平滑化する。

いずれの実施形態でも、このアルゴリズムはオンザフライで機能し、これは原則として所与の遅延とともに行われる。この理由から、各瞬間のピッチの値に関する倍数（または部分）の計算は、先行ピッチ（previous pitch）と、せいぜいＴｆｕｔｕｒｅという将来ピッチ（future pitch）の値に基づくものでなければならず、Ｔｆｕｔｕｒｅは許容遅延である。したがって、一実施形態によれば、この問題は以下のように公式化することができる。すなわち、ピッチの所与のＴｐａｓｔという過去値（past value）とＴｆｕｔｕｒｅという将来値（futurevalue）により、現行値をそのピッチの過去および将来の正しい値と最も整合したものにするような整数が見つかる。いずれの実施形態でも、将来値と過去値が考慮に入れられる（遅延を発生する）ことに留意されたい。この遅延（Ｔｆｕｔｕｒｅ）はゼロになるように設定することができ、これは実際には、過去値のみが考慮されることを意味する。

どれが正しい値（すなわち、真のピッチ値）であるかを決定するために、ピッチ検出器はその倍数または部分を見つける可能性より正しい値を見つける可能性の方が高いという基本的想定が存在する。すべての値が互いに何らかの小さい係数の範囲内にある場合、ピッチ値の数列は自己矛盾のないものである。したがって、整合した数列内の２つの連続する真のピッチ値ｐ１，ｐ２は、係数＞ｐ１／ｐ２＞１／係数というプロパティ（以下、係数プロパティ）を有するように定義される。この係数の値は、２つの真のピッチ値間の最大許容変化を反映しなければならない。一実施形態では、これは、ほとんどのテストで１．２８になるように選択された。通常、その範囲は１．０〜１．５になることに留意されたい。

一実施形態によれば、元の（すなわち、検出された）ピッチ値の数列は、何らかのアルゴリズムにより、上記で定義された意味で（すなわち、係数プロパティに適合する）整合した複数ピッチ値の部分列に区分される。ピッチ検出器はピッチの倍数（または部分）を見つける可能性より真のピッチを見つける可能性の方が高いという上記の想定に基づいて、各ピッチ点に対応する間隔内には、間違った値（倍数または整数比）より多くの正しいピッチ値が存在することになる。この間隔は、ｄ個の将来点と関連過去点とを含む。この理由から、真のピッチ値を有する部分列は通常、他の部分列より高い重要度（たとえば、より多くのエネルギ）を有することになる。

したがって、この実施形態によれば、真のピッチ値を選択するための基準は、最も重要な部分列から導出された真のピッチ値を使用すると、現行ピッチ値をその部分列の真のピッチ値と最も整合した（最も接近した）ものにするような倍数または部分整数を見つけることは可能であるということである。以下により詳細に説明するように、一実施形態では、許容時間間隔（通常、Ｔｐａｓｔヒストリ・ピッチ値およびＴｆｕｔｕｒｅ将来ピッチ値に及び、後者は許容遅延に応じて決定される）内に最も重要な自己矛盾のない部分列のグループに整合したものになるように現行ピッチ値を「適合」させようという試みが行われる。自己矛盾のないものにするために、すべての部分列の終点は係数の範囲内で離れていなければならない。最高重要度のスコア（たとえば、最高エネルギ）を有する部分列のグループは、現行ピッチが適合するものとして選択される。部分列内のピッチ値は道（path）（時には、軌道（trajectory）ともいう）を構成することに留意されたい。周知の通り、各ピッチはエネルギに関連付けられ、したがって、ある道のエネルギは、一実施形態では、各ピッチ値に対応するフレーム・エネルギをまとめて加算することにより計算され、最高エネルギを有する自己矛盾のない複数部分列のグループが選択される。エネルギという用語は、そのフレームの重要度の任意の尺度を表すために、ここでは漠然と使用されることに留意されたい。したがって、極めて低いエネルギを有するフレームは多分、大量のノイズを含み、したがって、これらのフレームについて計算されたピッチは多分、誤ったものになる可能性が高い。しかし、これは極めて低いエネルギの場合にのみ当てはまることにも留意することができる。この理由から、一実施形態では、エネルギ自体より、そのフレームの何らかの低電力の計算エネルギの方がより良好な重要度の尺度になる。

この実施形態では、最大エネルギの部分列（複数も可）を選択した後、その部分列（複数も可）は、過去ピッチ値および将来ピッチ値に基づいて、現行ピッチ値を平滑化するために、すなわち、整合した複数部分列を維持するためにその値が最も接近した現行ピッチの整数倍数または部分を見つけるために使用される。

これを心に留めて、本発明の一実施形態によりピッチ数列を決定するためのフロー・ダイアグラムを示す図３、ならびに本発明の一実施形態により複数ピッチの部分列を識別する、一連のフレームに関するピッチ値のグラフを示す図４に注意を向ける。

図３の実施形態では、互いに係数の範囲内にある、すなわち、係数＞ｐ１／ｐ２＞１／係数である一連のピッチ値をそれぞれが含むような整合したピッチ部分列が計算される。連続的ではないが単一時間単位分だけ分離されているピッチｐ１およびｐ２の場合、Ｌｆａｃｔｏｒ＞ｐ１／ｐ２＞部分列１／Ｌｆａｃｔｏｒになるように、係数より大きいＬｆａｃｔｏｒと呼ばれる何らかの係数が存在する。すべてのピッチ値が互いに整合している部分列は、整合した部分列である。本発明の他の実施形態によれば、整合した部分列は、指定のＬｆａｃｔｏｒ特性に適合する非連続ピッチを含むことができる。ピッチ値のそれぞれの整合した部分列は、それに関する真のピッチを捜している現行瞬間に対しその部分列内で最も近い瞬間に対応する１つの値（テール・ピッチ値（tail pitch value）という）を有する。

この手順は元のピッチ値から始まり、その出力は１組の平滑化ピッチ値になる。任意の時点Ｔｃｕｒに関する平滑化ピッチ値は、それより先行するＴｐａｓｔピッチ値と、それに続くＴｆｕｔｕｒｅピッチ値に依存する。したがって、図４を参照すると、フレーム１〜６内のすべてのピッチ値は以下に詳細に説明する方法ですでに処理されているものと想定する。図４に示した通り、このように処理したピッチ値のうち、ピッチ追跡アルゴリズムにより、１、２、５、および６は真のピッチ値であると判明しており（すなわち、ピッチ検出器が真の値を検出した）、したがって、それらを平滑化する必要はまったくなかった。対照的に、フレーム３および４内のピッチ値（それぞれ４２および４３）は、ピッチ追跡により損傷したものとして分類され、平滑化値（４２’および４３’）に対応する倍数整数でそれを割ることにより平滑化されている。直感的に、平滑化ピッチ値（４２’）および（４３’）は、各ピッチ値がその隣接ピッチ値に「接近」しているという意味でその隣接値とともに整合した数列を構成し、急速変化はまったく発生しないことに留意されたい。（このような急速変化は、真のピッチ（４４）と損傷したピッチ（４２）との間の遷移で気付くことができる。）

したがって、最初の６つのピッチ値を処理した後、それが真であるか損なわれているかを決定し、後者の場合にそれを平滑化するために、フレーム７の現行ピッチ値（Ｔｃｕｒ）（４１）が処理される。せいぜい２つの将来点、すなわち、Ｔｆｕｔｕｒｅ＝２（遅延＝２）、ならびに、６つの過去点、すなわち、Ｔｐａｓｔ＝６が許容されるものと想定する。これは、フレーム＝１（４５）からフレーム＝９（４６）の間隔にわたって部分列がサーチされることを意味する。この例では、Ｔｍａｘは５に等しく、過去の部分列の最も遠隔なテール・ピッチ値がフレーム＝２より先行してはならないことを意味する。この例のＴｐａｓｔ、Ｔｆｕｔｕｒｅ、およびＴｍａｘは例示のみのために選択されたものであり、決して拘束するものではないことに留意されたい。

したがって、ステップ３１（図３）では、（Ａ）ｊが［Ｔｃｕｒｒｅｎｔ−Ｔｐａｓｔ，Ｔｃｕｒｒｅｎｔ＋Ｔｆｕｔｕｒｅ］に属し、（Ｂ）各部分列に関するすべてのピッチ値について、係数＞ｐ［ｊ＋１］／ｐ［ｊ］＞１／係数になるように、アルゴリズムが隣接ピッチ値ｐ［ｊ］の最長部分列の集合をサーチする。

このサーチは、平滑化値ではなく検出値に関して実行される（すなわち、ピッチ値４２および４３は考慮に入れられ、４２’および４３’は入れられない）ことに留意されたい。図４に示した通り、３つの整合した部分列が明らかにされており、すなわち、部分列（４７）はピッチ値（５０および５１）からなり、部分列（４８）はピッチ値（４２および４３）からなり、部分列（４９）はピッチ値（４５および４４）からなる。見やすくするため、部分列（４７）〜（４９）は下方へわずかにずれていることに留意されたい。

部分列（４７）に焦点を合わせると、５０および５１というピッチ値は係数値の範囲内であり（たとえば、係数＝１．２８であると想定する）、容易に気付くように、フレーム４のピッチ値（４３）はフレーム５のピッチ値（５０）よりかなり大きく、いずれにしても、Ｐ（フレーム＝４）／Ｐ（フレーム＝５）という比率が許容係数値を超えるので、フレーム４のピッチ値（４３）は部分列４７のメンバではないことが示されている。部分列４８および４９は同じ方法で決定された。いずれ部分列についても、その時点が現行時点に最も近いテール・ピッチ値（すなわち、部分列４９の場合の４４、部分列４８の場合の４３、部分列４７の場合の５１）は、現行時点からＴｍａｘ（想起される通り、この例では５である）の範囲内にあることに留意されたい。

フレーム８および９のピッチ値（４６および５２）は上述の係数基準に適合せず、したがって、これらは同じ部分列内に存在できないので、いかなる将来部分列（複数も可）も明らかにされていないことに留意されたい。また、有効な部分列が１つのメンバを含む場合、フレーム８のピッチ値（５２）からなる第１の部分列と、フレーム９のピッチ値（４６）からなる第２の部分列という、追加の２つの部分列を考慮しなければならない。

部分列を決定した後、最高重要度を有する部分列が選択される（図３のステップ３４）。ちなみに、ステップ（３２および３３）を使用する変更された一実施形態については後述することに留意されたい。

次に上記の例に戻ると、一実施形態では、各部分列の重要度は、部分列のそれぞれについて累積エネルギ値を決定することによって計算され、すなわち、各部分列ごとに、その構成ピッチ値のエネルギが合計され、各部分列のエネルギ・スコアを発生する。

たとえば、図４の例では、部分列４７が最高スコアを有すると想定すると、現行ピッチ値はそれに適している。このために、（ステップ３５）選択した部分列（４７）のテール・ピッチ値（５１）に最も接近したものにするために、（フレーム７の）現行ピッチ値について整数値が計算される。この結果、その複数隣接ピッチ値（５２および５１）に関する係数制約に明らかに適合する平滑化ピッチ値（５３）が得られる。フレーム７の元のピッチ値が５３であった（すなわち、ピッチ検出器が損傷したピッチ値ではなく真のピッチ値を検出する）場合、即時テストにより、このピッチ値が係数特性に適合することが明らかになっていると考えられ、したがって、倍数整数を計算するステップは不要になったと考えられることに留意されたい。

フレーム＝７に関する計算を完遂した後、次のピッチ値（５２またはフレーム＝８）などに関してオンザフライ計算が続行される。

次に図３のステップ３２および３３に戻ると、変更された一実施形態では、「接近した」部分列の場合、それらはグループ別に収集され、現行ピッチ値はそのグループの代表的部分列に適合している。より具体的には、部分列はテール・ピッチ値別にソートされ、その隣接値から係数の範囲内にある要素のグループに区分される（ステップ３２）。各グループのエネルギは、そのグループを構成する個々の部分列のエネルギを合計することによって得られ（ステップ３３）、代表的部分列を発生する。最大総エネルギを有するテールのグループが選択される。次に、グループ代表テール・ピッチ値は、たとえば、そのグループ内の部分列の別個のテール値の平均テール・ピッチ値によって計算される（ステップ３４）。平均は一例にすぎず、Ｔｃｕｒに最も近い期間に対応するピッチ値を選出することなどの他の変形例も適用可能であることに留意されたい。最後に、計算された平均ピッチ値のそれに最も近くなるように、現行ピッチ値に整数をかけるかまたは現行ピッチ値を整数で割る（ステップ３５）。たとえば、図４に戻ると、テール・ピッチ値がソートされた場合（ステップ３２）、部分列４９のテール・ピッチ値４４、部分列４７のテール・ピッチ値５１、および（ピッチ５２のみからなる将来部分列の）ピッチ値５２がいずれも非常に接近しており、デイム・グループ（dame group）に分類されることが分かる。他のグループは部分列４８からなる。

付随的に、将来部分列の場合、「テール」ピッチは実際のところ「ヘッド」ピッチであり、すなわち、現行ピッチ値に最も近い部分列内の最初の値であることに留意されたい。便宜上、「テール・ピッチ値」という用語は、過去部分列の「テール」ピッチ値と将来部分列の「ヘッド」ピッチ値の両方を意味する。

次に図４の例に戻ると、各グループの代表的部分列は、重要度（この実施形態では、総エネルギである）を決定することによって計算される（ステップ３３）。当然のことながら、３つの部分列４７、４９、および５２からなるグループの方が優勢である（というのは、３つの部分列の累積エネルギが他のグループの部分列（４８）の累積エネルギより大きいからである）。次に、たとえば、別個のテール・ピッチ値４４、５１、および５２を平均し、平均テール・ピッチ値を発生することにより、代表的テール・ピッチ値が計算され（ステップ３４）、上記で指定した方法で代表的ピッチ値に関して現行ピッチ値の平滑化（必要な場合）が実行される（ステップ３５）。

したがって、上記で説明した通り、整合しており、その中から最も重要なものを選択するための複数ピッチの部分列を生成するためのメカニズムが提供される。重要度は、たとえば、エネルギ、検出したピッチ周波数を有する周期信号としてその信号を記述できる程度を測定するピッチ値の質の尺度、またはそれらの組合せの点で測定することができる。すべて必要に応じてならびに適宜、上記に加えてまたは上記の代わりに、重要度に関する他の係数を使用することができる。一実施形態では、あるピッチ値の方が他のピッチ値より正しい可能性が低い場合、重要度係数計算の際に、エネルギ（単独であるかまたは他のパラメータと組み合わせて）が考慮に入れられる。たとえば、非常に低いエネルギを有するフレームは、高いエネルギを有するフレームより関連性が低い可能性がある。同様に、そのピッチ・モデルがそのフレームのスペクトル用としては不十分なモデルであるとピッチ検出器が判断したフレームは、割引しなければならない。この趣旨で、エネルギの他に、信号が指定のピッチを有する周期信号に適合できる程度の尺度を使用することは可能である。これは通常、その値が０と１の間にあるフレーム当たり１つの数を追加することになり、それはエネルギに対して増殖性の影響を及ぼす可能性がある。

他の実施形態では、整合した数列は、互いに整合した間隔内のすべてのピッチ値からなり、一部のピッチ値は何らかの整数係数での乗算または除算によって正規化される。この実施形態については、図４および図５も参照して説明する。

したがって、ステップ（６１）では、現行ピッチの整数または逆整数倍数が選択される。図４の例では、もう一度、（ピッチ値１〜６を処理した後）フレーム７のピッチ値が現在評価されていると想定すると、最初に、抜取り値４１が取られる（すなわち、整数値が１になる）。

次に、（ステップ６２）現行ピッチ値（１という整数倍数を有する）から始まる部分列が見つかり、最終ピッチ値が現行ピッチ値から「係数」の範囲内になるように、整数比または倍数をそれに適用することにより、隣接ピッチ値がその部分列に正規化される。図４の例では、当然のことながら、隣接ピッチ値５１は係数の範囲内ではなく（というのは、４１に関する急速変化を明示しているからである）、したがって、整数倍数、たとえば、２がそれに適用され、現行ピッチ値４１に対して「係数の範囲内」にある計算ピッチ値５５を発生する。倍数係数（この例では２）はこのように計算されたピッチ値５５に関連付けられている。同じように、各計算ピッチ値がその隣接値（計算ピッチ値）から係数の範囲内になるように、数列は、許容された［Ｔｃｕｒｒｅｎｔ−Ｔｐａｓｔ，Ｔｃｕｒｒｅｎｔ＋Ｔｆｕｔｕｒｅ］という間隔の範囲内で後方および前方に延長される。部分列の計算を完了した後、たとえば、１という倍数係数がそれに関連付けられているピッチ値の数（すなわち、そのままの状態で保持され、正規化の対象にならない部分列内のピッチ値の数）として、その重要度が決定される。ステップ６３では、これまでに得られた最良重要度との比較が行われ、より良い重要度が現行フレームから得られる場合、それが置換される。このようにして、これまでの最良の道が記録される。

次に、もう一度、フレーム７のピッチ値から始めるが、今回は逆整数２により、他の部分列を構築するために、ステップ６１〜６３が繰り返される。（第１の部分列で想起される通り、フレーム７のピッチ値は倍数係数１を有している。）したがって、逆整数２を適用する（すなわち、２で割る）場合、フレーム７について結果として得られる計算ピッチ値は５３である（図４）。次に、隣接ピッチ値（フレーム６の場合）は、フレーム７のものから係数の範囲内でなければならず、容易に示されているように、フレーム６のピッチ値（５１）は係数の範囲内にあり、したがって、その関連倍数係数は１になる。同様に、第２の部分列は、［Ｔｃｕｒｒｅｎｔ−Ｔｐａｓｔ，Ｔｃｕｒｒｅｎｔ＋Ｔｆｕｔｕｒｅ］という間隔の範囲内で後方および前方に延長される。第２の部分列の重要度は同じように、すなわち、その関連乗数係数が１になるピッチ・メンバの数として計算される。

部分列（４９、４８、および４７）が重複していない前の実施形態から脱却して、この実施形態では、すべての部分列がＴｐａｓｔ〜Ｔｆｕｔｕｒｅの範囲にわたって延びているという意味で部分列が重複していることに留意されたい。

同じように、たとえば、（フレーム７のピッチ値に関する）逆倍数３について他の部分列が構築され、次に、すべての許容整数倍数および逆倍数が使い果たされる（ステップ６４の「ＹＥＳ」）まで、倍数２に関する他の部分列ならびに倍数３に関する他の部分列が構築される。各部分列について重要度が計算されており、重要度の点で現行勝者（winner）が各ステップで保持されることに留意されたい。実行すべきものとして残っているのは、「勝利（winning）」部分列、すなわち、最高重要度スコアを有するものを識別することである（ステップ６５）。勝利部分列内の現行ピッチ値（フレーム＝７の場合）は、その関連倍数係数によりすでに平滑化されている。明らかに、勝利部分列内のフレーム＝７に関する現行ピッチ値が倍数係数１に関連付けられている場合、ピッチ検出器が損傷したピッチ値ではなく真のピッチ値を検出したことを意味する。

次に、次のピッチ値（フレーム＝８）などに関して手順が繰り返される。また、この実施形態に関しては、様々な変更例が適用可能であり、たとえば、重要度は、エネルギ重要度係数とピッチの質重要度係数の質の加重値として決定できるであろう。

他の実施形態では、部分列は単一ゼロ・ピッチ点を「スキップオーバ」し、連続性について決定する際により大きい係数を可能にすることもできることに留意されたい。たとえば、使用された正規係数は１．２８であり、より大きい係数、たとえば、１．４が使用される。後者は２つのステップに関する最悪の場合のジャンプをより正確に表しているので、後者が使用される。１．２８を２回連続してジャンプすることは、適切なピッチに属しそうもない。

様々な変更および修正を実行できることに留意されたい。たとえば、上記の第１の実施形態は、以下のように余分なステップを組み込むように変更することができる。

ピッチ軌道が係数より大きいジャンプを含まない場合、［Ｔｃｕｒｒｅｎｔ−Ｔｐａｓｔ，Ｔｃｕｒｒｅｎｔ＋Ｔｆｕｔｕｒｅ］という間隔内で発生するすべてのピッチ値のセットがソートされ、各サブセット内で連続点間の距離が係数を超えないようにサブセットに区分されるが、係数より大きいジャンプによってサブセット同士が分離される場合には、上記で見つかったピッチ軌道のそれぞれは定義により任意の他のものではなく、サブセットの１つに存在しなければならない。この理由から、上記のアルゴリズムに追加ステップを追加することは可能である。これは、ソートした１組のピッチ値を、係数より大きいジャンプによって分離されたサブセットに区分することを伴う。最大エネルギを有するサブセットが選択される。上述のアルゴリズムで考慮された軌道は、選択したサブセット内の値を有するものになる。

また、本発明によるシステムは適切にプログラミングされたコンピュータになりうることも理解されるであろう。同様に、本発明は、本発明の方法を実行するためにコンピュータによって読取り可能なコンピュータ・プログラムを企図している。本発明は、本発明の方法を実行するためにマシンによって実行可能な命令からなるプログラムを具体的に実施するマシン可読メモリをさらに企図している。

本発明の一実施形態によりピッチ平滑化アルゴリズムを使用するシステムを示すブロック図である。一連のフレームに関する抜取りピッチ値のグラフである。本発明の一実施形態によるピッチ追跡のフロー・ダイアグラムである。本発明の一実施形態により、複数ピッチの部分列を識別する、一連のフレームに関するピッチ値のグラフである。本発明の他の実施形態によるピッチ追跡のフロー・ダイアグラムである。

Claims

（ｉ）一連のピッチ値からなる検出ピッチ信号を受信するステップを有し、前記検出ピッチ信号内の各現行ピッチ値ごとに、少なくとも以下の（ｉｉ）〜（ｉｖ）を実行する方法であって、
（ｉｉ）（Ａ）ｊが［Ｔｃｕｒｒｅｎｔ−Ｔｐａｓｔ，Ｔｃｕｒｒｅｎｔ＋Ｔｆｕｔｕｒｅ］に属し、（Ｂ）各部分列に関するすべてのピッチ値について、係数＞ｐ［ｊ＋１］／ｐ［ｊ］＞１／係数になるように、アルゴリズムが隣接ピッチ値ｐ［ｊ］の最長部分列の集合である、部分列を構築するステップであって、、整合した数列内の２つの連続する真のピッチ値ｐ１，ｐ２は、係数＞ｐ１／ｐ２＞１／係数というプロパティを有するように定義され、この係数の値は、２つの真のピッチ値間の最大許容変化を反映し、したがって、前記ピッチ値が互いに整合するステップと、
（ｉｉｉ）前記少なくとも１つの部分列の重要度を計算し、１つの部分列内の各ピッチ値が１つのエネルギ値に関連付けられ、前記重要度が前記部分列のエネルギに依存し、前記部分列の前記エネルギが前記部分列の前記ピッチ値の前記エネルギ値の関数であり、最高重要度を有する部分列を選択するステップと、
（ｉｖ）前記現行ピッチ値が最高重要度を有する前記部分列と整合しない場合に、最高重要度を有する部分列のテール・ピッチ値（最高重要度を有する部分列が将来部分列である場合は、ヘッド・ピッチ値）に最も近接した値となるように、前記現行ピッチ値を１より大きい整数値でそれを割るかまたは１より大きい整数値を前記現行ピッチ値に掛けることによって、前記現行ピッチ値を平滑化するステップと、
を有する、ピッチ信号を追跡するための方法。
前記少なくとも１つの部分列が［Ｔｃｕｒｒｅｎｔ，Ｔｆｕｔｕｒｅ＋Ｔｃｕｒｒｅｎｔ］の範囲内に入るピッチ値からなり、Ｔｃｕｒｒｅｎｔが前記現行ピッチ値であり、Ｔｆｕｔｕｒｅが将来ピッチ値であり、前記部分列内のそれぞれ２つの連続ピッチ値が１つの係数分だけ離れており、１．５＞係数＞１であり、［Ｔｃｕｒｒｅｎｔ，Ｔｆｕｔｕｒｅ＋Ｔｃｕｒｒｅｎｔ］の前記範囲内のすべてのピッチ値が１つの部分列に属す、請求項１に記載の方法。
前記係数＝１．２８である、請求項２に記載の方法。
このような部分列が、
連続ピッチ値と、
非連続ピッチ値
のうちの少なくとも一方を有する、請求項１に記載の方法。
前記部分列の前記エネルギが前記部分列の前記ピッチ値の前記エネルギ値の合計である、請求項１に記載の方法。
過去部分列がテール・ピッチ値を有し、将来部分列がヘッド・ピッチ値を有し、前記（ｉｖ）が、最高重要度を有する前記部分列の前記テール・ピッチ値と整合したものにするために、１より大きい整数値でそれを割るかまたは１より大きい整数値をそれに掛けることにより、前記現行ピッチ値を平滑化することを含む、請求項１に記載の方法。
（ｉ）一連のピッチ値からなる検出ピッチ信号を受信するステップを有し、前記検出ピッチ信号内の各現行ピッチ値ごとに、少なくとも以下の（ｉｉ）〜（ｉｖ）を実行する方法であって、
（ｉｉ）（Ａ）ｊが［Ｔｃｕｒｒｅｎｔ−Ｔｐａｓｔ，Ｔｃｕｒｒｅｎｔ＋Ｔｆｕｔｕｒｅ］に属し、（Ｂ）各部分列に関するすべてのピッチ値について、係数＞ｐ［ｊ＋１］／ｐ［ｊ］＞１／係数になるように、アルゴリズムが隣接ピッチ値ｐ［ｊ］の最長部分列の集合である、部分列を構築するステップであって、、整合した数列内の２つの連続する真のピッチ値ｐ１，ｐ２は、係数＞ｐ１／ｐ２＞１／係数というプロパティを有するように定義され、この係数の値は、２つの真のピッチ値間の最大許容変化を反映し、したがって、前記ピッチ値が互いに整合するステップと、
（ｉｉｉ）前記少なくとも１つの部分列の重要度を計算するステップであって、１つの部分列内の各ピッチ値が１つのエネルギ値に関連付けられ、該重要度が前記部分列の前記エネルギに依存し、前記部分列のエネルギが前記部分列の前記ピッチ値の前記エネルギ値の関数であり、過去部分列のテール・ピッチ値または将来部分列のヘッド・ピッチ値をソートすることと、接近したテール・ピッチ値を有する部分列が同じグループ内に存在するように前記それぞれのテールまたはヘッド・ピッチ値により前記部分列をグループ化することを含み、前記重要度の計算が、各グループ内のすべての部分列の重要度を計算することと、最高重要度を有するグループを選択することを含むステップと、
（ｉｖ）前記現行ピッチ値が最高重要度を有する前記グループ列に含まれる各部分列のテール・ピッチ値の平均、又は、前記グループ列に含まれる各部分列のうち現行ピッチ値の位置と最も近い部分列のテール・ピッチ値（最高重要度を有する前記グループ列に含まれる部分列が将来部分列である場合は、各部分列のヘッド・ピッチ値の平均、又は、各部分列のうち現行ピッチ値の位置と最も近い部分列のヘッド・ピッチ値）と整合しない場合に、その値に最も近接した値となるように、前記現行ピッチ値を１より大きい整数値でそれを割るかまたは１より大きい整数値を前記現行ピッチ値に掛けることによって、前記現行ピッチ値を平滑化するステップと、
を有する、ピッチ信号を追跡するための方法。
最高重要度を有する前記グループ内の前記部分列の前記それぞれのテールまたはヘッド・ピッチ値が平均され、平均テールまたはヘッド・ピッチ値を発生し、前記（ｉｖ）が、前記現行ピッチ値が前記平均テールまたはヘッド・ピッチ値と整合しない場合に、前記平均テールまたはヘッド・ピッチ値と整合したものにするために、１より大きい整数値でそれを割るかまたは１より大きい整数値をそれに掛けることにより、前記現行ピッチ値を平滑化することを含む、請求項７に記載の方法。
前記部分列の前記エネルギが前記部分列の前記ピッチ値の前記エネルギ値の合計である、請求項７に記載の方法。
一連のピッチ値からなる検出ピッチ信号を受信するためのレシーバを有し、前記検出ピッチ信号内の各現行ピッチ値ごとに、プロセッサにより少なくとも以下の（ｉｉ）〜（ｉｖ）を実行するシステムであって、
（ｉｉ）（Ａ）ｊが［Ｔｃｕｒｒｅｎｔ−Ｔｐａｓｔ，Ｔｃｕｒｒｅｎｔ＋Ｔｆｕｔｕｒｅ］に属し、（Ｂ）各部分列に関するすべてのピッチ値について、係数＞ｐ［ｊ＋１］／ｐ［ｊ］＞１／係数になるように、アルゴリズムが隣接ピッチ値ｐ［ｊ］の最長部分列の集合である、部分列を構築するステップであって、、整合した数列内の２つの連続する真のピッチ値ｐ１，ｐ２は、係数＞ｐ１／ｐ２＞１／係数というプロパティを有するように定義され、この係数の値は、２つの真のピッチ値間の最大許容変化を反映し、したがって、前記ピッチ値が互いに整合するステップと、
（ｉｉｉ）前記少なくとも１つの部分列の重要度を計算し、１つの部分列内の各ピッチ値が１つのエネルギ値に関連付けられ、前記重要度が前記部分列のエネルギに依存し、前記部分列の前記エネルギが前記部分列の前記ピッチ値の前記エネルギ値の関数であり、最高重要度を有する部分列を選択するステップと、
（ｉｖ）前記現行ピッチ値が最高重要度を有する前記部分列と整合しない場合に、最高重要度を有する部分列のテール・ピッチ値（最高重要度を有する部分列が将来部分列である場合は、ヘッド・ピッチ値）に最も近接した値となるように、前記現行ピッチ値を１より大きい整数値でそれを割るかまたは１より大きい整数値を前記現行ピッチ値に掛けることによって、前記現行ピッチ値を平滑化するステップと、
を有する、ピッチ信号を追跡するためのシステム。
コンピュータに、一連のピッチ値からなる検出ピッチ信号を受信するためのレシーバを含み、前記検出ピッチ信号内の各現行ピッチ値ごとに、少なくとも以下の（ｉ）〜（ｉｉｉ）を実行させるコンピュータ・プログラムであって、
（ｉ）（Ａ）ｊが［Ｔｃｕｒｒｅｎｔ−Ｔｐａｓｔ，Ｔｃｕｒｒｅｎｔ＋Ｔｆｕｔｕｒｅ］に属し、（Ｂ）各部分列に関するすべてのピッチ値について、係数＞ｐ［ｊ＋１］／ｐ［ｊ］＞１／係数になるように、アルゴリズムが隣接ピッチ値ｐ［ｊ］の最長部分列の集合である、部分列を構築するステップであって、、整合した数列内の２つの連続する真のピッチ値ｐ１，ｐ２は、係数＞ｐ１／ｐ２＞１／係数というプロパティを有するように定義され、この係数の値は、２つの真のピッチ値間の最大許容変化を反映し、したがって、前記ピッチ値が互いに整合するステップと、
（ｉｉ）前記少なくとも１つの部分列の重要度を計算し、１つの部分列内の各ピッチ値が１つのエネルギ値に関連付けられ、前記重要度が前記部分列のエネルギに依存し、前記部分列の前記エネルギが前記部分列の前記ピッチ値の前記エネルギ値の関数であり、最高重要度を有する部分列を選択するステップと、
（ｉｉｉ）前記現行ピッチ値が最高重要度を有する前記部分列と整合しない場合に、最高重要度を有する部分列のテール・ピッチ値（最高重要度を有する部分列が将来部分列である場合は、ヘッド・ピッチ値）に最も近接した値となるように、前記現行ピッチ値を１より大きい整数値でそれを割るかまたは１より大きい整数値を前記現行ピッチ値に掛けることによって、前記現行ピッチ値を平滑化するステップと、
を含む方法をコンピュータに実行させるためのコンピュータ・プログラム。
コンピュータにピッチ信号の追跡の方法を実行させるためのコンピュータ・プログラムであって、前記方法は、
（ｉ）（Ａ）ｊが［Ｔｃｕｒｒｅｎｔ−Ｔｐａｓｔ，Ｔｃｕｒｒｅｎｔ＋Ｔｆｕｔｕｒｅ］に属し、（Ｂ）各部分列に関するすべてのピッチ値について、係数＞ｐ［ｊ＋１］／ｐ［ｊ］＞１／係数になるように、アルゴリズムが隣接ピッチ値ｐ［ｊ］の最長部分列の集合である、部分列を構築するステップであって、、整合した数列内の２つの連続する真のピッチ値ｐ１，ｐ２は、係数＞ｐ１／ｐ２＞１／係数というプロパティを有するように定義され、この係数の値は、２つの真のピッチ値間の最大許容変化を反映し、したがって、前記ピッチ値が互いに整合するステップと、
（ｉｉ）前記少なくとも１つの部分列の重要度を計算するステップであって、１つの部分列内の各ピッチ値が１つのエネルギ値に関連付けられ、該重要度が前記部分列の前記エネルギに依存し、前記エネルギが前記部分列の前記ピッチ値の前記エネルギ値の関数であり、過去部分列のテール・ピッチ値または将来部分列のヘッド・ピッチ値をソートすることと、接近したテール・ピッチ値を有する部分列が同じグループ内に存在するように前記それぞれのテールまたはヘッド・ピッチ値により前記部分列をグループ化することを含み、前記重要度の計算が、各グループ内のすべての部分列の重要度を計算することと、最高重要度を有するグループを選択することを含むステップと、
（ｉｉｉ）前記現行ピッチ値が最高重要度を有する前記グループ列に含まれる各部分列のテール・ピッチ値の平均、又は、前記グループ列に含まれる各部分列のうち現行ピッチ値の位置と最も近い部分列のテール・ピッチ値（最高重要度を有する前記グループ列に含まれる部分列が将来部分列である場合は、各部分列のヘッド・ピッチ値の平均、又は、各部分列のうち現行ピッチ値の位置と最も近い部分列のヘッド・ピッチ値）と整合しない場合に、その値に最も近接した値となるように、前記現行ピッチ値を１より大きい整数値でそれを割るかまたは１より大きい整数値を前記現行ピッチ値に掛けることによって、前記現行ピッチ値を平滑化するステップと、
を含む、コンピュータ・プログラム。