JP4336316B2 - ピッチ信号を追跡するための方法 - Google Patents

ピッチ信号を追跡するための方法 Download PDF

Info

Publication number
JP4336316B2
JP4336316B2 JP2004563423A JP2004563423A JP4336316B2 JP 4336316 B2 JP4336316 B2 JP 4336316B2 JP 2004563423 A JP2004563423 A JP 2004563423A JP 2004563423 A JP2004563423 A JP 2004563423A JP 4336316 B2 JP4336316 B2 JP 4336316B2
Authority
JP
Japan
Prior art keywords
pitch
value
subsequence
values
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004563423A
Other languages
English (en)
Other versions
JP2006512604A5 (ja
JP2006512604A (ja
Inventor
チャザン、ダン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2006512604A publication Critical patent/JP2006512604A/ja
Publication of JP2006512604A5 publication Critical patent/JP2006512604A5/ja
Application granted granted Critical
Publication of JP4336316B2 publication Critical patent/JP4336316B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Auxiliary Devices For Music (AREA)
  • Radar Systems Or Details Thereof (AREA)

Description

本発明は、ピッチ信号を平滑化するためのピッチ追跡に関する。
ピッチ検出器は、たとえば、音声認識機構からの音声再構成などの音声圧縮(コーディング)、音声合成、その他を含む、広範囲の適用例に使用される。
当技術分野では、たとえば、1991年発行のIEEEASSP vol 39の40〜48ページに掲載されたY. Medan、E. Yair、D. ChazanによるSuperResolution Pitch Determination for Speech Signalsなど、ピッチ検出器の様々な技法が知られている。
ピッチ検出器は、特定の場合にピッチの整数倍数(integermultiple)または整数比(integer fraction)を見つける傾向がある。ほとんどの場合、その理由は、ピッチの急速変化または2つの音の間の遷移ならびにきしる音またはかすれた音の存在によるものであり、そのいずれもスペクトルの正規構造を損傷する(mar)ものである。この損傷の結果、追加のスペクトル線が生成され、それは多くの場合、ピッチ周波数の半分の倍数になるが、3分の1および4分の1の周波数も発生する可能性がある。このような追加の線が見落とされると、ピッチ周波数の倍数が見つかる。これらが間違ってカウントされると、ピッチ周波数の一部分が検出される。
指定の損傷したピッチ信号を使用する音声圧縮などの適用例は、パフォーマンスの低下を明示することになる。
関連技術としては、2002年発行のCircuitsand Systems, 2002. ISCAS 2002. IEEE International Symposium on, 2002.のII−843〜II−846ページvol.2に掲載されたA. Shah、R. P. Ramachandran、M. A. LewisによるRobust pitch estimation using an event based adaptive Gaussianderivative filterを含み、これは雑音のある音声でピッチを見つけることを目指している。
1991年発行のIEEEASSP vol 39の40〜48ページに掲載されたY. Medan、E. Yair、D. ChazanによるSuperResolution Pitch Determination for Speech Signals 2002年発行のCircuitsand Systems, 2002. ISCAS 2002. IEEE International Symposium on, 2002.のII−843〜II−846ページvol.2に掲載されたA. Shah、R. P. Ramachandran、M. A. LewisによるRobust pitch estimation using an event based adaptive Gaussianderivative filter
したがって、当技術分野では、検出ピッチ信号内の損傷したピッチ値を平滑化するための技法を提供する必要がある。
本発明は、
(i)一連のピッチ値からなる検出ピッチ信号を受信するステップを有し、前記検出信号内の各現行ピッチ値ごとに、少なくとも以下の(ii)〜(iv)を実行する方法であって、
(ii)複数隣接ピッチ値から整合した複数ピッチ値からなる少なくとも1つの部分列(sub-sequence)を構築するステップと、
(iii)前記少なくとも1つの部分列の重要度(significance)を計算し、最高重要度を有する部分列または整合した複数部分列の集合を選択するステップと、
(iv)前記現行ピッチ値が最高重要度を有する前記部分列と整合しない場合に、最高重要度を有する前記部分列と整合したものにするために、1より大きい整数値でそれを割るかまたは1より大きい整数値をそれに掛けることにより、前記現行ピッチ値を平滑化するステップと、
を有する、ピッチ信号を追跡するための方法を提供する。
本発明は、
(i)一連のピッチ値からなる検出ピッチ信号を受信するステップを有し、前記検出信号内の各現行ピッチ値ならびにその任意の整数倍数および逆整数倍数(inverse integer multiple)ごとに、前記整数が所定の値より小さい場合に、少なくとも以下の(ii)〜(iii)を実行する方法であって、
(ii)複数隣接ピッチ値から整合した複数ピッチ値からなる少なくとも1つの部分列を構築し、検出ピッチ値が前記部分列と整合しない場合に、前記部分列と整合したものにするために、1より大きい整数値でそれを割るかまたは1より大きい整数値をそれに掛けるステップと、
(iii)前記少なくとも1つの部分列の重要度を計算し、最高重要度を有する部分列を選択し、それにより前記現行ピッチ値を平滑化したものにするステップと、
を有する、ピッチ信号を追跡するための方法をさらに提供する。
さらに、本発明は、
一連のピッチ値からなる検出ピッチ信号を受信するためのレシーバを有し、前記検出信号内の各現行ピッチ値ごとに、プロセッサにより少なくとも以下の(ii)〜(iv)を実行するシステムであって、
(ii)複数隣接ピッチ値から整合した複数ピッチ値からなる少なくとも1つの部分列を構築するステップと、
(iii)前記少なくとも1つの部分列の重要度を計算し、最高重要度を有する部分列または整合した複数部分列の集合を選択するステップと、
(iv)前記現行ピッチ値が最高重要度を有する前記部分列と整合しない場合に、最高重要度を有する前記部分列と整合したものにするために、1より大きい整数値でそれを割るかまたは1より大きい整数値をそれに掛けることにより、前記現行ピッチ値を平滑化するステップと、
を有する、ピッチ信号を追跡するためのシステムを提供する。
さらに、本発明は、
一連のピッチ値からなる検出ピッチ信号を受信するためのレシーバを有し、前記検出信号内の各現行ピッチ値ならびにその任意の整数倍数および逆整数倍数ごとに、前記整数が所定の値より小さい場合に、プロセッサにより少なくとも以下の(ii)〜(iii)を実行するシステムであって、
(ii)複数隣接ピッチ値から整合した複数ピッチ値からなる少なくとも1つの部分列を構築し、検出ピッチ値が前記部分列と整合しない場合に、前記部分列と整合したものにするために、1より大きい整数値でそれを割るかまたは1より大きい整数値をそれに掛けるステップと、
(iii)前記少なくとも1つの部分列の重要度を計算し、最高重要度を有する部分列を選択し、それにより前記現行ピッチ値を平滑化したものにするステップと、
を有する、ピッチ信号を追跡するためのシステムを提供する。
本発明は、
一連のピッチ値からなる検出ピッチ信号を受信するためのレシーバを含み、前記検出信号内の各現行ピッチ値ごとに、少なくとも以下の(i)〜(iii)を実行するコンピュータ・プログラムであって、
(i)複数隣接ピッチ値から整合した複数ピッチ値からなる少なくとも1つの部分列を構築するステップと、
(ii)前記少なくとも1つの部分列の重要度を計算し、最高重要度を有する部分列または整合した複数部分列の集合を選択するステップと、
(iii)前記現行ピッチ値が最高重要度を有する前記部分列と整合しない場合に、最高重要度を有する前記部分列と整合したものにするために、1より大きい整数値でそれを割るかまたは1より大きい整数値をそれに掛けることにより、前記現行ピッチ値を平滑化するステップと、
を含む、ピッチ信号の追跡を実行するためのコンピュータ・コードを含むコンピュータ・プログラムを提供する。
本発明は、
(i)一連のピッチ値からなる検出ピッチ信号を受信するステップを含み、前記検出信号内の各現行ピッチ値ならびにその任意の整数倍数および逆整数倍数ごとに、前記整数が所定の値より小さい場合に、少なくとも以下の(ii)〜(iii)を実行するコンピュータ・プログラムであって、
(ii)複数隣接ピッチ値から整合した複数ピッチ値からなる少なくとも1つの部分列を構築し、検出ピッチ値が前記部分列と整合しない場合に、前記部分列と整合したものにするために、1より大きい整数値でそれを割るかまたは1より大きい整数値をそれに掛けるステップと、
(iii)前記少なくとも1つの部分列の重要度を計算し、最高重要度を有する部分列を選択し、それにより前記現行ピッチ値を平滑化したものにするステップと、
を含む、ピッチ信号の追跡を実行するためのコンピュータ・コードを含むコンピュータ・プログラムをさらに提供する。
次に、本発明を理解するため、ならびに、それを実際に実行できる方法を知るために、添付図面に関連して、非制限的例としてのみ、好ましい一実施形態について説明する。
最初に図1を参照すると、本発明の一実施形態によりピッチ追跡を使用するシステムの汎用ブロック図が示されている。図示の通り、生の音声信号は入力手段、たとえば、マイクロホン12により受信され、(デジタル信号に変更された後)ピッチ検出のために、たとえば、ソフトウェアで実現された適切な本質的に既知のツール(図1には明示的に図示していない)を実行する(ユーザPC14および関連ストレージ16内の)プロセッサに供給される。
ピッチ信号は別として、ピッチ検出器はフレーム・エネルギを発生する可能性があり、これは、ピッチが計算されたフレーム内の信号の強さの何らかの尺度であり、ピッチの質の何らかの尺度であって、検出されたピッチ周波数を有する周期信号としてその信号を記述できる程度である。次に、このように検出されたピッチ信号と、おそらくエネルギおよび適合度(degree of fit)は、ピッチ信号を平滑化するためにピッチ追跡モジュール(図1には明示的に図示していない)に供給されるが、いずれについても以下により詳細に説明する。たとえば、音声圧縮の場合、音声信号は本質的に既知の音声コーディング・アルゴリズム(たとえば、スペクトル・コーディング)の対象になり、コード化信号はリモートで、たとえば、ネットワーク18により伝送される。
本発明は、当然のことながら、図1の特定のアーキテクチャあるいは実現例あるいは適用例(音声コーディング)またはこれらの組合せによって拘束されず、したがって、すべて必要に応じてならびに適宜、他の変形例が適用可能である。非制限的例として、この実現例は、スタンドアロンPC環境ではなく、分散環境にすることができる。
次に、本発明の様々な諸実施形態によるピッチ追跡の構造および動作の理解を支援する、ピッチ信号の特性の簡単な概要を示す。したがって、声帯(vocal chard)は励起を発生し、その周波数は時間とともに連続的に変化するものと想定すると、連続的で正しい(真の)ピッチ値の数列は常に連続的であり、すなわち、連続値は互いに値が接近している。通常、正しいピッチ値と損傷したピッチ値を含む検出ピッチ信号について考慮する。p1およびp2が2つのピッチ値(たとえば、図2のピッチ信号20内の21と22)であるとする。p1(たとえば、21)が正しいピッチ値であり、p2が損傷したピッチ値(たとえば、22)である場合、後者は真のピッチ(すなわち、損傷したピッチ値22に対応する「平滑化」ピッチ値、たとえば、23)の倍数mになる。正しいmは、数列{p1,p2/m}が最も平滑であるという条件から見つけることができる。平滑度は、必ずしもそうであるわけではないが、概して、以下のピッチ間の距離尺度を使用して測定される。
D(p1,p2)=|(p1−p2)/(p1+p2)|
これは、上記の距離尺度を使用して接近性が測定される場合に、p2/m(平滑化ピッチ値、たとえば、23を表す)が可能な限りp1に接近していることを意味する。同様に、p2(すなわち、損傷したピッチ値)が真のピッチ(すなわち、対応する平滑化ピッチ値)の整数(m)部分である場合、{p1,p2m}がその数列内で可能な限り平滑なものになるようにmを見つけることができる。p2(すなわち、損傷したピッチ値)が真のピッチの整数比であるという後者のシナリオは、図2には図示されていない。
本発明によるピッチ追跡アルゴリズムは、検出ピッチ信号のどの値が真の値であり、どれが損傷したものであるか(すなわち、それらが真の[平滑化]ピッチ値の整数倍数であるかまたは整数比であるか)を決定することを目指している。このアルゴリズムは、これが可能である限り、平滑なピッチ信号を得るために、損傷したピッチ値をさらに平滑化する。
いずれの実施形態でも、このアルゴリズムはオンザフライで機能し、これは原則として所与の遅延とともに行われる。この理由から、各瞬間のピッチの値に関する倍数(または部分)の計算は、先行ピッチ(previous pitch)と、せいぜいTfutureという将来ピッチ(future pitch)の値に基づくものでなければならず、Tfutureは許容遅延である。したがって、一実施形態によれば、この問題は以下のように公式化することができる。すなわち、ピッチの所与のTpastという過去値(past value)とTfutureという将来値(futurevalue)により、現行値をそのピッチの過去および将来の正しい値と最も整合したものにするような整数が見つかる。いずれの実施形態でも、将来値と過去値が考慮に入れられる(遅延を発生する)ことに留意されたい。この遅延(Tfuture)はゼロになるように設定することができ、これは実際には、過去値のみが考慮されることを意味する。
どれが正しい値(すなわち、真のピッチ値)であるかを決定するために、ピッチ検出器はその倍数または部分を見つける可能性より正しい値を見つける可能性の方が高いという基本的想定が存在する。すべての値が互いに何らかの小さい係数の範囲内にある場合、ピッチ値の数列は自己矛盾のないものである。したがって、整合した数列内の2つの連続する真のピッチ値p1,p2は、係数>p1/p2>1/係数というプロパティ(以下、係数プロパティ)を有するように定義される。この係数の値は、2つの真のピッチ値間の最大許容変化を反映しなければならない。一実施形態では、これは、ほとんどのテストで1.28になるように選択された。通常、その範囲は1.0〜1.5になることに留意されたい。
一実施形態によれば、元の(すなわち、検出された)ピッチ値の数列は、何らかのアルゴリズムにより、上記で定義された意味で(すなわち、係数プロパティに適合する)整合した複数ピッチ値の部分列に区分される。ピッチ検出器はピッチの倍数(または部分)を見つける可能性より真のピッチを見つける可能性の方が高いという上記の想定に基づいて、各ピッチ点に対応する間隔内には、間違った値(倍数または整数比)より多くの正しいピッチ値が存在することになる。この間隔は、d個の将来点と関連過去点とを含む。この理由から、真のピッチ値を有する部分列は通常、他の部分列より高い重要度(たとえば、より多くのエネルギ)を有することになる。
したがって、この実施形態によれば、真のピッチ値を選択するための基準は、最も重要な部分列から導出された真のピッチ値を使用すると、現行ピッチ値をその部分列の真のピッチ値と最も整合した(最も接近した)ものにするような倍数または部分整数を見つけることは可能であるということである。以下により詳細に説明するように、一実施形態では、許容時間間隔(通常、Tpastヒストリ・ピッチ値およびTfuture将来ピッチ値に及び、後者は許容遅延に応じて決定される)内に最も重要な自己矛盾のない部分列のグループに整合したものになるように現行ピッチ値を「適合」させようという試みが行われる。自己矛盾のないものにするために、すべての部分列の終点は係数の範囲内で離れていなければならない。最高重要度のスコア(たとえば、最高エネルギ)を有する部分列のグループは、現行ピッチが適合するものとして選択される。部分列内のピッチ値は道(path)(時には、軌道(trajectory)ともいう)を構成することに留意されたい。周知の通り、各ピッチはエネルギに関連付けられ、したがって、ある道のエネルギは、一実施形態では、各ピッチ値に対応するフレーム・エネルギをまとめて加算することにより計算され、最高エネルギを有する自己矛盾のない複数部分列のグループが選択される。エネルギという用語は、そのフレームの重要度の任意の尺度を表すために、ここでは漠然と使用されることに留意されたい。したがって、極めて低いエネルギを有するフレームは多分、大量のノイズを含み、したがって、これらのフレームについて計算されたピッチは多分、誤ったものになる可能性が高い。しかし、これは極めて低いエネルギの場合にのみ当てはまることにも留意することができる。この理由から、一実施形態では、エネルギ自体より、そのフレームの何らかの低電力の計算エネルギの方がより良好な重要度の尺度になる。
この実施形態では、最大エネルギの部分列(複数も可)を選択した後、その部分列(複数も可)は、過去ピッチ値および将来ピッチ値に基づいて、現行ピッチ値を平滑化するために、すなわち、整合した複数部分列を維持するためにその値が最も接近した現行ピッチの整数倍数または部分を見つけるために使用される。
これを心に留めて、本発明の一実施形態によりピッチ数列を決定するためのフロー・ダイアグラムを示す図3、ならびに本発明の一実施形態により複数ピッチの部分列を識別する、一連のフレームに関するピッチ値のグラフを示す図4に注意を向ける。
図3の実施形態では、互いに係数の範囲内にある、すなわち、係数>p1/p2>1/係数である一連のピッチ値をそれぞれが含むような整合したピッチ部分列が計算される。連続的ではないが単一時間単位分だけ分離されているピッチp1およびp2の場合、Lfactor>p1/p2>部分列1/Lfactorになるように、係数より大きいLfactorと呼ばれる何らかの係数が存在する。すべてのピッチ値が互いに整合している部分列は、整合した部分列である。本発明の他の実施形態によれば、整合した部分列は、指定のLfactor特性に適合する非連続ピッチを含むことができる。ピッチ値のそれぞれの整合した部分列は、それに関する真のピッチを捜している現行瞬間に対しその部分列内で最も近い瞬間に対応する1つの値(テール・ピッチ値(tail pitch value)という)を有する。
この手順は元のピッチ値から始まり、その出力は1組の平滑化ピッチ値になる。任意の時点Tcurに関する平滑化ピッチ値は、それより先行するTpastピッチ値と、それに続くTfutureピッチ値に依存する。したがって、図4を参照すると、フレーム1〜6内のすべてのピッチ値は以下に詳細に説明する方法ですでに処理されているものと想定する。図4に示した通り、このように処理したピッチ値のうち、ピッチ追跡アルゴリズムにより、1、2、5、および6は真のピッチ値であると判明しており(すなわち、ピッチ検出器が真の値を検出した)、したがって、それらを平滑化する必要はまったくなかった。対照的に、フレーム3および4内のピッチ値(それぞれ42および43)は、ピッチ追跡により損傷したものとして分類され、平滑化値(42’および43’)に対応する倍数整数でそれを割ることにより平滑化されている。直感的に、平滑化ピッチ値(42’)および(43’)は、各ピッチ値がその隣接ピッチ値に「接近」しているという意味でその隣接値とともに整合した数列を構成し、急速変化はまったく発生しないことに留意されたい。(このような急速変化は、真のピッチ(44)と損傷したピッチ(42)との間の遷移で気付くことができる。)
したがって、最初の6つのピッチ値を処理した後、それが真であるか損なわれているかを決定し、後者の場合にそれを平滑化するために、フレーム7の現行ピッチ値(Tcur)(41)が処理される。せいぜい2つの将来点、すなわち、Tfuture=2(遅延=2)、ならびに、6つの過去点、すなわち、Tpast=6が許容されるものと想定する。これは、フレーム=1(45)からフレーム=9(46)の間隔にわたって部分列がサーチされることを意味する。この例では、Tmaxは5に等しく、過去の部分列の最も遠隔なテール・ピッチ値がフレーム=2より先行してはならないことを意味する。この例のTpast、Tfuture、およびTmaxは例示のみのために選択されたものであり、決して拘束するものではないことに留意されたい。
したがって、ステップ31(図3)では、(A)jが[Tcurrent−Tpast,Tcurrent+Tfuture]に属し、(B)各部分列に関するすべてのピッチ値について、係数>p[j+1]/p[j]>1/係数になるように、アルゴリズムが隣接ピッチ値p[j]の最長部分列の集合をサーチする。
このサーチは、平滑化値ではなく検出値に関して実行される(すなわち、ピッチ値42および43は考慮に入れられ、42’および43’は入れられない)ことに留意されたい。図4に示した通り、3つの整合した部分列が明らかにされており、すなわち、部分列(47)はピッチ値(50および51)からなり、部分列(48)はピッチ値(42および43)からなり、部分列(49)はピッチ値(45および44)からなる。見やすくするため、部分列(47)〜(49)は下方へわずかにずれていることに留意されたい。
部分列(47)に焦点を合わせると、50および51というピッチ値は係数値の範囲内であり(たとえば、係数=1.28であると想定する)、容易に気付くように、フレーム4のピッチ値(43)はフレーム5のピッチ値(50)よりかなり大きく、いずれにしても、P(フレーム=4)/P(フレーム=5)という比率が許容係数値を超えるので、フレーム4のピッチ値(43)は部分列47のメンバではないことが示されている。部分列48および49は同じ方法で決定された。いずれ部分列についても、その時点が現行時点に最も近いテール・ピッチ値(すなわち、部分列49の場合の44、部分列48の場合の43、部分列47の場合の51)は、現行時点からTmax(想起される通り、この例では5である)の範囲内にあることに留意されたい。
フレーム8および9のピッチ値(46および52)は上述の係数基準に適合せず、したがって、これらは同じ部分列内に存在できないので、いかなる将来部分列(複数も可)も明らかにされていないことに留意されたい。また、有効な部分列が1つのメンバを含む場合、フレーム8のピッチ値(52)からなる第1の部分列と、フレーム9のピッチ値(46)からなる第2の部分列という、追加の2つの部分列を考慮しなければならない。
部分列を決定した後、最高重要度を有する部分列が選択される(図3のステップ34)。ちなみに、ステップ(32および33)を使用する変更された一実施形態については後述することに留意されたい。
次に上記の例に戻ると、一実施形態では、各部分列の重要度は、部分列のそれぞれについて累積エネルギ値を決定することによって計算され、すなわち、各部分列ごとに、その構成ピッチ値のエネルギが合計され、各部分列のエネルギ・スコアを発生する。
たとえば、図4の例では、部分列47が最高スコアを有すると想定すると、現行ピッチ値はそれに適している。このために、(ステップ35)選択した部分列(47)のテール・ピッチ値(51)に最も接近したものにするために、(フレーム7の)現行ピッチ値について整数値が計算される。この結果、その複数隣接ピッチ値(52および51)に関する係数制約に明らかに適合する平滑化ピッチ値(53)が得られる。フレーム7の元のピッチ値が53であった(すなわち、ピッチ検出器が損傷したピッチ値ではなく真のピッチ値を検出する)場合、即時テストにより、このピッチ値が係数特性に適合することが明らかになっていると考えられ、したがって、倍数整数を計算するステップは不要になったと考えられることに留意されたい。
フレーム=7に関する計算を完遂した後、次のピッチ値(52またはフレーム=8)などに関してオンザフライ計算が続行される。
次に図3のステップ32および33に戻ると、変更された一実施形態では、「接近した」部分列の場合、それらはグループ別に収集され、現行ピッチ値はそのグループの代表的部分列に適合している。より具体的には、部分列はテール・ピッチ値別にソートされ、その隣接値から係数の範囲内にある要素のグループに区分される(ステップ32)。各グループのエネルギは、そのグループを構成する個々の部分列のエネルギを合計することによって得られ(ステップ33)、代表的部分列を発生する。最大総エネルギを有するテールのグループが選択される。次に、グループ代表テール・ピッチ値は、たとえば、そのグループ内の部分列の別個のテール値の平均テール・ピッチ値によって計算される(ステップ34)。平均は一例にすぎず、Tcurに最も近い期間に対応するピッチ値を選出することなどの他の変形例も適用可能であることに留意されたい。最後に、計算された平均ピッチ値のそれに最も近くなるように、現行ピッチ値に整数をかけるかまたは現行ピッチ値を整数で割る(ステップ35)。たとえば、図4に戻ると、テール・ピッチ値がソートされた場合(ステップ32)、部分列49のテール・ピッチ値44、部分列47のテール・ピッチ値51、および(ピッチ52のみからなる将来部分列の)ピッチ値52がいずれも非常に接近しており、デイム・グループ(dame group)に分類されることが分かる。他のグループは部分列48からなる。
付随的に、将来部分列の場合、「テール」ピッチは実際のところ「ヘッド」ピッチであり、すなわち、現行ピッチ値に最も近い部分列内の最初の値であることに留意されたい。便宜上、「テール・ピッチ値」という用語は、過去部分列の「テール」ピッチ値と将来部分列の「ヘッド」ピッチ値の両方を意味する。
次に図4の例に戻ると、各グループの代表的部分列は、重要度(この実施形態では、総エネルギである)を決定することによって計算される(ステップ33)。当然のことながら、3つの部分列47、49、および52からなるグループの方が優勢である(というのは、3つの部分列の累積エネルギが他のグループの部分列(48)の累積エネルギより大きいからである)。次に、たとえば、別個のテール・ピッチ値44、51、および52を平均し、平均テール・ピッチ値を発生することにより、代表的テール・ピッチ値が計算され(ステップ34)、上記で指定した方法で代表的ピッチ値に関して現行ピッチ値の平滑化(必要な場合)が実行される(ステップ35)。
したがって、上記で説明した通り、整合しており、その中から最も重要なものを選択するための複数ピッチの部分列を生成するためのメカニズムが提供される。重要度は、たとえば、エネルギ、検出したピッチ周波数を有する周期信号としてその信号を記述できる程度を測定するピッチ値の質の尺度、またはそれらの組合せの点で測定することができる。すべて必要に応じてならびに適宜、上記に加えてまたは上記の代わりに、重要度に関する他の係数を使用することができる。一実施形態では、あるピッチ値の方が他のピッチ値より正しい可能性が低い場合、重要度係数計算の際に、エネルギ(単独であるかまたは他のパラメータと組み合わせて)が考慮に入れられる。たとえば、非常に低いエネルギを有するフレームは、高いエネルギを有するフレームより関連性が低い可能性がある。同様に、そのピッチ・モデルがそのフレームのスペクトル用としては不十分なモデルであるとピッチ検出器が判断したフレームは、割引しなければならない。この趣旨で、エネルギの他に、信号が指定のピッチを有する周期信号に適合できる程度の尺度を使用することは可能である。これは通常、その値が0と1の間にあるフレーム当たり1つの数を追加することになり、それはエネルギに対して増殖性の影響を及ぼす可能性がある。
他の実施形態では、整合した数列は、互いに整合した間隔内のすべてのピッチ値からなり、一部のピッチ値は何らかの整数係数での乗算または除算によって正規化される。この実施形態については、図4および図5も参照して説明する。
したがって、ステップ(61)では、現行ピッチの整数または逆整数倍数が選択される。図4の例では、もう一度、(ピッチ値1〜6を処理した後)フレーム7のピッチ値が現在評価されていると想定すると、最初に、抜取り値41が取られる(すなわち、整数値が1になる)。
次に、(ステップ62)現行ピッチ値(1という整数倍数を有する)から始まる部分列が見つかり、最終ピッチ値が現行ピッチ値から「係数」の範囲内になるように、整数比または倍数をそれに適用することにより、隣接ピッチ値がその部分列に正規化される。図4の例では、当然のことながら、隣接ピッチ値51は係数の範囲内ではなく(というのは、41に関する急速変化を明示しているからである)、したがって、整数倍数、たとえば、2がそれに適用され、現行ピッチ値41に対して「係数の範囲内」にある計算ピッチ値55を発生する。倍数係数(この例では2)はこのように計算されたピッチ値55に関連付けられている。同じように、各計算ピッチ値がその隣接値(計算ピッチ値)から係数の範囲内になるように、数列は、許容された[Tcurrent−Tpast,Tcurrent+Tfuture]という間隔の範囲内で後方および前方に延長される。部分列の計算を完了した後、たとえば、1という倍数係数がそれに関連付けられているピッチ値の数(すなわち、そのままの状態で保持され、正規化の対象にならない部分列内のピッチ値の数)として、その重要度が決定される。ステップ63では、これまでに得られた最良重要度との比較が行われ、より良い重要度が現行フレームから得られる場合、それが置換される。このようにして、これまでの最良の道が記録される。
次に、もう一度、フレーム7のピッチ値から始めるが、今回は逆整数2により、他の部分列を構築するために、ステップ61〜63が繰り返される。(第1の部分列で想起される通り、フレーム7のピッチ値は倍数係数1を有している。)したがって、逆整数2を適用する(すなわち、2で割る)場合、フレーム7について結果として得られる計算ピッチ値は53である(図4)。次に、隣接ピッチ値(フレーム6の場合)は、フレーム7のものから係数の範囲内でなければならず、容易に示されているように、フレーム6のピッチ値(51)は係数の範囲内にあり、したがって、その関連倍数係数は1になる。同様に、第2の部分列は、[Tcurrent−Tpast,Tcurrent+Tfuture]という間隔の範囲内で後方および前方に延長される。第2の部分列の重要度は同じように、すなわち、その関連乗数係数が1になるピッチ・メンバの数として計算される。
部分列(49、48、および47)が重複していない前の実施形態から脱却して、この実施形態では、すべての部分列がTpast〜Tfutureの範囲にわたって延びているという意味で部分列が重複していることに留意されたい。
同じように、たとえば、(フレーム7のピッチ値に関する)逆倍数3について他の部分列が構築され、次に、すべての許容整数倍数および逆倍数が使い果たされる(ステップ64の「YES」)まで、倍数2に関する他の部分列ならびに倍数3に関する他の部分列が構築される。各部分列について重要度が計算されており、重要度の点で現行勝者(winner)が各ステップで保持されることに留意されたい。実行すべきものとして残っているのは、「勝利(winning)」部分列、すなわち、最高重要度スコアを有するものを識別することである(ステップ65)。勝利部分列内の現行ピッチ値(フレーム=7の場合)は、その関連倍数係数によりすでに平滑化されている。明らかに、勝利部分列内のフレーム=7に関する現行ピッチ値が倍数係数1に関連付けられている場合、ピッチ検出器が損傷したピッチ値ではなく真のピッチ値を検出したことを意味する。
次に、次のピッチ値(フレーム=8)などに関して手順が繰り返される。また、この実施形態に関しては、様々な変更例が適用可能であり、たとえば、重要度は、エネルギ重要度係数とピッチの質重要度係数の質の加重値として決定できるであろう。
他の実施形態では、部分列は単一ゼロ・ピッチ点を「スキップオーバ」し、連続性について決定する際により大きい係数を可能にすることもできることに留意されたい。たとえば、使用された正規係数は1.28であり、より大きい係数、たとえば、1.4が使用される。後者は2つのステップに関する最悪の場合のジャンプをより正確に表しているので、後者が使用される。1.28を2回連続してジャンプすることは、適切なピッチに属しそうもない。
様々な変更および修正を実行できることに留意されたい。たとえば、上記の第1の実施形態は、以下のように余分なステップを組み込むように変更することができる。
ピッチ軌道が係数より大きいジャンプを含まない場合、[Tcurrent−Tpast,Tcurrent+Tfuture]という間隔内で発生するすべてのピッチ値のセットがソートされ、各サブセット内で連続点間の距離が係数を超えないようにサブセットに区分されるが、係数より大きいジャンプによってサブセット同士が分離される場合には、上記で見つかったピッチ軌道のそれぞれは定義により任意の他のものではなく、サブセットの1つに存在しなければならない。この理由から、上記のアルゴリズムに追加ステップを追加することは可能である。これは、ソートした1組のピッチ値を、係数より大きいジャンプによって分離されたサブセットに区分することを伴う。最大エネルギを有するサブセットが選択される。上述のアルゴリズムで考慮された軌道は、選択したサブセット内の値を有するものになる。
また、本発明によるシステムは適切にプログラミングされたコンピュータになりうることも理解されるであろう。同様に、本発明は、本発明の方法を実行するためにコンピュータによって読取り可能なコンピュータ・プログラムを企図している。本発明は、本発明の方法を実行するためにマシンによって実行可能な命令からなるプログラムを具体的に実施するマシン可読メモリをさらに企図している。
本発明の一実施形態によりピッチ平滑化アルゴリズムを使用するシステムを示すブロック図である。 一連のフレームに関する抜取りピッチ値のグラフである。 本発明の一実施形態によるピッチ追跡のフロー・ダイアグラムである。 本発明の一実施形態により、複数ピッチの部分列を識別する、一連のフレームに関するピッチ値のグラフである。 本発明の他の実施形態によるピッチ追跡のフロー・ダイアグラムである。

Claims (12)

  1. (i)一連のピッチ値からなる検出ピッチ信号を受信するステップを有し、前記検出ピッチ信号内の各現行ピッチ値ごとに、少なくとも以下の(ii)〜(iv)を実行する方法であって、
    (ii)(A)jが[Tcurrent−Tpast,Tcurrent+Tfuture]に属し、(B)各部分列に関するすべてのピッチ値について、係数>p[j+1]/p[j]>1/係数になるように、アルゴリズムが隣接ピッチ値p[j]の最長部分列の集合である、部分列を構築するステップであって、、整合した数列内の2つの連続する真のピッチ値p1,p2は、係数>p1/p2>1/係数というプロパティを有するように定義され、この係数の値は、2つの真のピッチ値間の最大許容変化を反映し、したがって、前記ピッチ値が互いに整合するステップと、
    (iii)前記少なくとも1つの部分列の重要度を計算し、1つの部分列内の各ピッチ値が1つのエネルギ値に関連付けられ、前記重要度が前記部分列のエネルギに依存し、前記部分列の前記エネルギが前記部分列の前記ピッチ値の前記エネルギ値の関数であり、最高重要度を有する部分列を選択するステップと、
    (iv)前記現行ピッチ値が最高重要度を有する前記部分列と整合しない場合に、最高重要度を有する部分列のテール・ピッチ値(最高重要度を有する部分列が将来部分列である場合は、ヘッド・ピッチ値)に最も近接した値となるように、前記現行ピッチ値を1より大きい整数値でそれを割るかまたは1より大きい整数値を前記現行ピッチ値に掛けることによって、前記現行ピッチ値を平滑化するステップと、
    を有する、ピッチ信号を追跡するための方法。
  2. 前記少なくとも1つの部分列が[Tcurrent,Tfuture+Tcurrent]の範囲内に入るピッチ値からなり、Tcurrentが前記現行ピッチ値であり、Tfutureが将来ピッチ値であり、前記部分列内のそれぞれ2つの連続ピッチ値が1つの係数分だけ離れており、1.5>係数>1であり、[Tcurrent,Tfuture+Tcurrent]の前記範囲内のすべてのピッチ値が1つの部分列に属す、請求項1に記載の方法。
  3. 前記係数=1.28である、請求項2に記載の方法。
  4. このような部分列が、
    連続ピッチ値と、
    非連続ピッチ値
    のうちの少なくとも一方を有する、請求項1に記載の方法。
  5. 前記部分列の前記エネルギが前記部分列の前記ピッチ値の前記エネルギ値の合計である、請求項1に記載の方法。
  6. 過去部分列がテール・ピッチ値を有し、将来部分列がヘッド・ピッチ値を有し、前記(iv)が、最高重要度を有する前記部分列の前記テール・ピッチ値と整合したものにするために、1より大きい整数値でそれを割るかまたは1より大きい整数値をそれに掛けることにより、前記現行ピッチ値を平滑化することを含む、請求項1に記載の方法。
  7. (i)一連のピッチ値からなる検出ピッチ信号を受信するステップを有し、前記検出ピッチ信号内の各現行ピッチ値ごとに、少なくとも以下の(ii)〜(iv)を実行する方法であって、
    (ii)(A)jが[Tcurrent−Tpast,Tcurrent+Tfuture]に属し、(B)各部分列に関するすべてのピッチ値について、係数>p[j+1]/p[j]>1/係数になるように、アルゴリズムが隣接ピッチ値p[j]の最長部分列の集合である、部分列を構築するステップであって、、整合した数列内の2つの連続する真のピッチ値p1,p2は、係数>p1/p2>1/係数というプロパティを有するように定義され、この係数の値は、2つの真のピッチ値間の最大許容変化を反映し、したがって、前記ピッチ値が互いに整合するステップと、
    (iii)前記少なくとも1つの部分列の重要度を計算するステップであって、1つの部分列内の各ピッチ値が1つのエネルギ値に関連付けられ、該重要度が前記部分列の前記エネルギに依存し、前記部分列のエネルギが前記部分列の前記ピッチ値の前記エネルギ値の関数であり、過去部分列のテール・ピッチ値または将来部分列のヘッド・ピッチ値をソートすることと、接近したテール・ピッチ値を有する部分列が同じグループ内に存在するように前記それぞれのテールまたはヘッド・ピッチ値により前記部分列をグループ化することを含み、前記重要度の計算が、各グループ内のすべての部分列の重要度を計算することと、最高重要度を有するグループを選択することを含むステップと、
    (iv) 前記現行ピッチ値が最高重要度を有する前記グループ列に含まれる各部分列のテール・ピッチ値の平均、又は、前記グループ列に含まれる各部分列のうち現行ピッチ値の位置と最も近い部分列のテール・ピッチ値(最高重要度を有する前記グループ列に含まれる部分列が将来部分列である場合は、各部分列のヘッド・ピッチ値の平均、又は、各部分列のうち現行ピッチ値の位置と最も近い部分列のヘッド・ピッチ値)と整合しない場合に、その値に最も近接した値となるように、前記現行ピッチ値を1より大きい整数値でそれを割るかまたは1より大きい整数値を前記現行ピッチ値に掛けることによって、前記現行ピッチ値を平滑化するステップと、
    を有する、ピッチ信号を追跡するための方法。
  8. 最高重要度を有する前記グループ内の前記部分列の前記それぞれのテールまたはヘッド・ピッチ値が平均され、平均テールまたはヘッド・ピッチ値を発生し、前記(iv)が、前記現行ピッチ値が前記平均テールまたはヘッド・ピッチ値と整合しない場合に、前記平均テールまたはヘッド・ピッチ値と整合したものにするために、1より大きい整数値でそれを割るかまたは1より大きい整数値をそれに掛けることにより、前記現行ピッチ値を平滑化することを含む、請求項7に記載の方法。
  9. 前記部分列の前記エネルギが前記部分列の前記ピッチ値の前記エネルギ値の合計である、請求項7に記載の方法。
  10. 一連のピッチ値からなる検出ピッチ信号を受信するためのレシーバを有し、前記検出ピッチ信号内の各現行ピッチ値ごとに、プロセッサにより少なくとも以下の(ii)〜(iv)を実行するシステムであって、
    (ii)(A)jが[Tcurrent−Tpast,Tcurrent+Tfuture]に属し、(B)各部分列に関するすべてのピッチ値について、係数>p[j+1]/p[j]>1/係数になるように、アルゴリズムが隣接ピッチ値p[j]の最長部分列の集合である、部分列を構築するステップであって、、整合した数列内の2つの連続する真のピッチ値p1,p2は、係数>p1/p2>1/係数というプロパティを有するように定義され、この係数の値は、2つの真のピッチ値間の最大許容変化を反映し、したがって、前記ピッチ値が互いに整合するステップと、
    (iii)前記少なくとも1つの部分列の重要度を計算し、1つの部分列内の各ピッチ値が1つのエネルギ値に関連付けられ、前記重要度が前記部分列のエネルギに依存し、前記部分列の前記エネルギが前記部分列の前記ピッチ値の前記エネルギ値の関数であり、最高重要度を有する部分列を選択するステップと、
    (iv)前記現行ピッチ値が最高重要度を有する前記部分列と整合しない場合に、最高重要度を有する部分列のテール・ピッチ値(最高重要度を有する部分列が将来部分列である場合は、ヘッド・ピッチ値)に最も近接した値となるように、前記現行ピッチ値を1より大きい整数値でそれを割るかまたは1より大きい整数値を前記現行ピッチ値に掛けることによって、前記現行ピッチ値を平滑化するステップと、
    を有する、ピッチ信号を追跡するためのシステム。
  11. コンピュータに、一連のピッチ値からなる検出ピッチ信号を受信するためのレシーバを含み、前記検出ピッチ信号内の各現行ピッチ値ごとに、少なくとも以下の(i)〜(iii)を実行させるコンピュータ・プログラムであって、
    (i)(A)jが[Tcurrent−Tpast,Tcurrent+Tfuture]に属し、(B)各部分列に関するすべてのピッチ値について、係数>p[j+1]/p[j]>1/係数になるように、アルゴリズムが隣接ピッチ値p[j]の最長部分列の集合である、部分列を構築するステップであって、、整合した数列内の2つの連続する真のピッチ値p1,p2は、係数>p1/p2>1/係数というプロパティを有するように定義され、この係数の値は、2つの真のピッチ値間の最大許容変化を反映し、したがって、前記ピッチ値が互いに整合するステップと、
    (ii)前記少なくとも1つの部分列の重要度を計算し、1つの部分列内の各ピッチ値が1つのエネルギ値に関連付けられ、前記重要度が前記部分列のエネルギに依存し、前記部分列の前記エネルギが前記部分列の前記ピッチ値の前記エネルギ値の関数であり、最高重要度を有する部分列を選択するステップと、
    (iii)前記現行ピッチ値が最高重要度を有する前記部分列と整合しない場合に、最高重要度を有する部分列のテール・ピッチ値(最高重要度を有する部分列が将来部分列である場合は、ヘッド・ピッチ値)に最も近接した値となるように、前記現行ピッチ値を1より大きい整数値でそれを割るかまたは1より大きい整数値を前記現行ピッチ値に掛けることによって、前記現行ピッチ値を平滑化するステップと、
    を含む方法をコンピュータに実行させるためのコンピュータ・プログラム。
  12. コンピュータにピッチ信号の追跡の方法を実行させるためのコンピュータ・プログラムであって、前記方法は、
    (i)(A)jが[Tcurrent−Tpast,Tcurrent+Tfuture]に属し、(B)各部分列に関するすべてのピッチ値について、係数>p[j+1]/p[j]>1/係数になるように、アルゴリズムが隣接ピッチ値p[j]の最長部分列の集合である、部分列を構築するステップであって、、整合した数列内の2つの連続する真のピッチ値p1,p2は、係数>p1/p2>1/係数というプロパティを有するように定義され、この係数の値は、2つの真のピッチ値間の最大許容変化を反映し、したがって、前記ピッチ値が互いに整合するステップと、
    (ii)前記少なくとも1つの部分列の重要度を計算するステップであって、1つの部分列内の各ピッチ値が1つのエネルギ値に関連付けられ、該重要度が前記部分列の前記エネルギに依存し、前記エネルギが前記部分列の前記ピッチ値の前記エネルギ値の関数であり、過去部分列のテール・ピッチ値または将来部分列のヘッド・ピッチ値をソートすることと、接近したテール・ピッチ値を有する部分列が同じグループ内に存在するように前記それぞれのテールまたはヘッド・ピッチ値により前記部分列をグループ化することを含み、前記重要度の計算が、各グループ内のすべての部分列の重要度を計算することと、最高重要度を有するグループを選択することを含むステップと、
    (iii) 前記現行ピッチ値が最高重要度を有する前記グループ列に含まれる各部分列のテール・ピッチ値の平均、又は、前記グループ列に含まれる各部分列のうち現行ピッチ値の位置と最も近い部分列のテール・ピッチ値(最高重要度を有する前記グループ列に含まれる部分列が将来部分列である場合は、各部分列のヘッド・ピッチ値の平均、又は、各部分列のうち現行ピッチ値の位置と最も近い部分列のヘッド・ピッチ値)と整合しない場合に、その値に最も近接した値となるように、前記現行ピッチ値を1より大きい整数値でそれを割るかまたは1より大きい整数値を前記現行ピッチ値に掛けることによって、前記現行ピッチ値を平滑化するステップと、
    を含む、コンピュータ・プログラム。
JP2004563423A 2002-12-27 2003-12-03 ピッチ信号を追跡するための方法 Expired - Fee Related JP4336316B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/331,451 US7251597B2 (en) 2002-12-27 2002-12-27 Method for tracking a pitch signal
PCT/IB2003/005597 WO2004059616A1 (en) 2002-12-27 2003-12-03 A method for tracking a pitch signal

Publications (3)

Publication Number Publication Date
JP2006512604A JP2006512604A (ja) 2006-04-13
JP2006512604A5 JP2006512604A5 (ja) 2008-12-11
JP4336316B2 true JP4336316B2 (ja) 2009-09-30

Family

ID=32654736

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004563423A Expired - Fee Related JP4336316B2 (ja) 2002-12-27 2003-12-03 ピッチ信号を追跡するための方法

Country Status (8)

Country Link
US (1) US7251597B2 (ja)
EP (1) EP1579423B1 (ja)
JP (1) JP4336316B2 (ja)
KR (1) KR100920625B1 (ja)
CN (1) CN100578611C (ja)
AU (1) AU2003282317A1 (ja)
TW (1) TWI238378B (ja)
WO (1) WO2004059616A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7783488B2 (en) * 2005-12-19 2010-08-24 Nuance Communications, Inc. Remote tracing and debugging of automatic speech recognition servers by speech reconstruction from cepstra and pitch information
JP4882899B2 (ja) * 2007-07-25 2012-02-22 ソニー株式会社 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム
JP5974436B2 (ja) * 2011-08-26 2016-08-23 ヤマハ株式会社 楽曲生成装置
CN103714824B (zh) * 2013-12-12 2017-06-16 小米科技有限责任公司 一种音频处理方法、装置及终端设备
TWI643183B (zh) * 2017-09-22 2018-12-01 財團法人鞋類暨運動休閒科技研發中心 Scale recognition module

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3978287A (en) * 1974-12-11 1976-08-31 Nasa Real time analysis of voiced sounds
US4076958A (en) * 1976-09-13 1978-02-28 E-Systems, Inc. Signal synthesizer spectrum contour scaler
US4696038A (en) * 1983-04-13 1987-09-22 Texas Instruments Incorporated Voice messaging system with unified pitch and voice tracking
US4731846A (en) * 1983-04-13 1988-03-15 Texas Instruments Incorporated Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal
US4879748A (en) * 1985-08-28 1989-11-07 American Telephone And Telegraph Company Parallel processing pitch detector
US4969193A (en) * 1985-08-29 1990-11-06 Scott Instruments Corporation Method and apparatus for generating a signal transformation and the use thereof in signal processing
US4809334A (en) * 1987-07-09 1989-02-28 Communications Satellite Corporation Method for detection and correction of errors in speech pitch period estimates
US5226108A (en) * 1990-09-20 1993-07-06 Digital Voice Systems, Inc. Processing a speech signal with estimated pitch
US5704000A (en) * 1994-11-10 1997-12-30 Hughes Electronics Robust pitch estimation method and device for telephone speech
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US5864795A (en) * 1996-02-20 1999-01-26 Advanced Micro Devices, Inc. System and method for error correction in a correlation-based pitch estimator
US6330533B2 (en) * 1998-08-24 2001-12-11 Conexant Systems, Inc. Speech encoder adaptively applying pitch preprocessing with warping of target signal
JP3594854B2 (ja) * 1999-11-08 2004-12-02 三菱電機株式会社 音声符号化装置及び音声復号化装置
US6917912B2 (en) * 2001-04-24 2005-07-12 Microsoft Corporation Method and apparatus for tracking pitch in audio analysis

Also Published As

Publication number Publication date
CN1729508A (zh) 2006-02-01
CN100578611C (zh) 2010-01-06
EP1579423B1 (en) 2012-05-23
TWI238378B (en) 2005-08-21
WO2004059616A1 (en) 2004-07-15
KR20050085166A (ko) 2005-08-29
EP1579423A1 (en) 2005-09-28
US7251597B2 (en) 2007-07-31
KR100920625B1 (ko) 2009-10-08
US20040128124A1 (en) 2004-07-01
JP2006512604A (ja) 2006-04-13
TW200428356A (en) 2004-12-16
AU2003282317A1 (en) 2004-07-22

Similar Documents

Publication Publication Date Title
JP4878437B2 (ja) オーディオサムネイルを生成するためのシステムおよび方法
EP2867887B1 (en) Accent based music meter analysis.
EP0153787B1 (en) System of analyzing human speech
US20150094835A1 (en) Audio analysis apparatus
US8185384B2 (en) Signal pitch period estimation
US8818811B2 (en) Method and apparatus for performing voice activity detection
EP1895507B1 (en) Pitch estimation, apparatus, pitch estimation method, and program
US20030177002A1 (en) Pitch extraction methods and systems for speech coding using sub-multiple time lag extraction
KR101939001B1 (ko) 심층 인공신경망 기반 자동 악보 채보를 이용한 연주 및 악보 정렬 방법 및 시스템
US7626110B2 (en) Energy-based audio pattern recognition
WO2017166800A1 (zh) 丢帧补偿处理方法和装置
US7563971B2 (en) Energy-based audio pattern recognition with weighting of energy matches
JP5141397B2 (ja) 音声処理装置およびプログラム
JP4336316B2 (ja) ピッチ信号を追跡するための方法
US7236927B2 (en) Pitch extraction methods and systems for speech coding using interpolation techniques
US7529661B2 (en) Pitch extraction methods and systems for speech coding using quadratically-interpolated and filtered peaks for multiple time lag extraction
Cogliati et al. Piano music transcription modeling note temporal evolution
JP4128848B2 (ja) 音高音価決定方法およびその装置と、音高音価決定プログラムおよびそのプログラムを記録した記録媒体
KR20020084199A (ko) 파라메트릭 엔코딩에서 신호 성분들의 링킹
JP4242320B2 (ja) 音声認識方法、その装置およびプログラム、その記録媒体
JP2006512604A5 (ja)
Huh et al. Modeling Musical Onset Probabilities via Neural Distribution Learning
Tryfou et al. Tempo Estimation Based on Linear Prediction and Perceptual Modelling.
Gagneré et al. Adapting Pitch-Based Self Supervised Learning Models for Tempo Estimation
CN115862659A (zh) 基于双向级联框架的迭代式基频估计与语音分离方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061129

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081022

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20081022

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081111

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20081104

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081209

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20090206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090310

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090326

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090623

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090626

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120703

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130703

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees