JP2003530605A - 音声信号におけるピッチ推定 - Google Patents

音声信号におけるピッチ推定

Info

Publication number
JP2003530605A
JP2003530605A JP2001575427A JP2001575427A JP2003530605A JP 2003530605 A JP2003530605 A JP 2003530605A JP 2001575427 A JP2001575427 A JP 2001575427A JP 2001575427 A JP2001575427 A JP 2001575427A JP 2003530605 A JP2003530605 A JP 2003530605A
Authority
JP
Japan
Prior art keywords
pitch
peak
signal
estimate
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001575427A
Other languages
English (en)
Inventor
ブランデル、セシリア
ヨハニソン、ヘンリク
Original Assignee
テレフオンアクチーボラゲツト エル エム エリクソン(パブル)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP00610035A external-priority patent/EP1143413A1/en
Application filed by テレフオンアクチーボラゲツト エル エム エリクソン(パブル) filed Critical テレフオンアクチーボラゲツト エル エム エリクソン(パブル)
Publication of JP2003530605A publication Critical patent/JP2003530605A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Abstract

(57)【要約】 音声信号(2)のピッチの推定方法は、その音声信号をセグメントに分割するステップと、それぞれのセグメントにおいてコンフォーミティ関数を計算するステップと、そのコンフォーミティ関数のピークを検出するステップと、を含む。前記方法はさらに、前記ピークの間の平均距離を推定するステップと、推定された平均距離を前記ピッチの推定値として用いるステップと、を含む。このようにして、従来技術の方法よりも複雑度が低く、従って小形ディジタル信号プロセッサに適する方法が提供される。この方法はまた、ピッチ半減の事態を回避する。この方法が、コンフォーミティ関数において識別されたピークは周期的動態を示すという事実と、真のピッチ周期は実際にピーク間の距離に対応しているという事実と、に基づく時は、もっと簡単なアルゴリズムが実現され、それは、ピッチの半減、ピッチの倍増、などの発生とは無関係に、真のピッチ周期を与える。同様の装置もまた提供される。

Description

【発明の詳細な説明】
【0001】 本発明は、音声信号のピッチの推定方法に関し、該方法は、音声信号をセグメ
ントに分割し、それぞれのセグメントにおける信号のコンフォーミティ(con
formity)関数を計算し、そのコンフォーミティ関数のピークを検出する
タイプのものである。本発明はまた、移動電話におけるこの方法の使用にも関す
る。さらに、本発明は、音声信号のピッチの推定に適する装置にも関する。
【0002】 多くの音声処理システムにおいては、音声のピッチ周期を知ることが望ましい
。例としては、いくつかの音声エンハンスメントアルゴリズムは、ピッチ周期の
正しい推定値の所有に依存する。音声処理アルゴリズムが広範に用いられる1つ
の応用分野は、移動電話である。
【0003】 ピッチ周期を推定する公知の方法は、音声信号に関する自己相関関数、または
類似したコンフォーミティ関数を用いることである。そのような方法の例は、信
号処理に関するIEEE Transactions on Signal P
rocessing、第39巻、第2号、第319−329頁、1991年2月
、に所載の論文、D.A.クラブサック(D.A.Krubsack)、R.J
.ニーダジョン(R.J.Niederjohn)著「雑音で劣化した音声のた
めに発生された信頼測度を用いる自己相関ピッチ検出器および発音判断」に説明
されている。音声信号は51.2msのセグメントに分割され、標準的な短時間
の自己相関関数が、それぞれの連続する音声セグメントにおいて計算される。ピ
ークピッキングアルゴリズムが、それぞれのセグメントにおける自己相関関数に
適用される。このアルゴリズムは、50Hzから333Hzまでのピッチ範囲に
おける最大ピーク(最大値)を選択することにより開始される。このピークに対
応する周期が、ピッチ周期の推定値として選択される。
【0004】 しかし、そのような基本ピッチ推定アルゴリズムは十分ではない。ある場合に
は、ピッチの倍増またはピッチの半減が起こり得、すなわち、最高ピークは、ピ
ッチ周期の半分、またはピッチ周期の2倍の所に現れる。最高ピークは、真のピ
ッチ周期の別の倍数の所にも現れるかもしれない。これらの場合には、最大ピー
クの簡単な選択は、ピッチ周期の誤った推定値を与える。
【0005】 上述の論文はまた、これらの状況にあるアルゴリズムを改善する方法をも開示
している。このアルゴリズムは、ピッチ周期の第1の推定値の1/2、1/3、
1/4、1/5、および1/6におけるピークをチェックする。もし第1の推定
値の半分の値がピッチの範囲内にあれば、この半分の値を含む区間内における自
己相関の最大値が捜し出される。もしこの新しいピークが古いピークの1/2よ
りも大きければ、新しい対応値が古い推定値に取って代わって新しい推定値を与
え、この値はピッチ周期の倍増エラーの可能性を多分訂正されている。このテス
トは、二重の倍増エラー(4倍増エラー)をチェックするために再び行われる。
もしこの最も最近のテストが失敗すれば、この新しい推定値の3倍増エラーのた
めの同様のテストが行われる。このテストは、6倍増のピッチ周期エラーをチェ
ックする。もし原テストが失敗すれば、原推定は、(同様にして)3倍増エラー
および5倍増エラーのテストを受ける。最終値が、ピッチ推定値の計算に用いら
れる。
【0006】 しかし、この公知のアルゴリズムはかなり複雑で多数の計算を必要とし、これ
らの欠点は、小形ディジタル信号プロセッサが移動電話機や類似の装置に用いら
れる時に、その小形ディジタル信号プロセッサにおけるこのアルゴリズムのリア
ルタイム環境での使用可能性を低下させる。さらに、このアルゴリズムは、ピッ
チの倍増、ピッチの3倍増、などのみをチェックし、ピッチの半減を考慮しない
。実際に、もしピークが真のピッチ周期の半分の所に存在すれば、このアルゴリ
ズムは(誤って)そのピークをピッチ周期の推定値として選択するであろう。
【0007】 従って、本発明の目的は、従来技術の方法よりも複雑度の低い上述のタイプの
方法を提供することにより、その方法が小形ディジタル信号プロセッサに適する
ようにすることである。さらに、その方法はまた、ピッチ半減の事態を回避すべ
きである。
【0008】 本発明によれば、この目的は、前記方法が、検出されたピークの間の平均距離
を推定するステップと、この平均距離の推定値をピッチの推定値として用いるス
テップと、を含むことにより達成される。 前記方法が、コンフォーミティ関数において識別されたピークは周期的動態を
示すという事実と、真のピッチ周期は実際にピーク間の距離に対応しているとい
う事実と、に基づく時は、もっと簡単なアルゴリズムが実現され、それは、ピッ
チの半減、ピッチの倍増、などの発生とは無関係に、真のピッチ周期を与える。
【0009】 前記方法が、音声信号をサンプリングしてサンプルの系列を得るステップと、
それぞれのセグメントが固定数の連続サンプルを有するようにセグメントへの分
割を行うステップと、をさらに含む時は、有限数のサンプルのみを考慮しさえす
ればよいので、もっと複雑度の低い方法さえ実現される。
【0010】 前記方法が、線形予測分析(LPA)を用いてフィルタパラメータの集合を推
定するステップと、この推定されたフィルタパラメータの集合に基づくフィルタ
により音声信号をフィルタすることによって修正信号を発生するステップと、前
記修正信号のコンフォーミティ関数を計算するステップと、をさらに含む時は、
原音声信号のスミヤリングの多くが除去されることによりコンフォーミティ関数
のピークが明瞭になる可能性が改善され、それによってピッチ周期のもっと正確
な推定が得られる。
【0011】 本発明の有利な実施例は、コンフォーミティ関数が自己相関関数として計算さ
れる時に実現される。しかし、例えば、原音声信号と上述の修正信号との間の相
互相関のような、他のコンフォーミティ関数を利用することもできることに注意
すべきである。
【0012】 前記方法が、コンフォーミティ関数のそれぞれのピークにおいて、ピークの位
置と前記平均距離の推定値との間の差を計算するステップと、前記差の最小値を
有するピークの位置を改善された推定値として選択することによりピッチの改善
された推定値を発生するステップと、をさらに含む時は、改善された方法が実現
される。このようにして、実際のピークの位置が推定値として用いられ、正しい
ピークが用いられることがなお保証される。もしこの場合に、前記差の最小値を
有するピークがいくつかのサンプルにより示されれば、コンフォーミティ関数の
最大振幅を有するサンプルが改善されたピッチの推定値として選択された時に、
最良の推定値が実現される。
【0013】 本発明の有利な実施例においては、前記方法は、制限された計算リソースしか
持たない装置の代表的な例である移動電話機において用いられる。 上述のように、本発明はさらに、音声信号のピッチの推定に適する装置にも関
する。この装置は、音声信号をセグメントに分割する手段と、それぞれのセグメ
ントにおいて前記信号のためのコンフォーミティ関数を計算する手段と、を含む
。この装置がさらに、前記ピーク間の平均距離を推定するようにされ、また前記
平均距離をピッチの推定値として用いるようにされている時は、従来技術の装置
よりも複雑度の低い装置が実現され、この装置はまた、ピッチ半減の事態を回避
する。
【0014】 本装置が、音声信号をサンプリングしてサンプルの系列を得る手段と、それぞ
れのセグメントが固定数の連続サンプルを有するようにセグメントへの分割を行
う手段と、をさらに含む時は、有限数のサンプルのみを考慮しさえすればよいの
で、もっと複雑度の低い装置さえ実現される。
【0015】 本装置が、線形予測分析(LPA)を用いてフィルタパラメータの集合を推定
する手段と、この推定されたフィルタパラメータの集合に基づくフィルタにより
音声信号をフィルタすることによって修正信号を発生する手段と、前記修正信号
のコンフォーミティ関数を計算する手段と、をさらに含む時は、原音声信号のス
ミヤリングの多くが除去されることによりコンフォーミティ関数のピークが明瞭
になる可能性が改善され、それによってピッチ周期のもっと正確な推定が得られ
る。
【0016】 本発明の有利な実施例は、コンフォーミティ関数が自己相関関数である時に実
現される。しかし、例えば、原音声信号と上述の修正信号との間の相互相関のよ
うな、他のコンフォーミティ関数を利用することもできることに注意すべきであ
る。
【0017】 本装置が、コンフォーミティ関数のそれぞれのピークにおいて、ピークの位置
と前記平均距離の推定値との間の差を計算する手段と、前記差の最小値を有する
ピークの位置を改善された推定値として選択することによりピッチの改善された
推定値を発生する手段と、をさらに含む時は、改善された装置が実現される。こ
のようにして、実際のピークの位置が推定値として用いられ、正しいピークが用
いられることがなお保証される。もしこの場合に、前記差の最小値を有するピー
クがいくつかのサンプルにより示されれば、コンフォーミティ関数の最大振幅を
有するサンプルが改善されたピッチの推定値として選択された時に、最良の推定
値が実現される。
【0018】 本発明の有利な実施例においては、前記装置は移動電話機であり、これは制限
された計算リソースしか持たない装置の代表的な例である。 別の実施例においては、前記装置は、さまざまなタイプの機器において用いら
れうる集積回路である。 ここで、図面を参照しつつ、本発明を以下にさらに十分に説明する。
【0019】 図1は、本発明によるピッチ検出器の例1のブロック図を示す。音声信号2は
、サンプリング回路3において8kHzのサンプリング速度でサンプリングされ
、それらのサンプルは160個の連続するサンプルのセグメントまたはフレーム
に分割される。従って、それぞれのセグメントは、20msの音声信号に対応す
る。これは、標準的な移動電話機における音声処理において通常用いられるサン
プリングおよびセグメント化である。 160サンプルのそれぞれのセグメントは、次にフィルタ4において処理され
るが、これは以下においてさらに詳述される。
【0020】 しかし、まず音声信号の性質を簡単に述べておく。古典的なアプローチにおい
ては、音声信号は、時間的にゆっくり変化する線形フィルタの出力としてモデル
化される。このフィルタは、有声音または無声音のいずれが作られるべきである
かに依存して、パルスの準周期シーケンスまたはランダムノイズにより励振され
る。有声音を作るパルス列は、振動する声帯を経て肺から空気を押し出すことに
より発生される。パルス間の期間はピッチ周期と呼ばれ、音声の特異性にとって
極めて重要である。一方、無声音は、声道に圧縮部を形成し、空気を強制的に高
速度でその圧縮部を通すことにより乱流を生じさせて発生される。この説明は有
声音のピッチ周期の検出を論じるので、無声音はこれ以上考慮しない。
【0021】 音声は変化する信号であるので、前記フィルタもまた時間的に変化しなければ
ならない。しかし、音声信号の性質は、時間的に比較的にゆっくり変化する。音
声の一般的性質が、10−20msの期間の間は固定されたままであると信じる
ことは正当である。これは、もし音声信号の短いセグメントを考えるならば、そ
れぞれのセグメントは、時間的に不変な線形システムをその期間中に励振するこ
とにより発生されたものとして効果的にモデル化されうるという基本原理に導く
。前記フィルタの効果は、声道、舌、口、および唇が生じさせたものと見ること
ができる。
【0022】 上述のように、有声音は、励振信号により駆動される線形フィルタからの出力
信号として解釈できる。これは図2の上部に示されており、そこでは、パルス列
21はフィルタ22により処理され、有声音信号23を発生する。ピッチ周期の
検出にとっての良好な信号は、もし励振信号が音声から抽出できれば得られる。
ブロック24においてフィルタパラメータAを推定した後に、その推定されたフ
ィルタパラメータに基づき逆フィルタ25で音声をフィルタすることにより、励
振信号に類似した信号26を得ることができる。この信号は、残留信号と呼ばれ
る。このプロセスは、図2の下部に示されている。ブロック24および25は、
図1におけるフィルタ4内に含まれている。
【0023】 フィルタパラメータの推定は、線形予測分析(LPA)と呼ばれる方法により
行われる全極モデル化に基づく。この名称は、この方法が線形予測と等価である
事実に由来する。この方法は、本技術分野において公知であるので、ここではこ
れ以上詳述しない。
【0024】 ピッチの推定は、残留信号の自己相関に基づいており、残留信号は上述のよう
にして得られる。このようにして、フィルタ4からの出力信号は、自己相関計算
ユニット5へ供給される。図3aは、有声音信号の20msのセグメントの例を
示し、図3bは、残留信号の対応する自己相関関数を示す。図3aからは、実際
のピッチ周期が42サンプルに対応する約5.25msであることがわかり、従
って、ピッチ推定は最終的にはこの値になるべきである。
【0025】 ピッチの推定における次のステップは、ユニット5により与えられる自己相関
関数にピークピッキングアルゴリズムを適用することである。これは、ピーク検
出器6において行われ、ピーク検出器6は自己相関関数の最大ピーク(すなわち
最大値)を識別する。次に、最大ピークのインデックス値、すなわちサンプル数
または遅れが、ピッチ周期の予備推定値として用いられる。図3bに示されてい
る場合には、最大ピークが、42サンプルの遅れの所に実際に位置することがわ
かる。最大ピークの探索は、ピッチ周期が存在していそうな範囲においてのみ行
われる。この場合には、その範囲は60−333Hzにセットされる。
【0026】 しかし、この基本ピッチ推定アルゴリズムは、必ずしも十分ではない。ある場
合には、ピッチの倍増またはピッチの半減が起こるかもしれず、すなわち、ひず
みのため、真のピッチ周期に対応する自己相関関数のピークは最高ピークではな
く、最高ピークはピッチ周期の半分、またはピッチ周期の2倍の所に現れる。最
高ピークはまた、実際のピッチ周期の他の倍数の所に現れることもある(ピッチ
の3倍増など)が、これが起こることは比較的に稀である。図4には、ピッチの
倍増が起こるであろう場合の代表的な例が示されており、図4は、再び残留信号
の自己相関関数を示している。ここでもまた、正しいピッチ周期は42サンプル
の近くにあるが、ピッチ周期の2倍の所、すなわち84サンプル付近、における
ピークは、実際に42サンプルの所のピークよりも高い。従って、基本ピッチ推
定アルゴリズムは、84サンプルまでのピッチ周期を推定し、ピッチの倍増が起
こることになる。2つのもっと小さいピークが、ピッチ周期の半分付近に位置し
ているのも見られるが、ある場合には、これらの1つが正しいピークよりも高く
なることがありえ、ピッチの半減が起こりうる。
【0027】 従って、ピッチの倍増およびピッチの半減の問題を避けるために、ピッチ検出
アルゴリズムを以下に説明するように改善する。 予備ピッチ推定値が決定された後に、リスクチェックユニット7において、ピ
ッチの半減またはピッチの倍増のリスクが存在するかどうかをチェックする。最
大ピークの75%よりも高いピーク値を有する全てのピークを検出し、この検出
の結果に依存してさらなる処理を行う。もし1つのピーク、すなわち原最大ピー
ク、のみが検出されれば、ピッチの倍増またはピッチの半減を回避するプロセス
を行う必要はない。この状況においては、予備ピッチ推定値を最終ピッチ推定値
として用いる。しかし、もし1つより多くのピークが検出されれば、ピッチの倍
増またはピッチの半減のリスクが存在し、正しいピークがピッチ推定値として選
択されることを保証するためには、さらなるアルゴリズムを行わなければならな
い。
【0028】 そのようなアルゴリズムの2つの異なる解決法を説明する。1つの解決法はユ
ニット8において行われ、いくつかの前のセグメントからのピッチ推定値が得ら
れる時に用いられるが、他の解決法はユニット9において行われ、そのような推
定値が得られない時に用いられ、音声信号の開始時がその場合にあたる。後者の
解決法をまず説明する。
【0029】 前に推定されたピッチ周期が得られない場合は、ピッチの倍増およびピッチの
半減を回避する手順は、識別されたピークが周期的動態を示すという事実に基づ
く。実際に、ピッチ周期は、それらのピーク間の距離に簡単に対応するといえる
。検出されたピークのインデックス値、すなわち遅れは、それらのインデックス
値が互いにどれだけ近いかに依存して、グループに分類される。多くの場合、ピ
ークは、1つより多くのインデックス、すなわち1つより多くのサンプルにより
表されることができ、ピークの周辺にいくつかのインデックスが検出されること
になる。例えば、5サンプルよりも小さい距離を有するインデックスは、同じグ
ループ内に分類される。
【0030】 それぞれのグループにおいて平均が計算され、次に平均インデックスの間の差
(距離)が計算される。0に近い差もまた計算される。そのわけは、第1のピー
クが実際のピッチ周期かも知れないからである。もし検出されたピークが、現セ
グメントにおける音声信号の周期的動態を示せば、グループ間の差はほぼ同じは
ずである。
【0031】 従って、もしグループ間の差の分散が、与えられたスレショルド、例えば10
より小さければ、差の平均、すなわち平均距離は、ほぼピッチ周期であるものと
仮定され、従ってピッチ周期の2次推定値として用いられる。分散のスレショル
ドは、平均値の間の確からしい差とそれらの分散との観察からセットできる。
【0032】 図5には、この手順の例が示されており、図5におけるレベルIは、受取られ
た最高ピークのインデックスを示す。レベルIIにおいては、それらのインデック
スがグループに分類され、レベルIIIにおいては、それらのグループの平均値が
計算される。レベルIVには、それらの平均値の間の差が示され、最後にレベルV
においては分散が計算される。
【0033】 平均距離は、直接ピッチ推定値として用いてもよく、あるいは、この方法は、
異なるグループを表す平均インデックス(レベルIII)のそれぞれから平均距離
を減算することにより改善することもできる。この減算の結果が最小になるグル
ープ、すなわち、平均距離に最も近いグループが、ピッチ推定値として選択され
る。
【0034】 しかし、もし分散がスレショルドよりも大きければ、それは、ピーク間の距離
が違い過ぎて信号の周期的動態を表しえないことを意味する。その場合には、こ
の方法を用いることはできず、予備ピッチ推定値が最良の推定値として維持され
る。
【0035】 この方法が、いくつかの連続するセグメントに対して用いられ、もしそれらの
セグメントにおけるピッチ推定値がメモリ内に記憶されていれば、それら前の推
定値は、ピッチの倍増およびピッチの半減を回避する異なる方法において用いら
れうる。この方法を以下に説明する。
【0036】 まず、例えば、最後の15セグメントから得られた前のピッチ推定値の平均を
計算する。次に、この値を、残留信号の自己相関関数の最高ピークが存在する場
所のインデックス値から減算するが、これは、最高ピークのインデックス値と、
前に検出されたピッチ周期と、の間の差を計算することを意味する。与えられた
人物におけるピッチ周期は、時間的に比較的に一定しているので、現セグメント
の正しいピッチ周期と、前のピッチ推定値の平均と、の差は小さいことが予期さ
れる。従って、与えられたスレショルド、例えば10、よりも小さい、得られた
減算結果のベクトルの値が選択される。このスレショルドの使用は、人物が話し
ている間にピッチ周期は実際にわずかに変化するかもしれず、従って、そのよう
な差を受入れなければならないという事実による。実際のスレショルドは、確か
らしい例の観察からセットできる。
【0037】 もし1つの差のみがスレショルドより小さければ、対応するインデックス値す
なわち遅れが、ピッチ周期の推定値として選択される。もし1つより多くの差が
スレショルドより小さければ、残留信号の自己相関において最高の振幅を有する
ものが選択される。もしスレショルドより小さい差が存在しなければ、それはピ
ッチが激しく変化したことを示し、例えば、話者が交替する時にそうなる。その
ような場合には、予備ピッチ推定値が最良の推定値として維持される。
【0038】 前の推定値を利用するこの方法は、ピーク間の距離に基づく他の方法よりもか
なり複雑度が低く、従って、十分な前の推定値があれば、この方法を直ちに用い
て必要な計算リソースの量を減少させるべきである。 上述のように、本発明を実行できる機器の1つの例は移動電話機である。前記
アルゴリズムは、集積回路においても実行可能であり、その場合その集積回路は
他のタイプの機器において用いてもよい。
【0039】 本発明の実施例を説明し、また図示したが、本発明はそれに制限されるもので
はなく、特許請求の範囲に定められている内容の範囲内において他の様式によっ
ても実施されうる。 すなわち、自己相関関数は、残留信号の代わりに直接音声信号に関して計算し
てもよく、あるいは、自己相関関数の代わりに他のコンフォーミティ関数を用い
てもよい。例としては、音声信号と残留信号との間の相互相関を計算することが
できる。ピークの検出の前に、自己相関を繰返す、すなわち、最初の自己相関の
結果の自己相関を計算することも可能である。 さらに、セグメントの異なったサンプリング速度および異なったサイズを用い
ることもできる。
【図面の簡単な説明】
【図1】 本発明によるピッチ検出器のブロック図である。
【図2】 残留信号の発生を示す。
【図3】 aは、発音された音声信号の20msのセグメントを示し、bは、aのセグメ
ントに対応する残留信号の自己相関関数を示す。
【図4】 ピッチの倍増が起こりうる自己相関関数の例を示す。
【図5】 自己相関関数におけるピーク間距離の計算の例を示す。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE,TR),OA(BF ,BJ,CF,CG,CI,CM,GA,GN,GW, ML,MR,NE,SN,TD,TG),AP(GH,G M,KE,LS,MW,MZ,SD,SL,SZ,TZ ,UG,ZW),EA(AM,AZ,BY,KG,KZ, MD,RU,TJ,TM),AE,AG,AL,AM, AT,AU,AZ,BA,BB,BG,BR,BY,B Z,CA,CH,CN,CO,CR,CU,CZ,DE ,DK,DM,DZ,EE,ES,FI,GB,GD, GE,GH,GM,HR,HU,ID,IL,IN,I S,JP,KE,KG,KP,KR,KZ,LC,LK ,LR,LS,LT,LU,LV,MA,MD,MG, MK,MN,MW,MX,MZ,NO,NZ,PL,P T,RO,RU,SD,SE,SG,SI,SK,SL ,TJ,TM,TR,TT,TZ,UA,UG,US, UZ,VN,YU,ZA,ZW

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 音声信号(2)のピッチの推定方法において、該方法は、 ・ 前記音声信号をセグメントに分割するステップと、 ・ それぞれのセグメントにおいて前記信号のコンフォーミティ関数を計算す
    るステップと、 ・ 前記コンフォーミティ関数のピークを検出するステップと、 を含み、前記方法は、 ・ 前記ピークの間の平均距離を推定するステップと、 ・ 前記平均距離の前記推定値を前記ピッチの推定値として用いるステップと
    、 をさらに含むことを特徴とする前記方法。
  2. 【請求項2】 前記方法は、 ・ 前記音声信号をサンプリングしてサンプルの系列を得るステップと、 ・ それぞれのセグメントが固定数の連続するサンプルを有するようにセグメ
    ントへの前記分割を行うステップと、 をさらに含むことを特徴とする、請求項1記載の方法。
  3. 【請求項3】 前記方法は、 ・ 線形予測分析(LPA)を用いてフィルタパラメータの集合を推定するス
    テップと、 ・ 前記推定されたフィルタパラメータの集合に基づくフィルタにより、前記
    音声信号をフィルタすることによって修正信号(26)を発生するステップと、 ・ 前記修正信号の前記コンフォーミティ関数を計算するステップと、 をさらに含むことを特徴とする、請求項1または請求項2記載の方法。
  4. 【請求項4】 前記コンフォーミティ関数は自己相関関数として計算される
    ことを特徴とする、請求項1から請求項3までのいずれかに記載の方法。
  5. 【請求項5】 前記方法は、 ・ 前記コンフォーミティ関数のそれぞれのピークにおいて、該ピークの位置
    と前記平均距離の前記推定値との間の差を計算するステップと、 ・ 前記差の最小値を有する前記ピークの位置を改善された推定値として選択
    することにより前記ピッチの改善された推定値を発生するステップと、 をさらに含むことを特徴とする、請求項1から請求項4までのいずれかに記載の
    方法。
  6. 【請求項6】 前記方法は、 ・ もし前記差の前記最小値を有する前記ピークがいくつかのサンプルにより
    示されれば、前記コンフォーミティ関数の最大振幅を有する前記サンプルを前記
    ピッチの前記改善された推定値として選択するステップ、 をさらに含むことを特徴とする、請求項5記載の方法。
  7. 【請求項7】 移動電話機における、請求項1から請求項6までのいずれか
    に記載の方法の使用。
  8. 【請求項8】 音声信号(2)のピッチの推定に適する装置において、該装
    置は、 ・ 前記音声信号をセグメントに分割する手段(3)と、 ・ それぞれのセグメントにおいて前記信号のコンフォーミティ関数を計算す
    る手段(5)と、 ・ 前記コンフォーミティ関数のピークを検出する手段(6)と、 を含み、前記装置はさらに、 ・ 前記ピークの間の平均距離を推定するようにされていることと、 ・ 前記平均距離の前記推定値を前記ピッチの推定値として用いるようにされ
    ていることと、 を特徴とする前記装置。
  9. 【請求項9】 前記装置は、 ・ 前記音声信号をサンプリングしてサンプルの系列を得る手段(3)と、 ・ それぞれのセグメントが固定数の連続するサンプルを有するようにセグメ
    ントへの前記分割を行う手段と、 をさらに含むことを特徴とする、請求項8記載の方法。
  10. 【請求項10】 前記装置は、 ・ 線形予測分析(LPA)を用いてフィルタパラメータの集合を推定する手
    段(4;24)と、 ・ 前記推定されたフィルタパラメータの集合に基づくフィルタにより、前記
    音声信号をフィルタすることによって修正信号を発生する手段(4;25)と、 ・ 前記修正信号の前記コンフォーミティ関数を計算する手段(5)と、 をさらに含むことを特徴とする、請求項8または請求項9記載の方法。
  11. 【請求項11】 前記コンフォーミティ関数は自己相関関数であることを特
    徴とする、請求項8から請求項10までのいずれかに記載の装置。
  12. 【請求項12】 前記装置は、 ・ 前記コンフォーミティ関数のそれぞれのピークにおいて、該ピークの位置
    と前記平均距離の前記推定値との間の差を計算する手段と、 ・ 前記差の最小値を有する前記ピークの位置を改善された推定値として選択
    することにより前記ピッチの改善された推定値を発生する手段と、 をさらに含むことを特徴とする、請求項8から請求項11までのいずれかに記載
    の装置。
  13. 【請求項13】 前記装置はさらに、もし前記差の前記最小値を有する前記
    ピークがいくつかのサンプルにより示されれば、前記コンフォーミティ関数の最
    大振幅を有する前記サンプルを前記ピッチの前記改善された推定値として選択す
    るようにされていることを特徴とする、請求項12記載の装置。
  14. 【請求項14】 前記装置は移動電話機であることを特徴とする、請求項8
    から請求項13までのいずれかに記載の装置。
  15. 【請求項15】 前記装置は集積回路であることを特徴とする、請求項8か
    ら請求項13までのいずれかに記載の装置。
JP2001575427A 2000-04-06 2001-03-27 音声信号におけるピッチ推定 Pending JP2003530605A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP00610035.8 2000-04-06
EP00610035A EP1143413A1 (en) 2000-04-06 2000-04-06 Estimating the pitch of a speech signal using an average distance between peaks
US19778500P 2000-04-14 2000-04-14
US60/197,785 2000-04-14
PCT/EP2001/003495 WO2001078062A1 (en) 2000-04-06 2001-03-27 Pitch estimation in speech signal

Publications (1)

Publication Number Publication Date
JP2003530605A true JP2003530605A (ja) 2003-10-14

Family

ID=26073690

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001575427A Pending JP2003530605A (ja) 2000-04-06 2001-03-27 音声信号におけるピッチ推定

Country Status (5)

Country Link
US (1) US6865529B2 (ja)
JP (1) JP2003530605A (ja)
AU (1) AU2001258298A1 (ja)
MY (1) MY133806A (ja)
WO (1) WO2001078062A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7047190B1 (en) * 1999-04-19 2006-05-16 At&Tcorp. Method and apparatus for performing packet loss or frame erasure concealment
US7117156B1 (en) 1999-04-19 2006-10-03 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
US7752037B2 (en) * 2002-02-06 2010-07-06 Broadcom Corporation Pitch extraction methods and systems for speech coding using sub-multiple time lag extraction
US7529661B2 (en) * 2002-02-06 2009-05-05 Broadcom Corporation Pitch extraction methods and systems for speech coding using quadratically-interpolated and filtered peaks for multiple time lag extraction
US7236927B2 (en) * 2002-02-06 2007-06-26 Broadcom Corporation Pitch extraction methods and systems for speech coding using interpolation techniques
JP3838205B2 (ja) * 2003-02-20 2006-10-25 ヤマハ株式会社 鍵盤楽器の屋根構造
JP4490090B2 (ja) * 2003-12-25 2010-06-23 株式会社エヌ・ティ・ティ・ドコモ 有音無音判定装置および有音無音判定方法
JP4601970B2 (ja) * 2004-01-28 2010-12-22 株式会社エヌ・ティ・ティ・ドコモ 有音無音判定装置および有音無音判定方法
US7958509B2 (en) * 2005-12-21 2011-06-07 International Business Machines Corporation Method and system for scheduling of jobs
JP4882899B2 (ja) * 2007-07-25 2012-02-22 ソニー株式会社 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム
JP5229234B2 (ja) * 2007-12-18 2013-07-03 富士通株式会社 非音声区間検出方法及び非音声区間検出装置
US9082416B2 (en) * 2010-09-16 2015-07-14 Qualcomm Incorporated Estimating a pitch lag
EP3058567B1 (en) 2013-10-18 2017-06-07 Telefonaktiebolaget LM Ericsson (publ) Coding of spectral peak positions
JP6904198B2 (ja) * 2017-09-25 2021-07-14 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS635398A (ja) * 1986-06-25 1988-01-11 松下電工株式会社 音声分析方式
JPH02120800A (ja) * 1988-10-31 1990-05-08 Matsushita Electric Ind Co Ltd ピッチ抽出装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6051720B2 (ja) * 1975-08-22 1985-11-15 日本電信電話株式会社 音声の基本周期抽出装置
US4015088A (en) * 1975-10-31 1977-03-29 Bell Telephone Laboratories, Incorporated Real-time speech analyzer
US4783807A (en) * 1984-08-27 1988-11-08 John Marley System and method for sound recognition with feature selection synchronized to voice pitch
US5121428A (en) * 1988-01-20 1992-06-09 Ricoh Company, Ltd. Speaker verification system
US5189701A (en) * 1991-10-25 1993-02-23 Micom Communications Corp. Voice coder/decoder and methods of coding/decoding
US5784532A (en) * 1994-02-16 1998-07-21 Qualcomm Incorporated Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system
US5704000A (en) * 1994-11-10 1997-12-30 Hughes Electronics Robust pitch estimation method and device for telephone speech
US6047254A (en) * 1996-05-15 2000-04-04 Advanced Micro Devices, Inc. System and method for determining a first formant analysis filter and prefiltering a speech signal for improved pitch estimation
US5970441A (en) * 1997-08-25 1999-10-19 Telefonaktiebolaget Lm Ericsson Detection of periodicity information from an audio signal
US6377915B1 (en) * 1999-03-17 2002-04-23 Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. Speech decoding using mix ratio table
US6418407B1 (en) * 1999-09-30 2002-07-09 Motorola, Inc. Method and apparatus for pitch determination of a low bit rate digital voice message
JP3515039B2 (ja) * 2000-03-03 2004-04-05 沖電気工業株式会社 テキスト音声変換装置におけるピッチパタン制御方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS635398A (ja) * 1986-06-25 1988-01-11 松下電工株式会社 音声分析方式
JPH02120800A (ja) * 1988-10-31 1990-05-08 Matsushita Electric Ind Co Ltd ピッチ抽出装置

Also Published As

Publication number Publication date
AU2001258298A1 (en) 2001-10-23
US20010044714A1 (en) 2001-11-22
WO2001078062A1 (en) 2001-10-18
MY133806A (en) 2007-11-30
US6865529B2 (en) 2005-03-08

Similar Documents

Publication Publication Date Title
JP2003530605A (ja) 音声信号におけるピッチ推定
EP0677202B1 (en) Discriminating between stationary and non-stationary signals
CN100520913C (zh) 增强语音质量的方法及其装置
KR100745977B1 (ko) 음성 구간 검출 장치 및 방법
JP2738534B2 (ja) 異なる型の励起情報を有するディジタル音声符号器
Bou-Ghazale et al. A robust endpoint detection of speech for noisy environments with application to automatic speech recognition
JPH10508389A (ja) 音声検出装置
KR20160032138A (ko) 청각 장면 분석 및 음성 모델링에 기초한 음성 신호 분리 및 합성
JP4050350B2 (ja) 音声認識をする方法とシステム
EP0653091B1 (en) Discriminating between stationary and non-stationary signals
SE470577B (sv) Förfarande och anordning för kodning och/eller avkodning av bakgrundsljud
US6954726B2 (en) Method and device for estimating the pitch of a speech signal using a binary signal
CN1971707B (zh) 一种进行基音周期估计和清浊判决的方法及装置
US20010029447A1 (en) Method of estimating the pitch of a speech signal using previous estimates, use of the method, and a device adapted therefor
JP3270866B2 (ja) 雑音除去方法および雑音除去装置
JP3520430B2 (ja) 左右音像方向抽出方法
EP1143414A1 (en) Estimating the pitch of a speech signal using previous estimates
EP1143413A1 (en) Estimating the pitch of a speech signal using an average distance between peaks
FI91925C (fi) Menetelmä puhujan tunnistamiseksi
KR100345402B1 (ko) 피치 정보를 이용한 실시간 음성 검출 장치 및 그 방법
JP3450972B2 (ja) パターン認識装置
JPH04230798A (ja) 雑音予測装置
EP1143412A1 (en) Estimating the pitch of a speech signal using an intermediate binary signal
JP2003271189A (ja) 話者方向検出回路及びその検出方法
JPH0424717B2 (ja)

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080306

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101201

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110422