JPH0820878B2 - 並列処理型ピッチ検出器 - Google Patents

並列処理型ピッチ検出器

Info

Publication number
JPH0820878B2
JPH0820878B2 JP61504126A JP50412686A JPH0820878B2 JP H0820878 B2 JPH0820878 B2 JP H0820878B2 JP 61504126 A JP61504126 A JP 61504126A JP 50412686 A JP50412686 A JP 50412686A JP H0820878 B2 JPH0820878 B2 JP H0820878B2
Authority
JP
Japan
Prior art keywords
pitch
value
frame
voiced
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP61504126A
Other languages
English (en)
Other versions
JPS63500683A (ja
Inventor
ピコーン,ジョセフ
パノス プレザス,デミトリオス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Publication of JPS63500683A publication Critical patent/JPS63500683A/ja
Publication of JPH0820878B2 publication Critical patent/JPH0820878B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

【発明の詳細な説明】 技術分野 本発明は圧縮して記憶し、その後合成に使用するため
の人間の音声信号のディジタル符号化に係り、特に音声
の離散フレームのピッチの検出および音声および無声の
同時決定に関する。
発明の背景 人間の音声を伝送するのに必要な帯域・幅を減少させ
るために、人間の音声をディジタル化して、音声を符号
化し、情報が伝送された後音声を再生するために復号し
た後において、許容し得る品質を有する符号化され、デ
ィジタル化された音声を記憶するのに必要なディジタル
・ビット/秒の数を最小化する方法が知られている。ア
ナログ音声サンプルは20ミリ秒のオーダの時間幅を有す
る離散的長さのフレーム、即ちセグメントに分割されて
いる。サンプリングは典型例では8kHzの速度で実行さ
れ、各サンプルはマルチビットのディジタル数に符号化
される。相続く符号化されたサンプルは人間の声道をモ
デル化する適当なフィルタ・パラメータを決定する線形
予測符号器(LPC)で更に処理される。各フィルタのパ
ラメータは予め選択された数の以前のサンプル値の重み
付けられた和に基づいて効率的に各々のサンプルされた
信号の現在の値を推定するのに使用される。フィルタの
パラメータは声道伝達関数のフォルマント構造をモデル
化する。音声信号は解析的には励起信号とフォルマント
伝達関数から成るものと見做される。励起成分は喉頭中
で生じ、フォルマント成分は励起成分に対する声道の残
りの部分の作用によって生じる。励起成分は声帯によっ
て空気流に分与された基本周波数が存在するか否かに応
じて更に音声あるいは無声に分類される。声帯によって
空気流に分与された基本周波数が存在する場合には、励
起成分は音声と分類される。励起が無声であると、励起
成分は単に白色雑音である。
低ビット速度で伝送するために音声を符号化するに
は、音声のセグメントに対するLPCパラメータ(係数と
も呼ばれる)を決定し、音声を再生する復号回路にこれ
らの係数を転送する必要がある。これに加えて励起成分
を決定する必要がある。まず第1にこの成分が有声と分
類されるか、無声と分類されるかを決定しなければなら
ない。有声と分類されると、声帯により空気流に分与さ
れた基本周波数を決定する必要がある。LPC係数を決定
するのには多数の方法が存在する。基本周波数の決定問
題(これは通常ピッチ検出と呼ばれる)は更に困難であ
る。
1つの従来のピッチ検出法は音声波形の長時間規則性
という音声の重要な性質に主として基づいている。理想
的には有声音声は基本周波数成分とその高調波より成る
周期的信号と見做すことが出来る。従って、第2高調波
より低い周波数で遮断する低域フィルタの出力はピッチ
に等しい周波数を有する正弦波とならねばならない。こ
の周波数は振幅検出回路を使用して決定される。この方
法の欠点は実際の音声は音声の変位領域期間中にあって
は規則性が乱されるのでこのモデルから逸脱してしまう
点にある。更に、ピッチ周期それ自身が、話者が男性か
女性かに依存して変化し得る。
ピッチ検出の音声のフォルマント構造を除去すること
によって(これはまたスペクトラム平坦化とも呼ばれ
る)ある条件の下では強化することが出来る。スペクト
ラム平坦化はフーリェ変換あるいは線形予測解析を使用
して実行出来る。スペクトラムを平坦化するのにLPCフ
ィルタを使用することはまた音声信号からフォルマント
構造を減算する逆フィルタ操作とも呼ばれる。このよう
なシステムが米国特許第3,740,476号中に述べられてい
る。LPC濾波の結果得られる残差波は声道の励起関数を
近似し、この情報からピッチを抽出するのにパルス振幅
技法が使用可能である。しかし、この手法は励起の高調
波が音声信号のフォルマントの下に入るとうまく動作し
ない。この状態が生じると、残差波中で見出される励起
情報はLPC逆フィルタ操作によって除去される。その結
果、残差信号は雑音状となり、ピッチ・パルスは容易に
は検出されない。
他の従来のピッチ検出法がビー・ゴールドおよびエル
・ラビナの「時領域中の音声のピッチ周期を推定する並
列処理技法」(Parallel Processing Techniques for E
stimating Pitch Periods of Speech in the Time Doma
in)、ジャーナルオブアコースティカル
ソサイアティオブアメリカ(The Journal of the A
costical Society of America)第36巻、第2号(第2
部)、1969年に示されている。この論文は並列ピッチ検
出器を使用しており、各々のピッチ検出器はアナログの
音声信号に応動して個々にピッチの推定値を決定する。
ピッチの推定が行なわれた後、ピッチ推定値の行列が構
成され、“正しい”ピッチを決定するアルゴリズムが使
用される。この方法は音声の変位領域期間中でピッチを
検出する際に問題が生じる。何故ならばこの方法は元の
音声信号に対してすべてのピッチ推定を実行するからで
ある。更に“正しい”ピッチの決定を行うのに使用され
たアルゴリズムは主としてピッチの基本周波数を第2、
第3高調波の差をとることと関連している。
発明の概要 本発明の図示のピッチ検出システムおよび方法は、各
々が音声信号の異なる部分に応動してピッチ値を推定す
る複数個の検出器と、各々が音声信号から計算された残
差信号の異なる部分に応動する他の複数個の検出器と、
推定されたピッチ値に応動して最終ピッチ値を決定する
選定器を使用している。検出器の設計はすべて同一であ
り、すべての符号器を実現するのにただ1つの型の符号
器のみが必要とされるので、効率的なソフトウェアを組
むことが可能である。
本実施例は人間の音声に応動して音声をディジタル化
および量子化するサンプル・量子化回路を含んでいる。
ディジタル信号プロセッサはプログラム・インストラク
ションの第1の組に応動して予め定められた数のディジ
タル化されたサンプルを音声フレームとして記憶し、プ
ログラム・インストラクションの第2の組およびディジ
タル化された音声サンプルに応動して声道のフォルマン
ト効果が実質的に除去された後に残るディジタル化され
た音声サンプルの残差サンプルを発生し、プログラム・
インストラクションの第3の組および音声サンプルの個
々の予め定められた部分に応動してピッチ値を推定し、
プログラム・インストラクションの第4の組および残差
サンプルに応動してピッチ値を推定し、プログラム・イ
ンストラクションの第5の組に応動して推定されたピッ
チ値から前記音声フレームの最終ピッチ値を決定する。
プログラム・インストラクションの第5の組はプログ
ラム・インストラクションの第2の組の推定されたピッ
チ値からピッチ値を計算するプログラム・インストラク
ションの第1の部分集合と、最終ピッチ値を制限して、
計算されたピッチ値が以前のフレームからの計算された
ピッチ値と一致するようにするプログラム・インストラ
クションの第2の部分集合を含んでいる。
更に、無声音声フレームは計算されたピッチ値が予め
定義された値(これは0であって良い)に等しいことに
よって示され;有声フレームは計算されたピッチ値が予
め定義された値に等しくないことによって示される。プ
ログラム・インストラクションの第2の部分集合は更に
有声・無声・有声フレームより成る第1の系列に応動し
て有声フレームを示す新らしい計算されたピッチ値を発
生するインストラクションの第1のグループと、無声・
有声・無声フレームより成る第2の系列に応動して無声
フレームを示す新らしい計算された値を発生するインス
トラクションの第2のグループと、有声・有声・有声フ
レームより成る第3の系列に応動して該第3の系列のフ
レームの計算されたピッチ値と算術的な関係を有する新
らしい計算されたピッチ値を発生するインストラクショ
ンの第3のグループより成る。
更に第2の部分集合のインストラクションの第1のグ
ループはフレームの第1の系列に応動して第1の系列の
有声フレームの計算されたピッチ値の算術平均に等しく
計算されたピッチ値をセットし、インストラクションの
第2のグループはフレームの第2の系列に応動して新ら
しい計算されたピッチ値を前記予め定義された値にセッ
トする。
また、インストラクションの第2の部分集合は更に有
声・有声・無声フレームより成る第4の系列に応動し
て、2つの有声フレームの差が他の予め定義された値よ
り小さいとき、新らしいピッチ値を有声・有声フレーム
に対する計算されたピッチ値の平均に等しくセットする
インストラクションの第4のグループを含んでいる。2
つの有声フレームに対するピッチ値の差が他の予め定義
された値より大であると、新らしい計算されたピッチ値
は以前の有声フレームのピッチ値に等しくセットされ
る。
更に、プログラム・インストラクションの第1の部分
集合は、予め定義された値に等しい推定されたピッチ値
の部分集合を除くすべてに応動して、ピッチ値の部分集
合の推定されたピッチ値が互いに他の予め定義された値
以下しか異ならないとき、計算されたピッチ値をピッチ
値の部分集合の算術平均に等しくセットするインストラ
クションの第1のグループを含んでいる。更にインスト
ラクションの第1のグループは推定されたピッチ値のす
べてがピッチ値の部分集合を除いて予め定義された値に
等しいことに応動して、部分集合のピッチ値の各々の間
の差が他の予め定義された値より大きいとき、計算され
たピッチ値を予め定義された値に等しくセットする。
また、インストラクションの第1の部分集合は予め定
義された値に等しいものを除くすべての推定されたピッ
チ値に応動して、予め定義された値に等しくない推定さ
れたピッチ値に等しく計算されたピッチ値をセットする
インストラクションの第2のグループを含んでいる。
また、ピッチ値を推定するのに使用されるプログラム
・インストラクションの第4の組はフレーム内の残差サ
ンプルの予め定められた部分内において最大振幅のサン
プルの位置を決定するインストラクションの第1の部分
集合を有している。インストラクションの第2の部分集
合は、最大振幅サンプルおよびフレーム内の他のサンプ
ルの各々から、最大の予想される音声周波数に基づい
て、最小距離以上隔っている最大振幅サンプルの振幅よ
り小さな振幅を有するフレーム中の後続の最大サンプル
(これはまた候補サンプルと呼ばれる)の位置を決定す
る。インストラクションの第3の部分集合は最大振幅サ
ンプルを基準として使用して隣接する位置の決定された
サンプル間の距離を1つ1つ測定する。インストラクシ
ョンの第4の部分集合は相続く距離の測定値が等しいか
どうか比較し、最大振幅サンプルと周期的な関係にない
候補サンプルを排除することにより周期性をテストす
る。インストラクションの第5の部分集合はこの音声フ
レーム内の有効な極大候補サンプル間の距離の商を計算
することにより推定されたピッチ値を決定する。最後
に、インストラクションの第6の部分集合は、フレーム
が有声であるか無声であるかを示す。フレームが無声で
あると、推定されたピッチ値は予め定義された値(これ
は0であって良い)に等しくセットされ、無声フレーム
であることを示す。
本発明の方法はアナログ音声をディジタル・サンプル
のフレームに変換する量子化装置およびディジタル化装
置と、ディジタル音声の特定のフレームのピッチを決定
する複数個のプログラム・インストラクションを実行す
るディジタル信号プロセッサを有するシステム中で機能
する。信号プロセッサは声道のフォルマント効果が実質
的に除去された後に残るディジタル化された音声の残差
サンプルを発生し、ディジタル化された音声サンプルの
内の正のものから現在の音声フレームの第1のピッチ値
を推定し、ディジタル化された音声サンプルの内の負の
ものから第2のピッチ値を推定し、残差サンプルの内の
正のものから第3の値を推定し、残差サンプルの負のも
のから第4のピッチ値を推定し、複数個の以前の音声フ
レームに対する推定ステップによって決定された推定さ
れたピッチ値に基づいて以前の音声フレームに対する最
終ピッチ値を決定するステップを実行することによりピ
ッチを決定する。
最終ピッチ値を決定するステップはプログラム・イン
ストラクションの部分集合に応動して、第1、第2、第
3、および第4の以前に推定されたピッチ値から最終ピ
ッチ値を計算し、最終ピッチ値が以前にディジタル信号
プロセッサにより決定された以前のフレームからの最終
ピッチ値と一致するように最終ピッチ値を制限するステ
ップを実行するディジタル信号プロセッサにより実行さ
れる。
図面の簡単な説明 第1図は本発明に従うピッチ検出器のブロック図; 第2図は第1図のピッチ検出器108のブロック図; 第3図は音声フレームの候補サンプルを図式的に示す
図; 第4図は第1図のピッチ選定器111のブロック図; 第5図は第1図のディジタル信号プロセッサの実現法
を示す図である。
詳細な説明 第1図は本発明の主眼であるピッチ検出器を示す。該
ピッチ検出器は導線113を介して受信されたアナログ音
声信号に応動して音声励起が有声であるか無声であるか
の指示を出力バス114上に提供し、有声である場合には
ピッチを提供する。ピッチの決定はピッチ検出器107〜1
10の出力に応動してピッチ選定器111により行なわれ
る。折返し(エイリアス)を減少させるために、導線11
3上の入力音声はフィルタ100によって濾波される。この
フィルタはその−3dB周波数が3.3kHzの8次のバタワー
ス・アナログ低域フィルタであって良い。濾波された音
声は次にサンプラ112および線形量子化装置101によって
ディジタル化・量子化される。量子化装置101はディジ
タル化された音声X(n)をクリッパ103および104なら
びにLPC符号器および逆フィルタ102に送信する。符号器
およびフィルタ102の出力は逆フィルタからの残差信号
であり、該信号は信号路116を介してクリッパ105および
106に送信される。符号器およびフィルタ102はまず最初
にLPC逆フィルタによって使用されるフィルタ係数を決
定するのに要求される計算を実行し、これらフィルタ係
数を使用してディジタル化された音声信号の逆フィルタ
操作を実行することにより残差信号e(n)を計算す
る。これは次のようにして実行される。ディジタル化さ
れた音声X(n)は20ミリ秒のフレームに分割される。
(この20ミリ秒のフレーム期間中全極LPCフィルタは時
間的に不変であるものと仮定している。)ディジタル化
された音声のフレームは格子計算法を使用して反射係数
の組(例えば10ケ)を計算するのに使用される。その結
果得られる10次の逆格子フィルタは前方向予測誤差、即
ち残差を発生すると共に反射係数を提供する。クリッパ
103〜106は信号路115および116上の到来するxおよびe
なるディジタル化された信号を正のレベル領域を進行す
る波形および負のレベル領域を進行する波形に変換す
る。これらの信号を形成する目的は混成波形は明白に周
期性を示さないことがあるが、クリップされた信号は周
期性を明白に示すことがあり得るからである。従って周
期性の検出はより容易となる。クリッパ103および105は
xおよびe信号を夫々正のレベル領域を進行する信号に
変換し、クリッパ104および106はxおよびe信号を夫々
負のレベル領域を進行する信号に変換する。
ピッチ検出器107〜110は各々それ自身の個々の入力信
号に応動して到来信号の周期性を決定する。ピッチ検出
器の出力はこれら信号の受信後2フレームして生じる。
この例では各フレームは160サンプル点より成ることに
注意されたい。ピッチ選定器111は4つのピッチ検出器
の出力に応動して最終的なピッチを決定する。ピッチ選
定器111の出力は信号路114を介して送信される。
第2図はピッチ検出器108のブロック図である。他の
ピッチ検出器も同様に設計されている。最大値位置決定
器(ロケータ)201は各フレームのディジタル化された
信号に応動してパルスを見出し、それに対して周期性が
チェックされる。最大値ロケータ201の出力は2組の数
値であり、1つは候補サンプルである最大振幅Miを表わ
す数値であり、他の1つはこれら振幅のフレーム内の位
置Diを表わす数値である。距離検出器202はこれら2組
の数値に応動して周期的な候補パルスの部分集合を決定
する。この部分集合はこのフレームの周期性に関する距
離検出器202の決定を表わす。距離検出器202の出力はピ
ッチ追尾装置203に転送される。ピッチ追尾装置203の目
的はピッチ検出器のピッチに関する決定をディジタル化
された信号の相続くフレームの間に制限することであ
る。この機能を実行するためにピッチ追尾装置203は2
つ以前のフレームに対して決定されたピッチを使用す
る。
さて最大値ロケータ201によって実行される動作につ
いて更に詳細に考察する。最大値ロケータ201はまず最
初にフレームからのサンプルの中でフレーム中の大局的
最大振幅M0とその位置D0を同定する。周期性チェックの
ために選択された他の点は以下の条件を全て満さねばな
らない。第1に、パルスは局部最大のものでなければな
らない。これは次に取り出されるパルスは既に取り出さ
れるかまたは除去されたすべてのパルスを除いてフレー
ム中の最大振幅を有するものでなければならないことを
意味する。この条件は、ピッチ・パルスは通常フレーム
中の他のサンプルより大きな振幅を有していると仮定し
ているので適用される。第2に、選択されたパルスの振
幅は大局的最大値のある割合よりも大きいか等しい、即
ちMi>gM0(ここでgは例えば25%といった閾値振幅パ
ーセントである)でなければならない。第3にパルスは
既に位置が決定されたすべてのパルスから少くとも18サ
ンプルは隔っていなければならない。この条件は人間の
音声で生じる最高のピッチは約440Hzであり、これは8kH
zのサンプル速度では18サンプルとなるという仮定に基
づいている。
距離検出器202は再帰的に動作し、まずフレームの大
局的最大値M0から最も隣接した候補パルスへの距離を調
べることから始める。この距離は候補距離dcと呼ばれ、
次式で与えられる。
dc=|D0−Di| ここでDiは最も隣接した候補パルスのフレーム内の位
置である。フレーム中のこのようなパルスの部分集合が
この距離から息継ぎ期間Bを加減したものだけ隔ってい
ないと、この候補距離は棄却され、操作は新らしい候補
距離を使用して次に最も隣接する候補パルスに対して再
び開始される。Bは4〜7の値を有していて良い。この
新らしい候補距離は次に隣接するパルスと大局的最大値
パルスの距離である。
ピッチ検出器202が距離dc±Bだけ隔った候補パルス
の部分集合を決定すると、内挿振幅テストが適用され
る。内挿振幅テストはM0と次に隣接する候補パルスの各
々との間の線形内挿を実行し、M0に直接隣接する候補パ
ルスの振幅はこれら内挿された値の少くともqパーセン
トである。内挿振幅閾値q%は75%である。第3図に示
す候補パルスの例を考える。dcが妥当な候補距離である
ためには次式が成立しなければならない。
および ここで dc=|D0−D1|>18 であり、先に指摘したように Mi>gM0 i=1、2、3、4、5 である。
ピッチ追尾装置203は距離検出器202の出力に応動して
ピッチ距離の推定値を評価する。このピッチ距離の推定
値はピッチの周波数と関連している。何故ならばピッチ
距離はピッチの周期を表わすからである。ピッチ追尾装
置203の機能は以下で述べる4つのテストを実行するこ
とによりピッチ検出器から受信された初期ピッチ距離推
定値を必要な場合には修正することによりフレームから
フレームにわたって矛盾がないようにピッチ距離の推定
値を制限することである。ここで4つのテストとは、音
声セグメント開始テスト、最大息継ぎおよびピッチ倍化
テスト、制限テストおよび急激変化テストである。これ
らのテストの内の第1番目のものである音声セグメント
開始テストは有声領域の開始時点におけるピッチ距離の
無矛盾性を保証するために実行される。このテストは有
声領域の開始とのみ関連しているので、現在のフレーム
は零でないピッチ周期を有することを仮定している。こ
の仮定は先行するフレームおよび現在のフレームが有声
領域中の第1および第2の音声フレームであるという仮
定に等しい。ピッチ距離の推定値がT(i)(ここでi
は距離検出器202からの現在のピッチ距離推定値を表わ
す)によって表わされるならば、ピッチ検出器203はT
*(i−2)を出力する。何故ならば各検出器を通して
2フレームの遅延が存在するからである。このテストは
T(i−3)およびT(i−2)が0であるかまたはT
(i−2)が非0でT(i−3)およびT(i−4)が
0(これはフレームi−2およびi−1が有声領域中の
夫々第1および第2の有声フレームであることを意味す
る)のときにのみ実行される。
音声セグメント開始テストは2つの無矛盾性テストを
実行する。1つは第1の有声フレームT(i−2)に対
するものであり、他方は第2の有声フレームT(i−
1)に対するものである。これら2つのテストは相続く
フレームの期間中に実行される。音声セグメント・テス
トの目的は有声領域が実際には始まっていないときに有
声領域の開始を規定する確率を減少させることである。
このことは音声領域に対する他の無矛盾性テストが最大
息継ぎおよびピッチ倍化テストにおいて実行され、そこ
ではただ1つの無矛盾条件が要求されるために重要であ
る。第1の無矛盾テストはT(i−2)中の右側の候補
サンプルとT(i−1)およびT(i−2)中の最も左
側の候補サンプルの距離がピッチ閾値B+2内にあるこ
とを保証するために実行される。
第1の無矛盾性テストが満されると、次のフレーム期
間中に第2の無矛盾性テストが実行され、第1の無矛盾
性テストが保証したと同じ結果をフレーム系列が右に1
つシフトされた現在でも得ることを保証するために実行
される。第2の無矛盾性テストが満されないと、T(i
−1)は0にセットされ、(T(i−2)が0にセット
されていなかったとすると)フレームi−1は第2の有
声フレームたりえないことを示す。しかし、両方の無矛
盾性テストに合格すると、フレームi−2およびi−1
は有声領域の開始を規定する。T(i−1)が0にセッ
トされ、T(i−2)が非0であると決定され、T(i
−3)が0(これはフレームi−2が2つの無声フレー
ムの間の有声フレームであることを示す)であると、急
激変化テストがこの状況に対処するが、この特殊テスト
については後述する。
最大息継ぎおよびピッチ倍化テストは有声領域中の2
つの隣接した有声フレームにわたるピッチの無矛盾性を
保証する。従って、このテストはT(i−3)、T(i
−2)およびT(i−1)が非0のときにのみ実行され
る。最大息継ぎおよびピッチ倍化テストはまた距離検出
器202によって生じたピッチ倍化誤差をチェックし、補
正する。チェックのピッチ倍化部分はT(i−2)およ
びT(i−1)が無矛盾であるかどうか、またT(i−
2)がT(i−1)の2倍と無矛盾(これはピッチ倍化
誤差を意味する)であるかどうかをチェックする。この
テストはまずAを10なる値を有するものとして |T(i−2)−T(i−1)|A によって実行されるテストの最大息継ぎ部分に合格する
かどうかをチェックする。この式が満されると、T(i
−1)はピッチ距離の良好な推定値であり、修正する必
要はない。しかし、テストの最大息継ぎ部分に失敗する
と、テストのピッチ倍化部分を満すかどうかを決定する
テストを実行しなければならない。テストの第1の部分
はT(i−3)が非0であるとして、T(i−2)およ
びT(i−1)の2倍が なる条件を満すかどうかをチェックする。この条件を満
すと、T(i−1)はT(i−2)に等しくセットされ
る。この条件が満されないと、T(i−1)は0にセッ
トされる。テストのこの部分の第2の部分はT(i−
3)が0に等しいときに実行される。
|T(i−2)−2T(i−1)|B および |T(i−1)−T(i)|>A が満されると T(i−1)=T(i−2) である。前述の条件が満されないと、T(i−1)は0
にセットされる。
T(i−1)に対して実行される制限テストは計算さ
れたピッチが50Hz〜400Hzの人間の音声の範囲内にある
ことを保証する。計算されたピッチがこの範囲内に入ら
ないと、T(i−1)は0にセットされ、フレームi−
1は計算されたピッチを有する有声フレームとはなり得
ないことを示す。
急激変化テストは3つの以前のテストが実行された後
に実行され、他のテストが無声領域の中間の有声フレー
ムあるいは有声領域の中間の無声フレームであると許容
したことが正しいかどうかを判定することを目的として
いる。人間は通常は前記のような音声フレームの系列を
発生し得ないから、急激変化テストは有声−無声−有声
あるいは無声−有声−無声の系列を除去することにより
任意の有声または無声セグメントは少くとも2フレーム
は続くことを保証する。急激変化テストは2つの別個の
手順より成り、各手順は前述した2つの系列を検出する
よう設計されている。ピッチ追尾装置203が前述した4
つのテストを実行すると、該追尾装置はT*(i−2)
を第1図のピッチ選定器111に出力する。ピッチ追尾装
置203は距離検出器202から次に受信されたピッチ距離に
対する計算を行うため他のピッチ距離を保持している。
第4図は第1図のピッチ選定器111を更に詳細に示し
ている。ピッチ値推定器401はピッチ検出器107〜110の
出力に応動して2フレーム以前のピッチの初期推定値P
(i−2)を形成し、ピッチ値追尾装置402はピッチ値
推定器401の出力に応動して3つ以前のフレームの最終
ピッチ値P(i−3)がフレームからフレームにわたっ
て矛盾がないように制約する。
ここでピッチ値推定器401によって実行される機能を
更に詳細に考察する。一般に、ピッチ値推定器401によ
って受信された4つのピッチ距離の推定値すべてが非0
(これは有声フレームであることを示す)であると、最
小および最大の推定値が棄却され、P(i−2)は残り
の2つの推定値の算術平均にセットされる。同様に、ピ
ッチ距離推定値の内3つが非0であると、最大および最
小の推定値が棄却され、ピッチ値推定器401はP(i−
2)を残りの非0の推定値に等しくセットする。推定値
の内2つのみが非0であると、ピッチ値推定器401は2
つのピッチ距離推定値がピッチ閾値A内にあるときのみ
2つのピッチ距離推定値の算術平均に等しくP(i−
2)をセットする。2つの値がピッチ閾値A内にないと
きは、ピッチ値推定器401はP(i−2)を0にセット
する。この決定は個々の検出器の幾つかは周期性を誤っ
て決定したが、フレームi−2は無声であることを示し
ている。4つのピッチ距離推定値の内のただ1つが非0
であると、ピッチ値推定器401はP(i−2)をその非
0値に等しくセットする。この場合、以前のピッチ推定
値と矛盾が生じないようにこのピッチ距離の推定値の妥
当性のチェックがピッチ値追尾装置402により行なわれ
る。ピッチ距離推定値がすべて0であると、ピッチ値推
定器401はP(i−2)を0にセットする。
次にピッチ値追尾装置402について更に詳細に考察す
る。ピッチ値追尾装置402はピッチ値推定器401の出力に
応動して3つ以前のフレームのピッチ値推定値P*(i
−3)を発生するが、この推定値はP(i−2)および
P(i−4)に基づいて行なわれる。ピッチ値P*(i
−3)はフレームからフレームにわたって矛盾がないよ
うに選択される。
最初にチェックされるのは有声−無声−有声、無声−
有声−無声、または有声−有声−無声の形を有するフレ
ームの系列である。P(i−4)およびP(i−2)が
非0でP(i−3)が0であることによって示される第
1の系列が生じると、最終ピッチ値P*(i−3)はピ
ッチ値追尾装置402によりP(i−4)およびP(i−
2)の算術平均に等しくセットされる。第2の系列が生
じると、最終ピッチ値P*(i−3)は0に等しくセッ
トされる。第3の系列に関しては、ピッチ値追尾装置は
P(i−4)およびP(i−3)が非0であり、P(i
−2)が0であることに応動して、P(i−3)および
P(i−4)がピッチ閾値A内にある限り、P*(i−
3)をP(i−3)およびP(i−4)の算術平均にセ
ットする。ピッチ追尾装置402は |P(i−4)−P(i−3)|A であることに応動して次の操作を実行する。
ピッチ値追尾装置402がP(i−3)およびP(i−
4)は前述の条件を満さない(即ちこれらがピッチ閾値
A内にない)とすると、ピッチ値追尾装置402はP*
(i−3)をP(i−4)の値に等しくセットする。
前述の操作に加えて、ピッチ値追尾装置402はまたあ
る型の有声−有声−有声フレーム系列に対するピッチ値
推定値を平滑化する操作を実行する。この平滑化操作が
実行されるフレーム系列は3つの型がある。第1の系列
は次式が成立するときである。
|P(i−4)−P(i−2)|A および |P(i−4)−P(i−3)|>A この条件が成立すると、ピッチ値追尾装置402は とセットすることにより平滑化操作を実行する。
条件の第2の組は次式で与えられる。
|P(i−4)−P(i−2)|>A および |P(i−4)−P(i−3)|A この第2の条件の組が成立すると、ピッチ値追尾装置40
2は次のように値をセットする。
第3(最終)の条件の組は次式で定義される。
|P(i−4)−P(i−2)|>A および |P(i−4)−P(i−3)|>A この最後の条件が成立すると、ピッチ値追尾装置402は
次のように値をセットする。
P*(i−3)=P(i−4) 第5図は例えばテキサス・インスッルメントのTMS320
20のようなディジタル信号プロセッサを使用する第1図
のブロックの実現例を示している。このプロセッサおよ
びPROMメモリ502およびRAMメモリ503により第1図のブ
ロック102〜111が形成されている。第1図の前述の素子
を実現するためにPROM502中に記憶されたプログラムは
Cのソース・コード・プログラムと類似のものである。
このプログラムは適当なD/AおよびA/D変換装置を有する
計算機システムまたは類似のシステム上で実行するよう
に作られている。第1図のピッチ検出器107〜110はRAM5
03中の各ピッチ検出器に対する別個のデータ記憶領域を
使用する共通コードにより実現されている。第2および
4図に示されている第1図の詳細部はPROM502内に記憶
されたプログラム・インストラクションの組によって実
現される。プログラム・インストラクションの各組は更
にプログラム・インストラクションの部分集合およびグ
ループに細分割されている。
前述の実施例は本発明の原理を単に例示するものであ
り、本発明の精神および範囲を逸脱することなく当業者
にあっては他の装置を考案し得ることを理解されたい。

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】人間の音声のピッチ検出システムであっ
    て、 該音声の瞬時振幅の予め定められた数の等間隔サンプル
    (x(n))を音声フレームとして記憶する手段と、 各々が該フレームの該音声サンプルの個々の予め定めら
    れた部分に応動して該フレームのピッチ値を推定する複
    数個の同一の手段と、 該音声サンプルから残差サンプル(e(n))を発生す
    る手段と、 各々が該フレームの該残差サンプルの個々の予め定めら
    れた部分に応動して該フレームのピッチ値を推定する別
    の複数個の同一の手段と、 該推定されたピッチ値の個々のものから最終ピッチ値を
    計算する手段とを含み、該最終ピッチ値を計算する手段
    は、 該複数個の推定手段からの該推定されたピッチ値であっ
    て予め定義された値に等しいピッチ値のある部分集合を
    除いたすべてのピッチ値に応動して、該ピッチ値の該部
    分集合の該推定されたピッチ値が互いに他の予め定義さ
    れた値以下しか異ならないとき該計算されたピッチ値を
    該部分集合の算術平均に等しくセットする手段と、 該推定されたピッチ値のある部分集合を除いて該予め定
    義された値に等しい該推定されたピッチ値のすべてに応
    動して、該部分集合の該推定されたピッチ値の各々の間
    の差が該他の予め定義された値より大であるとき、該計
    算されたピッチ値を該予め定義された値に等しくセット
    する手段と、 該予め定義された値に等しい1つの推定されたピッチ値
    を除いて該推定されたピッチ値のすべてに応動して、該
    計算されたピッチ値を該予め定義された値に等しくない
    該推定されたピッチ値に等しくセットする手段とを含
    み、 該ピッチ検出システムは、さらに、 計算されたピッチ値が以前のフレームからの計算された
    ピッチ値と一致するように該最終ピッチ値を制限する手
    段を含み、該制限する手段は、 無声フレームが該計算されたピッチ値が予め定義された
    値に等しいことによって示され、そして有声フレームが
    該計算されたピッチ値が該予め定義された値以外の値に
    等しいことによって示されるものであるとしたとき、有
    声フレーム・無声フレーム・有声フレームからなる第1
    の系列に応動して有声フレームを示す新しい計算された
    ピッチ値を発生する手段と、 無声フレーム・有声フレーム・無声フレームからなる第
    2の系列に応動して無声フレームを示す新しい計算され
    た値を発生する手段と、 有声フレーム・有声フレーム・有声フレームからなる第
    3の系列に応動して該第3の系列のフレームの計算され
    たピッチ値と算術的関連を有する新しい計算されたピッ
    チ値を発生する手段とを含むことを特徴とするピッチ検
    出システム。
  2. 【請求項2】請求の範囲第1項に記載のシステムにおい
    て、該第1の系列に応動する該発生手段が、 新しい計算されたピッチ値を該第1の系列の有声フレー
    ムの計算されたピッチ値の算術平均に等しくセットする
    手段と、 該無声フレーム・有声フレーム・無声フレームからなる
    第2の系列に応動して新しい計算された値を該予め定義
    された値にセットする手段とを含むことを特徴とするピ
    ッチ検出システム。
  3. 【請求項3】請求の範囲第2項に記載のシステムにおい
    て、該制限する手段がさらに、 有声フレーム・有声フレーム・無声フレームからなる第
    4の系列に応動して、2つの有声フレームの間の差が別
    の予め定義された値以下であるとき有声フレームと無声
    フレームの計算されたピッチ値の平均に等しい新しい計
    算されたピッチを発生する手段と、 該第4の系列に応動して、2つの有声フレームのピッチ
    の間の差が該他の予め定義された値よりも大であるとき
    以前の有声フレームのピッチ値に等しい新しい計算され
    たピッチ値を発生する手段とを含むことを特徴とするピ
    ッチ検出システム。
  4. 【請求項4】請求の範囲第1項に記載のシステムにおい
    て、 該計算を行う手段が、該予め定義された値と異なる値を
    有する該推定されたピッチ値のすべてに応動して、該計
    算されたピッチ値を該推定されたピッチ値のメジアンの
    部分集合の算術平均に等しくセットする手段を含むこと
    を特徴とするピッチ検出システム。
  5. 【請求項5】請求の範囲第1項に記載のシステムにおい
    て、 該複数個の推定手段は各々該残差サンプルの該個々の予
    め定められた部分内において最大振幅を有する主要サン
    プルの位置を決定する手段と、 該最大振幅サンプルおよび該フレーム内の各々の他の残
    差サンプルから予想される最高の基本音声周波数に基づ
    いて最小距離より間隔が隔たっている最大振幅サンプル
    の振幅より小さな振幅を有する該残差サンプルの該予め
    定められた部分のサンプルの位置を決定する手段と、 該最大振幅サンプルの位置を基準として使用して隣接す
    る位置の決定された候補サンプル間の距離を1つ1つ測
    定する手段と、 実質的に等しいかどうかを調べるために相続く距離の測
    定結果を比較し、該最大振幅サンプルと周期的な関係に
    ない候補サンプルを排除することにより周期性のテスト
    を行う手段と、 該フレーム内の極大サンプル間の距離の商によって該推
    定されたピッチ値を決定する手段と、 フレームが周期性を呈するときは有声であると指示し、
    周期性を呈さないときは該推定されたピッチ値を予め定
    義された値に等しくセットすることにより無声であると
    指示する手段とを含むことを特徴とするピッチ検出シス
    テム。
  6. 【請求項6】請求の範囲第5項に記載のシステムにおい
    て、 該複数個の推定手段は該推定手段の内の2つを含み、該
    推定手段の各々はさらに該残差サンプルに応動して該残
    差サンプルをクリップして該残差サンプルの個々の予め
    定められた部分を発生する手段を含むことを特徴とする
    ピッチ検出システム。
  7. 【請求項7】音声をディジタル・サンプルのフレームに
    変換する量子化装置と、複数個のプログラム・インスト
    ラクションおよびディジタル・サンプルの該フレームに
    応動して音声のピッチを決定するディジタル信号プロセ
    ッサを含むシステムで人間の音声のピッチを検出する方
    法であって、 第1の組のプログラム・インストラクションおよび該デ
    ィジタル化された音声サンプルの正のものに応動して該
    プロセッサによって現在の音声フレームの第1のピッチ
    を推定するステップと、 第2の組のプログラム・インストラクションおよび該デ
    ィジタル化された音声サンプルの負のものに応動して該
    プロセッサによって該現在の音声フレームの第2のピッ
    チ値を推定するステップと、 第3の組のプログラム・インストラクションおよび該推
    定されたピッチ値に応動して該プロセッサによって複数
    個の以前の音声フレームおよび該現在の音声フレームに
    基づいて最も最後の以前の音声フレームの最終ピッチ値
    を決定するステップと、 第4の組のプログラム・インストラクションに応動して
    該プロセッサによって声道のフォルマント効果が実質的
    に除去された後に残るディジタル化された音声の残差サ
    ンプルを生成するステップと、 第5の組のプログラム・インストラクションおよび該残
    差サンプルの正のものに応動して該プロセッサによって
    該現在の音声フレームの第3のピッチ値を推定するステ
    ップと、 第6の組のプログラム・インストラクションおよび該残
    差サンプルの負のものに応動して該プロセッサによって
    該現在の音声フレームの第4のピッチ値を推定するステ
    ップとを含み、 該第3の組のプログラム・インストラクションはプログ
    ラム・インストラクションの第1および第2の部分集合
    を含み、該最終ピッチ値を決定するステップは該プログ
    ラム・インストラクションの第1の部分集合に応動して
    該プロセッサによって該第1、第2、第3および第4の
    ピッチ値から該最終ピッチ値を計算するステップを含む
    ものであり、該方法はさらに、 該プロセッサ手段が該プログラム・インストラクション
    の第2の部分集合に応動することによって該最終ピッチ
    値が以前のフレームからの最終ピッチ値と一致するよう
    該最終ピッチ値を制限するステップを含み、無声音声フ
    レームは該計算されたピッチ値が予め定義された値に等
    しいことによって示され、有声フレームは該計算された
    ピッチ値が該予め定義された値以外の値に等しいことに
    よって示されるものであり、該プログラム・インストラ
    クションの第2の部分集合は第1、第2および第3のプ
    ログラム・インストラクションのグループを含み、該制
    限を行うステップはさらに、 該プロセッサが該第1のグループのプログラム・インス
    トラクションに応動することによって有声フレーム・無
    声フレーム・有声フレームからなる第1の系列に応動し
    て有声フレームを示す新しい計算されたピッチ値を発生
    するステップと、 該プロセッサが該第2のグループのプログラム・インス
    トラクションに応動することによって無声フレーム・有
    声フレーム・無声フレームからなる第2の系列に応動し
    て無声フレームを示す新しい計算されたピッチ値を発生
    するステップと、 該プロセッサが該第3のグループのプログラム・インス
    トラクションに応動することによって有声フレーム・有
    声フレーム・有声フレームからなる第3の系列のフレー
    ムの計算されたピッチ値と算術的な関係を有する新しい
    計算されたピッチ値を発生するステップとを含み、 該プログラム・インストラクションの第2の部分集合
    は、さらに第4のグループのプログラム・インストラク
    ション、第5のグループのプログラム・インストラクシ
    ョンおよび有声フレーム・有声フレーム・無声フレーム
    からなる第4の系列を含み、該制限を行うステップは、
    さらに、 該プロセッサが該第4のグループのプログラム・インス
    トラクションに応動することによって、2つの有声フレ
    ームの間の差が別の予め定義された値よりも小さいとき
    2つの有声フレームと無声フレームについて計算された
    ピッチ値の平均に等しい新しい計算されたピッチ値を発
    生するステップと、 該プロセッサが該第5のグループのインストラクション
    に応動することによって、2つの有声フレームについて
    の2つのピッチの間の差が該他の予め定義された値より
    も大きいとき、先の有声フレームのピッチ値に等しい新
    しい計算されたピッチ値を発生するステップとを含むこ
    とを特徴とするピッチを検出する方法。
  8. 【請求項8】請求の範囲第7項に記載の方法において、 該第1のグループのプログラム・インストラクションは
    プログラム・インストラクションの第1のサブグループ
    を含み、該第2のグループのプログラム・インストラク
    ションはプログラム・インストラクションの第2のサブ
    グループを含み、 該第1の系列に応動して新しい計算されたピッチ値を発
    生するステップが該プロセッサが該第1のサブグループ
    のプログラム・インストラクションに応動することによ
    って、新しく計算されたピッチ値を該第1の系列の有声
    フレームの計算されたピッチ値の算術平均に等しくセッ
    トするステップを含み、および、 該第2の系列に対し新しい計算された値を発生するステ
    ップが、該プロセッサが該第2のサブグループのプログ
    ラム・インストラクションに応動することによって、該
    第2の系列の新しい計算されたピッチ値を該予め定義さ
    れた値に等しくセットするステップを含むことを特徴と
    するピッチを検出する方法。
JP61504126A 1985-08-28 1986-07-25 並列処理型ピッチ検出器 Expired - Lifetime JPH0820878B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US770633 1985-08-28
US06/770,633 US4879748A (en) 1985-08-28 1985-08-28 Parallel processing pitch detector
PCT/US1986/001552 WO1987001498A1 (en) 1985-08-28 1986-07-25 A parallel processing pitch detector

Publications (2)

Publication Number Publication Date
JPS63500683A JPS63500683A (ja) 1988-03-10
JPH0820878B2 true JPH0820878B2 (ja) 1996-03-04

Family

ID=25089225

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61504126A Expired - Lifetime JPH0820878B2 (ja) 1985-08-28 1986-07-25 並列処理型ピッチ検出器

Country Status (7)

Country Link
US (1) US4879748A (ja)
EP (1) EP0235181B1 (ja)
JP (1) JPH0820878B2 (ja)
KR (1) KR950000842B1 (ja)
CA (1) CA1301339C (ja)
DE (1) DE3684907D1 (ja)
WO (1) WO1987001498A1 (ja)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4972490A (en) * 1981-04-03 1990-11-20 At&T Bell Laboratories Distance measurement control of a multiple detector system
US4803730A (en) * 1986-10-31 1989-02-07 American Telephone And Telegraph Company, At&T Bell Laboratories Fast significant sample detection for a pitch detector
US5046100A (en) * 1987-04-03 1991-09-03 At&T Bell Laboratories Adaptive multivariate estimating apparatus
JP2689739B2 (ja) * 1990-03-01 1997-12-10 日本電気株式会社 秘話装置
US5226108A (en) * 1990-09-20 1993-07-06 Digital Voice Systems, Inc. Processing a speech signal with estimated pitch
US5280525A (en) * 1991-09-27 1994-01-18 At&T Bell Laboratories Adaptive frequency dependent compensation for telecommunications channels
US5353372A (en) * 1992-01-27 1994-10-04 The Board Of Trustees Of The Leland Stanford Junior University Accurate pitch measurement and tracking system and method
US5517511A (en) * 1992-11-30 1996-05-14 Digital Voice Systems, Inc. Digital transmission of acoustic signals over a noisy communication channel
JP2658816B2 (ja) * 1993-08-26 1997-09-30 日本電気株式会社 音声のピッチ符号化装置
US5471527A (en) 1993-12-02 1995-11-28 Dsc Communications Corporation Voice enhancement system and method
US5715365A (en) * 1994-04-04 1998-02-03 Digital Voice Systems, Inc. Estimation of excitation parameters
AU696092B2 (en) * 1995-01-12 1998-09-03 Digital Voice Systems, Inc. Estimation of excitation parameters
US5754974A (en) * 1995-02-22 1998-05-19 Digital Voice Systems, Inc Spectral magnitude representation for multi-band excitation speech coders
US5701390A (en) * 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
CN1155942C (zh) * 1995-05-10 2004-06-30 皇家菲利浦电子有限公司 具有改进的音调检测的编码语音传输系统和方法
US5937374A (en) * 1996-05-15 1999-08-10 Advanced Micro Devices, Inc. System and method for improved pitch estimation which performs first formant energy removal for a frame using coefficients from a prior frame
US6047254A (en) * 1996-05-15 2000-04-04 Advanced Micro Devices, Inc. System and method for determining a first formant analysis filter and prefiltering a speech signal for improved pitch estimation
KR100217372B1 (ko) * 1996-06-24 1999-09-01 윤종용 음성처리장치의 피치 추출방법
US6161089A (en) * 1997-03-14 2000-12-12 Digital Voice Systems, Inc. Multi-subframe quantization of spectral parameters
US6131084A (en) * 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
US6199037B1 (en) 1997-12-04 2001-03-06 Digital Voice Systems, Inc. Joint quantization of speech subframe voicing metrics and fundamental frequencies
US6377916B1 (en) 1999-11-29 2002-04-23 Digital Voice Systems, Inc. Multiband harmonic transform coder
KR100349656B1 (ko) * 2000-12-20 2002-08-24 한국전자통신연구원 다수의 하위 음성검출 시스템을 이용한 음성검출 장치 및그 방법
US7124075B2 (en) * 2001-10-26 2006-10-17 Dmitry Edward Terez Methods and apparatus for pitch determination
US7251597B2 (en) * 2002-12-27 2007-07-31 International Business Machines Corporation Method for tracking a pitch signal
US8210851B2 (en) * 2004-01-13 2012-07-03 Posit Science Corporation Method for modulating listener attention toward synthetic formant transition cues in speech stimuli for training
US20060105307A1 (en) * 2004-01-13 2006-05-18 Posit Science Corporation Method for enhancing memory and cognition in aging adults
US20060177805A1 (en) * 2004-01-13 2006-08-10 Posit Science Corporation Method for enhancing memory and cognition in aging adults
US20060051727A1 (en) * 2004-01-13 2006-03-09 Posit Science Corporation Method for enhancing memory and cognition in aging adults
US20070065789A1 (en) * 2004-01-13 2007-03-22 Posit Science Corporation Method for enhancing memory and cognition in aging adults
US20070111173A1 (en) * 2004-01-13 2007-05-17 Posit Science Corporation Method for modulating listener attention toward synthetic formant transition cues in speech stimuli for training
US20060073452A1 (en) * 2004-01-13 2006-04-06 Posit Science Corporation Method for enhancing memory and cognition in aging adults
CN1998045A (zh) * 2004-07-13 2007-07-11 松下电器产业株式会社 音调频率估计装置以及音调频率估计方法
US20070134635A1 (en) * 2005-12-13 2007-06-14 Posit Science Corporation Cognitive training using formant frequency sweeps
JP5229234B2 (ja) * 2007-12-18 2013-07-03 富士通株式会社 非音声区間検出方法及び非音声区間検出装置
US9601026B1 (en) 2013-03-07 2017-03-21 Posit Science Corporation Neuroplasticity games for depression
US11443761B2 (en) 2018-09-01 2022-09-13 Indian Institute Of Technology Bombay Real-time pitch tracking by detection of glottal excitation epochs in speech signal using Hilbert envelope

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS53132910A (en) * 1977-04-26 1978-11-20 Nippon Hoso Kyokai <Nhk> Extraction system of fundamental frequency of sound signal
JPS5511523B1 (ja) * 1971-02-23 1980-03-26
JPS5544959A (en) * 1978-09-26 1980-03-29 Euteco Spa Method of measuring concentration of sodium in flow of mercuryysodium amalgum
JPS6068000A (ja) * 1983-09-22 1985-04-18 日本電気株式会社 ピッチ抽出装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3496465A (en) * 1967-05-19 1970-02-17 Bell Telephone Labor Inc Fundamental frequency detector
US3617636A (en) * 1968-09-24 1971-11-02 Nippon Electric Co Pitch detection apparatus
US3740476A (en) * 1971-07-09 1973-06-19 Bell Telephone Labor Inc Speech signal pitch detector using prediction error data
FR2206889A5 (ja) * 1972-11-16 1974-06-07 Rhone Poulenc Sa
US3916105A (en) * 1972-12-04 1975-10-28 Ibm Pitch peak detection using linear prediction
US3903366A (en) * 1974-04-23 1975-09-02 Us Navy Application of simultaneous voice/unvoice excitation in a channel vocoder
US3979557A (en) * 1974-07-03 1976-09-07 International Telephone And Telegraph Corporation Speech processor system for pitch period extraction using prediction filters
US4004096A (en) * 1975-02-18 1977-01-18 The United States Of America As Represented By The Secretary Of The Army Process for extracting pitch information
US4058676A (en) * 1975-07-07 1977-11-15 International Communication Sciences Speech analysis and synthesis system
US4301329A (en) * 1978-01-09 1981-11-17 Nippon Electric Co., Ltd. Speech analysis and synthesis apparatus
CA1123955A (en) * 1978-03-30 1982-05-18 Tetsu Taguchi Speech analysis and synthesis apparatus
JPS58140798A (ja) * 1982-02-15 1983-08-20 株式会社日立製作所 音声ピツチ抽出方法
US4561102A (en) * 1982-09-20 1985-12-24 At&T Bell Laboratories Pitch detector for speech analysis

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5511523B1 (ja) * 1971-02-23 1980-03-26
JPS53132910A (en) * 1977-04-26 1978-11-20 Nippon Hoso Kyokai <Nhk> Extraction system of fundamental frequency of sound signal
JPS5544959A (en) * 1978-09-26 1980-03-29 Euteco Spa Method of measuring concentration of sodium in flow of mercuryysodium amalgum
JPS6068000A (ja) * 1983-09-22 1985-04-18 日本電気株式会社 ピッチ抽出装置

Also Published As

Publication number Publication date
KR880700386A (ko) 1988-02-23
EP0235181A1 (en) 1987-09-09
EP0235181B1 (en) 1992-04-15
DE3684907D1 (de) 1992-05-21
JPS63500683A (ja) 1988-03-10
WO1987001498A1 (en) 1987-03-12
CA1301339C (en) 1992-05-19
KR950000842B1 (ko) 1995-02-02
US4879748A (en) 1989-11-07

Similar Documents

Publication Publication Date Title
JPH0820878B2 (ja) 並列処理型ピッチ検出器
JP3277398B2 (ja) 有声音判別方法
JP2738534B2 (ja) 異なる型の励起情報を有するディジタル音声符号器
McAulay et al. Pitch estimation and voicing detection based on a sinusoidal speech model
US6526376B1 (en) Split band linear prediction vocoder with pitch extraction
US6587816B1 (en) Fast frequency-domain pitch estimation
KR100713366B1 (ko) 모폴로지를 이용한 오디오 신호의 피치 정보 추출 방법 및그 장치
US7272551B2 (en) Computational effectiveness enhancement of frequency domain pitch estimators
JP2738533B2 (ja) マルチレベル・フィルタ励起を用いる音声合成
JP2004538525A (ja) 周波数分析によるピッチ判断方法および装置
US6456965B1 (en) Multi-stage pitch and mixed voicing estimation for harmonic speech coders
JP2779325B2 (ja) ボコーダーにおける前処理の相関関係式を用いたピッチ検索時間短縮方法
JPH05281996A (ja) ピッチ抽出装置
JPH0844395A (ja) 音声ピッチ検出装置
JP3218679B2 (ja) 高能率符号化方法
US6438517B1 (en) Multi-stage pitch and mixed voicing estimation for harmonic speech coders
IL108401A (en) Method and apparatus for indicating the emotional state of a person
JP3271193B2 (ja) 音声符号化方法
JP3223564B2 (ja) ピッチ抽出方法
KR0173924B1 (ko) 음성신호의 유성음 구간에서 이포크 검출 방법
JP3221050B2 (ja) 有声音判別方法
JP2880683B2 (ja) 雑音抑制装置
JP2898637B2 (ja) 音声信号分析方法
JPH07104793A (ja) 音声信号の符号化装置及び復号化装置