JP2585214B2 - ピッチ抽出方法 - Google Patents

ピッチ抽出方法

Info

Publication number
JP2585214B2
JP2585214B2 JP61035151A JP3515186A JP2585214B2 JP 2585214 B2 JP2585214 B2 JP 2585214B2 JP 61035151 A JP61035151 A JP 61035151A JP 3515186 A JP3515186 A JP 3515186A JP 2585214 B2 JP2585214 B2 JP 2585214B2
Authority
JP
Japan
Prior art keywords
pitch
calculating
frame
period
extraction method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP61035151A
Other languages
English (en)
Other versions
JPS62194300A (ja
Inventor
吉章 浅川
宜則 宮本
和弘 近藤
熹 市川
俊郎 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP61035151A priority Critical patent/JP2585214B2/ja
Publication of JPS62194300A publication Critical patent/JPS62194300A/ja
Application granted granted Critical
Publication of JP2585214B2 publication Critical patent/JP2585214B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Extraction Or Liquid Replacement (AREA)
  • Liquid Crystal Substances (AREA)
  • Working-Up Tar And Pitch (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は音声の分析に係り、特に実時間で音声のピツ
チ周期を抽出するに好適なピツチ抽出方式の改良に関す
る。
〔従来の技術〕
音声を分解して伝送あるいは蓄積する高能率符号化や
音声含成等において、ピツチ周期情報は音質上極めて重
要であり、その高精度な抽出手段は必要不可欠である。
また特に伝送においては実時間処理が必須であり、装置
コストの低減のためにも低処理量で高速なピツチ抽出ア
ルゴリズムが望まれる。
音声のピツチ周波数は男女子供を考慮すると、70〜50
0Hz(周期にして2〜15ms)の範囲にわたり、その抽出
精度は符号化音声あるいは合成音声の品質の観点から0.
1ms以下、少なくとも0.3ms以下の間隔で抽出することが
望ましい。そこで従来は音声のスペクトル情報を抽出す
るためのサンプリング周波数8〜10kHzによりアナログ
−デイジタル(A/D)変換した信号を同時に用いること
により時間分解能の十分あるピツチ周期を抽出してい
た。
ピツチ周期を抽出するためには音声波形あるいは予測
残差波形の自己相関係数を2〜15msの遅れに対して求
め、その相関係数のピーク値を与える時間遅れの値をも
つてピツチ周期とする手法が一般的である。いま、8kHz
サンプリングの場合を考えると、1サンプル当りの時間
遅れは125μsであるから、2〜15msの遅れは16〜120サ
ンプル点の遅れに相当し、抽出した自己相関係数の信頼
性を考慮すれば、最も遅延の大きい120サンプル遅れの
値に対しても100点程度のデータが要求されるから、音
声サンプルデータは220点程度必要となり、16〜120点遅
れの自己相関係数の演算量も非常に大きなものとなる。
上記ピツチ抽出の演算量を低減し、汎用の信号処理用
マイクロコンピュータ(DSP)によつて実時間(通常10
〜20ms)で実現可能とした方法として、例えば特開昭57
−82897号がある。これは入力音声を例えば1/4にリサン
プリングした後、相関係数を算出することによつてデー
タ量,演算量を低減し、相関係数のピーク値付近を放物
線補間することで必要な時間分解能を確保したピツチ周
期を抽出した方法である。また特開昭58−76891号では
リサンプリングに際し、低次の線形予測分析を行い、ホ
ルマントの影響を除去した上でピツチ抽出を行う方法が
開示されている。さらに特開昭58−1140798号では、過
去数フレームにおけるピツチ周期からガイドインデツク
スを求め、ピツチ周期の連続性を考慮してピツチ同期を
抽出する方法が開示されている。
〔発明が解決しようとする問題点〕
上記特開昭57−8289又は特開昭58−76891に開示され
た技術を電話回線を経由した音声に適用しようとすると
必ずしも十分な性能は得られない。これは帯域が制限さ
れた(300〜3400Hz)音声に対しては、音声の調波成分
の影響を受けやすくなるためである。すなわちピツチ成
分よりもその高調波成分が相対的に強調され、真のピツ
チ周期の整数分の一が選ばれやすくなる。逆に整数倍の
周期が選ばれることもある。これらの問題は通常のサン
プリンググレートにおいても起こるが、リサンプリング
した場合には真のピツチ周期とリサンプリング周期との
不一致に起因して、上記問題が増加する。
一方、ピツチ周期はフレーム毎に独立に抽出するた
め、不連続が生じやすい。これに対し特開昭58−114079
8の方法はピツチ周期の連続性を保つ上で有効である。
しかしピツチ周期の候補に対する相関値を評価していな
いため、抽出されたピツチ周期に誤りが多い場合には、
誤りが伝播する可能性があり、これを防ぐためには、予
め8フレーム分程度のピツチ周期を抽出した上でピツチ
周期を選び直す必要がある。このことは符号に遅延が80
ms増えることを意味し、通話品質に与える影響が無視で
きない。
本発明の目的は、データ量,処理量ともに少なく、か
つ本質的に符号化遅延が少なくて済む高精度のピツチ抽
出方法を提供することにある。
〔問題点を解決するための手段〕
上記目的を達成するために、本発明ではリサンプリン
グされた音声信号の相関係数のピークにより抽出された
ピツチ周期から複数個の候補を算出し、その各々に対す
る音声信号の短区間の相関値を評価することによつて、
これら候補から最も適切なピツチ周期が選ばれるように
している。またこの時に、直前のフレームまでに抽出さ
れたピツチ周期に基づいて相関値に重み付けを施すこと
により、連続性が確保された安定なピツチ周期が選ばれ
る。
〔作用〕
第3図の波形21は音声波形の一例を示している。また
区間31はピツチを抽出する該フレームを示している。原
波形xi(i番目の標本化波形)を低減濾波した波形x1
4:1にリサンプルした波形y1に対し、自己相関係数を次
式で算出する。
R(t)の最大値近傍を補間してその最大値を与える
時間遅れをT(原サンプリングの分解能を持つ)とす
る。このときピツチ周期の候補としてはピツチ周期の探
索範囲内にあるT,nT,T/n(nは2以上の整数)となる。
第4図は第3図の区間32を基準として、そこからT/3,T/
2,T,2Tはなれた区間(それぞれ第3図の区間33,34,35,3
6)との相関値を次式で算出した結果を示している。
ここにxiはi番目の音声波形の標本データの振幅であ
り、区間32の先頭を便宜的にi=0としている。Mは予
め定めたデータ数,jは区間33,34,35,36の先頭のデータ
番号(アドレス)、すなわちT/3,T/2,T,2T(但し整数)
である。第3図によればr(T/2)はr(T)と同程度
の値を示しており、正しいピツチ周期はT/2と判定でき
る。ここで式(2)に用いるxiは原データ、すなわちリ
サンプルされる前のデータであるため、基準となる区間
(第3図における区間32)を適切に選べば比較的少ない
データ数で安定な判定が可能である。
ところで、一般にピツチ周期の候補はT/n,nTの両方が
あるが、いずれかの場合に限定されれば、ピツチの判定
は容易となる。そこで式(1)のR(t)に対し次数t
に応じて適切な重みW(t)を乗ずることにより、R
(t)の最大値を与えるTは正しいピツチ周期又はその
整数倍のみが抽出されるようになり、式(2)のr
(j)はj=T/n(n≧1)のみ算出すれば良く、この
時はr(j)r(T)となるもののうち最も小さなj
をピツチ周期とすれば良い。
一方、R(t)はフレーム毎に算出されるので、まれ
に正しいピツチの非整数倍の値が選ばれることがあり、
このようなものに対しては正しいピツチ周期を抽出する
ことが出来ない。通常の発声では、フレーム間のピツチ
周期の変動は連続的と見なされる範囲であり、直前のフ
レームまでに抽出されたピツチ周期に近いものが選ばれ
るようにすることで上記問題は回避できる。具体的には
R(t)に乗ずる重みW(t)を、直前のフレームのピ
ツチ周期に対応するtおよびその近傍のみ標準値よりも
大きくすれば良い。同様の操作は式(2)のr(T/n)
(nは1以上の整数)の値を評価してピツチ周期を選択
する場合にも適用できる。すなわち直前のフレームのピ
ツチ周期に近いT/nに対するr(T/n)の相関値に重み付
けすればよい。
この方法の特徴はピツチ周期の連続性を相関係数値に
反映させる点にある。このようにすることで、万が一前
フレームで抽出されたピツチ周期が誤つていても、現フ
レームで正しいピツチ周期に対応する相関値の方が、誤
つて重みづけられた相関値よりも大きくなる可能性が高
く、誤りが伝播しにくい。
〔実施例〕
以下、本発明の一実施例を図面を用いて説明する。
第1図は本発明を用いたピツチ抽出装置のブロツク図
である。第1図において所定のサンプリング周期でデイ
ジタル化された音声データがバツフアメモリ1に格納さ
れる。ここでサンプリング周期は125μs(8kHzサンプ
リング)、フレーム周期は20msとする。バツファメモリ
には現フレームを中心とした40ms分のデータが格納され
ている。バツファメモリ1から音声データxiが読み出さ
れ、リサンプリング部2に入力され、2kHzでリサンプリ
ングされた波形yiが出力される。リサンプリング部2に
おいて、音声データxiがカツトオフ周波数500Hzの低域
濾波器を経由し、4:1に間引かれている。
リサンプリングされた音声データyiは自己相関係数演
算部3に入力され、式(1)に従つて自己相関係数R
(t)が算出される。ここでピツチ周期の探索範囲は2
〜15msであり、8kHzサンプリングではτmin=16〜τmax
=120サンプルに相当するが、2kHzでリサンプリングさ
れた波形に対しては4〜30サンプルに相当する。但しピ
ツチ周期の候補は放物線補間により抽出するので、余分
に2サンプルすなわち時間遅れt=3〜31に対してR
(t)を算出する必要がある。
R(t)はピツチ周期候補抽出部4に入力され、まず
重み付けが施される。
R′(t)=R(t)・W(t) (3) W(t)の標準特性は例えば第5図に示すようなもの
である。これは一種の低域強調となつており、正しいピ
ツチ周期の整数分の一が抽出されるのを抑制する効果が
ある。
次にt=4〜30に対応するR′(t)の最大値が検出
される。R′(t)の最大値を与える次数をt=toとす
ると、ピツチ周期の候補Tは次の放物線補間により8kHz
サンプリングにおける時間分解能(125μs)で求ま
る。
ピツチ周期候補抽出部4からはR′(t)の最大値
R′(to)が判定部6へ、ピツチ周期候補Tが部分相関
演算部5へそれぞれ出力される。
部分相関演算部5においては、バツフアメモリ1から
音声データxiが読み出され、 T/n≧τmin (5) なるT/nに対し式(2)に従つてr(T/n)が算出され
る。ここにnは1以上の整数であり、T/nは整数で表現
した値である。ここで式(2)において便宜上i=0と
している基準区間の先頭アドレスの求め方を説明する。
部分相関演算部5の目的は式(2)の相関係数をT/n
に対して感度よく求めることである。そのためにはフレ
ームの中で最も周期性の高い部分を基準とすることが望
ましい。基準区間の求め方の一例は、まずフレーム内の
音声データのうち振幅の絶対値が最大のものxi0を検出
し、そのデータを含み、連続したM個の音声データに対
し振幅の絶対値和 を求め、この最大値を与えるk=k0を基準区間の先頭ア
ドレスとするものである。式(6)のa(k)のかわり
にパワ を用いてもよい。このようにして基準区間を定めると、
式(2)におけるデータ数Mは最小ピツチ周期τminの
2倍程度で良いことがわかつた。
このようにして決定したアドレスk0を改めてi=0と
し、式(2)を算出する。ここでk0がフレームの後半に
あるときは、式(2)のかわりに を用いても良い。
部分相関演算部5から、T/n、およびr(T/n)が判定
部6に出力される。
判定部6においては、まず、ピツチ抽出候補抽出部4
からの出力R′(t0)の閾値判定により該フレームが有
声か無声かを決定する。すなわち R′(t0)≧θ (7) のとき有声とし、r(T/n)に対する判定を行う。ここ
にθは正の閾値である。そうでない場合は該フレーム
は無声として、ピツチ周期7としてτ=0を出力し、該
フレームの処理を終了する。
有声の場合には部分相関演算部の出力T/nおよびr(T
/n)を用いて、 r(T/n)≧r(T)−θ (8) を満たすT/n(nは2以上の整数)のうち最小のものを
ピツチ周期とする。但しθは正の閾値である。もし式
(8)を満たすT/nが存在しない場合にはピツチ周期は
τ=Tとする。
ピツチ周期7が出力されることにより、該フレームの
処理を終了する。
次に本発明の第2の実施例を第2図を用いて説明す
る。第1の実施例との違いは、重み制御部8が付加され
ている点である。これは該フレームの直前のフレームま
でのピツチ情報を利用することにより、より安定なピツ
チ抽出を行うことを目的として今る。重み制御部8では
直前のフレームのピツチ周期が決定した時点で、次のよ
うな処理が行われる。
重み制御部8では該フレームの1フレーム前のピツチ
周期τと2フレーム前のピツチ周期τが記憶されて
おり、 |τ−τ|≦θ (9) なる時に、第1の制御パラメータP1が P1=τ/4 (10) 第2の制御パラメータP2が P2=τ (11) とセットされ、式(9)を満たさない場合には P1=0 (10)′ P2=0 (11)′ とセットされる。ここにθは正の閾値であり、連続す
る2フレーム間のピツチ周期の変動が連続とみなせる幅
を表している。
該フレームにおける処理は自己相関演算部3までは第
1の実施例と同様である。ピツチ周期候補選択部4にお
いて、重み制御部8から供給される第1の制御パラメー
タP1によつて、自己相関係数R(t)の値が部分的に補
正される。すなわち ここにw1は1以上の重みで通常1.1〜1.2程度である。ま
たΔPは補正する次数の幅を示し、1〜2程度である。
式(12)においてw1は一定としてあるが、t=P1を中心
に山型の重み形成とすることも可能である。式(12)に
よつて直前の2フレームで連続的なピツチ周期が抽出さ
れている場合には、それに近い周期が選ばれやすくな
る。
一方判定部6においては、部分相関演算部から供給さ
れる相関係数r(T/n)(nは1以上の整数)に対し、
重み制御部8から供給される第2の制御パラメータP2
よつて選択的に重み付けを行う。すなわち、n≧1に対
して |T/n−P2|≦θ (13) を満たす場合、 r(T/n)=r(T/n)・w2 (14) とする。θは連続的と見なせるピツチ周期の変動幅で
あり、通常ははθ=θである。またw2は1以上の重
みである。このような重み付けを行つた場合には、n≧
1に対して とし、式(8)による判定のかわりに、n≧1に対して r(T/n)≧rmax−θ′ (16) を満足するT/n(n≧1)のうち最小のものをピツチ周
期とすれば良い。θ′はθに準じた閾値である。該
フレームのピツチ周期τが決定した時点で、τ
τ,τ=τと値が更新される。
重み制御部8における制御パラメータP1,P2の決め方
は最も単純な例を示した。制御パラメータの決定方法に
種々の変形があることはいうまでもない。
上記第1の実施例および第2の実施例の処理は比較的
演算量,メモリ量が少なくて済み汎用のマイクロプロセ
ツサ等により容易に実現できる。第2の実施例で電話回
線を経由した音声のピツチを抽出したところ、抽出誤り
が約25%から5%に減少した。
〔発明の効果〕
本発明によれば、少ない処理量でピツチ周期の候補を
抽出し、ピツチ周期の連続性を考慮した精密な判定を行
うことができるので、より正確なピツチ周期の抽出を行
うことができる。
【図面の簡単な説明】
第1図は本発明の第1の実施例のピツチ抽出装置のブロ
ツク図、第2図は本発明の第2の実施例のピツチ抽出装
置のブロツク図、第3図は音声波形を示す図、第4図は
本発明の原理を示す図、第5図は重み関数を示す図であ
る。 2…リサンプリング部、3…自己相関係数演算部、4…
ピツチ周期候補抽出部、5…部分相関演算部、6…判定
部、8…重み制御部。
フロントページの続き (72)発明者 市川 熹 国分寺市東恋ヶ窪1丁目280番地 株式 会社日立製作所中央研究所内 (72)発明者 鈴木 俊郎 国分寺市東恋ヶ窪1丁目280番地 株式 会社日立製作所中央研究所内 (56)参考文献 特開 昭60−189000(JP,A) 特開 昭60−238900(JP,A)

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】所定のサンプリング周期でデジタル化され
    た音声データの自己相関係数を算出する工程と、 該自己相関係数からピツチ周期の候補を求める工程と、 該デジタル化された音声データからピツチ周期を決定す
    るための基準区間を算出する工程と、 該基準区間と該ピッチ周期の候補分はなした区間との部
    分相関係数を算出する工程と、 該部分相関係数の最大値を求めそれからピッチ周期を決
    定する工程からなることを特徴とするピッチ抽出方法。
  2. 【請求項2】前記自己相関係数を算出する工程と前記ピ
    ツチ周期の候補を求める工程との間に前記自己相関係数
    に重み付けを施す演算工程を付加したことを特徴とする
    特許請求の範囲第1項記載のピッチ抽出方法。
  3. 【請求項3】前記演算工程の重み付けは、直前のフレー
    ムまでに抽出されたピッチ周期に基づいて行われること
    を特徴とする特許請求の範囲第2項記載のピッチ抽出方
    法。
  4. 【請求項4】前記所定のサンプリング周期でデジタル化
    された音声データを更に間引くためのリサンプリング工
    程を付加したことを特徴とする、特許請求の範囲第1
    項、第2項または第3項記載のピッチ抽出方法。
  5. 【請求項5】前記基準区間を算出する工程として、フレ
    ーム内の音声信号のエネルギー分布に基づいて決定した
    区間であることを特徴とする、特許請求の範囲第1項か
    ら第4項記載のピッチ抽出方法。
  6. 【請求項6】前記基準区間を算出する工程として、フレ
    ーム内の音声信号の振幅絶対値の和に基づいて決定した
    区間であることを特徴とする、特許請求の範囲第1項か
    ら第5項記載のピッチ抽出方法。
JP61035151A 1986-02-21 1986-02-21 ピッチ抽出方法 Expired - Lifetime JP2585214B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61035151A JP2585214B2 (ja) 1986-02-21 1986-02-21 ピッチ抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61035151A JP2585214B2 (ja) 1986-02-21 1986-02-21 ピッチ抽出方法

Publications (2)

Publication Number Publication Date
JPS62194300A JPS62194300A (ja) 1987-08-26
JP2585214B2 true JP2585214B2 (ja) 1997-02-26

Family

ID=12433898

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61035151A Expired - Lifetime JP2585214B2 (ja) 1986-02-21 1986-02-21 ピッチ抽出方法

Country Status (1)

Country Link
JP (1) JP2585214B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI113903B (fi) * 1997-05-07 2004-06-30 Nokia Corp Puheen koodaus
JP4426186B2 (ja) * 2001-05-22 2010-03-03 富士通株式会社 音声信号処理装置

Also Published As

Publication number Publication date
JPS62194300A (ja) 1987-08-26

Similar Documents

Publication Publication Date Title
KR950000842B1 (ko) 피치 검출기
Talkin et al. A robust algorithm for pitch tracking (RAPT)
KR970001166B1 (ko) 언어 처리 방법 및 장치
JPH08328588A (ja) ピッチラグを評価するためのシステム、音声符号化装置、ピッチラグを評価する方法、および音声符号化方法
CA2162407C (en) A robust pitch estimation method and device for telephone speech
JPH04270398A (ja) 音声符号化方式
JP2000515998A (ja) コード励振形線形予測(celp)コーダにおいて励振コードブックを検索する方法およびその装置
JP2000163096A (ja) 音声符号化方法及び音声符号化装置
CN101030374B (zh) 基音周期提取方法及装置
JP3576800B2 (ja) 音声分析方法、及びプログラム記録媒体
JP4673828B2 (ja) 音声信号区間推定装置、その方法、そのプログラム及び記録媒体
JP2585214B2 (ja) ピッチ抽出方法
JPH05281996A (ja) ピッチ抽出装置
EP0745972B1 (en) Method of and apparatus for coding speech signal
JP4691079B2 (ja) 音声信号区間推定装置、方法、プログラムおよびこれを記録した記録媒体
JPH0782360B2 (ja) 音声分析合成方法
JP3559485B2 (ja) 音声信号の後処理方法および装置並びにプログラムを記録した記録媒体
JPH0258100A (ja) 音声符号化復号化方法及び音声符号化装置並びに音声復号化装置
JP3299099B2 (ja) 音声符号化装置
KR100388488B1 (ko) 유성음 구간에서의 고속 피치 탐색 방법
JPH08185199A (ja) 音声符号化装置
JPH08211895A (ja) ピッチラグを評価するためのシステムおよび方法、ならびに音声符号化装置および方法
JP3471542B2 (ja) 音声符号化装置
JPH09134196A (ja) 音声符号化装置
JP3308847B2 (ja) ピッチ波形切り出し基準位置決定方法とその装置