JPS5918717B2 - 適応形ピツチ抽出方式 - Google Patents

適応形ピツチ抽出方式

Info

Publication number
JPS5918717B2
JPS5918717B2 JP54022954A JP2295479A JPS5918717B2 JP S5918717 B2 JPS5918717 B2 JP S5918717B2 JP 54022954 A JP54022954 A JP 54022954A JP 2295479 A JP2295479 A JP 2295479A JP S5918717 B2 JPS5918717 B2 JP S5918717B2
Authority
JP
Japan
Prior art keywords
pitch
pitch period
mode
period
circuit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP54022954A
Other languages
English (en)
Other versions
JPS55115100A (en
Inventor
文広 谷戸
征士 来山
潤三 田村
彦一 石上
明 博松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
Kokusai Denshin Denwa KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kokusai Denshin Denwa KK filed Critical Kokusai Denshin Denwa KK
Priority to JP54022954A priority Critical patent/JPS5918717B2/ja
Priority to US06/122,256 priority patent/US4282406A/en
Publication of JPS55115100A publication Critical patent/JPS55115100A/ja
Publication of JPS5918717B2 publication Critical patent/JPS5918717B2/ja
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

【発明の詳細な説明】 本発明は音声のピッチ抽出方式に係り、特に実時間処理
により音声のピッチを抽出するための音声のピッチ抽出
方式の改善に関する。
本発明によるピッチ抽出方式は音声の分析及び合成に利
用することが出来る。
音声のピッチとは有声音の基本周波数をいい、通常(7
0〜400)Hz程度であり、音声のスペクトルはピッ
チの周波数及びその整数倍の周波数でレベルが大きくな
る性質がある。ボコーダなどの音声高能率符号化伝送方
式においては、音声の基本的なパラメータのひとつであ
るピッチ周期を正確に抽出し伝送する必要があり、従来
から種々のピッチ抽出法が提案されている。しかし、従
来のいずれの方法においても、(1)ピッチ周波数と第
1ホルマントが近接している鼻音または鼻音化した母音
の部分、(2)波形レベルの定常性が保たれない部分、
および(3)有声音から有声音へのわたりの部分などで
、正しいピッチ周期の倍周期や半周期の成分などを誤つ
てピッチ周期として抽出する場合が多くピッチ抽出の正
確さが劣ること等の欠点がある。
本発明は従来の技術の上記欠点を改善するもので、その
目的は音声信号から実時間処理によりピッチを正確に抽
出することのできる適応形ピッチ抽出方式を提供するこ
とである。
この目的を達成するため、本発明では、ピッチ周期を2
0ms程度のインターバルで音声信号から抽出した場合
、母音はもとより鼻音や鼻音化された母音の部分及び有
声音から有声音へのわたりの部分においても近接した抽
出時点においてはピツチ周期はさほど変化しないこと、
すなわち、直前の抽出時点との相関関係が極めて高いこ
とに着目し、各区間内に倍数関係の周期成分を含まない
ようにした互いに異なる複数個のピッチ周期捜索区間を
用意し、ピツチ周期を捜索するに当つては直前に抽出さ
れたピツチ周期を基準として適応的にピツチ周期捜索区
間を変更することによりピツチ周期を抽出することを特
徴としている。
すなわち、直前の抽出時点においてピツチ周期が正しく
抽出された場合、次の抽出時点では直前の抽出時点で抽
出されたピツチ周期の近傍についてだけピツチ周期を捜
索すればその時点での正しいピツチ周期が得られること
になり、倍周期あるいは半周期への誤りを防ぐことが出
来るわけである。なお、本発明で採用しているピツチ抽
出法のアルゴリズムは公知技術である自己相関法を用い
るもので、自己相関係数φiは次式で求められ、ピツチ
周期は自己相関係数φiのうち最大値φNlaxを与え
る遅延時間τとして求められる。
ここで、Stは、入力音声信号でΔt秒ごとにサンプリ
ングされた時系列である。
以下、図面を用いて本発明を詳細に説明する。
先ず、本発明の要部である適応的に遷移させる複数個の
ピツチ周期捜索区間の設定方法と、その遷移方法につい
て、モード0〜8の9種類のピツチ周期捜索区間を設け
た場合を例にとつて説明する。第1図には横軸に時間(
Ms)をとり、それぞれのピッチ捜索区間の占有領域を
示している。
モード0とは音声の始まり(語頭)や長いポーズの後、
または直前のピツチ周期抽出時点で正しくピッチ周期が
抽出されなかつた場合などに用いられ、ピツチ周期が存
在すると想定される全時間区間(前述のようにピツチ周
波数は一般的に70Hz〜400Hzに存在するといわ
れ、その周期は14−Ms〜2.5msである)を対象
としてピJ■■上記条件を満すため2.5ms〜15m
s(1=20〜i=120)としている。モード1〜8
のピツチ周期捜索区間は、ピツチ周期抽出を正確にする
ためそれぞれの区間内には倍数関係の周期成分を含まな
いように時間区間を定めている。
特にモード1は予想されるピツチ周期のうち最小周期を
基準に設けられることは容易に理解できるであろう。さ
らにモード1〜8は、モード間の遷移を行なうため、図
中で上向き矢印または下向き矢印で示したように隣接す
るモードと互いにオーバラップする部分をもつている。
上向き矢印で示した部分を上位遷移領域、下向き矢印で
示した部分を下位遷移領域、矢印のない部分を安定領域
と呼ぶことにすれば、上位遷移領域は上位モードの安定
領域にほぼ等しく、下位遷移領域は下位モードの安定領
域にほぼ等しいように設けられている。次に第2図に示
したモード遷移の概念図を用い、モード0〜8の間のモ
ード遷移方法について説明する。
先ず音声が検出されると、モード0でピツチ周期を抽出
し、そのピツチ周期が後述の実施例の中で説明する条件
により正しいピツチ周期と判定されると、正しいピツチ
周期を安定領域に含むモードに遷移し、次のピツチ抽出
時点ではそのモードによりピツチ周期を抽出する。
その結果、ピツチ周期が、継続して安定領域にあればモ
ード遷移は行わず、そのモードに留まりピツチ周期の抽
出を続ける。もし、ピツチ周期が上位遷移領域に含まれ
れば、上位モードへ、下位遷移モードに含まれれば下位
モードへ遷移するわけである。また、ピツチ周期が正し
く抽出されなかつたと判定されれば、初期モードである
モード0へ遷移することとなる。次に第3図に示した本
発明の一実施例について説明する。
なお、本実施例は、ピツチ周期を20msのインターバ
ルで抽出する例である。
また本実施例の動作の流れ図は第5図に示す通りである
。1は入力端子であり、音声信号が500H7.の低域
フイルタを通過した後に、8KHz(Δt一125μs
)でサンプリングされた時系列Stとして入力される。
この入力信号は2分岐され、一方は線形予測分析器2へ
、他方は自己相関器3へと導かれる。線形予測分析器2
は入力信号の入力エネルギに対する残差エネルギの割合
δを算出するために用いる。
この入力エネルギに対する残差エネルギの割合δは鼻音
や鼻音化された母音のようにその波形が正弦波に近いも
のに対しては極めて小さな値となり、他の有声性の音声
波形に対しては中位の値を、また無声音に対しては大き
な値を示すことが知られている。従つて、線形予測分析
器2の後にしきい値V,2をもち前記の割合δがV,2
以下の場合に論理レベル゛1”を出力するしきい値回路
12と、しきい値Vl3をもち前記の割合δがVl3以
下である場合に論理レベル゛1゛を出力するしきい値回
路13を設け、Vl2〉Vl3として値を適当に設定し
ておけば、図中の4には有声性の音声が入力された際に
出力が現われ、図中の8には鼻音化された母音が入力さ
れた時のみ出力が現われることになる。本実施例ではV
l2−0.25、Vl3−0.01としている。3は自
己相関器で前述の(1)式により自己相関係数φiを求
めるとともに、入力波形の分析時点におけるエネルギE
Oを次式(2)により算出して出力している。
このエネルギE。
は有声音の場合は大きく、雑音に近い特性の無声音の場
合は小さい値となる。したがつて、しきい値Vl4をも
つしきい値回路14においてEOがしきい値Vl4を超
えた場合、有声音が発声されていると判定することが出
来る。4は最大値検出回路であり、自己相関器3で算出
される自己相関係数φiの中から最大値φNlaxを検
出し出力するとともに、最大値φMlaXを与える遅延
時間τを検出しピツチ周期の候補として出力する。
20〜120は一種のゲート回路で、自己相関器3の出
力φ20〜φ120のうちから最大値検出回路4へ導く
べきものを選択するものである。
従つて、ゲート回路20〜120を制御することにより
、ピツチ周期捜索区間を自由に変更することができ、前
述した第1図に示すモード0〜8のピツチ周期捜索区間
の設定や、モード間の遷移を容易になし得ることが理解
されよう。5は最大値検出回路4の出力に重み付けをす
るための重み付け選択回路である。
すなわち、前述の(1)式により求まる自己相関係数φ
iは、式から明らかなようにiの増加に従つて積和の項
数が減少することから、第4図に示すような重み付けが
なされている。そこで、自己相関係数を用いて種種の判
定を行なう場合には次式により補正を行わなくてはなら
ない。(3)式?酎るωiを最大値検出回路4から出力
されるピツチ周期τを基準として選択するのが重み付け
選択回路5であり、重み付けを行なうのが掛算器201
である。
15はしきい値Vl5(本実施例では0.5)をもつし
きい値回路で、φ′Maxの値がしきい値以上である場
合に音声入力が有声性の音声であることを判定している
203はしきい値回路12,13および14の出力の論
理和をとる0Rゲート回路である。
本実施例においてはφ′Maxが0.5以上又は入力エ
ネルギEがVl4以上あるいは残差エネルギの割合δが
0.25以下のいずれかの条件が満たされた場合、0R
ゲート回路203の出力に論理レベル”1”が得られ、
音声入力が有声性の音声であると判定できる。有声性の
音声と判定された場合は、0Rゲート回路203の出力
で乗算器202(単にゲート回路でもよい)を動作させ
、最大値検出回路4で検出された遅延時間τをピツチ周
期とみなし出力端子300に出力する。また同時にポー
ズカウンタ7をりセツトする。ポーズカウンタ7は、有
声性の音声でないと判定された場合その継続時間長を計
数するもので、0Rゲート回路203の出力をNOT回
路11を介して得られる論理レベル゛1”をピツチ周期
の抽出するインターバル20msで加算するものである
しきい値回路16はポーズカウンタの内容を判定するも
ので、ポーズカウンタの内容が16″、すなわち120
msになるとモードバツフア10をりセツトする。
モードバツフア10は、ゲート回路20〜120および
スイツチ回路121を入力信号の条件によつて制御しモ
ード0〜8に設定するマトリツクス回路であり、りセツ
トされた場合はモード0を設定する。
スイツチ回路121は前述のようにモードバツフア10
によつて、モード0の場合はφ′Maxをしきい値回路
19に導き、モード1〜8の場合はφ′Maxをしきい
値回路17および18に導くことにより、モード0とモ
ード1〜8では別個の処理をさせようとするものである
すなわち、モード0において抽出されたピツチ周期を基
準として、次のピツチ周期の抽出時点に適するモードを
選択したとしても、抽出されたピツチ周期が鼻音や鼻音
化した母音のものである場合には、前述のようにピツチ
周期の抽出に正確さが乏しいので、正しいピッチ周期と
みなし得ない特殊性があり、他の有声音から正しくピッ
チ周期が抽出されるまでモード0においてピツチ周期の
抽出を継続する必要があるし、他方モード1〜8におい
ては、誤つたピツチ周期を抽出したとみなされる場合に
素早くモード0へ戻す必要があるからである。上述のモ
ード0に関する処理を行なうのが、Vl,のしきい値を
もつしきい値回路19、モード選択回路9、ゲート回路
123およびNOTゲート回路124である。
前述のようにモード0においては、音声入力の相関関係
が高く安定している時点で次のピッチ周期抽出時点に適
したモードを選択する必要があるため、本実施例ではし
きい値回路19のしきい値Vl,を0.9という高い値
に設定している。モード選択回路9はしきい値回路19
から出力される論理レベル゛1゛で起動され、乗算器2
02の出力信号すなわち現在のピツチ抽出時点で抽出さ
れたピツチ周期を基準としてそのピツチ周期を安定領域
に包含するモードを識別し、それに対応する電圧値もし
くはコード化された符号を出力する。ゲート回路123
は、しきい値回路の出力信号によりゲートされ、モード
選択回路9の出力信号をそのままNOTゲート回路12
4に出力する0N0Tゲート回路124はしきい値回路
13の出力信号が論理レベル“1”である場合、すなわ
ち音声入力が鼻音もしくは鼻音化された母音である場合
には、ゲートを閉じてモードバツフア10の更新せずに
モード0に保持し、しきい値回路13の出力信号が論理
レベル”0゛の場合、すなわち音声入力が鼻音もしくは
鼻音化された母音以外の有声性の音声である場合にはゲ
ート回路123の出力信号を次のピツチ周期抽出時点に
適しているとみなし、モードバツフア10を更新するも
のである。他方前述のモード1〜8に関する処理を行な
うのがしきい値回路17および18、モード選択回路8
、ゲート回路122およびAND回路204である。
しきい値回路17は音声入力の相関関係が低くなつた場
合(本実施例ではφ/Maxの値が0.4以下)に論理
レベル“1”を出力する。AND回路204はしきい値
回路12の出力信号4としき℃値回路17の出力信号の
論理和を求めることにより、音声入力が有声性の音声で
あるにもかかわらず、その相関関係が低くなつたことを
判定し、これを誤つたモードを用いてピツチ抽出を行な
つている可能性があるとみなして、モードバツフア10
をりセツトしてモード0を設定するものである。モード
選択回路8は、本実施例ではしきい値回路18によりφ
/MlaXの値が0.8以上であると判定された場合す
なわち、ピツチ周期が安定に抽出できるという条件が満
たされている場合に、モード選択回路9と同一動作で乗
算器202の出力信号を基準として次のピツチ周期抽出
時点に適したモードを識別し、それに対応する電圧値ま
たはコード化された符号を出力しゲート回路122を介
してモードバツフア10を更新せしめモード1〜8を適
応的に設定するものである。以上実施例について述べた
が、その説明で用いた定数は、前述のようにピツチ抽出
を20msecごとに行ない、入力音声は500Hzの
低域フイルタ一を通過した後に、8KHzでサンプリン
グした場合に対応するものである。
一般には、入力条件、サンプリング周波数及びピツチを
抽出する周期などに応じて変換する必要があり、本実施
例で用いた定数を適当に換算した定数により、本方式は
種々の条件下で正確に動作する。したがつて本発明方式
を用いることにより、従来の方法で問題となつているわ
たりの部分、語尾の部分及び連続音声中の鼻音などにつ
いて正確にピツチ周期を抽出することができ、連続した
音声に対して安定にピッチ周期を抽出できるわけである
以上説明したごとく、本発明により実時間処理において
、音声のピツチを従来の方法より正確に抽出することが
できる。
従つて、ボコーダ一などの音声高能率符号化伝送装置に
適用して高品質の音声を得ることができる。
【図面の簡単な説明】
第1図は本発明におけるモード0〜8の占有領域を説明
する図、第2図は本発明におけるモード遷移の概念図、
第3図は本発明の実施例を示すプロツク図、第4図は本
発明において用いる自己相関法による自己相関係数の重
み付けを説明する図、第5図は本発明の実施例の動作の
流れ図である。 1・・・・・・入力端子、2・・・・・・線形予測分析
器、3・・・・・迫己相関器、4・・・・・・最大値検
出回路、5・・・・・・重み付け選択回路、7・・・・
・・ポーズカウンタ、8,9・・・・・・モード選択回
路、10・・・・・・モードバツフア、11・・・・・
・NOT回路、12,13,14,15,16,17,
18,19・・・・・化きい値回路、20〜120・・
・・・・ゲート回路、121,122,123・・・・
・・ゲート回路、124・・・・・・NOTゲート回路
、201,202・・・・・・乗算器、203・・・・
・・0R回路、204・・・・・・AND回路、300
・・・・・・出力端子。

Claims (1)

    【特許請求の範囲】
  1. 1 音声信号から所望の抽出周期ごとにピッチ周期を抽
    出する方式において、各区間には倍数関係の周期成分を
    含まない複数個のピッチ周期捜索区間を隣接のピッチ周
    期捜索区間相互間ではオーバーラップする部分がありか
    つ各ピッチ周期捜索区間には該オーバーラップ部分内に
    安定領域を有するように設け、前記ピッチ周期が抽出さ
    れるまではすべての前記複数のピッチ周期捜索区間を対
    象とするモード0によるピッチ周期の抽出を行うととも
    に、前記複数のピッチ周期捜索区間のうち該ピッチ周期
    が含まれているピッチ周期捜索区間を検知した抽出周期
    の次の抽出周期では前記安定領域に該ピッチ周期を含む
    ピッチ周期捜索区間を対象とするモードによるピッチ周
    期の抽出を行うことを特徴とする音声ピッチ抽出方式。
JP54022954A 1979-02-28 1979-02-28 適応形ピツチ抽出方式 Expired JPS5918717B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP54022954A JPS5918717B2 (ja) 1979-02-28 1979-02-28 適応形ピツチ抽出方式
US06/122,256 US4282406A (en) 1979-02-28 1980-02-19 Adaptive pitch detection system for voice signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP54022954A JPS5918717B2 (ja) 1979-02-28 1979-02-28 適応形ピツチ抽出方式

Publications (2)

Publication Number Publication Date
JPS55115100A JPS55115100A (en) 1980-09-04
JPS5918717B2 true JPS5918717B2 (ja) 1984-04-28

Family

ID=12096998

Family Applications (1)

Application Number Title Priority Date Filing Date
JP54022954A Expired JPS5918717B2 (ja) 1979-02-28 1979-02-28 適応形ピツチ抽出方式

Country Status (2)

Country Link
US (1) US4282406A (ja)
JP (1) JPS5918717B2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58115492A (ja) * 1981-12-29 1983-07-09 シャープ株式会社 パタ−ン認識用自己相関器
US4486900A (en) * 1982-03-30 1984-12-04 At&T Bell Laboratories Real time pitch detection by stream processing
US4561102A (en) * 1982-09-20 1985-12-24 At&T Bell Laboratories Pitch detector for speech analysis
CA1223365A (en) * 1984-02-02 1987-06-23 Shigeru Ono Method and apparatus for speech coding
JPS61134000A (ja) * 1984-12-05 1986-06-21 株式会社日立製作所 音声分析合成方式
US4845753A (en) * 1985-12-18 1989-07-04 Nec Corporation Pitch detecting device
US4803730A (en) * 1986-10-31 1989-02-07 American Telephone And Telegraph Company, At&T Bell Laboratories Fast significant sample detection for a pitch detector
DE3783905T2 (de) * 1987-03-05 1993-08-19 Ibm Verfahren zur grundfrequenzbestimmung und sprachkodierer unter verwendung dieses verfahrens.
JP2650954B2 (ja) * 1988-03-19 1997-09-10 富士通株式会社 音声基本周期抽出装置
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
KR0155315B1 (ko) * 1995-10-31 1998-12-15 양승택 Lsp를 이용한 celp보코더의 피치 검색방법
US7423983B1 (en) 1999-09-20 2008-09-09 Broadcom Corporation Voice and data exchange over a packet based network
US8107751B2 (en) * 2007-03-16 2012-01-31 Sharp Laboratories Of America, Inc. DPCM with adaptive range and PCM escape mode
US9967028B2 (en) * 2014-10-22 2018-05-08 Indian Institute Of Technology Delhi System and a method for free space optical communications

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3529140A (en) * 1967-04-28 1970-09-15 Industrial Nucleonics Corp Spectrum analyzer
US3740476A (en) * 1971-07-09 1973-06-19 Bell Telephone Labor Inc Speech signal pitch detector using prediction error data
US3808370A (en) * 1972-08-09 1974-04-30 Rockland Systems Corp System using adaptive filter for determining characteristics of an input

Also Published As

Publication number Publication date
JPS55115100A (en) 1980-09-04
US4282406A (en) 1981-08-04

Similar Documents

Publication Publication Date Title
Talkin et al. A robust algorithm for pitch tracking (RAPT)
JP3180655B2 (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
KR100651957B1 (ko) 음성 인식에서 무음을 사용한 시스템
Howell et al. Development of a two-stage procedure for the automatic recognition of dysfluencies in the speech of children who stutter: II. ANN recognition of repetitions and prolongations with supplied word segment markers
JPS58140798A (ja) 音声ピツチ抽出方法
JPS5918717B2 (ja) 適応形ピツチ抽出方式
EP1139332A9 (en) Spelling speech recognition apparatus
US7177810B2 (en) Method and apparatus for performing prosody-based endpointing of a speech signal
CN115485766A (zh) 使用bert模型的语音合成韵律
CN104934029A (zh) 基于基音同步频谱参数的语音识别系统和方法
Rabiner Speech synthesis by rule: an acoustic domain approach
Zhang et al. Improved modeling for F0 generation and V/U decision in HMM-based TTS
JPS6051720B2 (ja) 音声の基本周期抽出装置
Rose et al. The potential role of speech production models in automatic speech recognition
US20140200889A1 (en) System and Method for Speech Recognition Using Pitch-Synchronous Spectral Parameters
CN101030374B (zh) 基音周期提取方法及装置
JP3806344B2 (ja) 定常雑音区間検出装置及び定常雑音区間検出方法
CN101290775A (zh) 一种快速实现语音信号变速的方法
KR100373329B1 (ko) 음운환경과 묵음구간 길이를 이용한 텍스트/음성변환 장치 및그 방법
JP2007292940A (ja) 音声識別装置及び音声識別方法
US11961510B2 (en) Information processing apparatus, keyword detecting apparatus, and information processing method
CN113990325A (zh) 流式语音识别方法及装置、电子设备、存储介质
JPS5939760B2 (ja) 音声認識装置
JPH0950288A (ja) 音声認識装置及び音声認識方法
Ferro et al. Using Deep Neural Networks for Smoothing Pitch Profiles in Connected Speech