JPS58194099A - 音声分析システム - Google Patents
音声分析システムInfo
- Publication number
- JPS58194099A JPS58194099A JP58072340A JP7234083A JPS58194099A JP S58194099 A JPS58194099 A JP S58194099A JP 58072340 A JP58072340 A JP 58072340A JP 7234083 A JP7234083 A JP 7234083A JP S58194099 A JPS58194099 A JP S58194099A
- Authority
- JP
- Japan
- Prior art keywords
- indicator
- value
- segment
- bistable
- threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims description 9
- 230000003595 spectral effect Effects 0.000 claims description 28
- 238000001228 spectrum Methods 0.000 claims description 16
- 230000003044 adaptive effect Effects 0.000 claims description 14
- 230000005236 sound signal Effects 0.000 claims description 14
- 238000000034 method Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 2
- 230000003213 activating effect Effects 0.000 claims 1
- 210000003127 knee Anatomy 0.000 claims 1
- 238000001514 detection method Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 3
- 206010073150 Multiple endocrine neoplasia Type 1 Diseases 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 210000003323 beak Anatomy 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012950 reanalysis Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001954 sterilising effect Effects 0.000 description 1
- 238000004659 sterilization and disinfection Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
本発明は入力アナログ音声信号をディジタル音声信号に
変換する変換手段と;前記ディジタル音声信号のセグメ
ンi〜を蓄積する蓄積手段ど;各セグメントを順次のス
ペクトル成分に転換する転換手段にあって、離散的フー
リエ変換を行なう手段を貝え、これにより各々が順次の
スペクトル成分から成る一連の振幅スペク1−ルを発生
させる転換手段:どを具えている音声分析システムに関
するものである。
変換する変換手段と;前記ディジタル音声信号のセグメ
ンi〜を蓄積する蓄積手段ど;各セグメントを順次のス
ペクトル成分に転換する転換手段にあって、離散的フー
リエ変換を行なう手段を貝え、これにより各々が順次の
スペクトル成分から成る一連の振幅スペク1−ルを発生
させる転換手段:どを具えている音声分析システムに関
するものである。
A(2)従来技術の説明
断種の音声分析システムは従来のボ:1−ダから一般に
既知である。例えば’IEEE 1−ransactions on Acoust
ics、 5peecl+and 3 ignal
p rocessing ” (V(11。
既知である。例えば’IEEE 1−ransactions on Acoust
ics、 5peecl+and 3 ignal
p rocessing ” (V(11。
ASSP、No、7.1978年8月、第358へ・3
65頁)を参照することができ、ここに記載されている
従来のシステムでは振幅スペクトルを高調3− 汲ビツブ検出器に供給して、各振幅スペクトルの包1g
(I形)のピーク値間における周波数離間距離からピッ
チ周期を検出するようにしている。
65頁)を参照することができ、ここに記載されている
従来のシステムでは振幅スペクトルを高調3− 汲ビツブ検出器に供給して、各振幅スペクトルの包1g
(I形)のピーク値間における周波数離間距離からピッ
チ周期を検出するようにしている。
元来ピッチ検出器は、有声−無声(発声−無発声)(V
/LJ)の判定をすると共に、有声音の期間中にdシ番
プるピッチ周期の大きさを出ノJさせる装置であるど云
われている。しかし、ピッチ検出アルゴリズムによって
は、音声の発生セグメントの期間中にお【ノるピッチ周
期だけを求めて、有声−無声の判定は別の方法で行なう
ようにしたものもある。このことについては’rFEF Jransactions on Acousti
cs、 5peecl+and S ignal
P rocessing” (V of。
/LJ)の判定をすると共に、有声音の期間中にdシ番
プるピッチ周期の大きさを出ノJさせる装置であるど云
われている。しかし、ピッチ検出アルゴリズムによって
は、音声の発生セグメントの期間中にお【ノるピッチ周
期だけを求めて、有声−無声の判定は別の方法で行なう
ようにしたものもある。このことについては’rFEF Jransactions on Acousti
cs、 5peecl+and S ignal
P rocessing” (V of。
、△5SP−24.No 、5.1976年10月第3
99〜418頁)を参照することができる。
99〜418頁)を参照することができる。
上記最後に述べた文献には、自己相関関数や、零交さ旧
教や、1〜レーニングセットを用いてのパターン認識技
法に基ずいたり、または幾つかのピッチ検出器間での一
致の度合に基ずく数種の有声無声検出アルゴリズムが記
載されている。これ4 − らの検出アルゴリズム11音声信号、実際には全音声帯
域における時間範囲または周波数範囲のデータを入力ど
して用い、これに対し、ピッチ周期の検出には低域通過
フィルタにてろ彼した音声信号のデータを一般に用いて
いる。
教や、1〜レーニングセットを用いてのパターン認識技
法に基ずいたり、または幾つかのピッチ検出器間での一
致の度合に基ずく数種の有声無声検出アルゴリズムが記
載されている。これ4 − らの検出アルゴリズム11音声信号、実際には全音声帯
域における時間範囲または周波数範囲のデータを入力ど
して用い、これに対し、ピッチ周期の検出には低域通過
フィルタにてろ彼した音声信号のデータを一般に用いて
いる。
B1発明の概要
本発明の目的は前述した音声分析システムにて、ピッチ
周期を検出Jるために入力として一般に用いられるのと
同じスペク1〜ルデータ、即ら低域通過フィルタにてろ
波した音声信号、特に約200〜80011zの周波数
範囲内の音声信号のデータを入力として用いる有声−無
声検出方法を提供す′ることにある。
周期を検出Jるために入力として一般に用いられるのと
同じスペク1〜ルデータ、即ら低域通過フィルタにてろ
波した音声信号、特に約200〜80011zの周波数
範囲内の音声信号のデータを入力として用いる有声−無
声検出方法を提供す′ることにある。
本発明は入力アナログ音声信号をディジタル音声信号に
変換する変換手段と;前記ディジタル音川信号のセグメ
ントを蓄積する蓄積手段と;各セグメントを順次のスペ
クトル成分に転換する転換手段にあって、朗散的フーリ
エ変換を行なう手段を具え、これにより各々が順次のス
ペクトル成分から成る一連の振幅スペクトルを発生さゼ
る転換手段;とを只えている音声分析システムに、有声
音の周期を指示ずべくセットシ得ると共に、無声音また
は音声の不在周期を指示Jべくりけットし得る双安定指
示器A3よび:各セグメン1〜(番号1)に対し、約2
00・−800117,の低周波数帯域にお【ノる該セ
グメントに関連する振幅スペクi〜ルのスペクトル強度
の内のピーク値(M(1))を決定する上程と;前記指
示器がセラ1へされる場合に、各セグメン1〜および多
数の以前のレグメン1−に対して、n=1.I−1、・
−I+1−mr、IllをセグメントIとl +l −
mどの間では指示器の状態に変化がないにうな値として
、ピーク値M(n)の最大1+I’j (VM (1)
)を決定する■程ど:各はグメン1〜に対して、前記
指示器がゼットされる場合に、適応しきい値Δ1(I)
を最大値VM(1)の何分の1かに等しくセラ1〜する
ことにJ、って、および前記指示器がリセットされる場
合に、AT(r)をA T (1−1)の何分の1かに
等しくセットすることににっで適応しぎい値(AT(r
))を決定づるT程と;kを予定数とする場合に、n
= l 。
変換する変換手段と;前記ディジタル音川信号のセグメ
ントを蓄積する蓄積手段と;各セグメントを順次のスペ
クトル成分に転換する転換手段にあって、朗散的フーリ
エ変換を行なう手段を具え、これにより各々が順次のス
ペクトル成分から成る一連の振幅スペクトルを発生さゼ
る転換手段;とを只えている音声分析システムに、有声
音の周期を指示ずべくセットシ得ると共に、無声音また
は音声の不在周期を指示Jべくりけットし得る双安定指
示器A3よび:各セグメン1〜(番号1)に対し、約2
00・−800117,の低周波数帯域にお【ノる該セ
グメントに関連する振幅スペクi〜ルのスペクトル強度
の内のピーク値(M(1))を決定する上程と;前記指
示器がセラ1へされる場合に、各セグメン1〜および多
数の以前のレグメン1−に対して、n=1.I−1、・
−I+1−mr、IllをセグメントIとl +l −
mどの間では指示器の状態に変化がないにうな値として
、ピーク値M(n)の最大1+I’j (VM (1)
)を決定する■程ど:各はグメン1〜に対して、前記
指示器がゼットされる場合に、適応しきい値Δ1(I)
を最大値VM(1)の何分の1かに等しくセラ1〜する
ことにJ、って、および前記指示器がリセットされる場
合に、AT(r)をA T (1−1)の何分の1かに
等しくセットすることににっで適応しぎい値(AT(r
))を決定づるT程と;kを予定数とする場合に、n
= l 。
1−1 、 ・I +1−にのビーク(直M(r+)が
、nの増分値に対して所定ファクター以上のファクター
で単調に増加し、かっM(1)が適応しぎい値AT(1
−1)双子となる場合に双安定指示器をゼッ1〜する工
程ど:ピーク値M(1)が最大値VM([1)の所定数
分の1より小さくなるが、または予定したしきい値より
も小さくイTる場合に双安定指示器をリセットする工程
;とを含む処理を実施すべくプログラムしたプログラマ
ブルの割算手段を設【プたことを特徴とする。
、nの増分値に対して所定ファクター以上のファクター
で単調に増加し、かっM(1)が適応しぎい値AT(1
−1)双子となる場合に双安定指示器をゼッ1〜する工
程ど:ピーク値M(1)が最大値VM([1)の所定数
分の1より小さくなるが、または予定したしきい値より
も小さくイTる場合に双安定指示器をリセットする工程
;とを含む処理を実施すべくプログラムしたプログラマ
ブルの割算手段を設【プたことを特徴とする。
111iかる方法によれば、最新のものを含む順次のピ
ーク値(これはスペクトル強度とも称づる)が所定のフ
ァクター(実際にはこのファクターを3とづることがで
きる)双子のファクターで単調に増加する場合で、しか
も最新のスペクトル強度が所定の適応(アダプティブ)
しきい値以上となる場合に、有声−無声の判定が成され
る。言詔における発声音の始めには前述したスペクトル
強度の増加が殆ど常に伴なわれる。しかし、無声促音で
も帯域制限されているにも拘わらず、同様な強い7− スペク1〜ル強度の増加を呈することが時々ある。
ーク値(これはスペクトル強度とも称づる)が所定のフ
ァクター(実際にはこのファクターを3とづることがで
きる)双子のファクターで単調に増加する場合で、しか
も最新のスペクトル強度が所定の適応(アダプティブ)
しきい値以上となる場合に、有声−無声の判定が成され
る。言詔における発声音の始めには前述したスペクトル
強度の増加が殆ど常に伴なわれる。しかし、無声促音で
も帯域制限されているにも拘わらず、同様な強い7− スペク1〜ル強度の増加を呈することが時々ある。
実際ト、無声促音の内のいくつかのものは、それらの殆
どづべてのエネルギーが80011z以上の帯域に位置
するため有効に除外されるが、200−・800臣の帯
域内にある他の無声促音は有効なスペクトル強度増分を
呈する。適応しきい値は無声促音ど発声音の到来(on
sOt >によるスペクトル強度の増分値の区別をづる
。そのしきい値は最初は以前の発声音の最大スペクトル
強度に比例させるため、粗い音声レベルに順することに
なる。無声音では適応しぎい値が大きな時定数で減衰す
るようにする。この時定数は適当に選定して、よどみの
ない話し方の2つの発声音間では適応しきい値が殆ど一
定となり、中間の無声促音が発声音として検出されない
ようにする必要がある−6しかし、個々の言葉が終った
後に(ま、適応しきい値が十分に減衰し−C1つぎの低
レベルの発声音を検出し得るようにする必要がある。こ
の場合、時定数が大き過ぎるどしぎい値にJ:って発牛
到来音が誤って除外されてしまうことになる。代表的に
は114定数=8− の値を数秒程度とづるのが好適である。
どづべてのエネルギーが80011z以上の帯域に位置
するため有効に除外されるが、200−・800臣の帯
域内にある他の無声促音は有効なスペクトル強度増分を
呈する。適応しきい値は無声促音ど発声音の到来(on
sOt >によるスペクトル強度の増分値の区別をづる
。そのしきい値は最初は以前の発声音の最大スペクトル
強度に比例させるため、粗い音声レベルに順することに
なる。無声音では適応しぎい値が大きな時定数で減衰す
るようにする。この時定数は適当に選定して、よどみの
ない話し方の2つの発声音間では適応しきい値が殆ど一
定となり、中間の無声促音が発声音として検出されない
ようにする必要がある−6しかし、個々の言葉が終った
後に(ま、適応しきい値が十分に減衰し−C1つぎの低
レベルの発声音を検出し得るようにする必要がある。こ
の場合、時定数が大き過ぎるどしぎい値にJ:って発牛
到来音が誤って除外されてしまうことになる。代表的に
は114定数=8− の値を数秒程度とづるのが好適である。
有声−無声の転換部は成るしきい値によって規定され、
イの大きさは最新発声音におりる最大スペクトル強度を
所定数で割った値とする。スペク1〜ル強度がこのしき
い値よりも小さくなると自ちに有声−無声の転換部が決
定される。
イの大きさは最新発声音におりる最大スペクトル強度を
所定数で割った値とする。スペク1〜ル強度がこのしき
い値よりも小さくなると自ちに有声−無声の転換部が決
定される。
セーフガードどして大ぎな一定のしきい値を用いる。ス
ペクi・ル強度がこのしきい値以上となる場合、そのセ
グメンI〜は発声音どして直接識別される。このしぎい
値の値はスペク1〜ル強度がとり得る最大強度に関する
ものであり、実際には最大スペクトル強度の10%とす
ることができる。
ペクi・ル強度がこのしきい値以上となる場合、そのセ
グメンI〜は発声音どして直接識別される。このしぎい
値の値はスペク1〜ル強度がとり得る最大強度に関する
ものであり、実際には最大スペクトル強度の10%とす
ることができる。
さらに、低レベルの予定したしぎい伯も用いる。
スペクトル強度がこのしきい値を越さないセグメン1〜
は無声音どして直接識別される。この低レベルしきい値
の値はスペクトル強度かとり得る最大強度に関連し、実
際にはその値を最大スペクトル強度の0.4%とするこ
とができる。
は無声音どして直接識別される。この低レベルしきい値
の値はスペクトル強度かとり得る最大強度に関連し、実
際にはその値を最大スペクトル強度の0.4%とするこ
とができる。
タイプの異なる種々のボコーダにJPNノる順次のセグ
メン]へ間の時間遅れは通常10 Ill Sと30m
5との範回内の(「1である。僅゛実な判定をするだめ
のh声−無声検出器で観測Jへき最小時間間隔は40〜
50 m sと一すペきC・ある。最小時間遅れはio
msどする必要があることからして、あらゆる実際のケ
ースを網ill”lるには6個(k =6)の順次のレ
グメン1〜を観測覆れば充分である。
メン]へ間の時間遅れは通常10 Ill Sと30m
5との範回内の(「1である。僅゛実な判定をするだめ
のh声−無声検出器で観測Jへき最小時間間隔は40〜
50 m sと一すペきC・ある。最小時間遅れはio
msどする必要があることからして、あらゆる実際のケ
ースを網ill”lるには6個(k =6)の順次のレ
グメン1〜を観測覆れば充分である。
Ω一実施例の説明
双手図面に−)き本発明を説明り−る。
第1図に流れ図を6って示1本発明ILよる8−再分析
システムでは、リーンシリング速度が8KIlzで、精
度が12ピツi〜/ljンプルのブロック11に−(示
づアナ[]グーディジタル変換演幹部に対Jる入力とし
て10にて示′?l’ f17il iすi IJアノ
−ログ形態の音声信号を供給りる。ライン12に現4つ
れるテ゛イシタル4ノ′ンプルをブロック13にて表わ
すレグメン[ヘバツファ演C+部に供給しl、2j)6
個のリンプルに相当づ−る32mbのディジタル化した
音声のセグメントを蓄積する。。
システムでは、リーンシリング速度が8KIlzで、精
度が12ピツi〜/ljンプルのブロック11に−(示
づアナ[]グーディジタル変換演幹部に対Jる入力とし
て10にて示′?l’ f17il iすi IJアノ
−ログ形態の音声信号を供給りる。ライン12に現4つ
れるテ゛イシタル4ノ′ンプルをブロック13にて表わ
すレグメン[ヘバツファ演C+部に供給しl、2j)6
個のリンプルに相当づ−る32mbのディジタル化した
音声のセグメントを蓄積する。。
本例(パはディジタル化した完全/、r音声音声メグメ
ンが10111 Sのインターバルでライン14に現わ
れる。
ンが10111 Sのインターバルでライン14に現わ
れる。
10 Ill Sの各周期中に80個の新規のリンプル
がブロック13の演算部によってA槓され、80個の最
古1ノンプルは放棄される。1丁記インターバルは1(
1ms以外の舶とすることができ、例えばボコーダにこ
のシスサムを用いるように約10ms−30msの範囲
内の飴と1−ることができる3゜ ついC゛、成るレグメン1〜の256個のリーンプルを
ブ[1ツク15にて表わ?I演痺部によるハミング窓に
よって逓倍ツる。ライン16に現われる窓掛番プしIこ
リンプルをつぎにブ1]ツク17にて表わす個所に−C
IiI11敗的にフーリ]変換し、ここで各離散的スペ
クトル成分の絶対値をぞの実部および虚数部から求める
1゜ ライン18には10 m s fIiに 128個のス
ペクトル強度(絶対値で)が順次用われ、これらのスペ
ク)〜ル成分をブ[1ツク19に供給し、ここでは約2
00−。
がブロック13の演算部によってA槓され、80個の最
古1ノンプルは放棄される。1丁記インターバルは1(
1ms以外の舶とすることができ、例えばボコーダにこ
のシスサムを用いるように約10ms−30msの範囲
内の飴と1−ることができる3゜ ついC゛、成るレグメン1〜の256個のリーンプルを
ブ[1ツク15にて表わ?I演痺部によるハミング窓に
よって逓倍ツる。ライン16に現われる窓掛番プしIこ
リンプルをつぎにブ1]ツク17にて表わす個所に−C
IiI11敗的にフーリ]変換し、ここで各離散的スペ
クトル成分の絶対値をぞの実部および虚数部から求める
1゜ ライン18には10 m s fIiに 128個のス
ペクトル強度(絶対値で)が順次用われ、これらのスペ
ク)〜ル成分をブ[1ツク19に供給し、ここでは約2
00−。
800 tlzの周波数範囲内にお(Jるスペクトル強
度のビーク仙を測定り−る。第1番目のレグメン1−に
対するビーク伯をM(+)にて示し、このピーク伯のこ
とを上記周波数範囲における音声レグメン1〜−11− のスペクl−ル強度とも称する1゜ つぎに10m5のインターバルでライン20に現われる
スペクトル強度M(1)をブロック21および22に(
示づ個所にて処理づる。
度のビーク仙を測定り−る。第1番目のレグメン1−に
対するビーク伯をM(+)にて示し、このピーク伯のこ
とを上記周波数範囲における音声レグメン1〜−11− のスペクl−ル強度とも称する1゜ つぎに10m5のインターバルでライン20に現われる
スペクトル強度M(1)をブロック21および22に(
示づ個所にて処理づる。
7’ rlツク21では最14 tグメントを含む一連
のレグメンl−のスペク1〜ル強度が所定ファクター以
上のファクターで単調に増加するかどうかを測定Jる。
のレグメンl−のスペク1〜ル強度が所定ファクター以
上のファクターで単調に増加するかどうかを測定Jる。
本例では6個のレグメン1−を考慮し、上記フン7クタ
ーを3どりる。まlこ、ゾ[コック21で゛はスペクl
−ル強度が適応(アダプティブ)しきい値を越づかどう
かも測定する。この適応しきい値は以前の発声期間にお
(プる最大スペクトル強度の所定数分の1どするか、ま
たは無発声音の期間に時間と」(に減少づる舶とする。
ーを3どりる。まlこ、ゾ[コック21で゛はスペクl
−ル強度が適応(アダプティブ)しきい値を越づかどう
かも測定する。この適応しきい値は以前の発声期間にお
(プる最大スペクトル強度の所定数分の1どするか、ま
たは無発声音の期間に時間と」(に減少づる舶とする。
発声名を確実に識別覆る安全レベルとし1人ぎなしぎい
値を用いる。スペク1〜ル強度かこの値以上となる場合
にはセグメントが発声音として直接識別される。
値を用いる。スペク1〜ル強度かこの値以上となる場合
にはセグメントが発声音として直接識別される。
ブ1:1ツク21の条件が満たされる場合に、双安定指
示器23がセラ1へされて、出力端子Qに発声音の期間
を指示づる。
示器23がセラ1へされて、出力端子Qに発声音の期間
を指示づる。
= 12−
ブロック22ではスペク1〜ル強度が現時点の発声期間
における最大スペクトル強度の所定数分の1の限界値以
下に低下するか、または小さな一定しぎい値以下に低下
Jるかどうかを決定づる。これらの条件が満たされる場
合に双安定指示器23はリヒッ1−されて反転出力端子
Qに無発声音の期間を指示づる。
における最大スペクトル強度の所定数分の1の限界値以
下に低下するか、または小さな一定しぎい値以下に低下
Jるかどうかを決定づる。これらの条件が満たされる場
合に双安定指示器23はリヒッ1−されて反転出力端子
Qに無発声音の期間を指示づる。
第1図に基ずくプロセスでの所定の演綽操作は汎用ディ
ジタル]〉ピコータを適当にプログラミングすることに
よって満足させることができる。
ジタル]〉ピコータを適当にプログラミングすることに
よって満足させることができる。
ブロック21J5よび22の演幹を行なうためのコンビ
コータプログラムの流れ図を第2図に示す。このプログ
ラムの入力は連続音声セグメントのスペクトル強度を表
わす番号M(1)によって形成づる。
コータプログラムの流れ図を第2図に示す。このプログ
ラムの入力は連続音声セグメントのスペクトル強度を表
わす番号M(1)によって形成づる。
この流れ図におけるIはレグメン1〜の番号を表わし、
A]−は適応しきい値を、VMは連続発声レグメン1〜
の最大強度を、V IJ Vは出力パラメータをそれぞ
れ表わし、発声音に対してはVUV=1どし、無発声音
に対しではVUV=Oとする。、斯かる出力力パラメー
タは第1図につき前述した双安定指示器23の状態にλ
1応する1゜なお、第2図の流れ図は敢え−(゛説明し
なくても容易に理解し得るものであるが、念のため、つ
ぎのJ、うな:]メン1〜を下記に〒示する。
A]−は適応しきい値を、VMは連続発声レグメン1〜
の最大強度を、V IJ Vは出力パラメータをそれぞ
れ表わし、発声音に対してはVUV=1どし、無発声音
に対しではVUV=Oとする。、斯かる出力力パラメー
タは第1図につき前述した双安定指示器23の状態にλ
1応する1゜なお、第2図の流れ図は敢え−(゛説明し
なくても容易に理解し得るものであるが、念のため、つ
ぎのJ、うな:]メン1〜を下記に〒示する。
二lメン(・C1:特定強度Mが、ファクター3以十の
ファクターでルグメン1へ1. 1−1、・・・I −5にわたって単 調に増加づるかどうかを決定す る。
ファクターでルグメン1へ1. 1−1、・・・I −5にわたって単 調に増加づるかどうかを決定す る。
二コメントC2:M(1)が以前に設定した最大強度V
M(1−1)の所定数分 の1 (1/8)よりも小さい場 合に双安定指示器をリゼッ1〜 (VUV=0) ′?Iる。
M(1−1)の所定数分 の1 (1/8)よりも小さい場 合に双安定指示器をリゼッ1〜 (VUV=0) ′?Iる。
一]メン1−C3: VUV (1’)の出力を前述し
た双安定指示器23の状態に対応さ せる。
た双安定指示器23の状態に対応さ せる。
」メン1〜C4:適応しきい値ATを決定する。
コメン1−C5:大レベルの一定しきい値の値を307
2に固定し、低レベルの一定 しきい1直の値を128に固定Jる。
2に固定し、低レベルの一定 しきい1直の値を128に固定Jる。
本発明にJ:る音声分析システムは第3図に示す構成に
よるバードウJ゛アて゛実施することかて゛きる。
よるバードウJ゛アて゛実施することかて゛きる。
このバードウェア(よ、
A/D変換器30(第1図のブロック11に対応)と、
セグメン1〜バッファ31(第1図のブロック13)と
、 窓逓倍(窓掛【ブ)機能を同時に行なう1)[Tプロセ
ッサ32(第1図のブロック15および17)ど、 マイクロ=;ンピ」−夕33(第1図のブロック19.
21および22)と、 双安定指示器34(第1図のブロック23)とを具えて
いる。
、 窓逓倍(窓掛【ブ)機能を同時に行なう1)[Tプロセ
ッサ32(第1図のブロック15および17)ど、 マイクロ=;ンピ」−夕33(第1図のブロック19.
21および22)と、 双安定指示器34(第1図のブロック23)とを具えて
いる。
ブロック19の機能、即ち一連の値のピーク値を決定す
る機能はコンピュータを適当にプログラミングすること
により実行することができる。なおこの場合における適
当なプログラムの流れ図は容 15− 易にくふうすることがて゛さる。
る機能はコンピュータを適当にプログラミングすること
により実行することができる。なおこの場合における適
当なプログラムの流れ図は容 15− 易にくふうすることがて゛さる。
【図面の簡単な説明】
第1図は木ツを明による音声分析システムの順次の演砕
過程を示づ流れ図; 第2図は第1図に基ずくプ【]I?スで所定の潤いを実
施するのに用いられるコンビコータプログラムの流れ図
; 第3図は本発明による音声分析システムを実施覆る電子
装置の一例を示ずブ[]ツク線図である。 10・・・音声信号入力部 11・・・A/D変換演算
部13・・・レグメン(ヘバッファ演算部15・・・ハ
ミング窓掛(J演幹部 17・・・顛敗的ノーリエ変換演鋒部 19・・・スペクトル強度のピーク値測定演算部21・
・・スペクトル強度の単調増加検出兼適応しぎい伯との
比較演算部 22・・・スペクトル強度の最低しきい値どの比較演算
部 23・・・双安定指示器 30・・・A/D変換器3
1・・・レグメントバッファ 16− 32・・・D F Tプ[1ゼツリ 33・・・マイク1コニ1ンビコータ 34・・・双安定指示器。 特n出願人 1ニヌ・べ−・フィリップス・フル−
イランペンフンノブリケン
過程を示づ流れ図; 第2図は第1図に基ずくプ【]I?スで所定の潤いを実
施するのに用いられるコンビコータプログラムの流れ図
; 第3図は本発明による音声分析システムを実施覆る電子
装置の一例を示ずブ[]ツク線図である。 10・・・音声信号入力部 11・・・A/D変換演算
部13・・・レグメン(ヘバッファ演算部15・・・ハ
ミング窓掛(J演幹部 17・・・顛敗的ノーリエ変換演鋒部 19・・・スペクトル強度のピーク値測定演算部21・
・・スペクトル強度の単調増加検出兼適応しぎい伯との
比較演算部 22・・・スペクトル強度の最低しきい値どの比較演算
部 23・・・双安定指示器 30・・・A/D変換器3
1・・・レグメントバッファ 16− 32・・・D F Tプ[1ゼツリ 33・・・マイク1コニ1ンビコータ 34・・・双安定指示器。 特n出願人 1ニヌ・べ−・フィリップス・フル−
イランペンフンノブリケン
Claims (1)
- 【特許請求の範囲】 1、 入力アナログ音声信号をディジタル音声信号に変
換する変換手段ど:前記ディジタル音声信号のセグメン
トを蓄積する蓄積手段と;各セグメントを順次のスペク
トル成分に転換する転換手段にあって、離散的フーリエ
変換を行なう手段を具え、これにより各々が順次のスペ
クトル成分から成る一連の振幅スペクトルを発生させる
転換手段;とを具えている音声分析システムに、有声音
の周期を指示すべくセットし得ると共に、無声音または
音声の不在周期を指示すべくリセットし得る双安定指示
器およびニ ー各セグメント(番号I)に対し、約200〜800
Hzの低周波帯域における該セグメントに関連する振幅
スペクトルのスペクトル成分の内のピーク値(M(1)
)を決定する工程と; 一前記指示器がセットされる場合に、各セグメントおよ
び多数の以前のセグメントに対シテ、n=I、I−1+
−1+1−mで、■をセグメン1〜Iとl+l−mとの
間では指示器の状態に変化がないような値として、ピー
ク値M(n)の最大値(VM (”I ) )を決定す
る工程と; 一各セグメン1〜に対して、前記指示器がセラ1〜され
る場合に、適応しきい値AT(1)を最大値VMN)の
何分の1かに等しくセットすることによって、および前
記指示器がリセットされる場合に、AT(+>をAT(
I−1)の何分の1かに等しくセットすることによって
適応しきい値 (AT(1))を決定する工程と; −kを予定数とする場合に、n−1゜ 1−1、・ I+1−にのピーク値M(n)が、nの増
分値に対して所定ファクター以上のファクターで単調に
増加し、かつ M(1)が適応しきい値AT(1−1)以上どなる場合
に双安定指示器をセットする工程と: ピーク値M(I)が最大値VMN−1>の所定数分の1
より小さくなるが、または予定したしきい値よりも小ざ
くなる場合に双安定指示器をリセッ1〜する二[程;と
を含む処理を実施1べくプログラムしたプログラマブル
の計算手段を設けたことを特徴とする音声分析システム
。 2、特許請求の範囲1記載のシステムにおいて、該シス
テムが、 ピーク値M(1)が相対的に高い一定しきい値以十とな
る場合に、双安定指示器をヒツトする工程と: ピーク値が相対的に低い一定のしきい値を越えない場合
に双安定指示器をりけットする工程 とを含むことを特徴とする音声分析システム。 □
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP82200501A EP0092612B1 (en) | 1982-04-27 | 1982-04-27 | Speech analysis system |
NL82200501.3 | 1982-04-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS58194099A true JPS58194099A (ja) | 1983-11-11 |
JPH0462399B2 JPH0462399B2 (ja) | 1992-10-06 |
Family
ID=8189485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP58072340A Granted JPS58194099A (ja) | 1982-04-27 | 1983-04-26 | 音声分析システム |
Country Status (5)
Country | Link |
---|---|
US (1) | US4637046A (ja) |
EP (1) | EP0092612B1 (ja) |
JP (1) | JPS58194099A (ja) |
CA (1) | CA1193730A (ja) |
DE (1) | DE3276732D1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59174382A (ja) * | 1983-03-24 | 1984-10-02 | Canon Inc | 被記録材 |
DE3772230D1 (de) * | 1986-03-18 | 1991-09-26 | Siemens Ag | Verfahren zur unterscheidung von sprachsignalen von signalen geraeuschfreier oder geraeuschbehafteter sprachpausen. |
IT1229725B (it) * | 1989-05-15 | 1991-09-07 | Face Standard Ind | Metodo e disposizione strutturale per la differenziazione tra elementi sonori e sordi del parlato |
JP3277398B2 (ja) * | 1992-04-15 | 2002-04-22 | ソニー株式会社 | 有声音判別方法 |
US5715365A (en) * | 1994-04-04 | 1998-02-03 | Digital Voice Systems, Inc. | Estimation of excitation parameters |
US5819217A (en) * | 1995-12-21 | 1998-10-06 | Nynex Science & Technology, Inc. | Method and system for differentiating between speech and noise |
US5758277A (en) * | 1996-09-19 | 1998-05-26 | Corsair Communications, Inc. | Transient analysis system for characterizing RF transmitters by analyzing transmitted RF signals |
DE19854341A1 (de) * | 1998-11-25 | 2000-06-08 | Alcatel Sa | Verfahren und Schaltungsanordnung zur Sprachpegelmessung in einem Sprachsignalverarbeitungssystem |
RU2482679C1 (ru) * | 2011-10-10 | 2013-05-27 | Биогард Инвестментс Лтд., | Инсектицидная композиция |
US9454976B2 (en) | 2013-10-14 | 2016-09-27 | Zanavox | Efficient discrimination of voiced and unvoiced sounds |
JP6891736B2 (ja) * | 2017-08-29 | 2021-06-18 | 富士通株式会社 | 音声処理プログラム、音声処理方法および音声処理装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3549806A (en) * | 1967-05-05 | 1970-12-22 | Gen Electric | Fundamental pitch frequency signal extraction system for complex signals |
US4015088A (en) * | 1975-10-31 | 1977-03-29 | Bell Telephone Laboratories, Incorporated | Real-time speech analyzer |
US4351983A (en) * | 1979-03-05 | 1982-09-28 | International Business Machines Corp. | Speech detector with variable threshold |
FR2451680A1 (fr) * | 1979-03-12 | 1980-10-10 | Soumagne Joel | Discriminateur parole/silence pour interpolation de la parole |
FR2466825A1 (fr) * | 1979-09-28 | 1981-04-10 | Thomson Csf | Dispositif de detection de signaux vocaux et systeme d'alternat comportant un tel dispositif |
US4441200A (en) * | 1981-10-08 | 1984-04-03 | Motorola Inc. | Digital voice processing system |
-
1982
- 1982-04-27 DE DE8282200501T patent/DE3276732D1/de not_active Expired
- 1982-04-27 EP EP82200501A patent/EP0092612B1/en not_active Expired
-
1983
- 1983-04-20 CA CA000426340A patent/CA1193730A/en not_active Expired
- 1983-04-21 US US06/487,389 patent/US4637046A/en not_active Expired - Fee Related
- 1983-04-26 JP JP58072340A patent/JPS58194099A/ja active Granted
Also Published As
Publication number | Publication date |
---|---|
JPH0462399B2 (ja) | 1992-10-06 |
EP0092612B1 (en) | 1987-07-08 |
DE3276732D1 (en) | 1987-08-13 |
CA1193730A (en) | 1985-09-17 |
US4637046A (en) | 1987-01-13 |
EP0092612A1 (en) | 1983-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dubnowski et al. | Real-time digital hardware pitch detector | |
Ying et al. | A probabilistic approach to AMDF pitch detection | |
US4038503A (en) | Speech recognition apparatus | |
Markel | The SIFT algorithm for fundamental frequency estimation | |
US4809332A (en) | Speech processing apparatus and methods for processing burst-friction sounds | |
CN103617799B (zh) | 一种适应于移动设备的英语语句发音质量检测方法 | |
US20080215321A1 (en) | Pitch model for noise estimation | |
JPS58134699A (ja) | 連続ワ−トストリング認識方法および装置 | |
JPH0121519B2 (ja) | ||
JPH0713584A (ja) | 音声検出装置 | |
JPS58194099A (ja) | 音声分析システム | |
CN104123934A (zh) | 一种构音识别方法及其系统 | |
JP2980438B2 (ja) | 人間の音声を認識するための方法及び装置 | |
Endah et al. | Comparison of feature extraction mel frequency cepstral coefficients and linear predictive coding in automatic speech recognition for indonesian | |
Hainsworth et al. | Analysis of reassigned spectrograms for musical transcription | |
EP0092611B1 (en) | Speech analysis system | |
Badenhorst et al. | Quality measurements for mobile data collection in the developing world | |
CN112151066A (zh) | 基于声音特征识别的语言冲突监测方法、介质及设备 | |
Zolnay et al. | Extraction methods of voicing feature for robust speech recognition. | |
JPS607496A (ja) | 音声認識装置 | |
DE173986T1 (de) | Verfahren und vorrichtung zur erkennung von wortfolgen, die zu kleinen vokabularien gehoeren, ohne vorausgehendes training. | |
Funada | A method for the extraction of spectral peaks and its application to fundamental frequency estimation of speech signals | |
CA1180813A (en) | Speech recognition apparatus | |
Siegel | Features for the identification of mixed excitation in speech analysis | |
KI et al. | Automatic Spotting of Plosives and Fricatives from Speech signals |