JPH0462398B2 - - Google Patents

Info

Publication number
JPH0462398B2
JPH0462398B2 JP58072341A JP7234183A JPH0462398B2 JP H0462398 B2 JPH0462398 B2 JP H0462398B2 JP 58072341 A JP58072341 A JP 58072341A JP 7234183 A JP7234183 A JP 7234183A JP H0462398 B2 JPH0462398 B2 JP H0462398B2
Authority
JP
Japan
Prior art keywords
segment
average value
value
voiced
segments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP58072341A
Other languages
English (en)
Other versions
JPS58194100A (ja
Inventor
Yohanesu Suruteru Roberuto
Yan Kotomansu Hendoritsuku
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JPS58194100A publication Critical patent/JPS58194100A/ja
Publication of JPH0462398B2 publication Critical patent/JPH0462398B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Description

【発明の詳細な説明】 発明の背景 発明の技術分野 本発明は入力アナログ音声信号をデイジタル音
声信号に変換する手段と、規則的に繰り返し発生
する瞬時にこれら瞬時に先行する音声信号セグメ
ントにおける整流した音声信号の平均値を求める
ための平均値決定手段とを具え、斯くして決定し
た平均値を、無声音セグメントと有声音セグメン
トとを区別するための目安とする音声分析システ
ムに関するものである。
従来技術の説明 このような音声分析システムは一般にボコーダ
の分野で知られている。一例として文献: 「Proceedings of the IEEE」Vol.63,No.4,
April 1975,第662〜677頁を参照することが出来
る。この文献によれば、波形強度とか、平均の大
きさとも称される上述した平均値のような音声信
号のエネルギー関数は、有音声セグメントと無声
音のセグメントと区別するための良好な目安とな
ると記載されている。しかしながら、これに基づ
く有声−無声音の判定は実際には或る範囲内の値
の波形強度では信頼できないことが判つた。
さらにまた上記文献には、基本的にピツチ検出
器は有声−無声音(V/U)の判定をし、しかも
有声音の期間中は、ピツチ周期を測定する装置で
あると記載されている。しかしながら、ピツチア
ルゴリズムには、音声の有声音セグメントの期間
中におけるピツチ周期だけを求めて有声−無声音
の判定は別の技術に頼るようにしたものもある。
この点については、文献:IEEE Transaction
on Acoustics,Speech and Signal Processing,
Vol.AssP−24,No.5,October 1976,第399〜
418頁の記載を参照されたい。
この後者の文献には、自己相関関数、零交差計
数、トレーニング・セツトを使用するパターン認
識技術に基づくか、又は数個のピツチ検出器間で
の一致の度合に基づく数種の有声−無声音検出ア
ルゴリズムが記載されている。これらの検出アル
ゴリズムは入力として実際には全音声帯域中の音
声信号の時間範囲又は周波数範囲のデータを使用
しているのに対し、ピツチ周期の検出に対しては
一般に低域フイルタにてろ波した音声信号のデー
タを使用している。
発明の概要 本発明の目的は、上述した音声分析システムに
おいて、入力として一般にピツチ周期を検出する
のに使用されるデータと同じデータ、すなわち低
域フイルタでろ波したデータ、約200〜800Hzの周
波数範囲内の音声信号のデータを使用する、信頼
性の高い方法、すなわち平均の大きさに基づいて
有声−無声音の検出を行なう方法を提供すること
にある。
この目的の達成を図るため、本発明は冒頭にて
述べた音声分析システムにおいて、当該システム
がさらに、有音声の期間を指示すべくセツトでき
ると共に無声音、または音声のない期間を指示す
べくリセツトできる双安定インジケータと、下記
の工程を含むプロセスを実行すべくプログラム化
したプログラマブル計算手段とを具え、前記工程
を: (1) 各セグメント(1番目)に対し、約200〜800
Hzの低周波帯域における該セグメントに関連す
る整流した音声信号の平均値(M(I))を求め
る工程; (2) kを所定の数とする場合に、n=I,I−
1,……I+1−kのセグメントの平均値M
(n)が、nの値の増加により所定の乗算フア
クタよりも大きなフアクタで単調に増加し、か
つ前記平均値M(I)が前記適応しきい値AT
(I−1)以上となる場合に、前記双安定イン
ジケータをセツトする工程; (3) 前記平均値M(I)が最大値VM(I−1)の
所定数分の1よりも小さいが、平均値M(I)
が所定のしきい値よりも小さい場合に前記双安
定インジケータをリセツトする工程; (4) 前記双安定インジケータがセツトされる場合
に、各セグメントおよび多数の先行セグメント
に対して、n=I,I−1,……,I+1−m
で、mをセグメントIとセグメントI=1−m
との間では前記双安定インジケータの状態が変
化しないような値とする平均値M(n)の最大
値(VM(I))を求める工程; (5) 前記双安定インジケータがセツトされる場合
に、適応しきい値AT(I)を最大値VM(I)
の何分の1かに等しく設定し、かつ前記双安定
インジケータがリセツトされる場合には、前記
適応しきい値AT(I)を前記AT(I−1)の
何分の1かに等しく設定することにより各セグ
メントに対する適応しきい値(AT(I))を決
定する工程; としたことを特徴とする。
上記発明による音声分析システムにおける計算
プロセスの各工程(2)〜(5)に対応する部分を後に説
明する第2図に一点鎖線で囲んで同一符号にて示
してある。
この方法によれば、最新のものを含む順次の平
均値(これは波形強度と称される)が、実際には
3とし得る所定の乗算フアクタより大きいフアク
タで、単調に増加する場合で、しかも最新の波形
強度が所定のしきい値を越える場合に、無声−有
声音の判定をする。音声では、ほぼ常に、有声音
の始めに上述した強度の増加が見られる。しかし
ながら、無声破裂音でも帯域幅に制限があるにも
かかわらず、同様に波形強度が強力に増大するこ
ともある。
実際、ある無声破裂音はそれらのエネルギーの
ほとんどが800Hzより大きいために有効に除去さ
れるが、200〜800Hzの帯域内にある他の無声破裂
音の波形強度は著しく高くなる。適応しきい値は
無声破裂音による波形強度の増加と有声音の冒頭
部による波形強度の増加とを区別する。適応しき
い値は最初は、以前の有声音の最大波形強度に比
例させるので、粗い音声レベルに追従することに
なる。無声音では、適応しきい値は大きな時定数
で減衰する。この時定数は、流暢な話し方の2つ
の有声音間では、適応しきい値が殆ど一定とな
り、中間の無声破裂音が有声音として検出されな
いように選定する必要がある。しかしながら、音
声がはつきりととぎれた後はこの適応しきい値が
充分に減衰して、これに続く低レベルの有声音の
検出を可能ならしめるようにする必要がある。こ
の場合、時定数が大き過ぎると、有声音の冒頭部
が誤つて除去されてしまうことになる。この時定
数は例えば数秒とするのが好適である。
有声−無声音の転換部は或るしきい値によつて
規定され、その大きさは現時点の有声音の音声に
おける最大波形強度の何分の1かの大きさとす
る。波形強度がこのしきい値より小さくなると直
ちに有声−無声音の転換部が判定される。
安全策として大きな固定のしきい値を使用す
る。波形強度がこのしきい値を越えた場合には、
このセグメントは有声音として直接類別される。
このしきい値の値は波形強度が取り得る最大の波
形強度に関連するものであり、実際には最大波形
強度の10%程度とし得る。
これに加えて、所定の低い値のしきい値も使用
する。このしきい値を越えない波形強度のセグメ
ントは無声音として直接類別される。この低レベ
ルのしきい値の値は波形強度が取り得る最大の波
形強度に関連し、実際にはその値を最大波形強度
の0.4%程度とし得る。
そこで、本発明の好適例では、前記計算プロセ
スが: (A) 前記平均値M(I)が相対的に高い固定のし
きい値を越える場合には前記双安定インジケー
タをセツトする工程; (B) 前記平均値M(I)が相対的に低い固定のし
きい値を越えない場合には、前記双安定インジ
ケータをリセツトする工程; を含むようにする。これらの各工程(A)及び(B)に対
応する部分を第2図にそれぞれA及びBにて示し
てある。
異なるタイプのボコーダにおける順次のセグメ
ント間の時間遅れは通常10ms〜30msである。信
頼出来る判定を行なうための有声−無声音検出器
で観測すべき最小時間間隔は40〜50msとすべき
である。最小時間遅れは10msと推測されるので、
6個(k=6)の順次のセグメントを観測するこ
とで全ての実際の場合を充分に網羅することが出
来る。
実施例の説明 第1図に流れ図をもつて示す本発明による音声
分析システムにおいては、音声信号をアナログ形
態で入力10に供給する。この音声信号をブロツ
ク11で示すアナログ−デイジタル変換操作(演
算処理)部に入力信号として供給する。この変換
操作部のサンプリング速度は8kHzで、精度は12
ビツト/サンプルとする。出力12に現われるデ
イジタル・サンプルをブロツク13で示すよう
な、周波数帯域が約200〜800Hzのデイジタル・フ
イルタリング操作部に供給する。ブロツク15で
示す次の操作部では、出力14に現われるろ波し
たサンプルの絶対値を求める。
次いで、出力16に現われる32msの絶対値を
ブロツク17で示すセグメント・バツフア操作部
によつて蓄積する。この蓄積セグメントは256個
の音声サンプルの絶対値で構成される。
この実施例では、256個の絶対値から成る全セ
グメントが出力18に10msの間隔で現われる。
この各10msの各期間中に80個の新規のサンプル
の絶対値をブロツク17の操作によつて蓄積し、
80個の最も古い絶対値を廃棄する。上記間隔は
10ms以外の値とすることができ、例えばボコー
ダにこのシステムを用いるように約10ms〜30ms
の範囲内の値とすることができる。その後この出
力18に現われるサンプルの絶対値に対しブロツ
ク19で示すように平均化操作を行い、各セグメ
ントにおける絶対値の平均値を求める。この場
合、1番目のセグメントに対する平均値をM(I)
で示し、この平均値を約200〜800Hzの当該周波数
範囲における音声セグメントの平均の大きさ又は
波形強度とも称する。
次に出力20に10msの間隔で現われる波形強
度M(I)をブロツク21及び22で処理する。
ブロツク21では、最終セグメントを含む一連
のセグメントの波形強度が所定のフアクタより大
きなフアクタによつて単調に増大するかどうかを
測定する。この実施例では、6個のセグメントを
考慮し、フアクタを3とする。また、波形強度が
適応(アダプテイブ)しきい値を越えるかどうか
も測定する。この適応しきい値は、先行する有声
音の期間における最大波形強度の所定数分の1の
値とするか、又は無声音の期間中には時間と共に
減衰する値とする。安全策として大きな固定のし
きい値を使用する。波形強度がこの値を越える場
合に、セグメントは有声音として直接類別され
る。
ブロツク21の条件が満たされると、双安定イ
ンジケータ23がセツトされ、その真の出力Qに
有声音の期間であることが示される。
ブロツク22では、波形強度が現在の有声音の
期間における最大波形強度の所定数分の1のしき
い値より低くなるか、又は小さな固定しきい値よ
り低くなるかどうかを検出する。これら条件が満
たされる場合には、双安定インジケータ23はリ
セツトされ、偽の出力Qに無声音の期間であるこ
とが示される。
ブロツク17及び19の操作に代わつて、出力
16に現われる絶対値に対しブロツク24で示す
ような、約0〜50Hzの範囲でのサンプリング速度
低減操作と組合せて、フイルタリング操作を実行
することもできる。好ましくはこのサンプリング
速度を100Hzに低減する。このサンプリング速度
低減操作部24の出力は前と同様に10msの間隔
で現われる平均値M(I)である。
第1図に従うプロセスにおける所定の操作は汎
用デイジタル・コンピユータを適切にプログラミ
ングすることによつて満足させることができる。
ブロツク21及び22の操作を実行するためのコ
ンピユータ・プログラムの流れ図を第2図に示
す。このプログラムに対する入力は連続する音声
セグメントの波形強度を表わす平均値M(I)で
形成する。
この図において、Iはセグメント番号を表し、
ATは適応しきい値を表し、VMは連続する有声
音のセグメントの最大強度を表し、VUVは出力
パラメータを表していて、このVUVは有声音の
場合には1に等しく、かつ無声音の場合には0に
等しい。このパラメータは第1図につき既に説明
した双安定インジケータ23の状態に対応する。
この流れ図については敢えて説明するまでもな
く当業者には容易に理解出来るものである。図中
のコメントC1〜C5について説明すると次の通り
である。
コメントC1:平均値M(I)が最後の5つのセグ
メントI,I−1,……I−5にわたつて3倍よ
りも大きく単調に増加するかどうかを検出する。
コメントC2:M(I)が先に設定した最大強度
VM(I−1)の所定数分の1(1/8)よりも小さ
い場合には、双安定インジケータをリセツトする
(VUV=0)。
コメントC3:上述した双安定インジケータ23
の状態に対応するVUV(I)を出力させる。
コメントC4:適応しきい値を決定する。
コメントC5:大きい固定のしきい値を3072の値
に固定し、小さい固定のしきい値を128の値に固
定すること。
本発明による音声分析システムは第3図に示す
ハードウエアで実施することができる。このハー
ドウエアは −A/D変換器30(第1図のブロツク11に
対応する) −デイジタル・フイルタ31(第1図のブロツ
ク13に対応する) −セグメント・バツフア32(第1図のブロツ
ク17に対応する) −マイクロ・コンピユータ33(第1図のブロ
ツく19,21及び22に対応する) −双安定インジケータ34(第1図のブロツク
23に対応する) を具えている。
ブロツク19の機能、すなわち一連の絶対値の
平均値を求める機能はコンピユータ33を適切に
プログラミングすることによつて実行出来る。適
切なプログラムの流れ図は当業者が容易に案出で
きるものである。ブロツク15の機能は、符号/
大きさ表記法を用いる場合にはセグメント・バツ
フア32の入力において符号ビツトを除去するこ
とによつて実行し得、又はコンピユータ33を適
切にプログラミングすることによつてこのプロセ
スの後の段階において実行し得る。
【図面の簡単な説明】
第1図は本発明による音声分析システムの順次
の操作過程を示す流れ図、第2図は第1図による
プロセスにおける所定の操作を実行するために使
用されるコンピユータ・プログラムを示す流れ
図、第3図は本発明による音声分析システムを実
施するための電子装置を示す略線的ブロツク図で
ある。 10……音声信号入力部、11……アナログ−
デイジタル変換操作部、12,14,16,1
8,20……出力、13……デイジタル・フイル
タリング操作部、15……絶対値検出操作部、1
7……セグメント・バツフア操作部、19……平
均化操作部、21……単調増加測定操作部、22
……波形強度が小さい固定しきい値より低いかど
うかを検出する操作部、23……双安定インジケ
ータ、30……A/D変換器、31……デイジタ
ル・フイルタ、32……セグメント・バツフア、
33……マイクロ・コンピユータ、34……双安
定インジケータ。

Claims (1)

  1. 【特許請求の範囲】 1 入力アナログ音声信号をデイジタル音声信号
    に変換する手段と、規則的に繰り返し発生する瞬
    時にこれら瞬時に先行する音声セグメントにおけ
    る整流した音声信号の平均値を求めるための平均
    値決定手段とを具え、かくして決定した平均値
    を、無声音セグメントと有音声セグメントとを区
    別するための目安とする音声分析システムにおい
    て、当該システムがさらに、有音声の期間を指示
    すべくセツトできると共に無声音、または音声の
    ない期間を指示すべくリセツトできる双安定イン
    ジケータと、下記の工程を含むプロセスを実行す
    べくプログラム化したプログラマブル計算手段と
    を具え、前記工程を: (1) 各セグメント(1番目)に対し、約200〜800
    Hzの低周波帯域における該セグメントに関連す
    る整流した音声信号の平均値(M(I))を求め
    る工程; (2) kを所定の数とする場合に、n=I,I−
    1,……I+1−kのセグメントの平均値M
    (n)が、nの値の増加により所定の乗算フア
    クタよりも大きなフアクタで単調に増加し、か
    つ前記平均値M(I)が前記適応しきい値AT
    (I−1)以上となる場合に、前記双安定イン
    ジケータをセツトする工程; (3) 前記平均値M(I)が最大値VM(I−1)の
    所定数分の1よりも小さいが、平均値M(I)
    が所定のしきい値よりも小さい場合に前記双安
    定インジケータをリセツトする工程; (4) 前記双安定インジケータがセツトされる場合
    に、各セグメントおよび多数の先行セグメント
    に対して、n=I,I−1,……,I+1−m
    で、mをセグメントIとセグメントI=1−m
    との間では前記双安定インジケータの状態が変
    化しないような値とする平均値M(n)の最大
    値(VM(I))を求める工程; (5) 前記双安定インジケータがセツトされる場合
    に、適応しきい値AT(I)を最大値VM(I)
    の何分の1かに等しく設定し、かつ前記双安定
    インジケータがリセツトされる場合には、前記
    適応しきい値AT(I)を前記AT(I−1)の
    何分の1かに等しく設定することにより各セグ
    メントに対する適応しきい値(AT(I))を決
    定する工程; としたことを特徴とする音声分析システム。 2 前記プロセスが: (A) 前記平均値M(I)が相対的に高い固定のし
    きい値を越える場合には前記双安定インジケー
    タをセツトする工程; (B) 前記平均値M(I)が相対的に低い固定のし
    きい値を越えない場合には、前記双安定インジ
    ケータをリセツトする工程; を含むようにしたことを特徴とする特許請求の範
    囲第1項に記載の音声分析システム。
JP58072341A 1982-04-27 1983-04-26 音声分析システム Granted JPS58194100A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
NL82200500.5 1982-04-27
EP82200500A EP0092611B1 (en) 1982-04-27 1982-04-27 Speech analysis system

Publications (2)

Publication Number Publication Date
JPS58194100A JPS58194100A (ja) 1983-11-11
JPH0462398B2 true JPH0462398B2 (ja) 1992-10-06

Family

ID=8189484

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58072341A Granted JPS58194100A (ja) 1982-04-27 1983-04-26 音声分析システム

Country Status (5)

Country Link
US (1) US4625327A (ja)
EP (1) EP0092611B1 (ja)
JP (1) JPS58194100A (ja)
CA (1) CA1193731A (ja)
DE (1) DE3276731D1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5218668A (en) * 1984-09-28 1993-06-08 Itt Corporation Keyword recognition system and method using template concantenation model
US5046100A (en) * 1987-04-03 1991-09-03 At&T Bell Laboratories Adaptive multivariate estimating apparatus
US5007093A (en) * 1987-04-03 1991-04-09 At&T Bell Laboratories Adaptive threshold voiced detector
IT1229725B (it) * 1989-05-15 1991-09-07 Face Standard Ind Metodo e disposizione strutturale per la differenziazione tra elementi sonori e sordi del parlato
JP3277398B2 (ja) 1992-04-15 2002-04-22 ソニー株式会社 有声音判別方法
US5764779A (en) * 1993-08-25 1998-06-09 Canon Kabushiki Kaisha Method and apparatus for determining the direction of a sound source
DE69527408T2 (de) * 1994-03-11 2003-02-20 Koninkl Philips Electronics Nv Übertragungssystem für quasiperiodische signale
DE69629667T2 (de) * 1996-06-07 2004-06-24 Hewlett-Packard Co. (N.D.Ges.D.Staates Delaware), Palo Alto Sprachsegmentierung
DE19854341A1 (de) * 1998-11-25 2000-06-08 Alcatel Sa Verfahren und Schaltungsanordnung zur Sprachpegelmessung in einem Sprachsignalverarbeitungssystem
TWI262474B (en) * 2004-10-06 2006-09-21 Inventec Corp Voice waveform processing system and method
US7958881B2 (en) * 2006-10-19 2011-06-14 Tim Douglas Silverson Apparatus for coupling a component to an archery bow
TWI564791B (zh) * 2015-05-19 2017-01-01 卡訊電子股份有限公司 播音控制系統、方法、電腦程式產品及電腦可讀取紀錄媒體

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3321582A (en) * 1965-12-09 1967-05-23 Bell Telephone Labor Inc Wave analyzer
US4015088A (en) * 1975-10-31 1977-03-29 Bell Telephone Laboratories, Incorporated Real-time speech analyzer
US4351983A (en) * 1979-03-05 1982-09-28 International Business Machines Corp. Speech detector with variable threshold
FR2451680A1 (fr) * 1979-03-12 1980-10-10 Soumagne Joel Discriminateur parole/silence pour interpolation de la parole
FR2466825A1 (fr) * 1979-09-28 1981-04-10 Thomson Csf Dispositif de detection de signaux vocaux et systeme d'alternat comportant un tel dispositif
CA1147071A (en) * 1980-09-09 1983-05-24 Northern Telecom Limited Method of and apparatus for detecting speech in a voice channel signal
FR2494017B1 (fr) * 1980-11-07 1985-10-25 Thomson Csf Procede de detection de la frequence de melodie dans un signal de parole et dispositif destine a la mise en oeuvre de ce procede
US4441200A (en) * 1981-10-08 1984-04-03 Motorola Inc. Digital voice processing system

Also Published As

Publication number Publication date
EP0092611A1 (en) 1983-11-02
CA1193731A (en) 1985-09-17
US4625327A (en) 1986-11-25
DE3276731D1 (en) 1987-08-13
EP0092611B1 (en) 1987-07-08
JPS58194100A (ja) 1983-11-11

Similar Documents

Publication Publication Date Title
JP3604393B2 (ja) 音声検出装置
US4959865A (en) A method for indicating the presence of speech in an audio signal
EP0398180B1 (en) Method of and arrangement for distinguishing between voiced and unvoiced speech elements
US5617508A (en) Speech detection device for the detection of speech end points based on variance of frequency band limited energy
JP4587160B2 (ja) 信号処理装置および方法
KR101444099B1 (ko) 음성 구간 검출 방법 및 장치
JPH0121519B2 (ja)
JPH0462398B2 (ja)
US4370521A (en) Endpoint detector
US4637046A (en) Speech analysis system
JP2992324B2 (ja) 音声区間検出方法
US5058168A (en) Overflow speech detecting apparatus for speech recognition
JP3410789B2 (ja) 音声認識装置
KR100345402B1 (ko) 피치 정보를 이용한 실시간 음성 검출 장치 및 그 방법
SU1781701A1 (en) Method of separation of speech and nonstationary noise signals
Sankar Pitch extraction algorithm for voice recognition applications
JP3190231B2 (ja) 有声音信号のピッチ周期抽出装置およびピッチ周期抽出方法
JPS63220295A (ja) 音声区間検出方式
JP3008404B2 (ja) 音声認識装置
JPS63155197A (ja) 無声音検出方法
JPH04251299A (ja) 音声区間検出方法
CN1131472A (zh) 语音检测装置
JPS62150299A (ja) 音声信号区間検出器
JPS59102296A (ja) ピツチ抽出方法
JPH02232699A (ja) 音声認識装置