JPS58194100A - 音声分析システム - Google Patents
音声分析システムInfo
- Publication number
- JPS58194100A JPS58194100A JP58072341A JP7234183A JPS58194100A JP S58194100 A JPS58194100 A JP S58194100A JP 58072341 A JP58072341 A JP 58072341A JP 7234183 A JP7234183 A JP 7234183A JP S58194100 A JPS58194100 A JP S58194100A
- Authority
- JP
- Japan
- Prior art keywords
- average value
- threshold level
- segment
- bistable indicator
- voiced
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003044 adaptive effect Effects 0.000 claims description 14
- 238000000034 method Methods 0.000 claims description 10
- 230000005236 sound signal Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 2
- 238000001514 detection method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000003139 buffering effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000036461 convulsion Effects 0.000 description 1
- 238000001615 p wave Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
発明の技術分野
本発明は人力アナログ音声信号を受は取る受信手段と、
規則的に繰り返し発生する瞬時にこれら瞬時に先立つセ
グメント中の、整治された音声信号の平均値を決定する
ための決定手段とを具え、かくして決定された平均値で
非有声音セグメントから有声セグメントを分離するたぬ
の目安を与える音声分析システムに関する。
規則的に繰り返し発生する瞬時にこれら瞬時に先立つセ
グメント中の、整治された音声信号の平均値を決定する
ための決定手段とを具え、かくして決定された平均値で
非有声音セグメントから有声セグメントを分離するたぬ
の目安を与える音声分析システムに関する。
従来技術の説明
このような音声分析システムは一般にボコーダの分野で
知られている。一例として文献:[Proceedin
g8of t.he IEEEj Vol. 6 B
、 A 4 +April 1 ’;j 7 5 、第
662’−677頁を参照することが出来る。この文献
によれば、波形強1fとか平均( unVQicd )
セグメントから有声( voicθd)セグメント2分
11【するための良い目安となる。しかしながら、これ
に基づく有声一非有声の決定は実際には波形強電の値の
範囲では信頼できないことが判った。
知られている。一例として文献:[Proceedin
g8of t.he IEEEj Vol. 6 B
、 A 4 +April 1 ’;j 7 5 、第
662’−677頁を参照することが出来る。この文献
によれば、波形強1fとか平均( unVQicd )
セグメントから有声( voicθd)セグメント2分
11【するための良い目安となる。しかしながら、これ
に基づく有声一非有声の決定は実際には波形強電の値の
範囲では信頼できないことが判った。
さらにまたこの文献には、基本的にはピッチ検出器を有
声一非有p(v/L)の決定を行いかつ、有声音声の期
間中は、ピッチ期間の目安を生ずる装置gとすることが
記載されている。しかしながら、あるピッチ検出アルゴ
リズムでは、音声の有声セグメントの期間中とのビッカ
を検出し及び有声一非有声の決定はある他の技術に頼っ
ている。この点については、文献: IEEE Trl
!lnsaction onAcoustics +
Speech and Signal Process
ing 。
声一非有p(v/L)の決定を行いかつ、有声音声の期
間中は、ピッチ期間の目安を生ずる装置gとすることが
記載されている。しかしながら、あるピッチ検出アルゴ
リズムでは、音声の有声セグメントの期間中とのビッカ
を検出し及び有声一非有声の決定はある他の技術に頼っ
ている。この点については、文献: IEEE Trl
!lnsaction onAcoustics +
Speech and Signal Process
ing 。
Vol. A8sP−24 、 A5 、 Oct.o
ber 19’76 、第899−418頁の記載を参
照されたい。
ber 19’76 、第899−418頁の記載を参
照されたい。
この後者の文献に記載されている数個の有声一非有声検
出アルゴリズムは自動相関関数、零交差計数、トレイニ
ング・セット( training se1暑を使用す
るパターン認識技術に基づくか又は数個のピッチ検出器
間での一致の程度に基づくものである。これら検出アル
ゴリズムは人力として実際には全音声帯域中の音声信号
の時間領域データ又は周波数領域データを使用している
のに対し、ピッチ検出に対しては一般には低域フィルタ
を経た音声信号のデータを使用している。
出アルゴリズムは自動相関関数、零交差計数、トレイニ
ング・セット( training se1暑を使用す
るパターン認識技術に基づくか又は数個のピッチ検出器
間での一致の程度に基づくものである。これら検出アル
ゴリズムは人力として実際には全音声帯域中の音声信号
の時間領域データ又は周波数領域データを使用している
のに対し、ピッチ検出に対しては一般には低域フィルタ
を経た音声信号のデータを使用している。
発明の概要
本発明の目的は、−h述した音声分析システムにおいて
、人力として一般にピッチ検出に対する入力として使用
されるデータと同じデータすなわち低域フィルタでp波
された、特に、約20、θ〜8 0 0 Hzの間の周
e数範囲内の音声信号のデータを使用する、信頼性の良
い方法すなわち平均の大きさに基づいて有声一非有声の
検出を行う方法を提供することにある。
、人力として一般にピッチ検出に対する入力として使用
されるデータと同じデータすなわち低域フィルタでp波
された、特に、約20、θ〜8 0 0 Hzの間の周
e数範囲内の音声信号のデータを使用する、信頼性の良
い方法すなわち平均の大きさに基づいて有声一非有声の
検出を行う方法を提供することにある。
この目的の達成を図るため、本発明による音岸分析シス
テムにJdいては、さらに有声音の期間を□表わすよう
にセット出来ると共に非有声すなわち音声の無いル1間
を表わすようにリセット出来る双安定インジケータと、
次のステップを含むプロセスな実行′iろようにプログ
ラムされるプログラマブル・コンピユーテイング手段と
を備え、該ステップを −各セグメント(番号■)に対し約200−800 H
zの低周波数帯域において整流、された関連するセグメ
ントの音声信号の平均値(M(I)・)を決定−4−る
こと、 一@il記双安定インジケータをセットする場合、各セ
グメント及び多数の先行するセグメントに対し平均値(
M (n) )の最大値(VM(I))を決定すること
、ここにおいてn=1.I−1,・・・ 11 +l−
mとし、mをセグメント■とI+l−mとの間において
=Il記双安定インジケータの状態が変化しないような
1直とし、 −各セグメントに対し、前記双安定インジケータをセッ
トする場合にはアダプティブ・スレッショルド・レベル
(AT(1))を最大値(VM(I))の何分の−かに
等しく設定し及び前記双安定インジケータをリセットす
る場合には前記アダプティブ・スレッショルド・レベル
(A、T rI)’) ヲ(AT(I−1))の何分の
−かに等しくすることによって、アダプティブ・スレッ
ショルド・レベル(AT(I))を決定すること、 −n=I、I−1,=I+l−にとし、kを所定の数と
したとき、平均値(M(n))がHの値の増加により所
定の倍数よりも大きな倍数によって単調に増加して該平
均値(M (I))が前記アダプティブ・スレッショル
ド・レベル(AT(I−1))を越える場合には、前記
双安定インジケータをセットすること、 一前記平均値(M (I))が前記最大値(VM(I−
1))の所定の何分の−かよりも小さいが又は所定のス
レッショルド・レベルよりも小さい場合には、前記双安
定インジケータをリセットすることと(7たことを特徴
とする。
テムにJdいては、さらに有声音の期間を□表わすよう
にセット出来ると共に非有声すなわち音声の無いル1間
を表わすようにリセット出来る双安定インジケータと、
次のステップを含むプロセスな実行′iろようにプログ
ラムされるプログラマブル・コンピユーテイング手段と
を備え、該ステップを −各セグメント(番号■)に対し約200−800 H
zの低周波数帯域において整流、された関連するセグメ
ントの音声信号の平均値(M(I)・)を決定−4−る
こと、 一@il記双安定インジケータをセットする場合、各セ
グメント及び多数の先行するセグメントに対し平均値(
M (n) )の最大値(VM(I))を決定すること
、ここにおいてn=1.I−1,・・・ 11 +l−
mとし、mをセグメント■とI+l−mとの間において
=Il記双安定インジケータの状態が変化しないような
1直とし、 −各セグメントに対し、前記双安定インジケータをセッ
トする場合にはアダプティブ・スレッショルド・レベル
(AT(1))を最大値(VM(I))の何分の−かに
等しく設定し及び前記双安定インジケータをリセットす
る場合には前記アダプティブ・スレッショルド・レベル
(A、T rI)’) ヲ(AT(I−1))の何分の
−かに等しくすることによって、アダプティブ・スレッ
ショルド・レベル(AT(I))を決定すること、 −n=I、I−1,=I+l−にとし、kを所定の数と
したとき、平均値(M(n))がHの値の増加により所
定の倍数よりも大きな倍数によって単調に増加して該平
均値(M (I))が前記アダプティブ・スレッショル
ド・レベル(AT(I−1))を越える場合には、前記
双安定インジケータをセットすること、 一前記平均値(M (I))が前記最大値(VM(I−
1))の所定の何分の−かよりも小さいが又は所定のス
レッショルド・レベルよりも小さい場合には、前記双安
定インジケータをリセットすることと(7たことを特徴
とする。
この方法によれば、直前に発生した平均値を含みまた波
形強度と称せられる後続の複数の平均値が、実際には8
倍と12得る所定の倍数より大きい倍数によって、i調
に増大する場合及び、これに加え、直前の波形強度があ
るアダプティブ・スレッショルド(adaptive
t;hreshold )レベルを佼えた場合に、非有
声対有声の判定を行う。音声の場合には、有声音の開始
はほとんど常に上述した強1fの増大を伴う。しかしな
がら、非有声破裂音もまた、帯域幅に制限があるにもか
かわらず、強度が相当増大することもある。
形強度と称せられる後続の複数の平均値が、実際には8
倍と12得る所定の倍数より大きい倍数によって、i調
に増大する場合及び、これに加え、直前の波形強度があ
るアダプティブ・スレッショルド(adaptive
t;hreshold )レベルを佼えた場合に、非有
声対有声の判定を行う。音声の場合には、有声音の開始
はほとんど常に上述した強1fの増大を伴う。しかしな
がら、非有声破裂音もまた、帯域幅に制限があるにもか
かわらず、強度が相当増大することもある。
実際、ある非有声破裂音はそれらのエネルギーのほとん
どが800 Hzより大きいために有効的に排除される
が、200〜800 Hzの帯域内で著しく強度が増大
する非有声破裂音がある。アダプティブ・スレッショル
ド・レベルは非有声破裂音及・び有声音の開始(ons
θts)に基づく強ぜの増大間の識別を行うものである
。最初は前の有声音の最大波形強電に比例するので、粗
い音声レベルに追従する。非有声音の場合には、アダプ
ティブ・スレッショルド・レベルは大きな時定数に従っ
て減衰する。この場合、流暢な音声すなわち話し言葉の
中の2つの有声音の間では、その間で非有声破裂音が有
声音として検出されないようにするために、アダプティ
ブ・スレッショルド・レベルがほぼ一定となるように、
この時定数を選定すべきである。しかしながら、話し2
がはっきりととぎれた後はこのアダプティブ・スレッシ
ョルド・レベルは充分に減衰してこれに続、<低レベル
の有声音の検出を可能ならしめるようにする必要がある
。この場合、スレッショルド・レベルir’ K スキ
ルト、有声音の開始が誤って除去されてしまう。この時
定数を典型例では数秒とするのが好適である。
どが800 Hzより大きいために有効的に排除される
が、200〜800 Hzの帯域内で著しく強度が増大
する非有声破裂音がある。アダプティブ・スレッショル
ド・レベルは非有声破裂音及・び有声音の開始(ons
θts)に基づく強ぜの増大間の識別を行うものである
。最初は前の有声音の最大波形強電に比例するので、粗
い音声レベルに追従する。非有声音の場合には、アダプ
ティブ・スレッショルド・レベルは大きな時定数に従っ
て減衰する。この場合、流暢な音声すなわち話し言葉の
中の2つの有声音の間では、その間で非有声破裂音が有
声音として検出されないようにするために、アダプティ
ブ・スレッショルド・レベルがほぼ一定となるように、
この時定数を選定すべきである。しかしながら、話し2
がはっきりととぎれた後はこのアダプティブ・スレッシ
ョルド・レベルは充分に減衰してこれに続、<低レベル
の有声音の検出を可能ならしめるようにする必要がある
。この場合、スレッショルド・レベルir’ K スキ
ルト、有声音の開始が誤って除去されてしまう。この時
定数を典型例では数秒とするのが好適である。
有声対非有声遷移は現在通用している有声言語lj (
voiced 5peech 5ound )の最大強
慶の何分の−かに達−する大キさのスレッショルド・レ
ベルによって決まる。汲形強変がこのスレッショルド・
レベルより小さくなると直ちにイイ声対非有声遷移を決
ぬる。
voiced 5peech 5ound )の最大強
慶の何分の−かに達−する大キさのスレッショルド・レ
ベルによって決まる。汲形強変がこのスレッショルド・
レベルより小さくなると直ちにイイ声対非有声遷移を決
ぬる。
安全策として高い値の固定スレッショルド・レベルを使
用する。波形強度がこのスレッショルド・レベルを越え
た場合には、このセグメントは有声音として直接分類さ
れる。このスレッショルド・レベルの値を取り得る最大
の波形強度と関連せしめ、実際にはこの値をその10%
程度とし得る。
用する。波形強度がこのスレッショルド・レベルを越え
た場合には、このセグメントは有声音として直接分類さ
れる。このスレッショルド・レベルの値を取り得る最大
の波形強度と関連せしめ、実際にはこの値をその10%
程度とし得る。
これに加えて、所定の低い値のスレッショルド・レベル
ヲ使用スル。このスレッショルド・レベルを舘えない波
形g!度のセグメントを非有声音としてIi Jtik
分類スる。このスレッショルド・レベルの値を取り得
る最大の波形強電と関連せしぬ、実際にはその値をその
0.4%程度とし得る。
ヲ使用スル。このスレッショルド・レベルを舘えない波
形g!度のセグメントを非有声音としてIi Jtik
分類スる。このスレッショルド・レベルの値を取り得
る最大の波形強電と関連せしぬ、実際にはその値をその
0.4%程度とし得る。
異なるタイプのボコーダにおける順次のセグメント間で
のタイム・ラグは一般に10m8〜80m5とする。信
頼出来る決定を行うための有声−非有声検出器で観察さ
れるべき最小時間間隔を40〜50 msとすべきであ
る。最小タイム・ラグは10−msと思われるので、6
個(k−6)の++m次のセグメントを観察することで
全ての実際の場合を充分に網羅することが出来る。
のタイム・ラグは一般に10m8〜80m5とする。信
頼出来る決定を行うための有声−非有声検出器で観察さ
れるべき最小時間間隔を40〜50 msとすべきであ
る。最小タイム・ラグは10−msと思われるので、6
個(k−6)の++m次のセグメントを観察することで
全ての実際の場合を充分に網羅することが出来る。
実施例の説明
第1121に示すシステムにおいては、音声信号をアナ
ログ形帖で入力10に供給する。この音声信号をブロッ
ク11で示すアナログ対ディジタル変換オペレーション
(A/D )に人力信号として供給する。このオペレー
ションでは8 kHzのサンプリング速度及び12ビツ
ト/サンプルの#1ilfでサンプリングを行う。出力
12に現われたディジタル・サンプルをブロック18で
示す、周鼓数帯域約200〜800 Hzでのディジタ
ル・フィルタリング・オペレーションに供給する。ブロ
ック15で示す次のオペレーションにおいて、出力14
に現われた、P波されたサンプルの絶対値を決定する。
ログ形帖で入力10に供給する。この音声信号をブロッ
ク11で示すアナログ対ディジタル変換オペレーション
(A/D )に人力信号として供給する。このオペレー
ションでは8 kHzのサンプリング速度及び12ビツ
ト/サンプルの#1ilfでサンプリングを行う。出力
12に現われたディジタル・サンプルをブロック18で
示す、周鼓数帯域約200〜800 Hzでのディジタ
ル・フィルタリング・オペレーションに供給する。ブロ
ック15で示す次のオペレーションにおいて、出力14
に現われた、P波されたサンプルの絶対値を決定する。
出力16に現われた絶対値をブロック17で示すセグメ
ント・バッファリング・オペレーションによって82m
5の間記憶する。この記憶されたセグメントは256個
の音声サンプルの絶対値を有している。
ント・バッファリング・オペレーションによって82m
5の間記憶する。この記憶されたセグメントは256個
の音声サンプルの絶対値を有している。
この実施例では、256個の絶対値の完全なセグメント
が出力18に10 msの間隔で現われる。′この各1
0 msの期間中、80個の新しいサンプルの絶対値を
ブロック17のオペレーションによって記憶し、80個
の最も古い絶対値を廃棄する。
が出力18に10 msの間隔で現われる。′この各1
0 msの期間中、80個の新しいサンプルの絶対値を
ブロック17のオペレーションによって記憶し、80個
の最も古い絶対値を廃棄する。
その後この出力18に現われるサンプルの絶対値K r
=+しブロック19で示すように平均化オペレーション
を行い、各セグメントにおける絶対値の平均1mを決定
する。この場合、工番目のセグメントに対する平均値を
M (I)で示し、この平均値を約200〜800 H
zの当該周波数節回における音声I°□セグメントの平
均の大きさ又は波形強度とも称する。
=+しブロック19で示すように平均化オペレーション
を行い、各セグメントにおける絶対値の平均1mを決定
する。この場合、工番目のセグメントに対する平均値を
M (I)で示し、この平均値を約200〜800 H
zの当該周波数節回における音声I°□セグメントの平
均の大きさ又は波形強度とも称する。
次に出力20にl Omsの間隔で現われる波形強度M
(I)をブロック21及び22に示すオペレーションで
処理する。
(I)をブロック21及び22に示すオペレーションで
処理する。
ブロック21で示すオペレーションでは、最終セグメン
トを含む一連のセグメントの波形強度が所定の倍数より
大きな倍数によって車脚に増大するかどうかを検出する
。この実施例では、6個のセグメントを考慮し倍数を8
とする。また、波形1°強麿がアダプティブ・スレッシ
ョルド・レベルを1越えるかどうかを検出する、このア
ダプティブ・スレッショルド・レベルを、先行する有声
期間中は最大波形強度の所定の何分の−かの値とするか
又は非有声期間中は時間と共に減衰する値とする。・安
全策として高い値の固有スレッショルド・レベルを使用
する。波形強度がこの値を越える場合には、セグメント
を有声音として直接分類する。
トを含む一連のセグメントの波形強度が所定の倍数より
大きな倍数によって車脚に増大するかどうかを検出する
。この実施例では、6個のセグメントを考慮し倍数を8
とする。また、波形1°強麿がアダプティブ・スレッシ
ョルド・レベルを1越えるかどうかを検出する、このア
ダプティブ・スレッショルド・レベルを、先行する有声
期間中は最大波形強度の所定の何分の−かの値とするか
又は非有声期間中は時間と共に減衰する値とする。・安
全策として高い値の固有スレッショルド・レベルを使用
する。波形強度がこの値を越える場合には、セグメント
を有声音として直接分類する。
ブロックz1におけるオペレーションでその条件が満た
されると、双安定インジケータ28がセト・ツトされそ
の−の出力Qに有声音(voiced 5peech)
の期間であることが示される。
されると、双安定インジケータ28がセト・ツトされそ
の−の出力Qに有声音(voiced 5peech)
の期間であることが示される。
ブロック22におけるオペレーションによって、波形強
電が覗、在の有声期間における最大波形強度<7’)
所定ノM eの−かであるスレッショルド・レイ1ルよ
り低くなるか又は小さい値の固定スレッショルド・レベ
ルより低くなるかどうかを検出する。
電が覗、在の有声期間における最大波形強度<7’)
所定ノM eの−かであるスレッショルド・レイ1ルよ
り低くなるか又は小さい値の固定スレッショルド・レベ
ルより低くなるかどうかを検出する。
これら条件が満たされる場合には、沢安定インジケータ
2Bはリセットされ反転出力qに非有声音のル1間であ
ることが示される。
2Bはリセットされ反転出力qに非有声音のル1間であ
ることが示される。
ブロック17及び19のオペレーションに代わって、出
力16に現われる絶対値に対しブロック24で示すよう
な、約0〜50 Hzの範囲におけるサンプリング速度
低減オペレーションと組合わせて、フィルタリング・オ
ペレーションを実行してもよい。好ましくはこのサンプ
リング速度を100 Hzに低減する。このサンプリン
グ速度低1)l−ペレーション24の出力は前と同様に
lO+nsの間隔で現われる平均値(ナンバーズ: n
umbevs )M (I)である。
力16に現われる絶対値に対しブロック24で示すよう
な、約0〜50 Hzの範囲におけるサンプリング速度
低減オペレーションと組合わせて、フィルタリング・オ
ペレーションを実行してもよい。好ましくはこのサンプ
リング速度を100 Hzに低減する。このサンプリン
グ速度低1)l−ペレーション24の出力は前と同様に
lO+nsの間隔で現われる平均値(ナンバーズ: n
umbevs )M (I)である。
第1図に従うプロセスにおけるあるオペレーションを、
汎用ディジタル・コンピュータを適切にプログラミング
することによって満足させ得る。
汎用ディジタル・コンピュータを適切にプログラミング
することによって満足させ得る。
そのオペレーションの一例として第1図にブロック21
及び22によって実行されるオペレーションの場合プt
ある。このブロックj21及びz2のオペレーションを
実行するためのコンピュータ・プログラムの流れ図を第
2図に示す。このプログラムに対する入力を順次の言語
(音声)セグメントの波形強度を表わす平均値(ナンバ
ーズ) M(I)で形成する。
及び22によって実行されるオペレーションの場合プt
ある。このブロックj21及びz2のオペレーションを
実行するためのコンピュータ・プログラムの流れ図を第
2図に示す。このプログラムに対する入力を順次の言語
(音声)セグメントの波形強度を表わす平均値(ナンバ
ーズ) M(I)で形成する。
この図において、■はセグメント番号を表わし、ATは
アダプティブ・フィルタのスレッショルド・レベルを表
わし、VMは連続する有声セグメントの最大強度を表わ
し、VUVは出力パラメータを表わしていて、このVU
Vは有声音(言語)の場合には1に等しくかつ非有−音
(−語)の場合には0に等しい。このパラメータは単1
図につき既に説明した双安定インジケータ28の状罪に
対応する。
アダプティブ・フィルタのスレッショルド・レベルを表
わし、VMは連続する有声セグメントの最大強度を表わ
し、VUVは出力パラメータを表わしていて、このVU
Vは有声音(言語)の場合には1に等しくかつ非有−音
(−語)の場合には0に等しい。このパラメータは単1
図につき既に説明した双安定インジケータ28の状罪に
対応する。
この帽れ図についてはとれ以上の説明をするまでもなく
当業者は容’Alc叩解出来るものである。
当業者は容’Alc叩解出来るものである。
図中のコメンl−01〜05について説明すると次の通
りである。
りである。
コメン)01: 波形強KMが倍率8よりも大きな倍率
でセグメント1、■−1、・・・ I−5にわたって単一に増大するか どうかを検出すること、 コメン) 02 : M(I)が先に確定【、た最大強
度VM(I−1)の所定の何分の−(1/8)かよりも
小さい場合には、双安定イ ンジケータ(VUV=0)をリセット すること、 コメントCB=上述した双安定インジケータ′23の状
卵に対応する出力パラメータ VUV(I)を出力すること、 コメントC4: アダプティブ・スレッショルド・レベ
ルATを検出すること、 コメント05:大きい値の固定スレッショルド・レベル
を8072の値に固定し、小 さい値の固定スレッショルド・レ ベルを128の値に固定すること 本発明による音声分析システムを第8図W示すハードウ
ェア形態で一ヘードウエア化し得る。このハードウェア
&家 −A/Dコンバータ80(第1図のブロック11に対応
する) −ディジタル・フィルタ81(第1図のブロック18に
対応する) −セグメント・バッファB 2 (941図のブロック
17に対応する) −マイクロ・コンピュータ88 (@1図ノフロック1
9.21及び22に対応する)−双安定インジケータ8
4(第1図のブロックz8に対応する) を具えている。
でセグメント1、■−1、・・・ I−5にわたって単一に増大するか どうかを検出すること、 コメン) 02 : M(I)が先に確定【、た最大強
度VM(I−1)の所定の何分の−(1/8)かよりも
小さい場合には、双安定イ ンジケータ(VUV=0)をリセット すること、 コメントCB=上述した双安定インジケータ′23の状
卵に対応する出力パラメータ VUV(I)を出力すること、 コメントC4: アダプティブ・スレッショルド・レベ
ルATを検出すること、 コメント05:大きい値の固定スレッショルド・レベル
を8072の値に固定し、小 さい値の固定スレッショルド・レ ベルを128の値に固定すること 本発明による音声分析システムを第8図W示すハードウ
ェア形態で一ヘードウエア化し得る。このハードウェア
&家 −A/Dコンバータ80(第1図のブロック11に対応
する) −ディジタル・フィルタ81(第1図のブロック18に
対応する) −セグメント・バッファB 2 (941図のブロック
17に対応する) −マイクロ・コンピュータ88 (@1図ノフロック1
9.21及び22に対応する)−双安定インジケータ8
4(第1図のブロックz8に対応する) を具えている。
ブロック19によるオペレーションの機能スなわち一連
の絶対値の平均値を決定する機能はコンピュータ88を
適切にプログラミングすることによって実行出来る。適
切なプログラムの流れ図は当業者が容鵬に案出出来るも
のである。ブロック“15によるオベレーンヨンの機能
を、符号/大きさ表記法を用いる場合にはセグメント・
バッファ8zの入力において符号ビットを除去すること
によって実行し得、又はコンピュータ8Bを適切にプロ
グラミングすることによってこのプロセスの・後の段階
において実行し得る。
の絶対値の平均値を決定する機能はコンピュータ88を
適切にプログラミングすることによって実行出来る。適
切なプログラムの流れ図は当業者が容鵬に案出出来るも
のである。ブロック“15によるオベレーンヨンの機能
を、符号/大きさ表記法を用いる場合にはセグメント・
バッファ8zの入力において符号ビットを除去すること
によって実行し得、又はコンピュータ8Bを適切にプロ
グラミングすることによってこのプロセスの・後の段階
において実行し得る。
第1図は本発明による音声分析システムの順次のオペレ
ーションを示スm h 図、 第2図は第1図によるプロセスにおけるあるオペレーシ
ョンを実行するために使用されるコンピュータ・プログ
ラムを示す流れ図、 第8図は本発明による8轡分析システムを実施するため
の電子装置を示を路線的ブロック図である。 10・・・入力部 11・・・アナログ史1ディジタル変換オペレーション
12 、14 、16 、18 、20 ・・・出力1
8・・・ディジタル・フィルタリング・オペレーション
15・・・絶対mS 出オペレーション17・・・セグ
メント・バッファリング・オペレーション19・・・平
均化オペレーション 21・・・単m 増加検出オペレーションz2・・・波
形強度が小さい値の固定スレッショルド・レベルより低
いかどうかを検出するオペレーション 28・・・双安定インジケータ 80・・・鋪コンバータ 81・・・ディジタル・フ
ィルタ8z・・・セグメント・バッファ 8B・・・マイクロ・コンピュータ84・・・双安定イ
ンジケータ。
ーションを示スm h 図、 第2図は第1図によるプロセスにおけるあるオペレーシ
ョンを実行するために使用されるコンピュータ・プログ
ラムを示す流れ図、 第8図は本発明による8轡分析システムを実施するため
の電子装置を示を路線的ブロック図である。 10・・・入力部 11・・・アナログ史1ディジタル変換オペレーション
12 、14 、16 、18 、20 ・・・出力1
8・・・ディジタル・フィルタリング・オペレーション
15・・・絶対mS 出オペレーション17・・・セグ
メント・バッファリング・オペレーション19・・・平
均化オペレーション 21・・・単m 増加検出オペレーションz2・・・波
形強度が小さい値の固定スレッショルド・レベルより低
いかどうかを検出するオペレーション 28・・・双安定インジケータ 80・・・鋪コンバータ 81・・・ディジタル・フ
ィルタ8z・・・セグメント・バッファ 8B・・・マイクロ・コンピュータ84・・・双安定イ
ンジケータ。
Claims (1)
- 【特許請求の範囲】 t 人力アナログ音声信号を受は取る受信手段と、規則
的だ繰返し発生する瞬時にこれら瞬時に先立つセグメン
ト中の、整流された音声信号の平均値を決定するための
決定手段とを具え、かくして決定された平均値で非有声
音セグメントから右声音セグメントを分離するたぬの目
安を与え、さらに有声音の期間を表わすようにセット出
来ると共に非有声音すなわち音声の無い期間を表わすよ
うにリセット出来る双安定インジケータと、次のステッ
プを含むプロセスを実行するようにプログラムサレルプ
ログラマブル・コンピユーテイング手段とを備え、該ス
テップを −各セグメント(番号■)に対し約200〜800 H
zの低周波数帯域において整流された関連するセグメン
トの音声信号の平均値()、((I))を決定すること
、−前記双安定インジケータをセットする場合、各セグ
メント及び多数の先行するセグメントに対し平均値(M
(n))の最大値(VM(INを決定すること、ここに
おいてn = I 、 I−1、−I +1− mとし
、mをセグメント■とI+1−mとの間において前ge
双安定インジケータの状態が変化しないような値とし、 −各セグメントに対(7、前記双安定インジケータをセ
ットする場合にはアダプティブ・スレッショルド・1/
ペル(AT(I)) をM大値(VM(I))の何分の
−かに等しく決定し及び前記双安定インジケータをリセ
ットする場合には前記アダプティブ・スレッショルド・
レベル(AT(I))を(AT(I−1) )の何分の
−かに等しくすることによって、アダプティブ・スレッ
ショルド・レベル(AT(I))を決定すること、 −n=I、I−1,・・I+1−にとし、kを所定の数
と17だとき、平均値rM(n))がnの(i&の増加
に、1:り所定の倍数よりも大きな倍数によってIN調
に増加して該平均値(M(I))がAll i!己アダ
プテイフ゛・スレッショルド・レベル(A’ll’(I
−1))を越える場合には、Afl記双安定インジケー
タをセットするとと、 −前記平均イi&(M(INが前記最大値(VM(I−
’1m)の所定の何分の−かよりも小さいか又は所定の
スレッショルド・レベルよりも小さい場訃には、itl
記双安定インジケータをリセットすること としたことを特徴とする音声分析システム。 2、 前記プロセスは −Aft記平均値(M(I))が相対的に大きい固定ス
レッショルド・レベルを越エル場合には前記双安定イン
ジケータをセットすること −前記平均値(M(■))が相対的に低い固定スレッシ
ョルド・レベルヲa’;r−すい場合には、=ht+己
双安定インジケータをリセットすること の各ステップを含むことを特徴とする特許請求の範囲l
記載の音声分析システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
NL82200500.5 | 1982-04-27 | ||
EP82200500A EP0092611B1 (en) | 1982-04-27 | 1982-04-27 | Speech analysis system |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS58194100A true JPS58194100A (ja) | 1983-11-11 |
JPH0462398B2 JPH0462398B2 (ja) | 1992-10-06 |
Family
ID=8189484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP58072341A Granted JPS58194100A (ja) | 1982-04-27 | 1983-04-26 | 音声分析システム |
Country Status (5)
Country | Link |
---|---|
US (1) | US4625327A (ja) |
EP (1) | EP0092611B1 (ja) |
JP (1) | JPS58194100A (ja) |
CA (1) | CA1193731A (ja) |
DE (1) | DE3276731D1 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5218668A (en) * | 1984-09-28 | 1993-06-08 | Itt Corporation | Keyword recognition system and method using template concantenation model |
US5046100A (en) * | 1987-04-03 | 1991-09-03 | At&T Bell Laboratories | Adaptive multivariate estimating apparatus |
US5007093A (en) * | 1987-04-03 | 1991-04-09 | At&T Bell Laboratories | Adaptive threshold voiced detector |
IT1229725B (it) * | 1989-05-15 | 1991-09-07 | Face Standard Ind | Metodo e disposizione strutturale per la differenziazione tra elementi sonori e sordi del parlato |
JP3277398B2 (ja) | 1992-04-15 | 2002-04-22 | ソニー株式会社 | 有声音判別方法 |
US5764779A (en) * | 1993-08-25 | 1998-06-09 | Canon Kabushiki Kaisha | Method and apparatus for determining the direction of a sound source |
CN1099663C (zh) * | 1994-03-11 | 2003-01-22 | 皇家菲利浦电子有限公司 | 准周期信号的传输系统 |
DE69629667T2 (de) * | 1996-06-07 | 2004-06-24 | Hewlett-Packard Co. (N.D.Ges.D.Staates Delaware), Palo Alto | Sprachsegmentierung |
DE19854341A1 (de) * | 1998-11-25 | 2000-06-08 | Alcatel Sa | Verfahren und Schaltungsanordnung zur Sprachpegelmessung in einem Sprachsignalverarbeitungssystem |
TWI262474B (en) * | 2004-10-06 | 2006-09-21 | Inventec Corp | Voice waveform processing system and method |
US7958881B2 (en) * | 2006-10-19 | 2011-06-14 | Tim Douglas Silverson | Apparatus for coupling a component to an archery bow |
TWI564791B (zh) * | 2015-05-19 | 2017-01-01 | 卡訊電子股份有限公司 | 播音控制系統、方法、電腦程式產品及電腦可讀取紀錄媒體 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3321582A (en) * | 1965-12-09 | 1967-05-23 | Bell Telephone Labor Inc | Wave analyzer |
US4015088A (en) * | 1975-10-31 | 1977-03-29 | Bell Telephone Laboratories, Incorporated | Real-time speech analyzer |
US4351983A (en) * | 1979-03-05 | 1982-09-28 | International Business Machines Corp. | Speech detector with variable threshold |
FR2451680A1 (fr) * | 1979-03-12 | 1980-10-10 | Soumagne Joel | Discriminateur parole/silence pour interpolation de la parole |
FR2466825A1 (fr) * | 1979-09-28 | 1981-04-10 | Thomson Csf | Dispositif de detection de signaux vocaux et systeme d'alternat comportant un tel dispositif |
CA1147071A (en) * | 1980-09-09 | 1983-05-24 | Northern Telecom Limited | Method of and apparatus for detecting speech in a voice channel signal |
FR2494017B1 (fr) * | 1980-11-07 | 1985-10-25 | Thomson Csf | Procede de detection de la frequence de melodie dans un signal de parole et dispositif destine a la mise en oeuvre de ce procede |
US4441200A (en) * | 1981-10-08 | 1984-04-03 | Motorola Inc. | Digital voice processing system |
-
1982
- 1982-04-27 EP EP82200500A patent/EP0092611B1/en not_active Expired
- 1982-04-27 DE DE8282200500T patent/DE3276731D1/de not_active Expired
-
1983
- 1983-04-20 CA CA000426341A patent/CA1193731A/en not_active Expired
- 1983-04-21 US US06/487,390 patent/US4625327A/en not_active Expired - Fee Related
- 1983-04-26 JP JP58072341A patent/JPS58194100A/ja active Granted
Also Published As
Publication number | Publication date |
---|---|
US4625327A (en) | 1986-11-25 |
JPH0462398B2 (ja) | 1992-10-06 |
EP0092611B1 (en) | 1987-07-08 |
CA1193731A (en) | 1985-09-17 |
DE3276731D1 (en) | 1987-08-13 |
EP0092611A1 (en) | 1983-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0398180B1 (en) | Method of and arrangement for distinguishing between voiced and unvoiced speech elements | |
JPS58194100A (ja) | 音声分析システム | |
JPH0121519B2 (ja) | ||
CA1184657A (en) | Digital speech processing using linear prediction process | |
EP0092612B1 (en) | Speech analysis system | |
US20050159942A1 (en) | Classification of speech and music using linear predictive coding coefficients | |
JPH0341838B2 (ja) | ||
JPH0251303B2 (ja) | ||
US6954726B2 (en) | Method and device for estimating the pitch of a speech signal using a binary signal | |
JP3849116B2 (ja) | 音声検出装置及び音声検出プログラム | |
JPH0682275B2 (ja) | 音声認識装置 | |
JPS63155197A (ja) | 無声音検出方法 | |
SU1781701A1 (en) | Method of separation of speech and nonstationary noise signals | |
JPS63220295A (ja) | 音声区間検出方式 | |
JPH0573035B2 (ja) | ||
JP2000010577A (ja) | 有声音/無声音判定装置 | |
Zhijie et al. | A new method for the voiced/unvoiced decision based on pattern classification theory | |
KR20010046522A (ko) | 피치 정보를 이용한 실시간 음성 검출 장치 및 그 방법 | |
JPS63237100A (ja) | 音声検出器 | |
JPS63127295A (ja) | 音声区間検出方式 | |
KR970067093A (ko) | 음성신호의 유성음 구간에서 이포크(epoch) 검출 방법 | |
JPS63169525A (ja) | ピツチ抽出装置 | |
JPS63153600A (ja) | ピツチ抽出装置 | |
EP1143412A1 (en) | Estimating the pitch of a speech signal using an intermediate binary signal | |
JPS62183500A (ja) | 音声のピツチ抽出装置 |