JPS58194100A

JPS58194100A - 音声分析システム

Info

Publication number: JPS58194100A
Application number: JP58072341A
Authority: JP
Inventors: ロベルト・ヨハネス・スルテル; ヘンドリツク・ヤン・コトマンス
Original assignee: Philips Gloeilampenfabrieken NV
Current assignee: Koninklijke Philips NV
Priority date: 1982-04-27
Filing date: 1983-04-26
Publication date: 1983-11-11
Also published as: US4625327A; JPH0462398B2; EP0092611B1; CA1193731A; DE3276731D1; EP0092611A1

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】発明の技術分野本発明は人力アナログ音声信号を受は取る受信手段と、
規則的に繰り返し発生する瞬時にこれら瞬時に先立つセ
グメント中の、整治された音声信号の平均値を決定する
ための決定手段とを具え、かくして決定された平均値で
非有声音セグメントから有声セグメントを分離するたぬ
の目安を与える音声分析システムに関する。

従来技術の説明このような音声分析システムは一般にボコーダの分野で
知られている。一例として文献：［Ｐｒｏｃｅｅｄｉｎ
ｇ８ｏｆ　ｔ．ｈｅ　ＩＥＥＥｊ　Ｖｏｌ．　６　Ｂ　
、　Ａ　４　＋Ａｐｒｉｌ　１　’；ｊ　７　５　、第
６６２’−６７７頁を参照することが出来る。この文献
によれば、波形強１ｆとか平均（　ｕｎＶＱｉｃｄ　）
セグメントから有声（　ｖｏｉｃθｄ）セグメント２分
１１【するための良い目安となる。しかしながら、これ
に基づく有声一非有声の決定は実際には波形強電の値の
範囲では信頼できないことが判った。

さらにまたこの文献には、基本的にはピッチ検出器を有
声一非有ｐ（ｖ／Ｌ）の決定を行いかつ、有声音声の期
間中は、ピッチ期間の目安を生ずる装置ｇとすることが
記載されている。しかしながら、あるピッチ検出アルゴ
リズムでは、音声の有声セグメントの期間中とのビッカ
を検出し及び有声一非有声の決定はある他の技術に頼っ
ている。この点については、文献：　ＩＥＥＥ　Ｔｒｌ
！ｌｎｓａｃｔｉｏｎ　ｏｎＡｃｏｕｓｔｉｃｓ　＋　
Ｓｐｅｅｃｈ　ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓ
ｉｎｇ　。

Ｖｏｌ．　Ａ８ｓＰ−２４　、　Ａ５　、　Ｏｃｔ．ｏ
ｂｅｒ　１９’７６　、第８９９−４１８頁の記載を参
照されたい。

この後者の文献に記載されている数個の有声一非有声検
出アルゴリズムは自動相関関数、零交差計数、トレイニ
ング・セット（　ｔｒａｉｎｉｎｇ　ｓｅ１暑を使用す
るパターン認識技術に基づくか又は数個のピッチ検出器
間での一致の程度に基づくものである。これら検出アル
ゴリズムは人力として実際には全音声帯域中の音声信号
の時間領域データ又は周波数領域データを使用している
のに対し、ピッチ検出に対しては一般には低域フィルタ
を経た音声信号のデータを使用している。

発明の概要本発明の目的は、−ｈ述した音声分析システムにおいて
、人力として一般にピッチ検出に対する入力として使用
されるデータと同じデータすなわち低域フィルタでｐ波
された、特に、約２０、θ〜８　０　０　Ｈｚの間の周
ｅ数範囲内の音声信号のデータを使用する、信頼性の良
い方法すなわち平均の大きさに基づいて有声一非有声の
検出を行う方法を提供することにある。

この目的の達成を図るため、本発明による音岸分析シス
テムにＪｄいては、さらに有声音の期間を□表わすよう
にセット出来ると共に非有声すなわち音声の無いル１間
を表わすようにリセット出来る双安定インジケータと、
次のステップを含むプロセスな実行′ｉろようにプログ
ラムされるプログラマブル・コンピユーテイング手段と
を備え、該ステップを −各セグメント（番号■）に対し約２００−８００　Ｈ
ｚの低周波数帯域において整流、された関連するセグメ
ントの音声信号の平均値（Ｍ（Ｉ）・）を決定−４−る
こと、一＠ｉｌ記双安定インジケータをセットする場合、各セ
グメント及び多数の先行するセグメントに対し平均値（
Ｍ　（ｎ）　）の最大値（ＶＭ（Ｉ））を決定すること
、ここにおいてｎ＝１．Ｉ−１，・・・　１１　＋ｌ−
ｍとし、ｍをセグメント■とＩ＋ｌ−ｍとの間において
＝Ｉｌ記双安定インジケータの状態が変化しないような
１直とし、 −各セグメントに対し、前記双安定インジケータをセッ
トする場合にはアダプティブ・スレッショルド・レベル
（ＡＴ（１））を最大値（ＶＭ（Ｉ））の何分の−かに
等しく設定し及び前記双安定インジケータをリセットす
る場合には前記アダプティブ・スレッショルド・レベル
（Ａ、Ｔ　ｒＩ）’）　ヲ（ＡＴ（Ｉ−１））の何分の
−かに等しくすることによって、アダプティブ・スレッ
ショルド・レベル（ＡＴ（Ｉ））を決定すること、 −ｎ＝Ｉ、Ｉ−１，＝Ｉ＋ｌ−にとし、ｋを所定の数と
したとき、平均値（Ｍ（ｎ））がＨの値の増加により所
定の倍数よりも大きな倍数によって単調に増加して該平
均値（Ｍ　（Ｉ））が前記アダプティブ・スレッショル
ド・レベル（ＡＴ（Ｉ−１））を越える場合には、前記
双安定インジケータをセットすること、一前記平均値（Ｍ　（Ｉ））が前記最大値（ＶＭ（Ｉ−
１））の所定の何分の−かよりも小さいが又は所定のス
レッショルド・レベルよりも小さい場合には、前記双安
定インジケータをリセットすることと（７たことを特徴
とする。

この方法によれば、直前に発生した平均値を含みまた波
形強度と称せられる後続の複数の平均値が、実際には８
倍と１２得る所定の倍数より大きい倍数によって、ｉ調
に増大する場合及び、これに加え、直前の波形強度があ
るアダプティブ・スレッショルド（ａｄａｐｔｉｖｅ　
ｔ；ｈｒｅｓｈｏｌｄ　）レベルを佼えた場合に、非有
声対有声の判定を行う。音声の場合には、有声音の開始
はほとんど常に上述した強１ｆの増大を伴う。しかしな
がら、非有声破裂音もまた、帯域幅に制限があるにもか
かわらず、強度が相当増大することもある。

実際、ある非有声破裂音はそれらのエネルギーのほとん
どが８００　Ｈｚより大きいために有効的に排除される
が、２００〜８００　Ｈｚの帯域内で著しく強度が増大
する非有声破裂音がある。アダプティブ・スレッショル
ド・レベルは非有声破裂音及・び有声音の開始（ｏｎｓ
θｔｓ）に基づく強ぜの増大間の識別を行うものである
。最初は前の有声音の最大波形強電に比例するので、粗
い音声レベルに追従する。非有声音の場合には、アダプ
ティブ・スレッショルド・レベルは大きな時定数に従っ
て減衰する。この場合、流暢な音声すなわち話し言葉の
中の２つの有声音の間では、その間で非有声破裂音が有
声音として検出されないようにするために、アダプティ
ブ・スレッショルド・レベルがほぼ一定となるように、
この時定数を選定すべきである。しかしながら、話し２
がはっきりととぎれた後はこのアダプティブ・スレッシ
ョルド・レベルは充分に減衰してこれに続、＜低レベル
の有声音の検出を可能ならしめるようにする必要がある
。この場合、スレッショルド・レベルｉｒ’　Ｋ　スキ
ルト、有声音の開始が誤って除去されてしまう。この時
定数を典型例では数秒とするのが好適である。

有声対非有声遷移は現在通用している有声言語ｌｊ　（
ｖｏｉｃｅｄ　５ｐｅｅｃｈ　５ｏｕｎｄ　）の最大強
慶の何分の−かに達−する大キさのスレッショルド・レ
ベルによって決まる。汲形強変がこのスレッショルド・
レベルより小さくなると直ちにイイ声対非有声遷移を決
ぬる。

安全策として高い値の固定スレッショルド・レベルを使
用する。波形強度がこのスレッショルド・レベルを越え
た場合には、このセグメントは有声音として直接分類さ
れる。このスレッショルド・レベルの値を取り得る最大
の波形強度と関連せしめ、実際にはこの値をその１０％
程度とし得る。

これに加えて、所定の低い値のスレッショルド・レベル
ヲ使用スル。このスレッショルド・レベルを舘えない波
形ｇ！度のセグメントを非有声音としてＩｉ　Ｊｔｉｋ
　分類スる。このスレッショルド・レベルの値を取り得
る最大の波形強電と関連せしぬ、実際にはその値をその
０．４％程度とし得る。

異なるタイプのボコーダにおける順次のセグメント間で
のタイム・ラグは一般に１０ｍ８〜８０ｍ５とする。信
頼出来る決定を行うための有声−非有声検出器で観察さ
れるべき最小時間間隔を４０〜５０　ｍｓとすべきであ
る。最小タイム・ラグは１０−ｍｓと思われるので、６
個（ｋ−６）の＋＋ｍ次のセグメントを観察することで
全ての実際の場合を充分に網羅することが出来る。

実施例の説明第１１２１に示すシステムにおいては、音声信号をアナ
ログ形帖で入力１０に供給する。この音声信号をブロッ
ク１１で示すアナログ対ディジタル変換オペレーション
（Ａ／Ｄ　）に人力信号として供給する。このオペレー
ションでは８　ｋＨｚのサンプリング速度及び１２ビツ
ト／サンプルの＃１ｉｌｆでサンプリングを行う。出力
１２に現われたディジタル・サンプルをブロック１８で
示す、周鼓数帯域約２００〜８００　Ｈｚでのディジタ
ル・フィルタリング・オペレーションに供給する。ブロ
ック１５で示す次のオペレーションにおいて、出力１４
に現われた、Ｐ波されたサンプルの絶対値を決定する。

出力１６に現われた絶対値をブロック１７で示すセグメ
ント・バッファリング・オペレーションによって８２ｍ
５の間記憶する。この記憶されたセグメントは２５６個
の音声サンプルの絶対値を有している。

この実施例では、２５６個の絶対値の完全なセグメント
が出力１８に１０　ｍｓの間隔で現われる。′この各１
０　ｍｓの期間中、８０個の新しいサンプルの絶対値を
ブロック１７のオペレーションによって記憶し、８０個
の最も古い絶対値を廃棄する。

その後この出力１８に現われるサンプルの絶対値Ｋ　ｒ
＝＋しブロック１９で示すように平均化オペレーション
を行い、各セグメントにおける絶対値の平均１ｍを決定
する。この場合、工番目のセグメントに対する平均値を
Ｍ　（Ｉ）で示し、この平均値を約２００〜８００　Ｈ
ｚの当該周波数節回における音声Ｉ°□セグメントの平
均の大きさ又は波形強度とも称する。

次に出力２０にｌ　Ｏｍｓの間隔で現われる波形強度Ｍ
（Ｉ）をブロック２１及び２２に示すオペレーションで
処理する。

ブロック２１で示すオペレーションでは、最終セグメン
トを含む一連のセグメントの波形強度が所定の倍数より
大きな倍数によって車脚に増大するかどうかを検出する
。この実施例では、６個のセグメントを考慮し倍数を８
とする。また、波形１°強麿がアダプティブ・スレッシ
ョルド・レベルを１越えるかどうかを検出する、このア
ダプティブ・スレッショルド・レベルを、先行する有声
期間中は最大波形強度の所定の何分の−かの値とするか
又は非有声期間中は時間と共に減衰する値とする。・安
全策として高い値の固有スレッショルド・レベルを使用
する。波形強度がこの値を越える場合には、セグメント
を有声音として直接分類する。

ブロックｚ１におけるオペレーションでその条件が満た
されると、双安定インジケータ２８がセト・ツトされそ
の−の出力Ｑに有声音（ｖｏｉｃｅｄ　５ｐｅｅｃｈ）
の期間であることが示される。

ブロック２２におけるオペレーションによって、波形強
電が覗、在の有声期間における最大波形強度＜７’）　
所定ノＭ　ｅの−かであるスレッショルド・レイ１ルよ
り低くなるか又は小さい値の固定スレッショルド・レベ
ルより低くなるかどうかを検出する。

これら条件が満たされる場合には、沢安定インジケータ
２Ｂはリセットされ反転出力ｑに非有声音のル１間であ
ることが示される。

ブロック１７及び１９のオペレーションに代わって、出
力１６に現われる絶対値に対しブロック２４で示すよう
な、約０〜５０　Ｈｚの範囲におけるサンプリング速度
低減オペレーションと組合わせて、フィルタリング・オ
ペレーションを実行してもよい。好ましくはこのサンプ
リング速度を１００　Ｈｚに低減する。このサンプリン
グ速度低１）ｌ−ペレーション２４の出力は前と同様に
ｌＯ＋ｎｓの間隔で現われる平均値（ナンバーズ：　ｎ
ｕｍｂｅｖｓ　）Ｍ　（Ｉ）である。

第１図に従うプロセスにおけるあるオペレーションを、
汎用ディジタル・コンピュータを適切にプログラミング
することによって満足させ得る。

そのオペレーションの一例として第１図にブロック２１
及び２２によって実行されるオペレーションの場合プｔ
ある。このブロックｊ２１及びｚ２のオペレーションを
実行するためのコンピュータ・プログラムの流れ図を第
２図に示す。このプログラムに対する入力を順次の言語
（音声）セグメントの波形強度を表わす平均値（ナンバ
ーズ）　Ｍ（Ｉ）で形成する。

この図において、■はセグメント番号を表わし、ＡＴは
アダプティブ・フィルタのスレッショルド・レベルを表
わし、ＶＭは連続する有声セグメントの最大強度を表わ
し、ＶＵＶは出力パラメータを表わしていて、このＶＵ
Ｖは有声音（言語）の場合には１に等しくかつ非有−音
（−語）の場合には０に等しい。このパラメータは単１
図につき既に説明した双安定インジケータ２８の状罪に
対応する。

この帽れ図についてはとれ以上の説明をするまでもなく
当業者は容’Ａｌｃ叩解出来るものである。

図中のコメンｌ−０１〜０５について説明すると次の通
りである。

コメン）０１：　波形強ＫＭが倍率８よりも大きな倍率
でセグメント１、■−１、・・・Ｉ−５にわたって単一に増大するかどうかを検出すること、コメン）　０２　：　Ｍ（Ｉ）が先に確定【、た最大強
度ＶＭ（Ｉ−１）の所定の何分の−（１／８）かよりも
小さい場合には、双安定インジケータ（ＶＵＶ＝０）をリセットすること、コメントＣＢ＝上述した双安定インジケータ′２３の状
卵に対応する出力パラメータＶＵＶ（Ｉ）を出力すること、コメントＣ４：　アダプティブ・スレッショルド・レベ
ルＡＴを検出すること、コメント０５：大きい値の固定スレッショルド・レベル
を８０７２の値に固定し、小さい値の固定スレッショルド・レベルを１２８の値に固定すること本発明による音声分析システムを第８図Ｗ示すハードウ
ェア形態で一ヘードウエア化し得る。このハードウェア
＆家 −Ａ／Ｄコンバータ８０（第１図のブロック１１に対応
する） −ディジタル・フィルタ８１（第１図のブロック１８に
対応する） −セグメント・バッファＢ　２　（９４１図のブロック
１７に対応する） −マイクロ・コンピュータ８８　（＠１図ノフロック１
９．２１及び２２に対応する）−双安定インジケータ８
４（第１図のブロックｚ８に対応する）を具えている。

ブロック１９によるオペレーションの機能スなわち一連
の絶対値の平均値を決定する機能はコンピュータ８８を
適切にプログラミングすることによって実行出来る。適
切なプログラムの流れ図は当業者が容鵬に案出出来るも
のである。ブロック“１５によるオベレーンヨンの機能
を、符号／大きさ表記法を用いる場合にはセグメント・
バッファ８ｚの入力において符号ビットを除去すること
によって実行し得、又はコンピュータ８Ｂを適切にプロ
グラミングすることによってこのプロセスの・後の段階
において実行し得る。

【図面の簡単な説明】

第１図は本発明による音声分析システムの順次のオペレ
ーションを示スｍ　ｈ　図、第２図は第１図によるプロセスにおけるあるオペレーシ
ョンを実行するために使用されるコンピュータ・プログ
ラムを示す流れ図、第８図は本発明による８轡分析システムを実施するため
の電子装置を示を路線的ブロック図である。１０・・・入力部１１・・・アナログ史１ディジタル変換オペレーション
１２　、１４　、１６　、１８　、２０　・・・出力１
８・・・ディジタル・フィルタリング・オペレーション
１５・・・絶対ｍＳ　出オペレーション１７・・・セグ
メント・バッファリング・オペレーション１９・・・平
均化オペレーション２１・・・単ｍ　増加検出オペレーションｚ２・・・波
形強度が小さい値の固定スレッショルド・レベルより低
いかどうかを検出するオペレーション２８・・・双安定インジケータ８０・・・鋪コンバータ　　８１・・・ディジタル・フ
ィルタ８ｚ・・・セグメント・バッファ８Ｂ・・・マイクロ・コンピュータ８４・・・双安定イ
ンジケータ。

Claims

【特許請求の範囲】ｔ　人力アナログ音声信号を受は取る受信手段と、規則
的だ繰返し発生する瞬時にこれら瞬時に先立つセグメン
ト中の、整流された音声信号の平均値を決定するための
決定手段とを具え、かくして決定された平均値で非有声
音セグメントから右声音セグメントを分離するたぬの目
安を与え、さらに有声音の期間を表わすようにセット出
来ると共に非有声音すなわち音声の無い期間を表わすよ
うにリセット出来る双安定インジケータと、次のステッ
プを含むプロセスを実行するようにプログラムサレルプ
ログラマブル・コンピユーテイング手段とを備え、該ス
テップを −各セグメント（番号■）に対し約２００〜８００　Ｈ
ｚの低周波数帯域において整流された関連するセグメン
トの音声信号の平均値（）、（（Ｉ））を決定すること
、−前記双安定インジケータをセットする場合、各セグ
メント及び多数の先行するセグメントに対し平均値（Ｍ
（ｎ））の最大値（ＶＭ（ＩＮを決定すること、ここに
おいてｎ　＝　Ｉ　、　Ｉ−１、−Ｉ　＋１−　ｍとし
、ｍをセグメント■とＩ＋１−ｍとの間において前ｇｅ
双安定インジケータの状態が変化しないような値とし、 −各セグメントに対（７、前記双安定インジケータをセ
ットする場合にはアダプティブ・スレッショルド・１／
ペル（ＡＴ（Ｉ））　をＭ大値（ＶＭ（Ｉ））の何分の
−かに等しく決定し及び前記双安定インジケータをリセ
ットする場合には前記アダプティブ・スレッショルド・
レベル（ＡＴ（Ｉ））を（ＡＴ（Ｉ−１）　）の何分の
−かに等しくすることによって、アダプティブ・スレッ
ショルド・レベル（ＡＴ（Ｉ））を決定すること、 −ｎ＝Ｉ、Ｉ−１，・・Ｉ＋１−にとし、ｋを所定の数
と１７だとき、平均値ｒＭ（ｎ））がｎの（ｉ＆の増加
に、１：り所定の倍数よりも大きな倍数によってＩＮ調
に増加して該平均値（Ｍ（Ｉ））がＡｌｌ　ｉ！己アダ
プテイフ゛・スレッショルド・レベル（Ａ’ｌｌ’（Ｉ
−１））を越える場合には、Ａｆｌ記双安定インジケー
タをセットするとと、 −前記平均イｉ＆（Ｍ（ＩＮが前記最大値（ＶＭ（Ｉ−
’１ｍ）の所定の何分の−かよりも小さいか又は所定の
スレッショルド・レベルよりも小さい場訃には、ｉｔｌ
記双安定インジケータをリセットすることとしたことを特徴とする音声分析システム。２、　前記プロセスは −Ａｆｔ記平均値（Ｍ（Ｉ））が相対的に大きい固定ス
レッショルド・レベルを越エル場合には前記双安定イン
ジケータをセットすること −前記平均値（Ｍ（■））が相対的に低い固定スレッシ
ョルド・レベルヲａ’；ｒ−すい場合には、＝ｈｔ＋己
双安定インジケータをリセットすることの各ステップを含むことを特徴とする特許請求の範囲ｌ
記載の音声分析システム。