JPS58194099A

JPS58194099A - 音声分析システム

Info

Publication number: JPS58194099A
Application number: JP58072340A
Authority: JP
Inventors: ロベルト・ヨハネス・スリユ−テル; ヘンドリツク・ヤン・コトマンス
Original assignee: Philips Gloeilampenfabrieken NV
Current assignee: Koninklijke Philips NV
Priority date: 1982-04-27
Filing date: 1983-04-26
Publication date: 1983-11-11
Also published as: JPH0462399B2; EP0092612B1; DE3276732D1; CA1193730A; US4637046A; EP0092612A1

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】本発明は入力アナログ音声信号をディジタル音声信号に
変換する変換手段と；前記ディジタル音声信号のセグメ
ンｉ〜を蓄積する蓄積手段ど；各セグメントを順次のス
ペクトル成分に転換する転換手段にあって、離散的フー
リエ変換を行なう手段を貝え、これにより各々が順次の
スペクトル成分から成る一連の振幅スペク１−ルを発生
させる転換手段：どを具えている音声分析システムに関
するものである。

Ａ（２）従来技術の説明断種の音声分析システムは従来のボ：１−ダから一般に
既知である。例えば’ＩＥＥＥ１−ｒａｎｓａｃｔｉｏｎｓ　　ｏｎ　　Ａｃｏｕｓｔ
ｉｃｓ、　５ｐｅｅｃｌ＋ａｎｄ　　３　ｉｇｎａｌ　
　ｐ　ｒｏｃｅｓｓｉｎｇ　”　　（Ｖ（１１。

ＡＳＳＰ、Ｎｏ、７．１９７８年８月、第３５８へ・３
６５頁）を参照することができ、ここに記載されている
従来のシステムでは振幅スペクトルを高調３− 汲ビツブ検出器に供給して、各振幅スペクトルの包１ｇ
（Ｉ形）のピーク値間における周波数離間距離からピッ
チ周期を検出するようにしている。

元来ピッチ検出器は、有声−無声（発声−無発声）（Ｖ
／ＬＪ）の判定をすると共に、有声音の期間中にｄシ番
プるピッチ周期の大きさを出ノＪさせる装置であるど云
われている。しかし、ピッチ検出アルゴリズムによって
は、音声の発生セグメントの期間中にお【ノるピッチ周
期だけを求めて、有声−無声の判定は別の方法で行なう
ようにしたものもある。このことについては’ｒＦＥＦＪｒａｎｓａｃｔｉｏｎｓ　　ｏｎ　　Ａｃｏｕｓｔｉ
ｃｓ、　５ｐｅｅｃｌ＋ａｎｄ　　Ｓ　ｉｇｎａｌ　　
Ｐ　ｒｏｃｅｓｓｉｎｇ”　（Ｖ　ｏｆ。

、△５ＳＰ−２４．Ｎｏ　、５．１９７６年１０月第３
９９〜４１８頁）を参照することができる。

上記最後に述べた文献には、自己相関関数や、零交さ旧
教や、１〜レーニングセットを用いてのパターン認識技
法に基ずいたり、または幾つかのピッチ検出器間での一
致の度合に基ずく数種の有声無声検出アルゴリズムが記
載されている。これ４　− らの検出アルゴリズム１１音声信号、実際には全音声帯
域における時間範囲または周波数範囲のデータを入力ど
して用い、これに対し、ピッチ周期の検出には低域通過
フィルタにてろ彼した音声信号のデータを一般に用いて
いる。

Ｂ１発明の概要本発明の目的は前述した音声分析システムにて、ピッチ
周期を検出Ｊるために入力として一般に用いられるのと
同じスペク１〜ルデータ、即ら低域通過フィルタにてろ
波した音声信号、特に約２００〜８００１１ｚの周波数
範囲内の音声信号のデータを入力として用いる有声−無
声検出方法を提供す′ることにある。

本発明は入力アナログ音声信号をディジタル音声信号に
変換する変換手段と；前記ディジタル音川信号のセグメ
ントを蓄積する蓄積手段と；各セグメントを順次のスペ
クトル成分に転換する転換手段にあって、朗散的フーリ
エ変換を行なう手段を具え、これにより各々が順次のス
ペクトル成分から成る一連の振幅スペクトルを発生さゼ
る転換手段；とを只えている音声分析システムに、有声
音の周期を指示ずべくセットシ得ると共に、無声音また
は音声の不在周期を指示Ｊべくりけットし得る双安定指
示器Ａ３よび：各セグメン１〜（番号１）に対し、約２
００・−８００１１７，の低周波数帯域にお【ノる該セ
グメントに関連する振幅スペクｉ〜ルのスペクトル強度
の内のピーク値（Ｍ（１））を決定する上程と；前記指
示器がセラ１へされる場合に、各セグメン１〜および多
数の以前のレグメン１−に対して、ｎ＝１．Ｉ−１、・
−Ｉ＋１−ｍｒ、ＩｌｌをセグメントＩとｌ　＋ｌ　−
ｍどの間では指示器の状態に変化がないにうな値として
、ピーク値Ｍ（ｎ）の最大１＋Ｉ’ｊ　（ＶＭ　（１）
　）を決定する■程ど：各はグメン１〜に対して、前記
指示器がゼットされる場合に、適応しきい値Δ１（Ｉ）
を最大値ＶＭ（１）の何分の１かに等しくセラ１〜する
ことにＪ、って、および前記指示器がリセットされる場
合に、ＡＴ（ｒ）をＡ　Ｔ　（１−１）の何分の１かに
等しくセットすることににっで適応しぎい値（ＡＴ（ｒ
））を決定づるＴ程と；ｋを予定数とする場合に、ｎ　
＝　ｌ　。

１−１　、　・Ｉ　＋１−にのビーク（直Ｍ（ｒ＋）が
、ｎの増分値に対して所定ファクター以上のファクター
で単調に増加し、かっＭ（１）が適応しぎい値ＡＴ（１
−１）双子となる場合に双安定指示器をゼッ１〜する工
程ど：ピーク値Ｍ（１）が最大値ＶＭ（［１）の所定数
分の１より小さくなるが、または予定したしきい値より
も小さくイＴる場合に双安定指示器をリセットする工程
；とを含む処理を実施すべくプログラムしたプログラマ
ブルの割算手段を設【プたことを特徴とする。

１１１ｉかる方法によれば、最新のものを含む順次のピ
ーク値（これはスペクトル強度とも称づる）が所定のフ
ァクター（実際にはこのファクターを３とづることがで
きる）双子のファクターで単調に増加する場合で、しか
も最新のスペクトル強度が所定の適応（アダプティブ）
しきい値以上となる場合に、有声−無声の判定が成され
る。言詔における発声音の始めには前述したスペクトル
強度の増加が殆ど常に伴なわれる。しかし、無声促音で
も帯域制限されているにも拘わらず、同様な強い７− スペク１〜ル強度の増加を呈することが時々ある。

実際ト、無声促音の内のいくつかのものは、それらの殆
どづべてのエネルギーが８００１１ｚ以上の帯域に位置
するため有効に除外されるが、２００−・８００臣の帯
域内にある他の無声促音は有効なスペクトル強度増分を
呈する。適応しきい値は無声促音ど発声音の到来（ｏｎ
ｓＯｔ　＞によるスペクトル強度の増分値の区別をづる
。そのしきい値は最初は以前の発声音の最大スペクトル
強度に比例させるため、粗い音声レベルに順することに
なる。無声音では適応しぎい値が大きな時定数で減衰す
るようにする。この時定数は適当に選定して、よどみの
ない話し方の２つの発声音間では適応しきい値が殆ど一
定となり、中間の無声促音が発声音として検出されない
ようにする必要がある−６しかし、個々の言葉が終った
後に（ま、適応しきい値が十分に減衰し−Ｃ１つぎの低
レベルの発声音を検出し得るようにする必要がある。こ
の場合、時定数が大き過ぎるどしぎい値にＪ：って発牛
到来音が誤って除外されてしまうことになる。代表的に
は１１４定数＝８− の値を数秒程度とづるのが好適である。

有声−無声の転換部は成るしきい値によって規定され、
イの大きさは最新発声音におりる最大スペクトル強度を
所定数で割った値とする。スペク１〜ル強度がこのしき
い値よりも小さくなると自ちに有声−無声の転換部が決
定される。

セーフガードどして大ぎな一定のしきい値を用いる。ス
ペクｉ・ル強度がこのしきい値以上となる場合、そのセ
グメンＩ〜は発声音どして直接識別される。このしぎい
値の値はスペク１〜ル強度がとり得る最大強度に関する
ものであり、実際には最大スペクトル強度の１０％とす
ることができる。

さらに、低レベルの予定したしぎい伯も用いる。

スペクトル強度がこのしきい値を越さないセグメン１〜
は無声音どして直接識別される。この低レベルしきい値
の値はスペクトル強度かとり得る最大強度に関連し、実
際にはその値を最大スペクトル強度の０．４％とするこ
とができる。

タイプの異なる種々のボコーダにＪＰＮノる順次のセグ
メン］へ間の時間遅れは通常１０　Ｉｌｌ　Ｓと３０ｍ
５との範回内の（「１である。僅゛実な判定をするだめ
のｈ声−無声検出器で観測Ｊへき最小時間間隔は４０〜
５０　ｍ　ｓと一すペきＣ・ある。最小時間遅れはｉｏ
ｍｓどする必要があることからして、あらゆる実際のケ
ースを網ｉｌｌ”ｌるには６個（ｋ　＝６）の順次のレ
グメン１〜を観測覆れば充分である。

Ω一実施例の説明双手図面に−）き本発明を説明り−る。

第１図に流れ図を６って示１本発明ＩＬよる８−再分析
システムでは、リーンシリング速度が８ＫＩｌｚで、精
度が１２ピツｉ〜／ｌｊンプルのブロック１１に−（示
づアナ［］グーディジタル変換演幹部に対Ｊる入力とし
て１０にて示′？ｌ’　ｆ１７ｉｌ　ｉすｉ　ＩＪアノ
−ログ形態の音声信号を供給りる。ライン１２に現４つ
れるテ゛イシタル４ノ′ンプルをブロック１３にて表わ
すレグメン［ヘバツファ演Ｃ＋部に供給しｌ、２ｊ）６
個のリンプルに相当づ−る３２ｍｂのディジタル化した
音声のセグメントを蓄積する。。

本例（パはディジタル化した完全／、ｒ音声音声メグメ
ンが１０１１１　Ｓのインターバルでライン１４に現わ
れる。

１０　Ｉｌｌ　Ｓの各周期中に８０個の新規のリンプル
がブロック１３の演算部によってＡ槓され、８０個の最
古１ノンプルは放棄される。１丁記インターバルは１（
１ｍｓ以外の舶とすることができ、例えばボコーダにこ
のシスサムを用いるように約１０ｍｓ−３０ｍｓの範囲
内の飴と１−ることができる３゜ついＣ゛、成るレグメン１〜の２５６個のリーンプルを
ブ［１ツク１５にて表わ？Ｉ演痺部によるハミング窓に
よって逓倍ツる。ライン１６に現われる窓掛番プしＩこ
リンプルをつぎにブ１］ツク１７にて表わす個所に−Ｃ
ＩｉＩ１１敗的にフーリ］変換し、ここで各離散的スペ
クトル成分の絶対値をぞの実部および虚数部から求める
１゜ライン１８には１０　ｍ　ｓ　ｆＩｉに　１２８個のス
ペクトル強度（絶対値で）が順次用われ、これらのスペ
ク）〜ル成分をブ［１ツク１９に供給し、ここでは約２
００−。

８００　ｔｌｚの周波数範囲内にお（Ｊるスペクトル強
度のビーク仙を測定り−る。第１番目のレグメン１−に
対するビーク伯をＭ（＋）にて示し、このピーク伯のこ
とを上記周波数範囲における音声レグメン１〜−１１− のスペクｌ−ル強度とも称する１゜つぎに１０ｍ５のインターバルでライン２０に現われる
スペクトル強度Ｍ（１）をブロック２１および２２に（
示づ個所にて処理づる。

７’　ｒｌツク２１では最１４　ｔグメントを含む一連
のレグメンｌ−のスペク１〜ル強度が所定ファクター以
上のファクターで単調に増加するかどうかを測定Ｊる。

本例では６個のレグメン１−を考慮し、上記フン７クタ
ーを３どりる。まｌこ、ゾ［コック２１で゛はスペクｌ
−ル強度が適応（アダプティブ）しきい値を越づかどう
かも測定する。この適応しきい値は以前の発声期間にお
（プる最大スペクトル強度の所定数分の１どするか、ま
たは無発声音の期間に時間と」（に減少づる舶とする。

発声名を確実に識別覆る安全レベルとし１人ぎなしぎい
値を用いる。スペク１〜ル強度かこの値以上となる場合
にはセグメントが発声音として直接識別される。

ブ１：１ツク２１の条件が満たされる場合に、双安定指
示器２３がセラ１へされて、出力端子Ｑに発声音の期間
を指示づる。

＝　１２− ブロック２２ではスペク１〜ル強度が現時点の発声期間
における最大スペクトル強度の所定数分の１の限界値以
下に低下するか、または小さな一定しぎい値以下に低下
Ｊるかどうかを決定づる。これらの条件が満たされる場
合に双安定指示器２３はリヒッ１−されて反転出力端子
Ｑに無発声音の期間を指示づる。

第１図に基ずくプロセスでの所定の演綽操作は汎用ディ
ジタル］〉ピコータを適当にプログラミングすることに
よって満足させることができる。

ブロック２１Ｊ５よび２２の演幹を行なうためのコンビ
コータプログラムの流れ図を第２図に示す。このプログ
ラムの入力は連続音声セグメントのスペクトル強度を表
わす番号Ｍ（１）によって形成づる。

この流れ図におけるＩはレグメン１〜の番号を表わし、
Ａ］−は適応しきい値を、ＶＭは連続発声レグメン１〜
の最大強度を、Ｖ　ＩＪ　Ｖは出力パラメータをそれぞ
れ表わし、発声音に対してはＶＵＶ＝１どし、無発声音
に対しではＶＵＶ＝Ｏとする。、斯かる出力力パラメー
タは第１図につき前述した双安定指示器２３の状態にλ
１応する１゜なお、第２図の流れ図は敢え−（゛説明し
なくても容易に理解し得るものであるが、念のため、つ
ぎのＪ、うな：］メン１〜を下記に〒示する。

二ｌメン（・Ｃ１：特定強度Ｍが、ファクター３以十の
ファクターでルグメン１へ１．１−１、・・・Ｉ　−５にわたって単調に増加づるかどうかを決定する。

二コメントＣ２：Ｍ（１）が以前に設定した最大強度Ｖ
Ｍ（１−１）の所定数分の１　（１／８）よりも小さい場合に双安定指示器をリゼッ１〜（ＶＵＶ＝０）　′？Ｉる。

一］メン１−Ｃ３：　ＶＵＶ　（１’）の出力を前述し
た双安定指示器２３の状態に対応させる。

」メン１〜Ｃ４：適応しきい値ＡＴを決定する。

コメン１−Ｃ５：大レベルの一定しきい値の値を３０７
２に固定し、低レベルの一定しきい１直の値を１２８に固定Ｊる。

本発明にＪ：る音声分析システムは第３図に示す構成に
よるバードウＪ゛アて゛実施することかて゛きる。

このバードウェア（よ、Ａ／Ｄ変換器３０（第１図のブロック１１に対応）と、セグメン１〜バッファ３１（第１図のブロック１３）と
、窓逓倍（窓掛【ブ）機能を同時に行なう１）［Ｔプロセ
ッサ３２（第１図のブロック１５および１７）ど、マイクロ＝；ンピ」−夕３３（第１図のブロック１９．
２１および２２）と、双安定指示器３４（第１図のブロック２３）とを具えて
いる。

ブロック１９の機能、即ち一連の値のピーク値を決定す
る機能はコンピュータを適当にプログラミングすること
により実行することができる。なおこの場合における適
当なプログラムの流れ図は容　１５− 易にくふうすることがて゛さる。

【図面の簡単な説明】第１図は木ツを明による音声分析システムの順次の演砕
過程を示づ流れ図；第２図は第１図に基ずくプ【］Ｉ？スで所定の潤いを実
施するのに用いられるコンビコータプログラムの流れ図
；第３図は本発明による音声分析システムを実施覆る電子
装置の一例を示ずブ［］ツク線図である。１０・・・音声信号入力部　１１・・・Ａ／Ｄ変換演算
部１３・・・レグメン（ヘバッファ演算部１５・・・ハ
ミング窓掛（Ｊ演幹部１７・・・顛敗的ノーリエ変換演鋒部１９・・・スペクトル強度のピーク値測定演算部２１・
・・スペクトル強度の単調増加検出兼適応しぎい伯との
比較演算部２２・・・スペクトル強度の最低しきい値どの比較演算
部２３・・・双安定指示器　　３０・・・Ａ／Ｄ変換器３
１・・・レグメントバッファ１６− ３２・・・Ｄ　Ｆ　Ｔプ［１ゼツリ３３・・・マイク１コニ１ンビコータ３４・・・双安定指示器。特ｎ出願人　　　１ニヌ・べ−・フィリップス・フル−
イランペンフンノブリケン

Claims

【特許請求の範囲】１、　入力アナログ音声信号をディジタル音声信号に変
換する変換手段ど：前記ディジタル音声信号のセグメン
トを蓄積する蓄積手段と；各セグメントを順次のスペク
トル成分に転換する転換手段にあって、離散的フーリエ
変換を行なう手段を具え、これにより各々が順次のスペ
クトル成分から成る一連の振幅スペクトルを発生させる
転換手段；とを具えている音声分析システムに、有声音
の周期を指示すべくセットし得ると共に、無声音または
音声の不在周期を指示すべくリセットし得る双安定指示
器およびニー各セグメント（番号Ｉ）に対し、約２００〜８００　
Ｈｚの低周波帯域における該セグメントに関連する振幅
スペクトルのスペクトル成分の内のピーク値（Ｍ（１）
）を決定する工程と；一前記指示器がセットされる場合に、各セグメントおよ
び多数の以前のセグメントに対シテ、ｎ＝Ｉ、Ｉ−１＋
−１＋１−ｍで、■をセグメン１〜Ｉとｌ＋ｌ−ｍとの
間では指示器の状態に変化がないような値として、ピー
ク値Ｍ（ｎ）の最大値（ＶＭ　（”Ｉ　）　）を決定す
る工程と；一各セグメン１〜に対して、前記指示器がセラ１〜され
る場合に、適応しきい値ＡＴ（１）を最大値ＶＭＮ）の
何分の１かに等しくセットすることによって、および前
記指示器がリセットされる場合に、ＡＴ（＋＞をＡＴ（
Ｉ−１）の何分の１かに等しくセットすることによって
適応しきい値（ＡＴ（１））を決定する工程と； −ｋを予定数とする場合に、ｎ−１゜１−１、・　Ｉ＋１−にのピーク値Ｍ（ｎ）が、ｎの増
分値に対して所定ファクター以上のファクターで単調に
増加し、かつＭ（１）が適応しきい値ＡＴ（１−１）以上どなる場合
に双安定指示器をセットする工程と：ピーク値Ｍ（Ｉ）が最大値ＶＭＮ−１＞の所定数分の１
より小さくなるが、または予定したしきい値よりも小ざ
くなる場合に双安定指示器をリセッ１〜する二［程；と
を含む処理を実施１べくプログラムしたプログラマブル
の計算手段を設けたことを特徴とする音声分析システム
。２、特許請求の範囲１記載のシステムにおいて、該シス
テムが、ピーク値Ｍ（１）が相対的に高い一定しきい値以十とな
る場合に、双安定指示器をヒツトする工程と：ピーク値が相対的に低い一定のしきい値を越えない場合
に双安定指示器をりけットする工程とを含むことを特徴とする音声分析システム。 □