JPH0371719B2

JPH0371719B2 -

Info

Publication number: JPH0371719B2
Application number: JP59099114A
Authority: JP
Inventors: Tadaharu Kato; Takao Nishitani
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1984-05-17
Filing date: 1984-05-17
Publication date: 1991-11-14
Also published as: JPS60242499A

Description

【発明の詳細な説明】（産業上の利用分野）本発明は、音声信号の有無を判定する音声検出
方法及び回路に関する。（従来技術とその問題点）音声検出回路は主にDSI（Ｄigital Ｓpeech
Ｉnterpolationの略称である。）装置に組み込ま
れ、DSI装置への入力チヤンネルに音声信号が存
在するか否かを判定するために用いられる。尚、DSI装置に関しては、例えば1976年３月発
行の文献、コムサツトテクニカルレビユー
（COMSAT TECHNICAL REVIEW）誌vol.6，
No.１の第127〜158頁に掲載されているエス・ジエ
ー・キヤムパネラ（S.J.Campanella）による論
文、「デイジタルスピーチインターポレーシ
ヨン（Digital Speech Interpolation）」に詳述
されているので参照されたい。従来、ハードウエア規模が小さく検出論理が明
瞭である方法としてレベル検出法が知られている
が、この方法は入力信号の信号エネルギー（電力
及び振幅）を検出後、閾値と比較することにより
音声信号の有無を判定するものである。またレベ
ル検出法を用いた音声検出器の中で、入力信号の
振幅と予め定められた閾値とを比較する固定閾値
型音声検出器が、最もハードウエア規模が簡単で
かつ、確実な音声検出器として知られている。次に図面を参照しながら、この固定閾値型音声
検出器の原理を説明する。第１図は固定閾値型音声検出器の原理を示すブ
ロツク図であり、信号入力端子１、振幅閾値入力
端子２、振幅比較回路３、累積回路４、累積回路
への入力信号として＋１，−１を与える増加・減
少制御線５および６、音声検出用フリツプフロツ
プ７、音声検出用フリツプフロツプセツト・リセ
ツト制御線８および９、音声検出結果出力端子１
０からなつている。なお、この場合累積回路は可
逆カウンタ（アツプダウン・カウンタ）で置換で
きる。図において、端子１より入力される入力信号は
標本化周期ごとに振幅比較回路３において、端子
２より入力される予め定められた振幅閾値
（TH_a）と比較される。その結果、入力信号振幅
が振幅閾値よりも大きいと、累積回路増加制御線
５を使つて累積回路４の内容が１だけ増加され
る。また、逆に入力信号振幅が振幅閾値よりも小
さいと、累積回路減少制御線６を使つて累積回路
４の内容が１だけ減少される。但し、累積回路の
内容は負の値にならないようになつている。音声信号が到来し、振幅閾値を超える入力が多
くなると、累積回路の内容は順次増加する。もち
ろん、その間に振幅閾値以下の入力が加わると、
累積回路の内容は１だけ減少する。このようにし
て、累積回路の内容が予め設定された判定閾値
（TH_D）に達すると、音声検出用フリツプフロツ
プのセツト制御線８を使つて音声検出用フリツプ
フロツプ７がセツトされ、音声が検出されたこと
になり、端子１０よりその結果が出力される。また、音声が検出されなくなると、例えば、そ
れは累積回路４の内容が０になることで示される
が、その時、音声検出用フリツプフロツプ７は音
声検出用フリツプフロツプのリセツト制御線９を
使つてリセツトされ、端子１０よりその結果が出
力されるが、一般にはある一定時間の後にリセツ
トされる。これは、ハングオーバーと称され、通
話中の単語や句の間での切断に耳が敏感であるこ
とから設けられており、その時間長は100〜
250ms程度である。さらに理解を深めるために第１図で示される固
定閾値型音声検出器に第２図のａの１１で示され
る信号が入力した場合を例にとつて説明を加え
る。第２図では、入力信号１１、振幅閾値１２、累
積回路の内容１３、判定閾値１４および音声検出
結果出力１５を示している。まず、入力信号１１が端子１から入力される
と、標本化周期Tsごとに振幅比較回路３により
振幅閾値１２と比較される。第２図から判るよう
に時刻ta₁になつて始めて入力信号の振幅の方が
振幅閾値よりも大きくなるので累積回路の内容１
３は時刻ta₁で始めて１になり、（第２図ｂ）、以
後、時刻ta₂まで１ずつ増加されていく。その結
果、時刻tb₁になつて累積回路の内容１３が判定
閾値１４よりも大きくなるので、音声が検出され
たことになり、出力１５は１になる。ところで、
時刻ta₃になると、入力信号１１の振幅が振幅閾
値１２よりも小さくなるので、累積回路の内容１
３は１ずつ減少していき、時刻tb₂になり、判定
閾値１４よりも小さくなるので音声信号が無くな
つたと判定され前述の理由でハングオーバーが付
加されハングオーバー終了後、出力１５は０にな
る。第２図のｃにおけるT_Hがハングオーバー時
間を示している。以上説明してきた様な固定閾値型音声検出器で
は確かにハードウエア規模は簡単ではあるが、一
度閾値が設定されると閾値以上でありさえすれば
雑音でも検出してしまうという欠点があつた。（発明の目的）本発明の目的は、入力信号中に含まれる雑音の
レベル変動に対して良好な追従性を示す閾値を有
し、雑音による誤検出が少なく音声検出能力の向
上した可変閾値型音声検出器を提供することにあ
る。（発明の構成）本発明によれば、標本時刻毎に外部より与えら
れる入力信号と該入力信号の無音区間雑音レベル
に応じて変動する複数の振幅閾値との大小判定を
行ない、該大小判定結果に応じて予め定められた
複数個の数値の中から１つを選択して累積し、該
累積値と判定閾値とを比較することにより音声信
号の有無を判定する音声検出方法において、前記複数の振幅閾値のうち相隣り合う閾値の間
隔と無音区間の雑音の振幅分布とより前記複数個
の数値を決定し、無音区間における累積値の期待
値を零としたことを特徴とする音声検出方法が得
られる。また本発明によれば、音声信号（入力信号）が
入力され、後記判定手段の出力により指定された
無音区間における雑音の電力の平均振幅値を示す
値を計算し出力する雑音電力計算手段と、前記平
均振幅値のほぼ3/4倍の値を第１の閾値として、
前記平均振幅値のほぼ２倍の値を第２の閾値とし
て出力する閾値発生手段と、前記第１の閾値及び
第２の閾値と前記入力音声信号とを比較し、前記
入力音声信号が前記第２の閾値より大なる場合に
は＋３を出力し、前記入力音声信号が前記第１の
閾値より小なる場合には−１を出力し、それ以外
の場合には＋１を出力するレベル検出手段と、該
レベル検出手続の出力を累積する累積手段と、該
累積手段より供給される累積値とあらかじめ定め
られた第３の閾値とを比較することにより音声信
号の有無を判定する判定手段とを少なくとも含む
ことを特徴とする音声検出回路が得られる。（発明の原理）本発明では上述の構成により閾値を雑音のレベ
ル変動に追従させて変動させるとともに、無音区
間における累積回路への入力値の期待値を零とす
ることにより雑音の誤検出の低減及び音声検出能
力を向上させている。それは次の様に説明できる。無音区間における累積回路への入力値の期待値
が正であれば、累積値は正側の最大値になり、音
声検出器としてはもはや利用できない。また、無音区間における累積回路への入力値の
期待値が負であれば、累積値が負の最大値を取り
語頭切断を始めハングオーバー付加時の音声検出
能力が低下し、語中脱落や語尾欠落を起こしやす
い。それ故、無音区間における集積回路への入力値
の期待値を零とすることにより雑音による誤検出
及び語中脱落、語尾欠落が低減できることにな
る。（実施例）本発明を図面を参照しながら詳細に説明する。
第３図は、本発明の一実施例であり入力端子２
０、偶数ビツト反転回路２１、符号変換回路２
２、整流回路２３、電力計算回路２４、第１の閾
値発生回路２５、レベル検出回路２６、累積回路
２７、比較回路２８、第２の閾値発生回路２９、
ハングオーバー付加回路３０及び出力端子３１か
ら構成されている。例えば、国際電信電話諮問委員会、（CCITT；
Ｃomite´ Ｃonsultatif Ｉnternational Ｔ
e´le´graphaique et Ｔe´le´phonique）からの勧
告
案G.711に基づき非線形符号化され、８ビツトの
Ａ−Law符号（オレンジブツクVol.−２，
pp409〜410参照のこと。）となつた入力信号が入
力端子２０から入力する場合を例にとつて説明を
加える。通常、電話回線を伝送されるＡ−Law
符号信号はMSB（Ｍost Ｓignificant Ｂitの略
称である。）側からみて、偶数ビツト目が反転さ
れているので、偶数ビツト反転回路２１により入
力信号は偶数ビツトが反転され伝送される前のも
との信号に戻される。もとに戻つたＡ−Law符
号信号は符号変換回路２２で、第４図で示すよう
に、正のＡ−Law符号信号に対してはMSBだけ、
負のＡ−Law符号信号に対しては全ビツト反転
され８ビツトのTwo′s complement符号信号に
変換され、整流回路２３へ入力される。整流回路
２３では、この入力信号を絶対値信号（大きさの
みを表わす信号）に変換し、一方は電力計算回路
２４へ、もう一方はレベル検出回路２６へ送り出
す。電力計算回路２４では、入力信号に含まれる雑
音を取り出し、雑音の実効値を計算する。具体的には、音声が検出されない時（例えば、
後述する比較回路２８の出力が０の時）はすべて
の入力信号を雑音とみなすとともに、音声が検出
された時（例えば後述する比較回路２８の出力が
１の時）であつても予め定められたレベル以下の
信号は雑音であるとみなし、この雑音を低域通過
フイルタに入力することにより雑音の実効値を計
算し、その結果を第１の閾値発生回路２５に送出
する。従つて、雑音の実効値を計算する際に除外
される音声信号とは、後述の比較回路の出力が１
でありかつ、予め定められたレベル以上の信号レ
ベルを有する信号である。第１の閾値発生回路２
５では、電力計算回路２４からの出力を3/4倍す
ることにより、レベル検出回路２６で使用される
第１の閾値（TH1）をまた電力計算算回路から
の出力を２倍することにより、第２の閾値
（TH2）とを設定し、レベル検出回路２６へ送出
する。レベル検出回路２６では、整流回路２３の出力
と、第１閾値発生回路２５より送出される第１の
閾値及び第２の閾値とを比較し、整流回路の出力
が第２の閾値より大きい場合には入力信号が音声
信号である確率が高いので＋３、第１の閾値と第
２の閾値との間に位置する場合には入力信号が音
声信号である確率と雑音である確率とがほぼ等し
いかあるいは前者が少し高い程度であるので＋
１、第１の閾値より小さい場合には入力信号が雑
音である確率が高いので−１を出力する。累積回
路２７ではレベル検出回路２６の出力を累積して
おりその累積値を比較回路２８へ送出する。比較
回路２８では、後述する第２の閾値発生回路２９
から出力される第３の閾値（TH3）と前記累積
値とを比較し、後者が前者よりも大きい場合には
入力信号が音声信号であると判定し、＋１を、ま
た、前者が後者よりも大きい場合には入力信号は
雑音であると判定し、０を出力する。第２の閾値
発生回路２９では、前記比較回路２８で使用され
る音声信号判定用の第３の閾値（TH3）として、
レベルの異なる閾値を２つ用意しておき、後述す
るハングオーバー付加回路３０の出力が０の場合
には高いレベルの第３の閾値（TH3H）を発生
し、また、後述するハングオーバー付加回路３０
の出力が１の場合には低いレベルの第３の閾値
（TH3L）を発生し前記比較回路２８へ送出する。ハングオーバー付加回路３０では、前記比較回
路２８の出力を入力し、該入力信号が１の時には
音声信号が検出されたとして１を出力端子３１を
介して外部に出力するとともに、前記比較回路２
８の出力が１から０に変化する時点で、予め定め
られた時間だけ出力端子３１より出力する外部出
力を１に保持することによりハングオーバーを付
加している。もちろん、前記比較回路２８の出力
が０である時は音声信号が検出されなかつたとし
て出力端子３１を介して０が外部に出力されてい
る。第３図における電力計算回路２４としては第５
図の回路が使用でき、絶対値信号入力端子５０、
雑音判定レベル入力端子５１、比較回路出力信号
入力端子５２、比較器５３、論理和回路５４、乗
算器５５，５６，５７、被乗数入力端子５９，６
０，６１，６２、被乗数選択器６４、加算器６
５、リミツター６６，６７、メモリー６８、出力
端子６９から構成されている。絶対値入力信号は
入力端子５０り入力され、一方は乗算器５５へ、
もう一方は比較器５３へ送られる。比較器５３で
は、前記入力信号と入力端子５１より入力される
雑音判定レベルと比較され、前者が後者よりも大
きい場合に０、小さい場合に＋１を出力し、論理
和回路５４では、比較器５３の出力信号と、比較
回路２８からの出力信号を反転した信号との論理
和がとられ、少なくともどちらか一方が＋１のと
きに＋１が出力され、乗算器５６の制御信号及び
被乗数選択器６４の選択制御信号となる。前記被
乗数選択器６４では、前記選択制御信号が＋１の
時には被乗数入力端子５９より入力される被乗数
が選択され、また、０の時には被乗数入力端子６
０より入力される被乗数（現在は０を用いてい
る。）が選択され乗算器５５の被乗数となる。また、乗算器５５では、絶対値入力信号と前述
のようにして選択された被乗数との積がとられ加
算器６５へ送られる。一方、乗算器５６では被乗
数入力端子６１より入力される被乗数とメモリー
６８の内容との積がとられ加算器６５へ送られ
る。但し、論理和回路５４の出力が０の時はこの乗
算は行なわずメモリー６８の内容がそのまま出力
される。そして、加算器６５で前述の乗算器５５
の出力と乗算器５６の出力との加算が行なわれそ
の結果がリミツター６６を介してメモリー６８に
備えられる。また、それと同時にリミツター６６
の出力は乗算器５７により、被乗数入力端子６２
より入力される被乗数との積がとられ、リミツタ
ー６７を介して実効値（σ）として、出力端子６
９より出力される。ここで、リミツタ６６，６７を用いているのは
メモリー６８の内容及び閾値（TH1）の可変領
域を制限することにより閾値調整速度を敏速にか
つ、音声検出器の受信感度および感動レベル範囲
を制限し雑音に対する免疫性を保証するためであ
る。尚、電力計算回路２４は前述の様に絶対値信号
を一次の低域通過フイルタに通すことにより、雑
音のレベルを算出していたが、それは振幅分布が
Gauss分布であり分散がσ²である雑音をその絶対
値をとつて一次の低域通過フイルタに通して得ら
れる電力Ｐが次式で表す様に近似的に標準偏差
（実効値とも云いσで表わす。）に比例した値とな
るためである。ここで【式】ゆえに(1)式は次のようになる。従つて、前記処理を施す事により、一次の低域
通過フイルタの出力で雑音の標準偏差σにほぼ比
例した値が得られることがわかる。また、第３図における第１の閾値発生回路２５
としては、第６図の回路が使用でき、入力端子７
０、乗算器７１，７２、被乗算入力端子７３，７
４、第２の閾値出力端子７５および第２の閾値出
力端子７６から構成されている。前述の電力計算回路２４から出力される雑音の
実効値（σ）が入力端子７０より入力され、一方
は乗算器７１へ、もう一方は乗算器７２へ送られ
る。乗算器７１では被乗数入力端子７３より入力
される被乗数（3/4）との積がとられ第１の閾値
として出力端子７５より出力される。また、乗算
７２では被乗数入力端子７４より入力される被乗
数２との積がとられ第２の閾値として入力端子７
６より出力される。第３図の如く、第２の閾値発生回路を設け、比
較回路２８で使用される第３の閾値（TH3）を
２個用意し、ハングオーバー付加回路３０の出力
を選択信号とし、該選択信号が１の時には低いレ
ベルの第３の閾値（TH3L）を、０の時には高い
レベルの第３の閾値（TH3H）を選択し使用し
ているがこれは比較回路２８の出力にヒステリシ
スを設けることにより音声検出器の過剰なON−
OFFを避けるためである。またこうすることにより、有音区間における音
声検出能力が向上するので語中脱落や語尾欠落が
低減する。また、本発明では、第１の閾値（TH1）を雑
音の実効値（σ）の3/4倍に設定し、第２の閾値
（TH2）を雑音の実効値（σ）の２倍に設定して
いるので、第７図の様に横軸に振幅、縦軸に確率
密度をとつて雑音の振幅分布を示せば雑音の振幅
の振幅値がTH2以下である確率が95％となり、
TH1以下である確率が55％となる。また、レベル検出回路２６では、入力信号が
TH2より大きい場合には＋３を、TH2より小さ
くTH1より大きい場合には＋１を、またTH1よ
り小さい場合には−１をそれぞれ出力している。従つて本発明による音声検出器では、無音区間
における累積回路への入力値の期待値は次式によ
つて計算される。 En＝３×0.05＋１×（0.95−0.55）＋（−１）×
0.55＝０無音区間における累積回路への入力値の期待値
が零であるので、第１及び第２の閾値とレベル検
出回路の出力の設定に関しては、ひとつの最適解
が得られている。さらに入力信号と閾値及び累積値との関係を中
心に説明を加える。いま、音声検出器に第８図ａの波形８０で示す
音声信号が入力された場合を考える。但し、入力
信号に含まれる雑音レベルが一定であり、第８図
ａで示す波形８１が第１の閾値発生回路２５より
出力される第２の閾値（TH2）を示し、波形８
２が第１の閾値発生回路２５より出力される第１
の閾値（TH1）を示し、Tsが標本化周期を示し
ているものとする。入力信号は端子２０より入力され偶数ビツト反
転回路２１符号変換回路２２、整流回路２３を通
り、絶対値信号となつてレベル検出回路２６に入
力される。レベル検出回路２６では絶対値信号となつた入
力信号（第８図の波形８０を整流した波形）と第
８図の波形８２で示す第１の閾値（TH1）と第
８図ａの波形８１で示す第２の閾値（TH2）と
を比較し、入力信号がTH1より小さければ−１
を、TH1より大きくTH2より小さければ＋１を、
また、TH2より大きければ＋３をそれぞれ出力
する。それ故、累積回路２７における累積値は第８図
ｂで示す波形８３の様になる。但し、累積値の上
限及び下限が規定されているものとする。そこで、第２の閾値発生回路２９より出力され
る第３の閾値（TH3）が第８図ｂで示す波形８
４であれば、時刻T₁で波形８３で示す累積値が
波形８４で示す第３の閾値（TH3H）よりも大
きくなるので音声が検出されたことにより、比較
回路２８の出力は第８図ｃで示す波形８５の様に
１になる。そして、音声信号が終了し、雑音だけになると
第８図ｂの波形８３で示す累積値が除々に小さく
なりやがて第８図ｂの波形８４で示す第３の閾値
（１度検出されているのでこの場合はTH3Lにな
つている）よりも小さくなる。それ故、比較回路
２８の出力は０になり音声信号が終了したことを
知らせるが、音声検出器の外部出力（判定回路３
２の出力）は比較回路２８の出力が０になつても
すぐには０にはならず、予め定められた時間だけ
１の状態が保持された後に０に戻る。すなわちハ
ングオーバーが付加される。以上の説明では、振幅閾値として２つの閾値
（第１の閾値と第２の閾値）を用いた場合を例に
とつて説明したきたが、振幅閾値として３つ以上
の閾値を用いて無音区間における累積回路への入
力値の期待値を零としても同様の効果が得られ本
発明に含まれる。例えば、振幅閾値として３つの閾値を用いた場
合では第９図の様に、第１の閾値（TH1）を雑
音の実効値（σ）の3/4倍に、第２の閾値
（TH2）を雑音の実効値（σ）の10/4倍に、第３
の閾値（TH3）を雑音の実効値（σ）の３倍に
設定し、レベル検出回路２６の出力を、TH3よ
り大きい場合には、＋８を、TH3より小さくTH2
より大きい場合には＋３を、TH2より小さく
TH1より大きい場合には＋１を、またTH1より
小さい場合には−１をそれぞれ割り当てれば次式
で示す様に、無音区間における累積回路への入力
値の期待値が零となる。Ｅ＝８×0.01＋３×（0.99−0.975）＋１ ×（0.975−0.55）−0.55＝０さらに、振幅閾値として３つ以上の閾値を用い
ても、累積回路への入力値の期待値が零となるよ
うに振幅閾値及びレベル検出回路の出力を設定す
ることができるので、本発明の効果と同じ効果が
得られるので、本発明に含まれる。＜発明の効果＞以上の様に本発明に従えばPCM符号で信号処
理を行なつていることにより、ハードウエア規模
が増大しないこと、雑音信号レベルに応じた閾値
が得られ、擬似信号に対して免疫性が強いこと、
及び該閾値の最大値、最小値を規定することによ
り受信感度や感動レベル範囲を任意に設定できる
こと、及び、累積回路への入力値の期待値を零と
することにより語頭切断、語中脱落及び語尾欠落
が減少する等の利点がある。

【図面の簡単な説明】

第１図は従来の音声検出器を示すブロツク図、
第２図は第１図の各部の波形を示す図、第３図は
本発明の音声検出器を示すブロツク図、第４図は
符号変換法を示す図、第５図は第３図の１部を示
す図、第６図は第３図の１部を示す図、第７図は
本発明の音声検出器の１部の出力と雑音の振幅分
布との関係を示す図、第８図は本発明の動作説明
を行なう図、第９図は本発明の１部の関係を示す
図であり、第３図において、２０は入力端子、２１は偶数
ビツト反転回路、２２は符号変換回路、２３は整
流回路、２４は電力計算回路、２５は第１の閾値
発生回路、２６はレベル検出回路、２７は累積回
路、２８は比較回路、２９は第２の閾値発生回
路、３０はハングオーバー付加回路、３１は出力
端子である。

Claims

【特許請求の範囲】１標本時刻毎に外部より与えられる入力信号と
該入力信号の無音区間雑音レベルに応じて変動す
る複数の振幅閾値との大小判定を行ない、該大小
判定結果に応じて予め定められた複数個の数値の
中から１つを選択して累積し、該累積値と判定閾
値とを比較することにより音声信号の有無を判定
する音声検出方法において、前記複数の振幅閾値のうち相隣り合う閾値の間
隔と無音区間の雑音の振幅分布とより前記複数個
の数値を選択し、無音区間における累積値の期待
値を零としたことを特徴とする音声検出方法。２音声信号（入力信号）が入力され、後記判定
手段の出力により指定された無音声間における雑
音の電力の平均振幅値を示す値を計算し出力する
雑音電力計算手段と、前記平均振幅値のほぼ3/4
倍の値を第１の閾値として、前記平均振幅値のほ
ぼ２倍の値を第２の閾値として出力する閾値発生
手段と、前記第１の閾値及び第２の閾値と前記入
力音声信号とを比較し、前記入力音声信号が前記
第２の閾値より大なる場合には＋３を出力し、前
記入力音声信号が前記第１の閾値より小なる場合
には−１を出力し、それ以外の場合には＋１を出
力するレベル検出手段と、該レベル検出手続の出
力を累積する累積手段と、該累積手段より供給さ
れる累積値とあらかじめ定められた第３の閾値と
を比較することにより音声信号の有無を判定する
判定手段とを少なくとも含むことを特徴とする音
声検出回路。