JPS603240A

JPS603240A - 音声活動検出方法

Info

Publication number: JPS603240A
Application number: JP59047325A
Authority: JP
Inventors: アンドレ・デプラツシユ; クロ−ド・ギヤラン; ロベ−ル・ベルモ−ゴ−シイ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1983-06-07
Filing date: 1984-03-14
Publication date: 1985-01-09
Also published as: DE3370423D1; CA1231473A; EP0127718A1; EP0127718B1; JPH0226901B2; US4672669A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の技術的分野〕本発明は音声のディジタル伝送、更に詳細に説明すれば
、音声信号を効率的に処理してチャンネル帯域幅の効果
的な使用を可能にする装置に係る。

〔先行技術の説明〕

伝送チャンネルの費用は比較的高いので、多数の電話使
用者のトラヒックを同一チャンネルに集信化するように
音声の特徴を利用することが望ましい。

電話で会話をしている間、各々の電話加入者が話す時間
は、その電話が接続している時間の半分よりも少ない。

残りの遊休時間は、聴取、語と音節の間の合い間、およ
び休止に残りの時間が当てられる。この遊休時間を利用
する多くのシステムが既に提案されている。例えば、Ｔ
ＡＳＩシステム（Ｊ　、　Ｃａｍｐａｎｅｌｌａ１’　
Ｄ　１ｇ１ｔａｌＴＡｓＩ　“、Ｃｏｍｓａｔ　Ｔ　ｅ
ｃｈｎｉｃａｌ　Ｒｅｖｕｅ　ｏｆ１９７５参照）では
、全体のチャンネル容量の２倍まで、追加の使用者が同
一チャンネルに割当てられる。これらのシステムが、所
与の使用者の非活動を検出して別の使用者にチャンネル
を割当てることができる装置を必要とすることは明らか
である。あいに（、音声活動を決定することは簡単　−
なことではない。一般に、所与の話し手の音声活動を検
出する方法は、短期間の音声信号エネルギを測定するこ
とに基づく。そして測定されたエネルギは、所定のしき
い値レベルと比較される。もし測定されたエネルギがし
きい値を越えれば、音声が存在すると判断され、さもな
ければ、その期間は遊休と判断される。すなわち、この
期間中、該当する話し手は沈黙していると見なされる。

このような方法にはしきい値の決定に関する問題が存在
するが、その理由は個々の話し手がふつう互いに異なる
レベルで話すという点、および伝送線路ごとに損失が異
なるという点にある。しきい値の設定が高すぎると、音
声信号はクリップされ、受信された音声信号はいくらか
品質が劣るようになる。しきい値が低いと、ＴＡＳＩシ
ステムの効率が低下することは明白である。更に、音声
信号から弁別すべき雑音の存在も考慮しなげればならな
い。

〔発明の概要〕

本発明の目的は、すぐれた音声活動の検出方法を提供す
ることである。

本発明の他の目的は、高レベルの背景雑音のなかで低レ
ベルの音声活動を検出する装置を提供することである。

音声信号を伝送し、各音声信号のサンプリングおよびコ
ード化を行なって該音声信号からサンプル・ブロックお
よび各プロ、ツクの短期間電カスベクトル特性を取出す
ようにした伝送システムにおいて、エネルギを表わす情
報を各々のサンプル・ブロックから取出して所定のしき
い値と比較し、それに従って前記しきい値を調整する昔
時活動検出方法が提案されている。そして、調整された
しき（・値に関するエネルギ情報の相対的大きさに基づ
いて、アクティブな決定または曖昧な決定が行なわれ、
曖昧さは、もしあるならば、短期間電カスベクトル特性
の変動の大きさの分析によって解決される。

〔詳細な説明〕

第１図にはＴＡＳ　Ｉ型のシステムのブロック図が示さ
れている。Ｐ使用者、すなわち音声ターミナル・ソース
は、ポート（ポート１、ポート２、・・・、ポートＰ）
に接続されたコーグ（コーグ１、コーグ２、・・・、コ
ーグＰ）を介して個々の入力チャンネルにそれぞれ接続
されている。各コーグは、使用者からポートを介して供
給されたアナログ音声信号をディジタル・データへ変換
するだめのものである。そしてディジタル・データは、
単一の出力チャンネルＬに集信化され、離れた受信場所
（図示せず）に送られ、それぞれが割当てられている指
定されたターミナル（図示せず）に再配分される。集信
動作は、時分割マルチプレクサ（ＴＤＭ−ＭＰＸ）１０
によって実行される。

ふつうのＴＤＭ条件の下では、Ｐソースによって与えら
れた全ビット数７秒が出力線路の伝送能力（速度）に釣
合つ」＝つに、使用者の数が選択される。しかし、この
ような配列は、ＴＡＳニジステムが利用しているような
、いくつかの音声の特性、例えば沈黙を十分に利用して
いない。ＴＡＳ　Ｉの動作の場合、システムに接続され
た使用者の数Ｐは、通常のマルチプレックス・システム
における使用者の数よりも、意図的に多くしである。換
言すれば、一定の瞬間にすべての使用者が通話中である
ものとすると、マルチプレクサ、更に詳細に説明すれば
出力線路は、その結果生じたデータのトラヒックを、前
述の沈黙または他の非活動を考慮せずには処理すること
が、できない。これが、各々のコーグの出力に音声活動
検出器（ＶＡＤ）１２を接続する理由である。音声活動
検出器１２は接続的にコーグの出力を走査するように構
成されており、アクティブとみなしうるコーグを検出し
て、それらの出力をゲートＧ１、Ｇ２、・・・、ＧＰ”
＜介して時分割マルチプレクサ１０に送る。

また、音声活動検出器１２はマルチプレクサ１０に対し
アクティブなコーグ・アドレス標識を供給する。この標
識はマルチプレックスされたメツセージのなかに挿入さ
れ、各々のタイム・フレームごとに出力線路を介して伝
送される。音声活動検出器１２にプリセットされたしき
い値レベルよりも出力レベルが高いときはいつも、音声
ターミナルはアクティブとみなされる。

ここでは、しきい値を話し手の環境条件に適切に調整す
るだけではなく、コーグの特性を十分に利用することも
できる音声活動検出器が提案されている。既に述べたよ
うに、音声活動検出にはエネルギの測定を必要とする。

提案された音声活動検出器は、エネルギ測定動作を遂行
するために、コーダ内で既に使用可能なデータを用いて
高い費用対性能費を実現する。これは、全極（ａｌｌ−
ｐｏｌｅ）フィルタによる線形音声期間（１ｉｎｅａｒ
　ｖｏｃａｌｔｒａｃｔ　）のモデリングを仮定する線
形予測理論に基づいた多数のコーグに尚てはまる。この
問題については、Ｊ　、ＭＡＲＫＥＬ　ｅ−ｔ　ａｌ、
！”　Ｌ　１ｎｅａｒＰｒｅｄｉｃｔｉｏｎ　ｏｆ　５
ｐｅｅｃｈ″１、ＳｐｒｌｎｇｅｒＶｅｒｌａｇ、Ｎｅ
ｗ　Ｙｏｒｋ、１９７６にお℃１て論及されている。

前記モデリングは、ディジタル音声圧縮システムの広範
囲、ずなわち適応予測コーグ（ＡＰＣ）、音声励振予測
コーグ（ＶＥＰＣ）、線形予測ボコーダ（ＬＰＧ）に、
当てはまる。これらのコーグについては下記の刊行物を
参照された（・：Ｂ、Ｓ、ＡＴＡＬ　ｅｔ　ａｌ、’Ａ
ｄａｐｔｉｖｅ　ＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ　
ｏｆ　５ｐｅｅｃｈ　Ｓｉｇｎａｌｓ′Ｎ、Ｂｅ１ｌＳ
ｙｓｔ、Ｔｅｃｈ、Ｊｏｕｒｎａｌ、Ｖｏｌ、４９．０
ｃｔｏｂｅｒ１９７０、ＰＰ１９７３Ｌ−１９８６１）、ＥＳＴＥＢＡＮ、ｅｔ　ａｌ、’　９．６／７．
２ＫｂｐｓＶｏｉｃｅ　Ｅｘｃｉｔｅｄ　Ｐｒ・ｅｄｉ
ｃｔｉｖｅ　Ｃｏｄｅｒ（ＶＥＰＣ）“、Ｉ　ＥＥＥＩ
　ＣＡＳ　Ｓ　Ｐ、　Ｔｕｌｓａ。

Ａｐｒｉｌ　１９７Ｂ（Ｋｂｐｓはキロビット／秒を表
わす）Ｊ、Ｄ、ＭＡＲＫＥＬ　ｅｔ　ａｌ、’　Ａ　Ｌｉｎｅ
ａｒＰｒｅｄｉｃｔｉｏｎ　Ｖｏｃｏｄｅｒ　Ｓｉｍｕ
ｌａｔｉｏｎＢａｓｅｄ　ｏｎ　ｔｈｅ　Ａｕｔｏｃｏ
ｒｒｅｌａｔｉｏｎ　Ｍｅｔｈｏｄ　″、ＩＥＥＥ　Ｔ
ｒａｎｓ、ｏｎ　Ａｃｏｕｓｔ、）Ｓｐｅｅｃｈａｎｄ
　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ、Ｖｏｌ、ＡＳ
ＳＰ　−２２、Ｎ００２、Ａｐｒｉｌ　１９７４、ＰＰ
１２４−１３４ＡＰＣコーダでは、音声信号は最適の予
測器によって逆フィルタされて、いわゆる励振信号を生
じる。この信号は量子化され、伝送されて、合成場所に
おいて全極フィルタを励振するために使用される。逆フ
ィルタおよび全極フィルタの特性はどちらも音声信号特
性から取出される。

第２図には、ＡＰＣコーダの基本的な素子を要約したブ
ロック図が示されている。Ｎサンプルのブロック（ＢＣ
ＰＣＭすなわちブロック圧縮されたＰＣＭ技術を参照さ
れたい）によって供給された音声信号サンプルｘ　（ｎ
）は、予測器１のフィルタに供給され、その係数Ｋ　（
ｉ）は係数装置２で音声信号分析から取出される。そし
て、励振（残留）信号は参照数字３の箇所で取出され、
コーグ４でＥＸ信号にコード化される。このように、最
終的に音声信号はＫ（１）およびＥＸ／コード化情報に
変換される。

ＶＥＰＣコーダコー、原始励振信号の最も低い周波数バ
ンド、ずなわちベースバンドＢＢ（例えば、０〜１ＫＨ
ｚ）だけを考慮することによって、励振信号が近似され
る。ＶＥＰＣコーダコー能を要約するブロック図が第６
図に示されている。最終的にベースバンドはＢＢ？−ダ
５でコード化されるが、上位バンド合成、例えば１〜３
ＫＨｚはそのエネルギによって表わされるという点に、
ＡＰＣコーコーの差異がある。

上位バンド成分は、必要に応じて（すなわち図示しない
受信ステーションで）、非線形歪、高域フィルタおよび
エネルギ整合によって合成される。

また、ＶＥＰＣコーディングの詳細は米国特許第４２１
６３５４号に開示されている。

Ｌ　Ｐ　、Ｃコーグのブロック図は第４図に示されてい
る。この場合、励振信号を表わすものとして、Ｖ／ＵＶ
６における有声／無声の判断（１ビツト）、ピッチ手段
７でコード化されたピッチ期間表示（例工ば、５ビツト
）およびエネルギ手段８でコード化されたエネルギ表示
（例えば、４ビツト）が生ぜられ、る。

ＬＰＣデコーダで、かつ合成（図示せず）のため、有声
信号の場合にはピンチ周波数のパルス列によ−って、ま
たは無声信号の場合には白色雑音によって励振が近似さ
れる。

前述の３つの技術に基づいたコーグの分析部分の共通ブ
ロック図が第５図に示されている。入力音声信号はＮサ
ンプルｘ　（ｎ）のブロックによって分析される。但し
、各々のブロック内で信号が静止しているものと仮定す
る。分析器の上部の経路には、自己相関関数決定装置Ｄ
ＡＦ　１４が含まれ、この装置によって、自己相関係数
に基づし・たスペクトル情報Ｒ（ｉ）が入力信号から抽
出される。そして、このスペクトル情報は、予測係数Ｋ
（１）を決定するため予測係数決定装置Ｄ　Ｐ　Ｃ１’
６で処理され、この係数は対応する受信装置に伝送され
て合成のために用いられる。ＤＡＦ１４およびＤＰＣ１
６は、最後には第２図乃至第４図の係数装置２に含まれ
る。更に、Ｒ（］）からＫ　（ｉｌへの変換、またはそ
の逆の変換のアルゴリズムは公知技術である。第５図の
下部の部分では、励振データＥＸの抽出カー励振データ
抽出装置ＥＥＰ　１８で実行される。コーグのタイプに
よって励振データＥＸの内容（ま異なる。適応予報コー
グ（ＡＰＣ）を使用する場合、ＥＸパラメータはコード
化された励振信号を含む。

線形予測ボコーダ（ＬＰＣ）につ（・てＧま、ＥＸ）く
ラメータは、ピッチ期間表示、有声／無声決定表示オ６
よびブロック・エネルギ表示を含む。音声励起子」リコ
ーダ（ＶＦＪＰＣ）では、ＥＸノくラメータは、前記米
国特許第３２１６３５４号に開示されり、符号化された
ベースノくンド信号および高周波エネルギ表示を含む。

前記６つの技術、すなわちＡＰＣｌＬＰＣおよびＶ　Ｅ
　ｉ）　Ｃに共通する合成装置のブロック図が第６図に
示されている。受信されたＥＸノくラメータは励４Ｂ信
号発生装置ＧＥＳ２０で励振信号を発生ずるのに用いら
れる。この励振信号はモデルのディジタル・フィルタ（
以下、フィルタ２２という）を励振するのに用いられ、
該フィルタの係数は受取った予測係数Ｋ　（ｉｌによっ
て調整される。再構成された音声サンプル？（ｎｌはフ
ィルタ２２によって供給される。

前述のコーグは、最初に６４　Ｋ　ｂｐｓ（ＣＣＩ　Ｔ
ＴＰＣＭ）でコード化された音声信号を２，４Ｋｂｐｓ
乃至３２Ｋｂｐｓに圧縮するのに用いることができる。

その結果生じる品質は、合成品質（２，４−Ｋｂｐｓ）
から通信品質（１６ＫｂｐＳ）および市外品質（１６Ｋ
ｂｐｓ）の範囲にわたる。前述の説明を十分に理解する
には、Ｊ、Ｌ、ＦＬＡＮＡＧＡＮ、Ｍ、Ｒ。

５ＣＨＲＯＥＤＥＲｅｔ　ａ１１’　Ｓ　ｐｅｅｃｈ　
Ｃｏｄｉｎｇ“、ＩＥＥＥ　Ｔｒａｎｓ、ｏｎ　Ｃｏｍ
ｍｕｎｉｃａｔｉｏｎｓ、Ｖｏｌ。

Ｃ０Ｍ−２７、Ｎｏ４、Ａｐｒｉ１１９７９、ＰＰ７１
０〜７６７を参照されたい。前記のような圧縮はより効
率的な通信チャンネルの使用を可能にする。ＴＡＳ■技
術の使用は、余分の費用を掛けずに前述の効率を大体２
倍にするものであり、それはこのすぐれた音声活動検出
方法を使用する場合、特に当てはまる。

もちろん、各音声コーグ（第１図のコーグ１、・・・、
コーグＰ参照）の出力において活動を決定することは、
Ｎ入力の音声サンプルのブロックごとに、信号エネルギ
を評価すること、およびこのエネルギと活動しきい値の
比較することに基づ見・て℃・る。

通常の環境に存在しつる背景雑音の特性も、前記雑音の
電カスベクトルを連続評価することによって考慮される
。

更に、本明細書で提案された方法は、線形予測に基づい
た音声コーグに関連してこれまで要求されてきた処理作
業負荷を、かなり低い状態に保つ。

事実、サンプルのブロックにおける信号の短期間の電カ
スベクトルは、この信号の自己相関関数に直接関係して
おり、そしてこの信号のエネルギはブロック内の最大の
サン６プルの大きさによってよく近似される。これらの
情報はコーダ内で既に使用可能である。これらの情報の
うち１つは予測係数の計算に既に使用され、他は固定小
数点形式の実施形態における中間信号のスケーリングに
使用される。例えば、ブロック圧縮ＰＣＭ技術によって
動作するコーグでは、既に使用可能な特性項（Ｃ）また
はスケーリング係数は、゛゛ブロツク内最大のサンプル
の大きさに、直接関係する。換言すれば、ｎ　＝　１．
２、・・・、ＮのＮサンプルｘ（ｎ）のブロックが与え
られると、最大サンプルの大きさＸＭＡＸは通常は音声
活動検出要求と無関係にコーダ内で、決定される。

Ｃ−ＸＭＡＸ＝ＭＡＸ（ｌ　ｘ（ｎ）ｌ　）実際には、
Ｃ係数は自己相関係数の決定を実行する前に入力信号を
正規化するのに用いられ、か（てＣ係数は音声活動の決
定と関係なくコーダ内で既に使用可能である。

各々のサンプル・ブロックの持続期間（例えば、２０ｍ
５）について、そして測定された各々のＸＭＡＸ値に基
づいて、音声活動検出（ＶＡＤ）動作が次の原理により
実行される。もしＸＭＡＸが所定のしきい値レベルより
も小さければ、しきい値はＸＭＡＸに迅速に調整されな
げればならない。さもなければ、′シきい値の調整は信
号サンプルの１つのブロックから次のブロックに前進的
に行なわれる。このしき（・値の調整はエネルギ・レベ
ルを増加する背景雑音の追跡を容易にする。

２番目の原理は、現在のしきい値に関するＸＭＡＸの測
定に基づ（ものである。もしＸＭＡＸがしきい値よりも
かなり大きければ（ＸＭＡＸ）’Ｋ。

Ｋ＞１）、処理されているサンプルφブロックは音声信
号から取出されているとみなされる、すなわち対応する
チャンネルは「アクティブ」とみなされる。さもなけれ
ば、解決すべき曖昧さがまだ残っている。

ＸＭＡＸＯ代りに、ブロック・エネルギを表わず情報Ｘ
Ｍを考慮することがある。

曖昧さの解決は２つの仮定に基づ（。最初に、もし、現
在処理されているサンプルのブロックと、考慮されたチ
ャンネルによって与えられた「アクティブ」なブロック
との間の時間遅延が、所与のハングオーバ遅延よりも小
さければ、このブロックは、「アクティブ」なブロック
であるものとして分類される（すなわちアクティブ・チ
ャンネルによって供給される）。さもなければ、システ
ムは、信号のスペクトル分析に基づいた追加の検査に依
存する。換言すれば、システムは、この信号の関数（Ｒ
（ｉ））に直接関連するサンプル・ブロックにある信号
の短期間の電カスベクトルに依存する。Ｒ（ｉ）関数の
変動がかなり太きいものとすると、°ブロックは「アク
ティブ」とみなされ、さもなければ、ブロックは「非ア
クティブ」、すなわち沈黙に等しいとみなされる。

ハングオーバ遅延の考慮は、短かい音節間の沈黙（例え
ば、０１〜１秒）をブリッジするのを助けるが、音声活
動をそれほど増加させない（５チよりも少ない）。この
ハングオーバは、起こりうる音節間の不快なりリッピン
グの回避を可能にする。

スペクトル変動の分析と組合わされたしきい値調整は、
大きな定常的背景雑音の除去を可能にする。例えば、話
し手が白色雑音環境で動作するものと仮定した場合、も
し送風機が回され、高い音のエネルギを発生すれば、音
声活動検出器は、それ自体を適応させ、発生アタックに
おける摩擦音のような低いエネルギの有声部分を検出し
、無声部分を除去する。

第７図および第８図は、各サンプル・ブロックを処理す
るために実行される音声活動検出方法の種々のステップ
を要約する。現在の自己相関係数Ｒ（ｉ）ならびにＸＭ
ＡＸは既に記憶されている。先ず、ＸＭＡＸが経験的に
セットされた所定のしきい値レベルＶＡＤＴＨと比較さ
れる。そして、このＸＭＡＸ対ＶＡＤＴＨの検査に基づ
いて、前記しきい値レベルが動的に調整される。もしＸ
ＭＡＸがＶＡＤＴＨよりも小さければ、しきい値は速か
にＸＭＡＸ値に更新される。さもなければ、新しいＶＡ
ＤＴＨをＶＡＤＴＨ＋１にセットすることによって小さ
い増分だけＸＭＡＸが更新される。

前記増分「１」の１０進値は２　分の１、すなわち１／
２０４８に等しい。

次の検査では、ＸＭＡＩ）−ＶＡＤＴＨ，］：りも十分
に大きいかどうかが決定される。そのため、ＸＭＡＸは
ｋ　−ＶＡＤＴＨと比較される。ここで、第８図に関連
して表示されているように、ｋ＝２または４である。も
しＸＭＡＸがＶＡＤＴＨよりも十分に太きい、すなわち
ＸＭＡＸ）ｋ　−ＶＡＤＴＨならば、該ブロックはアク
ティブである、すなわち音声信号に属すると言われ、フ
ラグ（ＶＡＤＦＬＡＧ）が１にセットされる。同時に、
ハングオーバ・カウンタ、すなわちタイマＶＡＤＴＯＵ
Ｔは、所定の遅延時間値ＲＴ、例えば６〜５０ブロツク
長の期間（おのおの２０ｍ５）にセントされる。もしＸ
ＭＡＸがＶＡＤＴＨよりも十分に大きくなげれば、曖昧
さが存続する。このことは当該ブロックがアクティブで
あるかも知れないしまたは非アクティブであるかも知れ
ないことを意味する。現在処理されているブロックにつ
いて、ハングオーバ・カウンタは１単位だけ減小される
。

カウンタ内容が正である限り、該ブロックはアクティブ
９ブロツクとして分類される。

ここで、ハングオーバ時間が経過したと仮定すると、短
期間の電カスベクトル関数の変動は、次の式のＳＯＭを
測定することによって計算される。

ＳＯＭ−Σ　ｌ　Ｒ（ｉｔ　−Ｒｏｌｄ（ｉｌ　ｌｉ　
＝まただし、Σは総計記号を表わし、１　１は絶対値を表わ
す。もしＳＯＭが経験的にセットされた所定の値ＲＸ、
例えば１０進値１２８０／２０４８または６４０／２０
４８よりも大きければ、該ブロックは再びアクティブと
みなされる。さもなければ、該ブロックは［非アクティ
ブ」と分類される、すなわち話し手の沈黙に相当する。

そしてＶＡＤＦＬＡＧはＯにセントされる。

短期間の電カスベクトル情報は前記とは異なる様式で、
たとえばＲ（ｉ）ではなく予測係数にＫ　（ｉ）を使用
して導くこともできる。

第７図は、音声活動検出一方法の主要なステップを要約
するが、短期間の電カスベクトル情報を計算する方法お
よび種々のパラメータの更新は第８図で更に詳細に／Ｊ
＜されている。第８図に従って、いくつかの検査が実行
される。第１の検査（ＶＡＤＴＯＵＴ）＝−３’ｉ’　
）によって、ｋを２または４にセントし、１０進値ＲＸ
を０６またはＯ６にセットすることができる。

第２の検査は、後にＲ（ｉ）　項を更新するのｌｄに用いられる自己相関関数のスナップンヨソトをとるべ
き時機を決定するだめのものである。例えば、第２５番
目の非アクティブ（沈黙）ブロックで、換言すれば非ア
クティブ・ブロックを連続２５回検出した後に、更新動
作を実行することができる。しかし、有効なＲ（１）　
の更新動作は、ｌｄ追加された連続５ブロツクの曖昧なブロックだけ遅延さ
れる。また、これに続いて曖昧なブロックが更に検出さ
れると仮定すると、ＶＡＤＴＯＵＴはカウンタのオーバ
フローを回避するために任意の一定の値にセントされる
。

音声活動検出方法を実施するシステムのブロック図が第
９図に示されている。入カバソファＢＵＦ２４はサンプ
ルＸ（ｎ）のブロックを記憶する。入力信号が８ＫＨｚ
でサンプリングされ、かつ各々のサンプル・ブロックが
２０ｍｓの長さの信号セグメントを表わすものと仮定す
ると、各々のブロックは１６０サンプルを含む。これら
のサンプルは、各サンプル・ブロックごとにＸＭＡＸ情
報を取出すために、ＸＭＡＸ２６で分類される。固定小
数点の実現形態では、ＸＭＡＸの決定はサンプルをスケ
ーリングするコーダ内で既に実行されており、音声活動
検出（ＶＡＤ）のために繰返す必要はない。

次いで、ＸＭＡＸはしきい値調整装置２８に送られ、そ
こで前にセットされたしきい値ＶＡＤＴＨと比較される
。前記比較の結果に基づいて、■Ａ　Ｄ　Ｔ　Ｈをい（
らか増分するか、またはこれをＸＭＡＸ値に強制するこ
とにより、ＶＡＤ、ＴＨの調整が行われる。

次に、ＸＭＡＸ−ｋ　＠ＶＡＤＴＨ（０、ｋ＝２または
４の検査が比較器６０で実行される。

前記検査の結果が否定の場合、ピッ）８１が１にセント
される。ビットＳ１はＶＡＤＦＬＡＧラッチ３２をセッ
トするためと、ＶＡＤＴＯＵＴタイマ６４を、例えば６
単位（すなわち、６０ｍ５）にセットするために使用さ
れる。５１＝４ｏのときはいつも、■ＡＤＴＯＵＴタイ
マは１ユニツト（すなわち、２・０ｍ５）だけ減分され
る。

タイマ内容が−２５に等しいときはいつでも、Ｖ　Ａ　
Ｄ　、Ｔ　ＯＵ　Ｔ　タイマ６４はゲート・ビットを供
給する。このゲート・ピントは、ゲート６６を開いて自
己相関メモリ′５８の内容を更新するのに使用される。

自己相関メモリ６８に送られるべき正規化された自己相
関係数Ｒ（ｉ）／ＲＩＤ）は、自己相関関数決定装置Ｉ
）ＡＦ１４に属する装置４０によって、供給される。こ
の更新は、ＢＵＦ２４のＲ”Ｒ３ＶＩによって行なわれ
、ＶＡＤＴＯＵＴタイマ６４のカウンタが−６０に等し
いときに確認される。音声活動検出動作のために特にＲ
（ｉ）係数を計算する必要はなし・。サンプル・ブロッ
クごとに、コーダ内でそれらは既に計算されている。

■ＡＤＴＯＵＴタイマ５４の内容がＯに等しいときはい
つでも、ＳＯＭの装置４２でＲ（ｉｌ関数の変動の計算
が開始される。自己相関メモリ３８および装置４０に接
続されている前記装置４２は、を計算ニジ、短期間の電
カスベクトル特性の変動の大きさを決定する。

また、装置４２は、短期間型カスベクトル変動基準値Ｒ
ＴとＳＯＭを比較する。ＳＯＭ）ＲＴの検査結果が肯定
のとき、ビットＳ２は論理レベル１（アクティブ・チャ
ンネル）にセットされる。

この論理レベルはＶＡＤＦＬＡＧを１にセットするのに
用いられる。ＶＡＤＦＬＡＧ＝　１の標識は時分割マル
チプレクサ１０（第１図）にも送られ、その原始ポート
が識別される。

さもなければ、５２−０となり、前記８２ビツトはイン
バータ４４で反転されて、ＶＡＤＦＬＡＧをＯにリセッ
トするのに用いられる。その場合、該チャンネルは非ア
クティブすなわち遊休とみなされる。

【図面の簡単な説明】

第１図はＴＡＳ　Ｉシステムのブロック図、第２図〜第
４図は線形予測理論に基づいた先行技術のコーグのブロ
ック図、第５図および第６図はそれぞれ本発明に用いられる線形
予測コーグおよびデコーダの特性を要約したブロック図
、第７図および第８図は本発明の方法の個々のステップを
要約した流れ図、第９図は本発明を実施する装置のブロック図である。１・・・・予測器、２・・・・係数装置、４・・・・コ
ーグ、５・・・・ＢＢココー、６・・・・Ｖ／ＵＶ１７
・・・・ピッチ、８・・・・エネルギ、１０・・・・時
分割マルチプレクサ、１２・・・・音声活動検出器、１
４・・・・ＤＡＦ１１６・・・・ＤＰＣ，１８・・・・
ＥＥＰ、２０・・・・ＧＢＳ、２　・・・・フィルタ、
２４・・・・ＢＵＦ、２６・・・・ＸＭＡＸ、２８・・
・・しき（・値調整装置、６０・・・・比較器、６２・
・・・ＶＡＤＦＬＡＧラッチ、３４・・・・ＶＡＤＴＯ
ＵＴタイマ、６６・・・・ゲート、３８・・・・自己相
関メモリ、４０．４２・・・・装置、４４・・・・イン
バータ。ＦＩＧ、１ＦＩＧ、２づＦＩＧ、３ＦＩＧ、５ＦＩＧ、６ＦＩＧ、７

Claims

【特許請求の範囲】入力チャンネルを介して供給された少なくとも１つの音
声信号をコード化することにより、該音声信号から所定
の持続期間を有するサンスル・ブロックｘ　（ｎｉ、お
よび短期間型カスベクトル情報を取出−ｔようにしたシ
ステムにおいて、アクティブな音声ブロック欠非アクテ
ィブな音声ブロックから弁別するための音声活動検出方
法であって、各サンプル・ブロックごとに、（ａｔ　振幅しきい値ＶＡＤＴＨをセットし、（ｂｌ　
サンスル・ブロックｘ（ｎ）の値を処理して、そこから
信号エネルギーを表わす情報ＸＭを取出し、（ｃｌ　Ｘ
ＭとＶＡＤＴＨケ比較し、それに応じて前記しきい値を
調整し、（ｄｌＸＭをに奢ＶＡＤＴＨ（但し、ｋは所定の数値、
ＶＡＤＴＨは調整されたしきい値）と比較し、ＸＭがｋ
・ＶＡＤＴＨよりも大きいときにはチャンネル活動標識
を取出すとともにハングオーバ・タイマをセットし、Ｘ
Ｍがｋ　＠ＶＡＤＴＨよ）も小さいときには曖昧さの標
識を取出すとともに曖昧さ解決動作を実行するステップを含み、前記曖昧さ解決動作には、前記タイマの内容を減小して検査することによシ、前記
タイマの内容が正である場合はアクティブな音声ブロッ
クを表示し、前記タイマの内容が負である場合は依然と
して曖昧な状況を表示し、現に処理されたブロックと少
なくとも１つ前に処理されたブロックの間の短期間型カ
スベクトル情報の変動を計算し、前記短期間型カスベクトル情報の変動をプリセットされ
た基準レベルと比較し、この比較結果に応じて現に処理
された曖昧なブロックが非アクティブであるかまたはア
クティブであるかを決定するステップを含むことを特徴とする音声活動検出方法。