JP2003005772A

JP2003005772A - 信号の音声活動を検知する方法と、この方法の実施装置を含む音声信号コーダ

Info

Publication number: JP2003005772A
Application number: JP2002168375A
Authority: JP
Inventors: Raymond Gass; レイモンド・ガス; Richard Atzenhoffer; リシヤール・アトザノフエ
Original assignee: Alcatel CIT SA; Alcatel SA
Current assignee: Alcatel CIT SA; Alcatel Lucent SAS
Priority date: 2001-06-11
Filing date: 2002-06-10
Publication date: 2003-01-08
Anticipated expiration: 2022-06-10
Also published as: US7596487B2; FR2825826B1; US20020188442A1; ATE269573T1; ES2219624T3; JP3992545B2; JP2006189907A; CN1391212A; FR2825826A1; DE60200632T2; EP1267325B1; CN1162835C; DE60200632D1; EP1267325A1

Abstract

(57)【要約】【課題】音声活動検知の有効性を保護し、復号後の信
号品質を損なわない、有効な音声検知方法と、この方法
の実施装置を含む音声信号コーダとを提供する。【解決手段】本方法は「音声」か「ノイズ」かの決定
を平滑化し、会話セグメントの損失を回避する信号の音
声活動検知を可能とする。本方法はノイズレベルが高い
場合に特に適する。トラフィック最適化を優先する既知
の方法に対し、本方法は復号化後の再生信号の了解性を
優先する。符号化信号を、複数フレームに分割し、各信
号フレームに対し、「音声」か「ノイズ」かの最初の決
定を下す。この方法は、現行フレームに先行するフレー
ムに対して信号エネルギーの増加があると、この増加が
わずかなものであっても「音声」の決定を下し、信号の
特性が、少なくともｉ個の後続フレーム中（たとえばｉ
＝６）、ノイズ特性に対応する場合のみ、「ノイズ」の
決定を下す。本発明は電話通信に適用される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、改良した音声活動
検知装置を含む音声信号コーダ、特に、ＩＴＵ−Ｔ勧告
Ｇ．７２９Ａ、補遺Ｂに準拠するコーダに関する。

【０００２】

【従来の技術】音声信号は、無音または本質的な雑音を
６０％まで含む。伝送する情報量を減らすために、実際
に有効信号を含む音声信号部分と、無音またはノイズし
か含まない部分とを区別し、これらをそれぞれ異なる２
個のアルゴリズムに従って符号化することが知られてお
り、無音またはノイズしか含まない各部分は、周囲のノ
イズの特徴を示すごくわずかな情報によって符号化され
る。このようなコーダは、スペクトル特性と、符号化す
る音声信号のエネルギー（各信号フレームについて計算
される）とによって、上記の区別を実施する音声活動検
知装置を含む。

【０００３】音声信号は、たとえば持続時間１０ｍｓに
相当するデジタルフレームに分割される。各フレームに
対して、信号から一組のパラメータが抽出される。主な
パラメータは、自動相関係数である。線形予測による符
号化係数の集合と、一組の周波数パラメータとが、次に
自動相関係数から導き出される。実際に有効信号を含む
音声部分と、無音またはノイズしか含まない部分とを区
別する方法の一つのステップは、信号のフレームエネル
ギーを閾値と比較する。閾値を計算する装置は、閾値を
ノイズ変化に適合させる。音声信号を損なうノイズは、
電気的なノイズと周囲のノイズとからなる。周囲のノイ
ズは、同一の通信中に著しく増えたり減ったりすること
がある。一方、ノイズの周波数フィルタリング係数もま
た、それ自体ノイズの変化に適合しなければならない。

【０００４】アディルベナサンニュ（ＡｄｉｌＢｅ
ｎｙａｓｓｉｎｅ）らによる文献「ＩＴＵ−Ｔ勧告Ｇ７
２９補遺Ｂ：ＡＳｉｌｅｎｃｅＣｏｍｐｒｅｓｓｉ
ｏｎＳｃｈｅｍｅｆｏｒＵｓｅＷｉｔｈＧ７２
９ＯｐｔｉｍｉｚｅｄｆｏｒＶ．７０Ｄｉｇｉｔ
ａｌＳｉｍｕｌｔａｎｅｏｕｓＶｏｉｃｅａｎｄ
ＤａｔａＡｐｐｌｉｃａｔｉｏｎｓ」、ＩＥＥＥＣ
ｏｍｍｕｎｉｃａｔｉｏｎＭａｇａｚｉｎｅ、１９９
７年９月は、このようなコーダを記載している。

【０００５】符号化された音声信号を復号するデコーダ
は、音声として符号化された信号部分と、無音または本
質的に雑音として符号化された信号部分とにそれぞれ対
応する２個の復号アルゴリズムを選択的に使用しなけれ
ばならない。あるアルゴリズムから他のアルゴリズムへ
の移行は、無音期間またはノイズ期間を符号化する情報
によって同期される。

【０００６】ＩＴＵ−Ｔ勧告Ｇ．７２９Ａ、補遺Ｂ１１
／９６を実装する既知のコーダは、ノイズレベルが、こ
の勧告によって定義された量子化レベルの８０００レベ
ルを越えると、もはや有効信号とノイズ信号とを区別で
きなくなる。その結果、音声活動検知信号の無効な遷移
が多数発生し、そのために、有効信号の部分が損失され
る。

【０００７】Ｇ７２３．１ＶＡＤに記載された解決方
法は既知であり、ＳＮ比が所定値未満であるとき、コー
ダにおける音声活動の検知を完全に禁止する。この解決
方法は、有効信号の完全性を保護するが、トラヒックを
増加するという欠点を有する。

【０００８】

【発明が解決しようとする課題】本発明の目的は、トラ
ヒックに関して音声活動検知の有効性を保護し、復号後
に再生される信号の品質を損なわない、有効な解決方法
を提案することにある。

【０００９】

【課題を解決するための手段】本発明の対象は、信号内
の音声活動を検知する方法であり、信号を複数フレーム
に分割し、この方法は各フレームに対して下される「音
声」か「ノイズ」かの最初の決定の平滑化ステップを含
み、この平滑化ステップが、フレームｎに対して最初の
決定が「音声」で、フレームｎ−２に対して最終決定が
「ノイズ」で、フレームｎ−１のエネルギーが、フレー
ムｎ−２のエネルギーより大きく、フレームｎのエネル
ギーがフレームｎ−２のエネルギーより大きい場合、フ
レームｎに対して「音声」の最終決定を下すステップを
含むことを特徴とする。

【００１０】このような特徴を持つ方法は、フレームｎ
の間だけ、遷移エネルギーが増える時に、「ノイズ」か
ら「音声」への望ましくない遷移を回避する。何故な
ら、平滑化機能は、「ノイズ」から「音声」への遷移決
定に際して、現行フレームｎに先行するフレームｎ−１
に対して下される最終決定だけを考慮するからである。

【００１１】好適な実施形態によれば、フレームｎに対
して「音声」の最終決定が下された場合、本発明による
方法は、ｉが一定の慣性時間を定義する整数であると
き、さらにフレームｎ＋１からｎ＋ｉに対して「ノイ
ズ」のあらゆる最終決定を回避することからなる。

【００１２】このような特徴を持つ方法により、言語セ
グメントの損失現象が回避される。何故なら、平滑化機
能は、「ノイズ」決定に戻る場合、ｉ個のフレームの持
続時間に対応する一定の慣性を有するからである。

【００１３】本発明はまた、本発明による方法を実施す
るための平滑化手段を含む音声信号コーダを目的とす
る。

【００１４】本発明は、以下の説明および添付図面によ
り、いっそう理解され、他の特徴が明らかになるであろ
う。

【００１５】

【発明の実施の形態】図１に機能的な構成を示したコー
ダの実施例は、符号化される音声信号をアナログで受信
する入力端子１と、音声信号をフィルタリングし、サン
プリングし、量子化し、フレームに配置する回路２と、
回路２の出力に接続される１個の入力と、２個の出力と
を有するスイッチ３と、実際に有効信号を示すものとみ
なされ、スイッチ３の第一の出力に接続される入力を有
するフレーム符号化回路４と、無音またはノイズを示す
ものとみなされ、スイッチ３の第二の出力に接続される
入力を有するフレーム符号化回路５と、回路４の出力と
回路５の出力とにそれぞれ接続される第一および第二の
入力と、コーダの出力端子を構成する出力端子９とを有
する第二のスイッチ６と、回路２の出力に接続される入
力と、各スイッチ３、６の制御入力に特に接続される出
力とを有し、音声信号内で認識される内容、すなわち有
効信号か無音信号（またはノイズ信号）かに対応する符
号化フレームを選択する音声活動検知器７とを含む。

【００１６】音声信号が有効信号である場合、コーダ
は、１０ｍｓ毎に１個のフレームを供給する。音声信号
が、無音信号（またはノイズ信号）から構成される場
合、コーダは、無音期間（またはノイズ期間）の冒頭に
１つのフレームのみを供給する。

【００１７】実際には、このようなコーダは、適切にプ
ログラミングされたプロセッサによって構成することが
できる。特に、本発明による方法は、当業者が実現可能
なソフトウェアによって実施可能である。

【００１８】図２は、規格Ｇ．７２９補遺Ｂ１１／９６
により既知の符号化方法による、「音声」または「ノイ
ズ」の決定のフローチャートである。この方法は、持続
時間を１０ｍｓに固定したデジタル信号フレームに適用
される。

【００１９】第一のステップ１１は、符号化する信号の
現行フレームに対して、全ての周波数帯域におけるこの
フレームのエネルギーと、低周波数におけるこのフレー
ムのエネルギーと、一組のスペクトル係数と、ゼロ移行
率との４個のパラメータを抽出する。

【００２０】次のステップ１２は、バッファメモリの最
小サイズを更新する。

【００２１】次のステップ１３は、現行フレームの番号
と、所定値Ｎｉとを比較する。

【００２２】フレームの番号が所定値Ｎｉ未満である場
合、次のステップ１４は、符号化する信号のパラメータ
のスライド平均値を初期化する。すなわち、スペクトル
係数と、全ての帯域における平均エネルギーと、低周波
数における平均エネルギーと、平均ゼロ移行率とであ
る。

【００２３】次のステップ１５は、フレームのエネルギ
ーを所定の閾値と比較し、フレームのエネルギーがこの
閾値より大きい場合、信号が音声に属すると決定し、フ
レームのエネルギーがこの閾値より低い場合、信号がノ
イズであると決定する。現行フレームの処理は、そこ
で、終了１６となる。

【００２４】フレームの番号がＮｉ未満でない場合、次
のステップ１７は、この番号がＮｉに等しいか、あるい
はＮｉより大きいか決定する。

【００２５】この番号がＮｉに等しい場合、次のステッ
プ１８は、全ての帯域におけるノイズの平均エネルギー
の値と、低周波数におけるノイズの平均エネルギーの値
とを初期化する。

【００２６】この番号がＮｉより大きい場合、次のステ
ップ１９は、フレームパラメータの現行値をフレームパ
ラメータのスライド平均値から引くことにより、一組の
パラメータ差を計算し、フレームパラメータのスライド
平均値がノイズを示す。これらのパラメータ差は、スペ
クトルのひずみ、全ての帯域におけるエネルギー差、低
周波におけるエネルギー差、およびゼロ移行率の差であ
る。

【００２７】次のステップ２０は、フレームのエネルギ
ーを所定の閾値と比較する。

【００２８】フレームのエネルギーが所定の閾値未満で
ない場合、ステップ２１は、複数の基準に基づいた最初
の決定を下し（「音声」か「ノイズ」か）、次のステッ
プ２２は、あまりに多数の決定変更を回避するために、
この決定を「平滑化」する。

【００２９】フレームのエネルギーが所定の閾値以下で
ある場合、ステップ２３は、信号がノイズであると決定
し、次のステップ２２は、この決定を「平滑化」する。

【００３０】平滑化ステップ２２の後、次のステップ２
４は、現行フレームのエネルギーと、全ての帯域におけ
るエネルギーのスライド平均にある定数を加えたものに
等しい適応閾値とを比較する。

【００３１】現行フレームのエネルギーが閾値より大き
い場合、次のステップ２５は、ノイズを示すパラメータ
のスライド平均値を更新し、次いで、現行フレームの処
理は、終了２６となる。

【００３２】現行フレームのエネルギーが閾値より大き
くない場合、現行フレームの処理は、終了２７となる。

【００３３】図３は、規格Ｇ．７２９補遺Ｂ、１１／９
６により既知の符号化方法による音声活動検知信号の平
滑化操作を詳しく示す。この平滑化は、以下の複数の基
準に基づいた最初の決定２１（「音声」か「ノイズ」
か）に続く４個のステップを含む。

【００３４】先行する１個のフレームに対する決定が
「音声」であった場合で、現行フレームの平均エネルギ
ーが、先行する複数フレームのエネルギーのスライド平
均値にある定数を加えたものより大きい場合、換言すれ
ば、現行フレームのエネルギーが、ノイズの平均エネル
ギーよりずっと大きい場合、第一のステップは「音声」
の決定を下すテスト３１からなる。反対の場合には、
「ノイズ」の決定４２が最終的に下される。

【００３５】先行する２個のフレームに対する決定が
「音声」であった場合で、現行フレームの平均エネルギ
ーが先行するフレームのエネルギーのスライド平均にあ
る定数を加えたものより大きい場合、換言すれば、この
エネルギーが、先行フレームから現行フレームまでに著
しく減少しなかった場合、第二のステップ３２から３５
は「音声」の決定を確認するテスト３２からなる。

【００３６】この第二のステップは、さらに、カウンタ
をインクリメントし（操作３３）、その内容を値４と比
較し（操作３４）、次いで、現行フレームが、「音声」
と決定された連続フレームの第四のフレームである場
合、次のフレームに対してはテスト３２の作動を解除す
る（操作３５）。「音声」の決定が確認されない場合、
「ノイズ」の決定４２が最終的に下される。

【００３７】現行フレームに先行する１０個のフレーム
に対して「ノイズ」の決定が下された場合（ステップ３
１から３５で現行フレームに対して「音声」の決定が下
された場合）で、現行フレームのエネルギーが先行する
フレームのエネルギーにある定数を加えたもの未満であ
る場合、換言すれば、エネルギーが先行フレームから現
行フレームまでに著しく増加しなかった場合、第三のス
テップ３６から３９は最終的に「ノイズ」の決定４２を
下すテスト３６からなる。

【００３８】この第三のステップは、さらに、現行フレ
ームが、「ノイズ」と決定された（テスト３８）連続す
るフレームの１０番目のフレームであった場合、フレー
ムのカウントを再初期化することによって（操作３
９）、テスト３６を再初期化する（操作３７）。

【００３９】現行フレームのエネルギーが、先行する複
数フレームのエネルギースライド平均値の和に定数６１
４を加えたもの未満である場合、第四のステップは最終
的に「ノイズ」の決定４２を下すテスト４０からなる。
換言すれば、「音声」の決定が最終的に確認されるのは
（操作４１）フレームのエネルギーが、先行する複数フ
レームのエネルギーのスライド平均値よりもずっと大き
い場合だけである。そうでない場合、「ノイズ」の決定
４２が最終的に下される。

【００４０】この第四のステップ４０（最終決定）は、
信号ノイズが著しい場合、誤った「ノイズ」の決定を供
給する。実際、このステップ４０は、先行して行われた
複数の決定を考慮せずに、先行する複数フレームのエネ
ルギーのスライド平均値に定数６１４を加えた値とによ
って示される現行フレームと本質的な雑音とのエネルギ
ー差だけに基づいて、信号がノイズであると決定する。
事実、本質的な雑音が大きい場合、この定数６１４から
構成される閾値は、もはや有効ではない。

【００４１】本発明による方法は、平滑化ステップに関
して、規格Ｇ．２７９．１、添付Ｂ、１１／９６により
既知の方法とは異なる。

【００４２】図４は、本発明による方法における、音声
活動検知信号の平滑化の実施例を示すフローチャートで
ある。この平滑化は、複数の基準に基づいた初期の決定
２１（「音声」または「ノイズ」）に続く４個のステッ
プを含む。この４個のステップの中で、３個のステップ
（テスト１３１、１３２、１３６）は、上記の３個のス
テップ（テスト３１、３２、３６）と同じである。前述
の第四のステップ４０は、削除されており、いわゆる予
備ステップが、上記第一のステップ３１の前に付加され
ている。たとえば、フレームのエネルギーが弱くなると
き、いわゆる慣性カウントが付加され、「音声」の決定
を「ノイズ」の決定に変える前に、１フレームの持続時
間の５倍に等しい持続時間の慣性を得る。従って、この
持続時間は、この例では５０ｍｓである。こうした慣性
カウントは、ノイズの平均エネルギーが、規格Ｇ．２７
９．１、添付Ｂ、１１／９６により規定された量子化レ
ベルの８０００レベルより大きくなるときしか有効でな
い。

【００４３】追加される予備ステップ１０１から１０４
は、ステップ２１の最初の決定が「音声」である場合、
慣性カウンタを０にリセットし（操作１０２）、さらに
テスト１３１に移行する。

【００４４】ステップ２１の最初の決定が「ノイズ」で
ある場合、現行フレームのエネルギーが固定の閾値より
大きいかどうか決定し、また、慣性カウンタの内容が６
未満で１より大きいかどうか決定する（操作１０３）。

【００４５】この二つの条件が満たされる場合、（最初
の決定とは相反して）「音声」の決定を下し、次いで、
慣性カウンタを１単位インクリメントし（操作１０
４）、さらに、テスト１３１に移行する。

【００４６】あるいは、これらの条件の一方が満たされ
ない場合、最終的に「ノイズ」の決定を下す（１４
２）。

【００４７】先行する決定が「音声」であり、現行フレ
ームの平均エネルギーが、先行する複数フレームのエネ
ルギーのスライド平均に定数を加えたものより大きい場
合、第一のステップは、「音声」の決定を保持するテス
ト１３１（テスト３１と同じ）からなる。

【００４８】２個の先行フレームに対する決定が「音
声」であった場合で、現行フレームの平均エネルギー
が、先行する１フレームのエネルギーのスライド平均に
定数を加えたものより大きい場合、換言すれば、先行フ
レームから現行フレームまでエネルギーが著しく減らな
かった場合、第二のステップ１３２から１３５（ステッ
プ３２から３５と同じ）は「音声」の決定を下す。

【００４９】この第二のステップ１３２から１３５は、
さらに、現行フレームが、「音声」と決定された連続す
る四番目のフレームである場合、次のフレームに対して
このテストの作動を停止する（カウンタをインクリメン
トし（１３３）、その内容と値４とを比較し（１３
４）、値４に達している場合は作動停止する（１３
５））。最後の１０個のフレームに対して「ノイズ」
の決定が下された場合で、現行フレームのエネルギーが
先行する１フレームのエネルギーに定数を加えたものよ
り小さい場合、換言すれば、先行フレームから現行フレ
ームまでエネルギーが著しく増加しなかった場合、第三
のステップ１３６から１３９、１４３（ステップ３６か
ら３９とは少し異なる）は最終的に「ノイズ」の決定を
下す（１４２）。

【００５０】さらに、現行フレームが、「ノイズ」と決
定された連続する１０番目のフレームである場合、この
第三のステップはフレームカウントを再初期化すること
によりテスト１３６を再初期化する（カウンタをインク
リメントし（１３７）、カウンタの内容と値１０とを比
較し（１３８）、値１０に達している場合カウンタを０
に再リセットする（１３９））。第三のステップは、前
述の既知の方法に対して変更されている。何故なら、こ
のステップは、テスト１３６と慣性カウンタとのあらゆ
る相互作用を回避するために、さらに慣性カウンタを値
６にしているからである（操作１４３）。ステップ４０
のような第四のステップは存在しない。

【００５１】図５において、曲線Ｅ１、Ｅ２は、様々な
ＳＮ比の値に対して、既知の方法と、本発明による方法
とによる誤り率をそれぞれ示している。

【００５２】図６において、曲線Ｌ１、Ｌ２は、様々な
ＳＮ比の値に対して、既知の方法と、本発明による方法
とによる音声損失率をそれぞれ示している。

【００５３】以上から、音声活動検知動作が、騒音環境
において、大幅に改善されることが分かる。全体の誤り
率が減少し、特に、失われる会話の割合が著しく減って
いる。従って、会話の完全性が保護され、会話は理解し
やすい。

【図面の簡単な説明】

【図１】本発明による方法を実施するコーダの実施例の
機能図である。

【図２】Ｇ．７２９補遺Ｂ、１１／９６規格により既知
の符号化方法による「音声」／「ノイズ」決定のフロー
チャートである。

【図３】Ｇ．７２９補遺Ｂ、１１／９６規格により既知
の符号化方法による音声活動検知信号の平滑化操作を詳
しく示す図である。

【図４】本発明による方法における、音声活動検知信号
の平滑化の実施例を示すフローチャートである。

【図５】ＳＮ比の様々な値に対して、既知の方法と本発
明による方法とによる誤り率をそれぞれ示す図である。

【図６】ＳＮ比の様々な値に対して、既知の方法と本発
明の方法とによる会話損失率をそれぞれ示す図である。

【符号の説明】

１入力端子２回路３、６スイッチ４、５フレーム符号化回路７音声活動検知機８出力端子

Claims

【特許請求の範囲】

【請求項１】信号の音声活動を検知する方法であっ
て、信号を複数フレームに分割し、各フレームに対して
下される「音声」か「ノイズ」かの最初の決定の平滑化
ステップを含み、この平滑化ステップが、フレームｎに対して最初の決定が「音声」で、フレームｎ−２に対して最終決定が「ノイズ」で、フレームｎ−１のエネルギーが、フレームｎ−２のエネ
ルギーより大きく、フレームｎのエネルギーがフレームｎ−２のエネルギー
より大きい場合、ｎ番目のフレームに対して「音声」の
最終決定を下すステップを含むことを特徴とする方法。
【請求項２】「音声」の最終決定がフレームｎに対し
て下された場合、ｉが一定の慣性時間を定義する整数で
あるとき、さらに、フレームｎ＋１からｎ＋ｉに対して
「ノイズ」のあらゆる最終決定を回避することを特徴と
する請求項１に記載の方法。
【請求項３】平滑化ステップが、フレームｎに対し
て、最初の決定が「音声」である場合、慣性カウンタを０に
初期化し（１０２）、最初の決定が「ノイズ」である場合、フレームｎのエネ
ルギーが閾値より大きいかどうか決定し、また慣性カウ
ンタの内容が固定された閾値より小さく、かつ１より大
きいかどうか決定し（１０３）、次いで、この三つの条件が満たされる場合、「音声」の決定を下
し、慣性カウンタを１単位インクリメントし（１０
４）、あるいは、これらの条件の１つが満たされない場合、
「ノイズ」の決定を下すステップを含むことを特徴とす
る請求項１に記載の方法。
【請求項４】音声活動の検知装置を含む音声信号コー
ダであって、信号を複数フレームに分割し、装置は各フ
レームに対して下された「音声」か「ノイズ」かの最初
の決定を平滑化する手段を含み、この平滑化手段は、フレームｎに対する最初の決定が「音声」で、フレームｎ−２に対する最終決定が「ノイズ」で、フレームｎ−１のエネルギーがフレームｎ−２のエネル
ギーより大きく、フレームｎのエネルギーがフレームｎ−２のエネルギー
より大きい場合、ｎ番目のフレームに対して「音声」の
最終決定を下す手段を含むことを特徴とするコーダ。
【請求項５】平滑化手段は、「音声」の最終決定がフ
レームｎに対して下された場合、ｉが一定の慣性時間を
定義する整数であるとき、フレームｎ＋１からｎ＋ｉに
対して「ノイズ」のあらゆる最終決定を回避する手段を
含むことを特徴とする請求項４に記載のコーダ。
【請求項６】平滑化手段は、フレームｎに対して最初の決定が「音声」である場合、
慣性カウンタを０に初期化し（１０２）、最初の決定が「ノイズ」である場合、フレームｎのエネ
ルギーが閾値より大きいかどうか決定し、また慣性カウ
ンタの内容が固定された閾値より小さく、かつ１より大
きいかどうか決定し（１０３）、次いで、この三つの条件が満たされている場合、「音声」の決定
を下し、慣性カウンタを１単位インクリメントし（１０
４）、あるいは、これらの条件の１つが満たされない場合、
「ノイズ」の決定を下す手段を含むことを特徴とする請
求項４に記載のコーダ。