JP2008077088A

JP2008077088A - 固定電力信号を検出する効率的な音声アクティビティ検出器

Info

Publication number: JP2008077088A
Application number: JP2007241698A
Authority: JP
Inventors: Mei-Sing Ong; オンメイ−シン; Luke A Tucker; エー．タッカールーク
Original assignee: Avaya Technology LLC
Current assignee: Avaya Technology LLC
Priority date: 2006-09-19
Filing date: 2007-09-19
Publication date: 2008-04-03
Anticipated expiration: 2027-09-19
Also published as: EP1903557A3; KR20080026073A; CN101202040A; EP1903557A2; IL184817A0; JP5058736B2; US20080071531A1; EP1903557B1; US8311814B2

Abstract

【課題】音声通信において、会話信号を非会話信号から区別する。
【解決手段】本発明は、実質的に固定の電力の信号または周期性のある信号を識別するために振幅のピークおよび谷部の周期性を用いる音声アクティビティ検出器に向けられている。概略として、変向点（例えば、ピークおよび谷部）を検出するために振幅ベースの周期性を用いること、およびサンプリングされたオーディオ信号セグメントが周期信号であるのか、実質的に固定の電力レベルの信号であるのかを判別するために、識別された変向点のパターンマッチングを行う。
【選択図】図１

Description

本発明は概略として信号処理に関し、特に会話信号を非会話信号から区別することに関する。

音声は、回路交換であれパケット交換であれ、アナログ信号をデジタル信号に変換することによってデジタル電話ネットワークを介して搬送される。パケット交換ネットワークの場合、デジタル信号を表すオーディオサンプルがパケット化され、パケット化されたサンプルがネットワーク上で電気的に送信される。パケット化されたサンプルは宛先ノードで受信され、サンプルはパケット化を解かれ、アナログ信号が再生され第三者に提供される。

他の通話者と話している間、通話者双方とも話していない期間がある。そのような期間中、（背景音声を含むことがある）背景ノイズが電話機のマイクロフォンによって受信されることがある。呼に対していずれの通話者も話していない期間や、トーンのような聞き取れる呼信号がない期間に受信される背景ノイズのようなオーディオ情報を、以下「サイレンス」と称することにする。

サイレンスの抑制は、電話呼に関与する通話者の一方が話していないときにネットワーク上にオーディオ情報を送信しないようにする処理であり、それにより帯域使用を実質的に減らし、ジッタバッファ整合点の特定をアシストする。ボイスオーバーインターネットプロトコル（ＶｏＩＰ）システムでは、音声アクティビティ検出（ＶＡＤ）または会話アクティビティ検出（ＳＡＤ）を用いて、背景ノイズを動的に監視し、適切な会話検出しきい値を設定し、ジッタバッファ整合点の特定を行う。オーディオ信号またはそのサンプルにおいて、ＶＡＤは人間の会話の有無を検出し、この情報を用いてサイレンス期間を識別する。サイレンス抑制が有効になっていると、そのようなサイレンス期間に受信されたオーディオ情報はネットワークを介して他方の（宛先）終端には送信されない。会話において、ある１つの時点では通常は一方の通話者がしゃべっていることを考慮すると、サイレンス抑制は標準的な電話呼の期間を通じて全体的な帯域の節約を５０％程度達成できる。

発声された会話と背景ノイズとの区別は難しいことがある。さらに、ＶＡＤまたはＳＡＤはクリッピングを避けるために非常に速く行われなければならない。これらの課題に対処するため、複雑さの度合いが異なる多数のアルゴリズムが使われてきた。それらの例として、エネルギーしきい値に基づくもの（例えば、信号対ノイズ比すなわちＳＮＲ）、ピッチ検出、スペクトルすなわちスペクトル形状の解析、ゼロクロス率（例えば、信号振幅が正から負へどれだけ頻繁に変化するかを検出するもの）、周期性測定、線形予測符号すなわちＬＰＣ残存領域における高次統計（例えば、背景信号と入力信号の形の不一致があるときに予測コードエラーまたは残存部のエネルギーを増大するもの）、およびこれらの組み合せ等がある。

ある一般的なサイレンス抑制手法では、信号を音声セグメントとサイレンスセグメントに振り分けるための確実な判断材料として信号の電力が用いられている。これは会話存在下での全ての信号の電力が背景ノイズよりも十分に大きいという前提に立つものである。音声動作として分類されるべきセグメントに対して最小ＳＮＲを表すためにしきい値が用いられる。このしきい値はノイズフロアとして知られ、信号の電力を用いて動的に再計算される。信号のＳＮＲがしきい値までの範囲で低下すると、音声動作であるとみなされる。そうでない場合は背景ノイズであるとみなされる。この振る舞いは図２から理解できる。図２には、受信オーディオ信号の振幅波形２００、受信オーディオ信号の電力波形２０４およびノイズフロア電力波形２０８が図示されている。ノイズフロアの値は信号波形２００の平滑化表示である。図はさらに、検出された音声動作セグメントおよびサイレンスセグメントとしてそれぞれ２１２および２１６を示している。図２から分かるように、ノイズフロア波形２０８は、信号が会話セグメント２２０および２２４を含むときには信号電力の大きな増加のために上昇し、そのセグメントの直後に信号電力の大きな減少のために下降する傾向にある。刻々と変動するノイズフロアの実行を通じて変化する背景ノイズに適応する能力がこのアルゴリズムの核心にある。

上記ＶＡＤ手法は、プログレストーン（例えば、インターセプトトーン、リングバックトーン、ビジートーン、ダイヤルトーン、リオーダートーン等）のようなほぼ一定の電力の信号を検出することが難しい場合がある。上記手法はこのようなトーンを背景ノイズとして識別してしまうことがあり、そうなるとそれらは他方の終端には送信されない。プログレストーンを検出することについての課題を図３Ａおよび３Ｂに示す。図３Ａはプログレストーンを正弦波の波形３００として示す。図３Ｂはほぼ一定の電力レベルを持つ波形３０４として表されたトーンを示す。ノイズフロアが信号の電力に基づいているので、信号がほぼ一定の電力を持つ場合、ノイズフロア波形３０８は波形３０４に近づくことになる。上記ＶＡＤ手法を用いると、期間３１２は音声動作であるとして判断されるのでおそらく他方の終端に送信されるが、期間３１６はサイレンスであると誤って判断されるので他方の終端には送信されないであろう。従って、他方の通話者はせいぜいトーンの一部だけを聴くことになり、それによって彼または彼女は電話機が故障したと思ってしまうことになる。この誤判断はさらにジッタバッファの不整合を引き起こす（これによってクリックやポップが他人に聞かれてしまう）可能性がある。

固定電力信号は、信号の周波数スペクトルを高速フーリエ変換（ＦＦＴ）やケプストラル分析のような複雑な技術を用いて解析するといったようなより精巧な手法によって確実に検出することができる。しかし、信号を周波数領域に変換するのに必要とする処理およびメモリにかかるコストは非常に高く、そしてリアルタイムのアプリケーションにおいて実現されるようなアルゴリズムに対しては処理時間が長過ぎる。ＦＦＴのような技術によっては、入力サンプルのバッファ（ブロッキング）を設ける必要性からディレイを導入し、および／または記憶するための大量のランダムアクセスメモリ（ＲＡＭ）を用いている。実行可能な手段は必然的に時間ベースのものとなる。

しきい値ＶＡＤは最も一般的に用いられている手段である。エネルギーしきい値手法の下では、（プログレストーンを含む）会話存在下における全ての信号のエネルギーが予め設定されたしきい値よりも大きいと仮定されている。しきい値より大きい振幅を持つ信号はＶＡＤの結果にかかわらず音声動作とみなされる。この手法は多くのプログレストーン情報を保護するものの、あるアプリケーションにおいては成り立たない仮定となることがあり、低い正解率をもたらしてしまう。ノイズレベルを確かめる手段として振幅確率分布を用いるといった信号の統計解析は使用されてこなかった。しかし、これらの方法もコンピュータとして高価であり、ＶｏＩＰゲートウェイ設定には適さない。

ある程度成功したアルゴリズムがアバイア・インコーポレーテッド社のCrossfire（登録商標）ゲートウェイにおいて使用されてきた。このゲートウェイはゼロクロス率手法を用いるとともに、固定電力信号の時間的周期性を利用するものである。ノイズ信号は本質的にランダムであるという前提に立っている。各フレームのゼロクロス率が監視される。一定ゼロクロス率であることは周期的性質、従って音声動作セグメントを意味する。言い換えると、いくつかのゼロクロス点の周期性が判別され、固定電力信号のゼロクロス動作の挙動特性を識別するためにパターンマッチング技術が用いられる。

同様のゼロクロスアルゴリズムがＩＴＵ−Ｔによって標準化されたＧ.７２９会話符号器に対するＧ.７２９Ｂ拡張において使用される。当該拡張の下では８０個のオーディオサンプルからなる会話フレームについて１０ミリ秒毎に選択がなされる。会話フレームから抽出されたパラメータには全帯域のエネルギー、低い帯域のエネルギー、ラインスペクトル周波数（ＬＳＦ）係数、およびゼロクロス率が含まれる。現在のフレームから抽出された４つのパラメータとノイズの移動平均とのそれぞれの差がフレーム毎に計算される。それらの差はノイズ特性を表している。差が大きい場合は現在のフレームが音声であることを意味し、逆の場合は音声がないことを意味する。ＶＡＤによってなされる判断は複雑な複境界アルゴリズムに基づいている。

これらの方法の問題は、一定のゼロクロス率が常に周期的な信号に対応しているとは限らないことである。ノイズ信号はある線を偶然に一定の率でクロスすることがある。各セグメントは８０オーディオサンプルだけで構成されているので、この方法の正確さは小さいサンプル空間によって制限されている。ゼロクロス点識別におけるエラーによって、やはり一定の電力信号が背景ノイズとして誤って判断され得る。この問題に対処するため、上記のような技法は、高い振幅の信号が常にアクティブな信号として判断されることを確実にするための追加的な固定しきい値の使用によって改善されるかもしれない。しかし、そのようなしきい値の使用によって今度は低い振幅の固定電力信号がサイレンスとして誤検出されてしまう。

さらに他のＶＡＤ技法がTucker R.によって、１９９２年８月発行の彼の論文「Voice Activity Detection Using a Periodicity Measure」で提案されている。彼は、ＳＮＲにおいて０ｄＢまで確実に動作し、ほとんどの会話を−５ｄＢで検出できるＶＡＤを開示している。検出器は最小二乗周期性推定器を入力信号に適用し、十分な周期性が見つかった時にトリガをかけるものである。しかし、それは正確なトークスプラウト境界を見つけることを目的とするものではなく、会話をログ記録するアプリケーション（失われた会話に対して可能な小さいマージンを含むのは簡単である）に適している。なお、「トークスプラウト」境界とは、会話と非会話オーディオ情報との間の境界（例えば、「サイレンス」の期間と発声された会話の期間との境界）のことをいう。この解決手段は正確なトークスプラウト境界の検出が核心となるようなＶｏＩＰシステムには適さない。

これらの又は他の必要性が種々の実施例および本発明の構成によって対処される。本発明は概略として、変向点（例えば、ピークおよび谷部）を検出するために振幅ベースの周期性を用いること、およびサンプリングされたオーディオ信号セグメントが周期信号であるのか、実質的に固定の電力レベルの信号（以下、「実質的固定電力信号」という）であるのかを判別するために、識別された変向点のパターンマッチングを行うことに向けられている。実質的固定電力信号の例としてプログレストーン等がある。

本発明の第１の実施例は、
（ａ）サンプリングされた信号セグメントを規定する複数のオーディオサンプルを受信するステップ、
（ｂ）オーディオサンプルによって規定された信号振幅波形における変向点を識別するステップ、
（ｃ）識別された変向点が実質的に固定の電力レベルの信号を表しているかを判定するステップ、および
（ｄ）識別された変向点が実質的に固定の電力レベルの信号を表しているときに、サンプリングされた信号セグメントがアクティブな信号からなるとみなすステップ
を含む方法である。

本発明の第２の実施例は、
（ａ）音声による会話中にアナログオーディオ信号を受信するステップ、
（ｂ）アナログオーディオ信号をデジタル形式の値に変換するステップであって、デジタル形式の値が複数の会話フレームからなり、各会話フレームが複数のオーディオサンプルからなり、各オーディオサンプルが信号振幅からなるとともに固定の継続期間を有するようなステップ、
（ｃ）オーディオサンプル中の信号振幅の変向点を識別するステップ、
（ｄ）識別された変向点が周期信号を表すものかを判定するステップ、および
（ｅ）識別された変向点が周期信号を表すものであるときに、選択された会話フレームを宛先終端に送信するステップ
を含む方法である。

本発明はノイズフロア波形によるだけでなく、固定電力信号を識別するための時間ベースかつ振幅ベースの他の技術の組み合せを用いることもできる。振幅ベースおよび時間ベースの周期性を利用することによって、時間ベースの周期性のみまたは時間ベースの周期性とゼロクロスの組み合せによるものよりも、信号波形のより正確な規定を行うことができる。従って、固定電力信号の存在を正確にかつ効率的に検出できる。

発明によって時間ベースの周期性のみによる手法を改善することができる。そのような方法の正確さは８０サンプル中の１の範囲内にある。振幅ベースの周期性を利用することによって、正確さは６５５３６振幅レベル中の１まで改善できる。周期的な振幅は１６ビットの範囲（即ち、＋３２７６７から−３２７６８）である。

発明は会話抑制を実行するための他の解決手段よりも非常に少ないリソースしか必要とせず、これによって、発明を実施するゲートウェイにおける高いチャネルカウントが可能となる。例えば、推定履歴バッファが１００個のピーク／谷部の値でサイズ決定されると、それは各サンプルが１６ビットからなるので２００バイトのＲＡＭ使用量に相当する。通常、パターンは４０個未満の変向点を有していた。処理オーバーヘッドが比較的低いので会話アクティビティ検出は素早く行われ、クリッピングを回避することができる。

発明はトークスプラウト境界を確実に識別することができる。
これら及び他の利点はここに含まれる発明の開示から明らかになるであろう。

記載されているように、「少なくとも１つの」、「１以上の」、「および／または」は、用法として結合的および分離的両方の意味として拡張可能に解釈されるものである。例えば、「Ａ、ＢおよびＣの少なくとも１つ」、「Ａ、ＢまたはＣの１つ」、「Ａ、ＢおよびＣの１つ以上」、「Ａ、ＢまたはＣの１以上」、および「Ａ、Ｂおよび／またはＣ」という表現の各々は、Ａのみ、Ｂのみ、Ｃのみ、ＡおよびＢともに、ＡおよびＣともに、ＢおよびＣともに、またはＡ、ＢおよびＣともに、ということを意味するものである。

上記の実施例および構成は完全なものでも網羅的なものでもない。以下に詳細に記載する事項の１以上を単独または組み合せにおいて利用して発明の他の実施例が可能であることが分かる。

図１に第１の実施例によるアーキテクチャ１００を示す。アーキテクチャ１００は音声通信装置１０４、および広域ネットワークすなわちＷＡＮ１１２によって相互接続された企業ネットワーク１０８を含む。企業ネットワーク１０８は、サーバ１２０にサービスを行うゲートウェイ１１６、ローカルエリアネットワーク（ＬＡＮ）１２４、および通信装置１２８を含む。

ゲートウェイ１１６は、対応するＬＡＮへの入力およびそこからの出力を制御できる適切な装置であればよい。ゲートウェイは対応する企業施設１０８における他の部材とネットワーク１１２との間に位置し、一方でサーバ１２０と内部通信装置１２８との間の通信を、他方でネットワーク１１２との間の通信を処理する。ゲートウェイ１１６は通常、ネットワーク１１２から対応するＬＡＮ１２４へのおよびその逆の電気信号を遮断して操作するとともに符号およびプロトコル変換を行う電子リピータの機能を含む。音声通信を処理するとき、ゲートウェイ１１６はさらに、サイレンス抑制およびジッタバッファ処理といった多数のＶｏＩＰ機能を実行する。従って、ゲートウェイ１１６はＶＡＤおよびＳＡＤを実行する音声アクティビティ検出器１３２ならびにサイレンス期間中に快適なノイズを発生させる快適ノイズ生成器（図示せず）を含む。快適なノイズは合成の背景ノイズであり、これにより、サイレンス抑制によって生じた絶対サイレンスの期間以降に聞き手が通信チャネルが切断されてしまったと感じるのを防止する。適切なゲートウェイの例として、アバイア・インコーポレーテッド社のＧ７００、Ｇ６５０、Ｇ３５０、クロスファイヤー、ＭＣＣ／ＳＣＣメディアゲートウェイおよびアクメパケット社のＮｅｔ−Ｎｅｔ４０００セッションボーダコントローラ等の修正版がある。

サーバ１２０は入着ボイスオーバーＩＰすなわちＶｏＩＰならびに電話呼のセットアップおよびティアーダウンメッセージのような呼制御シグナリングを処理する。ここで使われている用語「サーバ」は、メディアサーバ、コンピュータ、付属物などの他の種類のプロセッサベースの通信制御装置と同様に、ＡＣＤ、プライベートブランチ交換機ＰＢＸ（またはプライベート自動交換機ＰＡＸ）、企業の交換器、企業のサーバ、または他の種類の通信システムスイッチまたはサーバを含む。例示的に、図１のサーバはアバイア・インコーポレーテッド社の、修正版Advocate（登録商標）ソフトウェアを実行するDefinity（登録商標）プライベートブランチ交換機（ＰＢＸ）ベースのＡＣＤシステムもしくはMulti Vantage（登録商標）ＰＢＸ、CRM Central 2000 Server（登録商標）、Communication Manager（登録商標）、S8300（登録商標）メディアサーバ、SIP Enabled Services（登録商標）、および／またはAvaya Interaction Center（登録商標）などであればよい。

内部および外部通信装置１０４および１２８は好ましくはＩＰハードフォン（例えば、アバイア・インコーポレーテッド社の4600 Series IP Phones（登録商標））、ＩＰソフトフォン（例えば、アバイア・インコーポレーテッド社のIP Softphone（登録商標））、パーソナルデジタルアシスタントすなわちＰＤＡ、パーソナルコンピュータすなわちＰＣ、ラップトップ、パケット系Ｈ.３２０ビデオフォンおよび会議用ユニット、パケット系音声メッセージングおよび応答ユニット、ピアトゥピア系通信装置、パケット系の従来的なコンピュータ電話付属物のようなパケット交換型の局または通信装置であればよい。適切な装置の例として、アバイア・インコーポレーテッド社の4610（登録商標）、4621SW（登録商標）および9620（登録商標）ＩＰ電話などがある。

図１から分かるように、音声アクティビティ検出器１１６はアーキテクチャによって多くの構成部材に配置され得る。
検出器１３２は固定信号の周期性を、ピークおよび谷部（すなわち、変向点）を検出することによって利用する。検出器１３２は時間ベースの周期性に加えて振幅ベースの周期性も使用する。これは信号内の規則的パターンの検出に基づくものである。検出器１３２は固定電力信号を検出するのに多くの信号処理リソースを要しないので効率的である。

ｎ個のオーディオサンプルがバッファ１３６に記憶される。サンプル数は通常、宛先の通信装置に送信されるパケット（またはフレーム）に内包されるオーディオサンプルと同数である。Ｎは８０のことが多いが、これは８ｋＨｚでサンプリングされた音声の１０ミリ秒分を表している。検出器１３２はこのバッファ１３６を１回につき１サンプル反復し、信号のサンプリング部分に対する選択された特性を記録する。特に、信号の高い点および低い点（例えば、ピークおよび谷部）が記録される。この情報は記録された信号特徴のそれまでの履歴に合成された場合にパターンがどのようなものであるかを示す凝縮された履歴的スパンを提供する。

これに続き、収集された情報中でパターン（またはテンプレート）を探すための後段処理のステップが設けられる。これは通常、反復部分を探すことによってなされる。二周波数信号の例として、検出器１３２は２つの異なったピークと２つの異なった谷部を持つ信号パターンを探し、単一周波数の信号については、１つだけのピークと１つだけの谷部を持つ単一の信号パターンを探す。値が選択されたパターンに当てはまらないときは、サンプリングされた信号はよりランダムな信号とみなされアルゴリズムによって排除される。２つの値が類似であるとみなされる範囲を設定することによってノイズフロア波形および可能性のある干渉が考慮される。これによってアルゴリズムを背景ノイズの存在下で実行することができる。

図５にバッファ１３６でのサンプルの処理中に生成される記録データ構造の例を示す。図５にあるように、各オーディオサンプルは対応するサンプル識別子５００を有し、これには説明の便宜上連続番号が付して示してある。各サンプルは、前サンプルと比較して振幅が上昇トレンド（正）にあるのか下降トレンド（負）にあるのかについて解析される。トレンド５０４が隣接するサンプル間で変化すると、変向点すなわちピークまたは谷部が識別される。図５について、変向点はサンプル２と３の一方または間（ピーク）、７と８の一方または間（谷部）、１２と１３の一方または間（ピーク）、および１７と１８の一方または間（谷部）にあるものと識別される。変向点の場合は適性識別子５０８によって明示される（例えば、「Ｙ」は変向点が存在することを、「Ｎ」は変向点が存在しないことを意味する）。

前変向点までの時間的距離５１２は、サンプルサイズが固定の時間の期間（例えば、１０ミリ秒）に関連しているので、前変向点までのサンプル数を計数することによって追跡される。例えば、サンプル３における変向点に関連する時間的距離は（サンプル１より前にサンプルデータがないので）０であり、サンプル８では５（即ち、５０ミリ秒）であり、サンプル１３では５（即ち、５０ミリ秒）であり、サンプル１８では５（即ち、５０ミリ秒）である。最後に、各変向点の振幅５１６が記録される。例えば、サンプル３での変向点の振幅は＋１１０００単位であり、サンプル８では−１０５００単位であり、サンプル１３では＋１０７００単位であり、サンプル１８では−１１５００単位である。見て分かるように周期的な振幅は１６ビットの範囲（即ち、＋３２７６７から−３２７６８）である。さらに見て分かるように、メモリ空間を節約するためにデータ構造が変向点に関連するサンプルのみを含むように（例えば、サンプル３、８、１３および１８のみを含むように）省略できる。

そして、結果として記録されたデータは、その信号内での固定パターンの発生について、変向点およびそれらの点の振幅の周期性に基づいて検査される。信号内の固定パターンは、解析されたサンプル信号セグメントが固定信号であるかを判定するために、そのデータと、比較対象であるインターセプトトーン、リングバックトーン、ビジートーン、ダイヤルトーン、リオーダートーン等のような異なるタイプのプログレストーンの標準型である１以上のテンプレートとを比較することによって識別される。上記のように、二周波数信号において探されるパターンは、交番的に形成された第１および第２のセットの異なるピークならびに第１および第２のセットの異なる谷部を有する。単一周波数信号において探されるパターンは１セットのピークおよび１セットの谷部を有する。多くのプログレストーンは単一周波数信号である。パターンは変向点の時間的周期性だけでなく変向点での信号振幅も用いて規定される。セグメントがパターンにどれくらい合致するかを判定するために確率を用いてもよい。特定のしきい値未満の確率は固定信号とはみなされず、特定のしきい値以上の確率は固定信号とみなされる。図５のデータ構造から分かるように、サンプリングされた信号セグメントは固定信号であるとみなされるであろう。

以降のプロセスにはあらゆる適切なパターンマッチングアルゴリズムも使用できることが分かる。そのようなアルゴリズムは概略として所与のパターンの構成要素の存在について調べるものである。

比較的簡素なアルゴリズムの例として、サンプリングされたオーディオ信号セグメントを記述する第１および第２のアレイを構築するものがある。第１のアレイは変向点間の選択された時間的距離のインスタンスの数からなる。例えば、当該アレイは選択された時間的距離１、２、３、４・・・の各々について多数のインスタンスを含むであろう。第２のアレイは変向点での多数の選択された振幅範囲のインスタンスの数からなる。例えば、当該アレイは、Ａ、Ｂ、Ｃ、Ｄ・・・を振幅値として、振幅範囲Ａ−Ｂ、Ｂ−Ｃ、Ｃ−Ｄ・・・の各々について多数のインスタンスを含むであろう。そして、信号セグメントが固定信号のセグメントかもしれないことを判別するために、各アレイカラムにおける結果としてのインスタンスが特定の時間および振幅の周期性についてのテンプレートと比較されるようにしてもよい。例えば、テンプレートは異なるアレイカラム間のインスタンスの最小許容分布であってもよい。インスタンスが非常に広範に分布する場合は、比較結果は信号セグメントが変動的であることを示す一方、狭い分布は信号セグメントが固定的であることを示す。そして、第１および第２のアレイとの比較結果から得られるテンプレート一致確率を加重して、信号セグメントが固定的または変動的な信号の特性であるという合成された確率に達することができる。

さらに図４ＡおよびＢに解析手法を示す。図４ＡおよびＢはトーンのような固定または一定の信号、および、比較の目的として、ノイズフロア波形に基づく許容範囲を示すものである。種々のサンプル点が各信号セグメント中に示されている。図４Ｂの破線は周期信号パターンを示すものである。図４Ａおよび４Ｂから分かるように、サンプル点は図５の挙動と似たような挙動を示す。破線を見れば分かるように、各変向点の振幅は多少ずれているものの、図４Ｂの信号のパターンは次の信号セグメントにおいて繰り返される。本発明のアルゴリズムは波形のわずかな不完全性があってもパターンを検出することができるようなやり方で記述される。言い換えると、パターンは厳密に一致している必要はない。信号は背景ノイズによって歪められ得るのでこの事項は特に重要である。テンプレートと解析されたサンプリング信号セグメントとの信号振幅における実質的な類似性または非類似性は、通常は変向点間の時間的間隔における実質的な類似性または非類似性よりも重く重み付けされるので、上記不完全性は少なくともある程度考慮される。

図６を参照して検出器１３２の動作を説明する。
ステップ６００において、ｎ個のオーディオ信号サンプルからなるフレームが受信される。フレーム内のサンプルは受信されたアナログオーディオ信号がデジタルに変換されるときに生成される。以下のステップはサンプル毎およびフレーム毎に実行される。なお、パケットは普通１フレームに８０個のサンプルを含む。

ステップ６０４において、解析のために次のサンプルが選択される。
ステップ６０８において、選択されたサンプルによって示されるトレンドを判定する。なお、トレンドは通常、選択されたサンプルの振幅を前サンプルの振幅と比較することによって判定される。振幅が増加していればトレンドは正であり、減少していればトレンドは負である。

判断ブロック６１２において、サンプルが変向点を含むか否かが判別される。トレンドが前サンプルにおける正から選択サンプルにおける負へ変化した場合、または前サンプルにおける負から選択サンプルにおける正へ変化した場合には、選択されたサンプルは変向点を含むものとみなされる。

選択されたサンプルが変向点を含む場合、ステップ６１６において前変向点に対する時間的距離が判定される。これは選択されたサンプルと変向点を含む直近のサンプルとの間のサンプル数をカウントすることによってなされる。

ステップ６２０において、サンプル識別子、変向点表示、選択されたサンプルにおける変向点から前変向点までの時間的距離、および現在の変向点の振幅が保存される。

選択されたサンプルが変向点を含まない場合またはステップ６１６の後に、判断ブロック６２４において次のサンプルがあるか否かが判別される。次のサンプルがあれば検出器はステップ６０４に戻る。次のサンプルがなければ、検出器は判断ブロック６２８において、記録されたデータがパターンを規定しているか否かを判別する。記録されたデータがパターンを規定していそうな場合、検出器はステップ６２３において、選択されたパケット中のオーディオサンプルはサイレンスではないという結論を出し、ノイズフロア波形を用いるような他の技法によってなされたいかなる逆の判定結果も覆す。記録されたデータがパターンを規定していそうにない場合、検出器はステップ６３６において、選択されたパケット中のオーディオサンプルは固定信号でないという結論を出す。従って、他の技法によって判断された結果は変更されない。

フレームの中身に依存して、それはサイレンスとして破棄されるか、あるいはアクティブな信号としてパケット化されて宛先終端に送信される。

発明の多くのバリエーションや変更例を用いることができる。発明の他の特徴を提供することなしに、ある特徴を提供することは可能である。
例えば代替的な実施例において、本発明を会話符号化および自動会話認識のような非ＶｏＩＰアプリケーションに用いることができる。
さらに他の実施例として、限定する意図ではないが、特定用途向け集積回路すなわちＡＳＩＣ、プログラマブル論理アレイ、および他のハードウェアデバイス等の専用ハードウェアの実装も同様に構築してここに記載される方法を実施することができる。さらに、限定する意図ではないが、分散処理すなわちコンポーネント／オブジェクト分散処理、並列処理、仮想マシン処理等のソフトウェアの実装もまた構築してここに記載される方法を実施することができる。

また、本発明のソフトウェア実装は選択的に、ディスクもしくはテープのような磁気媒体、ディスクのような磁気−光もしくは光学媒体、またはメモリカードもしくは１以上の読み取り専用（不揮発性）メモリを内包する他のパッケージのような固体媒体といった有形の記憶媒体に記憶することもできる。ｅメールへのデジタルファイル添付または他の自動挿入情報アーカイブもしくはアーカイブのセットを有形の記憶媒体と同等の分散媒体として考えることができる。従って、発明は、本発明のソフトウェア実装が記憶される有形の記憶媒体または分散媒体ならびに従来技術的な同等物および後継の媒体を含むものとみなされる。

本発明は特定の標準やプロトコルを参照して実施例において実装される部材および機能を記載しているが、発明はそのような標準やプロトコルに限定されるものではない。ここには言及しない他の類似の標準やプロトコルも存在し、本発明に含まれるものとみなされる。さらに、ここに言及する標準およびプロトコルならびにここには言及しない他の類似の標準およびプロトコルは、本質的に同じ機能を有しつつもより速くより効率的な同等物の出現によって定期的に廃れてしまうものであるが、そのような同じ機能を持つ代替の標準やプロトコルも本発明に含まれる同等物とみなされる。

本発明は、種々の実施例において、種々の実施例、そのサブコンビネーションおよびサブセットを含む部材、方法、処理、システムおよび／または装置を実質的にここに図示および記載したものとして含む。当業者であれば、本開示を理解して本発明をどのように構成し使用するかは理解できるはずである。本発明は、種々の実施例において、例えば、パフォーマンスを向上するため、実装の容易性を達成するため、および／または実装のコストを低減するための、以前の装置または処理において使用してきたような事項が欠如している場合も含めて、ここに又は各実施例で図示および／または記載されない事項がなくても、装置および処理を設けることを含む。

発明に関する以上の記載は例示および説明の目的として開示されたものである。上述してきたことは発明を開示された形式に限定することを意図するものではない。例えば発明の詳細な説明において、開示を合理的なものとする目的で、発明の様々な特徴が１以上の実施例において終結されている。この開示方法は請求項に記載された発明が各請求項に明記されたものよりも多くの特徴を要件としているという意図を反映するものとして解釈されてはならない。そうではなく、特許請求の範囲が反映するように、進歩的な側面が単一の上記実施例における全ての特徴よりも少ない特徴において存在している。従って、各請求項はそれ自身で発明における独立した好適な実施例の上に成り立ちつつ、特許請求の範囲は発明の詳細な説明に含まれている。

さらに、発明の説明は１以上の実施例ならびにあるバリエーションおよび変更例の記載に含まれているが、本開示を理解した上で、他のバリエーションおよび変更例も、例えば当業者の技量と知識内に含まれるものとして発明の範囲内のものとなる。請求項に記載された発明に対する代替の、互換可能なおよび／または同等の構造、機能、範囲またはステップを含み―――そのような代替の、互換可能なおよび／または同等の構造、機能、範囲またはステップがここに開示されていてもいなくても、そして、あらゆる特許性ある関連事項に公然と特化することを意図することなく―――可能な拡張範囲までの代替的実施例を含む権利を含むことを意図するものである。

図１は本発明の第１の実施例による音声通信アーキテクチャを示す図である。図２は受信信号の電力における会話変動のノイズフロア電力波形の応答を示す図である。図３Ａおよび３Ｂは周期的信号波形および信号のほぼ一定の電力に対するノイズフロア電力波形の応答を示す図である。図４Ａおよび４Ｂは本発明の概念を説明するための周期信号波形を示す図である。図５は本発明の実施例によるデータ構造のセットを示す図である。図６は本発明の実施例によるフローチャートである。

符号の説明

１００．アーキテクチャ
１０４．音声通信装置
１０８．企業ネットワーク
１１２．ＷＡＮ
１１６．ゲートウェイ
１２０．サーバ
１２４．ＬＡＮ
１２８．通信装置
１３２．音声アクティビティ検出器
１３６．バッファ

Claims

方法であって、
（ａ）サンプリングされた信号セグメントを規定する複数のオーディオサンプルを受信するステップ、
（ｂ）該オーディオサンプルによって規定された信号振幅波形における変向点を識別するステップ、
（ｃ）識別された該変向点が実質的に固定の電力レベルの信号を表しているかを判定するステップ、および
（ｄ）識別された該変向点が実質的に固定の電力レベルの信号を表しているときに、該サンプリングされた信号セグメントはアクティブな信号からなるとみなすステップ
からなる方法。
請求項１記載の方法において、該サンプリングされた信号セグメントが第１および第２の通話者間の実際の音声呼の部分として受信され、該変向点が該信号振幅波形中のピークと谷部に対応し、該識別された変向点が実質的に固定の電力レベルの信号を表すものであるときに、該サンプリングされた信号セグメントが周期的パターンを含むものとみなされ、サイレンス抑制が実行状態となり、該サンプリングされた信号セグメントがアクティブな信号からなるときは、複数のオーディオサンプルを宛先ノードに送信し、該サンプリングされた信号セグメントがアクティブな信号からなるものではないとき、かつ、該セグメントが該第１および第２の通話者の音声エネルギーからなるものではないときは、該複数のオーディオサンプルを該宛先ノードに送信しないことを特徴とする方法。
請求項１記載の方法において、該方法がジッタバッファ整合点を決定するために使用され、さらに、
（ｅ）該信号振幅波形における隣り合う識別された変向点間の時間的距離を特定するステップ、
（ｆ）該信号振幅波形における隣り合う識別された変向点間の時間的距離が実質的に固定の電力レベルの信号を表すものであるかを判定するステップ、および
（ｇ）該時間的距離は実質的に固定の電力レベルの信号を表すものであり、かつ、該識別された変向点が実質的に固定の電力レベルの信号を表しているときは、該サンプリングされた信号セグメントはアクティブな信号からなるものであるとみなすステップであって、該サンプリングされた信号セグメントがアクティブな信号からなるかを判定する際に、該ステップ（ｃ）の結果が該ステップ（ｆ）の結果よりも重く重み付けされているようなステップ
からなる方法。
請求項１記載の方法において、該変向点がゼロクロスするものではなく、該識別された変向点が実質的に固定の電力レベルの信号を表すものであるときは、該サンプリングされた信号セグメントがプログレストーンを含むものとみなされる方法。
請求項１記載のステップを実行するための、プロセッサによって実行可能な指令を含むコンピュータ可読媒体。
装置であって、
（ａ）音声による会話中にアナログオーディオ信号を受信するための入力手段、
（ｂ）該アナログオーディオ信号をデジタル形式の値に変換するための変換手段であって、該デジタル形式の値が複数の会話フレームからなり、各会話フレームが複数のオーディオサンプルからなり、各オーディオサンプルが信号振幅からなるとともに固定の継続期間を有するような変換手段、
（ｃ）該オーディオサンプル中の信号振幅の変向点を識別するための識別手段、
（ｄ）識別された該変向点が周期信号を表すものかを判定するための判定手段、および
（ｅ）識別された該変向点が周期信号を表すものであるときに、選択された会話フレームを宛先終端に送信するための送信手段
からなる装置。
請求項６記載の装置において、該識別された変向点が周期信号を表すものであるときは、ジッタバッファの整合が許可されず、該選択されたフレームが音声による会話からなるものではないときには、該送信手段が該選択された会話フレームを該宛先終端に送信せず、ジッタバッファの整合が許可されないことを特徴とする装置。
請求項６記載の装置において、該周期信号は実質的に固定の電力レベルを有し、該識別手段が隣り合う識別された変向点間の時間的距離を特定し、該判定手段が、隣り合う識別された変向点間の該時間的距離が周期信号を表すものであるかを判定し、該時間的距離が周期信号を表すものであるとき、かつ、該識別された変向点が周期信号を表すものであるときは、該選択されたフレームがプログレストーンを含むものとみなされる装置。
請求項６記載の装置において、該変向点がゼロクロスするものではなく、該識別された変向点が周期信号を表すものであるときは、該サンプリングされた信号セグメントがプログレストーンを含むものとみなされる装置。
請求項６記載の装置であって、ゲートウェイである装置。
請求項６記載の装置であって、パケット交換系音声通信装置である装置。