JP2008077088A - 固定電力信号を検出する効率的な音声アクティビティ検出器 - Google Patents

固定電力信号を検出する効率的な音声アクティビティ検出器 Download PDF

Info

Publication number
JP2008077088A
JP2008077088A JP2007241698A JP2007241698A JP2008077088A JP 2008077088 A JP2008077088 A JP 2008077088A JP 2007241698 A JP2007241698 A JP 2007241698A JP 2007241698 A JP2007241698 A JP 2007241698A JP 2008077088 A JP2008077088 A JP 2008077088A
Authority
JP
Japan
Prior art keywords
signal
turning point
fixed power
segment
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007241698A
Other languages
English (en)
Other versions
JP5058736B2 (ja
JP2008077088A5 (ja
Inventor
Mei-Sing Ong
オン メイ−シン
Luke A Tucker
エー.タッカー ルーク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Avaya Technology LLC
Original Assignee
Avaya Technology LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Avaya Technology LLC filed Critical Avaya Technology LLC
Publication of JP2008077088A publication Critical patent/JP2008077088A/ja
Publication of JP2008077088A5 publication Critical patent/JP2008077088A5/ja
Application granted granted Critical
Publication of JP5058736B2 publication Critical patent/JP5058736B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

【課題】音声通信において、会話信号を非会話信号から区別する。
【解決手段】本発明は、実質的に固定の電力の信号または周期性のある信号を識別するために振幅のピークおよび谷部の周期性を用いる音声アクティビティ検出器に向けられている。概略として、変向点(例えば、ピークおよび谷部)を検出するために振幅ベースの周期性を用いること、およびサンプリングされたオーディオ信号セグメントが周期信号であるのか、実質的に固定の電力レベルの信号であるのかを判別するために、識別された変向点のパターンマッチングを行う。
【選択図】図1

Description

本発明は概略として信号処理に関し、特に会話信号を非会話信号から区別することに関する。
音声は、回路交換であれパケット交換であれ、アナログ信号をデジタル信号に変換することによってデジタル電話ネットワークを介して搬送される。パケット交換ネットワークの場合、デジタル信号を表すオーディオサンプルがパケット化され、パケット化されたサンプルがネットワーク上で電気的に送信される。パケット化されたサンプルは宛先ノードで受信され、サンプルはパケット化を解かれ、アナログ信号が再生され第三者に提供される。
他の通話者と話している間、通話者双方とも話していない期間がある。そのような期間中、(背景音声を含むことがある)背景ノイズが電話機のマイクロフォンによって受信されることがある。呼に対していずれの通話者も話していない期間や、トーンのような聞き取れる呼信号がない期間に受信される背景ノイズのようなオーディオ情報を、以下「サイレンス」と称することにする。
サイレンスの抑制は、電話呼に関与する通話者の一方が話していないときにネットワーク上にオーディオ情報を送信しないようにする処理であり、それにより帯域使用を実質的に減らし、ジッタバッファ整合点の特定をアシストする。ボイスオーバーインターネットプロトコル(VoIP)システムでは、音声アクティビティ検出(VAD)または会話アクティビティ検出(SAD)を用いて、背景ノイズを動的に監視し、適切な会話検出しきい値を設定し、ジッタバッファ整合点の特定を行う。オーディオ信号またはそのサンプルにおいて、VADは人間の会話の有無を検出し、この情報を用いてサイレンス期間を識別する。サイレンス抑制が有効になっていると、そのようなサイレンス期間に受信されたオーディオ情報はネットワークを介して他方の(宛先)終端には送信されない。会話において、ある1つの時点では通常は一方の通話者がしゃべっていることを考慮すると、サイレンス抑制は標準的な電話呼の期間を通じて全体的な帯域の節約を50%程度達成できる。
発声された会話と背景ノイズとの区別は難しいことがある。さらに、VADまたはSADはクリッピングを避けるために非常に速く行われなければならない。これらの課題に対処するため、複雑さの度合いが異なる多数のアルゴリズムが使われてきた。それらの例として、エネルギーしきい値に基づくもの(例えば、信号対ノイズ比すなわちSNR)、ピッチ検出、スペクトルすなわちスペクトル形状の解析、ゼロクロス率(例えば、信号振幅が正から負へどれだけ頻繁に変化するかを検出するもの)、周期性測定、線形予測符号すなわちLPC残存領域における高次統計(例えば、背景信号と入力信号の形の不一致があるときに予測コードエラーまたは残存部のエネルギーを増大するもの)、およびこれらの組み合せ等がある。
ある一般的なサイレンス抑制手法では、信号を音声セグメントとサイレンスセグメントに振り分けるための確実な判断材料として信号の電力が用いられている。これは会話存在下での全ての信号の電力が背景ノイズよりも十分に大きいという前提に立つものである。音声動作として分類されるべきセグメントに対して最小SNRを表すためにしきい値が用いられる。このしきい値はノイズフロアとして知られ、信号の電力を用いて動的に再計算される。信号のSNRがしきい値までの範囲で低下すると、音声動作であるとみなされる。そうでない場合は背景ノイズであるとみなされる。この振る舞いは図2から理解できる。図2には、受信オーディオ信号の振幅波形200、受信オーディオ信号の電力波形204およびノイズフロア電力波形208が図示されている。ノイズフロアの値は信号波形200の平滑化表示である。図はさらに、検出された音声動作セグメントおよびサイレンスセグメントとしてそれぞれ212および216を示している。図2から分かるように、ノイズフロア波形208は、信号が会話セグメント220および224を含むときには信号電力の大きな増加のために上昇し、そのセグメントの直後に信号電力の大きな減少のために下降する傾向にある。刻々と変動するノイズフロアの実行を通じて変化する背景ノイズに適応する能力がこのアルゴリズムの核心にある。
上記VAD手法は、プログレストーン(例えば、インターセプトトーン、リングバックトーン、ビジートーン、ダイヤルトーン、リオーダートーン等)のようなほぼ一定の電力の信号を検出することが難しい場合がある。上記手法はこのようなトーンを背景ノイズとして識別してしまうことがあり、そうなるとそれらは他方の終端には送信されない。プログレストーンを検出することについての課題を図3Aおよび3Bに示す。図3Aはプログレストーンを正弦波の波形300として示す。図3Bはほぼ一定の電力レベルを持つ波形304として表されたトーンを示す。ノイズフロアが信号の電力に基づいているので、信号がほぼ一定の電力を持つ場合、ノイズフロア波形308は波形304に近づくことになる。上記VAD手法を用いると、期間312は音声動作であるとして判断されるのでおそらく他方の終端に送信されるが、期間316はサイレンスであると誤って判断されるので他方の終端には送信されないであろう。従って、他方の通話者はせいぜいトーンの一部だけを聴くことになり、それによって彼または彼女は電話機が故障したと思ってしまうことになる。この誤判断はさらにジッタバッファの不整合を引き起こす(これによってクリックやポップが他人に聞かれてしまう)可能性がある。
固定電力信号は、信号の周波数スペクトルを高速フーリエ変換(FFT)やケプストラル分析のような複雑な技術を用いて解析するといったようなより精巧な手法によって確実に検出することができる。しかし、信号を周波数領域に変換するのに必要とする処理およびメモリにかかるコストは非常に高く、そしてリアルタイムのアプリケーションにおいて実現されるようなアルゴリズムに対しては処理時間が長過ぎる。FFTのような技術によっては、入力サンプルのバッファ(ブロッキング)を設ける必要性からディレイを導入し、および/または記憶するための大量のランダムアクセスメモリ(RAM)を用いている。実行可能な手段は必然的に時間ベースのものとなる。
しきい値VADは最も一般的に用いられている手段である。エネルギーしきい値手法の下では、(プログレストーンを含む)会話存在下における全ての信号のエネルギーが予め設定されたしきい値よりも大きいと仮定されている。しきい値より大きい振幅を持つ信号はVADの結果にかかわらず音声動作とみなされる。この手法は多くのプログレストーン情報を保護するものの、あるアプリケーションにおいては成り立たない仮定となることがあり、低い正解率をもたらしてしまう。ノイズレベルを確かめる手段として振幅確率分布を用いるといった信号の統計解析は使用されてこなかった。しかし、これらの方法もコンピュータとして高価であり、VoIPゲートウェイ設定には適さない。
ある程度成功したアルゴリズムがアバイア・インコーポレーテッド社のCrossfire(登録商標)ゲートウェイにおいて使用されてきた。このゲートウェイはゼロクロス率手法を用いるとともに、固定電力信号の時間的周期性を利用するものである。ノイズ信号は本質的にランダムであるという前提に立っている。各フレームのゼロクロス率が監視される。一定ゼロクロス率であることは周期的性質、従って音声動作セグメントを意味する。言い換えると、いくつかのゼロクロス点の周期性が判別され、固定電力信号のゼロクロス動作の挙動特性を識別するためにパターンマッチング技術が用いられる。
同様のゼロクロスアルゴリズムがITU−Tによって標準化されたG.729会話符号器に対するG.729B拡張において使用される。当該拡張の下では80個のオーディオサンプルからなる会話フレームについて10ミリ秒毎に選択がなされる。会話フレームから抽出されたパラメータには全帯域のエネルギー、低い帯域のエネルギー、ラインスペクトル周波数(LSF)係数、およびゼロクロス率が含まれる。現在のフレームから抽出された4つのパラメータとノイズの移動平均とのそれぞれの差がフレーム毎に計算される。それらの差はノイズ特性を表している。差が大きい場合は現在のフレームが音声であることを意味し、逆の場合は音声がないことを意味する。VADによってなされる判断は複雑な複境界アルゴリズムに基づいている。
これらの方法の問題は、一定のゼロクロス率が常に周期的な信号に対応しているとは限らないことである。ノイズ信号はある線を偶然に一定の率でクロスすることがある。各セグメントは80オーディオサンプルだけで構成されているので、この方法の正確さは小さいサンプル空間によって制限されている。ゼロクロス点識別におけるエラーによって、やはり一定の電力信号が背景ノイズとして誤って判断され得る。この問題に対処するため、上記のような技法は、高い振幅の信号が常にアクティブな信号として判断されることを確実にするための追加的な固定しきい値の使用によって改善されるかもしれない。しかし、そのようなしきい値の使用によって今度は低い振幅の固定電力信号がサイレンスとして誤検出されてしまう。
さらに他のVAD技法がTucker R.によって、1992年8月発行の彼の論文「Voice Activity Detection Using a Periodicity Measure」で提案されている。彼は、SNRにおいて0dBまで確実に動作し、ほとんどの会話を−5dBで検出できるVADを開示している。検出器は最小二乗周期性推定器を入力信号に適用し、十分な周期性が見つかった時にトリガをかけるものである。しかし、それは正確なトークスプラウト境界を見つけることを目的とするものではなく、会話をログ記録するアプリケーション(失われた会話に対して可能な小さいマージンを含むのは簡単である)に適している。なお、「トークスプラウト」境界とは、会話と非会話オーディオ情報との間の境界(例えば、「サイレンス」の期間と発声された会話の期間との境界)のことをいう。この解決手段は正確なトークスプラウト境界の検出が核心となるようなVoIPシステムには適さない。
これらの又は他の必要性が種々の実施例および本発明の構成によって対処される。本発明は概略として、変向点(例えば、ピークおよび谷部)を検出するために振幅ベースの周期性を用いること、およびサンプリングされたオーディオ信号セグメントが周期信号であるのか、実質的に固定の電力レベルの信号(以下、「実質的固定電力信号」という)であるのかを判別するために、識別された変向点のパターンマッチングを行うことに向けられている。実質的固定電力信号の例としてプログレストーン等がある。
本発明の第1の実施例は、
(a)サンプリングされた信号セグメントを規定する複数のオーディオサンプルを受信するステップ、
(b)オーディオサンプルによって規定された信号振幅波形における変向点を識別するステップ、
(c)識別された変向点が実質的に固定の電力レベルの信号を表しているかを判定するステップ、および
(d)識別された変向点が実質的に固定の電力レベルの信号を表しているときに、サンプリングされた信号セグメントがアクティブな信号からなるとみなすステップ
を含む方法である。
本発明の第2の実施例は、
(a)音声による会話中にアナログオーディオ信号を受信するステップ、
(b)アナログオーディオ信号をデジタル形式の値に変換するステップであって、デジタル形式の値が複数の会話フレームからなり、各会話フレームが複数のオーディオサンプルからなり、各オーディオサンプルが信号振幅からなるとともに固定の継続期間を有するようなステップ、
(c)オーディオサンプル中の信号振幅の変向点を識別するステップ、
(d)識別された変向点が周期信号を表すものかを判定するステップ、および
(e)識別された変向点が周期信号を表すものであるときに、選択された会話フレームを宛先終端に送信するステップ
を含む方法である。
本発明はノイズフロア波形によるだけでなく、固定電力信号を識別するための時間ベースかつ振幅ベースの他の技術の組み合せを用いることもできる。振幅ベースおよび時間ベースの周期性を利用することによって、時間ベースの周期性のみまたは時間ベースの周期性とゼロクロスの組み合せによるものよりも、信号波形のより正確な規定を行うことができる。従って、固定電力信号の存在を正確にかつ効率的に検出できる。
発明によって時間ベースの周期性のみによる手法を改善することができる。そのような方法の正確さは80サンプル中の1の範囲内にある。振幅ベースの周期性を利用することによって、正確さは65536振幅レベル中の1まで改善できる。周期的な振幅は16ビットの範囲(即ち、+32767から−32768)である。
発明は会話抑制を実行するための他の解決手段よりも非常に少ないリソースしか必要とせず、これによって、発明を実施するゲートウェイにおける高いチャネルカウントが可能となる。例えば、推定履歴バッファが100個のピーク/谷部の値でサイズ決定されると、それは各サンプルが16ビットからなるので200バイトのRAM使用量に相当する。通常、パターンは40個未満の変向点を有していた。処理オーバーヘッドが比較的低いので会話アクティビティ検出は素早く行われ、クリッピングを回避することができる。
発明はトークスプラウト境界を確実に識別することができる。
これら及び他の利点はここに含まれる発明の開示から明らかになるであろう。
記載されているように、「少なくとも1つの」、「1以上の」、「および/または」は、用法として結合的および分離的両方の意味として拡張可能に解釈されるものである。例えば、「A、BおよびCの少なくとも1つ」、「A、BまたはCの1つ」、「A、BおよびCの1つ以上」、「A、BまたはCの1以上」、および「A、Bおよび/またはC」という表現の各々は、Aのみ、Bのみ、Cのみ、AおよびBともに、AおよびCともに、BおよびCともに、またはA、BおよびCともに、ということを意味するものである。
上記の実施例および構成は完全なものでも網羅的なものでもない。以下に詳細に記載する事項の1以上を単独または組み合せにおいて利用して発明の他の実施例が可能であることが分かる。
図1に第1の実施例によるアーキテクチャ100を示す。アーキテクチャ100は音声通信装置104、および広域ネットワークすなわちWAN112によって相互接続された企業ネットワーク108を含む。企業ネットワーク108は、サーバ120にサービスを行うゲートウェイ116、ローカルエリアネットワーク(LAN)124、および通信装置128を含む。
ゲートウェイ116は、対応するLANへの入力およびそこからの出力を制御できる適切な装置であればよい。ゲートウェイは対応する企業施設108における他の部材とネットワーク112との間に位置し、一方でサーバ120と内部通信装置128との間の通信を、他方でネットワーク112との間の通信を処理する。ゲートウェイ116は通常、ネットワーク112から対応するLAN124へのおよびその逆の電気信号を遮断して操作するとともに符号およびプロトコル変換を行う電子リピータの機能を含む。音声通信を処理するとき、ゲートウェイ116はさらに、サイレンス抑制およびジッタバッファ処理といった多数のVoIP機能を実行する。従って、ゲートウェイ116はVADおよびSADを実行する音声アクティビティ検出器132ならびにサイレンス期間中に快適なノイズを発生させる快適ノイズ生成器(図示せず)を含む。快適なノイズは合成の背景ノイズであり、これにより、サイレンス抑制によって生じた絶対サイレンスの期間以降に聞き手が通信チャネルが切断されてしまったと感じるのを防止する。適切なゲートウェイの例として、アバイア・インコーポレーテッド社のG700、G650、G350、クロスファイヤー、MCC/SCCメディアゲートウェイおよびアクメパケット社のNet−Net4000セッションボーダコントローラ等の修正版がある。
サーバ120は入着ボイスオーバーIPすなわちVoIPならびに電話呼のセットアップおよびティアーダウンメッセージのような呼制御シグナリングを処理する。ここで使われている用語「サーバ」は、メディアサーバ、コンピュータ、付属物などの他の種類のプロセッサベースの通信制御装置と同様に、ACD、プライベートブランチ交換機PBX(またはプライベート自動交換機PAX)、企業の交換器、企業のサーバ、または他の種類の通信システムスイッチまたはサーバを含む。例示的に、図1のサーバはアバイア・インコーポレーテッド社の、修正版Advocate(登録商標)ソフトウェアを実行するDefinity(登録商標)プライベートブランチ交換機(PBX)ベースのACDシステムもしくはMulti Vantage(登録商標)PBX、CRM Central 2000 Server(登録商標)、Communication Manager(登録商標)、S8300(登録商標)メディアサーバ、SIP Enabled Services(登録商標)、および/またはAvaya Interaction Center(登録商標)などであればよい。
内部および外部通信装置104および128は好ましくはIPハードフォン(例えば、アバイア・インコーポレーテッド社の4600 Series IP Phones(登録商標))、IPソフトフォン(例えば、アバイア・インコーポレーテッド社のIP Softphone(登録商標))、パーソナルデジタルアシスタントすなわちPDA、パーソナルコンピュータすなわちPC、ラップトップ、パケット系H.320ビデオフォンおよび会議用ユニット、パケット系音声メッセージングおよび応答ユニット、ピアトゥピア系通信装置、パケット系の従来的なコンピュータ電話付属物のようなパケット交換型の局または通信装置であればよい。適切な装置の例として、アバイア・インコーポレーテッド社の4610(登録商標)、4621SW(登録商標)および9620(登録商標)IP電話などがある。
図1から分かるように、音声アクティビティ検出器116はアーキテクチャによって多くの構成部材に配置され得る。
検出器132は固定信号の周期性を、ピークおよび谷部(すなわち、変向点)を検出することによって利用する。検出器132は時間ベースの周期性に加えて振幅ベースの周期性も使用する。これは信号内の規則的パターンの検出に基づくものである。検出器132は固定電力信号を検出するのに多くの信号処理リソースを要しないので効率的である。
n個のオーディオサンプルがバッファ136に記憶される。サンプル数は通常、宛先の通信装置に送信されるパケット(またはフレーム)に内包されるオーディオサンプルと同数である。Nは80のことが多いが、これは8kHzでサンプリングされた音声の10ミリ秒分を表している。検出器132はこのバッファ136を1回につき1サンプル反復し、信号のサンプリング部分に対する選択された特性を記録する。特に、信号の高い点および低い点(例えば、ピークおよび谷部)が記録される。この情報は記録された信号特徴のそれまでの履歴に合成された場合にパターンがどのようなものであるかを示す凝縮された履歴的スパンを提供する。
これに続き、収集された情報中でパターン(またはテンプレート)を探すための後段処理のステップが設けられる。これは通常、反復部分を探すことによってなされる。二周波数信号の例として、検出器132は2つの異なったピークと2つの異なった谷部を持つ信号パターンを探し、単一周波数の信号については、1つだけのピークと1つだけの谷部を持つ単一の信号パターンを探す。値が選択されたパターンに当てはまらないときは、サンプリングされた信号はよりランダムな信号とみなされアルゴリズムによって排除される。2つの値が類似であるとみなされる範囲を設定することによってノイズフロア波形および可能性のある干渉が考慮される。これによってアルゴリズムを背景ノイズの存在下で実行することができる。
図5にバッファ136でのサンプルの処理中に生成される記録データ構造の例を示す。図5にあるように、各オーディオサンプルは対応するサンプル識別子500を有し、これには説明の便宜上連続番号が付して示してある。各サンプルは、前サンプルと比較して振幅が上昇トレンド(正)にあるのか下降トレンド(負)にあるのかについて解析される。トレンド504が隣接するサンプル間で変化すると、変向点すなわちピークまたは谷部が識別される。図5について、変向点はサンプル2と3の一方または間(ピーク)、7と8の一方または間(谷部)、12と13の一方または間(ピーク)、および17と18の一方または間(谷部)にあるものと識別される。変向点の場合は適性識別子508によって明示される(例えば、「Y」は変向点が存在することを、「N」は変向点が存在しないことを意味する)。
前変向点までの時間的距離512は、サンプルサイズが固定の時間の期間(例えば、10ミリ秒)に関連しているので、前変向点までのサンプル数を計数することによって追跡される。例えば、サンプル3における変向点に関連する時間的距離は(サンプル1より前にサンプルデータがないので)0であり、サンプル8では5(即ち、50ミリ秒)であり、サンプル13では5(即ち、50ミリ秒)であり、サンプル18では5(即ち、50ミリ秒)である。最後に、各変向点の振幅516が記録される。例えば、サンプル3での変向点の振幅は+11000単位であり、サンプル8では−10500単位であり、サンプル13では+10700単位であり、サンプル18では−11500単位である。見て分かるように周期的な振幅は16ビットの範囲(即ち、+32767から−32768)である。さらに見て分かるように、メモリ空間を節約するためにデータ構造が変向点に関連するサンプルのみを含むように(例えば、サンプル3、8、13および18のみを含むように)省略できる。
そして、結果として記録されたデータは、その信号内での固定パターンの発生について、変向点およびそれらの点の振幅の周期性に基づいて検査される。信号内の固定パターンは、解析されたサンプル信号セグメントが固定信号であるかを判定するために、そのデータと、比較対象であるインターセプトトーン、リングバックトーン、ビジートーン、ダイヤルトーン、リオーダートーン等のような異なるタイプのプログレストーンの標準型である1以上のテンプレートとを比較することによって識別される。上記のように、二周波数信号において探されるパターンは、交番的に形成された第1および第2のセットの異なるピークならびに第1および第2のセットの異なる谷部を有する。単一周波数信号において探されるパターンは1セットのピークおよび1セットの谷部を有する。多くのプログレストーンは単一周波数信号である。パターンは変向点の時間的周期性だけでなく変向点での信号振幅も用いて規定される。セグメントがパターンにどれくらい合致するかを判定するために確率を用いてもよい。特定のしきい値未満の確率は固定信号とはみなされず、特定のしきい値以上の確率は固定信号とみなされる。図5のデータ構造から分かるように、サンプリングされた信号セグメントは固定信号であるとみなされるであろう。
以降のプロセスにはあらゆる適切なパターンマッチングアルゴリズムも使用できることが分かる。そのようなアルゴリズムは概略として所与のパターンの構成要素の存在について調べるものである。
比較的簡素なアルゴリズムの例として、サンプリングされたオーディオ信号セグメントを記述する第1および第2のアレイを構築するものがある。第1のアレイは変向点間の選択された時間的距離のインスタンスの数からなる。例えば、当該アレイは選択された時間的距離1、2、3、4・・・の各々について多数のインスタンスを含むであろう。第2のアレイは変向点での多数の選択された振幅範囲のインスタンスの数からなる。例えば、当該アレイは、A、B、C、D・・・を振幅値として、振幅範囲A−B、B−C、C−D・・・の各々について多数のインスタンスを含むであろう。そして、信号セグメントが固定信号のセグメントかもしれないことを判別するために、各アレイカラムにおける結果としてのインスタンスが特定の時間および振幅の周期性についてのテンプレートと比較されるようにしてもよい。例えば、テンプレートは異なるアレイカラム間のインスタンスの最小許容分布であってもよい。インスタンスが非常に広範に分布する場合は、比較結果は信号セグメントが変動的であることを示す一方、狭い分布は信号セグメントが固定的であることを示す。そして、第1および第2のアレイとの比較結果から得られるテンプレート一致確率を加重して、信号セグメントが固定的または変動的な信号の特性であるという合成された確率に達することができる。
さらに図4AおよびBに解析手法を示す。図4AおよびBはトーンのような固定または一定の信号、および、比較の目的として、ノイズフロア波形に基づく許容範囲を示すものである。種々のサンプル点が各信号セグメント中に示されている。図4Bの破線は周期信号パターンを示すものである。図4Aおよび4Bから分かるように、サンプル点は図5の挙動と似たような挙動を示す。破線を見れば分かるように、各変向点の振幅は多少ずれているものの、図4Bの信号のパターンは次の信号セグメントにおいて繰り返される。本発明のアルゴリズムは波形のわずかな不完全性があってもパターンを検出することができるようなやり方で記述される。言い換えると、パターンは厳密に一致している必要はない。信号は背景ノイズによって歪められ得るのでこの事項は特に重要である。テンプレートと解析されたサンプリング信号セグメントとの信号振幅における実質的な類似性または非類似性は、通常は変向点間の時間的間隔における実質的な類似性または非類似性よりも重く重み付けされるので、上記不完全性は少なくともある程度考慮される。
図6を参照して検出器132の動作を説明する。
ステップ600において、n個のオーディオ信号サンプルからなるフレームが受信される。フレーム内のサンプルは受信されたアナログオーディオ信号がデジタルに変換されるときに生成される。以下のステップはサンプル毎およびフレーム毎に実行される。なお、パケットは普通1フレームに80個のサンプルを含む。
ステップ604において、解析のために次のサンプルが選択される。
ステップ608において、選択されたサンプルによって示されるトレンドを判定する。なお、トレンドは通常、選択されたサンプルの振幅を前サンプルの振幅と比較することによって判定される。振幅が増加していればトレンドは正であり、減少していればトレンドは負である。
判断ブロック612において、サンプルが変向点を含むか否かが判別される。トレンドが前サンプルにおける正から選択サンプルにおける負へ変化した場合、または前サンプルにおける負から選択サンプルにおける正へ変化した場合には、選択されたサンプルは変向点を含むものとみなされる。
選択されたサンプルが変向点を含む場合、ステップ616において前変向点に対する時間的距離が判定される。これは選択されたサンプルと変向点を含む直近のサンプルとの間のサンプル数をカウントすることによってなされる。
ステップ620において、サンプル識別子、変向点表示、選択されたサンプルにおける変向点から前変向点までの時間的距離、および現在の変向点の振幅が保存される。
選択されたサンプルが変向点を含まない場合またはステップ616の後に、判断ブロック624において次のサンプルがあるか否かが判別される。次のサンプルがあれば検出器はステップ604に戻る。次のサンプルがなければ、検出器は判断ブロック628において、記録されたデータがパターンを規定しているか否かを判別する。記録されたデータがパターンを規定していそうな場合、検出器はステップ623において、選択されたパケット中のオーディオサンプルはサイレンスではないという結論を出し、ノイズフロア波形を用いるような他の技法によってなされたいかなる逆の判定結果も覆す。記録されたデータがパターンを規定していそうにない場合、検出器はステップ636において、選択されたパケット中のオーディオサンプルは固定信号でないという結論を出す。従って、他の技法によって判断された結果は変更されない。
フレームの中身に依存して、それはサイレンスとして破棄されるか、あるいはアクティブな信号としてパケット化されて宛先終端に送信される。
発明の多くのバリエーションや変更例を用いることができる。発明の他の特徴を提供することなしに、ある特徴を提供することは可能である。
例えば代替的な実施例において、本発明を会話符号化および自動会話認識のような非VoIPアプリケーションに用いることができる。
さらに他の実施例として、限定する意図ではないが、特定用途向け集積回路すなわちASIC、プログラマブル論理アレイ、および他のハードウェアデバイス等の専用ハードウェアの実装も同様に構築してここに記載される方法を実施することができる。さらに、限定する意図ではないが、分散処理すなわちコンポーネント/オブジェクト分散処理、並列処理、仮想マシン処理等のソフトウェアの実装もまた構築してここに記載される方法を実施することができる。
また、本発明のソフトウェア実装は選択的に、ディスクもしくはテープのような磁気媒体、ディスクのような磁気−光もしくは光学媒体、またはメモリカードもしくは1以上の読み取り専用(不揮発性)メモリを内包する他のパッケージのような固体媒体といった有形の記憶媒体に記憶することもできる。eメールへのデジタルファイル添付または他の自動挿入情報アーカイブもしくはアーカイブのセットを有形の記憶媒体と同等の分散媒体として考えることができる。従って、発明は、本発明のソフトウェア実装が記憶される有形の記憶媒体または分散媒体ならびに従来技術的な同等物および後継の媒体を含むものとみなされる。
本発明は特定の標準やプロトコルを参照して実施例において実装される部材および機能を記載しているが、発明はそのような標準やプロトコルに限定されるものではない。ここには言及しない他の類似の標準やプロトコルも存在し、本発明に含まれるものとみなされる。さらに、ここに言及する標準およびプロトコルならびにここには言及しない他の類似の標準およびプロトコルは、本質的に同じ機能を有しつつもより速くより効率的な同等物の出現によって定期的に廃れてしまうものであるが、そのような同じ機能を持つ代替の標準やプロトコルも本発明に含まれる同等物とみなされる。
本発明は、種々の実施例において、種々の実施例、そのサブコンビネーションおよびサブセットを含む部材、方法、処理、システムおよび/または装置を実質的にここに図示および記載したものとして含む。当業者であれば、本開示を理解して本発明をどのように構成し使用するかは理解できるはずである。本発明は、種々の実施例において、例えば、パフォーマンスを向上するため、実装の容易性を達成するため、および/または実装のコストを低減するための、以前の装置または処理において使用してきたような事項が欠如している場合も含めて、ここに又は各実施例で図示および/または記載されない事項がなくても、装置および処理を設けることを含む。
発明に関する以上の記載は例示および説明の目的として開示されたものである。上述してきたことは発明を開示された形式に限定することを意図するものではない。例えば発明の詳細な説明において、開示を合理的なものとする目的で、発明の様々な特徴が1以上の実施例において終結されている。この開示方法は請求項に記載された発明が各請求項に明記されたものよりも多くの特徴を要件としているという意図を反映するものとして解釈されてはならない。そうではなく、特許請求の範囲が反映するように、進歩的な側面が単一の上記実施例における全ての特徴よりも少ない特徴において存在している。従って、各請求項はそれ自身で発明における独立した好適な実施例の上に成り立ちつつ、特許請求の範囲は発明の詳細な説明に含まれている。
さらに、発明の説明は1以上の実施例ならびにあるバリエーションおよび変更例の記載に含まれているが、本開示を理解した上で、他のバリエーションおよび変更例も、例えば当業者の技量と知識内に含まれるものとして発明の範囲内のものとなる。請求項に記載された発明に対する代替の、互換可能なおよび/または同等の構造、機能、範囲またはステップを含み―――そのような代替の、互換可能なおよび/または同等の構造、機能、範囲またはステップがここに開示されていてもいなくても、そして、あらゆる特許性ある関連事項に公然と特化することを意図することなく―――可能な拡張範囲までの代替的実施例を含む権利を含むことを意図するものである。
図1は本発明の第1の実施例による音声通信アーキテクチャを示す図である。 図2は受信信号の電力における会話変動のノイズフロア電力波形の応答を示す図である。 図3Aおよび3Bは周期的信号波形および信号のほぼ一定の電力に対するノイズフロア電力波形の応答を示す図である。 図4Aおよび4Bは本発明の概念を説明するための周期信号波形を示す図である。 図5は本発明の実施例によるデータ構造のセットを示す図である。 図6は本発明の実施例によるフローチャートである。
符号の説明
100.アーキテクチャ
104.音声通信装置
108.企業ネットワーク
112.WAN
116.ゲートウェイ
120.サーバ
124.LAN
128.通信装置
132.音声アクティビティ検出器
136.バッファ

Claims (11)

  1. 方法であって、
    (a)サンプリングされた信号セグメントを規定する複数のオーディオサンプルを受信するステップ、
    (b)該オーディオサンプルによって規定された信号振幅波形における変向点を識別するステップ、
    (c)識別された該変向点が実質的に固定の電力レベルの信号を表しているかを判定するステップ、および
    (d)識別された該変向点が実質的に固定の電力レベルの信号を表しているときに、該サンプリングされた信号セグメントはアクティブな信号からなるとみなすステップ
    からなる方法。
  2. 請求項1記載の方法において、該サンプリングされた信号セグメントが第1および第2の通話者間の実際の音声呼の部分として受信され、該変向点が該信号振幅波形中のピークと谷部に対応し、該識別された変向点が実質的に固定の電力レベルの信号を表すものであるときに、該サンプリングされた信号セグメントが周期的パターンを含むものとみなされ、サイレンス抑制が実行状態となり、該サンプリングされた信号セグメントがアクティブな信号からなるときは、複数のオーディオサンプルを宛先ノードに送信し、該サンプリングされた信号セグメントがアクティブな信号からなるものではないとき、かつ、該セグメントが該第1および第2の通話者の音声エネルギーからなるものではないときは、該複数のオーディオサンプルを該宛先ノードに送信しないことを特徴とする方法。
  3. 請求項1記載の方法において、該方法がジッタバッファ整合点を決定するために使用され、さらに、
    (e)該信号振幅波形における隣り合う識別された変向点間の時間的距離を特定するステップ、
    (f)該信号振幅波形における隣り合う識別された変向点間の時間的距離が実質的に固定の電力レベルの信号を表すものであるかを判定するステップ、および
    (g)該時間的距離は実質的に固定の電力レベルの信号を表すものであり、かつ、該識別された変向点が実質的に固定の電力レベルの信号を表しているときは、該サンプリングされた信号セグメントはアクティブな信号からなるものであるとみなすステップであって、該サンプリングされた信号セグメントがアクティブな信号からなるかを判定する際に、該ステップ(c)の結果が該ステップ(f)の結果よりも重く重み付けされているようなステップ
    からなる方法。
  4. 請求項1記載の方法において、該変向点がゼロクロスするものではなく、該識別された変向点が実質的に固定の電力レベルの信号を表すものであるときは、該サンプリングされた信号セグメントがプログレストーンを含むものとみなされる方法。
  5. 請求項1記載のステップを実行するための、プロセッサによって実行可能な指令を含むコンピュータ可読媒体。
  6. 装置であって、
    (a)音声による会話中にアナログオーディオ信号を受信するための入力手段、
    (b)該アナログオーディオ信号をデジタル形式の値に変換するための変換手段であって、該デジタル形式の値が複数の会話フレームからなり、各会話フレームが複数のオーディオサンプルからなり、各オーディオサンプルが信号振幅からなるとともに固定の継続期間を有するような変換手段、
    (c)該オーディオサンプル中の信号振幅の変向点を識別するための識別手段、
    (d)識別された該変向点が周期信号を表すものかを判定するための判定手段、および
    (e)識別された該変向点が周期信号を表すものであるときに、選択された会話フレームを宛先終端に送信するための送信手段
    からなる装置。
  7. 請求項6記載の装置において、該識別された変向点が周期信号を表すものであるときは、ジッタバッファの整合が許可されず、該選択されたフレームが音声による会話からなるものではないときには、該送信手段が該選択された会話フレームを該宛先終端に送信せず、ジッタバッファの整合が許可されないことを特徴とする装置。
  8. 請求項6記載の装置において、該周期信号は実質的に固定の電力レベルを有し、該識別手段が隣り合う識別された変向点間の時間的距離を特定し、該判定手段が、隣り合う識別された変向点間の該時間的距離が周期信号を表すものであるかを判定し、該時間的距離が周期信号を表すものであるとき、かつ、該識別された変向点が周期信号を表すものであるときは、該選択されたフレームがプログレストーンを含むものとみなされる装置。
  9. 請求項6記載の装置において、該変向点がゼロクロスするものではなく、該識別された変向点が周期信号を表すものであるときは、該サンプリングされた信号セグメントがプログレストーンを含むものとみなされる装置。
  10. 請求項6記載の装置であって、ゲートウェイである装置。
  11. 請求項6記載の装置であって、パケット交換系音声通信装置である装置。
JP2007241698A 2006-09-19 2007-09-19 固定電力信号を検出する効率的な音声アクティビティ検出器 Active JP5058736B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/523,933 US8311814B2 (en) 2006-09-19 2006-09-19 Efficient voice activity detector to detect fixed power signals
US11/523933 2006-09-19

Publications (3)

Publication Number Publication Date
JP2008077088A true JP2008077088A (ja) 2008-04-03
JP2008077088A5 JP2008077088A5 (ja) 2009-02-05
JP5058736B2 JP5058736B2 (ja) 2012-10-24

Family

ID=38691781

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007241698A Active JP5058736B2 (ja) 2006-09-19 2007-09-19 固定電力信号を検出する効率的な音声アクティビティ検出器

Country Status (6)

Country Link
US (1) US8311814B2 (ja)
EP (1) EP1903557B1 (ja)
JP (1) JP5058736B2 (ja)
KR (1) KR20080026073A (ja)
CN (1) CN101202040A (ja)
IL (1) IL184817A0 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8982744B2 (en) * 2007-06-06 2015-03-17 Broadcom Corporation Method and system for a subband acoustic echo canceller with integrated voice activity detection
WO2009150894A1 (ja) * 2008-06-10 2009-12-17 日本電気株式会社 音声認識システム、音声認識方法および音声認識用プログラムが格納された記憶媒体
EP2192414A1 (en) * 2008-12-01 2010-06-02 Mitsubishi Electric R&D Centre Europe B.V. Detection of sinusoidal waveform in noise
USD626394S1 (en) 2010-02-04 2010-11-02 Black & Decker Inc. Drill
WO2011133924A1 (en) * 2010-04-22 2011-10-27 Qualcomm Incorporated Voice activity detection
US8898058B2 (en) 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
JP6005910B2 (ja) * 2011-05-17 2016-10-12 富士通テン株式会社 音響装置
CN107293287B (zh) * 2014-03-12 2021-10-26 华为技术有限公司 检测音频信号的方法和装置
US9576589B2 (en) * 2015-02-06 2017-02-21 Knuedge, Inc. Harmonic feature processing for reducing noise
US10403279B2 (en) * 2016-12-21 2019-09-03 Avnera Corporation Low-power, always-listening, voice command detection and capture
ES2928914T3 (es) * 2017-02-17 2022-11-23 Telefonica Germany Gmbh & Co Ohg Dispositivo y método para reenviar o enrutar tramas de voz en una red de transporte de un sistema de comunicaciones móviles

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02230297A (ja) * 1989-03-03 1990-09-12 Seiko Instr Inc 音声信号における周期検出方法
US6023674A (en) * 1998-01-23 2000-02-08 Telefonaktiebolaget L M Ericsson Non-parametric voice activity detection
JP2002344325A (ja) * 2001-05-18 2002-11-29 Sony Corp 符号化装置及び方法、並びに記録媒体

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1993009531A1 (en) 1991-10-30 1993-05-13 Peter John Charles Spurgeon Processing of electrical and audio signals
JP3291646B2 (ja) * 1996-12-27 2002-06-10 京セラミタ株式会社 画像形成機
US5867574A (en) 1997-05-19 1999-02-02 Lucent Technologies Inc. Voice activity detection system and method
US6765931B1 (en) * 1999-04-13 2004-07-20 Broadcom Corporation Gateway with voice
US6549587B1 (en) * 1999-09-20 2003-04-15 Broadcom Corporation Voice and data exchange over a packet based network with timing recovery
US7394833B2 (en) * 2003-02-11 2008-07-01 Nokia Corporation Method and apparatus for reducing synchronization delay in packet switched voice terminals using speech decoder modification
CN1926824B (zh) * 2004-05-26 2011-07-13 日本电信电话株式会社 声音分组再现方法、声音分组再现装置
US7917356B2 (en) 2004-09-16 2011-03-29 At&T Corporation Operating method for voice activity detection/silence suppression system
US7707034B2 (en) * 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02230297A (ja) * 1989-03-03 1990-09-12 Seiko Instr Inc 音声信号における周期検出方法
US6023674A (en) * 1998-01-23 2000-02-08 Telefonaktiebolaget L M Ericsson Non-parametric voice activity detection
JP2002344325A (ja) * 2001-05-18 2002-11-29 Sony Corp 符号化装置及び方法、並びに記録媒体

Also Published As

Publication number Publication date
EP1903557A3 (en) 2009-10-28
KR20080026073A (ko) 2008-03-24
CN101202040A (zh) 2008-06-18
EP1903557A2 (en) 2008-03-26
IL184817A0 (en) 2008-01-06
JP5058736B2 (ja) 2012-10-24
US20080071531A1 (en) 2008-03-20
EP1903557B1 (en) 2012-01-18
US8311814B2 (en) 2012-11-13

Similar Documents

Publication Publication Date Title
JP5058736B2 (ja) 固定電力信号を検出する効率的な音声アクティビティ検出器
JP4922455B2 (ja) パケット・ネットワークでエコーを検出し、抑制する方法および装置
Singh et al. VoIP: State of art for global connectivity—A critical review
US10832696B2 (en) Speech signal cascade processing method, terminal, and computer-readable storage medium
CN105118522B (zh) 噪声检测方法及装置
US8631295B2 (en) Error concealment
US9456075B2 (en) Codec sequence detection
US11343301B2 (en) Managing jitter buffer length for improved audio quality
US11488616B2 (en) Real-time assessment of call quality
Ortega et al. Evaluation of the voice quality and QoS in real calls using different voice over IP codecs
EP2158753B1 (en) Selection of audio signals to be mixed in an audio conference
US20100172343A1 (en) Dynamic Network Classification
BR112020004703A2 (pt) estimativa de desvio temporal
EP1548703A1 (en) Apparatus and method for voice activity detection
Prasad et al. SPCp1-01: Voice Activity Detection for VoIP-An Information Theoretic Approach
CN101175120B (zh) 用于识别通过双向语言介质进行交谈的双方的方法和设备
CN113223561B (zh) 一种语音活动检测的方法、电子设备及装置
EP1698184B1 (en) Method and system for tone detection
Muralishankar et al. Order statistics for voice activity detection in VoIP
JP4825153B2 (ja) 通話区間検出装置、その方法、プログラム及び記録媒体
Rebahi et al. A SPIT detection mechanism based on audio analysis
US10455080B2 (en) Methods and devices for improvements relating to voice quality estimation
JP5216114B2 (ja) 通話区間検出装置、その方法、及びプログラム
US20040225492A1 (en) Method and apparatus for the detection of previous packet loss in non-packetized speech
Kim et al. Performance analysis of perceptual speech quality and modules design for management over IP network

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081212

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110722

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110920

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111220

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120704

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120801

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150810

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5058736

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250