JP2001516463A - 複数の行列式を利用する音声検出システム - Google Patents

複数の行列式を利用する音声検出システム

Info

Publication number
JP2001516463A
JP2001516463A JP50598298A JP50598298A JP2001516463A JP 2001516463 A JP2001516463 A JP 2001516463A JP 50598298 A JP50598298 A JP 50598298A JP 50598298 A JP50598298 A JP 50598298A JP 2001516463 A JP2001516463 A JP 2001516463A
Authority
JP
Japan
Prior art keywords
signal
determinant
voice
filter
statistical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP50598298A
Other languages
English (en)
Inventor
コックス,ジェフリー,マーシャル
Original Assignee
テラブス オペレーションズ,インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テラブス オペレーションズ,インコーポレイテッド filed Critical テラブス オペレーションズ,インコーポレイテッド
Publication of JP2001516463A publication Critical patent/JP2001516463A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

(57)【要約】 音声検出システム(10)には、複数の音声検出器サブシステム(11、13および15)が具備される。音声検出サブシステム(11、13および15)は、音声が入力端末(12)で受信された電子通信信号の中に存在しているかどうかを判定するために別個の統計的な方法を利用する。例えば、第1音声検出サブシステム(11)は、移動平均ピーク信号フィルタ(20)を利用し、第2音声検出サブシステムは、移動平均雑音フィルタ(22)を利用し、第3音声検出サブシステムは、分散フィルタ(24)を利用する。フィルタ(20、22、および24)のそれぞれからの信号は各しきい値と比較され、しきい値は、集約音声検出の判定を下すために音声判定論理回路(40)に提供される。音声検出システムは、電話自動利得制御に有効である。

Description

【発明の詳細な説明】 複数の行列式を利用する音声検出システム 発明の分野 本発明は、電子通信信号がおもに音声から構成されているのか、あるいは雑音 から構成されているのかを判定するためのプロセスおよび機器に関する。さらに 特定すると、本発明は、通信信号上で並行して実施される複数の統計的な判定の 個々の結果を組み合わせることによって信号を音声または雑音として連続して分 類する音声検出システムに関する。 発明の背景 自動利得制御(AGC)回路は、伝送された音声信号を快い可聴レベルに維持 するために、電話通信システムのような通信システム内で使用される。雑音の含 有量(content)を最小限に抑えながら、音声信号の指定された平均レベ ルまたはピークレベルを維持するために、自動利得制御回路は、音声信号と雑音 信号を区別するための音声検出器を使用する。通常、音声検出器は、伝送された 信号の単一の統計的な特性を評価し、その統計的な特性値を所定の基準と比較し 、その伝送された信号内の音声の存在または不在を示す論理出力信号を提供する 。AGC回路は、論理出力信号が音声が存在することを示すかどうかに応じて、 適用される利得を調整することによって論理出力信号に応答する。 従来の音声検出器での1つの問題とは、単一の統計判定を信頼すると、このよ うな音声検出器が、音声検出を示すのに十分なレベルの必須統計特性を有する雑 音対雑音信号を評価するときに誤った判定を下しやすくなるという点である。も う一つの問題とは、単一論理出力を生成すると、音声検出器によって音声が存在 すると判定された信頼度があいまいになるという点である。伝送された電話信号 内に音声が存在することを判定するために、複数の統計的な基準を活用する音声 検出器を提供することが望ましいだろう。さらに、判定における信頼度を、利得 を調整する上で考慮に入れることができる検出信号を生成する音声検出器を提供 することが望ましいだろう。 概要 本発明の1つの面に従って、電話AGCシステム用音声検出器は、信号中に音 声が存在することの独立した判定を下すために、別個の音声検出機構を備える。 音声検出機構のそれぞれは、検出信号を生成し、個々の検出信号は組み合わされ 、伝送された信号中に音声が存在することを示すための集約検出信号を生成する 。 本発明の別の面に従って、個々の検出信号は、伝送された信号中に音声が存在 するか、または不在なのかについての各音声検出器による判定の信頼度を示す。 図面の簡単な説明 図1は、本発明に従って音声検出器の機能ブロック図である。 詳細な説明 ここでは図1を参照すると、本発明の音声検出器10の機能ブロック図が示さ れている。理解されるように、音声検出器の物理的なインプリメンテーションは 、アナログ回路、デジタル回路、適切にプログラミングされた汎用デジタル信号 プロセッサ(DSP)、または希望されるようなタイプの回路のハイブリッドによ って実現してよい。好ましい実施態様では、デジタル信号プロセッサが、機能ブ ロックとしての図1に図示され、本文に説明される多様な機能を達成するように プログラミングされている。 通信信号は、音声検出器10の入力端末12に提供される。通信信号は、通常 、標準的な300Hzから3500Hzの電話信号のような音声バンド信号であ る。代りに、通信信号が、例えば、通信路の個々のサブバンド部分内で音声/雑 音の判定を下すことが望ましい用途のための、音声バンド信号のサブバンド部分 を含むことがある。 通信信号は、デジタル値の数列xにより表記されるように図1に図示される。 通信信号は、まず最初に、信号xiの正と負のピーク値を識別するのを容易にす るためにゼロ以外の平均信号に変換される。このようなゼロ以外の平均信号は、 整流器14によって絶対値信号|xi|として生成される。 絶対値信号|xi|は、整流器14によってピーク検出器16に提供される。 ピーク検出器16は、絶対値信号内で局所的な最大を検出するために配列される 。局所的な最大が検出されると、ピーク検出器は、ピーク値が通信信号内で検出 された旨を示す検出信号PDETをアサートする。同時に、検出されたピーク値 DSP実施例では、検出信号PDETは、ピーク検出ループ内の分岐命令によっ て実現してよい。ピークが入力信号とのコネクションで検出されない場合は、ピ ーク検出ループがピーク値が検出されるまで実行し続ける。 雑音検出器13、および移動分散検出器15を含む3つの音声検出器へ、入力と して提供される。音声検出器11、13、および15は、それぞれ、ピーク値 実施態様では、検出器11は、ピーク信号値の移動平均値を生成するために移動 平均ピークフィルタ20を含む。検出器13は、音声検出器10が入力信号がお もに雑音であることを判定する間隔の間にピーク信号の移動平均値を生成するた めに移動平均雑音フィルタ22を含む。そして、移動分散検出器15は、ピーク 移動平均ピーク信号検出器11内では、移動平均ピークフィルタ20が、イネ ーブル端末でピーク検出信号PDETを受信し、応えて、平均化公式に従って移 この場合、m>1である。平均化定数mは、移動平均に対する各ピーク値の重み 号がおもに音声から成り立っているのか、雑音から成り立っているのかに関する って下される。このような比較の背景にある前提とは、高い平均ピーク値は、雑 音の間隔の間より音声の間隔の間に生成されやすいという点である。 の情報を伝達する出力信号を生成するために、複数のしきい値と比較される。図しきい値t11とt12とのコンパレータ26と29によって比較され、以下の行列 式D11とD12の3つの出力組み合わせの内の1つを生成する。 状態(1)は雑音を示すとして解釈され、状態(2)は不確定状態を示し、状態 (3)は音声を示す。移動平均ピーク判定だけを使用する従来の音声検出システ ムにおいては、不確定状態はほとんど実際的ではない値だろう。しかしながら、 移動平均ピーク判定は他の判定と集約されるため、任意の1つの検出器による音 声の検出における信頼度は、その検出器の相対的な音声判定に対して与えられる べき重みの有効なインジケータである。複数値の、つまりソフト(soft)行 列式は、バイナリ行列式D11とD12の代数的な集約に従って、0、1、または2 という値を各出力状態に割り当てることによって生成することができる。 フィルタ22に提供される。移動平均フィルタ22は、移動平均ピークフィルタ 20と関連して説明されるように類似した公式に従ってピーク値の移動平均値を 提供するために配列される。ただし、移動平均フィルタ22は、音声検出信号S PEECHの論理的な逆数によってイネーブルされるように接続される。したが って、フィルタ22は、その移動平均値を、音声検出器10が、通信信号がおも に雑音から成り立っていると判定するときにだけ更新し、通信信号がおもに音声 から成り立っているときには現在の出力値を保持する。移動平均雑音フィルタ2 かに基づいて下すことができる。 好ましくは、前述された移動平均ピーク信号検出器11内でのように、複数の しきい値t21とt22を利用し、少なくとも3つの出力状態を、以下のように定め られるバイナリ行列式D21とD22に従って定めることによって、ソフト 行列式が雑音平均値に関連して生成される。 バイナリ行列式D21とD22を生成するための構成要素は、各しきい値を雑音 含み、図1に示される。 とにより第3ソフト行列式を生成する。移動分散フィルタ24は、以下の公式に この場合、加重(weighting)係数、n>1が、フィルタ24の反応時 るかどうかに基づき下される。一般的には、純粋な雑音信号の分散は、純粋な音 2つのしきい値t31とt32に比較し、少なくとも3つの状態を以下のように定め ることによって下される。 音声検出器がバイナリ音声/非音声判定を生成する実施例においては、総合的 な音声検出出力信号SPEECHは、大多数の音声検出器が現在音声を示してい るのか、雑音を示しているのかに基づいて生成することができる。このような方 策は、つねに奇数の音声検出器に対し定められた結果を生じさせるだろう。偶数 の音声検出器の場合、総合的な音声検出出力信号は、結果が個々の検出器の間で 均等に分けられるときにはつねに、その過去の状態で維持することができる。 音声検出器のそれぞれが、複数値の行列式、つまりソフト行列式を生成する実 施例においては、総合的な音声検出出力は、ソフト行列式値の集約に基づいて判 定することができる。例えば、コンパレータ26、28、30、32、34およ び36からのバイナリ行列式値Djkが音声判定論理回路40に提供される。音声 判定論理回路40は、集約行列式値を、例えば、バイナリ行列式(ΣDjk)の、 または前述されたように計算されるソフト行列式の代数的な集約として生成する ように構成される。それから、集約行列式値から、音声検出論理回路が、以下の 表に従って、論理出力信号SPEECHを生成する。 ΣDjk<3の場合、音声判定論理回路40は、通信信号がおもに雑音から成り立 っていると判定し、SPEECHはアサートされない。ΣDjk>3の場合は、音 声判定論理回路40は、通信信号がおもに音声から成り立っていると判定し、S PEECHがアサートされる。ΣDjk=3の場合には、集約行列式ΣDjkが音声 または雑音のどちらかを強く示さないため、SPEECHはその過去の値で維持 される。 個々の行列式Djkも、個々の音声検出器11、13および15内で利用される 、しきい値tjkを動的に調整するために構成されるしきい値調整論理回路42に も提供される。動的しきい値調整は、音声検出器が、通信路の、または通信路内 の信号の時間可変特性に適応できるようにするために望ましい。さらに、動的し きい値調整は、複数の通信路のうちのどれかへの急速な適応が望ましいマルチプ レックス通信システム内で音声検出器10を利用するために望ましい。 個々の音声検出器の出力状態が、音声判定論理回路40によって下される総合 的な判定に競願することが発生する可能性がある。このような競願は、個々の検 出器の、ある特定の検出器からの偽の判定の方を好む変化する信号状態または通 信信号の特有の統計特性に対する反応時間の間の差違のために発生することがあ る。偽の判定を補正するために、個々の検出器内の1つまたは複数の検出しきい 値が、所定の限度内で、および少なくともその検出器に対応するフィルタの反応 時間の長さの時間間隔の間、増分的に調整される。総合的な判定と一致するよう に個々の検出器のどれかに「強制すること」は複数の検出体制を利用することに よって得られる優位点を縮小するため、好ましくは、このような調整は、競願す る検出器の出力状態を不確定にするほど十分な範囲まで実施される。複数のしき い値処理が個々の検出器で使用されると、好ましい実施態様でのように、各しき い値は、絶対限度、および他のしきい値(複数の場合がある)を基準にする限度 に関して調整される。その仕組み(arrangement)によって、複数の しきい値が、確定出力状態がありそうもないまたは不可能にされる程度まで発散 するのを妨げる。 例えば、論理出力信号SPEECHがアサートされず(総合雑音判定を示す)、 移動平均信号検出器11からのソフト行列式が音声(D11+D12=1+1=2) を示す場合には、高い方のしきい値t12は、移動平均検出器からのソフト行列式 が不確定状態(D11+D12=1+0=1)を示すまで、しきい値調整論理回路4 2によって増分的に増加される。しきい値調整は増分的に実行され、好ましくは 移動平均フィルタ20の適応時間より急速ではないので、通信信号の変動が(S PEECHで変化を引き起こすことによって、または移動平均信号検出器の出力 状態でのどちらかで)競願を解決することが発生する可能性があり、その場合、 しきい値t12は、競願を解決する前に不確定出力状態が達成されるかどうかに関 係なく、そのもっとも最近の値で維持されるだろう。 同様に、SPEECHがアサートされ、移動平均信号検出器11の出力状態が 雑音を示す場合には、低い方のしきい値t11が、移動平均検出器の出力状態が不 確定になるまで、あるいはそれ以外の場合競願が解決されるまで増分的に減少す る。 好ましくは、t12の上方調整は、音声信号の平均レベル以下の最大レベルま で、例えば、(SPEECHのアサート中|xi|を平均化することによって求 められる)平均音声レベルSAVGをわずか約3dB下回るまでに制限される。 t11の下方修正は、(SPEECHの非アサート中に|xi|を平均化すること によって求められる)平均雑音レベルNAVGを約6dB上回るような最小まで 制限される。さらに、t11またはt12のどちらかが調整されるので、好ましくは 、通信信号内の所定のまたは測定された信号対雑音比に釣り合う2つのしきい値 の間の分離を維持するために、他のしきい値も同じ量調整されることがある。 しきい値調整論理回路42は、以下のように、雑音平均検出器13に関するし きい値を調整する。SPEECHがアサートされず、雑音平均検出器の出力状態 が音声(D21+D22=2)を示す場合には、t22は、雑音平均検出器を不確定出 力状態に向かって動かすように増加される。SPEECHがアサートされ、雑音 平均検出器13の出力状態が雑音(D21+D27=2)を示す場合には、t21は雑 音平均検出器を不確定出力状態に向かって動かすように減少する。好ましくは、 t22は、平均音声レベルと平均雑音レベルの間の差違を下回る最大2dBまで制 限され(t22<|NAVG−SAVG|)、t21は雑音平均を約2dBを超えて 維持される。しかし、信号対雑音比が、4dB以下のように不十分である場合に は、t22とt21はさらに広範囲に渡って調整されることがある。 同様に、しきい値調整論理回路42は、分散検出器15がSPEECHによっ て示される総合的な判定に競願するときに、適切な絶対的および/または相対的 な範囲内でt31および/またはt32を調整することによって、分散検出器15を 不確定状態に向かって動かすように構成される。 前述されるように、しきい値調整論理回路42は、検出器が総合的な音声判定 と競願する場合に不確定出力状態に向かって個々の音声検出器を動かすように構 成される。音声検出精度をさらに向上させることは、しきい値調整論理回路42 を、個々の音声検出器が、その対応するフィルタの反応時間をかなり超える時間 期間の間不確定出力状態を生成するかどうかを検出するように構成することによ って達成することができる。このような長い不確定状態は、対応するしきい値間 の差異が好ましくないほど大きいため、好ましくないほど大きな不確定の範囲を 生じさせることを示すことがある。事前に選択された間隔制限値を参照すること によって、しきい値調整論理回路42は、個々の音声検出器がこのような限度を 超えた時点を検出し、適切な処置を講じるように構成することができる。例えば 、個々の音声検出器がその不確定間隔限度を超えた場合には、しきい値調整論理 回路42は、SPEECHの現在の状態に相当する出力状態に向かって音声検出 器を動かすことによって、対応する1つまたは複数のしきい値を調整することに よって応答する。 個々の検出器のそれぞれは、集約行列式が音声、雑音または不確定状態を示す さらに多くの漸次移行を提供するために2つを上回るしきい値を活用することが ある。例えば、3つのしきい値レベルが各検出器内で利用される実施例において は、集約行列式は、以下に定められるように9個の考えられる値を持つだろう。このような実施例においては、集約行列式は、ΣDjk=4のとき、またはΣDjk =5のときに、不確定音声検出状態を示すとして定められることがある。個々の ソフト行列式値は、0と3の間の範囲であろう。ソフト行列式のさらに大きな範 囲は、しきい値調整論理回路42によるしきい値レベル調整のための補助的な機 会を提供する。例えば、SPEECHがアサートされないときには、2または3 というソフト行列式値を有する任意の検出器がその対応するしきい値レベ ルを調整させ、さらに低い値のソフト行列式を生成することがある。逆に、SP EECHがアサートされるときには、0または1というソフト行列式値を有する 任意の検出器がその対応するしきい値レベルを調整させ、さらに高い値のソフト 行列式を調整させることがある。さらに、集約行列式が不確定音声検出状態にあ る場合、きわめてソフトな行列式値(例えば0または3)の検出器は、あまり極 端ではない行列式値(例えば1または2)を生成するように駆動することができ る。 別の代替実施例では、個々の論理行列式Djkは、音声判定論理回路42の適切 なレジスタに対し、バイナリ音声検出ワード{D312111322212}とし て提示されることがある。バイナリ音声検出ワードのさらに高位ビットは、高い 方の検出しきい値に対応するバイナリ行列式を含むが、バイナリ音声検出ワード のさらに低位ビットは、低減検出しきい値に対応するバイナリ号列式を含む。計 算演算を実行するよりむしろ、音声判定回路40は、適切なルックアップテーブ ルまたは論理回路アレイからSPEECH出力状態を検索するか、それ以外の場 合は生成するように構成される。しきい値調整論理回路42は、同様に、所定の バイナリ音声検出ワードに直接応えて検出器しきい値の調整を実行するように構 成される。したがって、バイナリ行列式の特定のアサートレベルが1つの集約行 列式値にマージされる実施例においてよりさらに高い音声検出の精度が達成する ことができる。例えば、集約行列式値が音声検出ワード101101と0011 11の両方に4だろうが、各検出ワードの音声には別の論理状態を定めることが 望ましいことがある。音声判定論理回路を定められたバイナリ検出ワードに直接 応えて動作することによって、このような機能が提供される。 バイナリ音声検出ワードを利用するさらなる実施例においては、音声検出論理 回路40は、個々の音声検出ワードに応えることに加えて、音声検出ワードの所 定の数列に応えるように構成される。その場合、このような動作は、個々の音声 検出器の異なる反応時間を適切に埋め合わせることができる。例えば、移動平均 フィルタが他の検出器より迅速に音声に反応する場合、および所定数の連続バイ ナリ検出ワードがそれぞれ000000である場合には、音声判定論理回路40 は、音声が開始したが、他の検出器には音声を検出するほど十分な時間がなかっ たという仮定の上にSPEECHをアサートすることによって001001に応 える。音声検出器が他の検出器のうちの1つまたは両方の反応時間を超えて00 1001で維持される場合には、移動平均フィルタが偽の判定を下し、SPEE CHがデアサート(deasserted)され、移動平均検出しきい値が適切 に調整されることがると仮定される可能性がある。 バイナリ音声検出ワードを利用する別の実施例においては、音声判定論理回路 40は、連続バイナリ音声検出ワードを受け取り、変化の率と連続音声検出ワー ドの方向を示すベクタを連続的に計算する。このようなプロセスは、個々の音声 検出器の音声検出状態に関する時相的なデータを抽出するために、多数の音声検 出ワードを記憶するニーズを回避する。 本文で利用されてきた用語および表現は、制限の用語としてではなく、説明用 語として使用される。このような用語と表現の使用において、図示され、説明さ れる機能またはその部分のあらゆある同等物を排除する意図はない。しかしなが ら、多様な修正が、請求されるように本発明の範囲および精神の範囲内で可能で あることが認識される。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,DE, DK,ES,FI,FR,GB,GR,IE,IT,L U,MC,NL,PT,SE),OA(BF,BJ,CF ,CG,CI,CM,GA,GN,ML,MR,NE, SN,TD,TG),AP(GH,KE,LS,MW,S D,SZ,UG),EA(AM,AZ,BY,KG,KZ ,MD,RU,TJ,TM),AL,AM,AT,AU ,AZ,BB,BG,BR,BY,CA,CH,CN, CZ,DE,DK,EE,ES,FI,GB,GE,H U,IL,IS,JP,KE,KG,KP,KR,KZ ,LK,LR,LS,LT,LU,LV,MD,MG, MK,MN,MW,MX,NO,NZ,PL,PT,R O,RU,SD,SE,SG,SI,SK,TJ,TM ,TR,TT,UA,UG,UZ,VN

Claims (1)

  1. 【特許請求の範囲】 1.通信信号を受信するための入力端末と、 通信信号から導出される第1統計値を表す第1統計信号を提供するために入力 端末と接続される第1フィルタと、 第1統計信号を、通信信号中に音声が存在することを示す第1基準信号と第1 統計信号と比較するための、および比較の結果を示す第1行列式信号を生成する ための第1比較手段と、 通信信号から導出される第2統計値を表す第2統計信号を提供するために入力 端末と接続される第2フィルタと、 第2統計信号を、通信信号中に音声が存在することを示す第2基準信号と第2 統計信号を比較するための、および比較の結果を示す第2行列式信号を生成する ための第2比較手段と、 第1行列式信号と第2行列式信号を受信するために接続され、第1行列式信号 と第2行列式信号を組み合わせ、1つの集約行列式を生成するため、集約行列式 信号に基づき、音声が通信信号中に存在することを検出するため、および判定の 結果を表す論理出力信号を提供するために構成される音声判定論理回路と、 を備える、通信信号中に音声が存在することを検出するための機器。 2.第1基準信号と第2基準信号が、それぞれ、少なくとも2つのしきい値信 号を含み、第1比較手段と第2比較手段が、少なくとも3つの定められた出力状 態を有する複数値の信号として前記第1行列式信号と第2行列式信号のそれぞれ を提供するように構成される、請求項1に記載される機器。 3.集約行列式信号が、第1行列式信号と第2行列式信号の出力状態に指定さ れる数値の集約である、請求項2に記載される機器。 4.音声判定論理回路が、集約行列式信号を、通信信号中に音声が存在するこ とを示す定められた値と比較するため、および論理出力信号をアサートし、比較 の結果を示すために構成される、請求項3に記載される機器。 5.集約行列式信号を、通信信号中の音声の不在を示す第2の定められた値と 比較するため、および論理出力値をデアサートし、比較の結果を示すために構成 される、請求項4に記載される機器。 6.音声判定論理回路が、集約行列式信号を、通信信号中の音声の存在または 不在が不確定である第3の定められた値と比較するため、および論理出力信号を そのもっとも最近の状態に維持するために構成される、請求項5に記載される機 器。 7.第2フィルタが影響を及ぼすように接続され、論理出力信号を受信し、論 理出力信号が、通信信号中の音声の不在を示すときに、第2統計信号を変化する ように構成される、請求項4に記載される機器。 8.さらに、入力端末と接続されるピーク検出器を備え、通信信号中のピーク を検出し、ピークの検出を示すピーク検出信号を提供するために構成され、第1 フィルタがピーク検出信号を受信するために接続され、ピークが検出されるとき に第1統計信号を変化するように構成される、請求項7に記載される機器。 9.第1フィルタと第2フィルタが、それぞれ、移動平均フィルタと分散フィ ルタから成り立つグループから選択される、請求項8に記載される機器。 10.ピーク検出器が、通信信号から導出されるピーク信号を提供するように 構成され、第1フィルタと第2フィルタが、第1統計信号と第2統計信号を生成 するためにピーク信号を受信するように接続される、請求項9に記載される機器 。 11.第1フィルタが、第1統計信号をピーク信号の移動平均値として提供す るための移動平均フィルタを備え、第1比較手段が、第1行列式信号の少なくと も3つの出力状態を確立するための少なくとも2つのしきい値レベルと第1統計 信号を比較するための手段を備える、請求項10に記載される機器。 12.第2フィルタが、音声の不在を示す論理出力信号と一致するピーク信号 の一部の移動平均として第2統計信号を提供するための移動平均フィルタを備え 、第2比較手段が、第2行列式信号の少なくとも3つの出力状態を確立するため の2つのしきい値レベルに従って、第2統計信号を第1統計信号に比較するため の手段を備える、請求項11に記載される機器。 13.通信信号から導出される第3統計値を表す第3統計信号を提供するため に入力信号と接続される第3フィルタと、 第3統計信号を、通信信号中に音声が存在することを示す第3基準信号と比較 するための、および比較の結果を表す第3行列式信号を生成するための第3比較 手段と、 を備え、 前記音声判定論理が、さらに、第1行列式信号、第2行列式信号、および第3 行列式信号を組み合わせ、集約行列式信号を生成するために構成される、 請求項1に記載される機器。 14.第1比較手段、第2比較手段、および第3比較手段が、第1統計信号、 第2統計信号、および第3統計信号を、それぞれ、前記第1行列式信号、第2行 列式信号、および第3行列式信号のそれぞれの少なくとも3つの出力状態を確立 するためのしきい値信号の各第1組、第2組、および第3組と比較するために構 成される、請求項13に記載される機器。 15.論理出力信号を受信するために影響を及ぼすように接続され、対応する 行列式信号が、音声判定論理回路によって提供される論理出力信号と競願する出 力状態を示すときに、前記比較手段の内の1つに対応する基準信号を調整するた めのしきい値調整論理回路を備える、請求項14に記載される機器。 16.前記3つの出力状態が、通信信号中の音声の存在を示す第1状態、通信 信号中の音声の不在を示す第2状態、および通信信号中の音声の存在または不在 が不確定であることを示す第3状態を含み、 前記しきい値調整論理回路が、対応する行列式信号が第3状態を仮定するか、 論理出力信号と競願することをやめるまで、前記基準信号を増分的に調整するた めに構成される、 請求項15に記載される機器。 17.前記第1基準信号と第2基準信号を定める複数のしきい値信号を確立す るため、および対応する行列式信号が、論理出力信号と競願する出力状態を示す ときに、前記しきい値信号の内の少なくとも1つを調整するために、論理出力信 号に反応する動的調整手段を備える、請求項2に記載される機器。 18.前記3つの出力状態が、(i)通信信号中の音声の存在を示す第1状態 と、(ii)通信信号中の音声の不在を示す第2状態と、(iii)通信信号中 の音声の存在または不在が不確定であることを示す第3状態とを含み、 前記動的調整手段が、対応する行列式信号が第3状態を仮定するか、論理出力 信号と競願するのをやめるまで、前記しきい値信号を増分的に調整するために構 成される、請求項17に記載される機器。 19.通信信号を受信するための入力端末と、 通信信号を受信するために接続される複数の音声検出モジュールであって、各 音声検出モジュールが、他の音声検出モジュールに関して、無関係である統計規 準に基づき、通信信号中の音声の相対的な音声の存在または不在を示すソフト行 列式信号を生成するように構成される、複数の音声検出モジュールと、 ソフト行列式信号を受信するため、ソフト行列式信号を組み合わせ、1つの集 約行列式値を生成するため、および集約行列式値が、通信信号中の音声の存在を 示すのか、不在を示すのかの判定を下すための音声判定論理回路と、 音声判定論理回路によって下される判定を元に論理制御信号を提供するための 出力端末と、 を備える、通信信号中に音声が存在することを検出するための音声検出システ ム。 20.前記複数の音声検出モジュールが、移動平均ピーク信号フィルタを有す る第1モジュールと、平均ピーク雑音フィルタを有する移動第2モジュールと、 分散フィルタを有する第3モジュールとを備え、前記モジュールのそれぞれが、 さらに、その対応するフィルタの出力信号を、ソフト行列式信号を生成するため の少なくとも2つのしきい値と比較するための比較手段とを備える、請求項19 に記載される機器。 21.さらに、音声検出モジュールの内の1つと音声判定論理回路手段との間 の競願する音声/非音声状態に応えて、前記しきい値レベルの内の1つを調整す るための動的しきい値調整手段とを備える、請求項20に記載される機器。 22.各ソフト行列式信号が、雑音の存在、音声の存在、および不確定状態と して定められる少なくとも3つの状態を示す、請求項19に記載される機器。 23.前記音声検出モジュールのそれぞれが、少なくとも2つのしきい値レベ ルのある、通信信号から導出される統計値を含むことによって、そのソフト行列 式信号を生成するように配列される、請求項22に記載される機器。 24.さらに、論理制御信号と音声検出モジュールの内の任意の1つによって 判定される状態の間の競願に応えて、前記しきい値レベルの内の1つを変化させ るためのしきい値調整手段を備える、請求項23に記載される機器。 25.前記しきい値調整手段が、対応する音声検出モジュールが不確定信号状 態を示す状態で前記ソフト行列式を生成する傾向があるように、前記1つのしき い値レベルを調整するために構成される、請求項24に記載される機器。
JP50598298A 1996-07-16 1997-03-31 複数の行列式を利用する音声検出システム Pending JP2001516463A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US08/678,363 1996-07-16
US08/678,363 US5884255A (en) 1996-07-16 1996-07-16 Speech detection system employing multiple determinants
PCT/US1997/005204 WO1998002872A1 (en) 1996-07-16 1997-03-31 Speech detection system employing multiple determinants

Publications (1)

Publication Number Publication Date
JP2001516463A true JP2001516463A (ja) 2001-09-25

Family

ID=24722481

Family Applications (1)

Application Number Title Priority Date Filing Date
JP50598298A Pending JP2001516463A (ja) 1996-07-16 1997-03-31 複数の行列式を利用する音声検出システム

Country Status (9)

Country Link
US (1) US5884255A (ja)
EP (1) EP0954852A1 (ja)
JP (1) JP2001516463A (ja)
KR (1) KR20000023823A (ja)
CN (1) CN1230276A (ja)
AU (1) AU2598197A (ja)
CA (1) CA2260218A1 (ja)
IL (1) IL128053A (ja)
WO (1) WO1998002872A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008151840A (ja) * 2006-12-14 2008-07-03 Nippon Telegr & Teleph Corp <Ntt> 仮音声区間決定装置、方法、プログラム及びその記録媒体、音声区間決定装置
KR101550648B1 (ko) 2015-03-24 2015-09-08 (주)스타넥스 웨어러블 무선 통신 장치 및 이를 이용한 무선 통신 방법
JP2015207002A (ja) * 2009-10-19 2015-11-19 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 音声区間検出器及び方法
JP2016529555A (ja) * 2013-08-30 2016-09-23 ゼットティーイー コーポレーションZte Corporation 音声活動検出方法及び装置

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6718302B1 (en) * 1997-10-20 2004-04-06 Sony Corporation Method for utilizing validity constraints in a speech endpoint detector
US6718301B1 (en) * 1998-11-11 2004-04-06 Starkey Laboratories, Inc. System for measuring speech content in sound
US6490556B2 (en) * 1999-05-28 2002-12-03 Intel Corporation Audio classifier for half duplex communication
US6526139B1 (en) * 1999-11-03 2003-02-25 Tellabs Operations, Inc. Consolidated noise injection in a voice processing system
US7035790B2 (en) * 2000-06-02 2006-04-25 Canon Kabushiki Kaisha Speech processing system
US7072833B2 (en) * 2000-06-02 2006-07-04 Canon Kabushiki Kaisha Speech processing system
US20020026253A1 (en) * 2000-06-02 2002-02-28 Rajan Jebu Jacob Speech processing apparatus
US6954745B2 (en) * 2000-06-02 2005-10-11 Canon Kabushiki Kaisha Signal processing system
US7010483B2 (en) * 2000-06-02 2006-03-07 Canon Kabushiki Kaisha Speech processing system
US7489790B2 (en) * 2000-12-05 2009-02-10 Ami Semiconductor, Inc. Digital automatic gain control
US7293079B1 (en) * 2000-12-22 2007-11-06 Nortel Networks Limited Method and apparatus for monitoring a network using statistical information stored in a memory entry
US20020103636A1 (en) * 2001-01-26 2002-08-01 Tucker Luke A. Frequency-domain post-filtering voice-activity detector
US7031916B2 (en) * 2001-06-01 2006-04-18 Texas Instruments Incorporated Method for converging a G.729 Annex B compliant voice activity detection circuit
GB2379148A (en) * 2001-08-21 2003-02-26 Mitel Knowledge Corp Voice activity detection
KR100429896B1 (ko) * 2001-11-22 2004-05-03 한국전자통신연구원 잡음 환경에서의 음성신호 검출방법 및 그 장치
KR20030070177A (ko) * 2002-02-21 2003-08-29 엘지전자 주식회사 원시 디지털 데이터의 잡음 필터링 방법
KR100677396B1 (ko) 2004-11-20 2007-02-02 엘지전자 주식회사 음성인식장치의 음성구간 검출방법
GB0519051D0 (en) * 2005-09-19 2005-10-26 Nokia Corp Search algorithm
ES2391228T3 (es) * 2007-02-26 2012-11-22 Dolby Laboratories Licensing Corporation Realce de voz en audio de entretenimiento
CN101132452A (zh) * 2007-07-20 2008-02-27 华为技术有限公司 一种语音局端端口参数的调整方法及系统
CN101110217B (zh) * 2007-07-25 2010-10-13 北京中星微电子有限公司 一种音频信号的自动增益控制方法及装置
KR101251045B1 (ko) * 2009-07-28 2013-04-04 한국전자통신연구원 오디오 판별 장치 및 그 방법
US8737654B2 (en) 2010-04-12 2014-05-27 Starkey Laboratories, Inc. Methods and apparatus for improved noise reduction for hearing assistance devices
US9552817B2 (en) 2014-03-19 2017-01-24 Microsoft Technology Licensing, Llc Incremental utterance decoder combination for efficient and accurate decoding
CN110705426B (zh) * 2019-09-25 2021-09-21 广东石油化工学院 一种利用去模糊算子的功率信号滤波方法和系统

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3832496A (en) * 1973-01-02 1974-08-27 Gte Automatic Electric Lab Inc Link accessing arrangement including square-wave clock generator
US4052568A (en) * 1976-04-23 1977-10-04 Communications Satellite Corporation Digital voice switch
US4061878A (en) * 1976-05-10 1977-12-06 Universite De Sherbrooke Method and apparatus for speech detection of PCM multiplexed voice channels
US4028496A (en) * 1976-08-17 1977-06-07 Bell Telephone Laboratories, Incorporated Digital speech detector
US4187396A (en) * 1977-06-09 1980-02-05 Harris Corporation Voice detector circuit
FR2410923A1 (fr) * 1977-08-18 1979-06-29 Dassault Electronique Installation de transmission telephonique de la parole entre des interlocuteurs places dans une ambiance bruyante
US4351983A (en) * 1979-03-05 1982-09-28 International Business Machines Corp. Speech detector with variable threshold
US4281218A (en) * 1979-10-26 1981-07-28 Bell Telephone Laboratories, Incorporated Speech-nonspeech detector-classifier
US4277645A (en) * 1980-01-25 1981-07-07 Bell Telephone Laboratories, Incorporated Multiple variable threshold speech detector
US4382164A (en) * 1980-01-25 1983-05-03 Bell Telephone Laboratories, Incorporated Signal stretcher for envelope generator
US4357491A (en) * 1980-09-16 1982-11-02 Northern Telecom Limited Method of and apparatus for detecting speech in a voice channel signal
US4410763A (en) * 1981-06-09 1983-10-18 Northern Telecom Limited Speech detector
JPS5876899A (ja) * 1981-10-31 1983-05-10 株式会社東芝 音声区間検出装置
US4700392A (en) * 1983-08-26 1987-10-13 Nec Corporation Speech signal detector having adaptive threshold values
US4667065A (en) * 1985-02-28 1987-05-19 Bangerter Richard M Apparatus and methods for electrical signal discrimination
US4764966A (en) * 1985-10-11 1988-08-16 International Business Machines Corporation Method and apparatus for voice detection having adaptive sensitivity
FR2631147B1 (fr) * 1988-05-04 1991-02-08 Thomson Csf Procede et dispositif de detection de signaux vocaux
US4975657A (en) * 1989-11-02 1990-12-04 Motorola Inc. Speech detector for automatic level control systems
US5152007A (en) * 1991-04-23 1992-09-29 Motorola, Inc. Method and apparatus for detecting speech
US5509102A (en) * 1992-07-01 1996-04-16 Kokusai Electric Co., Ltd. Voice encoder using a voice activity detector
US5323337A (en) * 1992-08-04 1994-06-21 Loral Aerospace Corp. Signal detector employing mean energy and variance of energy content comparison for noise detection
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008151840A (ja) * 2006-12-14 2008-07-03 Nippon Telegr & Teleph Corp <Ntt> 仮音声区間決定装置、方法、プログラム及びその記録媒体、音声区間決定装置
JP4758879B2 (ja) * 2006-12-14 2011-08-31 日本電信電話株式会社 仮音声区間決定装置、方法、プログラム及びその記録媒体、音声区間決定装置、方法
JP2015207002A (ja) * 2009-10-19 2015-11-19 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 音声区間検出器及び方法
JP2016529555A (ja) * 2013-08-30 2016-09-23 ゼットティーイー コーポレーションZte Corporation 音声活動検出方法及び装置
US9978398B2 (en) 2013-08-30 2018-05-22 Zte Corporation Voice activity detection method and device
KR101550648B1 (ko) 2015-03-24 2015-09-08 (주)스타넥스 웨어러블 무선 통신 장치 및 이를 이용한 무선 통신 방법

Also Published As

Publication number Publication date
IL128053A (en) 2003-02-12
WO1998002872A1 (en) 1998-01-22
EP0954852A4 (ja) 1999-11-10
AU2598197A (en) 1998-02-09
IL128053A0 (en) 1999-11-30
KR20000023823A (ko) 2000-04-25
US5884255A (en) 1999-03-16
CA2260218A1 (en) 1998-01-22
CN1230276A (zh) 1999-09-29
EP0954852A1 (en) 1999-11-10

Similar Documents

Publication Publication Date Title
JP2001516463A (ja) 複数の行列式を利用する音声検出システム
US5598466A (en) Voice activity detector for half-duplex audio communication system
US9191753B2 (en) Hearing aid and a method of enhancing speech reproduction
KR101019681B1 (ko) 스피치 및 이외 다른 유형들의 오디오 자료를 포함하는 오디오 신호들에서 스피치의 세기 조절
EP0909442B1 (en) Voice activity detector
US7292543B2 (en) Speaker tracking on a multi-core in a packet based conferencing system
US5828997A (en) Content analyzer mixing inverse-direction-probability-weighted noise to input signal
EP0222083B1 (en) Method and apparatus for voice detection having adaptive sensitivity
JP2002366174A (ja) G.729の付属書bに準拠した音声アクティビティ検出回路を収束させるための方法
US20030216909A1 (en) Voice activity detection
WO2005119649A1 (en) System and method for babble noise detection
CN111341351A (zh) 基于自注意力机制的语音活动检测方法、装置及存储介质
US20030110029A1 (en) Noise detection and cancellation in communications systems
US20030198193A1 (en) Speaker tracking on a single core in a packed based conferencing system
WO1988007738A1 (en) An adaptive multivariate estimating apparatus
JP3017127B2 (ja) 音声認識応答装置
JP2546001B2 (ja) 自動利得制御装置
KR100881355B1 (ko) 다중 누화 잡음 검출 시스템 및 방법
WO1988007740A1 (en) Distance measurement control of a multiple detector system
JPH05165496A (ja) 音声検出装置
EP1269462B1 (en) Voice activity detection apparatus and method
JPH0247698A (ja) 音声区間検出方式
CA1293060C (en) Method and apparatus for voice detection having adaptive sensitivity