JP2000515987A - 音声活性度検出器 - Google Patents

音声活性度検出器

Info

Publication number
JP2000515987A
JP2000515987A JP10504909A JP50490998A JP2000515987A JP 2000515987 A JP2000515987 A JP 2000515987A JP 10504909 A JP10504909 A JP 10504909A JP 50490998 A JP50490998 A JP 50490998A JP 2000515987 A JP2000515987 A JP 2000515987A
Authority
JP
Japan
Prior art keywords
spectrum
voice activity
measure
activity detector
spectral
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10504909A
Other languages
English (en)
Other versions
JP2000515987A5 (ja
JP4307557B2 (ja
Inventor
ガーナー、ニール・ロバート
バレット、ポール・アレキサンダー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of JP2000515987A publication Critical patent/JP2000515987A/ja
Publication of JP2000515987A5 publication Critical patent/JP2000515987A5/ja
Application granted granted Critical
Publication of JP4307557B2 publication Critical patent/JP4307557B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02168Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Abstract

(57)【要約】 移動電話装置に配置するのに適した音声活性度検出器を開示した。この音声活性度検出器の長所は、入力信号(19)がノイズから成る(送信に適していない)か、またはとくに騒々しい環境で、言語または情報トーン(送信に適している)を含むかに関して判断部(79)でより良く判断できることである。音声活性度検出器は多数の構成要素、とくに補助音声活性度検出器(3)を含む。補助音声活性度検出器(3)は、ノイズのスペクトルよりも一層迅速に言語のスペクトルが変化することに基いてノイズと言語とを区別する。したがって、補助音声活性度検出器(3)は言語信号をノイズ信号と間違えることは殆どない。こうして非常に信頼できるノイズテンプレート(421)が得られる。このために、補助検出器(3)はノイズ低減応用においても有益である。この音声活性度検出器はさらにニューラルネットワーク分類器(7)も使用する。

Description

【発明の詳細な説明】 音声活性度検出器 本発明は、音声活性度検出器に関する。音声活性度検出器は、主音声活性度検 出器内に備えられた補助音声活性度検出器との関連で、またノイズ低減装置装置 内に備えられるときに、とくに有益である。このような補助音声検出器を含む主 音声活性度検出器はとくに、騒々しい環境で動作することが必要なことがある移 動電話において使用するのに適している。 セルラ無線システムを使用できる電磁スペクトル領域が限られているので、最 近10年間で移動電話のユーザ数が著しく増加したために、セルラ無線装置の供 給者は実効電磁スペクトルの利用効率を高める方法を発見しなければならなくな った。 この目的を達成できる1つの方法は、セルラ無線システム内のセルの大きさを 小さくすることである。しかしながら、隣のセルからの干渉レベル(同一チャン ネル(コチャンネル)干渉)が許容範囲以上に高くなる前にのみ、セルの大きさ をそのように小さくできることが分かっている。同一チャンネルインターフェイ スを小さくするために、不連続送信(discontinuous-transmission)と呼ばれる方 法が使用されている。この方法は、移動電話のユーザが話をしでいるときのみ言 語表示信号を送るように移動電話を構成することを含む。この方法は所定の会話 では1度に当事者の一方のみが話をするのが普通であるという観察に基いている 。不連続送信を実行することによって、同一チャンネル干渉の平均レベルを下げ ることができる。したがって、システム内のセルの大きさを小さくできること、 したがってシステムがより多くの加入者をサポートできることを意味している。 移動電話のユーザが話をしているときに音表示信号のみを送ると、別の長所と して移動電話のハンドセット内のバッテリの寿命が長くなる。 音声活性度検出器は不連続送信ができるようにするために使われる。この検出 器の目的は、所定の信号がノイズのみから成るか、または信号が言語を含むかを 示すことである。送られることになる信号がノイズのみから成ると音声活性度検 出器が示すときは、信号は送られない。 今日の多くの移動電話は、欧州特許出願第335521号に記載された音声活性度検 出器に類似したものを使用している。本明細書に記載された音声活性度検出器で は、入力音表示信号のスペクトルとノイズ信号のスペクトルとの間の類似性を測 定する。この比較で使用するノイズスペクトルは、ノイズであると判断された入 力信号の初期部分から得られる。この判断は、主音声検出器の構成要素である補 助音声活性度検出器が行なう。言語を含む信号が移動電話によって送られことが 重要であり、かつ主音声活性度検出器の判断が補助音声検出器によってノイズと して識別された信号に基いているので、補助音声検出器は、判断し難い状況では 信号が言語を含んでいると判断する傾向があることが望ましい。音声活性度検出 器によって言語として識別される会話の割合は、検出器の音声活性度ファクタ( または単に“活性度”)と呼ばれている。実際に言語を含む会話の割合は、通常 35乃至40%である。したがって、主音声活性度検出器はこの範囲内またはこ れよりも僅かに高い活性度をもち、一方で補助音声活性度検出器は著しく高い活 性度をもてることが理想的である。 周知の活性度検出器は種々の環境で良好な動作を示すが、騒々しい環境ではこ の動作が不十分であることが分かっている。移動電話は、車の中、街路、せわし いオフィス、列車の駅、または空港で動作できることが要求されている。したが って騒々しい環境で確実に動作できる音声活性度検出器が要求されている。 本発明の第1の態様にしたがって次の音声活性度検出器、すなわち: 動作中に信号の1対の時間セグメントにおけるスペクトルの類似度、すなわ ち該1対の時間セグメントの一方が第1の時間間隔だけ他方の時間セグメントよ り遅れていることと示す少なくとも1つの第1のスペクトル差測度を計算するよ うにされている手段と; 動作中に少なくとも1つの第2のスペクトル差測度を計算し、信号の1対の 時間セグメントにおけるスペクトルの類似度を、1対の時間セグメントの一方が 、前記第1の時間間隔とは異なる第2の時間間隔だけ遅れていると示すようにさ れている手段と; 動作中に少なくとも前記第1と第2のスペクトル差測度に基いてスペクトル の不規則さの測度を計算するようにされている手段と; 動作中に前記スペクトルの不規則さの測度と閾値の測度とを比較するように されている手段とを含む音声活性度検出器を提供する。 この音声活性度検出器は、入力信号がノイズから成ることを確実に判断すると いう長所をもつ。上述のように、これは信号を識別するのに使用する補助音声活 性度検出器の望ましい特性であり、装置は別のプロセスを実行するとき、この信 号をノイズテンプレートとして使用する。さらに異なる時間間隔に関係して導き 出されるスペクトル差測度を結合することによって、本発明の音声活性度検出器 は、異なる時間間隔で信号の安定性の程度を考慮に入れる。例えば、第1のスペ クトル差測度を第1の比較的に長い時間間隔に対して計算し、第2のスペクトル 差測度を比較的に短い時間間隔に対して計算するとすると、短い期間と長い期間 の両方の信号の安定性が、第1と第2のスペクトル差測度を結合するスペクトル の不規則さの測度に影響を与えることになる。ノイズのスペクトルは、言語とは 異なり、80ミリ秒乃至1秒の範囲の時間間隔では少なくとも安定しているので 、本発明の音声活性度検出器は騒々しい環境で確固たる性能を示す。 所定の長さの時間は400ミリ秒乃至1秒の範囲がよい。比較的迅速に時間に したがって変化する言語スペクトルの特徴は、比較的に緩慢に時間にしたがって 変化するノイズスペクトルの特徴から最も良く区別することができる。 好ましいのは、前記スペクトルの不規則さの測度を計算する手段が、動作中に 前記スペクトルの異なる測度の加重(重み付け)した和を計算するようにされて いることである。この長所は、言語/ノイズを判断するとき、言語スペクトルと ノイズスペクトルとの間の安定性の差が一番明らかである時間間隔についてそこ から求めたスペクトル差測度に対してより大きい加重を与えることができること である。 本発明の第2の態様にしたがって: 補助音声活性度検出器として動作可能な本発明の第1の態様の音声活性度検 出器を含む音声検出器を提供する。 補助ノイズ検出器は活性度が高いので、入力信号がノイズから成るという判断 が正しいと信頼できる。さらに、補助音声活性度検出器がノイズ信号を正しく識 別することを頼みとして、主音声活性度検出器は正しく動作するので、本発明の 第2の態様にしたがう音声活性度検出器は、信号が言語を含むかまたはノイズの みから成るかを確実に判断する。 本発明の第3の態様にしたがって: 本発明の第1の態様の音声活性度検出器と; 動作中に前記音声活性度検出器によってノイズから成ると判断された各時間 セグメントから1または複数のスペクトルを得て、このスペクトルに基いて推定 ノイズスペクトルを与えるようにされている手段と; 動作中に前記信号の次の時間セグメントから得られるスペクトルから前記推 定ノイズスペクトルを差引くようにされている手段とを含むノイズ低減装置を提 供する。 当業者に知られているように、スペクトル減算方法は、強められる信号から減 算されるノイズが本質的に安定しているときのみ十分に機能する。したがって、 スペクトル減算装置と本発明の第1の態様にしたがう音声活性度検出器との組合 せにより、とくに効果的なノイズ低減装置を形成する。その理由は本発明の第1 の態様の音声活性度検出器の動作は、ノイズ信号が所定の時間長において十分に 安定しているときのみ、入力信号がノイズから成ると判断するからである。 一般的に、確実なノイズテンプレートを必要とする装置は、本発明の第1の態 様の音声活性度検出器を含むことによって恩恵を受けることになる。 本発明の第4の態様にしたがって、動作中に入力信号から特徴値を抽出するよ うにされている手段、および動作中に複数の前記特徴値を処理して、前記入力信 号がノイズから成るか否かを示す値を出力するようにされているニューラルネッ トワーク手段を含む音声活性度検出器を提供する。 この装置の長所は、ニューラルネットワークを一旦トレーニングすると、入力 パラメータと、解析的に簡単に決められない出力判断との間の関係をモデル化で きることである。ニューラルネットワークをトレーニングするプロセスは大きな 労力が必要であるが、ニューラルネットワークをトレーニングしてしまえば、ア ルゴリズムの計算の複雑さは既知のアルゴリズムで見付かっている複雑さよりも 簡単である。これはもちろん、大量生産されそうな音声活性度検出器のような製 品について見れば長所となる。 好ましいのは、ニューラルネットワークへの入力パラメータは送られる信号か ら導き出されるセプトラル係数を含む。これらは言語とノイズを区別するのに有 益なパラメータであることが分かっている。 本発明の第5の態様にしたがって、音声活性度検出方法であり、次の段階、す なわち: 信号の1対の時間セグメントのスペクトルの類似度、すなわち該対の時間セ グメントの一方が第1の時間間隔だけ他方の時間セグメントよりも遅れているこ とを示す少なくとも1つの第1のスペクトル差測度を計算する段階と; 信号の1対の時間セグメントのスペクトルの類似度、すなわち該対の時間セ グメントの一方が前記第1の時間間隔とは異なる第2の時間間隔だけ他方の時間 セグメントよりも遅れていることを示す少なくとも1つの第2のスペクトル差測 度を計算する段階と; 少なくとも前記第1および第2のスペクトル差測度に基いて、スペクトル不 規則さ測度を計算する段階と; 前記スペクトル不規則さ測度と閾値の測度とを比較する段階と; 前記信号が比較に基いて前記信号がノイズから成るか否かを判断する段階と を含む音声活性度検出方法を提供する。 この方法は、ノイズ信号と言語信号との間の差を確固たるものにする(robust) という長所をもつ。 本発明の第6の態様にしたがって、一連の所定の周波数のスペクトル特性の値 を表示するスペクトル強化方法を提供し、それは信号を強めるのに次の段階、す なわち: 前記所定の各周波数で、前記周波数の前記スペクトル特性値と隣合う周波数 の前記特性値とを比較し、前記所定の周波数のスペクトル値の調整を計算し、前 記計算は、前記所定の周波数のスペクトル値が前記隣接する周波数スペクトル値 の何れよりも大きいときに調整が大きくなり、前記所定の周波数のスペクトル値 が前記隣合う周波数のスペクトル値の何れよりも小さいときに調整が小さくなる ものである段階と; 前記計算された調整にしたがってスペクトル内の前記スペクトル値のそれぞ れを調整する段階とを含むスペクトル強化方法である。 ここで、本発明の特定の実施形態を例示的に添付の図面に関係付けて記載する ことにする。 図1は、第1の実施形態を構成している音声活性度検出器の動作を示すブロッ ク図である。 図2は、図1の音声活性度検出器の構成要素を形成している補助音声活性度検 出器の動作を示すブロック図である。 図3は、スペクトル減算部品の構成要素の動作を示すブロック図である。 図4は、分類器の構成要素の動作を示す模式図である。 図5は、周知の音声活性度検出器のブロック図である。 図1に示した音声活性度検出器は移動電話装置で使用するように構成されてお り、信号19を入力して、この信号に対して一連のプロセス2、3、4、5、6、 7(それぞれ長方形で表されている)を実行し、判断部79に到達して、入力信号 がノイズのみから成っているか否かを判断する。各プロセス2、3、4、5、6 、7を終了すると、パラメータまたはパラメータの組29、39、49、59、69、79( それぞれ楕円形で表されている)を生成する。これらのプロセス2、3、4、5 、6、7のそれぞれは適切なディジタル信号処理集積回路(DSP IC)、例 えばAT&T DSP32C浮動小数点32ビットプロセッサによって実行する ことができる。 音声/情報のトーンおよび/またはノイズを表すディジタル信号19を音声活性 度検出器へ入力する。信号19は、8kHzのレートでアナログ信号から導き出さ れ、各サンプルは13ビットで表される。信号19は音声活性度検出器へ20ミリ 秒のフレームで入力され、各フレームは160サンプルから成る。 信号19はフィルタバンクプロセス2へ入力され、各入力フレームに対して25 6ポイントの高速フーリエ変換を実行する。このプロセス2は32の周波数帯域 エネルギ29を出力し、32の周波数帯域エネルギ29は、次の値と結合した32の 各周波数帯域内に含まれる入力信号フレームの電力の一部を表している(周波数 はHzで表されている): 100,143,188,236,286,340,397,457,520,588,659,735,815,900,990,1085,1186, 1292,1405,1525,1625,1786,1928,2078,2237,2406,2584,2774,2974,3186,3410,36 4 8,3900。 したがって第1の周波数は100Hz乃至143Hzであり、第2の周波数は14 3Hzから188Hzであり、などである。低い周波数帯域は、高い周波数帯域と比 較して比較的に狭いことが分かるであろう。 フィルタバンク2によって出力される周波数帯域エネルギ29は、補助音声活性 度検出器(補助VAD)3およびスペクトル減算プロセス4へ入力される。 ここで図2を参照すると、補助音声活性度検出器3は周波数帯域エネルギ29を 入力し、一連のプロセス31,32,33,34を実行し、補助判断部39で信号フレーム19 がノイズのみから成っているか否かを判断する。 補助判断39を実行するのに使用する第1のプロセスはプロセス31である。プロ セス31は、各周波数帯域エネルギ29の基数を10とする対数をとること、および その結果を10で乗算して、32の周波数帯域ログエネルギ311を与えることを 含む。先の30の入力エネルギ信号フレームからのログエネルギは、DSP I Cに設けられたメモリの適切な領域に記憶される。 スペクトルの不規則さを計算するプロセス32は最初に、現在の入力信号フレー ム19からのログエネルギ311と、第1、第2、および第3の信号フレームからの ログエネルギ314,313,312とを一緒に入力する。第1、第2、および第3のフレ ームは、それぞれ現在の入力信号フレームの前に30フレーム(すなわち、60 0ミリ秒)、20フレーム(すなわち、400ミリ秒)、10フレーム(すなわ ち、200ミリ秒)を生じている。現在のフレームの各周波数帯域内のログエネ ルギ311と第3のフレーム内の対応する各周波数帯域内のログエネルギ312との差 の大きさが分かる。こうして得られた32の差の大きさを加算して、第1のスペ クトル差の測度を得る。同様のやり方で、第2、第3、および第4のスペクトル 差の測度が分かり、これらはそれぞれ、第2および第3のフレームからのログエ ネルギ313,312、第1および第2のフレームからのログエネルギ314,313、および 第1および現在のフレームからのログエネルギ314,311の間の差を示すものであ る。第1、第2、第3のスペクトル差測度は、200ミリ秒ずつ離れているフレ ーム間の差の測度であることが分かる。第4のスペクトル差測度は、600ミリ 秒ずつはなれているフレーム間の差の測度である。故に第1乃至第4のスペ クトル差測度を一緒に加算して、スペクトルの不規則さの測度321を準備する。 したがってスペクトルの不規則さの測度は、200ミリ秒間隔の信号の安定性と 600ミリ秒を越える信号の安定性の両方を反映している。 この実施形態では、スペクトルの不規則さの測度は、4つのスペクトル差測度 の単純な和から構成されてはいるが、その代りに加重して加算できることが認識 されるべきである。例えば、第1、第2、および第3のスペクトル差測度に、第 4の差の測度よりも大きな加重値を与えるか、またはその逆も可能である。当業 者には、200ミリ秒間隔の3つの測度と600ミリ秒間隔の1つのみの測度と をもつということの効果は、より短い間隔で生ずるスペクトルの差についてより 大きな重みが加えられるようなスペクトルの不規則さの測度を与えることになる ことが認識されるであろう。 次にスペクトルの不規則さの測度321は閾値設定プロセス33へ入力され、そこ で測度321が所定の定数Kを越えるか否かを判断する。このプロセスの出力はノ イズ状態であり、測度321が所定の定数よりも小さいときは真であり、そうでな ければ偽である。先の2つのフレームに基いて得られるノイズの状態は、DSP ICに設けられたメモリ内の適切な場所に記憶される。ノイズ状態はハングオ ーバ(未決)プロセス34へ入力され、補助判断部39へ出力され、ノイズ状態が真 であることが分かったとき、および先の2つのフレームから導き出されたときの ノイズ状態が同じく真であったときには、現在の信号フレームがノイズのみから 成ることを示す。さもなければ、補助判断部は現在のフレームが言語を含むこと を示す。 本発明の発明者は、ノイズから成る信号のスペクトル特性が言語を含む信号の スペクトル特性よりも変化がより遅いことを発見した。とくに400ミリ秒乃至 1秒間隔のノイズ信号のスペクトル特性間の差は、同様の間隔の言語信号につい ての対応する差よりも著しく小さい。補助音声活性度検出器(図2参照)はこの 差を使用して、ノイズから成る入力信号と言語を含む入力信号とを区別する。こ の音声活性度検出器は種々の応用、とくにノイズ低減方法に使用できると考えら れる。ノイズ低減方法では、信号が現在ノイズであるという表示を出して、ノイ ズ信号の現在の推定値を形成し、次に入力信号から減算する。 図1に戻って、補助音声活性度検出器(図2参照)によって出力される補助判 断部39は周波数帯域エネルギ29と共にスペクトル減算プロセス4へ入力される。 スペクトル減算プロセスは、図3により詳しく示されている。第1に、周波数帯 域エネルギ29は圧縮プロセス41でそれらを幕(power)5/7まで乗羃することに よって圧縮する。次に圧縮された周波数帯域エネルギはノイズテンプレートプロ セス42へ入力される。現在の入力信号フレームN1から導き出した圧縮された周 数帯域エネルギ、および先の3つのフレームから導き出した圧縮された周波数帯 域エネルギはN2、N3、N4は、DSP ICのメモリ内の4つのフィールド内 のフレームに対する補助判断と一緒に記憶される。現在のフレームおよび先の3 つの入力フレームがノイズとして示されるとき、4つの圧縮された周波数帯域エ ネルギN1、N2、N3、N4の平均をとって、ノイズテンプレート421を準備する 。 ノイズテンプレート421を更新する度に、それをスペクトル強化プロセス43へ 入力する。スペクトル強化プロセスは、多数の強化段階を含む。n番目の強化段 階ではn倍に強化したスペクトルを生成する。したがって、第1の強化段階は最 初のノイズテンプレートを1回強化したノイズテンプレートに変換し、次に第2 の段階に入力して、2回強化したノイズテンプレートを準備し、8番目の最後の 段階で8回強化したノイズテンプレートが生成されるまで、同様のことを行なう 。 スペクトル強化プロセスで実行される段階を表す疑似コードは次式の通りであ り、ここでnは考慮している周波数帯域、X(n)は第n周波数帯域のエネルギ 値を示す。下方減少量(downward decrease amount)はαの被乗数である。 x(n)>x(n-1)のとき、x(n)=x(n)+α(x(n)-x(n-1)) x(n)>x(n+1)のとき、x(n)=x(n)+α(x(n)-x(n+1)) x(n)<x(n-1)のとき、x(n)=x(n)-α(x(n-1)-x(n)) x(n)<x(n+1)のとき、x(n)=x(n)-α(x(n+1)+n)-x(n)) 最初に、最低の(第1の)周波数帯域に対する圧縮されたエネルギ値と第2の 周波数帯域に対する圧縮されたエネルギ値との間の差を計算する。その後、第2 の周波数帯域と第3の周波数帯域のそれぞれに対する圧縮されたエネルギ値の差 を計算する。対応する差を31番目の周波数帯域と32番目の周波数帯域間の差 までそれぞれ計算する。これらの差は、DSP ICのメモリ内の適切な場所に 記憶される。 各強化段階では、入力ノイズテンプレートの各周波数帯域の入力エネルギ値を 調整して、エネルギ値と、隣合う周波数帯域に関係するエネルギ値との間の差を 大きくする。この計算で使用する差は、現在の強化段階中に生成された調整され た値ではなく、入力エネルギ値に基く差である。 より詳しくは、各強化段階で調整された第1の周波数帯域エネルギ値を生成す るには、入力された第1の周波数帯域エネルギ値と入力された第2の周波数帯域 エネルギ値との間の差の大きさの5%だけを入力された第1の周波数帯域エネル ギ値を調整する。この調整では、2つのエネルギ帯域値間の差を大きくするのに 効果を出すために、増加するか低減するかを選択する。入力された第2の周波数 帯域エネルギ値に対する調整は2つの隣合う周波数帯域エネルギ値に依存するの で、調整は2つの段階で計算される。第1に、部分的に調整した第2の周波数帯 域エネルギ値を得るのに、第2と第3の周波数帯域エネルギ値間の差に基いて5 %の調整を行なう。次に第2の周波数帯域エネルギ値の第2の調整を、第2およ び第3の周波数帯域エネルギ値間の差に基いて同様のやり方で行なう。32番目 の周波数帯域のエネルギ値を除いて、他の各周波数帯域に対してこのプロセスを 繰返す。32番目の周波数帯域のエネルギ値は、1つのみの隣合う周波数帯域エ ネルギ値をもつ。この場合の調整は第1の周波数帯域エネルギ値に類似する。 調整された周波数帯域エネルギ値よりも隣合う周波数帯域エネルギ値の一方が 高く、他方が低いとき、2つの調整は互いに打消すことになる。 スペクトル強化プロセス43の第2の段階では、同様の調整プロセスを行なって 、1回強化したノイズテンプレートに基いて2回強化したノイズテンプレートを 準備する。8つ全ての強化段階を実行すると、各周波数帯域エネルギ値をスケー リングファクタ、例えば0.9で乗算する。本発明の発明者は、スペクトル強化 プロセス43の取入れることは、“ミュージカル(musical)”スペクトル減算ノイ ズを取入れずに、ノイズ低減応用の通常の値(例えば、1.1)からスケーリン グファクタを低減できることを発見した。 スペクトル強化プロセス43によって出力される調整されたノイズテンプレート 431は、修正していないノイズテンプレート421で調べられたものよりも一層明ら かな高調波を示す。このやり方でスペクトル強化プロセス43は、人間の聴覚皮質 (auditory cortex)で発生する“ラテラルインヒビション(側音抑制)(lateral inhibition)(眼の網膜に投じられた画像の縁を人間の脳が知覚に至るプロセス )”として知られるプロセスをモデル化する。この調整により、信号対背景雑音 比が10dBよりも大きい状況で主音声活性度検出器(図1参照)の動作が向上 することが分かっている。 減算プロセス44では、現在の入力信号フレームから導き出した周波数帯域の圧 縮されたエネルギ411の対応する値から、調整されたノイズテンプレート431を差 引いて、圧縮された修正エネルギ441を出力する。 次に圧縮された修正エネルギ441は制限プロセス45に入力され、ここでは単に 、1対1よりも小さい圧縮された修正エネルギ値を設定する。このやり方で小さ い制限値を採入れると、圧縮された修正エネルギ値のぞれぞれを拡大段階46でパ ワー1.4(すなわち、段階41の圧縮指数の逆数)まで増加して、修正周波数帯 域エネルギ39を準備する。 図1を再び参照すると、メル周波数セプストラル係数(Mel Frequency Cepstra l Coefficients)では計算プロセス5では修正周波数帯域エネルギ49を入力され ると、現在の入力信号フレームの修正周波数帯域エネルギ49に基いて現在の入力 信号フレームに対する16のメル周波数セプストラル係数を計算する。 対数取りプロセス6では、プロセス31で行なったのと類似した動作を修正周波 数帯域エネルギ49で実行して、対数どりした修正周波数帯域エネルギ69を準備す る。 分類プロセス7は、完全に接続した多層パーセプトロンアルゴリズムを使用し て実行される。このアルゴリズムで使用する加重値は、片側半分がノイズであり 、残りの半分が言語である6545のフレームを使用して、モーメント(α=1 00,ε=0.05)をもつ後方伝搬アルゴリズムを使用するアルゴリズムをト レーニングして得られる。各加重値を更新する前にトレーニングデータの100 のサンプルが送られ、トレーニングデータが200回通される。 図4を参照すると、多層パーセプトロンは48の入力ノード71をもつ。16の メル周波数セプストラル係数(MFCF)59および32の対数どりされた修正周 波数帯域エネルギ69は、図面には示されていない手段によって0と1の間に位置 するように正規化されて、各入力ノードへ入力される。各入力ノード71は、接続 72(図面には1つのみが参照符号を記載されている)を介して20の第1ノード 73(同じく、図面には1つのみが参照符号を記載されている)各1つにそれぞれ 接続される。各接続72は、トレーニングプロセスによって設定される関係付けら れた加重ファクタxをもつ。各第1ノードの値は、各入力ノード値と関係付けら れた加重ファクタの積を加算することによって計算される。各第1ノードから出 力される値は、第1のノード値に関する非線形関数を実行することによって得ら れる。この場合、この非線形関数はシグモイド(S字形)である。 各第1ノード73からの出力は、接続74(再び、各接続は関係付けられた加重フ ァクタをもつ)を介して8つの第2のノード75の1つに接続される。第2のノー ド値は、入力ノード値に基いて第1ノード値を計算するのに使用した方法に類似 した方法を使用して、第1ノード値に基いて計算する。再び第2のノードの出力 は、シグモイド関数を使用して変更される。8つの第2のノード75はそれぞれ、 各接続76を介して出力ノード77に接続される。出力ノードの値は、第1のノード からの出力に基いて第2のノードを計算する方法に類似した方法で、第2のノー ド75からの出力に基いて計算する。出力ノードの値は、0と1の間に位置する単 一の浮動小数点である。この値が0.5よりも大きいときは音声活性度検出器に よって出力される判断79は、現在の入力信号フレームが言語を含むか、さもなけ れば入力信号フレームがノイズのみから成っていることを示す。判断79が主音声 活性度検出器の出力を形成していることが分かるであろう(図1参照)。 代りの実施形態では、多層パーセプトロンは第2の出力ノードを準備して、入 力信号のフレームが情報トーン(例えばダイヤルトーン、話中音、またはDTM Fシグナリングトーン)を含むことを示す。 言語のクリッピング(一部の音を落とすこと)を減らすために、出力判断は、 出力ノード値が現在の入力信号フレームに対して0.5超えていて、かつ先の入 力信号フレームに対して0.5超えていたときは、入力信号フレームがノイズか ら成ることを示すことだけができる。 幾つかの実施形態では、入力信号フレームは最初の短かい期間(例えば、1秒 )はノイズから成るという趣旨で、音声活性度検出器は判断を出力することをデ ィスエーブルすることができる。 本発明の第2の実施形態は、基準文献で規定された改良型の補助音声検出器を 提供する。基準文献には:"European Digital Cellular Telecommunications(ph ase 2);Voice Activity Detector(VAD)(GSM(Global System for Mobile Comm unication)06.32)ETS300 580-6"がある。これは、図5に示した我々の欧州特許 第0 335 521号に記載した音声活性度検出器(Voice Activity Detector)に対応し ている。 ノイズを含む言語信号は入力601で受信される。メモリ602はノイズの周波数ス ペクトルの推定値またはモデルを定めるデータを含む;このデータと現在の信号 のスペクトルとの間で比較(603)を行ない、閾値と比較して(604)、類似性の測度 を得る。ノイズ成分の変化を追跡するために、言語が存在しないときのみノイズ モデルを入力から更新する。さらに、閾値を調節することができる(アダプタ60 6)。 誤った判断にしたがって次第に調節が不正確になる危険性を無くして、ノイズ のみの期間だけ調節を行なうことを確実にするために、無声音検出器608と有声 音検出器609を備えた補助検出器607の制御のもとで調節を行なう:検出器607は 、該検出器の何れかが言語を認識し、主検出器の更新および閾値の調節を抑制す るときに言語が存在すると考える。無声音検出器608は、信号に対して1組のL PC(Linear Predictive Coding)係数を得て、連続するフレーム期間の間でこれ らの係数の自己相関関数を比較し、一方で有声音検出器609はLPCの残りの自 動相関の変形を調べる。 無声音検出器608では、信号スペクトルの安定性の測度を使用して、入力信号 が無声音を含むか否かに関する判断を形成する。とくに、入力信号の隣の80ミ リ秒のブロック間のスペクトル差測度のフレームの変化を閾値と比較して、ブー ルの安定性の判断を行なう。使用されるスペクトル差測度はItakura-Saitoの歪 み測度の変数であり、各80ミリ秒のブロックのスペクトル表示は、それを構成 している20ミリ秒のフレームの自己相関関数の平均をとることによって導き出 される。本発明の第2の実施形態は、この判断の確実性を向上する。 本発明の第2の実施形態にしたがって、解析される信号ブロックを多数の小ブ ロックに、例えば160ミリ秒のブロックを8つの20ミリ秒の小ブロックに分 割する。次に無声音/ノイズの判断は、小ブロックの対の全ての組合わせ(この 例では、82=28の比較)間のスペクトル差測度を計算し、個々の距離を加算 して、単一の測定基準を形成することによって決定される。得られた測定基準は 、解析されるブロックのスペクトルの安定性の測度である。この安定性測度は、 上述のGSM基準で記載した基準よりも一層正確である。その理由は、この安定 性測度は小ブロックの対の間のスペクトルの類似性、すなわち隣合うブロック間 の単なる類似性ではなく、異なる間隔(20ミリ秒、40ミリ秒、60ミリ秒、 …140ミリ秒)で間隔をおいた構成要素を考慮しているからである。Itakura- Saitoの歪み測度(Itakura-Saito Distortion Measure)の変形では、各20ミリ 秒の信号フレームに対して使用可能な自動相関関数から計算できるので、この方 法は上述のGSM VADと簡単に合成できる。当業者は他のスペクトル測度、 例えばFFT応用方法も使用できることが分かるであろう。さらに、上述の単一 の測定基準を導き出すときに、歪み測度の加重して組合わせたものを使用するこ とができる。例えば、導き出すときに使用する小ブロック間の間隔に比例して、 歪み測度を加重することができる。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04B 7/26 (81)指定国 EP(AT,BE,CH,DE, DK,ES,FI,FR,GB,GR,IE,IT,L U,MC,NL,PT,SE),OA(BF,BJ,CF ,CG,CI,CM,GA,GN,ML,MR,NE, SN,TD,TG),AP(GH,KE,LS,MW,S D,SZ,UG,ZW),EA(AM,AZ,BY,KG ,KZ,MD,RU,TJ,TM),AL,AM,AT ,AU,AZ,BA,BB,BG,BR,BY,CA, CH,CN,CU,CZ,DE,DK,EE,ES,F I,GB,GE,GH,HU,IL,IS,JP,KE ,KG,KP,KR,KZ,LC,LK,LR,LS, LT,LU,LV,MD,MG,MK,MN,MW,M X,NO,NZ,PL,PT,RO,RU,SD,SE ,SG,SI,SK,SL,TJ,TM,TR,TT, UA,UG,US,UZ,VN,YU,ZW (72)発明者 バレット、ポール・アレキサンダー イギリス国、アイピー2・7エックスワ イ、イプスウィッチ、ケスグレイブ、フレ ッチャーズ・レーン 18

Claims (1)

  1. 【特許請求の範囲】 1.音声活性度検出器において: 動作中に信号の1対の時間セグメントにおけるスペクトルの類似度、すなわ ち該1対の時間セグメントの一方が第1の時間間隔だけ他方の時間セグメントよ り遅れていることと示す少なくとも1つの第1のスペクトル差測度を計算するよ うにされている手段と; 動作中に少なくとも1つの第2のスペクトル差測度を計算し、信号の1対の 時間セグメントにおけるスペクトルの類似度を、1対の時間セグメントの一方が 、前記第1の時間間隔とは異なる第2の時間間隔だけ遅れていると示すようにさ れている手段と; 動作中に少なくとも前記第1と第2のスペクトル差測度に基いてスペクトル の不規則さの測度を計算するようにされている手段と; 動作中に前記スペクトルの不規則さの測度と閾値の測度とを比較するように されている手段とを含む音声活性度検出器。 2.前記所定の長さの時間が80ミリ秒乃至1秒の範囲である請求項1記載の音 声活性度検出器。 3.前記スペクトルの不規則さの測度計算手段が、動作中に前記スペクトルの差 の測度の加重した和を計算するようにされている請求項1または2記載の音声活 性度検出器。 4.補助音声活性度検出器として動作可能な請求項1乃至3の何れか1項記載の 音声活性度検出器を含む音声検出器。 5.動作中に前記補助音声活性度検出器によってノイズから成ると判断された各 時間セグメントから得られる1または複数のスペクトルに基いで、推定ノイズス ペクトルを準備するようにされている手段と; 動作中に前記信号の次の時間セグメントから得たスペクトルから前記推定さ れたノイズスペクトルを差引くようにされている手段とをさらに含む請求項4記 載の音声活性度検出器。 6.請求項1乃至3の何れか1項記載の音声活性度検出器と; 動作中に前記音声活性度検出器によってノイズから成ると判断された各時間 セグメントから1または複数のスペクトルを得て、このスペクトルに基いて推定 ノイズスペクトルを与えるようにされている手段と; 動作中に前記信号の次の時間セグメントから得られるスペクトルから前記推 定ノイズスペクトルを差引くようにされている手段とを含むノイズ抑制装置。 7.動作中に入力信号から特性値を抽出するようにされている手段と; 動作中に複数の前記特性値を処理して、前記入力信号がノイズから成るか否 かを示す値を出力するようにされているニューラルネットワーク手段とを含む音 声活性度検出器。 8.前記抽出手段が、動作中に前記信号スペクトル内の複数の各周波数帯域にお いてパワーを表すフィルタバンク値を与えるようにされているフィルタバンクを さらに含む請求項7記載の音声活性度検出器。 9.前記抽出手段が、動作中に前記フィルタバンク値を処理して、セプストラル 係数を含む特性値を得るようにされている手段をさらに含む請求項8記載の音声 活性度検出器。 10.前記抽出手段がさらに、動作中に前記フィルタバンク値を処理して、フィ ルタバンク値の対数を含む特性値を得るようにされている手段をさらに含む請求 項8または9記載の音声活性度検出器。 11.前記ニューラルネットワーク手段が別の出力をもち、その値が前記信号が 情報トーンであるか否かを示す請求項7乃至10の何れか1項記載の音声活性度 検出器。 12.補助音声活性度検出器として動作する請求項1乃至3の何れか1項記載の 音声活性度検出器と; 動作中に、前記音声活性度検出器によってノイズから成ると判断された各時 間セグメントから得られた1または複数のスペクトルに基いて、推定ノイズスペ クトルを準備するようにされている手段と; 動作中に前記信号の次の時間セグメントから得られるスペクトルから前記推 定ノイズスペクトルを差引くようにされている手段ととをさらに含む請求項7乃 至11の何れか1項記載の音声活性度検出器。 13.請求項1乃至12の何れか1項記載の音声活性度検出器を含む移動無線装 置。 14.音声活性度検出方法であり、次の段階、すなわち: 信号の1対の時間セグメントのスペクトルの類似度、すなわち該対の時間セ グメントの一方が第1の時間間隔だけ他方の時間セグメントよりも遅れているこ とを示す少なくとも1つの第1のスペクトル差測度を計算する段階と; 信号の1対の時間セグメントのスペクトルの類似度、すなわち該対の時間セ グメントの一方が前記第1の時間間隔とは異なる第2の時間間隔だけ他方の時間 セグメントよりも遅れていることを示す少なくとも1つの第2のスペクトル差測 度を計算する段階と; 少なくとも前記第1および第2のスペクトル差測度に基いて、スペクトル不 規則さ測度を計算する段階と; 前記スペクトル不規則さ測度と閾値の測度とを比較する段階と; 前記信号が比較に基いて前記信号がノイズから成るか否かを判断する段階と を含む音声活性度検出方法。 15.前記所定の長さの時間が80ミリ秒乃至1秒の範囲である請求項14記載 の方法。 16.前記スペクトルの不規則さの測度計算段階が、前記スペクトルの差の測度 の加重した和を形成することを含む請求項14または15の何れか1項記載の方 法。 17.一連の所定の周波数のスペクトル特性値を表示するスペクトル強化方法で あり、信号を強めるのに次の段階、すなわち: 前記所定の各周波数で、前記周波数の前記スペクトル特性値と隣合う周波数 の前記特性値とを比較し、前記所定の周波数のスペクトル値の調整を計算し、前 記計算において、前記所定の周波数のスペクトル値が前記隣接する周波数スペク トル値の何れよりも大きいときに調整が大きくなり、前記所定の周波数のスペク トル値が前記隣合う周波数のスペクトル値の何れよりも小さいときに調整が小さ くなる段階と; 前記計算された調整にしたがってスペクトル内の前記スペクトル値のそれぞ れを調整する段階とを含むスペクトル強化方法。 18.前記比較において: 前記所定の周波数スペクトル値を得ること; 隣合うより低い周波数で前記特性値を得ること; 隣合うより高い周波数で前記特性値を得ること; 前記より低い周波数スペクトル値を越える前記所定の周波数スペクトル値に ついて下方減少量を計算すること; 前記より高い周波数スペクトル値を越える前記所定の周波数スペクトル値に ついて上方減少量を計算すること; 前記より低い周波数スペクトル値よりも少ない前記所定の周波数スペクトル 値を次第に減少していく増加量を計算すること; 前記より高い周波数スペクトル値よりも少ない前記所定の周波数スペクトル 値を次第に増していく増加量を計算すること;および、 前記調節計算は、前記調整が、計算した低減量に基いて増加されるか、ある いは計算した増加量に基いて低減されること含む請求項17記載の方法。 19.前記調節段階が: 計算した低減量に非線形に比例する量だけ前記所定の周波数値を増加するこ と;または、 計算した増加量に非線形に比例する量だけ前記所定の周波数値を低減するこ とを含む請求項18記載の方法。 20.請求項17、請求項18、または請求項19の方法を複数回繰返すことを 含む請求項17乃至19の何れか1項記載の方法。 21.請求項17乃至20の何れか1項にしたがうスペクトルの強化を含む音声 活性度検出方法。 22.信号の時間セグメントに基いてスペクトルを計算する手段であり、動作中 に信号の第1の時間セグメントに基づいて第1のスペクトルを、また信号の第2 の時間セグメントに基づいて第2のスペクトルを計算するようにされていて、前 記第2のセグメントが前記第1のセグメントよりも所定の長さの時間だけ遅れて いるようにする、スペクトルを計算する手段と; スペクトル間のスペクトル差測度を計算する手段であり、動作中に前記第1 と第2のスペクトル間のスペクトルの差を示すスペクトル差測度を計算するよう にされている計算する手段と; 動作中に少なくとも前記スペクトル差測度に基いてスペクトルの不規則さの 測度を計算するようにされているスペクトルの不規則さの測度を計算する手段と ; 前記スペクトルの不規則さの測度を閾値の測度と比較する手段と; 前記比較に基いて前記信号がノイズから成るか否かを判断する手段とを含み ; 前記所定の長さの時間が、言語信号スペクトルの時間にしたがって変化する 特性を明らかにするのに十分な大きさであり; 前記スペクトルを計算する手段がさらに、動作中に前記所定の長さの時間内 に含まれる前記信号の時間セグメントに基いて1または複数の中間スペクトルを 計算するようにされており; 前記スペクトルの差測度を計算する手段がさらに、動作中に前記中間スペク トルの幾つかまたは全てと前記第1および第2のスペクトルとの間の中間スペク トルの差の測度を計算するようにされており; 前記スペクトルの不規則さの測度を計算する手段が、動作中に前記スペクト ルの差の測度および前記中間スペクトルの差の測度に基いてスペクトルの不規則 さの測度を計算するようにされている音声活性度検出器。 23.実質的に、図1を引用して上述に記載して示された音声活性度検出器。 24.上述で実質的に記載された音声活性度検出方法。
JP50490998A 1996-07-03 1997-07-02 音声活性度検出器 Expired - Lifetime JP4307557B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP96304920.0 1996-07-03
EP96304920 1996-07-03
PCT/GB1997/001780 WO1998001847A1 (en) 1996-07-03 1997-07-02 Voice activity detector

Publications (3)

Publication Number Publication Date
JP2000515987A true JP2000515987A (ja) 2000-11-28
JP2000515987A5 JP2000515987A5 (ja) 2005-07-14
JP4307557B2 JP4307557B2 (ja) 2009-08-05

Family

ID=8224997

Family Applications (1)

Application Number Title Priority Date Filing Date
JP50490998A Expired - Lifetime JP4307557B2 (ja) 1996-07-03 1997-07-02 音声活性度検出器

Country Status (8)

Country Link
US (1) US6427134B1 (ja)
EP (1) EP0909442B1 (ja)
JP (1) JP4307557B2 (ja)
KR (1) KR20000022285A (ja)
CN (1) CN1225736A (ja)
AU (1) AU3352997A (ja)
DE (1) DE69716266T2 (ja)
WO (1) WO1998001847A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013545136A (ja) * 2010-10-25 2013-12-19 クゥアルコム・インコーポレイテッド 音声アクティビティ検出のための、システム、方法、および装置
US9165567B2 (en) 2010-04-22 2015-10-20 Qualcomm Incorporated Systems, methods, and apparatus for speech feature detection
JP2018077546A (ja) * 2013-09-09 2018-05-17 ホアウェイ・テクノロジーズ・カンパニー・リミテッド 音声処理のための無声/有声判定
JP2023001605A (ja) * 2021-06-21 2023-01-06 アルインコ株式会社 無線通信装置

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6278377B1 (en) 1999-08-25 2001-08-21 Donnelly Corporation Indicator for vehicle accessory
US6243003B1 (en) 1999-08-25 2001-06-05 Donnelly Corporation Accessory module for vehicle
ES2389626T3 (es) 1998-04-03 2012-10-29 Tellabs Operations, Inc. Filtro para acortamiento de respuesta al impulso, con restricciones espectrales adicionales, para transmisión de múltiples portadoras
US7440498B2 (en) 2002-12-17 2008-10-21 Tellabs Operations, Inc. Time domain equalization for discrete multi-tone systems
US6420975B1 (en) 1999-08-25 2002-07-16 Donnelly Corporation Interior rearview mirror sound processing system
US6795424B1 (en) 1998-06-30 2004-09-21 Tellabs Operations, Inc. Method and apparatus for interference suppression in orthogonal frequency division multiplexed (OFDM) wireless communication systems
US6618701B2 (en) * 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
FR2797343B1 (fr) * 1999-08-04 2001-10-05 Matra Nortel Communications Procede et dispositif de detection d'activite vocale
GB9928011D0 (en) * 1999-11-27 2000-01-26 Ibm Voice processing system
US6529868B1 (en) * 2000-03-28 2003-03-04 Tellabs Operations, Inc. Communication system noise cancellation power signal calculation techniques
EP1279164A1 (de) 2000-04-28 2003-01-29 Deutsche Telekom AG Verfahren zur berechnung einer sprachaktivitätsentscheidung (voice activity detector)
DE10026872A1 (de) 2000-04-28 2001-10-31 Deutsche Telekom Ag Verfahren zur Berechnung einer Sprachaktivitätsentscheidung (Voice Activity Detector)
US7941313B2 (en) * 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
US7203643B2 (en) * 2001-06-14 2007-04-10 Qualcomm Incorporated Method and apparatus for transmitting speech activity in distributed voice recognition systems
US20030110029A1 (en) * 2001-12-07 2003-06-12 Masoud Ahmadi Noise detection and cancellation in communications systems
US6847930B2 (en) * 2002-01-25 2005-01-25 Acoustic Technologies, Inc. Analog voice activity detector for telephone
KR100853681B1 (ko) * 2002-05-24 2008-08-25 엘지전자 주식회사 냉장고의 홈바히터 제어방법
US20040064314A1 (en) * 2002-09-27 2004-04-01 Aubert Nicolas De Saint Methods and apparatus for speech end-point detection
SG119199A1 (en) * 2003-09-30 2006-02-28 Stmicroelectronics Asia Pacfic Voice activity detector
FI20045315A (fi) * 2004-08-30 2006-03-01 Nokia Corp Ääniaktiivisuuden havaitseminen äänisignaalissa
GB2422279A (en) * 2004-09-29 2006-07-19 Fluency Voice Technology Ltd Determining Pattern End-Point in an Input Signal
KR100677396B1 (ko) * 2004-11-20 2007-02-02 엘지전자 주식회사 음성인식장치의 음성구간 검출방법
CN1815550A (zh) 2005-02-01 2006-08-09 松下电器产业株式会社 可识别环境中的语音与非语音的方法及系统
KR100714721B1 (ko) * 2005-02-04 2007-05-04 삼성전자주식회사 음성 구간 검출 방법 및 장치
US20070198251A1 (en) * 2006-02-07 2007-08-23 Jaber Associates, L.L.C. Voice activity detection method and apparatus for voiced/unvoiced decision and pitch estimation in a noisy speech feature extraction
JP4749925B2 (ja) 2006-04-21 2011-08-17 株式会社リコー 画像形成装置、画像形成方法、及びプロセスカートリッジ
EP1847883B1 (en) 2006-04-21 2012-12-26 Ricoh Company, Ltd. Image forming method
EP2028551B1 (en) 2006-06-02 2014-07-23 Kao Corporation Toner for electrophotography
ES2394515T3 (es) * 2007-03-02 2013-02-01 Telefonaktiebolaget Lm Ericsson (Publ) Métodos y adaptaciones en una red de telecomunicaciones
US8321217B2 (en) * 2007-05-22 2012-11-27 Telefonaktiebolaget Lm Ericsson (Publ) Voice activity detector
JP5054443B2 (ja) 2007-06-20 2012-10-24 株式会社リコー 画像形成装置、画像形成方法、及びプロセスカートリッジ
US8329370B2 (en) 2007-10-19 2012-12-11 Ricoh Company, Ltd. Toner, image forming apparatus, image forming method, and process cartridge
JP5229234B2 (ja) * 2007-12-18 2013-07-03 富士通株式会社 非音声区間検出方法及び非音声区間検出装置
US8611556B2 (en) * 2008-04-25 2013-12-17 Nokia Corporation Calibrating multiple microphones
US8244528B2 (en) 2008-04-25 2012-08-14 Nokia Corporation Method and apparatus for voice activity determination
US8275136B2 (en) * 2008-04-25 2012-09-25 Nokia Corporation Electronic device speech enhancement
JP5369691B2 (ja) 2008-11-28 2013-12-18 株式会社リコー トナー及び現像剤
FR2943875A1 (fr) * 2009-03-31 2010-10-01 France Telecom Procede et dispositif de classification du bruit de fond contenu dans un signal audio.
US8509398B2 (en) * 2009-04-02 2013-08-13 Microsoft Corporation Voice scratchpad
CN102804260B (zh) * 2009-06-19 2014-10-08 富士通株式会社 声音信号处理装置以及声音信号处理方法
ES2371619B1 (es) * 2009-10-08 2012-08-08 Telefónica, S.A. Procedimiento de detección de segmentos de voz.
EP2816560A1 (en) * 2009-10-19 2014-12-24 Telefonaktiebolaget L M Ericsson (PUBL) Method and background estimator for voice activity detection
US8725506B2 (en) * 2010-06-30 2014-05-13 Intel Corporation Speech audio processing
JP5561195B2 (ja) * 2011-02-07 2014-07-30 株式会社Jvcケンウッド ノイズ除去装置およびノイズ除去方法
US9070374B2 (en) * 2012-02-20 2015-06-30 JVC Kenwood Corporation Communication apparatus and condition notification method for notifying a used condition of communication apparatus by using a light-emitting device attached to communication apparatus
CN103325386B (zh) 2012-03-23 2016-12-21 杜比实验室特许公司 用于信号传输控制的方法和系统
CN107195313B (zh) 2012-08-31 2021-02-09 瑞典爱立信有限公司 用于语音活动性检测的方法和设备
JP2014085609A (ja) * 2012-10-26 2014-05-12 Sony Corp 信号処理装置および方法、並びに、プログラム
US9542933B2 (en) 2013-03-08 2017-01-10 Analog Devices Global Microphone circuit assembly and system with speech recognition
WO2015072059A1 (ja) * 2013-11-13 2015-05-21 日本電気株式会社 ネットワーク図描画システム、ネットワーク図描画方法およびネットワーク図描画プログラム
FR3017484A1 (fr) * 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
CN110556128B (zh) * 2019-10-15 2021-02-09 出门问问信息科技有限公司 一种语音活动性检测方法、设备及计算机可读存储介质
CN117711419B (zh) * 2024-02-05 2024-04-26 卓世智星(成都)科技有限公司 用于数据中台的数据智能清洗方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4357491A (en) 1980-09-16 1982-11-02 Northern Telecom Limited Method of and apparatus for detecting speech in a voice channel signal
DE3370423D1 (en) 1983-06-07 1987-04-23 Ibm Process for activity detection in a voice transmission system
US4720802A (en) * 1983-07-26 1988-01-19 Lear Siegler Noise compensation arrangement
US5276765A (en) * 1988-03-11 1994-01-04 British Telecommunications Public Limited Company Voice activity detection
DE68929442T2 (de) * 1988-03-11 2003-10-02 British Telecomm Vorrichtung zur Erfassung von Sprachlauten
JP2573352B2 (ja) 1989-04-10 1997-01-22 富士通株式会社 音声検出装置
JP2643593B2 (ja) * 1989-11-28 1997-08-20 日本電気株式会社 音声・モデム信号識別回路
US5195138A (en) * 1990-01-18 1993-03-16 Matsushita Electric Industrial Co., Ltd. Voice signal processing device
EP0538536A1 (en) * 1991-10-25 1993-04-28 International Business Machines Corporation Method for detecting voice presence on a communication line
US5410632A (en) 1991-12-23 1995-04-25 Motorola, Inc. Variable hangover time in a voice activity detector
US5369791A (en) 1992-05-22 1994-11-29 Advanced Micro Devices, Inc. Apparatus and method for discriminating and suppressing noise within an incoming signal
GB9213459D0 (en) * 1992-06-24 1992-08-05 British Telecomm Characterisation of communications systems using a speech-like test stimulus
US5890104A (en) * 1992-06-24 1999-03-30 British Telecommunications Public Limited Company Method and apparatus for testing telecommunications equipment using a reduced redundancy test signal
IN184794B (ja) * 1993-09-14 2000-09-30 British Telecomm
CA2171864A1 (en) * 1993-11-25 1995-06-01 Michael Peter Hollier Method and apparatus for testing telecommunications equipment
JPH08506434A (ja) * 1993-11-30 1996-07-09 エイ・ティ・アンド・ティ・コーポレーション 通信システムにおける伝送ノイズ低減
US5657422A (en) * 1994-01-28 1997-08-12 Lucent Technologies Inc. Voice activity detection driven noise remediator
GB2317084B (en) 1995-04-28 2000-01-19 Northern Telecom Ltd Methods and apparatus for distinguishing speech intervals from noise intervals in audio signals
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
US5737716A (en) * 1995-12-26 1998-04-07 Motorola Method and apparatus for encoding speech using neural network technology for speech classification
US5991718A (en) * 1998-02-27 1999-11-23 At&T Corp. System and method for noise threshold adaptation for voice activity detection in nonstationary noise environments

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9165567B2 (en) 2010-04-22 2015-10-20 Qualcomm Incorporated Systems, methods, and apparatus for speech feature detection
JP2013545136A (ja) * 2010-10-25 2013-12-19 クゥアルコム・インコーポレイテッド 音声アクティビティ検出のための、システム、方法、および装置
US8898058B2 (en) 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
JP2018077546A (ja) * 2013-09-09 2018-05-17 ホアウェイ・テクノロジーズ・カンパニー・リミテッド 音声処理のための無声/有声判定
US10347275B2 (en) 2013-09-09 2019-07-09 Huawei Technologies Co., Ltd. Unvoiced/voiced decision for speech processing
US11328739B2 (en) 2013-09-09 2022-05-10 Huawei Technologies Co., Ltd. Unvoiced voiced decision for speech processing cross reference to related applications
JP2023001605A (ja) * 2021-06-21 2023-01-06 アルインコ株式会社 無線通信装置
JP7221335B2 (ja) 2021-06-21 2023-02-13 アルインコ株式会社 無線通信装置

Also Published As

Publication number Publication date
EP0909442A1 (en) 1999-04-21
US6427134B1 (en) 2002-07-30
DE69716266D1 (de) 2002-11-14
CN1225736A (zh) 1999-08-11
WO1998001847A1 (en) 1998-01-15
AU3352997A (en) 1998-02-02
DE69716266T2 (de) 2003-06-12
KR20000022285A (ko) 2000-04-25
EP0909442B1 (en) 2002-10-09
JP4307557B2 (ja) 2009-08-05

Similar Documents

Publication Publication Date Title
JP4307557B2 (ja) 音声活性度検出器
US10504539B2 (en) Voice activity detection systems and methods
CN1985304B (zh) 用于增强型人工带宽扩展的系统和方法
EP2151822B1 (en) Apparatus and method for processing and audio signal for speech enhancement using a feature extraction
KR100944252B1 (ko) 오디오 신호 내에서 음성활동 탐지
JP3963850B2 (ja) 音声区間検出装置
KR100363309B1 (ko) 음성액티비티검출기
EP1580730A2 (en) Isolating speech signals utilizing neural networks
EP1229520A2 (en) Silence insertion descriptor (sid) frame detection with human auditory perception compensation
US10783899B2 (en) Babble noise suppression
US8694311B2 (en) Method for processing noisy speech signal, apparatus for same and computer-readable recording medium
JPH06332492A (ja) 音声検出方法および検出装置
JPH0916194A (ja) 音声信号の雑音低減方法
EP3689002A2 (en) Howl detection in conference systems
KR101317813B1 (ko) 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
KR101335417B1 (ko) 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
Fraile et al. Mfcc-based remote pathology detection on speech transmitted through the telephone channel-impact of linear distortions: Band limitation, frequency response and noise
US8788265B2 (en) System and method for babble noise detection
Goli et al. Speech intelligibility improvement in noisy environments based on energy correlation in frequency bands
CN112133320A (zh) 语音处理装置及语音处理方法
Geravanchizadeh et al. Improving the noise-robustness of Mel-Frequency Cepstral Coefficients for speaker verification
Graf et al. Kurtosis-Controlled Babble Noise Suppression
CN117334224A (zh) 一种心音识别方法、装置、电子设备及存储介质
Abu-El-Quran et al. Multiengine Speech Processing Using SNR Estimator in Variable Noisy Environments
Wang The Study of Automobile-Used Voice-Activity Detection System Based on Two-Dimensional Long-Time and Short-Frequency Spectral Entropy

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040630

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070116

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070416

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070604

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070713

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080812

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081210

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20090108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090407

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090430

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120515

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130515

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term