JP4739023B2

JP4739023B2 - デジタル音声信号におけるクリッキングノイズ検出

Info

Publication number: JP4739023B2
Application number: JP2005507732A
Authority: JP
Inventors: ザファー，ツォルト
Original assignee: ニュアンスコミュニケーションズオーストリアゲーエムベーハー
Priority date: 2003-08-18
Filing date: 2003-08-18
Publication date: 2011-08-03
Anticipated expiration: 2023-08-18
Also published as: JP2007516450A; US7729906B2; CN100559470C; DE60315522T2; US20060287857A1; AU2003249441A1; DE60315522D1; EP1661125A1; ATE369602T1; EP1661125B1; WO2005017878A1; CN1860528A

Description

本発明は、デジタル音声信号におけるノイズ信号を検出する方法に関する。

本発明はさらに、デジタル音声信号を処理する装置に関し、当該装置には、音声信号におけるノイズ信号を検出するためのノイズ信号検出手段が備えられている。

本発明はさらに、デジタル音声信号におけるノイズ信号を検出するのに適したコンピュータプログラムプロダクトに関する。

本発明はさらに、前記段落に従ってコンピュータプログラムプロダクトを実現するコンピュータに関する。

第１段落に上述された汎用タイプのこの種の方法、第２段落に上述された汎用タイプのこの種の装置、第３段落に上述された汎用タイプのこの種のコンピュータプログラムプロダクト、及び第４段落に上述された汎用タイプのこの種のコンピュータが、音声認識システムに関連して出願人により流通に供され、すでに知られている。

既知の音声認識システムでは、音声信号形式による発話された言語が、マイクロフォンを介し音声認識システムに供給され、デジタル化される。これにより取得されるデジタル音声信号は、声を表す発話信号と、バックグラウンドノイズを表すバックグラウンド信号と、ある状況ではノイズ信号が発話信号と類似し、それに近接して発生し得るさらなるノイズ信号とを有する。このデジタル音声信号は、スペクトル解析及びさらなる処理を受け、この結果として、いわゆるＣＥＰＳＴＲＡＬ表現によるデジタル音声信号の表現が取得される。ノイズ信号は、全く発話されていない単語として誤って検出されるかもしれない。デジタル音声信号のノイズ信号はさらに、この種の音声信号の再生において、リスナーを苛つかせるという不都合な効果を有する。このため、音声認識システムには、検出されたノイズ信号のさらなる処理のため、ノイズ信号を検出するためのノイズ信号検出手段が備えられる。

この既知の音声認識システムでは、比較的短い期間に発生するノイズ信号、特にクリッキングノイズ信号が、発話信号ではなくバックグラウンド信号のみを音声信号が表す比較的長い静かなポーズ内でのみでしか検出することができず、この結果、発話信号の近傍又は近接領域で発生するノイズ信号を全く検出することができないという問題が存在する。

本発明の課題は、第１段落に上述された汎用タイプの方法、第２段落に上述された汎用タイプの装置、第３段落に上述された汎用タイプのコンピュータプログラム、及び第４段落に上述された汎用タイプのコンピュータにより上記問題点を解消し、改良された方法、装置、コンピュータプログラム及びコンピュータを生成することである。

上記課題を解決するため、本発明による方法において、本発明による特徴が提供され、本発明による方法は、以下に特定されるように特徴付けすることができる。

すなわち、デジタル音声信号におけるノイズ信号を検出する方法であって、前記音声信号が連続する信号セクションに分割され、連続する信号セクションのエネルギーコンテンツが決定され、信号セクションのエネルギーコンテンツが、エネルギー閾値に関して評価され、前記エネルギー閾値を超えるエネルギーコンテンツを有する少なくとも１つの高エネルギー信号セクションの発生、前記少なくとも１つの高エネルギー信号セクションに先行し、前記エネルギー閾値を下回るエネルギーコンテンツを有する少なくとも１つの信号セクションの発生、及び前記少なくとも１つの高エネルギー信号セクションに後続し、前記エネルギー閾値を下回るエネルギーコンテンツを有する少なくとも１つの信号セクションの発生が検出され、前記少なくとも１つの高エネルギー信号セクションに先行する信号セクションのセクション数、高エネルギー信号セクションのセクション数、及び前記高エネルギー信号セクションに後続する信号セクションのセクション数が計数される。

上記課題を解決するため、本発明による装置において、本発明による特徴が提供され、本発明による装置は、以下に特定されるように特徴付けすることができる。

すなわち、デジタル音声信号におけるノイズ信号を検出するよう構成されるノイズ信号検出手段を備えた前記デジタル音声信号を処理する装置であって、前記音声信号を連続する信号セクションに分割するよう構成される音声信号分割手段が設けられ、連続する信号セクションのエネルギーコンテンツを決定するよう構成されるエネルギーコンテンツ判定手段が設けられ、エネルギー閾値に関して信号セクションのエネルギーコンテンツを評価するよう構成されるエネルギーコンテンツ評価手段が設けられ、前記エネルギー閾値を超えるエネルギーコンテンツを有する少なくとも１つの高エネルギー信号セクションの発生を検出し、前記少なくとも１つの高エネルギー信号セクションに先行し、前記エネルギー閾値を下回るエネルギーコンテンツを有する少なくとも１つの信号セクションの発生を検出し、及び前記少なくとも１つの高エネルギー信号セクションに後続し、前記エネルギー閾値を下回るエネルギーコンテンツを有する少なくとも１つの信号セクションの発生を認識するよう構成される発生検出手段が設けられ、前記少なくとも１つの高エネルギー信号セクションに先行する信号セクションのセクション数、高エネルギー信号セクションのセクション数、及び前記少なくとも１つの高エネルギー信号セクションに後続する信号セクションのセクション数を計数するよう構成される計数手段が設けられる。

上記課題を解決するため、本発明によるコンピュータプログラムでは、コンピュータのメモリに直接ロード可能であり、ソフトウェアコードセクションを有し、本発明の方法が、当該コンピュータプログラムの前記コンピュータ上での実現時に、前記コンピュータにより実現することが可能である。

上記課題を解決するため、本発明によるコンピュータでは、コンピュータにはプロセッサユニットと内部メモリが備えられ、上記段落によるコンピュータプログラムを実現する。

本発明による上記手段を設けることにより、クリッキングノイズ信号が最も確実かつ可能な方法により検出でき、この検出が、時間に関する音声信号表示に基づき、時間に関する当該表示において確定されたエネルギーパターンを用いて、時間に関する上記エネルギーパターンの存在を考慮して行われるという効果が得られ、時間に関する音声信号表示を時間に関する表示以外の表示に変換する複雑な変換方法を全く必要とせず、これにより、本発明が比較的低い計算パワーのみの利用可能性により実現可能であり、ノイズ信号の高速かつシンプルな検出が支援されることになる。

本発明による一手段では、請求項２に記載された特徴が与えられる場合に、さらに効果的であるとわかる。これにより、単位としてデシベルを用いた規格化された表示における信号セクションのエネルギーコンテンツの評価が比較的簡単に実行できるという効果がもたらされる。

本発明による一手段では、請求項３に記載された特徴が与えられる場合に、さらに効果的であるとわかる。これにより、エネルギー閾値が擬似連続的、これにより各ケースにおいて音声信号の実際の信号レベルに対する正確な比において決定され、この結果、実際のエネルギー閾値の正確でない定義又は近似によるクリッキングノイズ信号の不正確な検出が実質的に除外される。

本発明による一手段では、例えば、信号セクションの期間は、１〜４０ミリ秒となるよう選択されることが与えられてもよい。しかしながら、請求項４に記載される特徴が与えられる場合には、これにより、音声信号の多様性が動的に好ましい値域に、すなわち、可変長の信号セクションにより応答可能となるため、特に効果的であるとわかる。

本発明による一手段では、請求項５記載の特徴が提供される場合、特に効果的であるとわかる。これにより、音声信号の一様な時間解像度クリッキングノイズ信号の正確な検出を支援するという効果が得られる。

本発明による一手段では、請求項６記載の特徴が提供される場合、特に効果的であるとわかる。これにより、発話を示す有効信号において、ｎ個の信号セクションを有するポーズが実質的に１つの単語内では発生せず、ｍ個の信号セクションとｌ個の信号セクションを有するエネルギーパターンがハーフシラブル（ｈａｌｆ−ｓｙｌｌａｂｌｅ）として知られる発話された単語の終わりを除外するため、類似する有効信号の不正確な検出を回避しながら、音声信号におけるクリッキングノイズ信号の明確な検出が保証されるという効果がもたらされる。本発明による一手段では、ｌが１〜９の範囲内にあるか確定し、ｍが６〜１１の範囲内の値以上であるか確定し、ｎが２７〜３８の範囲内の値以上であるか確定する手段が設けられてもよい。

本発明による一手段では、請求項７記載の特徴が提供される場合、特に効果的であるとわかる。これにより、繰り返し発生するクリッキングノイズ信号でさえ、シンプルかつ確実な方法により音声信号における有効信号と識別でき、これにより確実に検出することができるという効果が得られる。

本発明による一手段では、請求項９記載の特徴が提供される場合、特に効果的であるとわかる。これにより、ノイズ信号が実質的にリアルタイムにより音声信号から取り除くことができ、これにより、ノイズ信号のない音声信号が利用可能となるという効果が得られる。

本発明の上記及びさらなる特徴が以下に説明される。

図１は、デジタル音声信号ＤＡＳＩを処理する装置１を示す。当該装置１は、携帯ディクテーションマシーンにより実現される。

デジタル音声信号ＤＡＳＩは、第１時間レンジ中に図３の上部に示される音響入力音声信号ＡＳＩから生成することができ、音声信号ＡＳＩの振幅Ａは時間Ｔの関数として示される。音声信号ＡＳＩは、発話信号ＳＰ、発話信号ＳＰ内のポーズ期間中に発生するバックグラウンド信号ＢＧ、及び当該ポーズ中の比較的短い期間中に発生する信号ノイズ信号ＰＳにより形成される。ポーズの始まりは、時間マークＰＢによりマークされる。ポーズの終わりは、時間マークＰＥによりマークされる。ノイズ信号ＰＳ１の始まりは、時間マークＳＢ１によりマークされる。ノイズ信号ＰＳ１の終わりは、時間マークＳＥ１によりマークされる。図４の上部には、図３の上部と同様にして第２時間レンジ中の入力音声信号ＡＳＩが示される。第１時間レンジと比較して、ノイズ信号ＰＳ１から引き続き、ノイズ信号ＰＳ１と構成が類似するさらなる２つのノイズ信号ＰＳ２とＰＳ３が、第２時間レンジにおいて発生する。ノイズ信号ＰＳ２は、時間マークＳＢ２とＳＥ２により画定される。ノイズ信号ＰＳ３は、時間マークＳＢ３とＳＥ３により画定される。ノイズ信号ＰＳ１又はＰＳ３及びＰＳ３はそれぞれ、携帯ディクテーションマシーンの動作により生成されたものである。しかしながら、この種のノイズ信号ＰＳ１、ＰＳ２及びＰＳ３はまた、ディクテーションマシーンの近傍のイベントにより生成され得るということが述べられるべきである。サイズに関する理由のため、音声信号ＡＳＩは、複数の時間レンジＩに対しては図３及び４では図示されていない。

装置１には、入力音声信号ＡＳＩを受信するための受信手段２が備えられている。受信手段２には、図１には図示されないマイクロフォンと、図１には図示されない自動ゲイン制御を有する受信アンプと、図１には図示されないアナログ／デジタルコンバータが備えられている。受信手段２は、入力音声信号ＡＳＩを表すデジタル音声信号ＤＡＳＩを生成及び送信するためのものであり、デジタル音声信号ＤＡＳＩは、１６ビット形式によるパルスコード変調符号化、短縮するとＰＣＭに存在する。

装置１にはさらに、デジタル音声信号ＤＡＳＩを受付け、圧縮音声信号ＣＡＳを生成及び送信するための圧縮手段３が備えられる。当該圧縮音声信号ＣＡＳは、デジタル音声信号ＤＡＳＩと比較して減少したデータ量を有する。本ケースでは、圧縮手段３は、「符号励振線形予測（ＣｏｄｅＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ）」（ＣＥＬＰ）圧縮規格に従って圧縮された圧縮音声信号ＣＡＳを生成するためのものである。しかしながらこの点については、他の任意の圧縮方法が利用されてもよく、デジタル音声信号ＤＡＳＩは未圧縮によりさらなる処理がされてもよいということが述べられるべきである。

圧縮手段３はさらに、圧縮音声信号ＣＡＳを格納するのに設けられる第１格納手段４へのライトアクセスのために構成され、これにより、圧縮音声信号ＣＡＳを第１格納手段４に格納することができる。

装置１にはさらに、第１格納手段４とのリードアクセスのために構成され、第１格納手段４へのアクセス中に、第１格納手段４に格納されている圧縮音声信号ＣＡＳを読み出すための解凍手段５が備えられる。解凍手段５はさらに、圧縮音声信号ＣＡＳを解凍し、解凍された音声信号ＥＡＳを生成及び送信するよう構成される。

装置１にはさらに、解凍されたデジタル音声信号ＥＡＳを受信し、リアルタイムで音声信号ＥＡＳにおけるノイズ信号ＰＳ１又はノイズ信号列ＰＳ１、ＰＳ２及びＰＳ３を検出するよう構成されたノイズ信号検出手段６が備えられる。

このため、ノイズ信号検出手段６には、音声信号ＥＡＳを連続する信号セクションＳＡＳに分割するよう構成される音声信号分割手段７が備えられる。当該信号セクションＳＡＳは、各ケースにおいてタイムスパンＰの音声信号ＡＳＩを表す。複数のタイムスパンＰが、図３及び４の時間軸に沿って示される。本ケースでは、タイムスパンＰは５ミリ秒となるよう選ばれている。しかしながら、当業者には明らかなように、ノイズ信号の検出精度に対する影響及び／又はノイズ信号ＰＳ１、ＰＳ２又はＰＳ２のそれぞれの検出に影響を及ぼす他のパラメータに対する影響を有しうる２〜１０ミリ秒などの他の値がＰに対して選択可能であるということが述べられるべきであり、当該パラメータについて以下において詳細に説明される。

ノイズ信号検出手段６にはさらに、連続する信号セクションＳＡＳのエネルギーコンテンツを決定するよう構成されるエネルギーコンテンツ判定手段８が備えられる。信号セクションＳＡＳのエネルギーコンテンツは、

の式に従ってデシベル単位で決定され、ここで、Ｓ_ｋはｋ番目の信号セクションＳＡＳの信号振幅を表し、Ｎは信号セクションＳＡＳ内の信号振幅Ｓ_ｋの総量を表す。エネルギーコンテンツ判定手段８はさらに、決定されたエネルギーコンテンツを表すエネルギーコンテンツデータＥＶＤを生成及び送信するよう構成される。信号セクションＳＡＳの決定されたエネルギーコンテンツは、各ケースにおいて棒グラフ形式により図３及び４の下部にそれぞれ示される。

ノイズ信号検出手段６にはさらに、エネルギー閾値ＥＴを決定するよう構成されるエネルギー閾値判定手段９が備えられる。当該エネルギー閾値ＥＴは、エネルギーコンテンツデータＥＶＤに基づき連続的に決定される。詳細には、エネルギー閾値の決定は、基本方法及び改良方法に基づきなされ、これらの方法について詳細に後述される。

基本方法では、図５に示されるように、たとえて言うと、エネルギーコンテンツデータＥＶＤが引き上げられる６秒間の通常のタイムスロット内で、当該通常タイムスロット内で発生するすべての信号セクションＳＡＳのエネルギーコンテンツのヒストグラムＨがまず生成される。しかしながら、この点について、６秒間以外の値もまた、通常タイムスロットに与えられてもよいということが述べられるべきである。ヒストグラムＨでは、エネルギーコンテンツが横軸にプロットされ、選択されたＰＣＭ１６ビットフォーマットに従って、エネルギーコンテンツの上限ＵＢが、９０ｄＢに置かれる。ヒストグラムＧの領域に対し得られるエッジ曲線のステップ状の特性は、連続する包絡線ＥＶにより近似される。包絡線ＥＶの下には、低エネルギー領域ＬＥＡと高エネルギー領域ＨＥＡが、包絡線の下の領域の１０パーセントを各領域が示すように画定される。この点について再び、１０パーセントの変わりに、５〜１５パーセントの値などの他の値が与えられてもよいということが述べられるべきである。２つの領域ＬＥＡとＨＥＡの各区切り線の位置は、ノイズ信号レベルＮＬと有効信号レベルＳＬを生じさせる。有効信号レベルＳＬとノイズ信号レベルとの間の比は、専門用語「信号対雑音比」に関するＳＮＲと以降で呼ばれ、有効信号レベルＳＬとノイズ信号レベルＮＬとの差として計算される。さらに、ノイズの予想される最小エネルギー帯域幅を説明し、本ケースでは、４つのデシベルの値を示す「ノイズオフセット」と指定されるパラメータが利用される。「エネルギーファクタ」として指定されるさらなるパラメータは、ＳＮＲ領域全体の予想されるノイズコンポーネントを表し、本ケースでは、０．３４の値を有する。上述のパラメータを用いて、エネルギー閾値ＥＴは、各ケースに適用可能な条件の関数として以下のように計算することができる。

この点について、エネルギー閾値を決定するため、エネルギー閾値ＥＴの判定開始時、すなわち、十分な数のエネルギーコンテンツが通常タイムスロット内でまだ決定されていない時点では、通常タイムスロットを用いてエネルギー閾値ＥＴの決定についての結果として生ずる遅延を回避するため、通常タイムスロットの代わりに１秒の最小タイムスロットが利用される。

改良方法では、基本方法によると、通常タイムスロットの期間が長すぎ、ノイズ信号レベルＮＬの急激な変化に反応することができないという仮定により、ノイズ信号レベルＮＬが、１００ミリ秒の短いタイムスロット内で直近に決定されたエネルギーコンテンツから判断される。ここで、エネルギーコンテンツの平均値は、

の式に従って計算される。ただし、エネルギーコンテンツデータＥＶＤ_ｉは、短いタイムスロット内のエネルギーコンテンツを表し、Ｍは、短いタイムスロット内のエネルギーコンテンツデータＥＶＤ_ｉのデータ量を表す。ノイズ信号レベルＮＬの改良された判定に従って、エネルギー閾値ＥＴの判定は基本的方法と同様に行われ、基本方法において指定された式が利用され、基本的方法に従ってＳＮＲが決定される。エネルギー閾値判定手段９はさらに、エネルギー閾値データＥＴＤの形式により改良方法に従って、又は基本方法に従って決定されるエネルギー閾値ＥＴを送信するよう構成される。特定の方法により決定されるエネルギー閾値ＥＴが図３及び４のそれぞれの下部に入力され、経時的に発生するエネルギー閾値ＥＴの変化は明示的には示されない。

エネルギー閾値ＥＴを決定するに際し、改良方法が常時利用され、時間マークＳＥ１から始まり矢印Ｔ２の方向に、適用可能である場合には、時間マークＳＥ２から始まり矢印Ｔ３の方向に、及び時間マークＳＥ３から始まり矢印Ｔ４の方向に、改良方法を安定化するため、バックグラウンド信号ＢＧを表す最大で３０の信号セクションＳＡＳに対し各ケースにおいて利用される。

ノイズ信号検出手段６にはさらに、計数手段１１が備えられる。計数手段１１は、エネルギー閾値ＥＴを超えるエネルギーコンテンツを示す隣接する連続した高エネルギー信号セクションを計数し、当該計数を示す高エネルギー計数データＮＣＨを生成及び送信するよう構成される。図３及び４に示される音声信号ＡＩＳでは、時間マークＳＢ１とＳＥ１、ＳＢ２とＳＥ２、ＳＢ３とＳＥ３のそれぞれの間に当該状況が存在する。

計数手段１１にはさらに、少なくとも１つの高エネルギー信号セクションに先行し、エネルギー閾値ＥＴ以下のエネルギーコンテンツを示す信号セクションＳＡＳを計数するよう構成される。図３及び４に示される音声信号ＡＳＩでは、この状況は時間マークＳＢ１の左方向に始まり、矢印Ｔ１の方向に延びる。計数手段１１はさらに、少なくとも１つの高エネルギー信号セクションに続き、エネルギー閾値以下のエネルギーコンテンツを示す信号セクションを計数するよう構成される。図３及び４に示される音声信号ＡＳＩでは、この状況は、時間マークＳＥ１から始まり、矢印Ｔ２の方向に延びる。図４に示される音声信号ＡＳＩでは、この状況はさらに、時間マークＳＥ２から始まり、矢印Ｔ３の方向に延び、時間マークＳＥ３から始まり、矢印Ｔ４の方向に延びる。何れのケースでも、すなわち、信号セクションＳＡＳが高エネルギー信号セクションに先行するケース、又は信号セクションＳＡＳが高エネルギー信号セクションに後続するケースでは、信号セクションＳＡＳの該当する個数は、低エネルギー計数データＮＣＬにより物理的に表される。しかしながら、このＮＣＬは、時間に関する発生について、計数データＮＣＬ_ＰＲＥとＮＣＬ_ＰＯＳＴに論理的に分割することができる。

従って、計数手段１１は、第１計数が低エネルギー計数データＮＣＬを生成するのに提供され、第２計数が高エネルギー計数データＮＣＨを生成するのに与えられる図２に図示されない２つのみの計数により効果的に実現される。ここで、計数手段１１は、２つの計数の何れが増分されるべきか計数手段１１に通信するのに用いられる計数信号ＮＥを受信及び処理するよう構成される。各計数に与えられる計数データＮＣＨ又はＮＣＬは、永久的に利用可能である。計数手段１１はさらに、計数データＮＣＨとＮＣＬにより表される計数状態を消去する計数リセット信号ＮＲを受信するよう構成される。

ノイズ信号検出手段６にはさらに、各ケースにおいて決定されるエネルギーコンテンツデータＥＶＤとエネルギー閾値データＥＴＤを受信するよう構成され、各ケースにおいて、適用可能なエネルギー閾値ＥＴに参照される信号セクションＳＡＳのエネルギーコンテンツを評価するよう構成されるエネルギーコンテンツ評価手段１２が備えられる。エネルギーコンテンツ評価手段１２が、発生検出手段１３とやりとりするのに設けられる。発生検出手段１３は、計数信号ＮＥ及び計数リセット信号ＮＲを生成及び送信するよう構成される。発生検出手段１３はさらに、エネルギーコンテンツ評価手段１２からの評価結果を利用して、時間マークＳＢ１とＳＥ１との間などの少なくとも１つの高エネルギー信号セクションの発生を検出し、少なくとも１つの高エネルギー信号セクションに先行し、時間マークＳＢ１の左方向などのエネルギー閾値ＥＴ以下のエネルギーコンテンツを示す少なくとも１つの信号セクションの発生を検出し、少なくとも１つの高エネルギー信号セクションに後続し、時間マークＳＥ１の右方向などのエネルギー閾値ＥＴ以下のエネルギーコンテンツを示す信号セクションＳＡＳの発生を検出するよう構成される。

発生検出手段１３はさらに、前の段落において説明されたエネルギーパターンの発生が信号セクションＳＡＳにおいて検出されると、発生検出データＲＤを生成及び送信するよう構成され、各ケースにおけるエネルギーパターンを形成する信号セクションＳＡＳのグループ数がある仮説に対応し、このため、クリッキングノイズ信号が存在する。ここで、低エネルギー計数データＮＣＬ_ＰＲＥにより表され、高エネルギー信号セクションに先行するｍ個の連続する信号セクションＳＡＳのエネルギーコンテンツがエネルギー閾値ＥＴの範囲内となるか、当該仮説のチェック中に確定される。ただし、ｍは９以上である。さらに、高エネルギー計数データＮＣＨにより表されるｌ個の連続する高エネルギー信号セクションのエネルギーコンテンツが、エネルギー閾値ＥＴを超えているか確定される。ただし、ｌは３〜７の範囲内である。さらに、低エネルギー計数データＮＣＬ_ＰＯＳＴにより表され、高エネルギー信号セクションに後続するｎ個の連続する信号セクションのエネルギーコンテンツが、エネルギー閾値ＥＴの範囲内となることが確定される。ただし、ｎは３０以上となる。この仮説は、図３及び４に示される音声信号ＡＳＩに適用することが可能であり、以下に示される条件に従って数学的に定式化することができる。

図４に示される状況について、ノイズ信号検出手段６は、繰り返し発生するノイズ信号ＰＳ１、ＰＳ２及びＰＳ３のそれぞれを検出するよう構成される。ここで、当該仮説は、ノイズ信号ＳＰ１又はノイズ信号ＳＰ２の信号セクションＳＡＳに後続するなど、エネルギー閾値以下のエネルギーコンテンツを示す高エネルギー信号セクションから続いて、これら高エネルギー信号セクションに後続する３０個の信号セクション中に、例えば、ノイズ信号ＰＳ２とＰＳ３の期間中の場合と同様に、さらなる高エネルギー信号セクションのエネルギーコンテンツがエネルギー閾値ＥＴを超えるかどうか確定されるという効果に拡張される。図３及び４に示される音声信号ＡＳＩに適用可能なこのように拡張された仮説は、以下に示される条件に従って数学的に定式化することができる。

簡単化のため、この点について、ＮＣＨ_１はノイズ信号ＰＳ１内の高エネルギー信号セクションのセクション数を表し、ＮＣＨ_２はノイズ信号ＰＳ２内の高エネルギー信号セクションのセクション数を表し、ＮＣＨ_３はノイズ信号ＰＳ３内の高エネルギー信号セクションのセクション数を表すことが述べられるべきである。さらに、ＮＣＬ_ＰＲＥはＮＣＨ_１個の高エネルギー信号セクションを超える信号セクションＳＡＳのセクション数を表していることが明らかにされるべきである。さらに、ＮＣＬ_{ＰＯＳＴ，１}は、ノイズ信号ＰＳ１とＰＳ２との間で発生する信号セクションＳＡＳのセクション数を表し、ＮＣＬ_{ＰＯＳＴ，２}は、ノイズ信号ＰＳ２とＰＳ３との間で発生する信号セクションＳＡＳのセクション数を表し、ＮＣＬ_{ＰＯＳＴ，３}は、ノイズ信号ＰＳ３以降に発生し、エネルギー閾値ＥＴ以下のエネルギーコンテンツを示す信号セクションＳＡＳのセクション数を表すことが明らかにされるべきである。また、ｉは、ポーズ内のノイズ信号ＰＳ１、ＰＳ２及びＰＳ３の量を表し、第１ノイズ信号ＰＳ１の以降に発生するなどのさらなるノイズ信号ＰＳ２及びＰＳ３の量は、２５に限定されるということが明らかにされるべきである。しかしながら、ｉはまた、特定の適用ケースに応じて異なる最大値に割り当てられてもよいということが述べられるべきである。

このため、エネルギーコンテンツ評価手段１２と発生検出手段１３は、エネルギーコンテンツデータＥＶＤとエネルギー閾値データＥＴＤ及び２つの計数データＮＣＬ及びＮＨＬに基づき、上記条件を連続的にチェックし、当該チェック結果に応じて、その状態の１つに留まるか、あるいはそれの状態を変更するよう構成されるいわゆる「状態マシーン」により実現される。これにより、上記状態は、上記仮説が適用しているか、そうでないかという事実を実質的に表す。仮説が適用されると、１つの状態は第１ノイズ信号ＰＳ１以前のバックグラウンド信号ＢＧにより構成される以前のポーズを表し、さらなる状態はノイズ信号ＰＳ１、ＰＳ２及びＰＳ３の１つにおける高エネルギー信号セクションを表し、さらなる状態は時間マークＳＥ１とＳＢ２、又はＳＥ２とＳＢ３との間のバックグラウンド信号ＢＧにより形成される直接のポーズ、又は時間マークＳＥ３とＰＥとの間の以降のポーズを表す、３つのさらなる状態間のさらなる区別がなされる。状態マシーンは、それがある状態に留まるとき、計数信号ＮＥを生成及び送信するよう構成される。状態マシーンはさらに、クリッキングノイズ信号ＰＳ１又はクリッキングノイズ信号列ＰＳ１、ＰＳ２、ＰＳ３の検出のための上記条件が完全に満たされ、計数リセット信号ＮＲの生成及び送信することが、仮説に従って検出可能なクリッキングノイズ信号でないとき、状態変化の結果として発生検出データＲＤを生成及び送信するよう構成される。

上記情報によると、図３によるノイズ信号ＰＳ１又は図４によるノイズ信号列ＰＳ１、ＰＳ２、ＰＳ３の検出方法は、装置１を用いてデジタル音声信号ＥＡＳにより実現することができる。ここで、デジタル音声信号ＥＡＳは、連続する信号セクションＳＡＳに分割され、連続する信号セクションＳＡＳのエネルギーコンテンツが決定され、エネルギー閾値ＥＴと呼ばれる信号セクションＳＡＳのエネルギーコンテンツが評価され、エネルギー閾値ＥＴを超えるエネルギーコンテンツを示す少なくとも高エネルギー信号セクションの発生、少なくとも１つの高エネルギー信号セクションに先行し、エネルギー閾値ＥＴを下回るエネルギーコンテンツを示す少なくとも１つの信号セクションＳＡＳの発生、及び少なくとも１つの高エネルギー信号セクションに後続し、エネルギー閾値ＥＴ以下のエネルギーコンテンツを有する少なくとも１つの信号セクションＳＡＳの発生が検出され、少なくとも１つの高エネルギー信号セクションに先行する信号セクションＳＡＳのセクション数、高エネルギー信号セクションのセクション数、及び高エネルギー信号セクションに後続する信号セクションＳＡＳのセクション数が計数される。

以下において、図７に示されるフローチャートを参照することにより、装置１を用いて実現可能なノイズ信号ＰＳ１又はノイズ信号列ＰＳ１、ＰＳ２、ＰＳ３を検出する方法Ｍが詳細に説明される。

このため、ノイズ信号ＰＳ１又はノイズ信号列ＰＳ１、ＰＳ２、ＰＳ３の検出に必要な以下で指定される変数がまず導入され、それの値が方法Ｍの実現中に補正される。第１変数Ｅは、特定の信号セクションＳＡＳのエネルギーコンテンツを表す。第２変数ＣＬは、高エネルギー計数データＮＣＨに対応する高エネルギー信号セクションのセクション数を表す。第３変数ＳＬは、エネルギー値がエネルギー閾値ＥＴ以下である信号セクションＳＡＳのセクション数を表す。このセクション数は低エネルギー計数データＮＣＬに対応する。第４変数ＣＬＡＣＣＵは、ポーズ中における各高エネルギー信号セクション又は各高エネルギー信号セクショングループが繰り返し発生する際の高エネルギー信号セクションの累積セクション数を表す。第５変数ＲＣは、繰り返し発生するノイズ信号ＰＳ２又はＰＳ３を計数する繰り返し計数値を表す。第６変数ＳＬＭＡＹＢＥＲＥＳＥＴは、決定に達するための論理値を表す。方法Ｍの開始時、計数変数ＣＬｍＳＬ、ＣＬＡＣＣＵ及びＲＣは、ゼロに割り当てられる。論理変数ＳＬＭＡＹＢＥＲＥＳＥＴは、Ｆａｌｓｅの論理値に割り当てられる。

シーケンス制御のため本方法において利用される以下に指定されるパラメータがさらに導入される。第１パラメータＳＢＥＧＩＮは、第１高エネルギー信号セクションの発生前のバックグラウンド信号ＢＧを表す信号セクションＳＡＳの最小セクション数を表し、本ケースでは９の値が与えられる。第２パラメータＳＥＮＤは、バックグラウンド信号ＢＧを表し、ノイズ信号ＰＳ１又はノイズ信号列ＰＳ１、ＰＳ２、ＰＳ３に属する最後の高エネルギー信号セクション以降に発生する信号セクションＳＡＳの最小セクション数を表し、本ケースでは、３０の値が与えられる。第３パラメータＣＭＩＮは、ノイズ信号ＰＳ１、ＰＳ２又はＰＳ３の検出に必要とされる高エネルギー信号セクションの最小セクション数を表し、本ケースでは、３の値が与えられる。第４パラメータＣＭＡＸは、ノイズ信号ＰＳ１、ＰＳ２又はＰＳ３の検出に必要とされる高エネルギー信号セクションの最大セクション数を表し、本ケースでは、７の値が与えられる。第５パラメータＭＡＸＲＥＰは、繰り返し発生する高エネルギー信号セクションの許容される最大セクション数を表し、本ケースでは、２５の値が与えられる。

各信号セクションＳＡＳに対する方法Ｍの実現は、デジタル音声信号ＥＡＳが連続する信号セクションＳＡＳに分割され、エネルギーコンテンツが特定の信号セクションＳＡＳに対し決定され、変数Ｅにより表され、特定のケースに適用可能なエネルギー閾値ＥＴがりよう可能になるとすぐに、ブロックＭ１から開始される。

ブロックＭ２において、エネルギー閾値ＥＴと呼ばれる特定の信号セクションのエネルギーコンテンツの評価が行われる。ブロックＭ２において、Ｅがエネルギー閾値ＥＴ以下であると確定されると、ブロックＭ３に移行し、このことは、時間マークＰＢとＰＥとの間のポーズにおけるバックグラウンド信号ＢＧを表す信号セクションＳＡＳが存在することを意味する。

ブロックＭ３において、ＣＬがゼロより大きいかチェックされる。

ＣＬがゼロより大きくない場合、このことは、ポーズが開始されたことを意味する。この場合にはブロックＭ５に移行し、ＳＬが１だけ増やされる。その後、方法ＭはブロックＭ６において終了される。

ＣＬがゼロより大きい場合、このことは、仮説に従って検出可能なノイズ信号の後のポーズが関係することを意味し、当該ノイズ信号に対し、仮説の条件の少なくとも１つが存在する。この場合、ブロックＭ７に移行し、ＳＬＭＡＹＢＥＲＥＳＥＴがＦａｌｓｅに等しいかチェックされる。

ＳＬＭＡＹＢＥＲＥＳＥＴがＴｒｕｅに等しい場合、このことは、時間マークＳＥ１とＳＢ２、ＳＥ２とＳＢ３又はＳＥ３とＰＥとの間の仮説に従って検出可能なノイズ信号ＰＳ１、ＰＳ２又はＰＳ３の後の最初の信号セクションＳＡＳが関係することを意味する。ブロックＭ９に移行し、次のポーズにおいて信号セクションＳＡＳの再計数を可能にするため、ＳＬがゼロの値に割り当てられる。その後、本方法はブロックＭ１０に続き、ＳＬＭＡＹＢＥＲＥＳＥＴがＦａｌｓｅに割り当てられる。その後、方法ＭはブロックＭ８に続く。

ＳＬＭＡＹＢＥＲＥＳＥＴがＦａｌｓｅに等しい場合、すなわち、時間マークＳＥ１とＳＢ２、ＳＥ２とＳＢ３又はＳＥ３とＰＥとの間のポーズの最初のもの以外の信号セクションＳＡＳが関係することを意味する場合、ブロックＭ８に移行し、ＳＬが１だけ増やされる。

ブロックＭ８の後、方法ＭはブロックＭ１１に続き、ＳＬがＳＥＮＤに等しいかチェックされる。この不連続状態が満たされない場合、ブロックＭ６に移行する。ＳＬがＳＥＮＤに等しい場合、ブロックＭ１２に移行し、ＣＬＡＣＣＵがＣＬの値だけ増やされる。ブロックＭ１２の後、本方法はブロックＭ１３に続く。

ブロックＭ１３において、ＣＬＡＣＣＵがＣＬＭＩＮより小さいかチェックされる。

ＣＬＡＣＣＵがＣＬＭＩＮより小さくない場合、このことは、ノイズ信号ＰＳ１又はノイズ信号列ＰＳ１、ＰＳ２、ＰＳ３が検出されたことを意味し、ブロックＭ１４に移行する。ブロックＭ１４において、発生検出データＲＤが生成及び送信される。その後、方法ＭがブロックＭ１５に続き、ＣＬ、ＣＬＡＣＣＵ及びＲＣがゼロの値に割り当てられ、ＳＬＭＡＹＢＥＲＥＳＥＴがＦａｌｓｅの値に割り当てられる。その後、本方法はブロックＭ６において終了する。

ＣＬＡＣＣＵがＣＭＩＮより小さい場合、方法ＭはブロックＭ１５に続く。

ブロックＭ２において、ＥがＥＴより小さくない場合、このことは、発話信号ＳＰ又はノイズ信号ＰＳ１、ＰＳ２又はＰＳ３を表す信号セクションＳＡＳが存在することを意味する。この場合、ブロックＭ４に移行する。

ブロックＭ４において、ＣＬがゼロの値を有し、ＳＬがＳＢＥＧＩＮより小さいかチェックされる。

チェック条件がブロックＭ４において満足されると、このことは、バックグラウンド信号ＢＧが存在したポーズが十分長いものではなく、信号セクションＳＡＳが仮説に従って検出可能なノイズ信号ＰＳ１、ＰＳ２又はＰＳ３でないことを意味する。この場合、ブロックＭ１６に移行し、ＳＬにはゼロの値が割り当てられる。その後、方法ＭがブロックＭ１６に続く。ブロック１５及び１６に従う方法Ｍの継続は計数リセット信号ＮＲの生成に対応する。

チェック条件がブロックＭ４において満たされない場合、このことは、仮説に従って検出可能なノイズ信号ＰＳ１、ＰＳ２又はＰＳ３が関係するかもしれないということを意味する。この結果、ブロックＭ１７に移行する。

ブロックＭ１７において、ＣＬがゼロより大きいか、そしてＳＬＭＡＹＢＥＲＥＳＥＴがＦａｌｓｅに等しいかチェックされる。

チェック条件がブロックＭ１７において満たされる場合、このことは、信号セクションＳＡＳに関して、これがノイズ信号ＰＳ２又はＰＳ３の１つの始まりであるかもしれないことを意味し、ブロックＭ１８に移行する。

ブロック１８において、ＲＣがＭＡＸＲＥＰより小さいかチェックされる。

ＲＣがＭＡＸＲＥＰより小さくない場合、このことは、有効なノイズ信号ＰＳ２又はＰＳ３、すなわち、仮説に従って検出可能なものが関係しないことを意味し、ブロックＭ１６に移行する。

ＲＣがＭＡＸＲＥＰより小さい場合、このことは、第１ノイズ信号ＰＳ１の後に続くノイズ信号ＰＳ２又はＰＳ３の１つが関係するかもしれないことを意味し、ブロックＭ１９に移行する。ブロックＭ１９において、ＲＣは１だけ増やされ、方法ＭはブロックＭ２０に続く。ブロックＭ２０において、ＣＬＡＣＣＵはＣＬの値だけ増やされ、方法ＭはブロックＭ２１に続く。ブロックＭ２１において、ＣＬは１の値に割り当てられ、本方法はブロックＭ２２に続く。ブロックＭ２２において、ＳＬＭＡＹＢＥＲＥＳＥＴがＴｒｕｅの論理値に割り当てられ、本方法はＭ６において終了する。

チェック条件がブロックＭ１７において満たされない場合、このことは、信号セクションＳＡＳに関して、これが第１ノイズ信号ＰＳ１の開始であるかもしれず、あるいは、ノイズ信号ＰＳ１、ＰＳ２又はＰＳ３の１つの信号セクションＳＡＳが関係しているかもしれないということを意味する。ここで、これはノイズ信号ＰＳ１、ＰＳ２又はＰＳ３の１つの最初の信号セクションＳＡＳではない。この場合、ブロックＭ２３に移行する。ブロックＭ２３において、ＣＬは１の値だけ増やされ、方法ＭはブロックＭ２４に続く。ブロックＭ２４において、ＳＬＭＡＹＢＥＲＥＳＥＴがＴｒｕｅの論理値に割り当てられ、方法ＭがブロックＭ２５に続く。

ブロックＭ２５において、ＣＬがＣＭＡＸより大きいかチェックされる。ＣＬがＣＭＡＸより大きい場合、このことは、高エネルギー信号セクションの期間が長すぎることを意味し、このため、ノイズ信号ＰＳ１、ＰＳ２又はＰＳ３が存在する可能性があり、ブロックＭ１６に移行する。ＣＬがＣＭＡＸより大きくない場合、ブロックＭ６に移行し、方法ＭはブロックＭ６において終了する。

従って、方法Ｍに関して、ブロックＭ３における条件が満たされる場合、ノイズ信号前の前のポーズの期間が十分長いものとなり、高エネルギー信号セクションのセクション数はＣＭＡＸより大きくはならず、繰り返し発生するノイズ信号の信号数は、許容される範囲内に属することになるということが述べられるべきである。

図１に示される装置１にはさらに、検出された各ノイズ信号ＰＳ１又は検出された複数のノイズ信号ＰＳ１、ＰＳ２、ＰＳ３の系列を考慮して、ノイズ信号のない音声信号ＤＡＳＯを供給及び送信するよう構成される供給手段１４が備えられる。このため、供給手段１４には、音声信号分割手段７を用いて生成可能な複数の信号セクションＳＡＳを一時的に格納するよう構成された第２格納手段１５が備えられる。供給手段１４にはさらに、発生検出データＲＤを受信するよう構成されたリセット手段１６が備えられる。リセット手段１６はさらに、第２格納手段１５に対するリードアクセスのため、一時的に格納された信号セクションＳＡＳを読むよう構成される。リセット手段１６はさらに、発生検出データＲＤを用いて特定可能なノイズ信号ＰＳ１又はＰＳ１、ＰＳ２及び／又はＰＳ３を含む信号セクションＳＡＳをリセットし、省略することなく、残りの信号セクションＳＡＳを並べるよう構成され、この結果、デジタルノイズ信号フリー音声信号ＤＡＳＯが形成される。これに関して、供給手段１４はまた、ノイズ信号ＰＳ１及び／又はＰＳ２及びＰＳ３を含む信号セクションＳＡＳを置換するよう構成されてもよいということが与えられてもよい。さらに例えば、これらの信号セクションＳＡＳが、人工的に生成されたバックグラウンド信号を有する信号セクションと置換されることが与えられてもよい。

装置１にはさらに、ノイズ信号フリー音声信号ＤＡＳＯを受信し、当該ノイズ信号フリー信号ＤＡＳＯを用いて、音響音声信号ＡＳＯを生成及び送信するよう構成された送信手段１７が備えられる。

装置１にはさらに、解凍された音声信号ＥＡＳを受信し、インタフェース手段１８に接続可能な図１には図示されない装置に、電気信号形式による解凍音声信号ＥＡＳを送信するよう構成されるインタフェース手段１８が備えられる。

装置１にはさらに、受信手段２、圧縮手段３、解凍手段５、ノイズ信号検出手段６、供給手段１４、送信手段１７及びインタフェース手段１８を制御するよう構成される制御手段１９が備えられる。このため、制御手段１９は、上記手段２、３、５、６、１４、１７及び１８に接続される。制御手段１９はさらに、制御信号ＣＳを生成し、当該制御信号ＣＳを上記手段２、３、５、６、１４、１７及び１８に送信するよう構成される。本ケースでは、制御手段１９は、ユーザ操作による手動により供給可能な制御情報を受信するよう構成される。しかしながら、制御手段１９はまた、赤外線信号又は無線周波数信号により供給可能な制御情報を受信するよう構成されてもよい。

これにより、装置１の場合、装置１のユーザを邪魔するクリッキングノイズ信号ＰＳ１又はＰＳ２及びＰＳ３の検出及び消去が、確実な方法により実行できるという効果が生じる。

図６は、コンピュータ１９と、視覚的ユーザインタフェースとして機能するコンピュータ１９に接続されたモニタ２０と、コンピュータ１９に接続されたマウス２１と、コンピュータ１９に接続されたキーボード２２とを備えたデータ処理システム１８を示す。ここで、マウス２１とキーボード２２は手動のユーザインタフェースとして機能する。コンピュータ１９は、図６には図示されていないユーザによりユーザインタフェースを用いて操作可能である。コンピュータ１９にはさらに、処理データ及び／又はプログラムデータを格納するため設けられる内部メモリ２３が備えられる。コンピュータにはさらに、メモリ２３とやりとりするよう構成されるプロセッサユニット２４が備えられ、プロセッサユニットを用いて実現可能なプログラムデータを用いてプロセッサユニットにより、処理データが処理可能である。コンピュータ１９を制御するため、プロセッサユニット２４にはさらに、ユーザインタフェース２０、２１及び２２とやりとりするよう構成される。コンピュータ１９にはさらに、プログラムデータ／処理データインタフェース２５が備えられ、これにより、本ケースではコンパクトディスク、すなわち、略してＣＤにより実現されるコンピュータ可読媒体２６へのアクセスが可能となる。

コンピュータ１９にはさらに、図１に示される装置１と類似した携帯ディクテーションマシーン２８が接続される。ここで、携帯ディクテーションマシーン２８には、装置１のノイズ信号検出手段６及び供給手段１４は備えられず、デジタル解凍音声信号ＥＡＳが直接送信手段１７に供給可能である。さらに、図６に示されないコンピュータ１９の音声信号インタフェースを用いて、デジタル音声信号ＥＡＳがコンピュータ１９に供給可能であり、メモリ２３に格納可能であるということが与えられ、これにより、プロセッサユニット２４を用いたさらなる処理が可能となる。

このため、コンピュータプログラムプロダクト２７が、媒体２６を用いてプログラムデータ／処理データインタフェース２５を介しコンピュータ１９に供給可能である。コンピュータプログラムプロダクト２７は、コンピュータ１９のメモリ２３に直接ロードすることが出来、プログラムデータの少なくとも一部を構成するソフトウェアコードセクションを有する。ここで、方法Ｍは、コンピュータプログラム２７がプロセッサユニット２４を用いてコンピュータ１９上で実現される場合、デジタル音声信号ＥＡＳにおける図４に従うノイズ信号ＰＳ１、ＰＳ２及びＰＳ３、又は、図３に従うノイズ信号を検出するため、コンピュータ１９により実現することが可能である。

これにより、デジタル音声信号ＥＡＳがさらに音声認識ソフトウェアを用いてコンピュータ１９上で処理される場合と、音声信号ＥＡＳがコンピュータ１９を用いて再生される場合の何れにおいても、ノイズ信号ＰＳ１の確実な検出、又は適用可能な場合、音声信号のデジタル時間表示によるＰＳ２又はＰＳ３が保証されるという効果が生じる。

さらに、装置１の場合、ノイズ信号検出手段６と、適用可能な場合には供給手段１４とが、受信手段２と圧縮手段３との間に設けられてもよいということが述べられるべきである。

さらに、装置１の場合、手段６と１４が手段５と１８の間に設けられ、これにより、ノイズ信号フリー解凍音声信号ＥＡＳを表すデータが、装置１から送信可能となるということが述べられるべきである。

さらに、媒体２６は、ＤＶＤ、交換可能なハードディスク又はディスケットにより構成されてもよいということが述べられるべきである。

さらに、装置１の場合、手段３、４、５、６及び１４と手段２、１７、１９及び１８の少なくとも構成要素が集積回路として実現されることが好ましいということが述べられるべきである。

さらに、ノイズ信号検出手段６の場合、互いに直接的に隣接し合う信号セクションＳＡＳ、又は互い直接的には隣接し合ってはいない信号セクションＳＡＳの処理が行われてもよいということが述べられるべきである。

さらに、ノイズ信号検出手段６には、ＥＶＤ及びＥＴＤデータを一時的に格納するため、図２の破線により示される第３格納手段１０が備えられてもよく、また、発生検出手段１３が格納されているデータＥＶＤ及びＥＴＤにアクセス及び処理するよう構成されてもよく、これにより、ノイズ信号の非リアルタイムな検出が可能となることが述べられるべきである。

さらに、ノイズ信号検出手段６はまた、音声信号ＥＡＳの特性に基づき、２〜１０ミリ秒の範囲の異なる信号セクション期間の信号セクションＳＡＳに音声信号ＥＡＳを動的分割するよう構成されてもよいということが述べられるべきである。

図１は、本発明の第１実施例による装置をブロック回路図により概略的に示す。図２は、図１による装置の発明に関連する詳細を図１と同様にして示す。図３は、本発明による装置を用いて処理可能なクリッキングノイズ信号を示す音声信号と、当該音声信号の信号セクションに対応する音声信号のエネルギーコンテンツの系列を２つの図により示す。図４は、複数のクリッキングノイズ信号を示す音声信号とエネルギーコンテンツの系列を図３と同様に示す。図５は、図３による音声信号のエネルギーコンテンツのヒストグラムを図式的に示す。図６は、本発明によるコンピュータプログラムプロダクトを用いてクリッキングノイズ信号がデジタル音声信号において検出可能な本発明によるコンピュータを備えたデータ処理システムをブロック回路図により示す。図７は、デジタル音声信号におけるクリッキングノイズ信号を検出するための本発明による方法をフローチャートにより示す。

Claims

少なくとも１つのプロセッサを用いてデジタル音声信号における少なくとも１つのノイズ信号を検出する方法であって、
前記デジタル音声信号を複数の連続する信号セクションに分割するステップと、
前記少なくとも１つのプロセッサによって、前記複数の連続する信号セクションの各信号セクションについてエネルギーコンテンツを決定するステップと、
前記各信号セクションのエネルギーコンテンツとエネルギー閾値とを比較するステップと、
前記複数の連続する信号セクションから、前記エネルギー閾値より高いエネルギーコンテンツを有する少なくとも１つの高エネルギー信号セクションであって、前記エネルギー閾値より低いエネルギーコンテンツを有する少なくとも１つの先行する信号セクションと、前記エネルギー閾値より低いエネルギーコンテンツを有する少なくとも１つの後続する信号セクションとを有する高エネルギー信号セクションを検出するステップと、
前記少なくとも１つの先行する信号セクションの第１の数、前記少なくとも１つの高エネルギー信号セクションの第２の数、及び前記少なくとも１つの後続する信号セクションの第３の数を計数するステップと、
前記第１の数、第２の数及び第３の数に基づき、前記少なくとも１つの高エネルギー信号セクションが前記少なくとも１つのノイズ信号を表すか判断するステップと、
を有することを特徴とする方法。
請求項１記載の方法であって、
前記複数の連続する信号セクションの各信号セクションのエネルギーコンテンツは、

の式に従って決定され、ここで、Ｓ_ｋは前記複数の連続する信号セクションの各信号セクション内の信号振幅の大きさを表し、Ｎは前記複数の連続する信号セクションの各信号セクション内の信号振幅の合計を表すことを特徴とする方法。
請求項１記載の方法であって、
前記複数の連続する信号セクションの各信号セクションについて計算される前記エネルギーコンテンツを利用したヒストグラム法、バックグラウンドレベル及び前記デジタル音声信号のノイズレベルと有効信号レベルとの間の比に少なくとも部分的に基づき、前記デジタル音声信号から連続的に前記エネルギー閾値を決定するステップをさらに有することを特徴とする方法。
請求項１記載の方法であって、
前記複数の連続する信号セクションの各信号セクションの期間は、２〜１０ミリ秒であることを特徴とする方法。
請求項１記載の方法であって、
前記複数の連続する信号セクションの各信号セクションの期間は、５ミリ秒であることを特徴とする方法。
請求項１記載の方法であって、
前記第１の数が９以上であって、前記第２の数が３〜７であって、前記第３の数が３０以上であるとき、前記少なくとも１つの高エネルギー信号セクションは前記少なくとも１つのノイズ信号を表すと判断されることを特徴とする方法。
請求項１記載の方法であって、
少なくとも１つのさらなる高エネルギー信号セクションが、前記エネルギー閾値より低いエネルギーコンテンツを有する前記少なくとも１つの後続する信号セクションに後続するか判断するステップをさらに有し、
前記第２の数の計数は、前記少なくとも１つの高エネルギー信号セクションと前記少なくとも１つのさらなる高エネルギー信号セクションとを計数することを含む、
ことを特徴とする方法。
デジタル音声信号におけるノイズ信号を検出する装置であって、
前記デジタル音声信号を複数の信号セクションに分割するよう構成される分割回路と、
前記複数の信号セクションのエネルギーコンテンツを決定するよう構成される決定回路と、
エネルギー閾値に関して前記複数の信号セクションの各信号セクションのエネルギーコンテンツを評価するよう構成される評価回路と、
前記複数の信号セクションから、前記エネルギー閾値より高いエネルギーコンテンツを有する少なくとも１つの高エネルギー信号セクションと、前記少なくとも１つの高エネルギー信号セクションに先行し、前記エネルギー閾値より低いエネルギーコンテンツを有する少なくとも１つの先行する信号セクションと、前記少なくとも１つの高エネルギー信号セクションに後続し、前記エネルギー閾値より低いエネルギーコンテンツを有する少なくとも１つの後続する信号セクションとの出現を検出するよう構成される検出回路と、
先行する信号セクションの第１の数、高エネルギー信号セクションの第２の数、及び後続する信号セクションの第３の数を計数する計数回路と、
を有し、
前記第１の数、第２の数及び第３の数に基づき、前記少なくとも１つの高エネルギー信号セクションが前記少なくとも１つのノイズ信号を表すか判断されることを特徴とする装置。
請求項８記載の装置であって、
前記デジタル音声信号より少ないノイズを有する出力音声信号を供給するよう構成される供給回路をさらに有することを特徴とする装置。
デジタル音声信号を複数の信号セクションに分割するステップと、
前記複数の信号セクションの各信号セクションについて決定されたエネルギーコンテンツとエネルギー閾値とを比較するステップと、
前記複数の信号セクションから、前記エネルギー閾値より高いエネルギーコンテンツを有する少なくとも１つの高エネルギー信号セクションであって、前記エネルギー閾値より低いエネルギーコンテンツを有する少なくとも１つの先行する信号セクションと、前記エネルギー閾値より低いエネルギーコンテンツを有する少なくとも１つの後続する信号セクションとを有する高エネルギー信号セクションを検出するステップと、
前記少なくとも１つの先行する信号セクションの第１の数、前記少なくとも１つの高エネルギー信号セクションの第２の数、及び前記少なくとも１つの後続する信号セクションの第３の数を計数するステップと、
前記第１の数、第２の数及び第３の数に基づき、前記少なくとも１つの高エネルギー信号セクションが前記少なくとも１つのノイズ信号を表すか判断するステップと、
をコンピュータに実行させるためのプログラムを記録したコンピュータ可読記憶媒体。
請求項１０記載のコンピュータ可読記憶媒体であって、
前記複数の信号セクションの各信号セクションのエネルギーコンテンツは、

の式に従って決定され、ここで、Ｓ_ｋは前記複数の信号セクションの各信号セクション内の信号振幅の大きさを表し、Ｎは前記複数の信号セクションの各信号セクション内の信号振幅の合計を表すことを特徴とするコンピュータ可読記憶媒体。
請求項１０記載のコンピュータ可読記憶媒体であって、
前記プログラムは、前記複数の信号セクションの各信号セクションについて計算される前記エネルギーコンテンツを利用したヒストグラム法、バックグラウンドレベル及び前記デジタル音声信号のノイズレベルと有効信号レベルとの間の比に少なくとも部分的に基づき、前記デジタル音声信号から連続的に前記エネルギー閾値を決定するステップを前記コンピュータにさらに実行させることを特徴とするコンピュータ可読記憶媒体。
請求項１０記載のコンピュータ可読記憶媒体であって、
前記複数の信号セクションの各信号セクションの期間は、２〜１０ミリ秒であることを特徴とするコンピュータ可読記憶媒体。
請求項１０記載のコンピュータ可読記憶媒体であって、
前記複数の信号セクションの各信号セクションの期間は、５ミリ秒であることを特徴とするコンピュータ可読記憶媒体。
請求項１０記載のコンピュータ可読記憶媒体であって、
前記第１の数が９以上であって、前記第２の数が３〜７であって、前記第３の数が３０以上であるとき、前記少なくとも１つの高エネルギー信号セクションは前記少なくとも１つのノイズ信号を表すと判断されることを特徴とするコンピュータ可読記憶媒体。
請求項１０記載のコンピュータ可読記憶媒体であって、
前記プログラムは、少なくとも１つのさらなる高エネルギー信号セクションが、前記エネルギー閾値より低いエネルギーコンテンツを有する前記少なくとも１つの後続する信号セクションに後続するか判断するステップをさらに有し、
前記第２の数の計数は、前記少なくとも１つの高エネルギー信号セクションと前記少なくとも１つのさらなる高エネルギー信号セクションとを計数することを含む、
ことを特徴とするコンピュータ可読記憶媒体。
請求項８記載の装置であって、
前記分割回路、前記決定回路、前記評価回路、前記検出回路及び前記計数回路の１以上は、少なくとも１つのプログラムされたプロセッサにより実現されることを特徴とする装置。
請求項９記載の装置であって、
前記供給回路は、少なくとも１つのプログラムされたプロセッサにより実現されることを特徴とする装置。