JP4739023B2 - デジタル音声信号におけるクリッキングノイズ検出 - Google Patents

デジタル音声信号におけるクリッキングノイズ検出 Download PDF

Info

Publication number
JP4739023B2
JP4739023B2 JP2005507732A JP2005507732A JP4739023B2 JP 4739023 B2 JP4739023 B2 JP 4739023B2 JP 2005507732 A JP2005507732 A JP 2005507732A JP 2005507732 A JP2005507732 A JP 2005507732A JP 4739023 B2 JP4739023 B2 JP 4739023B2
Authority
JP
Japan
Prior art keywords
signal
energy
signal section
section
sections
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005507732A
Other languages
English (en)
Other versions
JP2007516450A (ja
Inventor
ザファー,ツォルト
Original Assignee
ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー filed Critical ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー
Publication of JP2007516450A publication Critical patent/JP2007516450A/ja
Application granted granted Critical
Publication of JP4739023B2 publication Critical patent/JP4739023B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/24Signal processing not specific to the method of recording or reproducing; Circuits therefor for reducing noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Amplifiers (AREA)
  • Noise Elimination (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)

Description

本発明は、デジタル音声信号におけるノイズ信号を検出する方法に関する。
本発明はさらに、デジタル音声信号を処理する装置に関し、当該装置には、音声信号におけるノイズ信号を検出するためのノイズ信号検出手段が備えられている。
本発明はさらに、デジタル音声信号におけるノイズ信号を検出するのに適したコンピュータプログラムプロダクトに関する。
本発明はさらに、前記段落に従ってコンピュータプログラムプロダクトを実現するコンピュータに関する。
第1段落に上述された汎用タイプのこの種の方法、第2段落に上述された汎用タイプのこの種の装置、第3段落に上述された汎用タイプのこの種のコンピュータプログラムプロダクト、及び第4段落に上述された汎用タイプのこの種のコンピュータが、音声認識システムに関連して出願人により流通に供され、すでに知られている。
既知の音声認識システムでは、音声信号形式による発話された言語が、マイクロフォンを介し音声認識システムに供給され、デジタル化される。これにより取得されるデジタル音声信号は、声を表す発話信号と、バックグラウンドノイズを表すバックグラウンド信号と、ある状況ではノイズ信号が発話信号と類似し、それに近接して発生し得るさらなるノイズ信号とを有する。このデジタル音声信号は、スペクトル解析及びさらなる処理を受け、この結果として、いわゆるCEPSTRAL表現によるデジタル音声信号の表現が取得される。ノイズ信号は、全く発話されていない単語として誤って検出されるかもしれない。デジタル音声信号のノイズ信号はさらに、この種の音声信号の再生において、リスナーを苛つかせるという不都合な効果を有する。このため、音声認識システムには、検出されたノイズ信号のさらなる処理のため、ノイズ信号を検出するためのノイズ信号検出手段が備えられる。
この既知の音声認識システムでは、比較的短い期間に発生するノイズ信号、特にクリッキングノイズ信号が、発話信号ではなくバックグラウンド信号のみを音声信号が表す比較的長い静かなポーズ内でのみでしか検出することができず、この結果、発話信号の近傍又は近接領域で発生するノイズ信号を全く検出することができないという問題が存在する。
本発明の課題は、第1段落に上述された汎用タイプの方法、第2段落に上述された汎用タイプの装置、第3段落に上述された汎用タイプのコンピュータプログラム、及び第4段落に上述された汎用タイプのコンピュータにより上記問題点を解消し、改良された方法、装置、コンピュータプログラム及びコンピュータを生成することである。
上記課題を解決するため、本発明による方法において、本発明による特徴が提供され、本発明による方法は、以下に特定されるように特徴付けすることができる。
すなわち、デジタル音声信号におけるノイズ信号を検出する方法であって、前記音声信号が連続する信号セクションに分割され、連続する信号セクションのエネルギーコンテンツが決定され、信号セクションのエネルギーコンテンツが、エネルギー閾値に関して評価され、前記エネルギー閾値を超えるエネルギーコンテンツを有する少なくとも1つの高エネルギー信号セクションの発生、前記少なくとも1つの高エネルギー信号セクションに先行し、前記エネルギー閾値を下回るエネルギーコンテンツを有する少なくとも1つの信号セクションの発生、及び前記少なくとも1つの高エネルギー信号セクションに後続し、前記エネルギー閾値を下回るエネルギーコンテンツを有する少なくとも1つの信号セクションの発生が検出され、前記少なくとも1つの高エネルギー信号セクションに先行する信号セクションのセクション数、高エネルギー信号セクションのセクション数、及び前記高エネルギー信号セクションに後続する信号セクションのセクション数が計数される。
上記課題を解決するため、本発明による装置において、本発明による特徴が提供され、本発明による装置は、以下に特定されるように特徴付けすることができる。
すなわち、デジタル音声信号におけるノイズ信号を検出するよう構成されるノイズ信号検出手段を備えた前記デジタル音声信号を処理する装置であって、前記音声信号を連続する信号セクションに分割するよう構成される音声信号分割手段が設けられ、連続する信号セクションのエネルギーコンテンツを決定するよう構成されるエネルギーコンテンツ判定手段が設けられ、エネルギー閾値に関して信号セクションのエネルギーコンテンツを評価するよう構成されるエネルギーコンテンツ評価手段が設けられ、前記エネルギー閾値を超えるエネルギーコンテンツを有する少なくとも1つの高エネルギー信号セクションの発生を検出し、前記少なくとも1つの高エネルギー信号セクションに先行し、前記エネルギー閾値を下回るエネルギーコンテンツを有する少なくとも1つの信号セクションの発生を検出し、及び前記少なくとも1つの高エネルギー信号セクションに後続し、前記エネルギー閾値を下回るエネルギーコンテンツを有する少なくとも1つの信号セクションの発生を認識するよう構成される発生検出手段が設けられ、前記少なくとも1つの高エネルギー信号セクションに先行する信号セクションのセクション数、高エネルギー信号セクションのセクション数、及び前記少なくとも1つの高エネルギー信号セクションに後続する信号セクションのセクション数を計数するよう構成される計数手段が設けられる。
上記課題を解決するため、本発明によるコンピュータプログラムでは、コンピュータのメモリに直接ロード可能であり、ソフトウェアコードセクションを有し、本発明の方法が、当該コンピュータプログラムの前記コンピュータ上での実現時に、前記コンピュータにより実現することが可能である。
上記課題を解決するため、本発明によるコンピュータでは、コンピュータにはプロセッサユニットと内部メモリが備えられ、上記段落によるコンピュータプログラムを実現する。
本発明による上記手段を設けることにより、クリッキングノイズ信号が最も確実かつ可能な方法により検出でき、この検出が、時間に関する音声信号表示に基づき、時間に関する当該表示において確定されたエネルギーパターンを用いて、時間に関する上記エネルギーパターンの存在を考慮して行われるという効果が得られ、時間に関する音声信号表示を時間に関する表示以外の表示に変換する複雑な変換方法を全く必要とせず、これにより、本発明が比較的低い計算パワーのみの利用可能性により実現可能であり、ノイズ信号の高速かつシンプルな検出が支援されることになる。
本発明による一手段では、請求項2に記載された特徴が与えられる場合に、さらに効果的であるとわかる。これにより、単位としてデシベルを用いた規格化された表示における信号セクションのエネルギーコンテンツの評価が比較的簡単に実行できるという効果がもたらされる。
本発明による一手段では、請求項3に記載された特徴が与えられる場合に、さらに効果的であるとわかる。これにより、エネルギー閾値が擬似連続的、これにより各ケースにおいて音声信号の実際の信号レベルに対する正確な比において決定され、この結果、実際のエネルギー閾値の正確でない定義又は近似によるクリッキングノイズ信号の不正確な検出が実質的に除外される。
本発明による一手段では、例えば、信号セクションの期間は、1〜40ミリ秒となるよう選択されることが与えられてもよい。しかしながら、請求項4に記載される特徴が与えられる場合には、これにより、音声信号の多様性が動的に好ましい値域に、すなわち、可変長の信号セクションにより応答可能となるため、特に効果的であるとわかる。
本発明による一手段では、請求項5記載の特徴が提供される場合、特に効果的であるとわかる。これにより、音声信号の一様な時間解像度クリッキングノイズ信号の正確な検出を支援するという効果が得られる。
本発明による一手段では、請求項6記載の特徴が提供される場合、特に効果的であるとわかる。これにより、発話を示す有効信号において、n個の信号セクションを有するポーズが実質的に1つの単語内では発生せず、m個の信号セクションとl個の信号セクションを有するエネルギーパターンがハーフシラブル(half−syllable)として知られる発話された単語の終わりを除外するため、類似する有効信号の不正確な検出を回避しながら、音声信号におけるクリッキングノイズ信号の明確な検出が保証されるという効果がもたらされる。本発明による一手段では、lが1〜9の範囲内にあるか確定し、mが6〜11の範囲内の値以上であるか確定し、nが27〜38の範囲内の値以上であるか確定する手段が設けられてもよい。
本発明による一手段では、請求項7記載の特徴が提供される場合、特に効果的であるとわかる。これにより、繰り返し発生するクリッキングノイズ信号でさえ、シンプルかつ確実な方法により音声信号における有効信号と識別でき、これにより確実に検出することができるという効果が得られる。
本発明による一手段では、請求項9記載の特徴が提供される場合、特に効果的であるとわかる。これにより、ノイズ信号が実質的にリアルタイムにより音声信号から取り除くことができ、これにより、ノイズ信号のない音声信号が利用可能となるという効果が得られる。
本発明の上記及びさらなる特徴が以下に説明される。
図1は、デジタル音声信号DASIを処理する装置1を示す。当該装置1は、携帯ディクテーションマシーンにより実現される。
デジタル音声信号DASIは、第1時間レンジ中に図3の上部に示される音響入力音声信号ASIから生成することができ、音声信号ASIの振幅Aは時間Tの関数として示される。音声信号ASIは、発話信号SP、発話信号SP内のポーズ期間中に発生するバックグラウンド信号BG、及び当該ポーズ中の比較的短い期間中に発生する信号ノイズ信号PSにより形成される。ポーズの始まりは、時間マークPBによりマークされる。ポーズの終わりは、時間マークPEによりマークされる。ノイズ信号PS1の始まりは、時間マークSB1によりマークされる。ノイズ信号PS1の終わりは、時間マークSE1によりマークされる。図4の上部には、図3の上部と同様にして第2時間レンジ中の入力音声信号ASIが示される。第1時間レンジと比較して、ノイズ信号PS1から引き続き、ノイズ信号PS1と構成が類似するさらなる2つのノイズ信号PS2とPS3が、第2時間レンジにおいて発生する。ノイズ信号PS2は、時間マークSB2とSE2により画定される。ノイズ信号PS3は、時間マークSB3とSE3により画定される。ノイズ信号PS1又はPS3及びPS3はそれぞれ、携帯ディクテーションマシーンの動作により生成されたものである。しかしながら、この種のノイズ信号PS1、PS2及びPS3はまた、ディクテーションマシーンの近傍のイベントにより生成され得るということが述べられるべきである。サイズに関する理由のため、音声信号ASIは、複数の時間レンジIに対しては図3及び4では図示されていない。
装置1には、入力音声信号ASIを受信するための受信手段2が備えられている。受信手段2には、図1には図示されないマイクロフォンと、図1には図示されない自動ゲイン制御を有する受信アンプと、図1には図示されないアナログ/デジタルコンバータが備えられている。受信手段2は、入力音声信号ASIを表すデジタル音声信号DASIを生成及び送信するためのものであり、デジタル音声信号DASIは、16ビット形式によるパルスコード変調符号化、短縮するとPCMに存在する。
装置1にはさらに、デジタル音声信号DASIを受付け、圧縮音声信号CASを生成及び送信するための圧縮手段3が備えられる。当該圧縮音声信号CASは、デジタル音声信号DASIと比較して減少したデータ量を有する。本ケースでは、圧縮手段3は、「符号励振線形予測(Code Excited Linear Prediction)」(CELP)圧縮規格に従って圧縮された圧縮音声信号CASを生成するためのものである。しかしながらこの点については、他の任意の圧縮方法が利用されてもよく、デジタル音声信号DASIは未圧縮によりさらなる処理がされてもよいということが述べられるべきである。
圧縮手段3はさらに、圧縮音声信号CASを格納するのに設けられる第1格納手段4へのライトアクセスのために構成され、これにより、圧縮音声信号CASを第1格納手段4に格納することができる。
装置1にはさらに、第1格納手段4とのリードアクセスのために構成され、第1格納手段4へのアクセス中に、第1格納手段4に格納されている圧縮音声信号CASを読み出すための解凍手段5が備えられる。解凍手段5はさらに、圧縮音声信号CASを解凍し、解凍された音声信号EASを生成及び送信するよう構成される。
装置1にはさらに、解凍されたデジタル音声信号EASを受信し、リアルタイムで音声信号EASにおけるノイズ信号PS1又はノイズ信号列PS1、PS2及びPS3を検出するよう構成されたノイズ信号検出手段6が備えられる。
このため、ノイズ信号検出手段6には、音声信号EASを連続する信号セクションSASに分割するよう構成される音声信号分割手段7が備えられる。当該信号セクションSASは、各ケースにおいてタイムスパンPの音声信号ASIを表す。複数のタイムスパンPが、図3及び4の時間軸に沿って示される。本ケースでは、タイムスパンPは5ミリ秒となるよう選ばれている。しかしながら、当業者には明らかなように、ノイズ信号の検出精度に対する影響及び/又はノイズ信号PS1、PS2又はPS2のそれぞれの検出に影響を及ぼす他のパラメータに対する影響を有しうる2〜10ミリ秒などの他の値がPに対して選択可能であるということが述べられるべきであり、当該パラメータについて以下において詳細に説明される。
ノイズ信号検出手段6にはさらに、連続する信号セクションSASのエネルギーコンテンツを決定するよう構成されるエネルギーコンテンツ判定手段8が備えられる。信号セクションSASのエネルギーコンテンツは、
Figure 0004739023
の式に従ってデシベル単位で決定され、ここで、Sはk番目の信号セクションSASの信号振幅を表し、Nは信号セクションSAS内の信号振幅Sの総量を表す。エネルギーコンテンツ判定手段8はさらに、決定されたエネルギーコンテンツを表すエネルギーコンテンツデータEVDを生成及び送信するよう構成される。信号セクションSASの決定されたエネルギーコンテンツは、各ケースにおいて棒グラフ形式により図3及び4の下部にそれぞれ示される。
ノイズ信号検出手段6にはさらに、エネルギー閾値ETを決定するよう構成されるエネルギー閾値判定手段9が備えられる。当該エネルギー閾値ETは、エネルギーコンテンツデータEVDに基づき連続的に決定される。詳細には、エネルギー閾値の決定は、基本方法及び改良方法に基づきなされ、これらの方法について詳細に後述される。
基本方法では、図5に示されるように、たとえて言うと、エネルギーコンテンツデータEVDが引き上げられる6秒間の通常のタイムスロット内で、当該通常タイムスロット内で発生するすべての信号セクションSASのエネルギーコンテンツのヒストグラムHがまず生成される。しかしながら、この点について、6秒間以外の値もまた、通常タイムスロットに与えられてもよいということが述べられるべきである。ヒストグラムHでは、エネルギーコンテンツが横軸にプロットされ、選択されたPCM16ビットフォーマットに従って、エネルギーコンテンツの上限UBが、90dBに置かれる。ヒストグラムGの領域に対し得られるエッジ曲線のステップ状の特性は、連続する包絡線EVにより近似される。包絡線EVの下には、低エネルギー領域LEAと高エネルギー領域HEAが、包絡線の下の領域の10パーセントを各領域が示すように画定される。この点について再び、10パーセントの変わりに、5〜15パーセントの値などの他の値が与えられてもよいということが述べられるべきである。2つの領域LEAとHEAの各区切り線の位置は、ノイズ信号レベルNLと有効信号レベルSLを生じさせる。有効信号レベルSLとノイズ信号レベルとの間の比は、専門用語「信号対雑音比」に関するSNRと以降で呼ばれ、有効信号レベルSLとノイズ信号レベルNLとの差として計算される。さらに、ノイズの予想される最小エネルギー帯域幅を説明し、本ケースでは、4つのデシベルの値を示す「ノイズオフセット」と指定されるパラメータが利用される。「エネルギーファクタ」として指定されるさらなるパラメータは、SNR領域全体の予想されるノイズコンポーネントを表し、本ケースでは、0.34の値を有する。上述のパラメータを用いて、エネルギー閾値ETは、各ケースに適用可能な条件の関数として以下のように計算することができる。
Figure 0004739023
この点について、エネルギー閾値を決定するため、エネルギー閾値ETの判定開始時、すなわち、十分な数のエネルギーコンテンツが通常タイムスロット内でまだ決定されていない時点では、通常タイムスロットを用いてエネルギー閾値ETの決定についての結果として生ずる遅延を回避するため、通常タイムスロットの代わりに1秒の最小タイムスロットが利用される。
改良方法では、基本方法によると、通常タイムスロットの期間が長すぎ、ノイズ信号レベルNLの急激な変化に反応することができないという仮定により、ノイズ信号レベルNLが、100ミリ秒の短いタイムスロット内で直近に決定されたエネルギーコンテンツから判断される。ここで、エネルギーコンテンツの平均値は、
Figure 0004739023
の式に従って計算される。ただし、エネルギーコンテンツデータEVDは、短いタイムスロット内のエネルギーコンテンツを表し、Mは、短いタイムスロット内のエネルギーコンテンツデータEVDのデータ量を表す。ノイズ信号レベルNLの改良された判定に従って、エネルギー閾値ETの判定は基本的方法と同様に行われ、基本方法において指定された式が利用され、基本的方法に従ってSNRが決定される。エネルギー閾値判定手段9はさらに、エネルギー閾値データETDの形式により改良方法に従って、又は基本方法に従って決定されるエネルギー閾値ETを送信するよう構成される。特定の方法により決定されるエネルギー閾値ETが図3及び4のそれぞれの下部に入力され、経時的に発生するエネルギー閾値ETの変化は明示的には示されない。
エネルギー閾値ETを決定するに際し、改良方法が常時利用され、時間マークSE1から始まり矢印T2の方向に、適用可能である場合には、時間マークSE2から始まり矢印T3の方向に、及び時間マークSE3から始まり矢印T4の方向に、改良方法を安定化するため、バックグラウンド信号BGを表す最大で30の信号セクションSASに対し各ケースにおいて利用される。
ノイズ信号検出手段6にはさらに、計数手段11が備えられる。計数手段11は、エネルギー閾値ETを超えるエネルギーコンテンツを示す隣接する連続した高エネルギー信号セクションを計数し、当該計数を示す高エネルギー計数データNCHを生成及び送信するよう構成される。図3及び4に示される音声信号AISでは、時間マークSB1とSE1、SB2とSE2、SB3とSE3のそれぞれの間に当該状況が存在する。
計数手段11にはさらに、少なくとも1つの高エネルギー信号セクションに先行し、エネルギー閾値ET以下のエネルギーコンテンツを示す信号セクションSASを計数するよう構成される。図3及び4に示される音声信号ASIでは、この状況は時間マークSB1の左方向に始まり、矢印T1の方向に延びる。計数手段11はさらに、少なくとも1つの高エネルギー信号セクションに続き、エネルギー閾値以下のエネルギーコンテンツを示す信号セクションを計数するよう構成される。図3及び4に示される音声信号ASIでは、この状況は、時間マークSE1から始まり、矢印T2の方向に延びる。図4に示される音声信号ASIでは、この状況はさらに、時間マークSE2から始まり、矢印T3の方向に延び、時間マークSE3から始まり、矢印T4の方向に延びる。何れのケースでも、すなわち、信号セクションSASが高エネルギー信号セクションに先行するケース、又は信号セクションSASが高エネルギー信号セクションに後続するケースでは、信号セクションSASの該当する個数は、低エネルギー計数データNCLにより物理的に表される。しかしながら、このNCLは、時間に関する発生について、計数データNCLPREとNCLPOSTに論理的に分割することができる。
従って、計数手段11は、第1計数が低エネルギー計数データNCLを生成するのに提供され、第2計数が高エネルギー計数データNCHを生成するのに与えられる図2に図示されない2つのみの計数により効果的に実現される。ここで、計数手段11は、2つの計数の何れが増分されるべきか計数手段11に通信するのに用いられる計数信号NEを受信及び処理するよう構成される。各計数に与えられる計数データNCH又はNCLは、永久的に利用可能である。計数手段11はさらに、計数データNCHとNCLにより表される計数状態を消去する計数リセット信号NRを受信するよう構成される。
ノイズ信号検出手段6にはさらに、各ケースにおいて決定されるエネルギーコンテンツデータEVDとエネルギー閾値データETDを受信するよう構成され、各ケースにおいて、適用可能なエネルギー閾値ETに参照される信号セクションSASのエネルギーコンテンツを評価するよう構成されるエネルギーコンテンツ評価手段12が備えられる。エネルギーコンテンツ評価手段12が、発生検出手段13とやりとりするのに設けられる。発生検出手段13は、計数信号NE及び計数リセット信号NRを生成及び送信するよう構成される。発生検出手段13はさらに、エネルギーコンテンツ評価手段12からの評価結果を利用して、時間マークSB1とSE1との間などの少なくとも1つの高エネルギー信号セクションの発生を検出し、少なくとも1つの高エネルギー信号セクションに先行し、時間マークSB1の左方向などのエネルギー閾値ET以下のエネルギーコンテンツを示す少なくとも1つの信号セクションの発生を検出し、少なくとも1つの高エネルギー信号セクションに後続し、時間マークSE1の右方向などのエネルギー閾値ET以下のエネルギーコンテンツを示す信号セクションSASの発生を検出するよう構成される。
発生検出手段13はさらに、前の段落において説明されたエネルギーパターンの発生が信号セクションSASにおいて検出されると、発生検出データRDを生成及び送信するよう構成され、各ケースにおけるエネルギーパターンを形成する信号セクションSASのグループ数がある仮説に対応し、このため、クリッキングノイズ信号が存在する。ここで、低エネルギー計数データNCLPREにより表され、高エネルギー信号セクションに先行するm個の連続する信号セクションSASのエネルギーコンテンツがエネルギー閾値ETの範囲内となるか、当該仮説のチェック中に確定される。ただし、mは9以上である。さらに、高エネルギー計数データNCHにより表されるl個の連続する高エネルギー信号セクションのエネルギーコンテンツが、エネルギー閾値ETを超えているか確定される。ただし、lは3〜7の範囲内である。さらに、低エネルギー計数データNCLPOSTにより表され、高エネルギー信号セクションに後続するn個の連続する信号セクションのエネルギーコンテンツが、エネルギー閾値ETの範囲内となることが確定される。ただし、nは30以上となる。この仮説は、図3及び4に示される音声信号ASIに適用することが可能であり、以下に示される条件に従って数学的に定式化することができる。
Figure 0004739023
図4に示される状況について、ノイズ信号検出手段6は、繰り返し発生するノイズ信号PS1、PS2及びPS3のそれぞれを検出するよう構成される。ここで、当該仮説は、ノイズ信号SP1又はノイズ信号SP2の信号セクションSASに後続するなど、エネルギー閾値以下のエネルギーコンテンツを示す高エネルギー信号セクションから続いて、これら高エネルギー信号セクションに後続する30個の信号セクション中に、例えば、ノイズ信号PS2とPS3の期間中の場合と同様に、さらなる高エネルギー信号セクションのエネルギーコンテンツがエネルギー閾値ETを超えるかどうか確定されるという効果に拡張される。図3及び4に示される音声信号ASIに適用可能なこのように拡張された仮説は、以下に示される条件に従って数学的に定式化することができる。
Figure 0004739023
簡単化のため、この点について、NCHはノイズ信号PS1内の高エネルギー信号セクションのセクション数を表し、NCHはノイズ信号PS2内の高エネルギー信号セクションのセクション数を表し、NCHはノイズ信号PS3内の高エネルギー信号セクションのセクション数を表すことが述べられるべきである。さらに、NCLPREはNCH個の高エネルギー信号セクションを超える信号セクションSASのセクション数を表していることが明らかにされるべきである。さらに、NCLPOST,1は、ノイズ信号PS1とPS2との間で発生する信号セクションSASのセクション数を表し、NCLPOST,2は、ノイズ信号PS2とPS3との間で発生する信号セクションSASのセクション数を表し、NCLPOST,3は、ノイズ信号PS3以降に発生し、エネルギー閾値ET以下のエネルギーコンテンツを示す信号セクションSASのセクション数を表すことが明らかにされるべきである。また、iは、ポーズ内のノイズ信号PS1、PS2及びPS3の量を表し、第1ノイズ信号PS1の以降に発生するなどのさらなるノイズ信号PS2及びPS3の量は、25に限定されるということが明らかにされるべきである。しかしながら、iはまた、特定の適用ケースに応じて異なる最大値に割り当てられてもよいということが述べられるべきである。
このため、エネルギーコンテンツ評価手段12と発生検出手段13は、エネルギーコンテンツデータEVDとエネルギー閾値データETD及び2つの計数データNCL及びNHLに基づき、上記条件を連続的にチェックし、当該チェック結果に応じて、その状態の1つに留まるか、あるいはそれの状態を変更するよう構成されるいわゆる「状態マシーン」により実現される。これにより、上記状態は、上記仮説が適用しているか、そうでないかという事実を実質的に表す。仮説が適用されると、1つの状態は第1ノイズ信号PS1以前のバックグラウンド信号BGにより構成される以前のポーズを表し、さらなる状態はノイズ信号PS1、PS2及びPS3の1つにおける高エネルギー信号セクションを表し、さらなる状態は時間マークSE1とSB2、又はSE2とSB3との間のバックグラウンド信号BGにより形成される直接のポーズ、又は時間マークSE3とPEとの間の以降のポーズを表す、3つのさらなる状態間のさらなる区別がなされる。状態マシーンは、それがある状態に留まるとき、計数信号NEを生成及び送信するよう構成される。状態マシーンはさらに、クリッキングノイズ信号PS1又はクリッキングノイズ信号列PS1、PS2、PS3の検出のための上記条件が完全に満たされ、計数リセット信号NRの生成及び送信することが、仮説に従って検出可能なクリッキングノイズ信号でないとき、状態変化の結果として発生検出データRDを生成及び送信するよう構成される。
上記情報によると、図3によるノイズ信号PS1又は図4によるノイズ信号列PS1、PS2、PS3の検出方法は、装置1を用いてデジタル音声信号EASにより実現することができる。ここで、デジタル音声信号EASは、連続する信号セクションSASに分割され、連続する信号セクションSASのエネルギーコンテンツが決定され、エネルギー閾値ETと呼ばれる信号セクションSASのエネルギーコンテンツが評価され、エネルギー閾値ETを超えるエネルギーコンテンツを示す少なくとも高エネルギー信号セクションの発生、少なくとも1つの高エネルギー信号セクションに先行し、エネルギー閾値ETを下回るエネルギーコンテンツを示す少なくとも1つの信号セクションSASの発生、及び少なくとも1つの高エネルギー信号セクションに後続し、エネルギー閾値ET以下のエネルギーコンテンツを有する少なくとも1つの信号セクションSASの発生が検出され、少なくとも1つの高エネルギー信号セクションに先行する信号セクションSASのセクション数、高エネルギー信号セクションのセクション数、及び高エネルギー信号セクションに後続する信号セクションSASのセクション数が計数される。
以下において、図7に示されるフローチャートを参照することにより、装置1を用いて実現可能なノイズ信号PS1又はノイズ信号列PS1、PS2、PS3を検出する方法Mが詳細に説明される。
このため、ノイズ信号PS1又はノイズ信号列PS1、PS2、PS3の検出に必要な以下で指定される変数がまず導入され、それの値が方法Mの実現中に補正される。第1変数Eは、特定の信号セクションSASのエネルギーコンテンツを表す。第2変数CLは、高エネルギー計数データNCHに対応する高エネルギー信号セクションのセクション数を表す。第3変数SLは、エネルギー値がエネルギー閾値ET以下である信号セクションSASのセクション数を表す。このセクション数は低エネルギー計数データNCLに対応する。第4変数CLACCUは、ポーズ中における各高エネルギー信号セクション又は各高エネルギー信号セクショングループが繰り返し発生する際の高エネルギー信号セクションの累積セクション数を表す。第5変数RCは、繰り返し発生するノイズ信号PS2又はPS3を計数する繰り返し計数値を表す。第6変数SLMAYBERESETは、決定に達するための論理値を表す。方法Mの開始時、計数変数CLmSL、CLACCU及びRCは、ゼロに割り当てられる。論理変数SLMAYBERESETは、Falseの論理値に割り当てられる。
シーケンス制御のため本方法において利用される以下に指定されるパラメータがさらに導入される。第1パラメータSBEGINは、第1高エネルギー信号セクションの発生前のバックグラウンド信号BGを表す信号セクションSASの最小セクション数を表し、本ケースでは9の値が与えられる。第2パラメータSENDは、バックグラウンド信号BGを表し、ノイズ信号PS1又はノイズ信号列PS1、PS2、PS3に属する最後の高エネルギー信号セクション以降に発生する信号セクションSASの最小セクション数を表し、本ケースでは、30の値が与えられる。第3パラメータCMINは、ノイズ信号PS1、PS2又はPS3の検出に必要とされる高エネルギー信号セクションの最小セクション数を表し、本ケースでは、3の値が与えられる。第4パラメータCMAXは、ノイズ信号PS1、PS2又はPS3の検出に必要とされる高エネルギー信号セクションの最大セクション数を表し、本ケースでは、7の値が与えられる。第5パラメータMAXREPは、繰り返し発生する高エネルギー信号セクションの許容される最大セクション数を表し、本ケースでは、25の値が与えられる。
各信号セクションSASに対する方法Mの実現は、デジタル音声信号EASが連続する信号セクションSASに分割され、エネルギーコンテンツが特定の信号セクションSASに対し決定され、変数Eにより表され、特定のケースに適用可能なエネルギー閾値ETがりよう可能になるとすぐに、ブロックM1から開始される。
ブロックM2において、エネルギー閾値ETと呼ばれる特定の信号セクションのエネルギーコンテンツの評価が行われる。ブロックM2において、Eがエネルギー閾値ET以下であると確定されると、ブロックM3に移行し、このことは、時間マークPBとPEとの間のポーズにおけるバックグラウンド信号BGを表す信号セクションSASが存在することを意味する。
ブロックM3において、CLがゼロより大きいかチェックされる。
CLがゼロより大きくない場合、このことは、ポーズが開始されたことを意味する。この場合にはブロックM5に移行し、SLが1だけ増やされる。その後、方法MはブロックM6において終了される。
CLがゼロより大きい場合、このことは、仮説に従って検出可能なノイズ信号の後のポーズが関係することを意味し、当該ノイズ信号に対し、仮説の条件の少なくとも1つが存在する。この場合、ブロックM7に移行し、SLMAYBERESETがFalseに等しいかチェックされる。
SLMAYBERESETがTrueに等しい場合、このことは、時間マークSE1とSB2、SE2とSB3又はSE3とPEとの間の仮説に従って検出可能なノイズ信号PS1、PS2又はPS3の後の最初の信号セクションSASが関係することを意味する。ブロックM9に移行し、次のポーズにおいて信号セクションSASの再計数を可能にするため、SLがゼロの値に割り当てられる。その後、本方法はブロックM10に続き、SLMAYBERESETがFalseに割り当てられる。その後、方法MはブロックM8に続く。
SLMAYBERESETがFalseに等しい場合、すなわち、時間マークSE1とSB2、SE2とSB3又はSE3とPEとの間のポーズの最初のもの以外の信号セクションSASが関係することを意味する場合、ブロックM8に移行し、SLが1だけ増やされる。
ブロックM8の後、方法MはブロックM11に続き、SLがSENDに等しいかチェックされる。この不連続状態が満たされない場合、ブロックM6に移行する。SLがSENDに等しい場合、ブロックM12に移行し、CLACCUがCLの値だけ増やされる。ブロックM12の後、本方法はブロックM13に続く。
ブロックM13において、CLACCUがCLMINより小さいかチェックされる。
CLACCUがCLMINより小さくない場合、このことは、ノイズ信号PS1又はノイズ信号列PS1、PS2、PS3が検出されたことを意味し、ブロックM14に移行する。ブロックM14において、発生検出データRDが生成及び送信される。その後、方法MがブロックM15に続き、CL、CLACCU及びRCがゼロの値に割り当てられ、SLMAYBERESETがFalseの値に割り当てられる。その後、本方法はブロックM6において終了する。
CLACCUがCMINより小さい場合、方法MはブロックM15に続く。
ブロックM2において、EがETより小さくない場合、このことは、発話信号SP又はノイズ信号PS1、PS2又はPS3を表す信号セクションSASが存在することを意味する。この場合、ブロックM4に移行する。
ブロックM4において、CLがゼロの値を有し、SLがSBEGINより小さいかチェックされる。
チェック条件がブロックM4において満足されると、このことは、バックグラウンド信号BGが存在したポーズが十分長いものではなく、信号セクションSASが仮説に従って検出可能なノイズ信号PS1、PS2又はPS3でないことを意味する。この場合、ブロックM16に移行し、SLにはゼロの値が割り当てられる。その後、方法MがブロックM16に続く。ブロック15及び16に従う方法Mの継続は計数リセット信号NRの生成に対応する。
チェック条件がブロックM4において満たされない場合、このことは、仮説に従って検出可能なノイズ信号PS1、PS2又はPS3が関係するかもしれないということを意味する。この結果、ブロックM17に移行する。
ブロックM17において、CLがゼロより大きいか、そしてSLMAYBERESETがFalseに等しいかチェックされる。
チェック条件がブロックM17において満たされる場合、このことは、信号セクションSASに関して、これがノイズ信号PS2又はPS3の1つの始まりであるかもしれないことを意味し、ブロックM18に移行する。
ブロック18において、RCがMAXREPより小さいかチェックされる。
RCがMAXREPより小さくない場合、このことは、有効なノイズ信号PS2又はPS3、すなわち、仮説に従って検出可能なものが関係しないことを意味し、ブロックM16に移行する。
RCがMAXREPより小さい場合、このことは、第1ノイズ信号PS1の後に続くノイズ信号PS2又はPS3の1つが関係するかもしれないことを意味し、ブロックM19に移行する。ブロックM19において、RCは1だけ増やされ、方法MはブロックM20に続く。ブロックM20において、CLACCUはCLの値だけ増やされ、方法MはブロックM21に続く。ブロックM21において、CLは1の値に割り当てられ、本方法はブロックM22に続く。ブロックM22において、SLMAYBERESETがTrueの論理値に割り当てられ、本方法はM6において終了する。
チェック条件がブロックM17において満たされない場合、このことは、信号セクションSASに関して、これが第1ノイズ信号PS1の開始であるかもしれず、あるいは、ノイズ信号PS1、PS2又はPS3の1つの信号セクションSASが関係しているかもしれないということを意味する。ここで、これはノイズ信号PS1、PS2又はPS3の1つの最初の信号セクションSASではない。この場合、ブロックM23に移行する。ブロックM23において、CLは1の値だけ増やされ、方法MはブロックM24に続く。ブロックM24において、SLMAYBERESETがTrueの論理値に割り当てられ、方法MがブロックM25に続く。
ブロックM25において、CLがCMAXより大きいかチェックされる。CLがCMAXより大きい場合、このことは、高エネルギー信号セクションの期間が長すぎることを意味し、このため、ノイズ信号PS1、PS2又はPS3が存在する可能性があり、ブロックM16に移行する。CLがCMAXより大きくない場合、ブロックM6に移行し、方法MはブロックM6において終了する。
従って、方法Mに関して、ブロックM3における条件が満たされる場合、ノイズ信号前の前のポーズの期間が十分長いものとなり、高エネルギー信号セクションのセクション数はCMAXより大きくはならず、繰り返し発生するノイズ信号の信号数は、許容される範囲内に属することになるということが述べられるべきである。
図1に示される装置1にはさらに、検出された各ノイズ信号PS1又は検出された複数のノイズ信号PS1、PS2、PS3の系列を考慮して、ノイズ信号のない音声信号DASOを供給及び送信するよう構成される供給手段14が備えられる。このため、供給手段14には、音声信号分割手段7を用いて生成可能な複数の信号セクションSASを一時的に格納するよう構成された第2格納手段15が備えられる。供給手段14にはさらに、発生検出データRDを受信するよう構成されたリセット手段16が備えられる。リセット手段16はさらに、第2格納手段15に対するリードアクセスのため、一時的に格納された信号セクションSASを読むよう構成される。リセット手段16はさらに、発生検出データRDを用いて特定可能なノイズ信号PS1又はPS1、PS2及び/又はPS3を含む信号セクションSASをリセットし、省略することなく、残りの信号セクションSASを並べるよう構成され、この結果、デジタルノイズ信号フリー音声信号DASOが形成される。これに関して、供給手段14はまた、ノイズ信号PS1及び/又はPS2及びPS3を含む信号セクションSASを置換するよう構成されてもよいということが与えられてもよい。さらに例えば、これらの信号セクションSASが、人工的に生成されたバックグラウンド信号を有する信号セクションと置換されることが与えられてもよい。
装置1にはさらに、ノイズ信号フリー音声信号DASOを受信し、当該ノイズ信号フリー信号DASOを用いて、音響音声信号ASOを生成及び送信するよう構成された送信手段17が備えられる。
装置1にはさらに、解凍された音声信号EASを受信し、インタフェース手段18に接続可能な図1には図示されない装置に、電気信号形式による解凍音声信号EASを送信するよう構成されるインタフェース手段18が備えられる。
装置1にはさらに、受信手段2、圧縮手段3、解凍手段5、ノイズ信号検出手段6、供給手段14、送信手段17及びインタフェース手段18を制御するよう構成される制御手段19が備えられる。このため、制御手段19は、上記手段2、3、5、6、14、17及び18に接続される。制御手段19はさらに、制御信号CSを生成し、当該制御信号CSを上記手段2、3、5、6、14、17及び18に送信するよう構成される。本ケースでは、制御手段19は、ユーザ操作による手動により供給可能な制御情報を受信するよう構成される。しかしながら、制御手段19はまた、赤外線信号又は無線周波数信号により供給可能な制御情報を受信するよう構成されてもよい。
これにより、装置1の場合、装置1のユーザを邪魔するクリッキングノイズ信号PS1又はPS2及びPS3の検出及び消去が、確実な方法により実行できるという効果が生じる。
図6は、コンピュータ19と、視覚的ユーザインタフェースとして機能するコンピュータ19に接続されたモニタ20と、コンピュータ19に接続されたマウス21と、コンピュータ19に接続されたキーボード22とを備えたデータ処理システム18を示す。ここで、マウス21とキーボード22は手動のユーザインタフェースとして機能する。コンピュータ19は、図6には図示されていないユーザによりユーザインタフェースを用いて操作可能である。コンピュータ19にはさらに、処理データ及び/又はプログラムデータを格納するため設けられる内部メモリ23が備えられる。コンピュータにはさらに、メモリ23とやりとりするよう構成されるプロセッサユニット24が備えられ、プロセッサユニットを用いて実現可能なプログラムデータを用いてプロセッサユニットにより、処理データが処理可能である。コンピュータ19を制御するため、プロセッサユニット24にはさらに、ユーザインタフェース20、21及び22とやりとりするよう構成される。コンピュータ19にはさらに、プログラムデータ/処理データインタフェース25が備えられ、これにより、本ケースではコンパクトディスク、すなわち、略してCDにより実現されるコンピュータ可読媒体26へのアクセスが可能となる。
コンピュータ19にはさらに、図1に示される装置1と類似した携帯ディクテーションマシーン28が接続される。ここで、携帯ディクテーションマシーン28には、装置1のノイズ信号検出手段6及び供給手段14は備えられず、デジタル解凍音声信号EASが直接送信手段17に供給可能である。さらに、図6に示されないコンピュータ19の音声信号インタフェースを用いて、デジタル音声信号EASがコンピュータ19に供給可能であり、メモリ23に格納可能であるということが与えられ、これにより、プロセッサユニット24を用いたさらなる処理が可能となる。
このため、コンピュータプログラムプロダクト27が、媒体26を用いてプログラムデータ/処理データインタフェース25を介しコンピュータ19に供給可能である。コンピュータプログラムプロダクト27は、コンピュータ19のメモリ23に直接ロードすることが出来、プログラムデータの少なくとも一部を構成するソフトウェアコードセクションを有する。ここで、方法Mは、コンピュータプログラム27がプロセッサユニット24を用いてコンピュータ19上で実現される場合、デジタル音声信号EASにおける図4に従うノイズ信号PS1、PS2及びPS3、又は、図3に従うノイズ信号を検出するため、コンピュータ19により実現することが可能である。
これにより、デジタル音声信号EASがさらに音声認識ソフトウェアを用いてコンピュータ19上で処理される場合と、音声信号EASがコンピュータ19を用いて再生される場合の何れにおいても、ノイズ信号PS1の確実な検出、又は適用可能な場合、音声信号のデジタル時間表示によるPS2又はPS3が保証されるという効果が生じる。
さらに、装置1の場合、ノイズ信号検出手段6と、適用可能な場合には供給手段14とが、受信手段2と圧縮手段3との間に設けられてもよいということが述べられるべきである。
さらに、装置1の場合、手段6と14が手段5と18の間に設けられ、これにより、ノイズ信号フリー解凍音声信号EASを表すデータが、装置1から送信可能となるということが述べられるべきである。
さらに、媒体26は、DVD、交換可能なハードディスク又はディスケットにより構成されてもよいということが述べられるべきである。
さらに、装置1の場合、手段3、4、5、6及び14と手段2、17、19及び18の少なくとも構成要素が集積回路として実現されることが好ましいということが述べられるべきである。
さらに、ノイズ信号検出手段6の場合、互いに直接的に隣接し合う信号セクションSAS、又は互い直接的には隣接し合ってはいない信号セクションSASの処理が行われてもよいということが述べられるべきである。
さらに、ノイズ信号検出手段6には、EVD及びETDデータを一時的に格納するため、図2の破線により示される第3格納手段10が備えられてもよく、また、発生検出手段13が格納されているデータEVD及びETDにアクセス及び処理するよう構成されてもよく、これにより、ノイズ信号の非リアルタイムな検出が可能となることが述べられるべきである。
さらに、ノイズ信号検出手段6はまた、音声信号EASの特性に基づき、2〜10ミリ秒の範囲の異なる信号セクション期間の信号セクションSASに音声信号EASを動的分割するよう構成されてもよいということが述べられるべきである。
図1は、本発明の第1実施例による装置をブロック回路図により概略的に示す。 図2は、図1による装置の発明に関連する詳細を図1と同様にして示す。 図3は、本発明による装置を用いて処理可能なクリッキングノイズ信号を示す音声信号と、当該音声信号の信号セクションに対応する音声信号のエネルギーコンテンツの系列を2つの図により示す。 図4は、複数のクリッキングノイズ信号を示す音声信号とエネルギーコンテンツの系列を図3と同様に示す。 図5は、図3による音声信号のエネルギーコンテンツのヒストグラムを図式的に示す。 図6は、本発明によるコンピュータプログラムプロダクトを用いてクリッキングノイズ信号がデジタル音声信号において検出可能な本発明によるコンピュータを備えたデータ処理システムをブロック回路図により示す。 図7は、デジタル音声信号におけるクリッキングノイズ信号を検出するための本発明による方法をフローチャートにより示す。

Claims (18)

  1. 少なくとも1つのプロセッサを用いてデジタル音声信号における少なくとも1つのノイズ信号を検出する方法であって、
    前記デジタル音声信号を複数の連続する信号セクションに分割するステップと、
    前記少なくとも1つのプロセッサによって、前記複数の連続する信号セクションの各信号セクションについてエネルギーコンテンツを決定するステップと、
    前記各信号セクションのエネルギーコンテンツとエネルギー閾値とを比較するステップと、
    前記複数の連続する信号セクションから、前記エネルギー閾値より高いエネルギーコンテンツを有する少なくとも1つの高エネルギー信号セクションであって、前記エネルギー閾値より低いエネルギーコンテンツを有する少なくとも1つの先行する信号セクションと、前記エネルギー閾値より低いエネルギーコンテンツを有する少なくとも1つの後続する信号セクションとを有する高エネルギー信号セクションを検出するステップと、
    前記少なくとも1つの先行する信号セクションの第1の数、前記少なくとも1つの高エネルギー信号セクションの第2の数、及び前記少なくとも1つの後続する信号セクションの第3の数を計数するステップと、
    前記第1の数、第2の数及び第3の数に基づき、前記少なくとも1つの高エネルギー信号セクションが前記少なくとも1つのノイズ信号を表すか判断するステップと、
    を有することを特徴とする方法。
  2. 請求項1記載の方法であって、
    前記複数の連続する信号セクションの各信号セクションのエネルギーコンテンツは、
    Figure 0004739023
    の式に従って決定され、ここで、Sは前記複数の連続する信号セクションの各信号セクション内の信号振幅の大きさを表し、Nは前記複数の連続する信号セクションの各信号セクション内の信号振幅の合計を表すことを特徴とする方法。
  3. 請求項1記載の方法であって、
    前記複数の連続する信号セクションの各信号セクションについて計算される前記エネルギーコンテンツを利用したヒストグラム法、バックグラウンドレベル及び前記デジタル音声信号のノイズレベルと有効信号レベルとの間の比に少なくとも部分的に基づき、前記デジタル音声信号から連続的に前記エネルギー閾値を決定するステップをさらに有することを特徴とする方法。
  4. 請求項1記載の方法であって、
    前記複数の連続する信号セクションの各信号セクションの期間は、2〜10ミリ秒であることを特徴とする方法。
  5. 請求項1記載の方法であって、
    前記複数の連続する信号セクションの各信号セクションの期間は、5ミリ秒であることを特徴とする方法。
  6. 請求項1記載の方法であって、
    前記第1の数が9以上であって、前記第2の数が3〜7であって、前記第3の数が30以上であるとき、前記少なくとも1つの高エネルギー信号セクションは前記少なくとも1つのノイズ信号を表すと判断されることを特徴とする方法。
  7. 請求項1記載の方法であって、
    少なくとも1つのさらなる高エネルギー信号セクションが、前記エネルギー閾値より低いエネルギーコンテンツを有する前記少なくとも1つの後続する信号セクションに後続するか判断するステップをさらに有し、
    前記第2の数の計数は、前記少なくとも1つの高エネルギー信号セクションと前記少なくとも1つのさらなる高エネルギー信号セクションとを計数することを含む、
    ことを特徴とする方法。
  8. デジタル音声信号におけるノイズ信号を検出する装置であって、
    前記デジタル音声信号を複数の信号セクションに分割するよう構成される分割回路と、
    前記複数の信号セクションのエネルギーコンテンツを決定するよう構成される決定回路と、
    エネルギー閾値に関して前記複数の信号セクションの各信号セクションのエネルギーコンテンツを評価するよう構成される評価回路と、
    前記複数の信号セクションから、前記エネルギー閾値より高いエネルギーコンテンツを有する少なくとも1つの高エネルギー信号セクションと、前記少なくとも1つの高エネルギー信号セクションに先行し、前記エネルギー閾値より低いエネルギーコンテンツを有する少なくとも1つの先行する信号セクションと、前記少なくとも1つの高エネルギー信号セクションに後続し、前記エネルギー閾値より低いエネルギーコンテンツを有する少なくとも1つの後続する信号セクションとの出現を検出するよう構成される検出回路と、
    先行する信号セクションの第1の数、高エネルギー信号セクションの第2の数、及び後続する信号セクションの第3の数を計数する計数回路と、
    を有し、
    前記第1の数、第2の数及び第3の数に基づき、前記少なくとも1つの高エネルギー信号セクションが前記少なくとも1つのノイズ信号を表すか判断されることを特徴とする装置。
  9. 請求項8記載の装置であって、
    前記デジタル音声信号より少ないノイズを有する出力音声信号を供給するよう構成される供給回路をさらに有することを特徴とする装置。
  10. デジタル音声信号を複数の信号セクションに分割するステップと、
    前記複数の信号セクションの各信号セクションについて決定されたエネルギーコンテンツとエネルギー閾値とを比較するステップと、
    前記複数の信号セクションから、前記エネルギー閾値より高いエネルギーコンテンツを有する少なくとも1つの高エネルギー信号セクションであって、前記エネルギー閾値より低いエネルギーコンテンツを有する少なくとも1つの先行する信号セクションと、前記エネルギー閾値より低いエネルギーコンテンツを有する少なくとも1つの後続する信号セクションとを有する高エネルギー信号セクションを検出するステップと、
    前記少なくとも1つの先行する信号セクションの第1の数、前記少なくとも1つの高エネルギー信号セクションの第2の数、及び前記少なくとも1つの後続する信号セクションの第3の数を計数するステップと、
    前記第1の数、第2の数及び第3の数に基づき、前記少なくとも1つの高エネルギー信号セクションが前記少なくとも1つのノイズ信号を表すか判断するステップと、
    をコンピュータに実行させるためのプログラムを記録したコンピュータ可読記憶媒体。
  11. 請求項10記載のコンピュータ可読記憶媒体であって、
    前記複数の信号セクションの各信号セクションのエネルギーコンテンツは、
    Figure 0004739023
    の式に従って決定され、ここで、Sは前記複数の信号セクションの各信号セクション内の信号振幅の大きさを表し、Nは前記複数の信号セクションの各信号セクション内の信号振幅の合計を表すことを特徴とするコンピュータ可読記憶媒体。
  12. 請求項10記載のコンピュータ可読記憶媒体であって、
    前記プログラムは、前記複数の信号セクションの各信号セクションについて計算される前記エネルギーコンテンツを利用したヒストグラム法、バックグラウンドレベル及び前記デジタル音声信号のノイズレベルと有効信号レベルとの間の比に少なくとも部分的に基づき、前記デジタル音声信号から連続的に前記エネルギー閾値を決定するステップを前記コンピュータにさらに実行させることを特徴とするコンピュータ可読記憶媒体。
  13. 請求項10記載のコンピュータ可読記憶媒体であって、
    前記複数の信号セクションの各信号セクションの期間は、2〜10ミリ秒であることを特徴とするコンピュータ可読記憶媒体。
  14. 請求項10記載のコンピュータ可読記憶媒体であって、
    前記複数の信号セクションの各信号セクションの期間は、5ミリ秒であることを特徴とするコンピュータ可読記憶媒体。
  15. 請求項10記載のコンピュータ可読記憶媒体であって、
    前記第1の数が9以上であって、前記第2の数が3〜7であって、前記第3の数が30以上であるとき、前記少なくとも1つの高エネルギー信号セクションは前記少なくとも1つのノイズ信号を表すと判断されることを特徴とするコンピュータ可読記憶媒体。
  16. 請求項10記載のコンピュータ可読記憶媒体であって、
    前記プログラムは、少なくとも1つのさらなる高エネルギー信号セクションが、前記エネルギー閾値より低いエネルギーコンテンツを有する前記少なくとも1つの後続する信号セクションに後続するか判断するステップをさらに有し、
    前記第2の数の計数は、前記少なくとも1つの高エネルギー信号セクションと前記少なくとも1つのさらなる高エネルギー信号セクションとを計数することを含む、
    ことを特徴とするコンピュータ可読記憶媒体。
  17. 請求項8記載の装置であって、
    前記分割回路、前記決定回路、前記評価回路、前記検出回路及び前記計数回路の1以上は、少なくとも1つのプログラムされたプロセッサにより実現されることを特徴とする装置。
  18. 請求項9記載の装置であって、
    前記供給回路は、少なくとも1つのプログラムされたプロセッサにより実現されることを特徴とする装置。
JP2005507732A 2003-08-18 2003-08-18 デジタル音声信号におけるクリッキングノイズ検出 Expired - Fee Related JP4739023B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/IB2003/003356 WO2005017878A1 (en) 2003-08-18 2003-08-18 Clicking noise detection in a digital audio signal

Publications (2)

Publication Number Publication Date
JP2007516450A JP2007516450A (ja) 2007-06-21
JP4739023B2 true JP4739023B2 (ja) 2011-08-03

Family

ID=34179247

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005507732A Expired - Fee Related JP4739023B2 (ja) 2003-08-18 2003-08-18 デジタル音声信号におけるクリッキングノイズ検出

Country Status (8)

Country Link
US (1) US7729906B2 (ja)
EP (1) EP1661125B1 (ja)
JP (1) JP4739023B2 (ja)
CN (1) CN100559470C (ja)
AT (1) ATE369602T1 (ja)
AU (1) AU2003249441A1 (ja)
DE (1) DE60315522T2 (ja)
WO (1) WO2005017878A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100677126B1 (ko) * 2004-07-27 2007-02-02 삼성전자주식회사 레코더 기기의 잡음 제거 장치 및 그 방법
DE502006004136D1 (de) * 2005-04-28 2009-08-13 Siemens Ag Verfahren und vorrichtung zur geräuschunterdrückung
US8149227B2 (en) * 2008-04-03 2012-04-03 Livescribe, Inc. Removing click and friction noise in a writing device
US8213635B2 (en) * 2008-12-05 2012-07-03 Microsoft Corporation Keystroke sound suppression
GB2474076B (en) 2009-10-05 2014-03-26 Sonnox Ltd Audio repair methods and apparatus
CN110868266B (zh) * 2019-10-31 2022-01-28 维沃移动通信有限公司 一种电子设备及信息处理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06311121A (ja) * 1993-03-19 1994-11-04 Philips Electron Nv 音声信号内のパルス状妨害信号の検出方法および装置
WO1998041978A1 (fr) * 1997-03-19 1998-09-24 Hitachi, Ltd. Procede et dispositif destines a detecter des points de depart et de terminaison d'une section son dans une sequence video
US6032048A (en) * 1997-03-17 2000-02-29 Ericsson Inc. Method and apparatus for compensating for click noise in an FM receiver
JP2002006890A (ja) * 2000-06-23 2002-01-11 Uniden Corp 音声信号品質改善装置
JP2002006891A (ja) * 2000-06-23 2002-01-11 Uniden Corp 音声信号品質改善装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5728409A (en) * 1980-07-28 1982-02-16 Sony Corp Muting circuit
JP4040125B2 (ja) * 1996-09-18 2008-01-30 ソニー株式会社 音声信号記録装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06311121A (ja) * 1993-03-19 1994-11-04 Philips Electron Nv 音声信号内のパルス状妨害信号の検出方法および装置
US6032048A (en) * 1997-03-17 2000-02-29 Ericsson Inc. Method and apparatus for compensating for click noise in an FM receiver
WO1998041978A1 (fr) * 1997-03-19 1998-09-24 Hitachi, Ltd. Procede et dispositif destines a detecter des points de depart et de terminaison d'une section son dans une sequence video
JP2002006890A (ja) * 2000-06-23 2002-01-11 Uniden Corp 音声信号品質改善装置
JP2002006891A (ja) * 2000-06-23 2002-01-11 Uniden Corp 音声信号品質改善装置

Also Published As

Publication number Publication date
JP2007516450A (ja) 2007-06-21
US7729906B2 (en) 2010-06-01
CN100559470C (zh) 2009-11-11
DE60315522T2 (de) 2008-04-30
US20060287857A1 (en) 2006-12-21
AU2003249441A1 (en) 2005-03-07
DE60315522D1 (de) 2007-09-20
EP1661125A1 (en) 2006-05-31
ATE369602T1 (de) 2007-08-15
EP1661125B1 (en) 2007-08-08
WO2005017878A1 (en) 2005-02-24
CN1860528A (zh) 2006-11-08

Similar Documents

Publication Publication Date Title
EP0077194B1 (en) Speech recognition system
US7756707B2 (en) Signal processing apparatus and method
US7133826B2 (en) Method and apparatus using spectral addition for speaker recognition
US8971549B2 (en) Audio signal processing apparatus, audio signal processing method, and program
US7359856B2 (en) Speech detection system in an audio signal in noisy surrounding
JP2008508564A (ja) スピーチエンドポインタ
JP3105465B2 (ja) 音声区間検出方法
CN105706167A (zh) 有语音的话音检测方法和装置
JP4739023B2 (ja) デジタル音声信号におけるクリッキングノイズ検出
US6757651B2 (en) Speech detection system and method
JP7490199B2 (ja) 学習済みオートエンコーダ、学習済みオートエンコーダの生成方法、非定常振動の検出方法、非定常振動の検出装置、並びにコンピュータプログラム
US6704671B1 (en) System and method of identifying the onset of a sonic event
JP5815435B2 (ja) 音源位置判定装置、音源位置判定方法、プログラム
US20220165289A1 (en) Methods and systems for processing recorded audio content to enhance speech
JP5961530B2 (ja) 音響モデル生成装置とその方法とプログラム
CN115731943A (zh) 一种爆音检测方法、爆音检测系统、存储介质和电子设备
JP5852550B2 (ja) 音響モデル生成装置とその方法とプログラム
JP5166195B2 (ja) 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体
KR20200026587A (ko) 음성 구간을 검출하는 방법 및 장치
JP4242320B2 (ja) 音声認識方法、その装置およびプログラム、その記録媒体
US20230269546A1 (en) Method for eliminating acoustic reverberation in an audio signal, and hearing instrument
JP2666296B2 (ja) 音声認識装置
JP2019184867A (ja) 符号化音判定プログラム、符号化音判定方法、及び符号化音判定装置
Tuononen et al. Automatic voice activity detection in different speech applications
CN116825142A (zh) 自适应参数投票机制的语音端点检测方法及系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060816

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20090715

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100308

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100308

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110329

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110427

R150 Certificate of patent or registration of utility model

Ref document number: 4739023

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140513

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees