JP4551817B2 - ノイズレベル推定方法及びその装置 - Google Patents

ノイズレベル推定方法及びその装置 Download PDF

Info

Publication number
JP4551817B2
JP4551817B2 JP2005147535A JP2005147535A JP4551817B2 JP 4551817 B2 JP4551817 B2 JP 4551817B2 JP 2005147535 A JP2005147535 A JP 2005147535A JP 2005147535 A JP2005147535 A JP 2005147535A JP 4551817 B2 JP4551817 B2 JP 4551817B2
Authority
JP
Japan
Prior art keywords
short
noise level
time
frame
time frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005147535A
Other languages
English (en)
Other versions
JP2006323230A (ja
Inventor
雄士 本田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lapis Semiconductor Co Ltd
Original Assignee
Oki Semiconductor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Semiconductor Co Ltd filed Critical Oki Semiconductor Co Ltd
Priority to JP2005147535A priority Critical patent/JP4551817B2/ja
Priority to KR1020060008005A priority patent/KR20060119729A/ko
Priority to CNA2006100024603A priority patent/CN1866357A/zh
Priority to US11/408,930 priority patent/US20060265219A1/en
Publication of JP2006323230A publication Critical patent/JP2006323230A/ja
Application granted granted Critical
Publication of JP4551817B2 publication Critical patent/JP4551817B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60NSEATS SPECIALLY ADAPTED FOR VEHICLES; VEHICLE PASSENGER ACCOMMODATION NOT OTHERWISE PROVIDED FOR
    • B60N2/00Seats specially adapted for vehicles; Arrangement or mounting of seats in vehicles
    • B60N2/24Seats specially adapted for vehicles; Arrangement or mounting of seats in vehicles for particular purposes or particular vehicles
    • B60N2/30Non-dismountable or dismountable seats storable in a non-use position, e.g. foldable spare seats
    • B60N2/3038Cushion movements
    • B60N2/304Cushion movements by rotation only
    • B60N2/3045Cushion movements by rotation only about transversal axis
    • B60N2/305Cushion movements by rotation only about transversal axis the cushion being hinged on the vehicle frame
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60NSEATS SPECIALLY ADAPTED FOR VEHICLES; VEHICLE PASSENGER ACCOMMODATION NOT OTHERWISE PROVIDED FOR
    • B60N2/00Seats specially adapted for vehicles; Arrangement or mounting of seats in vehicles
    • B60N2/02Seats specially adapted for vehicles; Arrangement or mounting of seats in vehicles the seat or part thereof being movable, e.g. adjustable
    • B60N2/04Seats specially adapted for vehicles; Arrangement or mounting of seats in vehicles the seat or part thereof being movable, e.g. adjustable the whole seat being movable
    • B60N2/10Seats specially adapted for vehicles; Arrangement or mounting of seats in vehicles the seat or part thereof being movable, e.g. adjustable the whole seat being movable tiltable

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Noise Elimination (AREA)

Description

本発明は、入力音声信号の伝送を行う電話機、無線機等の音声通信システムや、音声録音装置、音声認識装置等の音声信号処理を伴う方法や装置等に用いられるノイズレベル推定方法及びその装置に関するものである。
従来、例えば、次のような装置(a)〜(c)等において、バックグラウンドノイズレベルの推定方法や推定装置が有用である。
(a) 電話機・無線機
音声通信システムでは、有音区間の信号のみを伝送したり、有音区間と無音区間で符号化ビット分配量を切り換えたりすることで、伝送コストを削減することができる。有音区間の検出精度向上のために、バックグラウンドノイズレベルに応じて適応的に有音検出用の閾値を算出することにより、伝送効率や通話品質の向上が可能となる。
又、エコー抑制装置で用いられる非線形プロセッサ(Non Linear Processor;NLP)や、有音・無音を切り換え伝送する伝送器(Voice Operated Transmitter;VOX)処理により生じる無音区間にコンフォートノイズ(comfort noise、快適ノイズ)を加算することにより、通話の不自然さや不快感を軽減することができる。そのためには、バックグラウンドノイズレベルに応じたコンフォートノイズ加算レベルの調整が必要となる。
(b) 音声録音装置
半導体メモリに音声を録音する装置では、無音区間の信号は符号化せずにその継続時間だけを記録したり、有音区間と無音区間で符号化ビット分配量を切り換えたりすることで、効率よく半導体モリを使用することができる。音声通信システムと同様に、バックグラウンドノイズレベルに応じて適応的に有音検出用の閾値を算出することにより、半導体メモリ搭載容量の削減が可能となる。
(c) 音声認識装置
音声認識装置においても、バックグラウンドノイズレベルに応じて適応的に有音検出用の閾値を算出することにより、音声認識率の向上が可能となる。
このような用途に用いられる従来のノイズレベル推定装置としては、例えば、次のような文献に記載されるものがあった。
特開平10−91184号公報(図4)
図8は、特許文献1の図4に記載された従来のノイズレベル推定装置を示す構成図である。
このノイズレベル推定装置は、マイクロフォン等から音声信号inを入力する入力端子1を有し、この入力端子1に、パワー算出器(電力算出器)2、閾値算出器3、これらの算出器2,3を制御する音声検出器4、有音/無音判定信号outを出力する出力端子5、及び算出された平均パワーPを出力する出力端子6が接続されている。
この種のノイズレベル推定装置では、パワー算出器2において、入力音声信号inの短時間における移動平均又は平滑値から平均パワーPを算出し、閾値算出器3へ出力する。閾値算出器3では、平均パワーPに一定値を加えた閾値Ptを音声検出器4へ出力する。音声検出器4では、入力音声信号inのパワーと閾値Ptとを比較し、入力音声信号inのパワーが閾値Ptを超えると有音であると判定し、この判定結果である有音/無音判定信号outを出力端子5へ出力し、パワー算出器2と閾値算出器3の更新動作を停止する。従って、パワー算出器2から出力される平均パワーPは、無音と判定された区間のみのパワーを算出するので、この平均パワーPはバックグラウンドノイズのレベルを示すと推定され得る。
しかしながら、従来の図8のレベル推定装置では、パワー算出器2において過去の情報を用いた移動平均や平滑値演算によって算出された平均パワーPの値が、過去の情報を引きずって緩やかに推移するため、例え語句の間にわずかな区間のバックグラウンドノイズレベルが存在しても、平均パワーPの値がバックグラウンドノイズレベルまで十分低下せず、バックグラウンドノイズレベルを検出し損ねる可能性があるという課題や、無音区間が正しく検出されなければバックグラウンドノイズレベルも正しく推定できないという課題があった。
又、音声検出器4の精度を高めるために、高速フーリエ変換(Fast Fourier Transform;FFT)や線形予測分析法(Linear Predictive Coding;LPC)等のスペクトルを取り扱った方法も提案されているが、図8の構成のように入力音声信号inのパワーを閾値Ptと比較する方法に比べて、回路規模、若しくは計算量が明らかに増大するという課題があった。
本発明は、前記課題を解決して従来のような音声検出器を必要とせず、簡単且つ容易にノイズレベルを推定するノイズレベル推定方法及びその装置を提供することを目的とする。
前記課題を解決するために、本発明のノイズレベル推定方法及びその装置では、短時間フレームとこの短時間フレームの複数の集合からなる長時間フレームとを用い、前記短時間フレーム毎に入力音声信号の短時間パワーをそれぞれ算出し、前記長時間フレームにおいて前記算出された複数の短時間パワーのうちの最小の短時間パワーを算出し、前記算出された最小の短時間パワーを、前記入力音声信号に対するノイズレベルとして推定している。
更に、推定されたノイズレベルより小さい前記入力音声信号のレベルの短時間パワーが検出されると、この検出された短時間パワーで前記ノイズの推定レベルを更新している。
本発明によれば、従来のような音声検出器を必要としないため、音声検出器の検出結果に依存しない高精度なノイズレベルの推定ができる。従来、音声検出器の精度を高めるために種々提案されてきた方法が不要となり、小さい回路規模、若しくは少ない計算量でノイズレベルの推定ができる。しかも、本発明では、例えば、長時間フレームを超えるような連続した音声が入力され続けたとしても、通常、語句の間に少なくとも短時間フレーム程度の無音声区間が存在するという特徴を有効に利用しているため、或る長時間フレームにおける最小の短時間パワーをノイズレベルとして推定することができるのであるが、短時間パワーを短時間フレームに閉じてその都度算出するので、最小の短時間パワーを有する短時間フレームの前後の短時間フレームに音声信号が含まれていたとしても、推定結果に影響を及ぼすことはない。これにより、語句の間に存在するわずかな区間のノイズレベルを検出できる。
その上、本発明では、或る長時間フレームにおける最小の短時間パワーをノイズレベルと推定するという考えに基づき、現在のノイズの推定レベルを下回る短時間パワーが検出された時点で、この検出結果をノイズの推定レベルとして反映することにより、ノイズレベル推定の追従性がより向上する。
電話機、無線機等の音声通信システムや、音声録音装置、音声認識装置等の音声信号処理等を伴う方法や装置に用いられるノイズレベルの推定方法において、短時間フレームと、この短時間フレームの複数の集合からなる長時間フレームの概念を用いる。そして、短時間フレーム毎に入力音声信号の短時間パワーをそれぞれ算出し、長時間フレームにおいて前記算出された複数の短時間パワーのうちの最小の短時間パワーを算出し、この算出された最小の短時間パワーを、前記入力音声信号に対するノイズレベルとして推定している。
(実施例1の構成)
図1は、本発明の実施例1を示すノイズレベル推定装置の機能ブロック図である。
図1のノイズレベル推定装置は、マイクロフォン等から入力端子10に入力される音声信号x1のノイズ(例えば、バックグラウンドノイズ)のレベルを推定してこの推定値である出力信号y3を出力端子20から出力する装置であり、電子回路上で動作するハードウェア(個別回路)により構成、或いは、マイクロコントローラやディジタル信号プロセッサ(Digital Signal Processor;DSP)等の上で動作するソフトウェアにより構成されている。
このノイズレベル推定装置は、入力端子10に接続された絶対値計算手段11を有し、この絶対値計算手段11に、乗算手段12、2入力1出力の加算手段13、及び初期化手段14が縦続接続され、この初期化手段14の出力端子と加算手段13の入力端子との間に、1サンプル(Z−1 )遅延手段15が帰還接続されている。
絶対値計算手段11は、入力された音声信号x1の絶対値を計算するものであり、例えば、ハードウェアによる絶対値計算器、或いは、ソフトウェアによる演算手段により構成されている。乗算手段12は、絶対値計算手段11の出力信号に対して所定の値を乗算するものであり、例えば、ハードウェアによる乗算器、或いは、ソフトウェアによる演算手段により構成されている。加算手段13は、乗算手段12の出力信号と1サンプル遅延手段15の出力信号とを加算するものであり、例えば、ハードウェアによる加算器、或いは、ソフトウェアによる演算手段により構成されている。初期化手段14は、通常は加算手段13からの入力信号u1をそのまま出力信号y1として出力し、所定サンプル(例えば、128サンプル)毎に0を出力するものであり、例えば、ハードウェアによる初期化回路、或いは、ソフトウェアによるリセット手段により構成されている。1サンプル遅延手段15は、初期化手段14の出力信号y1を1サンプル(Z−1 )遅延させて加算手段13に帰還入力することにより、出力信号y1を保持するためのものであり、例えば、ハードウェアによる1サンプル遅延メモリ等、或いは、ソフトウェアによる遅延手段により構成されている。
このような絶対値計算手段11、乗算手段12、加算手段13、初期化手段14、及び1サンプル遅延手段15により、入力された音声信号x1のパワー(y1)を算出する第1の算出手段(例えば、パワー算出手段)が構成されている。
初期化手段14の出力端子には、2入力1出力の比較手段16が接続され、この比較手段16の入出力端子間に1サンプル(Z−1 )遅延手段17が接続されている。これらの比較手段16及び1サンプル遅延手段17により、第2の算出手段が構成されている。比較手段16は、通常は1サンプル遅延手段17からの入力信号u2をそのまま出力信号y2として出力するが、所定サンプル(例えば、128サンプル)毎、即ち初期化手段14からの短時間パワーの確定値である入力信号u3が入力される毎に入力信号u2とu3を比較し、小さい方の値を出力信号y2として出力するものであり、例えば、ハードウェアによる比較回路、或いは、ソフトウェアによる演算手段により構成されている。1サンプル遅延手段17は、比較手段16の出力信号y2を1サンプル(Z−1 )遅延させてこの比較手段16に帰還入力することにより、出力信号y2を保持するためのものであものであり、例えば、ハードウェアによる1サンプル遅延メモリ等、或いは、ソフトウェアによる遅延手段により構成されている。
1サンプル遅延手段17の出力端子には、2入力1出力の比較手段18が接続され、この比較手段18の入出力端子間に1サンプル(Z−1 )遅延手段19が接続されている。これらの比較手段18及び1サンプル遅延手段19により、出力手段が構成されている。比較手段18は、通常は1サンプル遅延手段19からの入力信号u5をそのまま出力信号y3として出力端子20へ出力するが、所定サンプル(例えば、8192サンプル)毎、即ち1サンプル遅延手段17からの長時間フレームの最初のサンプルである入力信号u4が入力されると、これを出力信号y3として出力端子20へ出力するものであり、例えば、ハードウェアによる比較回路、或いは、ソフトウェアによる演算手段により構成されている。1サンプル遅延手段19は、比較手段18の出力信号y3を1サンプル(Z−1 )遅延させてこの比較手段18に帰還入力することにより、出力信号y3を保持するためのものであり、例えば、ハードウェアによる1サンプル遅延メモリ等、或いは、ソフトウェアによる遅延手段により構成されている。
初期化手段14及び比較手段16,18の制御端子には、サンプルカウント手段21が接続されている。サンプルカウント手段21は、サンプリング周期をカウント(計数)して初期化手段14及び比較手段16,18に動作タイミングを知らせるためのタイミング信号cを与えるものであり、例えば、ハードウェアによるサンプルカウンタ、或いは、ソフトウェアによるカウント手段により構成されている。
(実施例1のノイズレベル推定方法)
図2は、本実施例1で用いる短時間フレームと長時間フレームの概念を示す図である。
図2では、一例として、128サンプル(サンプリング周波数8kHzの場合は16ms)を短時間フレームP1の単位長、8192(=128×64)サンプル(サンプリング周波数8kHzの場合は1024ms)を長時間フレームP2の単位長と定義することを前提とする。勿論、この定義に限定されなくてもよい。フレームP1,P2の概念として、m番目の長時間フレームをP2[m]と表し、この長時間フレームP2[m]におけるn番目の短時間フレームをP1[n,m]と表すことにする。
以下、このフレームの概念を基に、図3を参照しつつ、図1のノイズレベル推定装置を用いたノイズレベル推定方法を説明する。
図3は、図1のノイズレベル推定装置内の各手段の出力信号を示す波形図であり、横軸が時間、縦軸が信号レベルを表している。
例えば、短時間フレームP1[n,m]において入力端子10から入力される音声信号x1におけるi番目(i=1,2,…,128)のディジタル音声信号のサンプルをxi[n,m]と表すことにする。入力された各サンプルxi[n,m]は、絶対値計算手段11で絶対値|xi[n,m]|が計算され、この絶対値|xi[n,m]|に対して乗算手段12により1/128が乗算され、この乗算結果が後段の加算手段13に入力される。一方、初期化手段14は、下記の式(1)に従い、通常は加算手段13からの入力信号u1をそのまま出力信号y1として出力するが、128サンプル毎に0を出力する。この出力信号y1は1サンプル遅延手段15に格納され、次のサンプルで加算手段13に入力される。なお、1サンプル遅延(Z−1 )の初期値は0である。
Figure 0004551817
以上の絶対値計算手段11、乗算手段12、加算手段13、初期化手段14、及び1サンプル遅延種手段15により、短時間フレームP1[n,m]における下記の式(2)に示す短時間パワーの確定値P1(n,m)が、128サンプル毎に初期化手段14の出力信号y1として出力される。即ち、初期化手段14は、図3に示すように、短時間フレームP1[n,m]の最後のサンプルで短時間パワーの確定値を出力信号y1として出力する。
Figure 0004551817
比較手段16は、下記の式(3)に従い、通常は1サンプル遅延手段17からの入力信号u2をそのまま出力信号y2として出力するが、128サンプル毎、即ち初期化手段14から出力された短時間パワーの確定値が入力信号u3として入力される毎に、入力信号u2とu3を比較し、小さい方の値を出力信号y2として出力する。但し、長時間フレームP2[m]の最初のサンプル(P1[1,m])は、1サンプル遅延(Z−1 )の初期値に等しい値を出力する。なお、1サンプル遅延(Z−1 )の初期値は、1サンプル遅延手段17のとり得る上限値である。比較手段16の出力信号y2は、1サンプル遅延手段17に格納され、次のサンプルで比較手段16及び比較手段18に入力される。即ち、出力信号y2は、図3に示すように、長時間フレームP2[m]の最初のサンプル(P1[1,m])で上限値に初期化され、当該長時間フレームP2[m]において最小の短時間パワーが検出されるとその値で更新される。
Figure 0004551817
比較手段18は、下記の式(4)に従い、通常は1サンプル遅延手段19からの入力信号u5をそのまま出力信号y3として出力するが、8192サンプル(=128×64)毎、即ち1サンプル遅延手段17から出力された長時間フレームP2[m](但し、m≧2)の最初のサンプル(P1[1,m])が入力されると、この入力信号u4を出力信号y3として出力する。なお、1サンプル遅延(Z−1 )の初期値は0であるため、長時間フレームP2[1]の区間は0を出力する。出力信号y3は1サンプル遅延手段19に格納され、次のサンプルで比較手段18に入力される。
Figure 0004551817
以上の比較手段16,18、及び1サンプル遅延手段17,19により、下記の式(5)に示すように、或る長時間フレームP2[m]の区間におけるバックグラウンドノイズの推定レベルP2(m)が、比較手段18から出力信号y3として出力端子20へ出力される。この出力信号y3は、図3に示すように、直前の長時間フレームP2[m−1]における出力信号y2を現在の長時間フレームP2[m]の区間保持する。
Figure 0004551817
図4は、図1のノイズレベル推定処理を示すフローチャートである。
以下、図4を参照しつつ、図1のノイズレベル推定処理を説明する。
ノイズレベル推定処理が開始されると、i番目の値が1、n番目の値が1、m番目の値が1にそれぞれ初期設定され、出力信号y1が0、出力信号y2がこのy2のとり得る上限値y2max、出力信号y3が0になる(ステップS1)。入力音声信号x1の短時間フレームP1[n,m]におけるi番目のサンプルx[n,m]に対して、絶対値計算手段11により絶対値|x[n,m]|が計算され、この計算結果に対して乗算手段12により1/128が乗算され、この乗算結果に対して加算手段13により出力信号y1が加算され、初期化手段14から出力信号y1(=y1+|x[n,m]|/128)が出力される(ステップS2)。初期化手段14によりi=128か否かが判定され、i<128のときには、1サンプル遅延手段15を介して加算手段13によりiに1が加算され(ステップS4−1)、i=128になるまで、その加算処理が繰り返される(ステップS2,S3,S4−1)。
i=128になると、短時間フレームP1[n,m]における短時間パワー(y1)が確定し、初期化手段14から出力信号y1=0が出力される。短時間パワー(y1)が確定すると、短時間フレーム番号nが更新(n=n+1)される(ステップS4−2)。短時間フレーム更新時に、比較手段16により出力信号y1とy2が比較され(ステップS5)、出力信号y1が小さければ、出力信号y2がy1で更新される(ステップS6)。比較手段16によりn>64か否かが判定され(ステップS7)、n≦64のときには、出力信号y2の前記更新処理が繰り返される(S10,S2〜S7)。
n>64になると、比較手段18により、短時間フレーム64個で長時間フレーム番号mが更新される(ステップS8)。この長時間フレーム更新時に、比較手段18によりノイズレベル推定値(y3)が更新され、比較手段16により出力信号y2が初期化される(ステップS9)。更に、初期化手段14により短時間パワー(y1)が初期化(y=0)された後(ステップS10)、ステップS2の処理へ戻る。これにより、出力端子20から出力される出力信号y3は、図3に示すように、直前の長時間フレームP2[m−1]における比較手段16の出力信号y2を現在の長時間フレームP2[m]の区間保持することになる。
(実施例1の効果)
本実施例1では、次の(a)〜(c)のような効果がある。
(a) 従来のような音声検出器を必要としないため、音声検出器の検出結果に依存しない高精度なバックグラウンドノイズレベルの推定ができる。
(b) 従来、音声検出器の精度を高めるために種々提案されてきた方法が不要となり、小さい回路規模、若しくは少ない計算量でバックグラウンドノイズレベルの推定ができる。
又、本実施例1は、長時間フレームP2を超えるような連続した音声が入力され続けたとしても、通常、語句の間に少なくとも短時間フレーム程度の無音声区間が存在するという特徴を有効に利用したものである。それ故、本実施例1のように、或る長時間フレームP2における最小の短時間パワーをバックグラウンドノイズレベルとして推定することができるのであるが、短時間パワーを短時間フレームP1に閉じて(即ち、0にリセットして)、その都度算出するので、最小の短時間パワーを有する短時間フレームP1の前後の短時間フレームP1に音声信号x1が含まれていたとしても、推定結果に影響を及ぼすことはない。
(c) 前述のように推定結果に影響を及ぼすことがないので、語句の間に存在するわずかな区間のバックグラウンドノイズレベルを検出できる。
(実施例2の構成)
例えば、句切れなしで発声し続けた場合等、長時間フレーム以上に亘ってバックグラウンドノイズのレベルが存在し得なかった場合(即ち、有音状態が続いてその間のバックグラウンドノイズを検出できなかった場合)、バックグラウンドノイズのレベルを誤って実際よりも大きく推定してしまう虞がある。実施例1では、このような場合、もし発声が途切れた直後の短時間フレームP1において正しいバックグラウンドノイズレベルが検出されたとしても、次の長時間フレームP2の開始まで検出結果が反映されないという不都合がある。又、何らかの理由により、バックグラウンドノイズのレベルが減少した場合も同様の不都合がある。
このような不都合を解消して実施例1よりもノイズレベル推定の追従性を向上させるために、本実施例2では、図1のノイズレベル推定装置中の比較手段18において、短時間フレーム更新時に比較手段16の出力信号y2と該比較手段18の出力信号y3を比較し、y2が小さければ、ノイズレベル推定値(y3)をy2で更新する機能を追加している。図1のその他の手段11〜16の機能は、実施例1と同様である。
(実施例2のノイズレベル推定方法)
図5は、実施例1の図3に対応するもので、本発明の実施例2におけるノイズレベル推定装置内の各手段の出力信号を示す波形図であり、横軸が時間、縦軸が信号レベルを表している。
本実施例2では、式(4)で表される図1の比較手段18の機能を式(6)のように変更している。
Figure 0004551817
この変更により、同一長時間フレーム(例えば、P2[m])においても短時間フレーム形成毎に出力信号y3が更新され得るので、或る短時間フレームP1[n,m]の区間におけるバックグラウンドノイズの推定レベルをP2(n,m)と表すことにすると、式(5)は式(7)のように変更される。但し、短時間パワーP1(n,m)まで算出されているものとする。
Figure 0004551817
この式(7)において、長時間フレーム形成時(図5の時刻t1及び時刻t2の箇所)におけるノイズ推定レベルは直前の出力信号y2のレベルとなり、これは直前の長時間フレームP2[m−1]における最小の短時間パワーであり、式(7)のAで表される。又、現在の長時間フレームP2[m]における最小の短時間パワーは、式(7)のBで表される。本実施例2では、実施例1で長時間フレームP2[m]区間のノイズ推定レベルとしていたAよりBが小さければ、直ちにノイズ推定レベルをBで更新するので、現在のノイズ推定レベルP2(n,m)は、式(7)のようにmin(A,B)で表すことができる。
そのため、本実施例2のノイズレベル推定処理では、図5に示すように、初期化手段14が、短時間フレームP1[n,m]の最後のサンプルで短時間パワーの確定値を出力信号y1として出力する。比較手段16の出力信号y2は、長時間フレームP2[m]の最初のサンプル(P1[1,m])で上限値に初期化され、当該長時間フレームP2[m]において最小の短時間パワーが検出されると(例えば、P1[3,m])、比較手段16により、その値で更新される。比較手段18の出力信号y3は、この比較手段18及び1サンプル遅延手段19により、直前の長時間フレームP2[m−1]における出力信号y2を現在の長時間フレームP2[m]の区間保持するが、出力信号y3を下回る短時間パワーが検出されると(例えば、P1[3,m])、比較手段18によりその値で更新される。
図6は、実施例1の図4に対応するもので、図5のノイズレベル推定処理を示すフローチャートである。
図6のノイズレベル推定処理では、図4のステップS6とS7との間に、新たにステップS20が追加されている。このステップS20において、本実施例2の比較手段18では、短時間フレーム更新時に、比較手段16の出力信号y2と比較手段18の出力信号y3を比較し(ステップS21)、出力信号y2が小さければ、ノイズレベル推定値(y3)を出力信号y2で更新する(ステップS22)。その後、実施例1のステップS7へ進む。
(実施例2の効果)
図7は、本実施例2におけるノイズレベル推定の一例を示す入力音声信号x1のパワーと推定されたノイズレベルNLの波形図であり、横軸が時間、及び縦軸がレベルを表している。
本実施例2によれば、或る長時間フレームP2[m]における最小の短時間パワーをバックグラウンドノイズレベルと推定するという考えに基づき、現在のバックグラウンドノイズの推定レベルを下回る短時間パワーが検出された時点で(例えば、P1[3,m])、この検出結果をバックグラウンドノイズの推定レベルとして反映することにより、実施例1よりもノイズレベル推定の追従性が向上する効果が期待できる。
図7に示すノイズレベル推定の一例では、図の中央付近で実際にバックグラウンドノイズを増加させている。本実施例2を適用すれば、このように音声信号x1の入力中にバックグラウンドノイズが変動しても正しく追従し、高精度にバックグラウンドノイズのレベルNLが推定できることが分かる。
なお、本発明は、上記実施例1、2に限定されず、例えば、図4、図6のノイズレベル推定処理のステップS1〜S10,S20の内容を変更したり、これに応じて図1のノイズレベル推定装置の構成を変更する等、種々の変更が可能である。
本発明の実施例1を示すノイズレベル推定装置の機能ブロック図である。 本発明の本実施例1で用いる短時間フレームと長時間フレームの概念を示す図である。 図1のノイズレベル推定装置内の各手段の出力信号を示す波形図である。 図1のノイズレベル推定処理を示すフローチャートである。 本発明の実施例2におけるノイズレベル推定装置内の各手段の出力信号を示す波形図である。 図5のノイズレベル推定処理を示すフローチャートである。 本発明の実施例2におけるノイズレベル推定の一例を示す入力音声信号のパワーと推定されたノイズレベルの波形図である。 従来のノイズレベル推定装置を示す構成図である。
符号の説明
11 絶対値計算手段
12 乗算手段
13 加算手段
14 初期化手段
15,17,19 1サンプル遅延手段
16,18 比較手段

Claims (2)

  1. 短時間フレームとこの短時間フレームの複数の集合からなる長時間フレームとを用い、
    前記短時間フレーム毎に入力音声信号の短時間パワーをそれぞれ算出し、
    前記長時間フレームにおいて前記算出された複数の短時間パワーのうちの最小の短時間パワーを算出し、
    前記算出された最小の短時間パワーを、前記入力音声信号に対するノイズレベルとして推定するノイズレベル推定方法であって、
    前記推定されたノイズレベルより小さい前記入力音声信号のレベルの短時間パワーが検出されると、この検出された短時間パワーで前記ノイズの推定レベルを更新することを特徴とするノイズレベル推定方法。
  2. 短時間フレームとこの短時間フレームの複数の集合からなる長時間フレームのうちの該短時間フレームを用いて該短時間フレーム毎に入力音声信号の短時間パワーをそれぞれ算出する第1の算出手段と、
    前記長時間フレームにおいて前記算出された複数の短時間パワーのうちの最小の短時間パワーを算出する第2の算出手段と、
    前記算出された最小の短時間パワーを、前記入力音声信号に対するノイズレベルとして推定して出力する出力手段と、
    を有するノイズレベル推定装置であって、
    前記出力手段では、前記推定されたノイズレベルより小さい前記入力音声信号のレベルの短時間パワーが検出されると、この検出された短時間パワーで前記ノイズの推定レベルを更新することを特徴とするノイズレベル推定装置。
JP2005147535A 2005-05-20 2005-05-20 ノイズレベル推定方法及びその装置 Active JP4551817B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2005147535A JP4551817B2 (ja) 2005-05-20 2005-05-20 ノイズレベル推定方法及びその装置
KR1020060008005A KR20060119729A (ko) 2005-05-20 2006-01-25 잡음 레벨 추정 방법 및 그 장치
CNA2006100024603A CN1866357A (zh) 2005-05-20 2006-01-26 噪声电平推定方法及其装置
US11/408,930 US20060265219A1 (en) 2005-05-20 2006-04-24 Noise level estimation method and device thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005147535A JP4551817B2 (ja) 2005-05-20 2005-05-20 ノイズレベル推定方法及びその装置

Publications (2)

Publication Number Publication Date
JP2006323230A JP2006323230A (ja) 2006-11-30
JP4551817B2 true JP4551817B2 (ja) 2010-09-29

Family

ID=37425363

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005147535A Active JP4551817B2 (ja) 2005-05-20 2005-05-20 ノイズレベル推定方法及びその装置

Country Status (4)

Country Link
US (1) US20060265219A1 (ja)
JP (1) JP4551817B2 (ja)
KR (1) KR20060119729A (ja)
CN (1) CN1866357A (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101597752B1 (ko) 2008-10-10 2016-02-24 삼성전자주식회사 잡음 추정 장치 및 방법과, 이를 이용한 잡음 감소 장치
JP2010171880A (ja) * 2009-01-26 2010-08-05 Sanyo Electric Co Ltd 音声信号処理装置
JP5333307B2 (ja) * 2010-03-19 2013-11-06 沖電気工業株式会社 雑音推定方法及び雑音推定器
MY178710A (en) * 2012-12-21 2020-10-20 Fraunhofer Ges Forschung Comfort noise addition for modeling background noise at low bit-rates
CN110265058B (zh) * 2013-12-19 2023-01-17 瑞典爱立信有限公司 估计音频信号中的背景噪声
US9516165B1 (en) * 2014-03-26 2016-12-06 West Corporation IVR engagements and upfront background noise
RU2665916C2 (ru) * 2014-07-29 2018-09-04 Телефонактиеболагет Лм Эрикссон (Пабл) Оценивание фонового шума в аудиосигналах

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003529960A (ja) * 1999-08-10 2003-10-07 テロジー ネットワークス インコーポレイテッド 背景エネルギ予測

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4630304A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic background noise estimator for a noise suppression system
JPS62234435A (ja) * 1986-04-04 1987-10-14 Kokusai Denshin Denwa Co Ltd <Kdd> 符号化音声の復号化方式
US6718302B1 (en) * 1997-10-20 2004-04-06 Sony Corporation Method for utilizing validity constraints in a speech endpoint detector
US6289309B1 (en) * 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
DK1141948T3 (da) * 1999-01-07 2007-08-13 Tellabs Operations Inc Fremgangsmåde og apparat til adaptiv undertrykkelse af stöj
FI116643B (fi) * 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
DE10052626A1 (de) * 2000-10-24 2002-05-02 Alcatel Sa Adaptiver Geräuschpegelschätzer

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003529960A (ja) * 1999-08-10 2003-10-07 テロジー ネットワークス インコーポレイテッド 背景エネルギ予測

Also Published As

Publication number Publication date
CN1866357A (zh) 2006-11-22
US20060265219A1 (en) 2006-11-23
JP2006323230A (ja) 2006-11-30
KR20060119729A (ko) 2006-11-24

Similar Documents

Publication Publication Date Title
JP4551817B2 (ja) ノイズレベル推定方法及びその装置
EP1982324B1 (en) A voice detector and a method for suppressing sub-bands in a voice detector
JP4995913B2 (ja) 信号変化検出のためのシステム、方法、および装置
US8355511B2 (en) System and method for envelope-based acoustic echo cancellation
EP2327156B1 (en) Method for determining updated filter coefficients of an adaptive filter adapted by an lms algorithm with pre-whitening
KR102012325B1 (ko) 오디오 신호의 배경 잡음 추정
EP3815082B1 (en) Adaptive comfort noise parameter determination
US9467790B2 (en) Reverberation estimator
CN1286862A (zh) 用于在通信系统中提供舒适噪声的方法和设备
US9373342B2 (en) System and method for speech enhancement on compressed speech
JP3273599B2 (ja) 音声符号化レート選択器と音声符号化装置
US6671667B1 (en) Speech presence measurement detection techniques
US20120158401A1 (en) Music detection using spectral peak analysis
EP1008140A1 (en) Waveform-based periodicity detector
US8144862B2 (en) Method and apparatus for the detection and suppression of echo in packet based communication networks using frame energy estimation
US20120265526A1 (en) Apparatus and method for voice activity detection
US20120155655A1 (en) Music detection based on pause analysis
US8767974B1 (en) System and method for generating comfort noise
Sakhnov et al. Dynamical energy-based speech/silence detector for speech enhancement applications
JP4673828B2 (ja) 音声信号区間推定装置、その方法、そのプログラム及び記録媒体
CN106297795A (zh) 语音识别方法及装置
KR20100061520A (ko) 통신 프로세싱 방법
JP2002198918A (ja) 適応雑音レベル推定器
EP1944761A1 (en) Disturbance reduction in digital signal processing
JPH09171397A (ja) 背景雑音消去装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080303

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20081203

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090406

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100330

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100520

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100615

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100712

R150 Certificate of patent or registration of utility model

Ref document number: 4551817

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130716

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350