JP2010055024A - 信号補正装置 - Google Patents

信号補正装置 Download PDF

Info

Publication number
JP2010055024A
JP2010055024A JP2008222700A JP2008222700A JP2010055024A JP 2010055024 A JP2010055024 A JP 2010055024A JP 2008222700 A JP2008222700 A JP 2008222700A JP 2008222700 A JP2008222700 A JP 2008222700A JP 2010055024 A JP2010055024 A JP 2010055024A
Authority
JP
Japan
Prior art keywords
signal
group
unit
section
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008222700A
Other languages
English (en)
Other versions
JP4660578B2 (ja
Inventor
Takashi Sudo
隆 須藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2008222700A priority Critical patent/JP4660578B2/ja
Priority to US12/548,714 priority patent/US8108011B2/en
Publication of JP2010055024A publication Critical patent/JP2010055024A/ja
Application granted granted Critical
Publication of JP4660578B2 publication Critical patent/JP4660578B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephone Function (AREA)

Abstract

【課題】 少ない演算量で、不要な非目的信号が支配的であるような状況での耳障りな音の発生を低減し、かつ非目的信号が支配的ではない状況での目的信号である音声信号の歪みを小さくすることができる信号補正装置を提供する。
【解決手段】 直交変換を行った信号に対して補正を行う際、周波数帯域をグループ化して補正処理を行う。このとき、雑音やエコーなどの非目的信号が非常に大きい場合には、1グループに含まれるビン数を多くし、雑音やエコーなどの非目的信号と目的信号である音声信号が混在している場合には、1グループに含まれるビン数を少なくする。
【選択図】 図2

Description

本発明は信号補正装置に関する。
携帯電話機やPCなど音声の入出力を行う機器では、入力された音声に含まれる雑音を抑圧する雑音抑圧処理や、スピーカからマイクロホンへの回り込みによって生じるエコーを抑圧するエコー抑圧処理が行われる。雑音やエコーを抑圧する処理には、様々な手法が提案されている(例えば、特許文献1参照。)。
特許第3522986号公報
特許文献1に記載される発明では、入力信号に対して直交変換を行い、この直交変換により得られた変換係数を音声のピッチ周期に対応する周波数を考慮したある固定の周波数より低い帯域に含まれる変換係数群と、この固定の周波数より高い帯域に含まれる変換周波数群との2つのグループに分け、高い帯域に含まれる変換係数群に対しては個々の変換係数ごとに異なる抑圧ゲイン(比率)で抑圧処理を行い、低い帯域に含まれる変換係数群に対しては一定の抑圧ゲイン(比率)で抑圧処理を行う。これによって、音声のピッチ周期よりも短いフレーム長となるような低い次元数の直交変換手段を使用しても雑音抑圧後の音声に歪みが生じないようにし、これにより直交変換に係わる演算量が少なく、しかも音声品質の劣化が生じない。
しかしながら、複数の周波数帯域に対して一定の抑圧ゲイン(比率)で抑圧処理を行う場合、同一のグループにおける一定の抑圧ゲイン(比率)とする変換係数群の個数(周波数帯域の数)が少なすぎると、入力信号のうち非目的信号である雑音がはいった区間で耳障りなミュージカルノイズが生じてしまう。また、同一のグループにおける一定の抑圧ゲイン(比率)とする変換係数群の個数(周波数帯域の数)が多すぎると、雑音が少ない音声区間での音声の歪みが大きくなりやすい。この問題は、雑音抑圧の場合だけでなく、エコーを抑圧する場合にも生じ、入力信号に対して、不要な非目的信号であるエコーが入った場合に同一のグループにおける一定の比率とする周波数帯域の数が少ないと、耳障りな音が生じてしまい、エコーが少ない区間の場合に同一のグループにおける一定の比率とする周波数帯域の数が多いと、音声の歪みが大きくなる。
特許文献1に記載の発明では、グループの分割方法を入力信号に応じて動的に変化させることは無いため、直交変換後に周波数特性が類似したものをグループ化して雑音抑圧処理を行ったとしても、同一のグループにおける一定の比率とする周波数帯域の数によっては、上述のように耳障りな音が生じたり、音声の歪みが大きくなったりといった問題が生じる。
そこで本発明は、少ない演算量で、不要な非目的信号が支配的であるような状況での耳障りな音の発生を低減し、かつ非目的信号が支配的ではない状況での目的信号である音声信号の歪みを小さくすることができる信号補正装置を提供することを目的とする。
上記目的を達成するために、本発明による信号補正装置は、目的信号である音声とそれ以外の不要な非目的信号が混在した入力信号に対して直交変換を行う直交変換手段と、前記入力信号のフレームごとに非目的信号が支配的に存在している区間であるか否かを判別する区間判別手段と、前記区間判別手段によって非目的信号が支配的に存在している区間であると判別されたフレームは、第1の周波数帯域幅ごとに非目的信号を抑圧するための抑圧ゲインを算出し、前記区間判別手段によって非目的信号が支配的に存在している区間でないと判別されたフレームは、第2の周波数帯域幅ごとに非目的信号を抑圧するための抑圧ゲインを算出する抑圧ゲイン算出手段と、前記抑圧ゲイン算出手段によって算出された抑圧ゲインを用いて前記直交変換手段によって得られた変換係数に対して非目的信号を抑圧する信号補正処理を行う信号補正手段とを有することを特徴としている。
本発明によれば、少ない演算量で、不要な非目的信号が支配的であるような状況での耳障りな音の発生を低減し、かつ非目的信号が支配的ではない状況での目的信号である音声信号の歪みを小さくすることができる信号補正装置を提供することができる。
以下、本発明の実施形態について図面を参照して説明する。
図1は第1の実施形態にかかる信号補正装置が適用された携帯電話機の無線通信装置の送話系の構成を示している。この図に示す無線通信装置は、マイクロホン1、A/D変換器2、信号補正部3、エンコーダ4、および無線通信部5を備えている。
マイクロホン1は、周囲の音を集音してアナログの信号x(t)として出力する。このとき、目的信号である音声信号s(t)以外に、周囲環境雑音であるノイズ成分も混ざって、マイクロホン1から信号x(t)として集音される。これ以降、このノイズ成分のような目的信号以外の不要な信号を非目的信号と記述する。A/D変換器2は、マイクロホン1から出力されるアナログの信号x(t)に対して、所定の処理単位ごとにA/D変換を行って、サンプリング周波数8kHzとし、1フレーム(Nサンプル)ごとのディジタルの信号x[n](n=0,1,・・・,N−1)を出力する。以下ここでは1フレームをN=160サンプルとする。信号補正部3は、入力される信号に対して目的信号のみを強調したり非目的信号を抑圧したりするように補正して、補正後の信号y[n]を出力するものであって、例えばこの場合、入力信号に対する雑音抑圧処理が考えられる。信号補正部3の詳細な処理については、後述する。エンコーダ4は、信号補正部3から出力される補正後の信号y[n]を符号化して、無線通信部5に出力する。無線通信部5はアンテナなどを含み、図示しない無線基地局と無線通信して、移動通信網を通じて通信相手局との間に通信リンクを確立して通信し、エンコーダ4から出力された信号を通信相手局へ送信する。
なお、ここでは、無線通信部5によってエンコーダ4から出力された信号を送信するとして説明するが、メモリやハードディスクなどによって構成される記憶手段を設け、エンコーダ4から出力される信号を記憶手段に記憶させるような構成でも良いし、無線通信によって受信した信号や記憶手段に予め記憶された信号をデコードした後に雑音抑圧処理を行って得られる信号をD/A変換してスピーカから出力する構成でも良い。
次に、信号補正部3について説明する。本実施形態の信号補正部3では、雑音抑圧処理が行われるものとして説明する。信号補正部3は、ディジタル化された音声信号x[n]が入力され、雑音抑圧後のディジタル信号y[n]を出力する。図2は、雑音抑圧を行う信号補正部3の構成を示すブロック図である。
直交変換部300は、1フレーム前の入力信号と当該フレームfの入力信号x[n]から、適宜零詰めなどを行って、直交変換に必要なサンプル分の信号を取り出し、ハミング窓などによる窓掛けを行い、FFT(Fast Fourier Transform)などの手法を用いて、直交変換を行って入力信号の周波数スペクトルX[f,ω]を出力する。ただし、窓掛けに用いる窓関数は、ハミング窓に限定せず、他の対称窓(ハニング窓、ブラックマン窓、正弦波窓など)あるいは音声符号化処理で用いられるような非対称窓などに適宜変更してよい。なお、次のフレームでの入力信号x[n]のシフト幅と入力信号x[n]のデータ長の比であるオーバーラップは50%に限らない。ここでは例として、次フレームとのオー
バーラップのサンプル数をM=48として、1フレーム前の入力信号Mサンプルと当該フレームの入力信号x[n]のN=160サンプル分とMサンプル分の零詰めから、256サンプルを用意する。この256サンプルに対して数1で表される正弦波窓による窓関数w[n]をx[n]に乗じることで窓掛けを行い、FFTによる直交変換を行う。
Figure 2010055024

さらに、直交変換部300では256点FFTによる直交変換を行って、入力信号は実信号であるため冗長な128ビンを除くと、周波数スペクトルX[f,ω](ω=0、1、…、127)が得られ、この周波数スペクトルX[f,ω]および振幅スペクトル|X[f,ω]|(ω=0、1、…、127)および位相スペクトルθX[f,ω](ω=0、1、
…、127)を出力する。なお、実信号のとき冗長なのは本来127ビンであり、最高域の周波数ビンω=128を考慮するべきであるが、ここでは入力信号として帯域制限された音声を含む信号を前提しており、帯域制限によって最高域の周波数ビンω=128を考慮しなくても音質に影響を及ぼさないため、これ以降説明の簡略化のために、最高域の周波数ビンω=128を考慮しない記述にする。勿論、最高域の周波数ビンω=128を考慮しても構わない。その際、最高域の周波数ビンω=128は、ω=127と同等に扱うか、単独で扱うようにする。
なお、直交変換部300は、FFT以外に、周波数解析のために周波数領域へ変換する直交変換として、離散フーリエ変換(DFT: Discrete Fourier Transform)や離散コサイン変換(DCT: Discrete Cosine Transform)、ウォルシュ・アダマール変換(WHT: Walsh Hadamard Transform)、ハーレ変換(HT: Harr Transform)、スラント変換(
SLT: Slant Transform)、カルーネン・レーベ変換(KLT: Karhunen Loeve Transform)、直交離散ウェーブレット変換などを使用してもよい。
パワースペクトル算出部301は、直交変換部300から出力された周波数スペクトルX[f,ω]から、パワースペクトル|X[f,ω]|2(ω=0、1、…、127)を算出
し出力する。
音声・雑音区間判別部302は、入力された1フレームごとの入力信号x[n]が非目的信号であるノイズ成分が支配的に含まれている区間(雑音区間)であるか、そうではない区間、つまり目的信号である音声信号と非目的信号であるノイズ成分が混在している区間(音声区間)であるかの判別を行い、判定結果を示す情報を出力する。以降、当該成分のみしか存在しないか、あるいは当該成分が他の成分よりも非常に多く含まれる場合を「支配的に含まれる」「支配区間」と表現する。またそうでない場合を「非支配」「非支配区間」と表現する。
音声・雑音区間判別部302の処理は、入力信号x[n]およびパワースペクトル|X[f,ω]|2と後述する雑音量推定部318から出力される1フレーム前の各帯域の雑音量|N[f−1,ω]|2を用いて1フレーム単位で音声・雑音区間の判別を行う。具体的には、まず入力信号x[n]の0次自己相関係数によって正規化された1次自己相関係数を求め、時間方向に忘却させながら正規化された1次自己相関係数の平均値を求め、それが0.5
よりも大きいかどうかを判定する。次に、帯域ごとにパワースペクトル|X[f,ω]|2
1フレーム前の各帯域の雑音量|N[f−1,ω]|2との差がある程度(例えば5dB)以
上大きいかどうかを判定し、隣接帯域で連続して差が大きくなっている帯域の数Bを数え
、この帯域数Bの当該同一フレーム中における最大数BMAXを保持する。そして、正規
化された1次自己相関係数の平均値が0.5以下で、かつBMAXが1以上であるときに、非目的信号であるノイズ成分が支配的に含まれている区間(雑音区間)であると判定する。一方、正規化された1次自己相関係数の平均値が0.5より大きく、またはBMAXが0であるときに、目的信号である音声信号と非目的信号であるノイズ成分が混在している区間(音声区間)であると判定する。
また、音声・雑音区間判別部302の処理は、例えば、米国で規格化された可変レート音声符号化である”Enhanced Variable Rate Codec, Speech Service Option 3 for Wideband Spread Spectrum Digital System”(TIA IS127)にオプションで規定されたノイズキャンセラに記載の手法や、特開2001−344000に記載の手法や、古田、高橋、中島、”スペクトル減算と振幅抑圧の相互制御に基づく雑音抑圧法の検討”、電子情報通信学会論文誌(D-II)、Vol.J87-D-II、No.2、pp.464-474、2004年2月.に記載の手法を用
いて入力信号x[n]およびパワースペクトル|X[f,ω]|2を用いて1フレーム単位で
音声・雑音区間の判別を行うこともできる。なお、これに限定するものではない。上記の例では、音声・雑音区間の判別について2分類以上にする記載もあるが、これらを本実施例で用いる場合には適宜閾値を設定して2分類とする、すなわち全てのフレームを音声区間と雑音区間のどちらかに必ず分けるようにする。
抑圧ゲイン解像度判別部303は、音声・雑音区間判別部302の出力を用いて、音声区間であるか雑音区間であるかに応じて、切替器304、311、314、319を切り替える。すなわち、抑圧ゲイン解像度判別部303によって、切替器304、311、314、319は連動して動作するように制御される。音声・雑音区間判別部302の出力が雑音区間である場合は、切替器304の切替えによってグループ統合化部308が動作し、切替器311の切替えによってグループ分離化部310が動作し、切替器314の切替えによってグループ統合化部316が動作し、切替器319の切替えによってグループ統合化部320が動作する。一方、音声・雑音区間判別部302の出力が音声区間である場合は、切替器304の切替えによってグループ統合化部305が動作し、切替器311の切替えによってグループ分離化部307が動作し、切替器314の切替えによってグループ統合化部315が動作し、切替器319の切替えによってグループ統合化部321が動作する。
グループ統合化部305と308は、切替器304の切替えによってどちらか一方が動作するものであって、どちらもパワースペクトル算出部301から出力される入力信号のパワースペクトル|X[f,ω]|2について所定数の周波数ビンごとに1つのグループとな
るよう纏める処理を行う。ただし、グループ統合化部305とグループ統合化部308とでは、1つのグループとして纏めるビン数に違いがある。グループ統合化部305では、1つのグループにグループ化するビン数が少なく、グループ数が多い(以降、この状態を「(周波数方向の)解像度が高い」と称する)。それに対して、グループ統合化部308では、1つのグループにグループ化するビン数が多く、グループ数が少ない(以降、この状態を「(周波数方向の)解像度が低い」と称する)。以降の例では1つのグループにグループ化するビン数を一定としているが、バークスケールを利用するなどして、低域では1つのグループにグループ化するビン数を少なくして、高域では1つのグループにグループ化するビン数を多くして、周波数方向によって1つのグループにグループ化するビン数を変化させてもよい。
例えば、入力信号のパワースペクトル|X[f,ω]|2(ω=0、1、…、127)をグ
ループ統合化部305では64グループに纏め、グループ統合化部308では16グループに纏める場合、グループ統合化部305では2ビンずつを1グループとして64グループから成るパワースペクトル|X[f,m]|2(m=0、1、…、63)を生成し、グルー
プ統合化部308では8ビンずつを1グループとして16グループから成るパワースペクトル|X[f,k]|2(k=0、1、…、15)を生成する。グループ統合化部305、3
08で複数のビンを1グループに纏める場合には、1グループに纏めるビンのパワースペクトル|X[f,ω]|2を平均して得られた結果をグループごとのパワースペクトルとし代
表値として出力する。
雑音量推定部318は、音声・雑音区間判別部302から出力される音声区間か雑音区間かを示す情報と、パワースペクトル算出部301から出力される音声信号のパワースペクトル|X[f,ω]|2を用いて、各帯域の雑音量|N[f,ω]|2を推定する。具体的には、雑音区間と判別されたフレームのパワースペクトル|X[f,ω]|2をフレーム単位で忘却
させて平均パワースペクトルを算出し、これを各帯域の雑音量|N[f,ω]|2として出力
する。具体的には、1フレーム前の各帯域の雑音量を|N[f−1,ω]|2として、忘却係数αN[ω]を0.75〜0.95程度として数2の式で雑音量|N[f,ω]|2は算出される。
Figure 2010055024

グループ統合化部320、321は、切替器319の切替えによって、いずれか一方が動作する。グループ統合化部320、321は、どちらも雑音量推定部318から出力される雑音量|N[f,ω]|2について所定数の周波数ビンごとに1グループに纏める処理を
おこなうが、グループ統合化部320とグループ統合化部321とでは、1グループに纏める周波数ビン数が異なる。グループ統合化部320では、入力信号のパワースペクトルを低解像度で統合化するグループ統合化部308と同じビン数ごとに1グループに纏める。それに対して、グループ統合化部321では、入力信号のパワースペクトルを高解像度で統合化するグループ統合化部305と同じビン数ごとに1グループに纏める。例えば、グループ統合化部320では、各帯域の雑音量|N[f,ω]|2(ω=0、1、…127)
を8ビンごとに纏め、16グループの帯域の雑音量|N[f,k]|2(k=0、1、…15
)を算出する。それに対して、グループ統合化部321では、各帯域の雑音量|N[f,ω]|2(ω=0、1、…127)の2ビンを1グループとして、64グループの帯域の雑音
量|N[f,m]|2(m=0、1、…63)を出力する。
抑圧ゲイン算出部306と、抑圧ゲイン算出部309では、どちらも雑音抑圧処理のための抑圧ゲイン算出を行う。なお、抑圧ゲイン解像度判別部303によって制御された経路の抑圧ゲイン算出処理しか動作しない。つまり、音声・雑音区間判別部302の出力が音声区間である場合は、抑圧ゲイン算出部306による抑圧ゲイン算出処理が動作する。
一方、音声・雑音区間判別部302の出力が雑音区間である場合は、抑圧ゲイン算出部309による抑圧ゲイン算出処理が動作する。ただし、抑圧ゲイン算出部306では高解像度な抑圧ゲイン算出処理が行われ、抑圧ゲイン算出部では低解像度な抑圧ゲイン算出処理が行われる。
抑圧ゲイン算出部306は、グループ統合化部305から出力される高解像度の入力信号のパワースペクトル|X[f,m]|2と、グループ統合化部321から出力される高解像
度の雑音量|N[f,m]|2とを用いて、設定されたグループ数に相当する各帯域の抑圧ゲ
インG[f,m]を算出する。抑圧ゲインG[f,m]の算出は、例えば以下のアルゴリズムまたはそれらの組み合わせによって行う。すなわち、一般のノイズキャンセラであるスペクトル・サブトラクション(Spectral Subtraction)法(S. F. Boll, “Suppression of acoustic noise in speech using spectral subtraction”, IEEE Trans. Acoustics, Speech, and Signal Processing, vol.ASSP-29, pp.113-120 (1979).)、ウィナー・
フィルター(Wiener Filter)法(J. S. Lim, A. V. Oppenheim, “Enhancement and bandwidth compression of noisy speech”, Proc. IEEE Vol.67, No.12, pp.1586-1604, Dec.1979.)及び最尤推定(Maximum Likelihood)法(R. J. McAulay, M. L. Malpass, “Speech enhancement using a soft-decision noise suppression filter”, IEEE Trans. on Acoustics, Speech, and Signal Processing, vol.ASSP-28, no.2, pp.137-145, Apr.1980.)などである。ここでは一例としてウィナー・フィルター法を用いることとし、R
[・]を半波整流として、後述するグループ統合化部315から出力される1フレーム前の雑音抑圧された信号のパワースペクトル|Y[f−1,m]|2を用いて、事前SN比S
NRPRIO[f,m]及び事後SN比SNRPOST[f,m]は、それぞれ、以下の数3、数4により求められ、抑圧ゲインG[f,m]は、以下の数5により算出される。
但し、μ[m]は0.9〜0.999程度の忘却係数である。
Figure 2010055024

Figure 2010055024

Figure 2010055024

なお、抑圧ゲイン算出部306では、過剰にノイズ成分を抑圧することによって音質が劣化することを防止し、背景雑音の断続的な抑圧を防止するため、抑圧ゲインG[f,m]が例えば−12dB以下とならないように0.252≦G[f,m]≦1.0を満たすように制限するなど所定の下限値以下とならないように制御しても良い。
一方、抑圧ゲイン算出部309は、グループ統合化部308から出力される低解像度の入力信号のパワースペクトル|X[f,k]|2と、グループ統合化部320から出力される
低解像度の雑音量|N[f,k]|2と、後述するグループ統合化部316から出力される1
フレーム前の雑音抑圧された信号のパワースペクトル|Y[f−1,k]|2を用いて、設
定されたグループ数に相当する各帯域の抑圧ゲインG[f,k]を算出する。抑圧ゲイン算出部309で行う処理は、抑圧ゲイン算出部306の処理と同様であるため、詳細な説明は省略する。
グループ分離化部307、310は、グループ統合化部305またはグループ統合化部308によってグループ化された周波数ビンをグループ化前のビン数に戻す。例えば、低解像度のグループ統合化部308で128ビンを8ビンずつまとめて16グループを生成していた場合、グループ分離化部310では、抑圧ゲイン算出部309から出力された抑圧ゲインG[f,k]の同一グループ内で各サンプルを8つ複製した上で16グループのグループ化を分離し、128ビン分の抑圧ゲインG[f,ω]を生成する。高解像度のグループ分離部307でも、低解像度のグループ分離部310と同様の処理によって、グループ化前のビン数に戻した抑圧ゲインG[f,ω]を得ることができる。このようにしてグループ分離化部307または310によって出力された抑圧ゲインG[f,ω]は、切替器311を介して雑音抑圧部312に入力される。
雑音抑圧部312は、直交変換部300から出力された入力信号の振幅スペクトル|X[f,ω]|と、切替器311を介してグループ分離化部307または310から出力された抑圧ゲインG[f,ω]とを入力として、雑音抑圧された信号の振幅スペクトル|Y[f,ω]|を算出する。雑音抑圧された信号の振幅スペクトル|Y[f,ω]|は、雑音抑圧前の振幅スペクトル|X[f,ω]|に、抑圧ゲインG[f,ω]を乗じて|Y[f,ω]|=|X[f,ω]|・G[f,ω]と表すことができる。
パワースペクトル算出部313は、雑音抑圧部312から出力された雑音抑圧された信号の振幅スペクトル|Y[f,ω]|から、雑音抑圧された信号のパワースペクトル|Y[f,ω]|2(ω=0、1、…、127)を算出し出力する。
グループ統合化部315、316は、切替器314の切替えによって、いずれか一方が動作する。グループ統合化部315、316は、どちらもパワースペクトル算出部313から出力される雑音抑圧された信号のパワースペクトル|Y[f,ω]|2について所定数の
周波数ビンごとに1グループに纏める処理を行うが、グループ統合化部315とグループ統合化部316とでは、1グループに纏める周波数ビン数が異なる。グループ統合化部316では、入力信号のパワースペクトルを低解像度で統合化するグループ統合化部308と同じビン数ごとに1グループに纏める。それに対して、グループ統合化部315では、入力信号のパワースペクトルを高解像度で統合化するグループ統合化部305と同じビン数ごとに1グループに纏める。例えば、グループ統合化部316では、各帯域の雑音抑圧された信号のパワースペクトル|Y[f,ω]|2(ω=0、1、…127)を8ビンごとに
纏め、16グループの帯域の雑音抑圧された信号のパワースペクトル|Y[f,k]|2(k
=0、1、…15)を算出する。それに対して、グループ統合化部315では、各帯域の雑音抑圧された信号のパワースペクトル|Y[f,ω]|2(ω=0、1、…127)の2ビ
ンを1グループとして、64グループの帯域の雑音抑圧された信号のパワースペクトル|
Y[f,m]|2(m=0、1、…63)を出力する。
なお、抑圧ゲイン算出部306あるいは309における抑圧ゲインの算出が、1フレーム前の雑音抑圧された信号のパワースペクトルを用いない手法であれば、パワースペクトル算出部313、切替器314、グループ統合化部315、316は省略してよい。
逆直交変換部319では例えば、直交化変換部300によって256点FFTによって周波数変換されていたならば、直交変換部300によって周波数変換された入力信号が実信号であったことを考慮に入れて直交変換部300から出力された位相スペクトルθX[f,ω](ω=0、1、…、127)を256点に復元し、雑音抑圧部316から出力され
る雑音抑圧された信号の振幅スペクトル|Y[f,ω]|を用いて、256点のIFFTで周波数逆変換を行い、適宜直交変換部300における窓掛けを考慮して、1フレーム前の雑音抑圧された時間領域の信号y[n]を用いてオーバーラップを戻す処理を行い、雑音抑圧された時間領域の信号y[n]を算出することができる。
以上のように、入力された信号のフレームごとに非目的信号であるノイズ成分が支配的に含まれている区間(雑音区間)であるか、そうではない区間(音声区間)であるかの判別を行い、非目的信号を抑圧する雑音抑圧処理を行う周波数領域の解像度を、雑音区間ならば低い解像度にして粗くグループ化した周波数帯域ごとに非目的信号を抑圧する雑音抑圧処理を行い、音声区間ならば高い解像度にして細かくグループ化した周波数帯域ごとに非目的信号を抑圧する雑音抑圧処理を行う。これによって、雑音区間では周波数領域の解像度を低くすることで、雑音の抑圧量が大きくなり支配的であるノイズ成分による雑音感が低減し、周波数領域の解像度を高くすることによって生じるミュージカルノイズを低減することができる。また、音声区間では周波数領域の解像度を高くすることで、周波数領域の解像度を低くすることによって生じる音声の歪みを小さくすることができる。
なお、本実施例では、グループに纏める処理においてグループ内のパワースペクトル|
X[f,ω]|2の平均値を代表値として用いているが、平均値に限らず適宜変更しても構わない。例えば、グループ内のパワースペクトルの最大値を代表値にしたり、グループ内のパワースペクトルの平均値に一番近い値を代表値にしたり、グループ内のパワースペクトルを昇順に並び変えて真ん中にくる値を代表値にしたりしてもよく、同様の効果が得られる。また、本実施例では、グループに纏める処理をパワースペクトル|X[f,ω]|2につ
いて処理を行っているが、パワースペクトルに限らず適宜変更しても構わない。例えば、スペクトルX[f,ω]についてグループに纏める処理を行ったり、振幅スペクトル|X[f,ω]|と位相スペクトルθX[f,ω]をペアで持ってグループに纏める処理を行ったりし
てもよく、同様の効果が得られる。また、本実施例ではFFTを用いて直交変換を行っているが、前述した周波数解析のための周波数領域へ変換する他の直交変換を用いて得られた変換係数についてグループに纏める処理を行うことでも、同様の効果が得ることができる。
なお、音声区間であるか雑音区間であるかに応じて雑音抑圧処理の解像度を変更する信号補正部3は、上述した構成に限定されず、適宜変更することができる。図3、図4では変更の一例を説明する。
図3に示す雑音抑圧処理を行う信号補正部3では、音声・雑音区間判別部302が、グループ統合化部308を用いて低解像度となるようグループ化された入力信号のパワースペクトル|X[f,k]|2を用いて音声区間であるか雑音区間であるかの判別を行う。また
、抑圧ゲイン解像度判別部303は、音声・雑音区間判別部302の出力を用いて、音声区間であるか雑音区間であるかに応じて、切替器304を切り替える代わりに、切替器304Aか切替器304Bのいずれか一方が動作するように切り替える。つまり、音声・雑音区間判別部302の出力が雑音区間である場合は、切替器304Aの切替えによって抑圧ゲイン算出部309が動作する。一方、音声・雑音区間判別部302の出力が音声区間である場合は、切替器304Aの切替えによって抑圧ゲイン算出部306が動作する。また、雑音量推定部318は、音声・雑音区間判別部302から出力される音声区間であるか雑音区間であるかを示す情報と、グループ統合化部308より出力された低解像度となるようグループ化された入力信号のパワースペクトル|X[f,k]|2とを用いて雑音量を
推定する。このため、雑音量推定部318から出力される各帯域の雑音量|N[f,k]|2
も低解像度である。そこで、音声・雑音区間判別部302によって音声区間であると判別され、抑圧ゲイン解像度判別部303が切替器319を高解像度に切替えた場合には、雑音量推定部318から出力される各帯域の雑音量|N[f,k]|2をグループ分離化部32
1−2によって高解像度として設定されたビン数に分離化する。このように図3に示す信号補正部3では、雑音量推定部318における雑音量推定の解像度を、雑音区間に対して雑音抑圧を行う解像度と同一(低解像度)にすることによって、図2に示す信号補正部3におけるグループ統合化部320の処理を省くことができ、処理の冗長性を排除することができる。
図4に示す雑音抑圧処理を行う信号補正部3では、図3に示す雑音抑圧処理を行う信号補正部3からさらに、音声区間に対する雑音抑圧のための抑圧ゲイン算出処理(高解像度な雑音抑圧処理)の場合の解像度を直交化変換部300の直交変換の解像度と同じにしている。これは例えば、直交変換部300で、256点のFFTを行って直交変換を行ったとき、入力信号の処理対象フレームが雑音区間と判定された場合には、グループ統合化部308によって128よりも低い(例えば16)グループ数となるように統合化されたパワースペクトル|X[f,k]|2を用いて雑音抑圧のための抑圧ゲイン算出処理を行うのに
対して、入力信号の処理対象フレームが音声区間と判定された場合には、直交変換部300によって得られる各帯域(128点)に対して雑音抑圧のための抑圧ゲイン算出処理を行うとするような場合である。このように、入力区間に対する雑音抑圧のための抑圧ゲイン算出処理の場合の解像度と直交化変換部300の直交変換の解像度とが同じであるため、音声区間に対して高解像度に雑音抑圧のための抑圧ゲイン算出処理を行う場合のグループ化(図3の信号補正部3におけるグループ統合化部305)を必要としない。また、音声区間の場合にはグループ統合化を行わないため、音声区間に対して高解像度に雑音抑圧のための抑圧ゲイン算出処理を行った場合には、グループの分離化処理(図3の信号補正部3におけるグループ分離化部307)および雑音抑圧された信号のパワースペクトル|
Y[f,ω]|2のグループ統合化処理(図3の信号補正部3におけるグループ統合化部315)も必要としない。そのため、処理の冗長性を排除することができる。
以上図2乃至図4に例示したいずれの場合であっても、入力された信号のフレームごとに非目的信号であるノイズ成分が支配的に含まれている区間(雑音区間)であるか、そうではない区間(音声区間)であるかの判別を行い、非目的信号を抑圧する雑音抑圧処理を行う周波数領域の解像度を、音声区間であるか雑音区間であるかに応じて変化させているため、少ない処理量で雑音区間での耳障りなミュージカルノイズを低減し、音声区間での音声の歪みを小さくすることができる。
図5は第2の実施形態にかかる信号補正装置が適用された携帯電話機の無線通信装置の送受話系の構成を示している。この図に示す無線通信装置は、マイクロホン1、A/D変換器2、信号補正部6、エンコーダ4、無線通信部5、デコーダ7、D/A変換器8、スピーカ9を備えている。
マイクロホン1は、周囲の音を集音してアナログの信号x(t)として出力する。このとき、目的音である音声信号s(t)以外に、周囲雑音であるノイズ成分や、後述のデコーダ7をから出力される受話信号z(t)に起因するエコー成分などの目的信号以外の不要な非目的信号も混ざって、マイクロホン1から信号x(t)として集音される。A/D変換器2は、マイクロホン1から出力されるアナログの信号x(t)に対して、所定の処理単位ごとにA/D変換を行って、サンプリング周波数8kHzとし、1フレーム(Nサンプル)ごとのディジタルの信号x[n]を出力する。以下ここでは1フレームをN=160サンプルとする。信号補正部6は、後述のデコーダ7をから出力される受信信号z[n]を用いて入力信号x[n]に対して目的信号のみを強調したり非目的信号を抑圧したりするように補正して、補正後の信号y[n]を出力するものであって、例えばこの場合、入力信号に対するエコー抑圧処理および雑音抑圧処理が考えられる。エンコーダ4は、信号補正部6から出力される補正後の信号y[n]を符号化して、無線通信部5に出力する。無線通信部5はアンテナなどを含み、図示しない無線基地局と無線通信して、移動通信網を通じて通信相手局との間に通信リンクを確立して通信し、エンコーダ4から出力された信号を通信相手局へ送信する。また、無線基地局から受信した受信信号は、デコーダ7に入力する。デコーダ7は、入力される受信信号を復号して得られる受話信号z[n]を出力する。D/A変換器8では、この受話信号z[n]をアナログの受話信号z(t)に変換して、スピーカ9から出力する。なお、デコーダ7およびD/A変換器8でも同様にサンプリング周波数を8kHzとする。
なお、ここでは、無線通信部5によってエンコーダ4から出力された信号を送信するとして説明するが、メモリやハードディスクなどによって構成される記憶手段を設け、エンコーダ4から出力される信号を記憶手段に記憶させるような構成でも良い。また、ここでは、無線通信部5によってデコーダ7から出力された信号を受信するとして説明するが、メモリやハードディスクなどによって構成される記憶手段を設け、
記憶手段に記憶された信号をデコーダ7から出力するような構成でも良い。
次に、信号補正部6について説明する。本実施形態の信号補正部6では、エコー抑圧処理が行われるものとして説明する。信号補正部6は、ディジタル化された送話信号x[n]と受話信号z[n]とが入力され、エコー抑圧後の送話信号y[n]を出力する。図6は、エコー抑圧を行う信号補正部6の構成を示すブロック図である。
直交変換部600は、実施例1の直交変換部300と同様に、1フレーム前の入力信号と当該フレームfの入力信号x[n]から、適宜零詰めなどを行って、直交変換に必要なサンプル分の信号を取り出し、ハミング窓などによる窓掛けを行い、FFTなどの手法を用いて入力信号x[n]に対して直交変換を行う。ここでは例として、次フレームとのオーバーラップのサンプル数をM=48として、1フレーム前の入力信号Mサンプルと当該フレームの入力信号x[n]のN=160サンプル分とMサンプル分の零詰めから、256サンプルを用意する。この256サンプルに対して数1で表される正弦波窓による窓関数w[n]をx[n]に乗じることで窓掛けを行い、FFTによる直交変換を行う。そして、入力信号の周波数スペクトルX[f,ω](ω=0、1、…、127)および振幅スペクトル|X[f,ω]|(ω=0、1、…、127)および位相スペクトルθX[f,ω](
ω=0、1、…、127)を出力する。
直交変換部618は、直交変換部600と同様に、受話信号z[n]に対して直交変換を行って、受話信号の周波数スペクトルZ[f,ω]を出力する。
パワースペクトル算出部601は、実施例1のパワースペクトル算出部301と同様に、直交変換部600から出力された周波数スペクトルX[f,ω]から、パワースペクトル|X[f,ω]|2(ω=0、1、…、127)を算出し出力する。
パワースペクトル算出部619は、パワースペクトル算出部601と同様に、直交変換部618から出力された周波数スペクトルZ[f,ω]から、パワースペクトル|Z[f,ω]|2(ω=0、1、…、127)を算出し出力する。
区間判定部602は、入力された1フレームごとの入力信号x[n]が、非目的信号であるエコー成分が支配的に含まれている区間(エコー支配区間)であるか、そうではない区間、つまり目的信号である音声信号と非目的信号であるエコー成分が混在している区間(エコー非支配区間)であるかの判別を行い、判定結果を示す情報を出力する。区間判定部602には、入力信号x[n]、受話信号z[n]、エコー抑圧後の信号y[n]が入力される。そして、入力信号x[n]のパワー値またはピーク値(以降、パワー特性と称する)Px[n]、受話信号z[n]のパワー特性Pz[n]、エコー抑圧後の信号y[n]のパワー特性Py[n]を算出する。まず、Pz[n]>γである場合に受話信号z[n]が存在すると判定する。そして、受話信号z[n]が存在すると判定され、Py[n]>λ[n]・Pz[n]またはPx[n]>δ・Pz[n]となる場合にダブルトーク状態と判定する。次に、受話信号z[n]が存在すると判定され、ダブルトーク状態と判定されなかった場合(受話側のシングルトーク状態)をエコー支配区間とする。ここで、λ[n]はエコーパスロスの推定値であり、γおよびδは動作開始時に外部から予め設定可能な固定値である。そして、区間判定部602は、エコー支配区間か否かを示す情報を出力する。すなわち、ここでは、エコー支配区間は受話側のシングルトーク状態である区間となり、エコー非支配区間はダブルトーク状態や送話側のシングルトーク状態である区間となる。
解像度決定部603は、区間判定部602から出力されるエコー支配区間か否かを示す情報を用いて、エコー支配区間と判定されたフレームに対しては、解像度を高く、エコー支配区間ではない(エコー非支配区間)と判定されたフレームに対しては、解像度が低くなるよう切替器604、611、614,620を制御する。すなわち、解像度決定部603によって、切替器604、611、614、620は連動して動作するように制御される。区間判別部602の出力がエコー支配区間である場合は、切替器604の切替えによってグループ統合化部608が動作し、切替器611の切替えによってグループ分離化部610が動作し、切替器614の切替えによってグループ統合化部616が動作し、切替器620の切替えによってグループ統合化部622が動作する。一方、区間判別部602の出力がエコー非支配区間である場合は、切替器604の切替えによってグループ統合化部605が動作し、切替器611の切替えによってグループ分離化部607が動作し、切替器614の切替えによってグループ統合化部615が動作し、切替器620の切替えによってグループ統合化部621が動作する。
グループ統合化部605、608は、切替器604の切替えによって、いずれか一方が動作する。グループ統合化部605、608は、どちらもパワースペクトル算出部601から出力された入力信号の周波数スペクトル|X[f,ω]|2について所定数の周波数ビン
ごとに1グループとなるよう纏める処理を行うが、グループ統合化部605は、1グループに含むビン数が少なく、多くのグループを生成する高解像度な統合処理を行う。それに対して、グループ統合化部608では、1グループに含むビン数が多く、少ないグループを生成する低解像度な統合処理を行う。これらの統合処理は、図1の雑音抑圧処理を行う信号補正装置で説明したグループ統合化部305、308と同様の処理であるため、詳細な説明は省略する。勿論、以降の例では1つのグループにグループ化するビン数を一定としているが、バークスケールを利用するなどして、低域では1つのグループにグループ化するビン数を少なくして、高域では1つのグループにグループ化するビン数を多くして、周波数方向によって1つのグループにグループ化するビン数を変化させてもよい。
また、グループ統合化部621、622は、切替器620の切替えによって、いずれか一方が動作する。グループ統合化部621、622は、どちらもパワースペクトル算出部619から出力される受話信号のパワースペクトル|Z[f,ω]|2について所定数の周波
数ビンごとに1グループとなるよう纏める処理を行うが、グループ統合化部621は、1グループに含むビン数が少なく、多くのグループを生成する高解像度な統合処理を行う。
それに対して、グループ統合化部622では、1グループに含むビン数が多く、少ないグループを生成する低解像度な統合処理を行う。これらの統合処理は、グループ統合化部605、608と同様の処理であるため、詳細な説明は省略する。
エコー抑圧ゲイン算出部606と、エコー抑圧ゲイン算出部609は、どちらも入力信号からエコーを抑圧する処理のための抑圧ゲイン算出を行う。エコー抑圧ゲイン算出部606と、エコー抑圧ゲイン算出部609とはいずれか一方が動作するが、同様の処理であるため、エコー抑圧ゲイン算出部606について詳述し、エコー抑圧ゲイン算出部609の説明は省略する。
エコー抑圧ゲイン算出部606は図7に示すように、雑音推定部606A、音響結合量推定部606B、エコーレベル推定部606C、抑圧ゲイン算出部606Dから構成され、高解像度にグループ化された入力信号のパワースペクトル|X[f,m]|2と高解像度に
グループ化された受話信号のパワースペクトル|Z[f,m]|2とが入力される。
雑音推定部606Aは、グループ化された周波数ビンごとの周波数ノイズレベル|Q[f,m]|2を算出する。周波数ノイズレベル|Q[f,m]|2は、入力信号のパワースペクトル|X[f,m]|2を忘却させながら平滑化して以下のように算出する。このとき1フレーム
前の周波数ノイズレベル|Q[f−1,m]|2を用いる。なお、βQ1[ω]およびβQ2
[ω]は0以上1以下の所定の値であって、例えば、βQ1[ω]=0.001、βQ2[ω]=0.2などとする。
Figure 2010055024

音響結合量推定部606Bは、入力信号のパワースペクトル|X[f,m]|2と、受話信
号のパワースペクトル|Z[f,m]|2と、雑音推定部606Aから出力される周波数ノイ
ズレベル|Q[f,m]|2とが入力される。音響結合量推定部606Bは、これらのパワー
スペクトルを用いてエコー経路特性の推定値である音響結合量|H[f,m]|2を以下のよ
うに算出する。
Figure 2010055024

ただし、1フレーム前の音響結合量|H[f−1,m]|2から音響結合量|H[f,m]|2が急激に変化する場合(|H[f,m]|2>β[ω]・|H[f−1,m]|2が満たされる場合。但し、β[ω]は所定の値。)、もしくは、受話信号が十分に大きくない場合(|Z[f,m]|2<β[ω]が満たされる場合。但し、β[ω]は所定の値。)には、ダブ
ルトークとなる周波数帯域での音響結合量の算出を行わないようにするため、音響結合量を更新しないで、1フレーム前の音響結合量|H[f−1,m]|2の値を音響結合量|H[f
,m]|2として用いる。音響結合量推定部606Bは、このように算出した音響結合量|H[f,m]|2をエコーレベル推定部606Cに出力する。
エコーレベル推定部606Cには、受話信号のパワースペクトル|Z[f,m]|2、音響
結合量推定部606Bから音響結合量|H[f,m]|2が入力される。エコーレベル推定部
606Cは、これらの値を用いて、以下のように推定エコー量|E[f,m]|2を算出し、
抑圧ゲイン算出部606Dへ出力する。
Figure 2010055024

抑圧ゲイン算出部606Dには、入力信号のパワースペクトル|X[f,m]|2と、エコ
ーレベル推定部606Cから推定エコー量|E[f,m]|2、雑音推定部606Aから周波
数ノイズレベル|Q[f,m]|2、後述するグループ統合化部615から1フレーム前のエ
コー抑圧された出力信号のパワースペクトル|Y[f−1,m]|2と、が入力される。抑圧
ゲイン算出部606Dにおける抑圧ゲインG[f,m]の算出は、例えば以下のアルゴリズムまたはそれらの組み合わせによって行う。すなわち、一般のノイズ
キャンセラであるスペクトル・サブトラクション(Spectral Subtraction)法(S. F. Boll, “Suppression of acoustic noise in speech using spectral subtraction”, IEEE Trans. Acoustics, Speech, and Signal Processing, vol.ASSP-29, pp.113-120 (1979).)、ウィナー・フィルター(Wiener Filter)法(J. S. Lim, A. V. Oppenheim, “Enhancement and bandwidth compression of noisy speech”, Proc. IEEE Vol.67, No.12, pp.1586-1604, Dec.1979.)及び最尤推定(Maximum Likelihood)法(R. J. McAulay, M. L. Malpass, “Speech enhancement using a soft-decision noise suppression filter
”, IEEE Trans. on Acoustics, Speech, and Signal Processing, vol.ASSP-28, no.2, pp.137-145, Apr.1980.)などである。ここでは一例としてウィナー・フィルター法を用
いることとし、R[・]を半波整流として、後述するグループ統合化部615から出力される1フレーム前のエコー抑圧された信号のパワースペクトル|Y[f−1,m]|2を用
いて、事前SN比SNRPRIO[f,m]及び事後SN比SNRPOST[f,m]は、それぞれ、以下の数9、数10により求められ、抑圧ゲインG[f,m]は、以下の数11により算出される。但し、μ[m]は0.9〜0.999程度の忘却係数である。
Figure 2010055024

Figure 2010055024

Figure 2010055024

また別の一例として、抑圧ゲイン算出部606Dは、以下のようにエコー抑圧ゲインG[
f,m]を算出してもよい。ただし、数12のγ[ω]は事前に設定しておく所定のパ
ラメータ値である。この場合は、1フレーム前のエコー抑圧された信号のパワースペクトル|Y[f−1,m]|2を用いないので、後述するパワースペクトル算出部613、切替
器614、グループ統合化部615、616は省略してよい。
Figure 2010055024

なお、エコー抑圧ゲインG[f,m]の値によっては、雑音レベルよりも過剰にエコー抑圧する場合がある。そこで、エコー抑圧ゲインG[f,m]の値が、数13に示すGFLOOR[f,m]よりも小さくならないよう、制御する。
Figure 2010055024

このように算出したエコー抑圧ゲインG[f,m]は、グループ統合化607へ出力する。
図6を用いた説明に戻る。グループ分離化部607、610は、グループ統合化部605またはグループ統合化部608によってグループ化された周波数ビンをグループ化前のビン数に戻す。例えば、低解像度のグループ統合化部608で128ビンを8ビンずつまとめて16グループを生成していた場合、グループ分離化部610では、抑圧ゲイン算出部609から出力された抑圧ゲインG[f,k]の同一グループ内で各サンプルを8つ複製した上で16グループのグループ化を分離し、128ビン分の抑圧ゲインG[f,ω]を生成する。高解像度のグループ分離部607でも、低解像度のグループ分離部610と同様の処理によって、グループ化前のビン数に戻した抑圧ゲインG[f,ω]を得ることができる。このようにしてグループ分離化部607または610によって出力された抑圧ゲインG[f,ω]は、切替器611を介してエコー抑圧部612に入力される。
エコー抑圧部612は、入力信号の振幅スペクトル|X[f,ω]|と切替器611を介して出力されたエコー抑圧ゲインG[f,ω]を入力として、エコーが抑圧された入力信号の周波数スペクトルY[f,ω]を以下のように逆直交変換部617へ出力する。
Figure 2010055024

パワースペクトル算出部613は、エコー抑圧部612から出力されたエコー抑圧された信号の振幅スペクトル|Y[f,ω]|から、エコー抑圧された信号のパワースペクトル|
Y[f,ω]|2(ω=0、1、…、127)を算出し出力する。
グループ統合化部615、616は、切替器614の切替えによって、いずれか一方が動作する。グループ統合化部615、616は、どちらもパワースペクトル算出部613から出力される雑音抑圧された信号のパワースペクトル|Y[f,ω]|2のビンを所定数ご
とに1グループに纏める処理を行うが、グループ統合化部615とグループ統合化部616とでは、1グループに纏める周波数ビン数が異なる。グループ統合化部616では、入力信号のパワースペクトルを低解像度で統合化するグループ統合化部608と同じビン数ごとに1グループに纏める。それに対して、グループ統合化部615では、入力信号のパワースペクトルを高解像度で統合化するグループ統合化部605と同じビン数ごとに1グループに纏める。例えば、グループ統合化部616では、各帯域のエコー抑圧された信号のパワースペクトル|Y[f,ω]|2(ω=0、1、…127)を8ビンごとに纏め、16
グループの帯域のエコー抑圧された信号のパワースペクトル|Y[f,k]|2(k=0、1
、…15)を算出する。それに対して、グループ統合化部315では、各帯域のエコー抑圧された信号のパワースペクトル|Y[f,ω]|2(ω=0、1、…127)の2ビンを1
グループとして、64グループの帯域のエコー抑圧された信号のパワースペクトル|Y[f,m]|2(m=0、1、…63)を出力する。
逆直交変換部617では、例えば、直交化変換部600によって256点FFTによって周波数変換されていたならば、直交変換部600によって周波数変換された入力信号が実信号であったことを考慮に入れて直交変換部300から出力された位相スペクトルθX[f,ω](ω=0、1、…、127)を256点に復元し、エコー抑圧部612から出力
される雑音抑圧された信号の振幅スペクトル|Y[f,ω]|を用いて、256点のIFFTで周波数逆変換を行い、適宜直交変換部600における窓掛けを考慮して、1フレーム前のエコー抑圧された時間領域の信号y[n]を用いてオーバーラップを戻す処理を行い、エコー抑圧された時間領域の信号y[n]を算出することができる。
以上のように、入力された信号のフレームごとに非目的信号であるエコー成分が支配的に含まれている区間(エコー支配区間)であるか、そうではない区間(エコー非支配区間)であるかの判別を行い、非目的信号を抑圧するエコー抑圧処理を行う周波数領域の解像度を、エコー支配区間ならば低い解像度にして粗くグループ化した周波数帯域ごとに非目的信号を抑圧するエコー抑圧処理を行い、エコー非支配区間ならば高い解像度にして細かくグループ化した周波数帯域ごとに非目的信号を抑圧するエコー抑圧処理を行う。これによって、受話側のシングルトーク状態であるエコー支配区間では、周波数領域の解像度を高くすることによって生じるミュージカルノイズを低減することができ、また、ダブルトーク状態や送話側のシングルトーク状態であるエコー非支配区間では周波数領域の解像度を低くすることによって生じる音声の歪みを小さくすることができる。
なお、第2の実施形態として示した信号補正装置の信号補正部においても、第1の実施形態の信号補正装置の信号補正部に対して示した変形例と同じ変形を行うことができる。
例えば、エコー非支配区間での入力信号に対するエコー抑圧を行うときの周波数方向の解像度(高解像度)を直交変換部600によって直交変換を行うときの解像度と同じにすると、グループ統合化部605やグループ分離化部607を省略することができる。
また、上記実施形態に限定されることはなく、本発明の要旨を逸脱しない範囲において、適宜変更しても良い。
本発明の第1の実施形態に係る信号補正装置が適用された携帯電話機の無線通信装置の送話形の構成を示すブロック図。 本発明の第1の実施形態に係る信号補正装置の信号補正部の構成を示すブロック図。 本発明の第1の実施形態に係る信号補正装置の信号補正部の変形例を示すブロック図。 本発明の第1の実施形態に係る信号補正装置の信号補正部の変形例を示すブロック図。 本発明の第2の実施形態に係る信号補正装置が適用された携帯電話機の無線通信装置の送受話形の構成を示すブロック図。 本発明の第2の実施形態に係る信号補正装置の信号補正部の構成を示すブロック図。 本発明の第2の実施形態に係る信号補正装置のエコー抑圧部の構成を示すブロック図。
符号の説明
1 マイクロホン、2 A/D変換器、3 信号補正部、4 エンコーダ、5 無線通信部、6 スピーカ、7 D/A変換器、8 デコーダ、300 直交変換部、301 パワースペクトル算出部、302 音声・雑音区間判別部、303 抑圧ゲイン解像度判別部、304 311 314 319 切替器、305 308 グループ統合化部、306 309 抑圧ゲイン算出部、307 310 グループ分離化部、312 雑音抑圧部、313 パワースペクトル算出部、315 316 グループ統合化部、317 逆直交変換部、318 雑音量推定部、320 321 グループ統合化部、600 直交変換部、601 パワースペクトル算出部、602 区間判別部、603 解像度決定部、604 611 614 620 切替器、605 608 グループ統合化部、606 609 エコー抑圧ゲイン算出部、607 610 グループ分離化部、612 エコー抑圧部、613 パワースペクトル算出部、615 616 グループ統合化部、617 逆直交変換部、618 直交変換部、619 パワースペクトル算出部、621 622 グループ統合化部

Claims (9)

  1. 目的信号である音声とそれ以外の不要な非目的信号が混在した入力信号に対して直交変換を行う直交変換手段と、
    前記入力信号のフレームごとに非目的信号が支配的に存在している区間であるか否かを判別する区間判別手段と、
    前記区間判別手段によって非目的信号が支配的に存在している区間であると判別されたフレームは、第1の周波数帯域幅ごとに非目的信号を抑圧するための抑圧ゲインを算出し、前記区間判別手段によって非目的信号が支配的に存在している区間でないと判別されたフレームは、第2の周波数帯域幅ごとに非目的信号を抑圧するための抑圧ゲインを算出する抑圧ゲイン算出手段と、
    前記抑圧ゲイン算出手段によって算出された抑圧ゲインを用いて前記直交変換手段によって得られた変換係数に対して非目的信号を抑圧する信号補正処理を行う信号補正手段とを有することを特徴とする信号補正装置。
  2. 目的信号である音声とそれ以外の不要な非目的信号が混在した入力信号に対して直交変換を行う直交変換手段と、
    前記入力信号のフレームごとに非目的信号が支配的に存在している区間であるか否かを判別する区間判別手段と、
    前記区間判別手段によって非目的信号が支配的に存在している区間であると判別されたフレームは、前記直交変換手段から得られた変換係数を第1のグループ数のグループに分割し、第1のグループ数のグループごとに非目的信号を抑圧するための抑圧ゲインを算出し、前記区間判別手段によって非目的信号が支配的に存在している区間でないと判別されたフレームは、前記変換係数を第1のグループ数よりも多い第2のグループ数のグループに分割し、第2のグループ数のグループごとに非目的信号を抑圧するための抑圧ゲインを算出する抑圧ゲイン算出手段と、
    前記抑圧ゲイン算出手段によって算出された抑圧ゲインを用いて前記直交変換手段によって得られた前記変換係数に対して非目的信号を抑圧する信号補正処理を行う信号補正手段とを有することを特徴とする信号補正装置。
  3. 前記抑圧ゲイン算出手段は、複数のグループごとにグループ内の前記変換係数の代表値を算出し、複数のグループごとに前記変換係数の代表値に基づいて抑圧ゲインを算出することを特徴とする請求項2に記載の信号補正装置。
  4. 前記抑圧ゲイン算出手段は、前記直交変換手段から得られた変換係数をパワースペクトルとし、前記区間判別手段によって非目的信号が支配的に存在している区間であると判別されたフレームは、前記パワースペクトルを第1のグループ数のグループに分割し、グループごとにグループ内のパワースペクトルの代表値を算出し、この代表値に基づいて抑圧ゲインを算出し、前記区間判別手段によって非目的信号が支配的に存在している区間でないと判別されたフレームは、前記パワースペクトルを第1のグループ数よりも多い第2のグループ数のグループに分割し、グループごとにグループ内のパワースペクトルの代表値を算出し、この代表値に基づいて抑圧ゲインを算出することを特徴とする請求項2に記載の信号補正装置。
  5. 前記変換係数の代表値は、グループ化した各グループに含まれる変換係数の平均値であることを特徴とする請求項3または請求項4に記載の信号補正装置。
  6. 前記第1または第2のグループ数に分割されたグループ内の変換係数の個数はグループごとに一定であることを特徴とする請求項2乃至請求項5のいずれか1項に記載の信号補正装置。
  7. 前記第2のグループ数に分割されたグループ内の変換係数の個数は1であることを特徴とする請求項2乃至請求項5のいずれか1項に記載の信号補正装置。
  8. 前記信号補正は、前記入力信号に対する雑音抑圧の処理であって、
    前記区間判別手段は、前記入力信号のフレームごとに雑音成分が支配的に存在している区間であるか否かを判別することを特徴とする請求項1乃至請求項7のいずれか1項に記載の信号補正装置。
  9. 前記信号補正は、前記入力信号に対するエコー抑圧の処理であって、
    前記区間判別手段は、前記入力信号のフレームごとにエコー成分が支配的に存在している区間であるか否かを判別することを特徴とする請求項1乃至請求項7のいずれか1項に記載の信号補正装置。
JP2008222700A 2008-08-29 2008-08-29 信号補正装置 Expired - Fee Related JP4660578B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008222700A JP4660578B2 (ja) 2008-08-29 2008-08-29 信号補正装置
US12/548,714 US8108011B2 (en) 2008-08-29 2009-08-27 Signal correction device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008222700A JP4660578B2 (ja) 2008-08-29 2008-08-29 信号補正装置

Publications (2)

Publication Number Publication Date
JP2010055024A true JP2010055024A (ja) 2010-03-11
JP4660578B2 JP4660578B2 (ja) 2011-03-30

Family

ID=41726178

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008222700A Expired - Fee Related JP4660578B2 (ja) 2008-08-29 2008-08-29 信号補正装置

Country Status (2)

Country Link
US (1) US8108011B2 (ja)
JP (1) JP4660578B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011111091A1 (ja) * 2010-03-09 2011-09-15 三菱電機株式会社 雑音抑圧装置
JP2011203700A (ja) * 2010-03-26 2011-10-13 Toshiba Corp 音声判別装置
WO2013065088A1 (ja) * 2011-11-02 2013-05-10 三菱電機株式会社 雑音抑圧装置
US9418677B2 (en) 2014-08-11 2016-08-16 Oki Electric Industry Co., Ltd. Noise suppressing device, noise suppressing method, and a non-transitory computer-readable recording medium storing noise suppressing program
JP2021131536A (ja) * 2020-02-20 2021-09-09 百度在綫網絡技術(北京)有限公司 ダブルトーク状態検出方法、装置及び電子機器
JP2021149084A (ja) * 2020-03-13 2021-09-27 ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド オーディオ信号処理方法および装置、記憶媒体

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5870476B2 (ja) * 2010-08-04 2016-03-01 富士通株式会社 雑音推定装置、雑音推定方法および雑音推定プログラム
US9508358B2 (en) * 2010-12-15 2016-11-29 Koninklijke Philips N.V. Noise reduction system with remote noise detector
CN104203089B (zh) * 2012-03-30 2016-05-04 精工爱普生株式会社 搏动检测装置以及电子设备
US20130282372A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
US9349383B2 (en) * 2013-01-29 2016-05-24 2236008 Ontario Inc. Audio bandwidth dependent noise suppression
US9351137B2 (en) * 2014-07-14 2016-05-24 Qualcomm Incorporated Simultaneous voice calls using a multi-SIM multi-active device
CN108074587B (zh) * 2016-11-16 2021-08-24 卢宇逍 检测通话断续的方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10254499A (ja) * 1997-03-14 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> 帯域分割型雑音低減方法及び装置
JP2003514264A (ja) * 1999-11-15 2003-04-15 ノキア コーポレイション 雑音抑圧装置
JP2005195955A (ja) * 2004-01-08 2005-07-21 Toshiba Corp 雑音抑圧装置及び雑音抑圧方法
WO2006070560A1 (ja) * 2004-12-28 2006-07-06 Pioneer Corporation 雑音抑圧装置、雑音抑圧方法、雑音抑圧プログラムおよびコンピュータに読み取り可能な記録媒体
WO2007026691A1 (ja) * 2005-09-02 2007-03-08 Nec Corporation 雑音抑圧の方法及び装置並びにコンピュータプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR950013552B1 (ko) * 1990-05-28 1995-11-08 마쯔시다덴기산교 가부시기가이샤 음성신호처리장치
CA2153170C (en) * 1993-11-30 2000-12-19 At&T Corp. Transmitted noise reduction in communications systems
JP3522986B2 (ja) 1995-09-21 2004-04-26 株式会社東芝 ノイズキャンセラおよびこのノイズキャンセラを使用した通信装置
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
KR100250561B1 (ko) * 1996-08-29 2000-04-01 니시무로 타이죠 잡음소거기 및 이 잡음소거기를 사용한 통신장치
US6549586B2 (en) * 1999-04-12 2003-04-15 Telefonaktiebolaget L M Ericsson System and method for dual microphone signal noise reduction using spectral subtraction
US8335311B2 (en) * 2005-07-28 2012-12-18 Kabushiki Kaisha Toshiba Communication apparatus capable of echo cancellation
JP4928922B2 (ja) * 2006-12-01 2012-05-09 株式会社東芝 情報処理装置、およびプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10254499A (ja) * 1997-03-14 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> 帯域分割型雑音低減方法及び装置
JP2003514264A (ja) * 1999-11-15 2003-04-15 ノキア コーポレイション 雑音抑圧装置
JP2005195955A (ja) * 2004-01-08 2005-07-21 Toshiba Corp 雑音抑圧装置及び雑音抑圧方法
WO2006070560A1 (ja) * 2004-12-28 2006-07-06 Pioneer Corporation 雑音抑圧装置、雑音抑圧方法、雑音抑圧プログラムおよびコンピュータに読み取り可能な記録媒体
WO2007026691A1 (ja) * 2005-09-02 2007-03-08 Nec Corporation 雑音抑圧の方法及び装置並びにコンピュータプログラム

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8989403B2 (en) 2010-03-09 2015-03-24 Mitsubishi Electric Corporation Noise suppression device
WO2011111091A1 (ja) * 2010-03-09 2011-09-15 三菱電機株式会社 雑音抑圧装置
JPWO2011111091A1 (ja) * 2010-03-09 2013-06-27 三菱電機株式会社 雑音抑圧装置
JP5528538B2 (ja) * 2010-03-09 2014-06-25 三菱電機株式会社 雑音抑圧装置
JP2011203700A (ja) * 2010-03-26 2011-10-13 Toshiba Corp 音声判別装置
JPWO2013065088A1 (ja) * 2011-11-02 2015-04-02 三菱電機株式会社 雑音抑圧装置
WO2013065088A1 (ja) * 2011-11-02 2013-05-10 三菱電機株式会社 雑音抑圧装置
US9368097B2 (en) 2011-11-02 2016-06-14 Mitsubishi Electric Corporation Noise suppression device
US9418677B2 (en) 2014-08-11 2016-08-16 Oki Electric Industry Co., Ltd. Noise suppressing device, noise suppressing method, and a non-transitory computer-readable recording medium storing noise suppressing program
JP2021131536A (ja) * 2020-02-20 2021-09-09 百度在綫網絡技術(北京)有限公司 ダブルトーク状態検出方法、装置及び電子機器
JP7159366B2 (ja) 2020-02-20 2022-10-24 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド ダブルトーク状態検出方法、装置及び電子機器
US11804235B2 (en) 2020-02-20 2023-10-31 Baidu Online Network Technology (Beijing) Co., Ltd. Double-talk state detection method and device, and electronic device
JP2021149084A (ja) * 2020-03-13 2021-09-27 ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド オーディオ信号処理方法および装置、記憶媒体
JP7062727B2 (ja) 2020-03-13 2022-05-06 ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド オーディオ信号処理方法および装置、記憶媒体
US11490200B2 (en) 2020-03-13 2022-11-01 Beijing Xiaomi Pinecone Electronics Co., Ltd. Audio signal processing method and device, and storage medium

Also Published As

Publication number Publication date
US20100056063A1 (en) 2010-03-04
US8108011B2 (en) 2012-01-31
JP4660578B2 (ja) 2011-03-30

Similar Documents

Publication Publication Date Title
JP4660578B2 (ja) 信号補正装置
JP5127754B2 (ja) 信号処理装置
US8571231B2 (en) Suppressing noise in an audio signal
JP3963850B2 (ja) 音声区間検出装置
JP4210521B2 (ja) 雑音低減法および装置
KR101210313B1 (ko) 음성 향상을 위해 마이크로폰 사이의 레벨 차이를 활용하는시스템 및 방법
CN104520925B (zh) 噪声降低增益的百分位滤波
JP5646077B2 (ja) 雑音抑圧装置
JP6703525B2 (ja) 音源を強調するための方法及び機器
JP4836720B2 (ja) ノイズサプレス装置
JP5923994B2 (ja) 音声処理装置及び音声処理方法
US20130322643A1 (en) Multi-Microphone Robust Noise Suppression
JP2013534651A (ja) 計算聴覚シーン解析に基づくモノラルノイズ抑制
KR20120114327A (ko) 레벨 큐를 사용한 적응형 잡음 감소
CN101080766A (zh) 使用bark频带weiner滤波器和线性衰减的噪声降低和舒适噪声增益控制
US9343073B1 (en) Robust noise suppression system in adverse echo conditions
CN104981870B (zh) 声音增强装置
KR101581885B1 (ko) 복소 스펙트럼 잡음 제거 장치 및 방법
US8543390B2 (en) Multi-channel periodic signal enhancement system
JP2015143811A (ja) 雑音抑圧装置および雑音抑圧方法
JP5443547B2 (ja) 信号処理装置
CN110136734B (zh) 使用非线性增益平滑以降低音乐伪声的方法和音频噪声抑制器
JP2006113515A (ja) ノイズサプレス装置、ノイズサプレス方法及び移動通信端末装置
CN113593599A (zh) 一种去除语音信号中噪声信号的方法
CN110136740B (zh) 使用最小最大值跟随器估计噪声的方法、噪声电平估计器、噪声抑制器及噪声抑制方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100705

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100723

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101203

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101228

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140107

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140107

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees