JP6339896B2 - 雑音抑圧装置および雑音抑圧方法 - Google Patents

雑音抑圧装置および雑音抑圧方法 Download PDF

Info

Publication number
JP6339896B2
JP6339896B2 JP2014177534A JP2014177534A JP6339896B2 JP 6339896 B2 JP6339896 B2 JP 6339896B2 JP 2014177534 A JP2014177534 A JP 2014177534A JP 2014177534 A JP2014177534 A JP 2014177534A JP 6339896 B2 JP6339896 B2 JP 6339896B2
Authority
JP
Japan
Prior art keywords
noise
speech
spectrum
input signal
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014177534A
Other languages
English (en)
Other versions
JP2015143811A (ja
Inventor
慎一 杠
慎一 杠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Priority to JP2014177534A priority Critical patent/JP6339896B2/ja
Priority to US14/565,933 priority patent/US9445189B2/en
Publication of JP2015143811A publication Critical patent/JP2015143811A/ja
Application granted granted Critical
Publication of JP6339896B2 publication Critical patent/JP6339896B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/10Adaptations for transmission by electrical cable
    • H04N7/102Circuits therefor, e.g. noise reducers, equalisers, amplifiers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

本発明は、入力信号の雑音を抑圧するための抑圧係数を算出する雑音抑圧装置および雑音抑圧方法に関する。
TV会議システム等で行われるハンズフリー通話システムがある。この通話システムでは、マイクロホンで収音した信号に含まれる雑音を抑圧する雑音抑圧装置が搭載されている。この通話システムは、様々な環境に設置されるが、背景雑音の大きい環境に設置されると、通話における音声の明瞭度が低下してしまう問題がある。さらに、近年、この通話システムは、車にも搭載されるようになったため、背景雑音の影響がより顕著になってきている。そのため、雑音抑圧性能が高く、高音質な雑音抑圧装置の実現が望まれている。
例えば非特許文献1および特許文献1には、雑音を抑圧するための抑圧係数を算出する雑音抑圧装置や雑音抑圧方法が提案されている(例えば非特許文献1および特許文献1)。非特許文献1および特許文献1には、MAP推定とベイズの定理を利用して演算量を抑えながら雑音を抑圧するための抑圧係数を算出する雑音抑圧装置や雑音抑圧方法が提案されている。
特許第4542790号公報
しかしながら、上記非特許文献1および特許文献1に開示される技術では、算出することができる雑音抑圧係数の精度が十分でないため、雑音抑圧の効果を得ることができるものの、音声信号も同時に抑圧してしまい、音質の劣化や明瞭度の低下が生じてしまうという問題を抱えている。
本発明は、上記課題を鑑みてなされたものであり、より推定精度の高い雑音抑圧係数を算出することができる雑音抑圧装置および雑音抑圧方法を提供することを目的とする。
上記目的を達成するために、本発明の一形態に係る雑音抑圧装置は、入力信号の周波数スペクトルを用いて、前記入力信号の雑音を抑圧するための抑圧係数を算出する雑音抑圧装置であって、前記入力信号を周波数スペクトルへ変換する周波数変換部と、前記周波数スペクトルを用いて、前記入力信号の推定雑音レベルを算出する雑音レベル推定部と、N個(Nは2以上)の重み係数を所定時間毎に算出する重み係数算出部と、前記N個の統計分布モデルを前記N個の重み係数により重み付けすることにより音声の同時分布モデルを算出し、算出した前記音声の同時分布モデルを事前確率として用いる事後確率に基づき前記入力信号の音声スペクトルの推定式を導出し、導出した前記入力信号の音声スペクトルの推定式と前記入力信号のレベルとに基づいて、前記抑圧係数を算出する抑圧係数算出部と、を備える。
なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なCD−ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
本発明によれば、より推定精度の高い雑音抑圧係数を算出することができる雑音抑圧装置等を提供することができる。
図1は、分析区間が音声のみの場合の音声の振幅スペクトルの分布のヒストグラムの一例を示す図である。 図2は、分析区間が音声のみ、かつ、信号レベルが小さい場合の音声の振幅スペクトルの分布のヒストグラムの一例を示す図である。 図3は、分析区間に雑音区間と音声区間とが同時に存在する場合の音声の振幅スペクトルの分布のヒストグラム一例を示す図である。 図4Aは、実施の形態に係る雑音抑圧装置の構成の一例を示す図である。 図4Bは、実施の形態に係る雑音抑圧装置の最小構成の一例を示す図である。 図5は、実施の形態に係る観測データである雑音の統計分布モデルの一例を示す図である。 図6は、実施例1に係る音声の同時分布モデルの一例を示す図である。 図7は、実施例1に係る音声の同時分布モデルの一例を示す図である。 図8は、実施例2に係る音声の同時分布モデルの一例を示す図である。 図9は、図8に示す音声の同時分布モデルの効果を示す図である。 図10は、実施例3に係る音声の同時分布モデルの一例を示す図である。 図11は、図10に示す音声の同時分布モデルの効果を示す図である。 図12は、実施の形態における雑音抑圧装置の最小構成が行う動作を示すフローチャートである。 図13は、実施の形態における雑音抑圧装置の動作を示すフローチャートである。 図14は、実施の形態の変形例に係る雑音抑圧装置の構成の一例を示す図である。 図15は、図14に示す重み係数算出部の詳細構成の一例である。
(本発明の基礎となった知見)
以下、本発明の基礎となった知見について説明する。
図1は、分析区間が音声のみの場合の音声の振幅スペクトルの分布のヒストグラムの一例を示す図である。図2は、分析区間が音声のみ、かつ、信号レベルが小さい場合の音声の振幅スペクトルの分布のヒストグラムの一例を示す図である。図3は、分析区間に雑音区間と音声区間とが同時に存在する場合の音声の振幅スペクトルの分布のヒストグラム一例を示す図である。
上記非特許文献1および上記特許文献1には、MAP推定とベイズの定理を利用して演算量を抑えながら雑音を抑圧するための抑圧係数を算出する方法が提案されている。
具体的には、上記非特許文献1では、音声信号の周波数スペクトルの振幅をガンマ分布またはラプラス分布の確率密度関数で近似し、雑音信号の周波数スペクトルを正規分布で近似し、MAP推定とベイズの定理を利用して雑音抑圧係数の推定式を導出する方法について提案されている。この方法では、雑音抑圧係数の推定式が簡単な式になるので、演算量を抑えることができるという効果がある。
しかしながら、分析区間における音声の周波数スペクトルの振幅分布は、音声信号のレベルの大小、雑音区間(音声信号が存在しない区間)の有無、周波数によって様々な形状となる(例えば図1〜図3)。特に、図1に示すように音声信号のみが存在する区間においてはガンマ分布やラプラス分布とはならない。つまり、図3に示すような無音区間を含んだ音声信号(音声の周波数スペクトルの振幅分布)はガンマ分布またはラプラス分布で近似が可能であるが、図1に示すような音声信号のみが存在する区間では音声信号はガンマ分布やラプラス分布で近似できない。このため、図1に示す区間において算出した雑音抑圧係数の精度は低く、雑音抑圧の効果は得られるものの、音声信号も同時に抑圧されてしまい、音質の劣化や明瞭度の低下が生じてしまうという問題がある。
また、上記特許文献1では、音声信号の周波数スペクトルの実部および虚部のそれぞれをラプラス分布で近似し、雑音信号の周波数スペクトルの実部および虚部を正規分布で近似し、MAP推定とベイズの定理を利用して雑音抑圧係数の推定式を導出する方法について提案されている。
しかしながら、非特許文献1と同様、音声信号をラプラス分布で近似するため、図1に示すような無音区間を含まない音声信号のみが存在する区間では音声信号はガンマ分布やラプラス分布で近似できない。一方で、上記特許文献では、分析区間が比較的長期間(sec、msecオーダ)であるため、ガンマ分布やラプラス分布を用いても比較的長期間である分析区間における平均的な分布形状は近似することができるため雑音抑圧の効果は得られる。しかし、無音区間を含まない音声信号も丸めてしまっているため、算出した雑音抑圧係数の精度は低い。そのため、上記特許文献では、音声信号も同時に抑圧されてしまい、音質の劣化や明瞭度の低下が生じてしまうという問題がある。
ここで、音声スペクトルの分布は、分析区間における音声信号のレベル、雑音区間(音声信号存在しない区間)の有無等により大きく変動する。例えば図1に示すように、雑音区間のない音声スペクトルのみが存在する区間に着目すると、ガンマ分布やラプラス分布で近似できるような分布にはならない。また、図2に示すように、音声レベルが小さい時も同様である。ガンマ分布やラプラス分布のように指数分布に近い形状となるのは、図3で示されるような、雑音区間と音声区間が同時に存在する場合である。
このように、上記非特許文献1および特許文献1に開示される技術では、音声信号の確率密度関数を単一の統計分布モデルで表現されているので、様々な形状の分布が存在する音声区間における音声スペクトルの近似精度は低くなる。そのため、上記の従来技術では、雑音のみを抑圧する雑音抑圧係数の推定精度が低くなってしまい、音質の劣化や明瞭度の低下が生じてしまうという問題を抱えている。
そこで、上記目的を達成するために、本発明の一形態に係る雑音抑圧装置は、入力信号の周波数スペクトルを用いて、前記入力信号の雑音を抑圧するための抑圧係数を算出する雑音抑圧装置であって、前記入力信号を周波数スペクトルへ変換する周波数変換部と、前記周波数スペクトルを用いて、前記入力信号の推定雑音レベルを算出する雑音レベル推定部と、N個(Nは2以上)の重み係数を所定時間毎に算出する重み係数算出部と、前記N個の統計分布モデルを前記N個の重み係数により重み付けすることにより音声の同時分布モデルを算出し、算出した前記音声の同時分布モデルを事前確率として用いる事後確率に基づき前記入力信号の音声スペクトルの推定式を導出し、導出した前記入力信号の音声スペクトルの推定式と前記入力信号のレベルとに基づいて、前記抑圧係数を算出する抑圧係数算出部と、を備える。
この構成により、より推定精度の高い雑音抑圧係数を算出することができる雑音抑圧装置を実現することができる。
具体的には、入力信号に含まれる音声(音声スペクトル)の出現確率を高精度に近似することができるので、より推定精度の高い雑音抑圧係数を算出することができる。それにより、高い雑音抑圧性能を保ちつつ、音声を過抑圧することなく雑音を除去することが可能な雑音抑圧装置を実現することができる。
ここで、例えば、前記抑圧係数算出部は、前記音声の同時分布モデルと観測された雑音の確率を近似する雑音の統計分布モデルとの積を用いて、前記入力信号の音声スペクトルの推定式を導出する。
また、例えば、前記音声の同時分布モデルは、前記入力信号の音声スペクトルを示す出現確率を近似し、前記抑圧係数算出部は、前記N個の重み係数により重み付けした前記N個の統計分布モデルの積を、前記音声の同時分布モデルとして算出する。
この構成により、音声の同時分布モデルは少なくとも2つ以上のN個の統計分布モデルの積で表現される。N個の統計分布モデルに対応した確率変数に、重み係数算出部より算出されたN個の重み係数が乗算されることにより得られる音声の同時分布モデルは、様々な分布形状を表現することができるので、入力信号に含まれる音声スペクトルの近似精度を上げることができる。それにより、より推定精度の高い雑音抑圧係数を算出することができる。
また、例えば、さらに、前記周波数スペクトルと前記推定雑音レベルと過去に算出した抑圧係数とを用いて、重み付き信号対雑音比を示す事前SNRを算出する事前SNR算出部と、前記周波数スペクトルと前記推定雑音レベルとを用いて、入力信号対雑音比を示す事後SNRを算出する事後SNR算出部と、前記抑圧係数算出部で算出された現抑圧係数を前記周波数スペクトルに乗算した重み付け周波数スペクトルを、時間信号に変換する時間信号変換部と、を備え、前記重み係数算出部は、前記事前SNRまたは前記事後SNRを用いて、前記N個の重み係数を算出し、前記抑圧係数算出部は、1)前記重み係数算出部で算出された前記N個の重み係数で重み付けした前記N個の統計分布モデルの積を、前記周波数スペクトルに含まれる音声スペクトルの出現確率を近似する前記音声の同時分布モデルとして算出し、2)前記周波数スペクトルに含まれる雑音スペクトルの出現確率を近似する雑音の統計分布モデルを算出し、3)算出した前記雑音の統計分布モデルと前記音声の同時分布モデルとの積から前記入力信号の音声スペクトルの推定式を導出し、4)前記事前SNR、前記事後SNRおよび前記重み係数算出部で算出された前記N個の重み係数を用いて、前記音声スペクトルの推定式から前記抑圧係数を算出するとしてもよい。
この構成により、入力信号に含まれる音声スペクトルの出現確率を高精度に近似することができるので、より推定精度の高い雑音抑圧係数を算出することができる。
ここで、例えば、N個の統計分布モデルに対応する確率変数の重み係数は、事後SNRの値に連動する場合、事後SNRは入力信号レベルと推定雑音信号レベルとの比であるため、雑音区間では1に近づき、音声が存在する区間では1より大きな値を持つという特徴がある。そのため、この特徴を利用して重み係数を決定することができる。
また、例えば、N個の統計分布モデルに対応する確率変数の重み係数は、事前SNRの値に連動する場合、事前SNRは入力信号レベルから過去の雑音抑圧係数を用いて雑音除去した信号と、推定雑音信号レベルとの比であるため、雑音区間では零に近づき、音声が存在する区間では零より大きな値を持つという特徴がある。そのため、この特徴を利用することで重み係数を決定することができる。
ここで、例えば、前記N個の統計分布モデルは、ガンマ分布モデルと、レイリー分布モデルとを含むとしてもよい。
また、例えば、前記N個の統計分布モデルを構成する統計分布モデルの組み合わせは、前記周波数スペクトルの少なくとも2つ以上の帯域それぞれにおいて、異なるとしてもよい。
この構成により、N個の統計分布モデルの組み合わせを、周波数スペクトルの周波数成分のうち少なくとも2つ以上の周波数成分において異なる組み合わせを持つようにすることができる。これにより、例えば低域および高域で構成される波長の異なる帯域において最適な構成を選択することができる。
また、例えば、前記重み係数算出部は、前記周波数スペクトルの少なくとも2つ以上の帯域それぞれにおいて、前記N個の重み係数のうち少なくとも2つ以上異なる重み係数を含む前記N個の重み係数を算出するとしてもよい。
また、例えば、前記N個の統計分布モデルは、音声の振幅スペクトルの出現確率を近似するとしてもよい。
このように、N個の統計分布モデルが音声の振幅スペクトルの分布で構成されることにより、ガンマ分布等の正の値しか利用できない分布を利用することができるようになり、音声の同時分布モデルが表現できる分布形状の自由度が向上する。
また、例えば、前記抑圧係数算出部は、前記入力信号の音声スペクトルの推定式を、MAP(Maximum A posteriori Estimation)推定およびベイズの定理を利用して、関数式として導出するとしてもよい。
ここで、例えば、前記抑圧係数算出部は、導出した前記音声スペクトルの推定式を音声スペクトルの振幅で偏微分し零とおいた演算式に従って、前記抑圧係数を算出するとしてもよい。
なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なCD−ROM等の記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。
以下、本発明の一態様に係る雑音抑圧装置等について、図面を参照しながら具体的に説明する。
なお、以下で説明する実施の形態は、いずれも本発明の一具体例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
(実施の形態)
[雑音抑圧装置の構成]
図4Aは、実施の形態に係る雑音抑圧装置の構成の一例を示す図である。図4Bは、実施の形態に係る雑音抑圧装置の最小構成の一例を示す図である。
図4Aに示す雑音抑圧装置1は、周波数変換部10と、雑音レベル推定部11と、事前SNR算出部12と、事後SNR推定部13と、重み係数算出部14と、抑圧係数算出部15と、時間信号変換部16とを備え、入力信号の周波数スペクトルを用いて、入力信号の雑音を抑圧するための抑圧係数を算出する。なお、図4Bに示す雑音抑圧装置100は、図4Aに示す雑音抑圧装置1の最小構成であり、雑音レベル推定部11と、重み係数算出部14と、抑圧係数算出部15とを備える。
以下、雑音抑圧装置1の構成について詳細に説明する。
周波数変換部10は、入力信号を周波数スペクトルへ変換する。本実施の形態では、周波数変換部10は、入力信号x(t)(tは時間信号のサンプル)を入力とし、フーリエ変換やウェーブレット変換などの周波数分析手法を用いて、周波数スペクトルX(k)(kは周波数のサンプル)に変換して出力する。
雑音レベル推定部11は、周波数変換部10で変換された周波数スペクトルを用いて、入力信号の推定雑音レベルを算出する。本実施の形態では、雑音レベル推定部11は、周波数スペクトルX(k)を入力とし、例えば周波数スペクトルの絶対値|X(k)|または入力信号x(t)のパワースペクトルX(k)^2(^2は2乗を表す)を用いて、雑音区間での時間移動平均等を行うことで雑音レベルN(k)^2を推定する。なお、雑音レベル推定部11は、雑音レベルN(k)^2と過去の雑音レベルとの重み付き平均を算出した平均雑音レベルを、上記雑音レベルN(k)^2に代えて推定するとしてもよい。
事前SNR算出部12は、周波数スペクトルと推定雑音レベルと過去に算出した抑圧係数とを用いて、重み付き信号対雑音比を示す事前SNRを算出する。本実施の形態では、事前SNR算出部12は、周波数スペクトルX(k)から算出した入力信号x(t)のパワースペクトルX(k)^2に対し、過去に算出した雑音抑圧係数W(k)の2乗を乗算することで雑音除去した信号レベル(重み付き信号レベル)と、雑音レベル推定部11より出力された雑音レベルN(k)^2との比(事前SNR)であるQ1(k)を算出する。
ここで、事前SNRは、入力信号レベルから過去の雑音抑圧係数を用いて雑音除去した信号と、推定雑音信号レベルとの比であるため、雑音区間では零に近づき、音声が存在する区間では零より大きな値を持つという特徴がある。そのため、この特徴を利用することで、後述する重み係数c1(k)、・・・、cN(k)を決定することができる。
なお、事前SNR算出部12は、雑音除去した信号レベル(重み付き信号レベル)を、スペクトルサブトラクション法を用いて、入力信号のパワースペクトルX(k)^2から雑音レベルN(k)^2を減算することで算出してもよい。また、事前SNR算出部12は、雑音除去した信号レベル(重み付き信号レベル)を、過去に算出した雑音抑圧係数W(k)用いて算出した信号レベルと、スペクトルサブトラクション法を用いて算出した信号レベルの重み付き平均をとることで算出してもよい。
事後SNR推定部13は、周波数スペクトルと推定雑音レベルとを用いて、入力信号対雑音比を示す事後SNRを算出する。本実施の形態では、事後SNR推定部13は、周波数スペクトルX(k)から算出した入力信号x(t)のパワースペクトルX(k)^2と、雑音レベル推定部11より出力された雑音レベルN(k)^2との比(事後SNR)であるQ2(k)を算出する。
ここで、事後SNRは、入力信号レベルと推定雑音信号レベルとの比であるため、雑音区間では1に近づき、音声が存在する区間では1より大きな値を持つという特徴がある。そのため、この特徴を利用して後述する重み係数c1(k)、・・・、cN(k)を決定することができる。
重み係数算出部14は、N個(Nは2以上)の重み係数を所定時間毎に算出する。また、重み係数算出部14は、事前SNRまたは事後SNRを用いて、上記N個の重み係数を算出する。本実施の形態では、重み係数算出部14は、少なくとも2つ以上のN個の統計分布モデルに対応する各確率変数に乗算する重み係数c1(k)、・・・、cN(k)を算出する。ここで、N個の統計分布モデルそれぞれは、例えば音声の振幅スペクトルの出現確率の分布を近似するモデルである。なお、N個の統計分布モデルそれぞれは、音声のパワースペクトルの出現確率の分布を近似するモデルであってもよく、位相の情報のないスペクトルの出現確率であればよい。また、N個の統計分布モデルは、正規分布モデルと、レイリー分布モデルとを含むとしてもよい。
時間信号変換部16は、抑圧係数算出部15で算出された現抑圧係数を周波数スペクトルに乗算した重み付け周波数スペクトルを、時間信号に変換する。本実施の形態では、時間信号変換部16は、抑圧係数算出部15で算出された抑圧係数W(k)を周波数スペクトルX(k)に乗算したスペクトルY(k)(重み付け周波数スペクトル)を時間信号である出力信号y(t)に変換して出力する。
抑圧係数算出部15は、N個の統計分布モデルをN個の重み係数により重み付けすることにより音声の同時分布モデルを算出し、算出した音声の同時分布モデルを事前確率として用いる事後確率に基づき入力信号の音声スペクトルの推定式を導出し、導出した入力信号の音声スペクトルの推定式と入力信号のレベルとに基づいて、抑圧係数を算出する。また、音声の同時分布モデルは、入力信号の音声スペクトルを示す出現確率を近似しており、抑圧係数算出部15はベイズの定理を利用し、音声の同時分布モデルと観測された雑音の確率を近似する雑音の統計分布モデルとの積を用いて事後確率分布を算出し、入力信号の音声スペクトルの推定式を導出する。
より具体的には、抑圧係数算出部15は、重み係数算出部14で算出されたN個の重み係数で重み付けしたN個の統計分布モデルの積を、周波数スペクトルに含まれる音声スペクトルの出現確率を近似する音声の同時分布モデルとして算出し、周波数スペクトルに含まれる雑音スペクトルの出現確率を近似する雑音の統計分布モデルを算出する。抑圧係数算出部15はベイズの定理を利用し、算出した雑音の統計分布モデルと算出した音声の同時分布モデルとの積から事後確率分布を算出し、入力信号の音声スペクトルの推定式を導出し、事前SNR、事後SNRおよび重み係数算出部14で算出されたN個の重み係数を用いて、音声スペクトルの推定式から抑圧係数を算出する。
本実施の形態では、抑圧係数算出部15は、MAP推定およびベイズの定理を利用して、入力信号の音声スペクトルの推定式を導出する。具体的には、抑圧係数算出部15は、それぞれ音声のスペクトルの出現確率を近似する少なくともN(N≧2)個の統計分布モデルの積で表現される音声の同時分布モデルと、雑音スペクトルの出現確率を近似する雑音分布モデルとの積から音声スペクトルの推定式を導出する。
ここで、音声の同時分布モデルは少なくとも2つ以上のN個の統計分布モデルの積で表現される。音声の同時分布モデルは、N個の統計分布モデルに対応した確率変数に、重み係数算出部より算出されたN個の重み係数が乗算されることにより得られる。そのため、N個の重み係数を変化させることで、様々な分布形状を表現することができる。つまり、入力信号に含まれる音声スペクトルの近似精度を上げることができる。
また、抑圧係数算出部15は、導出した音声スペクトルの推定式を音声スペクトルの振幅で偏微分し零とおくことで算出した雑音抑圧係数の演算式に従って、抑圧係数を導出する。具体的には、抑圧係数算出部15は、算出した雑音抑圧係数の演算式に、事前SNR(Q1(k))と、事後SNR(Q2(k))と、重み係数(c1(k)、・・・、cN(k))とを代入することにより抑圧係数を算出する。なお、雑音抑圧係数の演算式において、重み係数(c1(k)、・・・、cN(k))を所定時間毎に変化させることで、音声の同時分布モデルの変化を適応的(逐時を含む所定時間毎)に変化させることができる。つまり、雑音抑圧係数の演算式では、適応的に変化する重み係数を抑圧係数に対して直接反映することができる。これにより、より精度の高い抑圧係数の算出が可能になる。
[抑圧係数の演算式の導出]
抑圧係数を算出するために用いる雑音抑圧係数の演算式の導出について、以下説明する。
(音声スペクトルの推定式)
MAP推定とベイズの定理とを利用すると、音声の推定振幅値
Figure 0006339896
は(以下、特に断りがない限り、周波数成分を表すkを省略する)、次の(式1)に示すように、事後確率の概念を用いて算出される関数式(音声スペクトルの推定式)で表現することができる。
Figure 0006339896
ここで、Xは入力信号スペクトルの振幅を表し、Sは音声スペクトルの振幅を表す。
また、P(S)は、音声スペクトルの振幅Sの出現確率を表す音声の同時分布モデルを表し、事後確率を算出するために用いる事前確率に対応する。
また、P(X|S)は、雑音の統計分布モデルを表し、事後確率を算出するために用いる観測データに対応する。
ここで、例えば図5は、本実施の形態に係る観測データである雑音の統計分布モデルの一例を示す図である。なお、本実施の形態では、観測データである雑音の統計分布モデルは、雑音信号の尤度を示す統計分布モデル(例えば正規分布)であり、上記特許文献1または非特許文献1で用いられている雑音の統計分布モデルと同じものを用いるため詳細な説明は省略する。
(音声の同時分布モデル)
ここでは、説明を簡単にするため、音声スペクトルの推定式の導出に用いられ音声の同時分布モデルが2つの統計分布モデル(第1の統計分布モデルおよび第2の統計分布モデル)から生成されるとする。なお、音声の同時分布モデルが3つ以上の統計分布モデルから生成される場合においても同様であるため、3以上の場合については説明を省略する。
2つの統計分布モデルのうちの一方である第1の統計分布モデルをP(S)とし、2つの統計分布モデルのうちの他方である第2の統計分布モデルをP(S)とする。
また、重み係数算出部14で算出された重み係数を、c、cとおくと、音声の同時分布モデルP(S)は、次の(式2)のように表現できる。
P(S)=P(cS)・P(cS) (式2)
ここで、本実施の形態における音声の同時分布の概念について説明する。
入力信号を分析する際、音声スペクトルの出現確率は、入力信号の分析区間に含まれる音声信号レベルや雑音区間の有無に応じて、分布の形状が大きく異なる。このため、上記特許文献1または非特許文献1に開示されているような平均的な分布形状(平均的なものとして固定された分布)では近似精度が低くなってしまう。例えば上記特許文献1または非特許文献1で用いられているガンマ分布やラプラス分布は、零付近にピークのある分布であり、雑音区間では音声の振幅がないとみなせるため、音声の出現確率を表現するのに適しているといえる。しかしながら、音声が存在する区間においては、出現確率は図1や図2のような分布となるため、音声スペクトルの出現確率の近似精度が低くなる。つまり、音声スペクトルを近似するのに用いた統計分布モデルの形状の影響(近似精度)により音声信号の過抑圧が発生してしまう。
言い換えると、上記特許文献1または非特許文献1に開示されているように音声スペクトルの出現確率の分布を単一の統計分布で近似する場合、分析区間に応じて変動する入力信号の音声スペクトルの出現確率の分布の近似精度が低くなる。そして、近似精度の低い分布を用いて導出した音声スペクトルの推定式では、雑音抑圧効果を高くするにつれ、音声スペクトルも抑圧してしまい、音声の音質、明瞭度が低下してしまう。
それに対して、音声スペクトルの出現確率の近似に音声の同時分布モデルを用いることで近似精度を改善できる。以下具体的に説明する。なお、以下でも、音声の同時分布が2つの統計分布モデル(第1の統計分布モデルおよび第2の統計分布モデル)から生成されるとし、2つの統計分布モデルそれぞれが、音声の振幅スペクトルの出現確率の分布を近似するモデルであるとして説明を行う。
第1の統計分布モデルP(S)は、例えばガンマ分布であるとし、第2の統計分布モデルP(S)は例えばレイリー分布であるとする。
なお、ガンマ分布は、雑音区間における音声の出現確率に対する近似精度が高い。一方、レイリー分布は、音声のみ存在する音声区間おける音声の出現確率に対する近似精度が高い。また、音声区間において無音区間を含む場合、零(音声の振幅が零)付近の頻度が増加するため、徐々にガンマ分布へと近づいていく。そのため、本実施の形態では、雑音区間と音声区間とを効率的に表現できる2つの統計分布モデルを選択する。
また、重み係数算出部14から出力される重み係数のうち第1の統計分布モデルの重み係数をcとし、第2の統計分布モデルの重み係数をcとする。そして、事後SNRを
Figure 0006339896
とすると、c、cは、次の(式3)のように表現することができる。なお、(式3)は1例であり事後SNRを用いた重み係数算出部14はこの方法に限らない。
Figure 0006339896
ここで、MAX()は2値のうち大きな値を選択することを意味する。また、α(α>0)、およびβ(β>0)は定数である。
例えば、事後SNRは、入力信号レベルと推定雑音レベルとの比で表され、雑音区間であるとほぼ1前後の値となる。そのため、(式2)において、入力信号レベルが推定雑音信号レベルに近くなればなるほどcの値が大きくなり、cの値が小さくなる。つまり、雑音区間ではガンマ分布の特徴が支配的となる。
これに対して、入力信号レベルが推定雑音信号レベルより大きくなればなるほど、先ほどとは逆にcの値が大きくなり、cの値が小さくなり、レイリー分布の特徴が支配的となる。
よって、音声区間において入力信号のレベルに応じてガンマ分布とレイリー分布の支配率を適応的に変化させることができる。
換言すると、雑音区間(音声が存在しない区間)では入力信号の出現確率を零に近づけることで音声スペクトルの分布の近似精度を上げることができる。そのため、N個の統計分布モデルの一つにガンマ分布や指数分布、ラプラス分布といった零付近のピークが高くなるような分布を用いる。一方、音声が含まれる区間では、音声信号の過抑圧を防ぐために、N個の統計分布モデルの一つにレイリー分布や正規分布といった零付近のピークが高くならないような分布を用いる。
例えば、雑音区間(音声が存在しない区間)において、ガンマ分布のような零付近のピークが高くなるような統計分布の影響がより大きくなるよう重み係数の値を大きくし、逆に零付近のピークが低い統計分布の重み係数の値を小さくすることで、影響を小さくすることができる。このように算出したN個の統計分布の積で音声の同時分布を近似することで、入力信号の音声スペクトルの出現確率を零に近づけることができ、高い近似精度を得ることができる。
また、例えば、音声が含まれる区間では、雑音区間とは逆にガンマ分布のような零付近のピークが高くなるような統計分布の影響が小さくなるよう、重み係数の値を小さくし、零付近のピークが低い統計分布の影響が大きくなるよう重み係数の値を大きくする。このように算出したN個の統計分布の積で音声の同時分布を近似することで、音声が含まれる区間における入力信号の音声スペクトルの出現確率の近似精度が向上するので、音声を過抑圧することなく雑音を除去することができる。
なお、ここでは、重み係数を算出するのに事後SNRを利用する方法を示したが、事前SNRを利用することも可能である。また、他に雑音区間の検出結果を利用する、音声区間の検出結果を利用するといったことも可能である。
(実施例1)
図6および図7は、実施例1に係る音声の同時分布モデルの一例を示す図である。なお、図6および図7において、分布(統計分布)の形状を比較できるように、分布モデルは正規化して示されている。
具体的には、図6には、一例として、c=4かつc=0.1のときの音声の同時分布と、ガンマ分布とレイリー分布とが示されている。つまり、図6には、ガンマ分布とレイリー分布をc=4およびc=0.1の割合で生成した音声の同時分布モデルが示されている。
また、図7には、別の一例として、c=0.1かつc=1のときの音声の同時分布と、ガンマ分布とレイリー分布とが示されている。つまり、図7には、ガンマ分布とレイリー分布をc=0.1およびc=1の割合で生成した音声の同時分布モデルが示されている。
(実施例2)
図8は、実施例2に係る音声の同時分布モデルの一例を示す図である。図9は、図8に示す音声の同時分布モデルの効果を示す図である。なお、図8および図9において、分布の形状を比較できるように、分布モデルは正規化して示されている。
具体的には、図8には、一例として、α=0.01かつβ=0.85でありc=0.75かつc=0.1のときの音声の同時分布と、ガンマ分布とレイリー分布とが示されている。
図8に示す音声の同時分布は、図9に示すように、分析区間に雑音区間と音声区間とが同時に存在する場合の音声の振幅スペクトル(図3)を精度よく近似するのがわかる。
(実施例3)
図10は、実施例3に係る音声の同時分布モデルの一例を示す図である。図11は、図10に示す音声の同時分布モデルの効果を示す図である。なお、図10および図11において、分布の形状を比較できるように、分布モデルは正規化して示されている。
具体的には、図10には、一例として、α=0.01かつβ=0.85でありc=0.05かつc=0.8のときの音声の同時分布と、ガンマ分布とレイリー分布とが示されている。
図10に示す音声の同時分布は、図11に示すように、分析区間に、雑音区間がなく音声スペクトルのみが存在する場合の音声の振幅スペクトル(図2)を精度よく近似するのがわかる。
[雑音抑圧装置の動作]
まず、図12を用いて、雑音抑圧装置1の最小構成である雑音抑圧装置100の動作について説明し、図13を用いて、雑音抑圧装置1の動作について説明する。
図12は、実施の形態における雑音抑圧装置の最小構成が行う動作を示すフローチャートである。
まず、雑音抑圧装置100は、入力信号の推定雑音レベルを算出する(S10)。
次に、雑音抑圧装置100は、N個(Nは2以上)の重み係数を所定時間毎に算出する(S11)。
次に、雑音抑圧装置100は、N個の統計分布モデルをN個の重み係数により重み付けすることにより音声の同時分布モデルを算出し、算出した音声の同時分布モデルを事前確率として用いる事後確率に基づき入力信号の音声スペクトルの推定式を導出する(S12)。
最後に、雑音抑圧装置100は、導出した入力信号の音声スペクトルの推定式と入力信号レベルとに基づいて、抑圧係数を算出する(S13)。
図13は、実施の形態における雑音抑圧装置の動作を示すフローチャートである。
まず、音声信号などの入力信号x(t)が、雑音抑圧装置1に入力される(S101)。
次に、雑音抑圧装置1は、周波数変換を行う(S102)。具体的には、周波数変換部10は、入力信号x(t)を周波数スペクトルX(k)に変換する。
次に、雑音抑圧装置1は、入力信号の信号レベルを算出する(S103)。具体的には、雑音レベル推定部11は、信号レベルとして、周波数スペクトルX(k)の絶対値|X(k)|または入力信号x(t)のパワースペクトルX(k)^2を算出する。
次に、雑音抑圧装置1は、入力信号の推定雑音レベルを算出する(S104)。具体的には、雑音レベル推定部11は、周波数スペクトルX(k)の絶対値|X(k)|または入力信号x(t)のパワースペクトルX(k)^2を用いて雑音レベルN(k)^2を推定する。
次に、雑音抑圧装置1は、事前SNRを算出する(S105)。具体的には、事前SNR算出部12は、入力信号x(t)のパワースペクトルX(k)^2と推定雑音レベルN(k)^2と過去に算出した抑圧係数W(k)とを用いて、事前SNRであるQ1(k)を算出する。
次に、雑音抑圧装置1は、事後SNRを算出する(S106)。具体的には、事後SNR推定部13は、入力信号x(t)のパワースペクトルX(k)^2と推定雑音レベルN(k)^2とを用いて、事後SNRであるQ2(k)を算出する。
次に、雑音抑圧装置1は、重み係数を算出する(S107)。具体的には、重み係数算出部14は、少なくとも2つ以上のN個の統計分布モデルに対応する各確率変数に乗算する重み係数c1(k)、・・・、cN(k)を算出する。
次に、雑音抑圧装置1は、抑圧係数を算出する(S108)。具体的には、抑圧係数算出部15はベイズの定理より、音声の同時分布モデルを事前確率とし、雑音の統計分布モデルとの積から算出される事後確率を用いて入力信号の音声スペクトルの推定式を導出し、雑音抑圧装置1は、導出した入力信号の音声スペクトルの推定式と推定した入力信号レベルとに基づいて、抑圧係数を算出する。ここで、抑圧係数算出部15は、所定時間毎に、N個の統計分布モデルをN個の重み係数により重み付けすることにより音声の同時分布モデルを算出する。
次に、雑音抑圧装置1は、重み付け周波数スペクトルを算出する(S109)。具体的には、雑音抑圧装置1は、重み付け周波数スペクトルとして、抑圧係数算出部15で算出された抑圧係数W(k)を周波数スペクトルX(k)に乗算したスペクトルY(k)を算出する。すなわち、雑音抑圧装置1は、スペクトルY(k)=周波数スペクトルX(k)×抑圧係数W(k)を計算する。
最後に、雑音抑圧装置1は、時間信号変換を行う(S110)。具体的には、時間信号変換部16は、重み付け周波数スペクトルを時間信号である出力信号y(t)に変換して出力する。
[実施の形態の効果等]
以上のように、本実施の形態によれば、より推定精度の高い雑音抑圧係数を算出することができる雑音抑圧装置および雑音抑圧方法を提供することができる。
具体的には、入力信号に含まれる音声(音声スペクトル)の出現確率を高精度に近似することができるので、より推定精度の高い雑音抑圧係数を算出することができる。それにより、高い雑音抑圧性能を保ちつつ、音声を過抑圧することなく雑音を除去することが可能な雑音抑圧装置を実現することができる。
また、本実施の形態では、音声の同時分布モデルは少なくとも2つ以上のN個の統計分布モデルの積で表現される。N個の統計分布モデルに対応した確率変数に、重み係数算出部より算出されたN個の重み係数が乗算されることにより得られる音声の同時分布モデルは、様々な分布形状を表現することができるので、入力信号に含まれる音声スペクトルの近似精度を上げることができる。それにより、より推定精度の高い雑音抑圧係数を算出することができる。
換言すると、本実施の形態では、入力信号に含まれる音声スペクトルの出現確率を、分析区間の状態に応じて変化させた複数の分布の積で表現する。このようにすることで分析区間の音声スペクトルの状態に応じて適切な分布形状が得ることができ、音声スペクトルの出現確率の分布の近似精度が向上する。それにより、雑音抑圧効果を維持したまま、音声の明瞭度も確保可能となる雑音抑圧装置を実現することができる。
また、本実施の形態では、N個の統計分布モデルそれぞれが音声の振幅スペクトルの分布で構成されることにより、ガンマ分布等の正の値しか利用できない分布を利用することができるようになり、音声の同時分布モデルが表現できる分布形状の自由度が向上する。
なお、N個の統計分布モデルとしてガンマ分布とレイリー分布を例に説明をしたが、N個の統計分布を構成するものはこの二つに限ったものではない。例えば、音声が含まれる区間では、値が零付近のピークが周囲と比較して高くならない統計分布として、N個の統計分布モデルの一つにレイリー分布や正規分布といった分布を用いてもよい。
また、例えば第1の統計分布モデルにラプラス分布またはガンマ分布、第2の統計分布モデルにレイリー分布または正規分布を用いる場合(4通り)も考えられる。
このように、雑音区間を含む場合に近似効果の高い統計分布と、雑音区間を含まない場合に近似効果の高い統計分布をそれぞれ選択することにより、状況に応じて最適な分布形状の形成が可能となり近似精度の向上が望める。
さらに、N個の統計分布モデルを構成する統計分布モデルの組み合わせは、周波数スペクトルの少なくとも2つ以上の帯域それぞれにおいて、異なるとしてもよい。
このように、N個の統計分布モデルの組み合わせを、周波数スペクトルの周波数成分のうち少なくとも2つ以上の周波数成分において異なる組み合わせを持つようにすることにより、例えば低域および高域で構成される波長の異なる帯域において最適な構成を選択することができる。それにより、状況に応じてより最適な分布形状の形成が可能となり近似精度の向上が望める。
また、本実施の形態では、音声スペクトルの推定式から雑音を抑圧する雑音抑圧係数の演算式を算出するために、MAP推定法とベイズの定理を利用したが、それに限らない。最少二乗誤差法(MMSE法)とベイズの定理を利用し雑音抑圧係数を算出する等、その他の手法を用いて導出することも可能である。
(変形例)
図14は、実施の形態の変形例に係る雑音抑圧装置の構成の一例を示す図である。図15は、図14に示す重み係数算出部の詳細構成の一例である。図15において、Lは周波数の分割数を示し、Fは周波数のサンプル値を示す。
図14に示す雑音抑圧装置1Aは、実施の形態1に係る雑音抑圧装置1に対して、重み係数算出部24の構成が異なり、事後SNR推定部13の推定結果(事後SNR)が抑圧係数算出部15にのみ出力される点が異なる。以下、異なる点を中心に説明する。
重み係数算出部24は、周波数スペクトルの少なくとも2つ以上の帯域それぞれにおいて、N個の重み係数のうち少なくとも2つ以上異なる重み係数を含むN個の重み係数を算出する。
例えば、重み係数算出部24は、図15に示すような確率変数重み設定部241〜243を備える。
確率変数重み設定部241〜243は、周波数毎に異なる固定値(重み係数)を設定する。
確率変数重み設定部241は、Fの帯域(周波数帯域)における重み係数を設定し、確率変数重み設定部242は、F〜Fの帯域(周波数帯域)における重み係数を設定し、確率変数重み設定部243は、FL−1〜Fの帯域(周波数帯域)における重み係数を設定する。
このようにして、重み係数算出部24は、複数の帯域それぞれにおける重み係数を適応的に算出することができるので、雑音抑圧装置1Aは、状況に応じてより最適な分布形状の形成が可能となり近似精度の向上を図ることができる。
(その他の変形例)
以上、本発明の一つまたは複数の態様に係る雑音抑圧装置および雑音抑圧方法について、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本発明の一つまたは複数の態様の範囲内に含まれてもよい。例えば、以下のような場合も本発明に含まれる。
(1)上記の各装置は、具体的には、マイクロプロセッサ、ROM、RAM、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムである。前記RAMまたはハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
(2)上記の各装置を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。前記RAMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムLSIは、その機能を達成する。
(3)上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されているとしてもよい。前記ICカードまたは前記モジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。前記ICカードまたは前記モジュールは、上記の超多機能LSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ICカードまたは前記モジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。
(4)本発明は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。
また、本発明は、前記コンピュータプログラムまたは前記デジタル信号をコンピュータで読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD−ROM、MO、DVD、DVD−ROM、DVD−RAM、BD(Blu−ray(登録商標) Disc)、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されている前記デジタル信号であるとしてもよい。
また、本発明は、前記コンピュータプログラムまたは前記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。
また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。
また、前記プログラムまたは前記デジタル信号を前記記録媒体に記録して移送することにより、または前記プログラムまたは前記デジタル信号を、前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。
(5)上記実施の形態及び上記変形例をそれぞれ組み合わせるとしてもよい。
本発明は、マイクロホン近傍で発生する紙雑音等の雑音を自動的に抑圧することが可能であり、ハンズフリー機能を有する機器や会議システムにおける雑音抑圧装置、テレビ等の放送機器における雑音抑圧装置として利用可能である。
1、1A、100 雑音抑圧装置
10 周波数変換部
11 雑音レベル推定部
12 事前SNR算出部
13 事後SNR推定部
14、24 重み係数算出部
15 抑圧係数算出部
16 時間信号変換部
241、242、243 確率変数重み設定部

Claims (11)

  1. 入力信号の周波数スペクトルを用いて、前記入力信号の雑音を抑圧するための抑圧係数を算出する雑音抑圧装置であって、
    前記入力信号を周波数スペクトルへ変換する周波数変換部と、
    前記周波数スペクトルを用いて、前記入力信号の推定雑音レベルを算出する雑音レベル推定部と、
    N個(Nは2以上)の重み係数を所定時間毎に算出する重み係数算出部と、
    前記N個の統計分布モデルを前記N個の重み係数により重み付けすることにより音声の同時分布モデルを算出し、算出した前記音声の同時分布モデルを事前確率として用いる事後確率に基づき前記入力信号の音声スペクトルの推定式を導出し、導出した前記入力信号の音声スペクトルの推定式と前記入力信号のレベルとに基づいて、前記抑圧係数を算出する抑圧係数算出部と、を備える、
    雑音抑圧装置。
  2. 前記抑圧係数算出部は、
    前記音声の同時分布モデルと観測された雑音の確率を近似する雑音の統計分布モデルとの積を用いて、前記入力信号の音声スペクトルの推定式を導出する、
    請求項1に記載の雑音抑圧装置。
  3. 前記音声の同時分布モデルは、前記入力信号の音声スペクトルを示す出現確率を近似し、
    前記抑圧係数算出部は、
    前記N個の重み係数により重み付けした前記N個の統計分布モデルの積を、前記音声の同時分布モデルとして算出する、
    請求項1または2に記載の雑音抑圧装置。
  4. さらに、
    前記周波数スペクトルと前記推定雑音レベルと過去に算出した抑圧係数とを用いて、重み付き信号対雑音比を示す事前SNRを算出する事前SNR算出部と、
    前記周波数スペクトルと前記推定雑音レベルとを用いて、入力信号対雑音比を示す事後SNRを算出する事後SNR算出部と、
    前記抑圧係数算出部で算出された現抑圧係数を前記周波数スペクトルに乗算した重み付け周波数スペクトルを、時間信号に変換する時間信号変換部と、を備え、
    前記重み係数算出部は、前記事前SNRまたは前記事後SNRを用いて、前記N個の重み係数を算出し、
    前記抑圧係数算出部は、
    1)前記重み係数算出部で算出された前記N個の重み係数で重み付けした前記N個の統計分布モデルの積を、前記周波数スペクトルに含まれる音声スペクトルの出現確率を近似する前記音声の同時分布モデルとして算出し、2)前記周波数スペクトルに含まれる雑音スペクトルの出現確率を近似する雑音の統計分布モデルを算出し、3)算出した前記雑音の統計分布モデルと前記音声の同時分布モデルとの積から前記入力信号の音声スペクトルの推定式を導出し、4)前記事前SNR、前記事後SNRおよび前記重み係数算出部で算出された前記N個の重み係数を用いて、前記音声スペクトルの推定式から前記抑圧係数を算出する、
    請求項1〜3のいずれか1項に記載の雑音抑圧装置。
  5. 前記N個の統計分布モデルは、
    ガンマ分布モデルと、レイリー分布モデルとを含む、
    請求項1〜4のいずれか1項に記載の雑音抑圧装置。
  6. 前記N個の統計分布モデルを構成する統計分布モデルの組み合わせは、
    前記周波数スペクトルの少なくとも2つ以上の帯域それぞれにおいて、異なる、
    請求項4に記載の雑音抑圧装置。
  7. 前記重み係数算出部は、
    前記周波数スペクトルの少なくとも2つ以上の帯域それぞれにおいて、前記N個の重み係数のうち少なくとも2つ以上異なる重み係数を含む前記N個の重み係数を算出する、
    請求項4に記載の雑音抑圧装置。
  8. 前記N個の統計分布モデルは、音声の振幅スペクトルの出現確率を近似する、
    請求項1〜7のいずれか1項に記載の雑音抑圧装置。
  9. 前記抑圧係数算出部は、
    前記入力信号の音声スペクトルの推定式を、MAP(Maximum A posteriori Estimation)推定およびベイズの定理を利用して、式1に示す関数式として導出し、
    Figure 0006339896
    Xは前記入力信号のスペクトルの振幅を表し、Sは音声スペクトルの振幅を表し、P(S)は、Sの出現確率を表す前記音声の同時分布モデルを表し、P(X|S)は前記雑音の統計分布モデルを表す、
    請求項1〜8のいずれか1項に記載の雑音抑圧装置。
  10. 前記抑圧係数算出部は、
    導出した前記音声スペクトルの推定式を音声スペクトルの振幅で偏微分し零とおいた演算式に従って、前記抑圧係数を算出する、
    請求項9に記載の雑音抑圧装置。
  11. 入力信号の周波数スペクトルを用いて、前記入力信号の雑音を抑圧するための抑圧係数を算出する雑音抑圧方法であって、
    前記入力信号を周波数スペクトルへ変換する周波数変換ステップと、
    前記周波数スペクトルを用いて、前記入力信号の推定雑音レベルを算出する雑音レベル推定ステップと、
    N個(Nは2以上)の重み係数を所定時間毎に算出する重み係数算出ステップと、
    前記N個の統計分布モデルを前記N個の重み係数により重み付けすることにより前記音声の同時分布モデルを算出し、算出した前記音声の同時分布モデルを事前確率として用いる事後確率に基づいて前記入力信号の音声スペクトルの推定式を導出し、導出した前記入力信号の音声スペクトルの推定式と前記入力信号のレベルとに基づいて、前記抑圧係数を算出する抑圧係数算出ステップと、を含む、
    雑音抑圧方法。
JP2014177534A 2013-12-27 2014-09-01 雑音抑圧装置および雑音抑圧方法 Active JP6339896B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014177534A JP6339896B2 (ja) 2013-12-27 2014-09-01 雑音抑圧装置および雑音抑圧方法
US14/565,933 US9445189B2 (en) 2013-12-27 2014-12-10 Noise suppressing apparatus and noise suppressing method

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013273337 2013-12-27
JP2013273337 2013-12-27
JP2014177534A JP6339896B2 (ja) 2013-12-27 2014-09-01 雑音抑圧装置および雑音抑圧方法

Publications (2)

Publication Number Publication Date
JP2015143811A JP2015143811A (ja) 2015-08-06
JP6339896B2 true JP6339896B2 (ja) 2018-06-06

Family

ID=53483483

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014177534A Active JP6339896B2 (ja) 2013-12-27 2014-09-01 雑音抑圧装置および雑音抑圧方法

Country Status (2)

Country Link
US (1) US9445189B2 (ja)
JP (1) JP6339896B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6696424B2 (ja) * 2014-07-16 2020-05-20 日本電気株式会社 雑音抑圧システムと雑音抑圧方法及びプログラム
JP6559576B2 (ja) 2016-01-05 2019-08-14 株式会社東芝 雑音抑圧装置、雑音抑圧方法及びプログラム
US9812114B2 (en) * 2016-03-02 2017-11-07 Cirrus Logic, Inc. Systems and methods for controlling adaptive noise control gain
JP6837214B2 (ja) 2016-12-09 2021-03-03 パナソニックIpマネジメント株式会社 騒音マスキング装置、車両、及び、騒音マスキング方法
US10575267B2 (en) * 2017-01-05 2020-02-25 Samsung Electronics Co., Ltd System and method for providing weighted pattern demapper for Bluetooth® low energy long range
CN107872235B (zh) * 2017-02-24 2019-08-20 珠海市杰理科技股份有限公司 降低无线通信集成电路中信号干扰的方法和装置
CN113613112B (zh) * 2021-09-23 2024-03-29 三星半导体(中国)研究开发有限公司 抑制麦克风的风噪的方法和电子装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
JP4542790B2 (ja) * 2004-01-16 2010-09-15 株式会社東芝 ノイズサプレッサ及びノイズサプレッサを備えた音声通信装置
FI20045315A (fi) * 2004-08-30 2006-03-01 Nokia Corp Ääniaktiivisuuden havaitseminen äänisignaalissa
JP5183828B2 (ja) * 2010-09-21 2013-04-17 三菱電機株式会社 雑音抑圧装置
US20140316775A1 (en) * 2012-02-10 2014-10-23 Mitsubishi Electric Corporation Noise suppression device
WO2013132926A1 (ja) * 2012-03-06 2013-09-12 日本電信電話株式会社 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体

Also Published As

Publication number Publication date
JP2015143811A (ja) 2015-08-06
US9445189B2 (en) 2016-09-13
US20150189432A1 (en) 2015-07-02

Similar Documents

Publication Publication Date Title
JP6339896B2 (ja) 雑音抑圧装置および雑音抑圧方法
JP5528538B2 (ja) 雑音抑圧装置
JP5875609B2 (ja) 雑音抑圧装置
KR101737824B1 (ko) 잡음 환경의 입력신호로부터 잡음을 제거하는 방법 및 그 장치
JP4660578B2 (ja) 信号補正装置
JP6668995B2 (ja) 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム
JP2003534570A (ja) 適応ビームフォーマーにおいてノイズを抑制する方法
JP6135106B2 (ja) 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム
CN112309417B (zh) 风噪抑制的音频信号处理方法、装置、系统和可读介质
US20120155674A1 (en) Sound processing apparatus and recording medium storing a sound processing program
JP5187666B2 (ja) 雑音抑圧装置およびプログラム
US9418677B2 (en) Noise suppressing device, noise suppressing method, and a non-transitory computer-readable recording medium storing noise suppressing program
JP5443547B2 (ja) 信号処理装置
JP5609157B2 (ja) 係数設定装置および雑音抑圧装置
KR101557779B1 (ko) 두 개의 마이크로폰을 포함하는 통신장치에서의 잡음제거방법 및 장치
JP5772591B2 (ja) 音声信号処理装置
JP6361148B2 (ja) 雑音推定装置、方法及びプログラム
JP2006113515A (ja) ノイズサプレス装置、ノイズサプレス方法及び移動通信端末装置
JPWO2015093025A1 (ja) 音声処理装置、音声処理方法、及び、音声処理プログラム
US20210174820A1 (en) Signal processing apparatus, voice speech communication terminal, signal processing method, and signal processing program
JP6059130B2 (ja) 雑音抑圧方法とその装置とプログラム
JP5621637B2 (ja) 音響処理装置
JP6677110B2 (ja) 音声信号処理装置及び音声信号処理プログラム
JP6554853B2 (ja) 雑音抑圧装置及びプログラム
Saxena et al. Study of White Gaussian Noise With Varying Signal To Noise Ratio in Speech Signal using Wavelet

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170324

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180405

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180417

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180511

R150 Certificate of patent or registration of utility model

Ref document number: 6339896

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150