JP4058987B2

JP4058987B2 - 雑音除去装置及び雑音除去方法

Info

Publication number: JP4058987B2
Application number: JP2002111733A
Authority: JP
Inventors: 知宏成田; 裕三丸田
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2002-04-15
Filing date: 2002-04-15
Publication date: 2008-03-12
Anticipated expiration: 2022-04-15
Also published as: JP2003308092A

Description

【０００１】
【発明の属する技術分野】
この発明は雑音除去装置及び雑音除去方法に係り、特に周期性を持った非定常雑音環境下でも入力された音声に重畳する背景雑音を正確に除去できる雑音除去装置及方法に関するものである。
【０００２】
【従来の技術】
音声に重畳した雑音を除去するための簡単で有効な手法として、スペクトルサブトラクション法（以下SS法）が広く用いられる。ここではその一例として、文献「音声・音情報のディジタル信号処理」（鹿野清宏他、昭晃堂、P.146-147）に記載されているSS法を用いる従来の音声認識装置の説明を行う。
【０００３】
図１４は従来の音声認識装置の構成を示す図である。図１４において、１は背景雑音が重畳した音声を収集するマイクロホン、２は雑音重畳音声信号を周波数変換して雑音重畳音声パワースペクトルを時系列として出力する音響分析手段、３は雑音重畳音声パワースペクトルから音声区間か雑音区間かを判定し、切り替え手段２０を動作させ雑音区間モード４と音声区間モード５を切り替える音声区間判定手段である。
【０００４】
１６は雑音区間モード４において雑音パワースペクトルの平均値を算出する平均雑音パワースペクトル演算手段、１７は平均スペクトル演算手段が出力する平均雑音パワースペクトルを記憶する平均雑音パワースペクトルメモリ、１１は音声区間モード５において雑音重畳音声スペクトル時系列から平均パワースペクトルメモリに記憶されている平均雑音パワースペクトルを減算し雑音除去スペクトル時系列を出力する雑音除去手段である。
【０００５】
以下従来の音声認識装置の動作について説明する。マイクロホン１では背景雑音が重畳した音声を収集する。
【０００６】
音響分析手段２では雑音重畳音声入力に対して、一定時間ごとにフーリエ変換によりパワースペクトルを計算し、雑音重畳音声スペクトルの時系列として出力する。
【０００７】
音声区間判定手段３では音響分析手段２から出力される雑音重畳音声スペクトルから当該フレームが音声であるか雑音であるかを判定し、切り替え手段２０を動作させ雑音区間モード４と音声区間モード５を切り替える。一般的な雑音除去装置では入力パワーが閾値を超えたかどうかで音声区間かどうかを判定する。
【０００８】
平均雑音パワースペクトル演算手段１６では雑音区間モード４において、雑音パワースペクトル時系列を式（１）により周波数毎に平均し、平均雑音パワースペクトルとして出力する。
【０００９】
【数１】

【００１０】
式（1）において、N (ω)は平均雑音パワースペクトルの周波数ωにおけるパワー、Nは平均化するフレームの総数、X_i(ω)はフレームiにおける雑音スペクトルの周波数ωにおけるパワーである。
【００１１】
平均雑音パワースペクトルメモリ１７では平均雑音パワースペクトル演算手段１６が出力する平均雑音パワースペクトルを記憶する。
【００１２】
雑音除去手段１１では音声区間モード５において、音響分析手段２から出力される雑音重畳音声スペクトルの時系列の各雑音重畳音声スペクトルから以下の式（2）に従い雑音スペクトルを減算する。
【００１３】
【数２】

【００１４】
式（2）においてS(ω)は雑音除去音声スペクトルの周波数ωにおけるパワー、X(ω)は雑音重畳音声スペクトルの周波数ωにおけるパワー、N(ω)は平均雑音スペクトルの周波数ωにおけるパワーをそれぞれ表す。αはサブトラクト係数と呼ばれるパラメータで雑音成分を除去する程度を表す。通常認識精度を最大にするように調整する。またmax{ }は、括弧内の要素の中で最大の値の要素を返す関数である。
【００１５】
【発明が解決しようとする課題】
従来のSS法を用いた雑音除去装置は上記のように構成されているため、発声直前等の雑音の平均パワースペクトルと実際の音声区間に重畳している雑音パワースペクトルの差が小さい場合、即ち雑音の変動が小さい場合は比較的良好に動作する。しかし雑音区間に一定周期毎に発生する非定常雑音が混入している場合や、雑音の変動が大きく定常的な雑音区間が少ない場合、雑音区間が十分な長さを取れない場合等は、推定した雑音パワースペクトルと実際に音声に重畳している雑音パワースペクトルとの推定誤差が大きくなり、正確に雑音除去できないという問題があった。
【００１６】
本発明は上記の課題を解決するためのもので、まず雑音区間において周期的な非定常騒音の周期を学習し、雑音周期メモリに記憶する。その後音声区間において当該処理フレームが雑音周期と重なるかどうかを判定し、重なる場合には雑音重畳音声パワースペクトルから当該雑音モデルに係る雑音パワースペクトルを除去することで、一定周期毎に発生する非定常雑音下でも正確な雑音除去を行うことを目的としている。
【００１７】
また、雑音照合結果と雑音区間における雑音パワースペクトルの時系列を基に、予め大量のデータから学習しておいた標準雑音モデルメモリに記憶されている雑音モデルを逐次的に適応化しておき、新たに適応化した雑音モデルに係る雑音パワースペクトルを雑音重畳音声パワースペクトルから除去することで、雑音環境が時々刻々と変化するような場合においても正確な雑音除去を行うことを目的としている。
【００１８】
また、雑音照合結果を基に雑音区間における雑音パワースペクトルの時系列から新たに雑音モデルを学習しておき、新たに学習した雑音モデルに係る雑音パワースペクトルを雑音重畳音声パワースペクトルから除去することで、事前に学習した雑音環境と現在の雑音環境の間に変化があった場合においても正確な雑音除去を行うことを目的としている。
【００１９】
また、複数の周期性のある非定常雑音が存在する環境下においても当該雑音モデルに係る雑音パワースペクトルをそれぞれ除去することで、複数の雑音が重なるフレームにおいても正確な雑音除去を行うことを目的としている。
【００２０】
また、定常的な雑音の他に複数の周期性のある非定常雑音が存在する環境下においても当該雑音モデルに係る雑音パワースペクトルの他に雑音照合の際に最頻であった雑音モデルに係る雑音パワースペクトルをそれぞれ除去することで正確な雑音除去を行うことを目的としている。
【００２１】
また、雑音照合結果を基に雑音区間における雑音パワースペクトルの時系列から新たに学習した雑音モデルの学習データ量が閾値未満である場合には信頼性が小さいとして、予め大量のデータから学習しておいた標準雑音モデルメモリに記憶されている雑音モデルに係る雑音パワースペクトルを雑音重畳音声パワースペクトルから除去することで、雑音の変動が大きく定常的な雑音区間が少ない場合や雑音区間が十分な長さを取れない場合においても正確な雑音除去を行うことを目的としている。
【００２２】
【課題を解決する為の手段】
本発明に係る雑音除去装置は、雑音重畳音声信号を入力し、雑音重畳音声パワースペクトルを時系列として出力する音響分析手段と、
前記音響分析手段から出力される雑音重畳音声パワースペクトルから音声区間か雑音区間かを判定する音声区間判定手段と、
予め学習した複数の雑音モデルを記憶する標準雑音モデルメモリと、
前記音声区間判定手段が雑音区間と判定した場合に、前記標準雑音モデルメモリに記憶されている標準雑音モデルと前記音響分析手段から出力される雑音パワースペクトルとの照合を行い，各時刻における標準雑音モデルを選択する雑音照合手段と、
前記雑音照合手段から出力される標準雑音モデルの列をもとに，周期性をもつ周期性雑音モデルとその周期性を決定する雑音周期決定手段と、
前記雑音周期決定手段から出力される周期性雑音モデルとその出現時刻並びに周期性雑音モデル以外でもっとも頻繁に出現する最頻雑音モデルを記憶する雑音周期メモリと、
前記音声区間判定手段が音声区間と判定した場合に、その時刻が周期性雑音が出現する時刻と一致するかどうかを判定し、一致する場合には周期性雑音モデルを、そうでない場合には最頻雑音モデルを出力する雑音モデル選択手段と、
前記音響分析手段から出力される雑音重畳音声パワースペクトルから、前記標準雑音モデルメモリに記憶されている前記雑音モデル選択手段が出力した周期性雑音モデルまたは最頻雑音モデルに係るパワースペクトルを減算し、雑音除去音声パワースペクトルを出力する雑音除去手段とを備える。
【００２３】
また、本発明に係る雑音除去装置は、前記雑音照合手段から出力される各雑音モデルについて，同一の雑音モデルに該当する入力音声の雑音パワースペクトルと６：標準雑音モデルメモリに記憶されている該雑音モデルから，該雑音モデルの適応化を行い該雑音モデルを更新する雑音モデル適応化手段と、
前記雑音モデル適応化手段が出力する適応化後の雑音モデルをそのパワースペクトルト共に記憶する適応雑音モデルメモリとを設け、
雑音除去手段は前記音響分析手段から出力される雑音重畳音声パワースペクトルから、適応雑音モデルメモリに記憶された前記雑音モデル選択手段が出力した周期性雑音モデルまたは最頻雑音モデルに係るパワースペクトルを減算し、雑音除去音声パワースペクトルを出力する。
【００２４】
また、本発明に係る雑音除去装置は、前記雑音照合手段から出力される各雑音モデルについて，同一の雑音モデルに該当する入力信号の各時刻における雑音パワースペクトルから周期性雑音モデルまたは最頻雑音モデルを作成する雑音モデル学習手段と、
前記雑音モデル学習手段が出力する雑音モデルを記憶する学習雑音モデルメモリとを設け、
前記雑音除去手段は音響分析手段から出力される雑音重畳音声パワースペクトルから、前記学習標準雑音モデルメモリに記憶されている前記雑音モデル選択手段が出力した周期性雑音モデルまたは最頻雑音モデルに係るパワースペクトルを減算し、雑音除去音声パワースペクトルを出力する構成にされる。
【００２５】
また、本発明に係る雑音除去装置は、雑音周期メモリが、前記雑音周期決定手段から出力される周期性雑音モデルとその周期性から，その周期性雑音モデルの出現時刻・周期・継続時間・識別子を周期性雑音として記憶すると共に最頻雑音モデルとその識別子を最頻雑音として記憶し，
前記雑音モデル選択手段は、前記音声区間判定手段が音声区間と判定した場合に、各時刻についてその時刻が周期性雑音が出現する時刻と一致するかどうかを判定し、一致する場合には周期性雑音モデルの識別子を、そうでない場合は最頻雑音モデルの識別子出力し、
前記雑音除去手段は、前記雑音モデル選択手段が出力した識別子に対応する雑音モデルに係るパワースペクトルを、前記音響分析手段から出力される雑音重畳音声パワースペクトルから減算し、識別子が複数ある場合、複数の識別子に対応する複数の雑音モデルに係るパワースペクトルをそれぞれ減算し、雑音除去音声パワースペクトルを出力する。
【００２６】
また、本発明に係る雑音除去装置は、前記雑音除去手段が、前記雑音周期メモリに記憶されている周期性をもつ雑音モデルの出現時刻・周期・継続時間・識別子から当該時刻が周期性雑音の出現時刻と重なるかどうかを判定し、重なる場合には周期性雑音モデルの識別子と最頻雑音モデルの識別子を出力し、そうでない場合には最頻雑音モデルの識別子のみを出力する。
【００２７】
また、本発明に係る雑音除去装置は、前記雑音除去手段が、前記雑音モデル選択手段が出力した識別子が複数ある場合、前記音響分析手段から出力される雑音重畳音声パワースペクトルから、前記雑音モデル選択手段が出力した複数の識別子に対応する複数の雑音モデルに係るパワースペクトルをそれぞれ減算し、雑音除去音声パワースペクトルを出力する。
【００２８】
また、本発明に係る雑音除去装置は、前記雑音モデル選択手段が、前記雑音周期メモリに記憶されている周期性をもつ雑音モデルの出現時刻・周期・識別子から当該フレームが周期性雑音と重なるかどうかを判定し、重なりかつ前記学習雑音モデルメモリに記憶されている雑音モデルの学習データが所定の閾値以上の場合、前記学習雑音モデルメモリに記憶されている当該雑音モデルの識別子を、前記学習雑音モデルメモリにおける雑音モデルの学習データが所定の閾値未満の場合、前記標準雑音モデルメモリに記憶されている当該雑音モデルの識別子を出力し、
重ならずかつ前記学習雑音モデルメモリに記憶されている雑音モデルの学習データが第２の所定閾値以上の場合、前記学習雑音モデルメモリに記憶されている最頻雑音モデルの識別子を、前記学習雑音モデルメモリにおける雑音モデルの学習データが第２の所定の閾値未満の場合、前記標準雑音モデルメモリに記憶されている最頻雑音モデルの識別子を出力する。
【００２９】
また、本発明に係る雑音除去方法は、雑音重畳音声信号を入力し、雑音重畳音声パワースペクトルを時系列として出力する音響分析工程と、
前記音響分析工程から出力される雑音重畳音声パワースペクトルから音声区間か雑音区間かを判定する音声区間判定工程と、
前記音声区間判定工程が雑音区間と判定した場合に、予め学習した複数の雑音モデルを記憶した標準雑音モデルメモリの標準雑音モデルと前記音響分析工程から出力される雑音パワースペクトルとの照合を行い，各時刻における標準雑音モデルを選択する雑音照合工程と、
前記雑音照合工程から出力される標準雑音モデルの列をもとに，周期性をもつ周期性雑音モデルとその周期性を決定する雑音周期決定工程と、
前記雑音周期決定工程から出力される周期性雑音モデルとその出現時刻並びに周期性雑音モデル以外でもっとも頻繁に出現する最頻雑音モデルを雑音周期メモリに記憶する雑音周期工程と、
前記音声区間判定工程が音声区間と判定した場合に、その時刻が周期性雑音が出現する時刻と一致するかどうかを判定し、一致する場合には周期性雑音モデルを、そうでない場合には最頻雑音モデルを出力する雑音モデル選択工程と、
前記音響分析工程から出力される雑音重畳音声パワースペクトルから、前記標準雑音モデルメモリに記憶されている前記雑音モデル選択工程が出力した周期性雑音モデルまたは最頻雑音モデルに係るパワースペクトルを減算し、雑音除去音声パワースペクトルを出力する雑音除去工程とを備える。
【００３０】
【発明の実施の形態】
以下、この発明の実施の形態を説明する。
実施の形態１．
図１は、この発明の実施の形態１による雑音除去装置の構成を示す図である。図において、１は背景雑音が重畳した音声を収集するマイクロホン、２は雑音重畳音声信号を周波数変換して雑音重畳音声パワースペクトルを時系列として出力する音響分析手段、３は雑音重畳音声パワースペクトルから音声区間か雑音区間かを判定し、切り替え手段２０を動作させ雑音区間モード４と音声区間モード５を切り替える音声区間判定手段、６は予め大量のデータから学習した雑音モデルを記憶する６：標準雑音モデルメモリ、７は雑音区間モード４において、標準雑音モデルメモリ６に記憶されている雑音モデルと音響分析手段２が出力する雑音パワースペクトルの照合を行う雑音照合手段である。
【００３１】
８は雑音照合手段７の照合結果を基に雑音モデルの周期性を判定する雑音周期決定手段、９は雑音周期決定手段８が出力する周期性を持つ雑音モデルの周期・時刻・継続時間・識別子並びに最頻雑音モデルの識別子を記憶する雑音周期メモリ、１０は音声区間モード５において、現在処理フレームが周期性雑音と重なるかを判定し、重なる場合には当該雑音モデルの識別子を、そうでない場合には最頻雑音モデルの識別子を出力する雑音モデル選択手段、１１は、標準雑音モデルメモリ６に記憶されている雑音モデル選択手段１０が出力する識別子に対応する雑音モデルに係るパワースペクトルを雑音重畳音声パワースペクトルから減算し雑音除去スペクトル時系列を出力する雑音除去手段である。
【００３２】
図２は実施の形態１のフローチャートである。以下この図を基に動作を説明する。
【００３３】
マイクロホン１は一般的に話者の近傍に設置されて、背景雑音が重畳した音声を取り込む（S01）。
【００３４】
音響分析手段２はマイクロホン１が取り込んだ雑音重畳音声に対して、一定時間毎にシフトする分析フレーム毎にＦＦＴ（高速フーリエ変換）を用いて周波数変換を実施して、雑音重畳音声信号に係る分析フレーム毎のパワースペクトルを時系列として出力する（S02）。
【００３５】
音声区間判定手段３は音響分析手段２から出力される雑音重畳音声スペクトルから当該フレームが音声であるか雑音であるかを判定する。この音声区間判定手段３は一般的に用いられる入力パワーが閾値を超えたかどうかで音声区間かどうかを判定する（S03）。
【００３６】
音声区間判定手段３の結果から切り替え手段２０で雑音区間モード４と音声区間モード５を切り替える（S04）。
【００３７】
雑音照合手段７では、雑音区間モード４において標準雑音モデルメモリ６に記憶されている雑音モデルと音響分析手段２が出力する雑音パワースペクトルの照合を行う（S05）。標準雑音モデルメモリ６には予め大量のデータから学習しておいた様々な雑音モデルを記憶しておく。本実施の形態では雑音モデルとしてHMM（隠れマルコフモデル）を使用し、図３のように各雑音モデルが網羅的に接続しているエルゴティックHMMを用いる。また後述する雑音除去のために各雑音モデルに対応する平均パワースペクトルも同様に記憶しておく。ここでは雑音照合手法の一例として、文献「音声認識の基礎（下）」（Lawrence Rabiner, Biing-Hwang Juang 共著、NTTアドバンステクノロジ株式会社、P.125-127）に記載されている、Viterbiサーチを用いた最大尤度の演算方法を説明する。
【００３８】
時刻1〜Tまでの雑音パワースペクトル時系列Ｙ＝(y₁，y₂，・・・，y_r)に対して尤度最大となる一本の最適状態系列q=(q₁,q₂,・・・，q_r)を見つけるViterbiサーチは以下の４つのステップから構成される。
【００３９】
STEP1（初期化）
【００４０】
【数３】

【００４１】
【数４】

【００４２】
STEP2（繰り返し）
【００４３】
【数５】

【００４４】
【数６】

【００４５】
STEP3（終了）
【数７】

【００４６】
【数８】

【００４７】
STEP4（バックトラック）
【数９】

【００４８】
ここでδ_t(i)は一本のパス上の、時刻tでの最大尤度であり以下の式10で表される。
【００４９】
【数１０】

【００５０】
雑音モデル学習手段８では雑音照合手段７から出力される雑音モデルの照合結果系列q₁ q₂・・・q_Tから雑音の周期を決定し周期性を持つ雑音モデルの周期・時刻・継続時間・識別子を雑音周期メモリ９に記憶する。また同時に照合結果系列中の最頻雑音モデルの識別子を雑音周期メモリ９に記憶する（S06）。図４は雑音照合結果の例である。図４から雑音モデルＢが５フレーム間隔に２フレーム毎に出現しており周期性を持っていると判定する。この場合、雑音周期メモリに雑音モデルの周期T_C=5，出現時刻T_A={4,5,11,12,18,19}，継続時間T_D=2並びに識別子ID=Bを、関連付けを保ったまま記憶する。また照合結果系列の雑音モデルの中で最頻である識別子ID_max=Aも同様に記憶する。
なお、図４は間隔及び継続時間が完全に一致する例であるが、間隔及び継続時間に適当な閾値を設け誤差が閾値未満であれば周期性があると判定することもできる。
【００５１】
雑音モデル選択手段１０では音声区間モードにおいて雑音周期メモリ９に記憶されている周期性を持つ雑音モデルの周期・時刻・継続時間並びに識別子を基に現在処理フレームが周期性雑音と重なるかを判定する（S07）。現在処理フレームをt、雑音モデルの周期をT_C、最終非出現時刻をT_N、最終出現時刻をT_L、継続時間をT_Dとした場合、以下の式（１１）（１２）のどちらかを満たす場合、周期性雑音と重なると判定し当該雑音モデルの識別子IDを出力する。そうでない場合は定常雑音区間として最頻雑音モデルの識別子ID_maxを出力する。
【００５２】
T_N ＜t AND T_N＋T_D＞＝t （11）
T_L＋kT_C＋(k-1)T_D＜t AND T_L＋k(T_C＋T_D)＞＝t (k=1,2・・・) (12)
【００５３】
雑音除去手段１１では雑音モデル選択手段１０が周期性を持つ雑音モデルの識別子を出力した場合、標準雑音モデルメモリ６から周期性を持つ雑音モデルに係るパワースペクトルを選択し(S08)、これを雑音重畳音声パワースペクトルから減算し雑音除去スペクトル時系列を出力する(S10)。
【００５４】
【数１１】

【００５５】
式（13）においてS(ω)は雑音除去音声スペクトルの周波数ωにおけるパワー、X(ω)は雑音重畳音声スペクトルの周波数ωにおけるパワー、α_Cは周期性を持つ雑音モデルに対するサブトラクト係数、N_C (ω)は周期性を持つ雑音モデルに係るパワースペクトルの周波数ωにおけるパワーをそれぞれ表す。
【００５６】
また、雑音モデル選択手段１０が最頻雑音モデルの識別子を出力した場合、標準雑音モデルメモリ６から最頻雑音モデルに係るパワースペクトルを選択し(S09)、これを雑音重畳音声パワースペクトルから減算し雑音除去スペクトル時系列を出力する(S10)。
【００５７】
【数１２】

【００５８】
式（14）においてS(ω)は雑音除去音声スペクトルの周波数ωにおけるパワー、X(ω)は雑音重畳音声スペクトルの周波数ωにおけるパワー、α_Sは最頻雑音モデルに対するサブトラクト係、N_S(ω)は最頻雑音モデルに係るパワースペクトルの周波数ωにおけるパワーをそれぞれ表す。
【００５９】
以上のようにこの実施の形態１によれば、雑音区間において周期的な非定常騒音の周期を学習し、雑音周期メモリに記憶する。その後音声区間において当該処理フレームが雑音周期と重なるかどうかを判定し、重なる場合には雑音重畳音声パワースペクトルから当該雑音モデルに係る雑音パワースペクトルを除去するため、一定周期毎に発生する非定常雑音下でも正確な雑音除去を行うことができる。
【００６０】
また、複数の周期性のある非定常雑音が存在する環境下においても当該雑音モデルに係る雑音パワースペクトルを順番に除去することで、複数の雑音が重なるフレームにおいても正確な雑音除去を行うことができる。
【００６１】
【数１３】

【００６２】
式（15）においてS(ω)は雑音除去音声スペクトルの周波数ωにおけるパワー、X(ω)は雑音重畳音声スペクトルの周波数ωにおけるパワー、N₁(ω)は周期性を持つ雑音モデル１に係るパワースペクトルの周波数ωにおけるパワー、N₂(ω)は周期性を持つ雑音モデル２に係るパワースペクトルの周波数ωにおけるパワー、N_K(ω)は周期性を持つ雑音モデルKに係るパワースペクトルの周波数ωにおけるパワー、α₁〜α_Kはそれぞれの雑音モデルに対するサブトラクト係数である。
【００６３】
また、図2の(S08)の処理を図５の(S17)のように変形することで、定常的な雑音の他に複数の周期性のある非定常雑音が存在する環境下においても当該雑音モデルに係る雑音パワースペクトルの他に雑音照合の際に最頻であった雑音モデルに係る雑音パワースペクトルを順番に除去することで正確な雑音除去を行うことができる。
【００６４】
【数１４】

【００６５】
式（16）においてS(ω)は雑音除去音声スペクトルの周波数ωにおけるパワー、X(ω)は雑音重畳音声スペクトルの周波数ωにおけるパワー、N_C(ω)は周期性を持つ雑音モデルに係るパワースペクトルの周波数ωにおけるパワー、N_S(ω)は最頻雑音モデルに係るパワースペクトルの周波数ωにおけるパワー、α_Cは周期性を持つ雑音モデルに対するサブトラクト係数、α_Sは最頻雑音モデルに対するサブトラクト係数である。
【００６６】
実施の形態２．
実施の形態１による雑音除去装置では予め大量のデータから学習した標準雑音モデルを雑音除去に用いるため、事前に学習した雑音環境と現在の雑音環境の間に変化があった場合に正確な雑音除去ができないという問題がある。
図６は、この点を改善した発明の実施の形態２による雑音除去装置の構成を示す図である。図において、１２は音響分析手段から出力される雑音パワースペクトルから、雑音照合手段から出力される雑音モデルとの照合結果をもとに、雑音モデルの学習を行う雑音モデル学習手段、１３は雑音モデル学習手段が出力する雑音モデルを記憶する：学習雑音モデルメモリである。その他は実施の形態１と同様であるので説明を省略する。
【００６７】
図７は実施の形態２のフローチャートである。以下この図を基に動作を説明する。
【００６８】
(S01)〜(S07)は実施の形態１と同様であるので説明を省略する。
【００６９】
雑音モデル学習手段１２では音響分析手段２から出力される雑音重畳音声パワースペクトルから、雑音照合手段７から出力される雑音モデルとの照合結果をもとに、雑音モデルに係る雑音パワースペクトルの演算を行い、結果を学習雑音モデルメモリ１３に記憶する(S11)。例えば図４のような雑音照合結果の場合、以下の式（17）によって雑音モデルAの平均パワースペクトルを演算する。
【００７０】
【数１５】

【００７１】
式（17）において、N_A(ω)は雑音モデルAの平均スペクトルの周波数ωにおけるパワー、Φ_Aは雑音モデルAに割り当てられたフレームの集合、Nは雑音モデルAに割り当てられたフレームの総数、X_i(ω)はフレームiにおける雑音重畳音声スペクトルの周波数ωにおけるパワーである。
【００７２】
雑音除去手段１１では雑音モデル選択手段１０が周期性を持つ雑音モデルの識別子を出力した場合、学習雑音モデルメモリ１３から周期性を持つ雑音モデルに係るパワースペクトルを選択し(S12)、これを雑音重畳音声パワースペクトルから減算し雑音除去スペクトル時系列を出力する(S10)。
【００７３】
また、雑音モデル選択手段１０が最頻雑音モデルの識別子を出力した場合、学習雑音モデルメモリ１３から最頻雑音モデルに係るパワースペクトルを選択し(S13)、これを雑音重畳音声パワースペクトルから減算し雑音除去スペクトル時系列を出力する(S10)。
【００７４】
以上のようにこの実施の形態２によれば、雑音照合結果を基に雑音区間における入力パワースペクトルの時系列から新たに雑音モデルを学習しておき、新たに学習した雑音モデルに係る雑音パワースペクトルを雑音重畳音声パワースペクトルから除去することで、事前に学習した雑音環境と現在の雑音環境の間に変化があった場合においても正確な雑音除去を行うことができる。
【００７５】
また、複数の周期性のある非定常雑音が存在する環境下においても当該雑音モデルに係る雑音パワースペクトルを順番に除去することで、複数の雑音が重なるフレームにおいても正確な雑音除去を行うことができる。
【００７６】
また、図７の(S12)の処理を図８の(S18)のように変形することで、定常的な雑音の他に複数の周期性のある非定常雑音が存在する環境下においても当該雑音モデルに係る雑音パワースペクトルの他に雑音照合の際に最頻であった雑音モデルに係る雑音パワースペクトルを順番に除去することで正確な雑音除去を行うことができる。
【００７７】
実施の形態３．
実施の形態２による雑音除去装置では、音響分析手段２から出力される雑音重畳音声パワースペクトルから雑音照合手段７から出力される雑音モデルとの照合結果をもとに学習した雑音モデルを雑音除去に用いるため、雑音の変動が大きく定常的な雑音区間が少ない場合や雑音区間が十分な長さを取れない場合に正確な雑音除去ができないという問題があった。図９は、この点を改善した発明の実施の形態３による雑音除去装置の構成を示す図である。各手段、メモリは実施の形態２と同様であるので説明を省略する。
【００７８】
実施の形態２との差異は雑音モデル選択手段１０の選択方法である。図１０は実施の形態３の雑音モデル選択手段のフローチャートである。以下この図を基に動作を説明する。
【００７９】
雑音モデル選択手段１０では音声区間モード５において雑音周期メモリ９に記憶されている周期性を持つ雑音モデルの周期・時刻・継続時間並びに識別子を基に現在処理フレームが周期性雑音と重なるかを判定する（S07）。重なると判定した場合、周期性雑音モデルの学習データ数が閾値以上であるかを判定し(S20)、閾値以上である場合は学習雑音モデルメモリ１３から周期性雑音モデルに係るパワースペクトルを選択する(S12)。閾値未満である場合は標準雑音モデルメモリ６から周期性雑音モデルに係るパワースペクトルを選択する(S08)。
【００８０】
また重ならないと判定した場合、最頻雑音モデルの学習データ数が別の閾値以上であるかを判定し(S20)、閾値以上である場合は、学習雑音モデルメモリ１３から最頻雑音モデルに係るパワースペクトルを選択し(S13)、閾値未満である場合は標準雑音モデルメモリ６から最頻雑音モデルに係るパワースペクトルを選択する(S09)。
【００８１】
以上のようにこの実施の形態３によれば、雑音照合結果を基に雑音区間における入力パワースペクトルの時系列から新たに学習した雑音モデルの学習データ量が閾値未満である場合には信頼性が小さいとして、予め大量のデータから学習しておいた標準雑音モデルメモリ６に記憶されている雑音モデルに係る雑音パワースペクトルを雑音重畳音声パワースペクトルから除去することで、雑音の変動が大きく定常的な雑音区間が少ない場合や雑音区間が十分な長さ取れない場合においても正確な雑音除去を行うことができる。
【００８２】
実施の形態４．
実施の形態３による雑音除去装置では雑音モデルの学習データ数が閾値未満の場合には、予め大量のデータから学習した標準雑音モデルを雑音除去に用いるため、雑音環境が時々刻々と変化するような場合に正確に雑音除去できないという問題がある。図１１は、この点を改善した本発明の実施の形態４による雑音除去装置の構成を示す図である。
【００８３】
図において、１４は音響分析手段２から出力される雑音重畳音声パワースペクトルと雑音照合手段７から出力される雑音モデルとの照合結果をもとに、標準雑音モデルメモリ６に記憶されている標準雑音モデルの適応化を行う雑音モデル適応化手段、１５は雑音モデル適応化手段１４が出力する適応化後の雑音モデルを記憶する適応雑音モデルメモリである。その他は実施の形態１と同様であるので説明を省略する。
【００８４】
図１２は実施の形態４のフローチャートである。以下この図を基に動作を説明する。
【００８５】
(S01)〜(S07)は実施の形態１と同様であるので説明を省略する。雑音モデル適応化手段１４では音響分析手段２から出力される雑音重畳音声パワースペクトルと雑音照合手段７から出力される雑音モデルとの照合結果をもとに、標準雑音モデルメモリ６に記憶されている標準雑音モデルの適応化を行い、適応雑音モデルメモリ１３に記憶する(S14)。例えば図4のような雑音照合結果の場合、以下の式（１８）によって雑音モデルAの平均パワースペクトルを演算する。
【００８６】
【数１６】

【００８７】
式（18）において、N_A(ω)は雑音モデルAの平均スペクトルの周波数ωにおけるパワー、Φ_Aは同一雑音モデルAに割り当てられたフレームの集合、X_i(ω)はフレームiにおける雑音重畳音声スペクトルの周波数ωにおけるパワー、M_A(ω)は標準雑音モデルAの平均スペクトルの周波数ωにおけるパワー、nは学習データ数、Nは標準雑音モデル学習時のデータ数、wは新たに学習したデータに対する重みパラメータである。
【００８８】
式（18）では雑音照合結果系列に含まれる雑音モデルに対してのみ適応化を行っているが、音声認識で一般的に使用されているMLLR（重回帰写像）等の適応化方式を用いて、雑音照合結果に含まれていない雑音モデルについても適応化することもできる。
【００８９】
雑音除去手段１１では雑音モデル選択手段１０が周期性を持つ雑音モデルの識別子を出力した場合、適応雑音モデルメモリ１３から周期性を持つ雑音モデルに係るパワースペクトルを選択し(S15)、これを雑音重畳音声パワースペクトルから減算し雑音除去スペクトル時系列を出力する(S10)。
【００９０】
また、雑音モデル選択手段１０が最頻雑音モデルの識別子を出力した場合、適応雑音モデルメモリ１３から最頻雑音モデルに係るパワースペクトルを選択し(S16)、これを雑音重畳音声パワースペクトルから減算し雑音除去スペクトル時系列を出力する(S10)。
【００９１】
以上のようにこの実施の形態４によれば、雑音照合結果と雑音区間における入力パワースペクトルの時系列を基に、予め大量のデータから学習しておいた標準雑音モデルメモリに記憶されている雑音モデルを逐次的に適応化しておき、新たに適応化した雑音モデルに係る雑音パワースペクトルを雑音重畳音声パワースペクトルから除去することで、雑音環境が時々刻々と変化するような場合においても正確な雑音除去を行うことができる。
【００９２】
また、雑音照合の際に前回までの雑音照合結果と雑音区間における入力パワースペクトルの時系列を基に標準雑音モデルメモリに記憶されている雑音モデルを逐次的に適応化した雑音モデルを用いることで、雑音環境が時々刻々と変化するような場合においても正確な雑音除去ができる。
【００９３】
また、複数の周期性のある非定常雑音が存在する環境下においても当該雑音モデルに係る雑音パワースペクトルを順番に除去することで、複数の雑音が重なるフレームにおいても正確な雑音除去を行うことができる。
【００９４】
また、図１２の(S15)の処理を図１３の(S19)のように変形することで、定常的な雑音の他に複数の周期性のある非定常雑音が存在する環境下においても当該雑音モデルに係る雑音パワースペクトルの他に雑音照合の際に最頻であった雑音モデルに係る雑音パワースペクトルを順番に除去することで正確な雑音除去を行うことができる。
【００９５】
【発明の効果】
本発明は、まず雑音区間において周期的な非定常騒音の周期を学習し、雑音周期メモリに記憶する。その後音声区間において当該処理フレームが雑音周期と重なるかどうかを判定し、重なる場合には雑音重畳音声パワースペクトルから当該雑音モデルに係る雑音パワースペクトルを除去することで、一定周期毎に発生する非定常雑音下でも正確な雑音除去を行うことができる。
【００９６】
また、雑音照合結果と雑音区間における雑音パワースペクトルの時系列を基に、予め学習しておいた標準雑音モデルメモリに記憶されている雑音モデルを逐次的に適応化しておき、新たに適応化した雑音モデルに係る雑音パワースペクトルを雑音重畳音声パワースペクトルから除去することで、雑音環境が時々刻々と変化するような場合においても正確な雑音除去を行うことができる。
【００９７】
また、雑音照合結果を基に雑音区間における雑音パワースペクトルの時系列から新たに雑音モデルを学習しておき、新たに学習した雑音モデルに係る雑音パワースペクトルを雑音重畳音声パワースペクトルから除去することで、事前に学習した雑音環境と現在の雑音環境の間に変化があった場合においても正確な雑音除去を行うことができる。
【００９８】
また、複数の周期性のある非定常雑音が存在する環境下においても当該雑音モデルに係る雑音パワースペクトルをそれぞれ除去することで、複数の雑音が重なるフレームにおいても正確な雑音除去を行うことができる。
【００９９】
また、定常的な雑音の他に複数の周期性のある非定常雑音が存在する環境下においても当該雑音モデルに係る雑音パワースペクトルの他に雑音照合の際に最頻であった雑音モデルに係る雑音パワースペクトルをそれぞれ除去することで正確な雑音除去を行うことができる。
【０１００】
また、雑音照合結果を基に雑音区間における雑音パワースペクトルの時系列から新たに学習した雑音モデルの学習データ量が閾値未満である場合には信頼性が小さいとして、予め大量のデータから学習しておいた標準雑音モデルメモリに記憶されている雑音モデルに係る雑音パワースペクトルを雑音重畳音声パワースペクトルから除去することで、雑音の変動が大きく定常的な雑音区間が少ない場合や雑音区間が十分な長さを取れない場合においても正確な雑音除去を行うことができる。
【図面の簡単な説明】
【図１】この発明の実施の形態１による雑音除去装置の構成図である。。
【図２】実施の形態１のフローチャートである
【図３】標準雑音モデルメモリに記憶された雑音モデルの説明図である。
【図４】雑音照合手段の雑音照合結果説明図である。
【図５】実施の形態１の雑音モデル選択手段における他のフローチャートである。
【図６】この発明の実施の形態２による雑音除去装置の構成図である。
【図７】実施の形態２のフローチャートである。
【図８】実施の形態２の雑音モデル選択手段における他のフローチャートである。
【図９】この発明の実施の形態３による雑音除去装置の構成図である
【図１０】実施の形態３の雑音モデル選択手段のフローチャートである。
【図１１】発明の実施の形態４による雑音除去装置の構成図である。
【図１２】実施の形態４のフローチャートである。
【図１３】実施の形態４の雑音モデル選択手段における他のフローチャートである。
【図１４】従来の音声認識装置の構成図である。
【符号の説明】
１：マイクロホン、２：音響分析手段、３：音声区間判定手段、４：雑音区間モード、５：音声区間モード、６：標準雑音モデルメモリ、７：雑音照合手段、８：雑音周期決定手段、９：雑音周期メモリ、１０：雑音モデル選択手段、１１：雑音除去手段、１２：雑音モデル学習手段、１３：学習雑音モデルメモリ、１４：雑音モデル適応化手段、１５：適応雑音モデルメモリ、20：切り替え手段。

Claims

雑音重畳音声信号を入力し、雑音重畳音声パワースペクトルを時系列として出力する音響分析手段と、
前記音響分析手段から出力される雑音重畳音声パワースペクトルから音声区間か雑音区間かを判定する音声区間判定手段と、
予め学習した複数の雑音モデルを記憶する標準雑音モデルメモリと、
前記音声区間判定手段が雑音区間と判定した場合に、前記標準雑音モデルメモリに記憶されている標準雑音モデルと前記音響分析手段から出力される雑音パワースペクトルとの照合を行い，各時刻における標準雑音モデルを選択する雑音照合手段と、
前記雑音照合手段から出力される標準雑音モデルの列をもとに，周期性をもつ周期性雑音モデルとその周期性を決定する雑音周期決定手段と、
前記雑音周期決定手段から出力される周期性雑音モデルとその出現時刻並びに周期性雑音モデル以外でもっとも頻繁に出現する最頻雑音モデルを記憶する雑音周期メモリと、
前記音声区間判定手段が音声区間と判定した場合に、その時刻が周期性雑音が出現する時刻と一致するかどうかを判定し、一致する場合には周期性雑音モデルを、そうでない場合には最頻雑音モデルを出力する雑音モデル選択手段と、
前記音響分析手段から出力される雑音重畳音声パワースペクトルから、前記標準雑音モデルメモリに記憶されている前記雑音モデル選択手段が出力した周期性雑音モデルまたは最頻雑音モデルに係るパワースペクトルを減算し、雑音除去音声パワースペクトルを出力する雑音除去手段とを備えることを特徴とする雑音除去装置。
前記雑音照合手段から出力される各雑音モデルについて，同一の雑音モデルに該当する入力音声の雑音パワースペクトルと標準雑音モデルメモリに記憶されている該雑音モデルから，該雑音モデルの適応化を行い該雑音モデルを更新する雑音モデル適応化手段と、
前記雑音モデル適応化手段が出力する適応化後の雑音モデルをそのパワースペクトルと共に記憶する適応雑音モデルメモリとを設け、
雑音除去手段は前記音響分析手段から出力される雑音重畳音声パワースペクトルから、適応雑音モデルメモリに記憶された前記雑音モデル選択手段が出力した周期性雑音モデルまたは最頻雑音モデルに係るパワースペクトルを減算し、雑音除去音声パワースペクトルを出力することを特徴とする請求項１記載の雑音除去装置。
前記雑音照合手段から出力される各雑音モデルについて，同一の雑音モデルに該当する入力信号の各時刻における雑音パワースペクトルから周期性雑音モデルまたは最頻雑音モデルを作成する雑音モデル学習手段と、
前記雑音モデル学習手段が出力する雑音モデルを記憶する学習雑音モデルメモリとを設け、
前記雑音除去手段は音響分析手段から出力される雑音重畳音声パワースペクトルから、前記学習標準雑音モデルメモリに記憶されている前記雑音モデル選択手段が出力した周期性雑音モデルまたは最頻雑音モデルに係るパワースペクトルを減算し、雑音除去音声パワースペクトルを出力する構成にされたことを特徴とする請求項１記載の雑音除去装置。
雑音周期メモリは、前記雑音周期決定手段から出力される周期性雑音モデルとその周期性から，その周期性雑音モデルの出現時刻・周期・継続時間・識別子を周期性雑音として記憶すると共に最頻雑音モデルとその識別子を最頻雑音として記憶し，
前記雑音モデル選択手段は、前記音声区間判定手段が音声区間と判定した場合に、各時刻についてその時刻が周期性雑音が出現する時刻と一致するかどうかを判定し、一致する場合には周期性雑音モデルの識別子を、そうでない場合は最頻雑音モデルの識別子出力し、
前記雑音除去手段は、前記雑音モデル選択手段が出力した識別子に対応する雑音モデルに係るパワースペクトルを、前記音響分析手段から出力される雑音重畳音声パワースペクトルから減算し、識別子が複数ある場合、複数の識別子に対応する複数の雑音モデルに係るパワースペクトルをそれぞれ減算し、雑音除去音声パワースペクトルを出力することを特徴とする請求項１乃至３の何れかに記載の雑音除去装置。
前記雑音除去手段は、
前記雑音周期メモリに記憶されている周期性をもつ雑音モデルの出現時刻・周期・継続時間・識別子から当該時刻が周期性雑音の出現時刻と重なるかどうかを判定し、重なる場合には周期性雑音モデルの識別子と最頻雑音モデルの識別子を出力し、そうでない場合には最頻雑音モデルの識別子のみを出力すること
を特徴とする請求項４記載の雑音除去装置。
前記雑音除去手段は、
前記雑音モデル選択手段が出力した識別子が複数ある場合、前記音響分析手段から出力される雑音重畳音声パワースペクトルから、前記雑音モデル選択手段が出力した複数の識別子に対応する複数の雑音モデルに係るパワースペクトルをそれぞれ減算し、雑音除去音声パワースペクトルを出力すること
を特徴とする請求項４記載の雑音除去装置。
前記雑音モデル選択手段は、前記雑音周期メモリに記憶されている周期性をもつ雑音モデルの出現時刻・周期・識別子から当該フレームが周期性雑音と重なるかどうかを判定し、重なりかつ前記学習雑音モデルメモリに記憶されている雑音モデルの学習データ数が所定の閾値以上の場合、前記学習雑音モデルメモリに記憶されている当該雑音モデルの識別子を、前記学習雑音モデルメモリにおける雑音モデルの学習データ数が所定の閾値未満の場合、前記標準雑音モデルメモリに記憶されている当該雑音モデルの識別子を出力し、
重ならずかつ前記学習雑音モデルメモリに記憶されている雑音モデルの学習データ数が第２の所定閾値以上の場合、前記学習雑音モデルメモリに記憶されている最頻雑音モデルの識別子を、前記学習雑音モデルメモリにおける雑音モデルの学習データ数が第２の所定の閾値未満の場合、前記標準雑音モデルメモリに記憶されている最頻雑音モデルの識別子を出力すること
を特徴とする請求項３乃至６の何れかに記載の雑音除去装置。
雑音重畳音声信号を入力し、雑音重畳音声パワースペクトルを時系列として出力する音響分析工程と、
前記音響分析工程から出力される雑音重畳音声パワースペクトルから音声区間か雑音区間かを判定する音声区間判定工程と、
前記音声区間判定工程が雑音区間と判定した場合に、予め学習した複数の雑音モデルを記憶した標準雑音モデルメモリの標準雑音モデルと前記音響分析工程から出力される雑音パワースペクトルとの照合を行い，各時刻における標準雑音モデルを選択する雑音照合工程と、
前記雑音照合工程から出力される標準雑音モデルの列をもとに，周期性をもつ周期性雑音モデルとその周期性を決定する雑音周期決定工程と、
前記雑音周期決定工程から出力される周期性雑音モデルとその出現時刻並びに周期性雑音モデル以外でもっとも頻繁に出現する最頻雑音モデルを雑音周期メモリに記憶する雑音周期工程と、
前記音声区間判定工程が音声区間と判定した場合に、その時刻が周期性雑音が出現する時刻と一致するかどうかを判定し、一致する場合には周期性雑音モデルを、そうでない場合には最頻雑音モデルを出力する雑音モデル選択工程と、
前記音響分析工程から出力される雑音重畳音声パワースペクトルから、前記標準雑音モデルメモリに記憶されている前記雑音モデル選択工程が出力した周期性雑音モデルまたは最頻雑音モデルに係るパワースペクトルを減算し、雑音除去音声パワースペクトルを出力する雑音除去工程とを備えることを特徴とする雑音除去方法。