JP2016145944A - 雑音抑圧装置及びプログラム、雑音推定装置及びプログラム、並びに、snr推定装置及びプログラム - Google Patents

雑音抑圧装置及びプログラム、雑音推定装置及びプログラム、並びに、snr推定装置及びプログラム Download PDF

Info

Publication number
JP2016145944A
JP2016145944A JP2015023551A JP2015023551A JP2016145944A JP 2016145944 A JP2016145944 A JP 2016145944A JP 2015023551 A JP2015023551 A JP 2015023551A JP 2015023551 A JP2015023551 A JP 2015023551A JP 2016145944 A JP2016145944 A JP 2016145944A
Authority
JP
Japan
Prior art keywords
smoothing
target sound
power
input
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015023551A
Other languages
English (en)
Other versions
JP6596833B2 (ja
Inventor
大 藤枝
Masaru Fujieda
大 藤枝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2015023551A priority Critical patent/JP6596833B2/ja
Publication of JP2016145944A publication Critical patent/JP2016145944A/ja
Application granted granted Critical
Publication of JP6596833B2 publication Critical patent/JP6596833B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Noise Elimination (AREA)

Abstract

【課題】 抑圧精度が高い雑音抑圧装置を提供する。【解決手段】 この雑音抑圧装置では、入力信号を周波数解析して得た周波数帯域信号毎に雑音成分を抑圧する。帯域別の雑音抑圧部は、周波数帯域信号についてのパワーを算出するパワー算出部と、算出パワーの第1の平滑化値を用いて生成した第1の閾値と算出パワーを比較する第1の音声検出部と、算出パワーの第2の平滑化値を用いて生成した第2の閾値と算出パワーを比較する第2の音声検出部とを備える。第1の音声検出部は、第2の音声検出部による1単位時間前の検出結果が雑音区間のときに平滑化し、音声区間のときに平滑化を停止して第1の平滑化値を得る。第2の音声検出部は、第1の音声検出部による同一単位時間の検出結果が音声区間のときに平滑化を実行し、雑音区間のときに平滑化を停止して第2の平滑化値を得る。第1の平滑化値を帯域別の雑音抑圧後の信号とする。【選択図】 図1

Description

本発明は雑音抑圧装置及びプログラム、雑音推定装置及びプログラム、並びに、SNR推定装置及びプログラムに関し、例えば、入力信号に含まれる雑音成分を抑圧して音声成分を強調することを欲する通信端末、オーディオ機器、音声認識装置などに適用し得るものである。
自然環境において雑音はいたる所に存在するため、一般に実世界で音声を収録すると、観測信号には種々の発信元からの雑音が混入してしまう。それらの雑音は、人が聴くにしても音声の了解性を低下させ、また、音声認識装置等の音声処理装置に入力するにしても音声処理の精度(例えば音声認識率)を低下させる。そのため、入力信号に混入した雑音成分を抑圧して音声成分を強調する技術の需要は高く、これまでに様々な雑音抑圧方法(音声強調方法と呼ばれることもある)が開発されてきた。
一般的な雑音抑圧方法では、雑音のパワースペクトル(雑音パワースペクトル)又は周波数帯域ごとのSNR(Signal−to−Noise Ratio;信号対雑音比)が必要となる。また、SNRの算出には、入力信号のパワースペクトル(入力パワースペクトル)と雑音パワースペクトルを用いるため、結局は雑音パワースペクトルが分かれば良い。一般的な雑音パワースペクトルの推定では、まず、音声区間検出(Voice Activity Detection:VAD)によって雑音区間を特定し、次に、雑音区間の入力パワースペクトルを平均するというアプローチを取る。
以上の方法では、雑音パワースペクトルの推定精度はVADの性能に依存する。しかし、雑音成分に関する情報なしに高精度なVADを実現することは難しく、実現できたとしても多大な演算量が必要となる。
一方、特許文献1に記載の雑音抑圧方法は、雑音パワースペクトルの推定にVADを必要としない。以下、特許文献1に記載の雑音抑圧方法のアルゴリズムを簡単に説明する。なお、以下では、入力パワースペクトル及び雑音パワースペクトルのある周波数帯域の要素をそれぞれ、入力パワー及び雑音パワーと呼ぶ。
入力パワーに適切な重み係数を乗じて、得られた加重入力パワーを所定時間(T秒)分だけ記憶しておき、記憶された加重入力パワーの平均値を推定雑音パワーとする。適切な重み係数は、現在の入力パワーを直前の推定雑音パワーで除した予測事後SNRによって算出される。具体的には、予測事後SNRが所定の値G1以下では重み係数を1とし、予測事後SNRが値G1より大きく所定の値G2(G2>G1)以下では予測事後SNRに反比例するように重み係数を設定し、予測事後SNRが値G2より大きい場合には重み係数を0とする。また、重み係数が0の場合には、加重入力パワーは記憶されない。このようにして得られた推定雑音パワーで入力パワーを除することで事後SNRを算出し、得られた事後SNRに基づいて雑音抑圧(音声強調とも呼ばれる)が行われる。雑音抑圧には、MMSE−STSAと呼ばれる、非特許文献1に記載の方法を用いている。
特開2002−204175号公報
Y.Ephraim and D.Malah,"Speech enhancement using a minimum mean−square error short−time spectral amplitude estimator",IEEE ASSP,vol.ASSP−32,no.6,p.1109−1121,Dec.1984
特許文献1の記載技術は、固定の閾値G1、G2を用いているため、特に雑音レベルが高い場合に、音声成分を雑音成分として平均してしまい、雑音パワースペクトルの推定が不正確になるという問題がある。その結果、事後SNRの精度も低くなり、雑音抑圧の精度も低くなる。
そのため、抑圧処理や推定処理の精度が高い雑音抑圧装置及びプログラム、雑音推定装置及びプログラム、並びに、SNR推定装置及びプログラムが望まれている。
第1の本発明は、入力信号に含まれる雑音成分を抑圧し、目的音成分を強調する雑音抑圧装置において、(1)入力信号を周波数解析して入力スペクトルを算出する周波数解析部と、(2)上記周波数解析部が算出したいずれかの入力スペクトルの周波数帯域に対応し、その周波数帯域の信号における雑音成分を抑圧する、複数の帯域別雑音抑圧手段とを備え、(2)上記帯域別雑音抑圧手段は、(2−1)入力された周波数帯域信号について算出された第1の入力パワーに基づいた第1の特徴量と、内部で生成した第1の閾値とを比較して、入力された上記周波数帯域信号における第1の目的音区間の検出結果を得る第1のパラメータ算出部と、(2−2)入力された周波数帯域信号について算出された第2の入力パワーに基づいた第2の特徴量と、内部で生成した第2の閾値とを比較して、入力された上記周波数帯域信号における第2の目的音区間の検出結果を得る第2のパラメータ算出部と、(2−3)上記第1のパラメータ算出部が得た第1のパラメータと上記第2のパラメータ算出部が得た第2のパラメータとに基づいて、入力された上記周波数帯域信号に含まれる雑音成分を抑圧する雑音抑圧部とを有し、(2−1a)上記第1のパラメータ算出部は、上記第2のパラメータ算出部が所定の単位時間前に出力した、上記第2の目的音区間の検出結果を少なくとも含む第2のパラメータを用いて上記第1の閾値を生成し、(2−2a)上記第2のパラメータ算出部は、上記第1の目的音区間検出手段が同一の単位時間で出力した、上記第1の目的音区間の検出結果を少なくとも含む第2のパラメータを用いて上記第2の閾値を生成することを特徴とする。
第2の本発明は、入力信号における雑音パワーを推定する雑音推定装置において、(1)入力信号を周波数解析して入力スペクトルを算出する周波数解析部と、(2)上記周波数解析部が算出したいずれかの入力スペクトルの周波数帯域に対応し、その周波数帯域の信号における雑音パワーを推定する、複数の帯域別雑音推定手段と、(3)上記各帯域別雑音推定手段が得た、周波数帯域別の複数の雑音パワーの推定値を統合して最終的な雑音パワーの推定値を得る帯域別雑音パワー統合手段とを備え、(2)上記各帯域別雑音推定手段はそれぞれ、(2−1)入力された上記周波数帯域信号について算出された第1の入力パワーに基づいた第1の特徴量と、内部で生成した第1の閾値とを比較して、入力された上記周波数帯域信号における目的音区間を検出する第1のパラメータ算出部と、(2−2)入力された上記周波数帯域信号について算出された第2の入力パワーに基づいた第2の特徴量と、内部で生成した第2の閾値とを比較して、入力された上記周波数帯域信号における目的音区間を検出する第2のパラメータ算出部とを備え、(2−1)上記第1のパラメータ算出部は、(2−1−1)所定の単位時間前の上記第2の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第1の入力パワーを平滑化して第1の平滑化パワーを算出する第1の平滑化部と、(2−1−2)上記第1の平滑化パワーを少なくとも適用して、上記第1の閾値を算出する第1の閾値算出部と、(2−1−3)上記第1の入力パワーを上記第1の特徴量として上記第1の閾値と比較して目的音区間か否かを判定し、上記第1の目的音区間の検出結果を得る第1の目的音区間判定部とを有し、(2−2)上記第2のパラメータ算出部は、(2−2−1)同一の単位時間の上記第1の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第2の入力パワーを平滑化して第2の平滑化パワーを算出する第2の平滑化部と、(2−2−2)上記第2の平滑化パワーを少なくとも適用して、上記第2の閾値を算出する第2の閾値算出部と、(2−2−3)上記第2の入力パワーを上記第2の特徴量として上記第2の閾値と比較して目的音区間か否かを判定し、上記第2の目的音区間の検出結果を得る第2の目的音区間判定部とを有し、(4)上記第1の平滑化部又は上記第2の平滑化部は、所定の単位時間前の上記第2の目的音区間の検出結果又は同一の単位時間の上記第1の目的音区間の検出結果が目的音区間でない場合に平滑化し、目的音区間である場合に平滑化を停止し、上記第1の平滑化パワー又は上記第2の平滑化パワーを帯域別の雑音パワーの推定値として得ることを特徴とする。
第3の本発明は、入力信号におけるSNRを推定するSNR推定装置において、(1)入力信号を周波数解析して入力スペクトルを算出する周波数解析部と、(2)上記周波数解析部が算出したいずれかの入力スペクトルの周波数帯域に対応し、その周波数帯域の信号におけるSNRを推定する、複数の帯域別SNR推定手段と、(3)上記各帯域別SNR推定手段が得た、周波数帯域別の複数のSNR推定値を統合して最終的なSNRの推定値を得る帯域別SNR統合手段とを備え、(2)上記各帯域別雑音推定手段はそれぞれ、(2−1)入力された上記周波数帯域信号について算出された第1の入力パワーに基づいた第1の特徴量と、内部で生成した第1の閾値とを比較して、入力された上記周波数帯域信号における目的音区間を検出する第1のパラメータ算出部と、(2−2)入力された上記周波数帯域信号について算出された第2の入力パワーに基づいた第2の特徴量と、内部で生成した第2の閾値とを比較して、入力された上記周波数帯域信号における目的音区間を検出する第2のパラメータ算出部とを備え、
(2−1)上記第1のパラメータ算出部は、(2−1−1)所定の単位時間前の上記第2の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第1の入力パワーを平滑化して第1の平滑化パワーを算出する第1の平滑化部と、(2−1−2)上記第1の平滑化パワーを少なくとも適用して、上記第1の閾値を算出する第1の閾値算出部と、(2−1−3)上記第1の入力パワーを上記第1の特徴量として上記第1の閾値と比較して目的音区間か否かを判定し、上記第1の目的音区間の検出結果を得る第1の目的音区間判定部とを有し、(2−2)上記第2の目的音区間検出手段は、(2−2−1)同一の単位時間の上記第2の入力パワー及び上記第1の平滑化パワーに基づいてSNRの推定値を算出するSNR算出部と、(2−2−2)同一の単位時間の上記第1の目的音区間の検出結果に基づいて、平滑化の実行、停止を制御しながら、上記SNR推定値を平滑化してSNRの平滑値を算出する第2の平滑化部と、(2−2−3)上記SNR平滑値を少なくとも適用して、上記第2の閾値を算出する第2の閾値算出部と、(2−2−4)上記SNR推定値を上記第2の特徴量として上記第2の閾値と比較して目的音区間か否かを判定し、上記第2の目的音区間の検出結果を得る第2の目的音区間判定部とを有し、(4)上記SNR算出部からの上記SNR推定値を入力された上記周波数帯域信号における、その周波数帯域のSNRの推定値として得ることを特徴とする。
第4の本発明は、入力信号に含まれる雑音成分を抑圧し、目的音成分を強調する雑音抑圧プログラムであって、コンピュータを、(1)入力信号を周波数解析して入力スペクトルを算出する周波数解析部と、(2)上記周波数解析部が算出したいずれかの入力スペクトルの周波数帯域に対応し、その周波数帯域の信号における雑音成分を抑圧する、複数の帯域別雑音抑圧手段として機能させるものであり、(2)上記帯域別雑音抑圧手段は、(2−1)入力された周波数帯域信号について算出された第1の入力パワーに基づいた第1の特徴量と、内部で生成した第1の閾値とを比較して、入力された上記周波数帯域信号における第1の目的音区間の検出結果を得る第1のパラメータ算出部と、(2−2)入力された周波数帯域信号について算出された第2の入力パワーに基づいた第2の特徴量と、内部で生成した第2の閾値とを比較して、入力された上記周波数帯域信号における第2の目的音区間の検出結果を得る第2のパラメータ算出部と、(2−3)上記第1のパラメータ算出部が得た第1のパラメータと上記第2のパラメータ算出部が得た第2のパラメータとに基づいて、入力された上記周波数帯域信号に含まれる雑音成分を抑圧する雑音抑圧部とを有し、(2−1a)上記第1のパラメータ算出部は、上記第2のパラメータ算出部が所定の単位時間前に出力した、上記第2の目的音区間の検出結果を少なくとも含む第2のパラメータを用いて上記第1の閾値を生成し、(2−2a)上記第2のパラメータ算出部は、上記第1の目的音区間検出手段が同一の単位時間で出力した、上記第1の目的音区間の検出結果を少なくとも含む第2のパラメータを用いて上記第2の閾値を生成することを特徴とする。
第5の本発明は、入力信号における雑音パワーを推定する雑音推定プログラムであって、コンピュータを、(1)入力信号を周波数解析して入力スペクトルを算出する周波数解析部と、(2)上記周波数解析部が算出したいずれかの入力スペクトルの周波数帯域に対応し、その周波数帯域の信号における雑音パワーを推定する、複数の帯域別雑音推定手段と、(3)上記各帯域別雑音推定手段が得た、周波数帯域別の複数の雑音パワーの推定値を統合して最終的な雑音パワーの推定値を得る帯域別雑音パワー統合手段として機能させるものであり、(2)上記各帯域別雑音推定手段はそれぞれ、(2−1)入力された上記周波数帯域信号について算出された第1の入力パワーに基づいた第1の特徴量と、内部で生成した第1の閾値とを比較して、入力された上記周波数帯域信号における目的音区間を検出する第1のパラメータ算出部と、(2−2)入力された上記周波数帯域信号について算出された第2の入力パワーに基づいた第2の特徴量と、内部で生成した第2の閾値とを比較して、入力された上記周波数帯域信号における目的音区間を検出する第2のパラメータ算出部とを備え、(2−1)上記第1のパラメータ算出部は、(2−1−1)所定の単位時間前の上記第2の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第1の入力パワーを平滑化して第1の平滑化パワーを算出する第1の平滑化部と、(2−1−2)上記第1の平滑化パワーを少なくとも適用して、上記第1の閾値を算出する第1の閾値算出部と、(2−1−3)上記第1の入力パワーを上記第1の特徴量として上記第1の閾値と比較して目的音区間か否かを判定し、上記第1の目的音区間の検出結果を得る第1の目的音区間判定部とを有し、(2−2)上記第2のパラメータ算出部は、(2−2−1)同一の単位時間の上記第1の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第2の入力パワーを平滑化して第2の平滑化パワーを算出する第2の平滑化部と、(2−2−2)上記第2の平滑化パワーを少なくとも適用して、上記第2の閾値を算出する第2の閾値算出部と、(2−2−3)上記第2の入力パワーを上記第2の特徴量として上記第2の閾値と比較して目的音区間か否かを判定し、上記第2の目的音区間の検出結果を得る第2の目的音区間判定部とを有し、(4)上記第1の平滑化部又は上記第2の平滑化部は、所定の単位時間前の上記第2の目的音区間の検出結果又は同一の単位時間の上記第1の目的音区間の検出結果が目的音区間でない場合に平滑化し、目的音区間である場合に平滑化を停止し、上記第1の平滑化パワー又は上記第2の平滑化パワーを帯域別の雑音パワーの推定値として得ることを特徴とする。
第6の本発明は、入力信号におけるSNRを推定するSNR推定プログラムであって、コンピュータを、(1)入力信号を周波数解析して入力スペクトルを算出する周波数解析部と、(2)上記周波数解析部が算出したいずれかの入力スペクトルの周波数帯域に対応し、その周波数帯域の信号におけるSNRを推定する、複数の帯域別SNR推定手段と、(3)上記各帯域別SNR推定手段が得た、周波数帯域別の複数のSNR推定値を統合して最終的なSNRの推定値を得る帯域別SNR統合手段として機能させるものであり、(2)上記各帯域別雑音推定手段はそれぞれ、(2−1)入力された上記周波数帯域信号について算出された第1の入力パワーに基づいた第1の特徴量と、内部で生成した第1の閾値とを比較して、入力された上記周波数帯域信号における目的音区間を検出する第1のパラメータ算出部と、(2−2)入力された上記周波数帯域信号について算出された第2の入力パワーに基づいた第2の特徴量と、内部で生成した第2の閾値とを比較して、入力された上記周波数帯域信号における目的音区間を検出する第2のパラメータ算出部とを備え、(2−1)上記第1のパラメータ算出部は、(2−1−1)所定の単位時間前の上記第2の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第1の入力パワーを平滑化して第1の平滑化パワーを算出する第1の平滑化部と、(2−1−2)上記第1の平滑化パワーを少なくとも適用して、上記第1の閾値を算出する第1の閾値算出部と、(2−1−3)上記第1の入力パワーを上記第1の特徴量として上記第1の閾値と比較して目的音区間か否かを判定し、上記第1の目的音区間の検出結果を得る第1の目的音区間判定部とを有し、(2−2)上記第2のパラメータ算出部は、(2−2−1)同一の単位時間の上記第2の入力パワー及び上記第1の平滑化パワーに基づいてSNRの推定値を算出するSNR算出部と、(2−2−2)同一の単位時間の上記第1の目的音区間の検出結果に基づいて、平滑化の実行、停止を制御しながら、上記SNR推定値を平滑化してSNRの平滑値を算出する第2の平滑化部と、(2−2−3)上記SNR平滑値を少なくとも適用して、上記第2の閾値を算出する第2の閾値算出部と、(2−2−4)上記SNR推定値を上記第2の特徴量として上記第2の閾値と比較して目的音区間か否かを判定し、上記第2の目的音区間の検出結果を得る第2の目的音区間判定部とを有し、(4)上記SNR算出部からの上記SNR推定値を入力された上記周波数帯域信号における、その周波数帯域のSNRの推定値として得ることを特徴とする。
本発明によれば、抑圧処理や推定処理の精度が高い雑音抑圧装置及びプログラム、雑音推定装置及びプログラム、並びに、SNR推定装置及びプログラムを提供できる。
第1の実施形態の雑音抑圧装置の構成を示すブロック図である。 第1の実施形態の雑音抑圧装置における第1のパラメータ算出部の詳細構成を示すブロック図である。 第1の実施形態の雑音抑圧装置における第2のパラメータ算出部の詳細構成を示すブロック図である。 第1の実施形態をハングオーバー面で変形した雑音抑圧装置における第2のパラメータ算出部の詳細構成を示すブロック図である。 第2の実施形態の雑音抑圧装置における第1のパラメータ算出部の詳細構成を示すブロック図である。 第2の実施形態の雑音抑圧装置における第2のパラメータ算出部の詳細構成を示すブロック図である。 第3の実施形態の雑音抑圧装置における第2のパラメータ算出部の詳細構成を示すブロック図である。 実施形態の雑音推定装置の構成を示すブロック図である。 実施形態のSNR推定装置の構成を示すブロック図である。
(A)第1の実施形態
以下、本発明による雑音抑圧装置及びプログラムの第1の実施形態を、図面を参照しながら説明する。
(A−1)第1の実施形態の構成
図1は、第1の実施形態の雑音抑圧装置の構成を示すブロック図である。
第1の実施形態の雑音抑圧装置は、図1で示す構成部分をハードウェアで構成することも可能であり、また、CPUが実行するソフトウェア(雑音抑圧プログラム)とCPUとで実現することも可能であるが、いずれの実現方法を採用した場合であっても、機能的には図1で表すことができる。
図1において、第1の実施形態の雑音抑圧装置100は、周波数解析部101、帯域別雑音抑圧手段102−1〜102−M及び波形復元部103を有する。
周波数解析部101は、入力信号を周波数解析して周波数スペクトルを算出し、得られた入力スペクトルを帯域別雑音抑圧手段102−1〜102−Mに与えるものである。周波数解析には、例えば、高速フーリエ変換(Fast Fourier Transform:FFT)やウェーブレット変換やフィルタバンクなどを適用することができるが、FFTが好適である。以下では、入力スペクトルは複素数で与えられるものとする。
帯域別雑音抑圧手段102−1〜102−Mは、周波数解析部101によって得られるスペクトル(周波数帯域)の数(M)だけ設けられている。以下、各帯域別雑音抑圧手段102−1〜102−Mへの入力スペクトルにおける信号を周波数帯域信号と呼ぶこととする。
各帯域別雑音抑圧手段102−1〜102−M(以下、枝番「1」〜「M」を適宜省略して説明する)は、入力される周波数帯域信号は異なるが同様な構成を有する。帯域別雑音抑圧手段102は、自己へ入力された周波数帯域信号に対して後述するような雑音抑圧を行って、雑音抑圧後の周波数帯域信号を波形復元部103に与える。
波形復元部103は、全ての帯域別雑音抑圧手段102から与えられたスペクトル(雑音抑圧後の周波数帯域信号)でなる出カスペクトルを時間領域の信号に変換し、得られた時間領域信号を、当該雑音抑圧装置100の出力として次段の装置に出力する。時間領域の信号への変換は、周波数解析部101で用いた周波数解析技術と対をなす方法を用い、例えば、周波数解析技術がFFTであれば時間領域の信号への変換には逆高速フーリエ変換(Inverse FFT;IFFT)を用いる。
各帯域別雑音抑圧手段102はそれぞれ、パワー算出部110、第1のパラメータ算出部111、第2のパラメータ算出部112、単位時間遅延部113及び雑音抑圧部114を有する。
帯域別雑音抑圧手段102において、入力された周波数帯域信号はパワー算出部110及び雑音抑圧部114に与えられるようになされている。
パワー算出部110は、入力された周波数帯域信号のTP秒間のパワーを算出し、得られた入力パワーPinを第1のパラメータ算出部111、第2のパラメータ算出部112及び雑音抑圧部114に与えるものである。パワーの算出方法として、公知の算出方法を適用することができる。例えば、絶対値の2乗和若しくは絶対値和を入力パワーとして算出するようにしても良く、TP秒間の最大振幅を入力パワーとして算出するようにしても良い。
第1のパラメータ算出部111は、1単位時間前の第2のパラメータ算出部112の検出結果である第2の音声区間真偽値V2を含む第2のパラメータF2と、入力パワーPinとを用いて音声区間検出を行い、得られた音声区間真偽値(第1の音声区間真偽値)V1を含む第1のパラメータF1を第2のパラメータ算出部112及び雑音抑圧部114に与えるものである。上述した単位時間は、例えば、音声処理などで適用されている10ミリ秒等のフレームである。
第2のパラメータ算出部112は、第1のパラメータ算出部111の検出結果である第1の音声区間真偽値V1を少なくとも含む第1のパラメータF1と、入力パワーPinとを用いて音声区間検出を行い、得られた音声区間真偽値(第2の音声区間真偽値)V2を少なくとも含む第2のパラメータF2を、単位時間遅延部113を介して第1のパラメータ算出部111に与えると共に、上述した第2のパラメータF2を雑音抑圧部114に与えるものである。
単位時間遅延部113は、第2のパラメータ算出部112から出力された第2のパラメータF2を1単位時間だけ遅延させて第1のパラメータ算出部111に与えるものである。
雑音抑圧部114は、第1のパラメータF1、第2のパラメータF2及び入力パワーPinに基づいて、入力スペクトル(入力された周波数帯域信号)の雑音成分を抑圧し、得られた出力スペクトル(抑圧後の周波数帯域信号)を波形復元部103に与えるものである。雑音抑圧方法として、演算量の少ないスペクトル減算法が好適であるが、ウィナーフィルタ法やMMSE−STSAなどを用いても良い。
スペクトル減算法を用いる場合、抑庄ゲインは入力振幅(又はパワー)から雑音振幅(又はパワー)を減じた後、入力振幅(又はパワー)で除することで与えられる。但し、減算結果が負値となると抑圧ゲインが負となるため、抑圧ゲインが所定の最小ゲイン値を下回らないようにするなどの対策が取られる。一方、ウィナーフィルタやMMSE−STSAを用いる場合、抑圧ゲインは事後SNRと事前SNRに基づいて算出される。事前SNRは、Decision−Directed法を用いて事後SNRと1単位時間前の抑圧ゲインから推定できる。事後SNRは、入力パワーを雑音パワーで除することで算出される。
これらの抑圧方法では、第1のパラメータF1に含まれる後述する第1の平滑化パワーP1を必要とする。また、第2のパラメータF2に含まれる第2の音声区間真偽値V2に基づいて、第2の音声区間真偽値V2が真値(音声区間を表す値)ならば1を、第2の音声区間真偽値V2が偽値(雑音区間を表す値)ならば0又は非常に小さい値(例えば0.01)を入力された周波数帯域信号に乗じることにより雑音を抑圧する方法を、雑音抑圧部114で用いることができる。
第1のパラメータ算出部111及び第2のパラメータ算出部112はそれぞれ、既存の音声区間検出技術をアレンジして適用しているものである。第1のパラメータ算出部111が適用している既存の音声区間検出技術と、第2のパラメータ算出部112が適用している既存の音声区間検出技術とは異なっていても良く、また、同じであっても良い。
なお、図1では、第1のパラメータ算出部111及び第2のパラメータ算出部112がそれぞれ、入力パワーを利用して音声区間を検出する音声区間検出技術を適用しているため、共通に適用できるパワー算出部110を、第1のパラメータ算出部111及び第2のパラメータ算出部112の外部に記載しているが、第1のパラメータ算出部111及び第2のパラメータ算出部112の多くても一方だけが入力パワーを利用して音声区間を検出する音声区間検出技術を適用している場合には、共通するパワー算出部110は不要となる。また例えば、第1のパラメータ算出部111が利用する入力パワーがTP秒間の2乗和であり、第2のパラメータ算出部112が利用する入力パワーがTP秒間の最大振幅であるように、第1のパラメータ算出部111及び第2のパラメータ算出部112が利用する入力パワーが異なっていても良く、このような場合には、パワー算出部を、第1のパラメータ算出部111及び第2のパラメータ算出部112毎に別個に設けることを要する。
図2は、第1のパラメータ算出部111の詳細構成例を示すブロック図である。図2において、第1のパラメータ算出部111は、第1の平滑化部201、第1の閾値算出部202及び第1の音声区間判定部203を有する。
第1の平滑化部201は、第1の音声区間参考真偽値Vr1(=1単位時間前の第2の音声区間真偽値V2)に基づいて入力パワーPinを平滑化し、得られた第1の平滑化パワーP1を第1の閾値算出部202に与える。第1の平滑化部201は、第1の音声区間参考真偽値Vr1が偽値(すなわち、雑音区間を表す値)であるときには入力パワーPinを平滑化して第1の平滑化パワーP1を更新し、第1の音声区間参考真偽値Vr1が真値(すなわち、音声区間を表す値)であるときには第1の平滑化パワーP1を更新しない。従って、第1の平滑化パワーP1が意味するのは雑音パワーの平滑化値(雑音パワーの平均的な値)である。なお、平滑化方法や平滑化構成は何ら限定されるものではない。例えば、時定数が0.2秒の時定数フィルタを用いて平滑化する。
第1の閾値算出部202は、第1の平滑化パワーP1に1以上の値をとる所定の定数係数C1(以下、第1の係数と呼ぶ)を乗じて、入力パワーPinと比較する第1の閾値TH1を形成して第1の音声区間判定部203に与えるものである。第1の平滑化パワーP1が雑音パワーの平均的な値を意味し、これに乗算することで、音声パワーと雑音パワーとを切り分けるための第1の閾値TH1を定める第1の係数C1の値は、限定されるものではないが、例えば、2を適用することができる。
第1の音声区間判定部203は、第1の閾値TH1と入力パワーPinを比較して音声区間か否かを判定し、第1の音声区間真偽値V1を出力する。第1の音声区間判定部203は、入力パワーPinが第1の閾値TH1より大きければ第1の音声区間真偽値V1として真値を出力し、そうでなければ偽値を出力する。
第1のパラメータ算出部111は、以上のようにして得られた第1の平滑化パワーP1と第1の音声区間真偽値V1を、第1のパラメータF1として出力する。
図3は、第2のパラメータ算出部112の詳細構成例を示すブロック図である。図3において、第2のパラメータ算出部112は、第2の平滑化部301、第2の閾値算出部302及び第2の音声区間判定部303を有する。
第2の平滑化部301は、第2の音声区間参考真偽値Vr2(同一単位時間における第1の音声区間真偽値V1)に基づいて入力パワーPinを平滑化し、得られた第2の平滑化パワーP2を第2の閾値算出部302に与える。第2の平滑化部301は、第2の音声区間参考真偽値Vr2が真値(すなわち、音声区間を表す値)であるときには入力パワーPinを平滑化して第2の平滑化パワーP2を更新し、第2の音声区間参考真偽値Vr2が偽値(すなわち、雑音区間を表す値)であるときには第2の平滑化パワーP2を更新しない。従って、第2の平滑化パワーP2が意味するのは音声パワーの平滑化値(音声パワーの平均的な値)である。なお、平滑化方法や平滑化構成は何ら限定されるものではない。例えば、時定数が0.8秒の時定数フィルタを用いて平滑化する。
時定数は対象信号の追従性と平滑化された値の安定性とのトレードオフで決定されるものであり、上述した第1の平滑化部201は雑音区間の入力パワーPinを平滑化するのに対して、第2の平滑化部301は音声区間の入力パワーPinを平滑化するので、後者の方については安定性に重みをおき、後者の時定数の方を長くするように選定した。
第2の閾値算出部302は、第2の平滑化パワーP2に0より大きく1以下の値をとる所定の定数係数C2(以下、第2の係数と呼ぶ)を乗じて、入力パワーPinと比較する第2の閾値TH2を形成して第2の音声区間判定部303に与えるものである。第2の平滑化パワーP1が音声パワーの平均的な値を意味し、これに乗算することで、音声パワーと雑音パワーとを切り分けるための第2の閾値TH2を定める第2の係数C2の値は、限定されるものではないが、例えば、0.5を適用することができる。
第2の音声区間判定部303は、第2の閾値TH2と入力パワーPinを比較して音声区間か否かを判定し、第2の音声区間真偽値V2を出力する。第2の音声区間判定部303は、入力パワーPinが第2の閾値TH2より大きければ第2の音声区間真偽値V2として真値を出力し、そうでなければ偽値を出力する。
上述した第1のパラメータ算出部111及び/又は第2のパラメータ算出部112は、音声区間検出で多用されるハングオーバーを行うようにしても良い。ハングオーバーについては、後述する動作説明の項で明らかにする。
第2のパラメータ算出部112は、以上のようにして得られた第2の平滑化パワーP2と第2の音声区間真偽値V2を、第2のパラメータF2として出力する。
(A−2)第1の実施形態の動作
次に、上述した構成を有する第1の実施形態の雑音抑圧装置100の動作を説明する。まず、第1の実施形態の雑音抑圧装置100の全体動作を説明した後、第1のパラメータ算出部111及び第2のパラメータ算出部112の動作を順に説明し、さらに、ハングオーバー動作についても説明する。
図1において、第1の実施形態の雑音抑圧装置100への入力信号は周波数解析部101に与えられ、周波数解析部101において、入力信号は周波数解析されて周波数スペクトルが算出され、得られた入力スペクトルが帯域別雑音抑圧手段102(102−1〜102−M)に与えられる。
各帯域別雑音抑圧手段102において、それぞれ、入力された周波数帯域信号はパワー算出部110及び雑音抑圧部114に与えられる。
パワー算出部110において、入力された周波数帯域信号のTP秒間のパワーが算出され、得られた入力パワーPinが第1のパラメータ算出部111、第2のパラメータ算出部112及び雑音抑圧部114に与えられる。
第1のパラメータ算出部111においては、1単位時間前の第2のパラメータ算出部112の検出結果である第2の音声区間真偽値V2を含む第2のパラメータF2と、入力パワーPinとが適用されて音声区間の検出動作が実行され、得られた第1の音声区間真偽値V1を含む第1のパラメータF1が第2のパラメータ算出部112及び雑音抑圧部114に与えられる。
第2のパラメータ算出部112においても、第1のパラメータ算出部111の検出結果である第1の音声区間真偽値V1を少なくとも含む第1のパラメータF1と、入力パワーPinとが適用されて音声区間の検出動作が実行され、得られた第2の音声区間真偽値V2を少なくとも含む第2のパラメータF2が、単位時間遅延部113を介して第1のパラメータ算出部111に与えられると共に、雑音抑圧部114に与えられる。
雑音抑圧部114においては、第1のパラメータF1、第2のパラメータF2及び入力パワーPinに基づいて、入力スペクトル(入力された周波数帯域信号)の雑音成分が抑圧され、得られた出力スペクトル(抑圧後の周波数帯域信号)が波形復元部103に与えられる。
そして、波形復元部103において、全ての帯域別雑音抑圧手段102(102−1~102−M)から与えられたスペクトル(雑音抑圧後の周波数帯域信号)でなる出カスペクトルが時間領域の信号に変換され、得られた時間領域信号が、当該雑音抑圧装置100の出力として次段の装置に出力される。
次に、第1のパラメータ算出部111の動作を、図2を参照しながら説明する。
第1の平滑化部201においては、第1の音声区間参考真偽値Vr1(=1単位時間前の第2の音声区間真偽値V2)に基づいて入力パワーPinが平滑化される。すなわち、第1の音声区間参考真偽値Vr1が偽値であるときには入力パワーPinが平滑化されて第1の平滑化パワーP1が更新され、一方、第1の音声区間参考真偽値Vr1が真値であるときには第1の平滑化パワーP1が更新されずにその直前の第1の平滑化パワーP1が維持される。
上述のようにして得られた第1の平滑化パワーP1が第1の閾値算出部202及び第1の音声区間判定部203に与えられる。第1の閾値算出部202において、第1の平滑化パワーP1には、1以上の値をとる第1の係数C1が乗算される。そして、第1の音声区間判定部203において、乗算結果である第1の閾値TH1と、入力パワーPinとが比較され、入力パワーPinが第1の閾値TH1より大きいときに、真値の第1の音声区間真偽値V1が第1の音声区間判定部203から第2のパラメータ算出部112及び雑音抑圧部114へ出力され、入力パワーPinが第1の閾値TH1以下のときに、偽値の第1の音声区間真偽値V1が第1の音声区間判定部203から第2のパラメータ算出部112及び雑音抑圧部114へ出力される。なお、上述した第1の平滑化パワーP1も、雑音抑圧部114へ出力される。
次に、第2のパラメータ算出部112の動作を、図3を参照しながら説明する。
第2の平滑化部301においては、第2の音声区間参考真偽値Vr2(=同一の単位時間での第1の音声区間真偽値V1)に基づいて入力パワーPinが平滑化される。すなわち、第2の音声区間参考真偽値Vr2が真値であるときには入力パワーPinが平滑化されて第2の平滑化パワーP2が更新され、一方、第2の音声区間参考真偽値Vr2が偽値であるときには第2の平滑化パワーP2が更新されずにその直前の第2の平滑化パワーP2が維持される。
上述のようにして得られた第2の平滑化パワーP2が第2の閾値算出部302及び第2の音声区間判定部303に与えられる。第2の閾値算出部302において、第2の平滑化パワーP2には、0より大きく1以下の値をとる第2の係数C2が乗算される。そして、第2の音声区間判定部303において、乗算結果である第2の閾値TH2と、入力パワーPinとが比較され、入力パワーPinが第2の閾値TH2より大きいときに、真値の第2の音声区間真偽値V2が第2の音声区間判定部303から単位時間遅延部113(従って第1のパラメータ算出部111)及び雑音抑圧部114へ出力され、入力パワーPinが第2の閾値TH2以下のときに、偽値の第2の音声区間真偽値V2が単位時間遅延部113(従って第1のパラメータ算出部111)及び雑音抑圧部114へ出力される。なお、上述した第2の平滑化パワーP2も、雑音抑圧部114へ出力される。
以上では、ハングオーバー動作を実行しないように説明したが、第1の音声区間判定部203及び第2の音声区間判定部303の少なくとも一方でハングオーバー動作を実行するようにしても良い。
以下、第1の音声区間判定部203及び第2の音声区間判定部303の少なくとも一方で実行されるハングオーバー動作について説明する。なお、ハングオーバー動作は、第1の音声区間判定部203及び第2の音声区間判定部303の両方で行っても良く、また、一方で行っても良い(但し、第1の音声区間判定部203及び第2の音声区間判定部303の両方でハングオーバー動作を実行しない実施形態も本発明の一つの実施形態となる)。
第1の音声区間判定部203におけるハングオーバー動作と第2の音声区間判定部303におけるハングオーバー動作とは、同様であるので、以下では、第1の音声区間判定部203におけるハングオーバー動作のみを説明し、第2の音声区間判定部303におけるハングオーバー動作の説明は省略する。
第1の音声区間判定部203に関し、最後に真値が出力されてからの第1の経過時間Te1に対する所定のハングオーバー時間Thn1を予め定めておく。第1の音声区間判定部203は、第1の閾値TH1と入力パワーPinを比較した際、(i)Pin>TH1である場合には真値の第1の音声区間真偽値V1を出カすると共に第1の経過時間Te1を0クリアし、(ii)Pin≦TH1且つTe1≦Thn1である場合には真値の第1の音声区間真偽値V1を出カすると共に第1の経過時間Te1を1単位時間分だけインクリメントし、(iii)Pin≦TH1且つTe1>Thn1である場合には偽値の第1の音声区間真偽値V1を出力する。
ここで、第1の音声区間判定部203及び第2の音声区間判定部303の両方でハングオーバー動作を行う場合において、第1の音声区間判定部203におけるハングオーバー時間Thn1と、第2の音声区間判定部303におけるハングオーバー時間Thn2とは同じであっても良く、また、異なっていても良い。以下では、異なるようにさせる例を説明する。第1の実施形態では、第1の音声区間真偽値V1は第2のパラメータ算出部112において音声パワーの平均的な値の推定に用いられるので、雑音区間を誤って音声区間と判定させないために、第1の音声区間判定部203のハングオーバー時間Thn1は短めに設定される。逆に、第2の音声区間真偽値V2は第1のパラメータ算出部111において雑音パワーの平均的な値の推定に用いられるので、音声区間を誤って雑音区間と判定させないために、第2の音声区間判定部303のハングオーバー時間Thn2は長めに設定される。例えば、第1の音声区間判定部203におけるハングオーバー時間Thn1を0.1秒とし、第2の音声区間判定部303におけるハングオーバー時間Thn2を0.2秒とする設定が好適である。
(A−3)第1の実施形態の構成に至った考え方
次に、第1の実施形態の雑音抑圧検出装置100の構成に至った考え方(後述する実施形態も同様である)を説明する。
従来技術のアプローチは、雑音パワーを推定してから音声区間を検出するか、音声区間を検出してから雑音パワーを推定するかであった。特許文献1の記載技術における重み係数は、音声が強く優勢なら0で、雑音が強く優勢なら1となるので、音声区間を検出していることとほぼ同義である。このようなアプローチでは、先に実施された方の推定又は検出が不正確となり、後に実施される方の推定又は検出も不正確となる。
一方、第1の実施形態では、第1のパラメータ算出部及び第2のパラメータ算出部を有し、なおかつ相互に情報をやり取りする。すなわち、例えば、両パラメータ算出部が、雑音パワーを推定してから音声区間を検出する構成であったとして、一方のパラメータ算出部において雑音パワーを推定する際に他方のパラメータ算出部から出力された音声区間の検出結果を利用することによって、精度の高い雑音パワー推定が可能となる。なお、実用的には、例えば、一方のパラメータ算出部で雑音パワーを推定し、他方のパラメータ算出部で音声パワーを推定するといったように(第1の実施形態はこの場合に該当する)、両パラメータ算出部が異なる観点で推定及び検出を行うことで、さらに精度を向上させる。
このように、周波数帯域ごとに二つのパラメータ算出部を用意して、それらがパラメータを相互に交換しながら有機的にパラメータを算出することによって、帯域ごとの雑音パワー(後述する第3の実施形態ではSNR)の推定、音声区間検出を高い精度で実現することができる。そして、これらの結果を雑音抑圧に応用することで、より少ない歪みで音声を強調した出力音声を得ることができる。
(A−4)第1の実施形態の効果
第1の実施形態によれば、2つのパラメータ算出部が互いのパラメータ(音声パワーと雑音パワーの平均的な値の推定値)の更新を補い合うことで、パラメータの算出精度及び音声区間の検出精度を向上させることができるため、自然性と明瞭度の高い雑音抑圧を実現できる。
(A−5)第1の実施形態の変形実施形態
上述した第1の実施形態の説明では、第2のパラメータ算出部112(言い換えると第2の音声区間判定部303)がハングオーバー動作をしても良く、また、ハングオーバー動作をしなくても良い旨を説明した。ハングオーバー動作を行う場合であれば、第1のパラメータ算出部111にフィードバックされる音声区間真偽値も雑音抑圧部114に出力される音声区間真偽値もハングオーバー動作されたものとなり、ハングオーバー動作を行なわない場合であれば、第1のパラメータ算出部111にフィードバックされる雑音抑圧部114も次段の装置に出力される音声区間真偽値もハングオーバー動作がなされていないものとなる。
図4は、第1の実施形態をハングオーバー面で変形した帯域別抑圧手段102A内の第2のパラメータ算出部112Aの構成を示すブロック図である。
この第2のパラメータ算出部112Aにおいては、ハングオーバー動作を実行しない第2の音声区間判定部303に加えて、第2の音声区間判定部303から出力された第2の音声区間真偽値V2に対してハングオーバー動作を実行するハングオーバー部304が設けられている。第2の音声区間判定部303から出力された第2の音声区間真偽値V2は、単位時間遅延部113を介して第1のパラメータ算出部111に与えられると共に、ハングオーバー部304を介して次段の装置に与えられる。
ハングオーバー部304には、自己が出力する音声区間真偽値V0に真値が設定されてからの経過時間Te0に対する所定のハングオーバー時間Thn0を予め定めておく。ハングオーバー部304は、(i)入力された第2の音声区間真偽値V2が真値である場合には真値の音声区間真偽値V0を出カすると共に経過時間Te0を0クリアし、(ii)第2の音声区間真偽値V2が偽値で且つTe0≦Thn0である場合には真値の音声区間真偽値V0を出カすると共に経過時間Te0を1単位時間分だけインクリメントし、(iii)第2の音声区間真偽値V2が偽値で且つTe0>Thn0である場合には偽値の音声区間真偽値V0を出力する。ハングオーバー時間Thn0は、音声区間真偽値V0の用途によって最適な値は異なるが、例えば、音声認識に利用する場合であれば0.5秒が好適である。
(B)第2の実施形態
次に、本発明による雑音除去装置及びプログラムの第2の実施形態を、図面を参照しながら説明する。
第1の実施形態では、平滑化パワー(特に雑音パワーの平均値を意味する第1の平滑化パワー)の算出及び音声区間の判定に際して、平滑化パワーと入力パワーとの比較のために所定の定数係数C1及びC2を用いていたが、最適な係数は音声と雑音のパワーバランスで異なる。そこで、第1のパラメータ算出部及び第2のパラメータ算出部で授受するパラメータを、第1の実施形態では音声区間真偽値のみとしていたが、第2の実施形態では音声区間真偽値に加えて平滑化パワーを含め、該平滑化パワーをも利用して閾値を更新することとした。
(B−1)第2の実施形態の構成
第2の実施形態の雑音除去装置(以下、符号「100B」を用いる)の全体構成も、上述した図1で表すことができる。但し、第1のパラメータ算出部(以下、符号「111B」を用いる)及び第2のパラメータ算出部(以下、符号「112B」を用いる)の詳細な構成が第1の実施形態と異なっている。そのため、以下では、主として、第1のパラメータ算出部111B及び第2のパラメータ算出部112Bの詳細構成を説明する。
図5は、第2の実施形態における第1のパラメータ算出部111Bの詳細構成を示すブロック図であり、上述した第1の実施形態に係る図2との同一、対応部分には同一、対応符号を付して示している。
図5において、第1のパラメータ算出部111Bは、第1の平滑化部201、第1の閾値算出部202B及び第1の音声区間判定部203を有する。第1の平滑化部201及び第1の音声区間判定部203は第1の実施形態のものと同様であるので、その機能説明は省略する。
第2の実施形態における第1の閾値算出部202Bは、第1の平滑化部201から出力された第1の平滑化パワーP1と、単位時間遅延部113を介して第2のパラメータ算出部112Bから与えられた第1の参考平滑化パワーPr1(=1単位時間前の第2の平滑化パワーP2)とに基づいて、入力パワーPinと比較する第1の閾値TH1Bを形成して第1の音声区間判定部203に与えるものである。
第1の閾値TH1Bの形成に用いられる2つの値のうち、第1の平滑化パワーP1が雑音パワーの平均的な値を意味し、第1の参考平滑化パワーPr1が1単位時間前の音声パワーの平均的な値を意味するので、第1の閾値TH1Bとして、第1の平滑化パワーP1及び第1の参考平滑化パワーPr1の平均値を適用することが好ましい。平均値は相加平均(P1+Pr1)/2であっても相乗平均(P1×Pr1)1/2であっても良い。第1の閾値TH1Bとして平均値以外を適用する場合においては、第1の閾値TH1Bを、第1の平滑化パワーP1より大きく平均値より小さい値とし、第1の音声区間判定部203で雑音区間より音声区間と判定される機会を多くすることが好ましい。演算の容易性などから、第1の閾値TH1Bの値として相加平均(P1+Pr1)/2が好適である。
第2の実施形態の場合、第1のパラメータ算出部111Bは、第1の平滑化部201から出力された第1の平滑化パワーP1と第1の音声区間判定部203から出力された第1の音声区間真偽値V1とを含む第1のパラメータF1を第2のパラメータ算出部112B及び雑音抑圧部114に与える。
図12は、第2の実施形態における第2のパラメータ算出部112Bの詳細構成を示すブロック図であり、上述した第1の実施形態に係る図3との同一、対応部分には同一、対応符号を付して示している。
図12において、第2のパラメータ算出部112Bは、第2の平滑化部301、第2の閾値算出部302B及び第2の音声区間判定部303を有する。第2の平滑化部301及び第2の音声区間判定部303は第1の実施形態のものと同様であるので、その機能説明は省略する。
第2の実施形態における第2の閾値算出部302Bは、第2の平滑化部301から出力された第2の平滑化パワーP2と、第1のパラメータ算出部111Bから与えられた第2の参考平滑化パワーPr2(=同一単位時間の第1の平滑化パワーP1)とに基づいて、入力パワーPinと比較する第2の閾値TH2Bを形成して第2の音声区間判定部303に与えるものである。
第2の閾値TH2Bの形成に用いられる2つの値のうち、第2の平滑化パワーP2が音声パワーの平均的な値を意味し、第2の参考平滑化パワーPr2が雑音パワーの平均的な値を意味するので、第2の閾値TH2Bとして、第2の平滑化パワーP2及び第2の参考平滑化パワーPr2の平均値を適用することが好ましい。平均値は相加平均(P2+Pr2)/2であっても相乗平均(P2×Pr2)1/2であっても良い。第2の閾値TH2Bとして平均値以外を適用する場合においては、第2の閾値TH2Bを、第1の平滑化パワーP1より大きく平均値より小さい値とし、第2の音声区間判定部303で雑音区間より音声区間と判定される機会を多くすることが好ましい。演算の容易性などから、第2の閾値TH2Bの値として相加平均(P1+Pr1)/2が好適である。
第2の実施形態の場合、第2のパラメータ算出部112Bは、第2の平滑化部301から出力された第2の平滑化パワーP2と第2の音声区間判定部303から出力された第2の音声区間真偽値V2とを含む第2のパラメータF2を単位時間遅延部104を介して第1のパラメータ算出部111Bに与えると共に、上述した第2のパラメータF2を雑音抑圧部114に与える。
(B−2)第2の実施形態の動作
次に、第2の実施形態の雑音抑圧装置100Bの動作を説明する。第2の実施形態の雑音抑圧装置100Bの全体動作も第1の実施形態の雑音抑圧装置100の全体動作と同様であるので全体動作の説明は省略し、以下では、第2の実施形態が第1の実施形態と異なっている第1のパラメータ算出部111B及び第2のパラメータ算出部112Bの動作を順に説明する。
まず、第1のパラメータ算出部111Bの動作を、図5を参照しながら説明する。
第1の平滑化部201においては、第1の音声区間参考真偽値Vr1(=1単位時間前の第2の音声区間真偽値V2)に基づいて入力パワーPinが平滑化され、得られた第1の平滑化パワーP1が第1の閾値算出部202Bに与えられる。第1の閾値算出部202Bには、1単位時間前の第2の平滑化パワーP2である第1の参考平滑化パワーPr1も与えられる。第1の閾値算出部202Bにおいては、第1の平滑化パワーP1と第1の参考平滑化パワーPr1とに基づいて、入力パワーPinと比較される第1の閾値TH1Bが上述した方法により形成されて第1の音声区間判定部203に与えられる。そして、第1の音声区間判定部203において、第1の閾値TH1Bと、入力パワーPinとが比較され、入力パワーPinが第1の閾値TH1Bより大きいときに、真値の第1の音声区間真偽値V1が形成され、入力パワーPinが第1の閾値TH1B以下のときに、偽値の第1の音声区間真偽値V1が形成される。そして、第1の平滑化部201から出力された第1の平滑化パワーP1と第1の音声区間判定部203から出力された第1の音声区間真偽値V1とを含む第1のパラメータF1が第2のパラメータ算出部112B及び雑音抑圧部114に与えられる。
次に、第2のパラメータ算出部112Bの動作を、図6を参照しながら説明する。
第2の平滑化部301においては、第2の音声区間参考真偽値Vr2(=同一単位時間の第1の音声区間真偽値V1)に基づいて入力パワーPinが平滑化され、得られた第2の平滑化パワーP2が第2の閾値算出部302Bに与えられる。第2の閾値算出部302Bには、同一単位時間の第1の平滑化パワーP1である第2の参考平滑化パワーPr2も与えられる。第2の閾値算出部302Bにおいては、第2の平滑化パワーP2と第2の参考平滑化パワーPr2とに基づいて、入力パワーPinと比較される第2の閾値TH2Bが上述した方法により形成されて第2の音声区間判定部303に与えられる。そして、第2の音声区間判定部303において、第2の閾値TH2Bと、入力パワーPinとが比較され、入力パワーPinが第2の閾値TH2Bより大きいときに、真値の第2の音声区間真偽値V2が形成され、入力パワーPinが第2の閾値TH2B以下のときに、偽値の第2の音声区間真偽値V2が形成される。そして、第2の平滑化部301から出力された第2の平滑化パワーP2と第2の音声区間判定部303から出力された第2の音声区間真偽値V2とを含む第2のパラメータF2が単位時間遅延部113を介して第1のパラメータ算出部111Bに与えられ、また、第2のパラメータF2が雑音抑圧部114に与えられる。
第2の実施形態においても、第1の実施形態と同様に、第1の音声区間判定部203及び第2の音声区間判定部303の少なくとも一方でハングオーバー動作を実行するようにしても良い。ハングオーバー動作を両方で行う場合において、第1の音声区間判定部203におけるハングオーバー時間と第2の音声区間判定部303におけるハングオーバー時間とが同じであっても良く、異なっていても良い。第2の実施形態においても、第1の音声区間判定部203におけるハングオーバー時間を0.1秒、第2の音声区間判定部303におけるハングオーバー時間を0.2秒とすることが好ましい態様である。
また、第1の実施形態と同様に、第2の実施形態についても、図4に示したようなハングオーバー部15を有する変形を行うことができる。このハングオーバー部15におけるハングオーバー時間として0.5秒が好適である。
(B−3)第2の実施形態の効果
第2の実施形態によっても、第1のパラメータ算出部及び第2のパラメータ算出部が互いのパラメータの更新を補い合うことで、パラメータを安定に更新させることができてパラメータの算出精度及び音声区間の検出精度を向上させることができるため、自然性と明瞭度の高い雑音抑圧を実現できる。
これに加え、第2の実施形態によれば、音声と雑音のパワーバランスが未知の場合や、このパワーバランスが時間的に変動する場合においても、入力パワーと比較される閾値を適切に更新でき、この点からも、パラメータの算出精度及び音声区間の検出精度を向上させることができて自然性と明瞭度の高い雑音抑圧を実現できる。
(C)第3の実施形態
次に、本発明による雑音抑圧装置及びプログラムの第3の実施形態を、図面を参照しながら説明する。
第3の実施形態は、第2のパラメータ算出部がSNR(ここでは事後SNR)を推定して雑音抑圧部に提供する点が、第1の実施形態や第2の実施形態と異なっている。
(C−1)第3の実施形態の構成
第3の実施形態の雑音抑圧装置(以下、符号「100C」を用いる)の全体構成も、上述した図1で表すことができる。
但し、第3の実施形態では、第1のパラメータ算出部111が、第1の実施形態と同様に、入力パワーPinに基づいてパラメータの推定や音声区間の検出を行うが、第2のパラメータ算出部(以下、符号「112C」を用いる)は、SNR(ここでは事後SNR)を推定し、推定したSNRに基づいて音声区間の検出を行う。また、雑音抑圧部(以下、符号「114C」を用いる)は、第2のパラメータ算出部112Cから出力されたSNRをも利用して雑音抑圧を行う。
そのため、以下では、主として、第2のパラメータ算出部112Cの詳細構成と、雑音抑圧部114Cの機能とを説明する。なお、第1のパラメータ算出部111は、上述した図2に示した詳細構成を有している。
図7は、第3の実施形態における第2のパラメータ算出部112Cの詳細構成を示すブロック図であり、上述した第1の実施形態に係る図3との同一、対応部分には同一、対応符号を付して示している。
図7において、第3の実施形態の第2のパラメータ算出部112Cは、第2の平滑化部301C、第2の閾値算出部302C及び第2の音声区間判定部303Cに加え、SNR算出部305を有する。
SNR算出部305は、入力パワーPin(SNRのSに相当する)を、雑音パワーの推定値である第2の参考平滑化パワーPr2(=1単位時間前の第1の平滑化パワーP1;SNRのRに相当する)で除してSNRの推定値Riを得、得られたSNR推定値Riを第2の平滑化部301C及び第2の音声区間判定部303Cに与える。
第3の実施形態における第2の平滑化部301Cは、第1及び第2の実施形態のものと異なって入力パワーPinではなく、SNR推定値Riを平滑化するものである。第2の平滑化部301Cは、第2の音声区間参考真偽値Vr2(=1単位時間前の第1の音声区間真偽値V1)に基づいてSNR推定値Riを平滑化し、得られたSNR平滑化値Rsを第2の閾値算出部302Cに与える。第2の平滑化部301Cは、第2の音声区間参考真偽値Vr2が真値(すなわち音声区間)であるときにはSNR推定値Riを平滑化してSNR平滑化値Rsを更新し、第2の音声区間参考真偽値Vr2が偽値(すなわち雑音区間)であるときにはSNR平滑化値Rsを更新しないで維持する。従って、SNR平滑化値Rsが意味するのは音声区間の平均的なSNRである。なお、平滑化の方法は何ら限定されるものではない。例えば、時定数が0.8秒の時定数フィルタが好適である。
第3の実施形態における第2の閾値算出部302Cは、SNR平滑化値Rsが音声区間のSNRを意味することから、SNR平滑化値Rsに、0より大きく1以下の定数値をとる第2の係数C2Cを乗じて、SNR推定値Riと比較する第2の閾値TH2Cを形成して第2の音声区間判定部303Cに与えるものである。SNR平滑化値Rsに乗算することで、音声区間のSNR推定値と雑音区間のSNR推定値とを切り分けるための第2の閾値TH2Cを定める第2の係数C2Cの値は、限定されるものではないが、例えば、0.5を適用することができる。
第3の実施形態における音声区間判定部303Cは、SNR推定値Riと第2の閾値TH2Cを比較して音声区間か否かを表す第2の音声区間真偽値V2を形成するものである。第2の音声区間判定部303Cは、SNR推定値Riが第2の閾値TH2Cより大きければ第2の音声区間真偽値V2として真値を出力し、そうでなければ偽値を出力する。
第2のパラメータ算出部112Cからは、SNR推定値Riと第2の音声区間真偽値V2とが出力される。
第3の実施形態の雑音抑圧部114Cは、第1のパラメータF1及び第2のパラメータF2Cと入カパワーPinに基づいて、入力スペクトル(周波数帯域信号)の雑音成分を抑圧し、抑圧後のスペクトルを波形復元部103に与える。第3の実施形態では、上述したように第2のパラメータF2CにSNR推定値Riが含まれており、雑音抑圧部114Cは、抑圧ゲインの算出に必要な事後SNRを改めて算出する必要がなく、与えられたSNR推定値Riをそのまま利用する。雑音抑圧部114Cが適用している雑音抑圧方法は限定されないが、周波数帯域毎のSNR推定値Riを利用できるという点からは、ウィナーフィルタ法やMMSE−STSAが好適である。
(C−2)第3の実施形態の動作
次に、第3の実施形態の雑音抑圧装置100Cの動作を説明する。第3の実施形態の雑音抑圧装置100Cの全体動作も第1の実施形態の音声区間検出装置100の全体動作と同様であるので全体動作の説明は省略する。また、第3の実施形態における第1の音声区間検出部102の動作は第1の実施形態のものと同様であるのでその動作説明は省略し、以下では、第3の実施形態における第2の音声区間検出部103Cの動作を説明し、第2の音声区間検出部103Cの出力が与えられる雑音抑圧部114Cの動作も説明する。
図7において、SNR算出部305には、入力パワーPinと雑音パワーの推定値である第2の参考平滑化パワーPr2(1単位時間前の第1の平滑化パワーP1)とが与えられ、入力パワーPinを第2の参考平滑化パワーPr2で除してSNRの推定値Riが得られ、得られたSNR推定値Riが第2の平滑化部301C及び第2の音声区間判定部303Cに与えられる。
SNR推定値Riは第2の平滑化部301Cによって第2の音声区間参考真偽値Vr2(=1単位時間前の第1の音声区間真偽値V1)が参照されて平滑化される。すなわち、第2の音声区間参考真偽値Vr2が真値(すなわち音声区間)であるときにはSNR推定値Riが平滑化されてSNR平滑化値Rsが更新され、第2の音声区間参考真偽値Vr2が偽値(すなわち雑音区間)であるときにはSNR平滑化値Rsが更新されないで維持され、このようにして得られたSNR平滑化値Rsが第2の閾値算出部302Cに与えられる。そして、第2の閾値算出部302Cにおいて、SNR平滑化値Rsに、0より大きく1以下の定数値をとる第2の係数C2Cが乗算されて、SNR推定値Riと比較される第2の閾値TH2Cが形成されて第2の音声区間判定部303Cに与えられる。
SNR推定値Riと第2の閾値TH2Cとが第2の音声区間判定部303Cにおいて比較され、SNR推定値Riが第2の閾値TH2Cより大きときに真値の第2の音声区間真偽値V2が出力され、SNR推定値Riが第2の閾値TH2C以下のときに偽値の第2の音声区間真偽値V2が出力される。
第2のパラメータ算出部112Cからは、SNR推定値Riと第2の音声区間真偽値V2とを含む第2のパラメータF2Cが出力され、第2のパラメータF2Cが雑音除去部114Cに与えられ、第2の音声区間真偽値V2が単位時間遅延部113を介して第1のパラメータ算出部111に与えられる。
雑音抑圧部114Cにおいては、第1のパラメータF1及び第2のパラメータF2Cと入カパワーPinに基づいて、入力スペクトル(周波数帯域信号)の雑音成分が抑圧され、抑圧後のスペクトルが波形復元部103に与えられる。ここで、上述した第2のパラメータF2CにはSNR推定値Riが含まれているので、雑音抑圧部114Cにおいて、抑圧ゲインの算出に必要な事後SNRが算出されることなく、与えられたSNR推定値Riがそのまま利用される。
第3の実施形態においても、第1の実施形態と同様に、第1の音声区間判定部203及び第2の音声区間判定部303Cの少なくとも一方でハングオーバー動作を実行するようにしても良い。ハングオーバー動作を両方で行う場合において、第1の音声区間判定部203におけるハングオーバー時間と第2の音声区間判定部303Cにおけるハングオーバー時間とが同じであっても良く、異なっていても良い。第3の実施形態においても、第1の音声区間判定部203におけるハングオーバー時間を0.1秒、第2の音声区間判定部303Cにおけるハングオーバー時間を0.2秒とすることが好ましい態様である。
また、第1の実施形態と同様に、第3の実施形態についても、図4に示したようなハングオーバー部15を有する変形を行うことができる。このハングオーバー部15におけるハングオーバー時間として0.5秒が好適である。
(C−3)第3の実施形態の効果
第3の実施形態によれば、第1のパラメータ算出部による入力信号のパワーに基づく推定及び判定と、第2のパラメータ算出部による入力信号におけるSNRに基づく推定及び判定の、それぞれのパラメータと判定結果を使って互いに推定及び判定を行うので、パラメータの算出精度及び音声区間の検出精度を向上させることができて、自然性と明瞭度の高い雑音抑圧を実現できる。
(C−4)第3の実施形態の変形実施形態
上記では、第1のパラメータ算出部が入力パワーに基づいて音声区間を検出し、第2のパラメータ算出部がSNRに基づいて音声区間を検出するものを説明したが、第1のパラメータ算出部がSNRに基づいて音声区間を検出し、第2のパラメータ算出部が入力パワーに基づいて音声区間を検出するものであっても良く、また、第1のパラメータ算出部も第2のパラメータ算出部もSNRに基づいて音声区間を検出するものであっても良い。
(D)他の実施形態
上記各実施形態の説明においても種々変形実施形態に言及したが、さらに、以下に例示するような変形実施形態を挙げることができる。
上記各実施形態では、各帯域別雑音抑圧手段がそれぞれ独立に機能するものを示したが、静的又は動的に影響し合うようにしても良い。例えば、一部の帯域別雑音抑圧手段の第1のパラメータ算出部及び第2のパラメータ算出部は平滑化部だけを備え、閾値算出部及び音声区間検出部を有する他の帯域別雑音抑圧手段から音声区間真偽値を取込んで動作するようにしても良い。また例えば、全ての帯域別雑音抑圧手段における第1のパラメータ算出部からの第1の音声区間真偽値を多数決や論理積や論理和などにより統合して全ての帯域別雑音抑圧手段における第2のパラメータ算出部に与え、全ての帯域別雑音抑圧手段における第2のパラメータ算出部からの第2の音声区間真偽値を多数決や論理積や論理和などにより統合し、さらに1単位時間分だけ遅延させて全ての帯域別雑音抑圧手段における第1のパラメータ算出部に与えるようにしても良い。
上記各実施形態では、第1のパラメータ算出部が第2のパラメータ算出部の1単位時間前の検出結果が雑音期間を示しているときに所定の特徴量を更新すると共に、第2のパラメータ算出部が第1のパラメータ算出部の同一単位時間の検出結果が音声期間を示しているときに所定の特徴量を更新する場合を示したが、特徴量を更新する期間の組み合わせはこれに限定されるものではない。例えば、第1のパラメータ算出部が音声期間で特徴量を更新し、第2のパラメータ算出部が雑音期間で更新するようにしても良く、第1のパラメータ算出部及び第2のパラメータ算出部が共に雑音区間で更新するようにしても良く、第1のパラメータ算出部及び第2のパラメータ算出部が共に音声区間で更新するようにしても良い。更新期間の選定によっては、第1のパラメータ算出部において、SNRに基づいた音声区間の検出を行っても良い。
上記各実施形態では、第2のパラメータ算出部による音声区間の検出結果(第2の音声区間真偽値)を雑音抑圧部に出力するものを示したが、雑音抑圧部に出力する音声区間の検出結果はこれに限定されるものではない。例えば、第1のパラメータ算出部による音声区間の検出結果(第1の音声区間真偽値)を雑音抑圧部に出力するようにしても良く、第1のパラメータ算出部による音声区間の検出結果と第2のパラメータ算出部による音声区間の検出結果の論理積や論理和を雑音抑圧部に出力するようにしても良い。
上記第1及び第2の実施形態では、第1のパラメータ算出部及び第2のパラメータ算出部が完全に別個の構成になっている場合を示したが、同一のパラメータ算出部の主要部(平滑化部、閾値算出部、音声区間判定部)を1単位時間内に時分割で適用して、第1のパラメータ算出部及び第2のパラメータ算出部として機能させるようにしても良い。この場合には、第1のパラメータ算出部として機能する際には、第2のパラメータ算出部に関するデータ(例えば、第2の平滑化パワーP2や第2の係数C2等)を退避させ、第2のパラメータ算出部として機能する際には、第1のパラメータ算出部に関するデータ(例えば、第1の平滑化パワーP1や第1の係数C1等)を退避させるメモリなど、補助的な構成を設けることを要する。特許請求の範囲の表現はこのような同一構成を時分割で利用する場合を含むものとする。
上記各実施形態では、特徴量の平滑値に基づいて音声区間検出に用いる閾値を決定するものを示したが、他の方法によって閾値を決定するようにしても良い。例えば、雑音区間と判定された直前過去の所定期間(例えば3秒間;断続的に雑音区間が生じている場合には合算時間が3秒間)における入力パワーの最小値の所定倍を閾値とするようにしても良く、音声区間と判定された直前過去の所定期間(例えば3秒間)における入力パワーの最大値の所定倍を閾値とするようにしても良い。また、第3の実施形態のように特徴量としてSNRを用いる場合であれば、音声区間と判定された直前過去の所定期間(例えば3秒間)におけるSNRの最大値の所定倍を閾値とするようにしても良い。
上記各実施形態では、第1のパラメータ算出部及び又は第2のパラメータ算出部で得られた特徴量を雑音除去で利用するものを示したが、他の目的の動作で利用するようにしても良い。
図8は、本発明による雑音推定装置の一実施形態の構成を示すブロック図であり、図1との同一、対応部分には同一、対応符号を付して示している。
図8において、この実施形態の雑音推定装置400は、第1の実施形態と同様な周波数解析部101、帯域別雑音パワー推定部402−1〜402−M及び雑音パワー統合部403を有する。各帯域別雑音パワー推定部402(402−1〜402−M)は、第1の実施形態と同様なパワー算出部110、第1の実施形態と同様な第1のパラメータ算出部111及び第1の実施形態と同様な第2のパラメータ算出部112を備え、各帯域別雑音パワー推定部402からは、第1のパラメータ算出部111の内部で得た第1の平滑化パワーP1が雑音パワー統合部403に与えられる。雑音パワー統合部403は、全ての帯域別雑音パワー推定部402−1〜402−Mからの第1の平滑化パワーP1−1〜P1−Mを統合して雑音パワースペクトルとする。この際の統合は、各周波数帯域の値をベクトルの要素に割り当てたベクトルの作成であっても良く、合算であっても良く、平均値(重み付け平均値であっても良い)の算出であっても良い。
図9は、本発明によるSNR推定装置の一実施形態の構成を示すブロック図であり、図1との同一、対応部分には同一、対応符号を付して示している。
図9において、この実施形態のSNR推定装置500は、第1の実施形態と同様な周波数解析部101、帯域別SNR推定部502−1〜502−M及びSNR統合部503を有する。各帯域別SNR推定部502(502−1〜502−M)は、第1の実施形態と同様なパワー算出部110、第1の実施形態と同様な第1のパラメータ算出部111及び第3の実施形態と同様な第2のパラメータ算出部112Cを備え、各帯域別SNR推定部502からは、第2のパラメータ算出部112Cの内部で得たSNR推定値RiがSNR統合部503に与えられる。SNR統合部503は、全ての帯域別SNR推定部502−1〜502−MからのSNR推定値Riを統合して出力するSNR推定値を形成する。SNR推定値Riの統合方法として、例えば、全周波数帯域のSNR推定値Riの平均値を取る方法を挙げることができる。この平均値を取る方法は、SNR推定値Riの平均値を求める方法であっても良く、また、SNR推定値Riをデシベル(対数尺度)に変換した後に平均値をとる方法であっても良い(この場合、出力はデシベルのままでも良く、また、元の尺度に戻したものでも良い)。
上記各実施形態では、雑音に対比される目的音が音声である場合を示したが、本発明はこれに限定されるものではない。例えば、機械のモータ音が雑音に対比される目的音になっている場合にも、本発明の技術思想を適用することができる。
100、100A、100B、100C…雑音抑圧装置、101…周波数解析部、102−1〜102−M…帯域別雑音抑圧手段、103…波形復元部、110…パワー算出部、111、111B…第1のパラメータ算出部、112、112A、112B、112C…第2のパラメータ算出部、113…単位時間遅延部、114…雑音抑圧部、201…第1の平滑化部、202、202B…第1の閾値算出部、203…第1の音声区間判定部、301、301C…第2の平滑化部、302、302B、302C…第2の閾値算出部、303、303C…第2の音声区間判定部、304…ハングオーバー部、305…SNR算出部、400…雑音推定装置、402−1〜402−M…帯域別雑音パワー推定部、403…雑音パワー統合部、500…SNR推定装置、502−1〜502−M…帯域別SNR推定部、503…SNR統合部。

Claims (12)

  1. 入力信号に含まれる雑音成分を抑圧し、目的音成分を強調する雑音抑圧装置において、
    入力信号を周波数解析して入力スペクトルを算出する周波数解析部と、
    上記周波数解析部が算出したいずれかの入力スペクトルの周波数帯域に対応し、その周波数帯域の信号における雑音成分を抑圧する、複数の帯域別雑音抑圧手段とを備え、
    上記帯域別雑音抑圧手段は、
    入力された周波数帯域信号について算出された第1の入力パワーに基づいた第1の特徴量と、内部で生成した第1の閾値とを比較して、入力された上記周波数帯域信号における第1の目的音区間の検出結果を得る第1のパラメータ算出部と、
    入力された周波数帯域信号について算出された第2の入力パワーに基づいた第2の特徴量と、内部で生成した第2の閾値とを比較して、入力された上記周波数帯域信号における第2の目的音区間の検出結果を得る第2のパラメータ算出部と、
    上記第1のパラメータ算出部が得た第1のパラメータと上記第2のパラメータ算出部が得た第2のパラメータとに基づいて、入力された上記周波数帯域信号に含まれる雑音成分を抑圧する雑音抑圧部とを有し、
    上記第1のパラメータ算出部は、上記第2のパラメータ算出部が所定の単位時間前に出力した、上記第2の目的音区間の検出結果を少なくとも含む第2のパラメータを用いて上記第1の閾値を生成し、
    上記第2のパラメータ算出部は、上記第1の目的音区間検出手段が同一の単位時間で出力した、上記第1の目的音区間の検出結果を少なくとも含む第2のパラメータを用いて上記第2の閾値を生成する
    ことを特徴とする雑音抑圧装置。
  2. 上記第1のパラメータ算出部は、
    所定の単位時間前の上記第2の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第1の入力パワーを平滑化して第1の平滑化パワーを算出する第1の平滑化部と、
    上記第1の平滑化パワーを少なくとも適用して、上記第1の閾値を算出する第1の閾値算出部と、
    上記第1の入力パワーを上記第1の特徴量として上記第1の閾値と比較して目的音区間か否かを判定し、上記第1の目的音区間の検出結果を得る第1の目的音区間判定部とを有し、
    上記第2のパラメータ算出部は、
    同一の単位時間の上記第1の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第2の入力パワーを平滑化して第2の平滑化パワーを算出する第2の平滑化部と、
    上記第2の平滑化パワーを少なくとも適用して、上記第2の閾値を算出する第2の閾値算出部と、
    上記第2の入力パワーを上記第2の特徴量として上記第2の閾値と比較して目的音区間か否かを判定し、上記第2の目的音区間の検出結果を得る第2の目的音区間判定部とを有する
    ことを特徴とする請求項1に記載の雑音抑圧装置。
  3. 上記第1の平滑化部は、所定の単位時間前の上記第2の目的音区間の検出結果が目的音区間でない場合に上記第1の入力パワーの平滑化を実行し、所定の単位時間前の上記第2の目的音区間の検出結果が目的音区間の場合に上記第1の入力パワーの平滑化を停止して上記第1の平滑化パワーを維持させ、
    上記第2の平滑化部は、同一の単位時間の上記第1の目的音区間の検出結果が目的音区間の場合に上記第2の入力パワーの平滑化を実行し、同一の単位時間の上記第1の目的音区間の検出結果が目的音区間でない場合に上記第2の入力パワーの平滑化を停止して上記第2の平滑化パワーを維持させる
    ことを特徴とする請求項2に記載の雑音抑圧装置。
  4. 上記第1の平滑化部及び上記第2の平滑化部は、一方が、自己に入力された目的音区間の検出結果が目的音区間である場合に平滑化を実行し、他方が、自己に入力された目的音区間の検出結果が目的音区間でない場合に平滑化を実行するものであり、
    上記第1の閾値算出部は、上記第1の平滑化パワーと所定の単位時間前の上記第2の平滑化パワーを適用して、上記第1の閾値を算出し、
    上記第2の閾値算出部は、同一単位時間の上記第1の平滑化パワー及び上記第2の平滑化パワーを適用して、上記第2の閾値を算出する
    ことを特徴とする請求項2に記載の雑音抑圧装置。
  5. 上記第1の閾値算出部は、上記第1の平滑化パワーと所定の単位時間前の上記第2の平滑化パワーとの相加平均若しくは相乗平均を上記第1の閾値として算出することを特徴とする請求項4に記載の雑音抑圧装置。
  6. 上記第2の閾値算出部は、同一の単位時間の上記第1の平滑化パワーと上記第2の平滑化パワーとの相加平均若しくは相乗平均を上記第2の閾値として算出することを特徴とする請求項4又は5に記載の雑音抑圧装置。
  7. 上記第1のパラメータ算出部は、
    所定の単位時間前の上記第2の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第1の入力パワーを平滑化して第1の平滑化パワーを算出する第1の平滑化部と、
    上記第1の平滑化パワーを少なくとも適用して、上記第1の閾値を算出する第1の閾値算出部と、
    上記第1の入力パワーを上記第1の特徴量として上記第1の閾値と比較して目的音区間か否かを判定し、上記第1の目的音区間の検出結果を得る第1の目的音区間判定部とを有し、
    上記第2のパラメータ算出部は、
    同一の単位時間の上記第2の入力パワー及び上記第1の平滑化パワーに基づいてSNRの推定値を算出するSNR算出部と、
    同一の単位時間の上記第1の目的音区間の検出結果に基づいて、平滑化の実行、停止を制御しながら、上記SNR推定値を平滑化してSNRの平滑値を算出する第2の平滑化部と、
    上記SNR平滑値を少なくとも適用して、上記第2の閾値を算出する第2の閾値算出部と、
    上記SNR推定値を上記第2の特徴量として上記第2の閾値と比較して目的音区間か否かを判定し、上記第2の目的音区間の検出結果を得る第2の目的音区間判定部とを有する
    ことを特徴とする請求項1に記載の雑音抑圧装置。
  8. 入力信号における雑音パワーを推定する雑音推定装置において、
    入力信号を周波数解析して入力スペクトルを算出する周波数解析部と、
    上記周波数解析部が算出したいずれかの入力スペクトルの周波数帯域に対応し、その周波数帯域の信号における雑音パワーを推定する、複数の帯域別雑音推定手段と、
    上記各帯域別雑音推定手段が得た、周波数帯域別の複数の雑音パワーの推定値を統合して最終的な雑音パワーの推定値を得る帯域別雑音パワー統合手段とを備え、
    上記各帯域別雑音推定手段はそれぞれ、
    入力された上記周波数帯域信号について算出された第1の入力パワーに基づいた第1の特徴量と、内部で生成した第1の閾値とを比較して、入力された上記周波数帯域信号における目的音区間を検出する第1のパラメータ算出部と、
    入力された上記周波数帯域信号について算出された第2の入力パワーに基づいた第2の特徴量と、内部で生成した第2の閾値とを比較して、入力された上記周波数帯域信号における目的音区間を検出する第2のパラメータ算出部とを備え、
    上記第1のパラメータ算出部は、
    所定の単位時間前の上記第2の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第1の入力パワーを平滑化して第1の平滑化パワーを算出する第1の平滑化部と、
    上記第1の平滑化パワーを少なくとも適用して、上記第1の閾値を算出する第1の閾値算出部と、
    上記第1の入力パワーを上記第1の特徴量として上記第1の閾値と比較して目的音区間か否かを判定し、上記第1の目的音区間の検出結果を得る第1の目的音区間判定部とを有し、
    上記第2のパラメータ算出部は、
    同一の単位時間の上記第1の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第2の入力パワーを平滑化して第2の平滑化パワーを算出する第2の平滑化部と、
    上記第2の平滑化パワーを少なくとも適用して、上記第2の閾値を算出する第2の閾値算出部と、
    上記第2の入力パワーを上記第2の特徴量として上記第2の閾値と比較して目的音区間か否かを判定し、上記第2の目的音区間の検出結果を得る第2の目的音区間判定部とを有し、
    上記第1の平滑化部又は上記第2の平滑化部は、所定の単位時間前の上記第2の目的音区間の検出結果又は同一の単位時間の上記第1の目的音区間の検出結果が目的音区間でない場合に平滑化し、目的音区間である場合に平滑化を停止し、上記第1の平滑化パワー又は上記第2の平滑化パワーを帯域別の雑音パワーの推定値として得る
    ことを特徴とする雑音推定装置。
  9. 入力信号におけるSNRを推定するSNR推定装置において、
    入力信号を周波数解析して入力スペクトルを算出する周波数解析部と、
    上記周波数解析部が算出したいずれかの入力スペクトルの周波数帯域に対応し、その周波数帯域の信号におけるSNRを推定する、複数の帯域別SNR推定手段と、
    上記各帯域別SNR推定手段が得た、周波数帯域別の複数のSNR推定値を統合して最終的なSNRの推定値を得る帯域別SNR統合手段とを備え、
    上記各帯域別雑音推定手段はそれぞれ、
    入力された上記周波数帯域信号について算出された第1の入力パワーに基づいた第1の特徴量と、内部で生成した第1の閾値とを比較して、入力された上記周波数帯域信号における目的音区間を検出する第1のパラメータ算出部と、
    入力された上記周波数帯域信号について算出された第2の入力パワーに基づいた第2の特徴量と、内部で生成した第2の閾値とを比較して、入力された上記周波数帯域信号における目的音区間を検出する第2のパラメータ算出部とを備え、
    上記第1のパラメータ算出部は、
    所定の単位時間前の上記第2の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第1の入力パワーを平滑化して第1の平滑化パワーを算出する第1の平滑化部と、
    上記第1の平滑化パワーを少なくとも適用して、上記第1の閾値を算出する第1の閾値算出部と、
    上記第1の入力パワーを上記第1の特徴量として上記第1の閾値と比較して目的音区間か否かを判定し、上記第1の目的音区間の検出結果を得る第1の目的音区間判定部とを有し、
    上記第2の目的音区間検出手段は、
    同一の単位時間の上記第2の入力パワー及び上記第1の平滑化パワーに基づいてSNRの推定値を算出するSNR算出部と、
    同一の単位時間の上記第1の目的音区間の検出結果に基づいて、平滑化の実行、停止を制御しながら、上記SNR推定値を平滑化してSNRの平滑値を算出する第2の平滑化部と、
    上記SNR平滑値を少なくとも適用して、上記第2の閾値を算出する第2の閾値算出部と、
    上記SNR推定値を上記第2の特徴量として上記第2の閾値と比較して目的音区間か否かを判定し、上記第2の目的音区間の検出結果を得る第2の目的音区間判定部とを有し、
    上記SNR算出部からの上記SNR推定値を入力された上記周波数帯域信号における、その周波数帯域のSNRの推定値として得る
    ことを特徴とするSNR推定装置。
  10. 入力信号に含まれる雑音成分を抑圧し、目的音成分を強調する雑音抑圧プログラムであって、
    コンピュータを、
    入力信号を周波数解析して入力スペクトルを算出する周波数解析部と、
    上記周波数解析部が算出したいずれかの入力スペクトルの周波数帯域に対応し、その周波数帯域の信号における雑音成分を抑圧する、複数の帯域別雑音抑圧手段として機能させるものであり、
    上記帯域別雑音抑圧手段は、
    入力された周波数帯域信号について算出された第1の入力パワーに基づいた第1の特徴量と、内部で生成した第1の閾値とを比較して、入力された上記周波数帯域信号における第1の目的音区間の検出結果を得る第1のパラメータ算出部と、
    入力された周波数帯域信号について算出された第2の入力パワーに基づいた第2の特徴量と、内部で生成した第2の閾値とを比較して、入力された上記周波数帯域信号における第2の目的音区間の検出結果を得る第2のパラメータ算出部と、
    上記第1のパラメータ算出部が得た第1のパラメータと上記第2のパラメータ算出部が得た第2のパラメータとに基づいて、入力された上記周波数帯域信号に含まれる雑音成分を抑圧する雑音抑圧部とを有し、
    上記第1のパラメータ算出部は、上記第2のパラメータ算出部が所定の単位時間前に出力した、上記第2の目的音区間の検出結果を少なくとも含む第2のパラメータを用いて上記第1の閾値を生成し、
    上記第2のパラメータ算出部は、上記第1の目的音区間検出手段が同一の単位時間で出力した、上記第1の目的音区間の検出結果を少なくとも含む第2のパラメータを用いて上記第2の閾値を生成する
    ことを特徴とする雑音抑圧プログラム。
  11. 入力信号における雑音パワーを推定する雑音推定プログラムであって、
    コンピュータを、
    入力信号を周波数解析して入力スペクトルを算出する周波数解析部と、
    上記周波数解析部が算出したいずれかの入力スペクトルの周波数帯域に対応し、その周波数帯域の信号における雑音パワーを推定する、複数の帯域別雑音推定手段と、
    上記各帯域別雑音推定手段が得た、周波数帯域別の複数の雑音パワーの推定値を統合して最終的な雑音パワーの推定値を得る帯域別雑音パワー統合手段として機能させるものであり、
    上記各帯域別雑音推定手段はそれぞれ、
    入力された上記周波数帯域信号について算出された第1の入力パワーに基づいた第1の特徴量と、内部で生成した第1の閾値とを比較して、入力された上記周波数帯域信号における目的音区間を検出する第1のパラメータ算出部と、
    入力された上記周波数帯域信号について算出された第2の入力パワーに基づいた第2の特徴量と、内部で生成した第2の閾値とを比較して、入力された上記周波数帯域信号における目的音区間を検出する第2のパラメータ算出部とを備え、
    上記第1のパラメータ算出部は、
    所定の単位時間前の上記第2の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第1の入力パワーを平滑化して第1の平滑化パワーを算出する第1の平滑化部と、
    上記第1の平滑化パワーを少なくとも適用して、上記第1の閾値を算出する第1の閾値算出部と、
    上記第1の入力パワーを上記第1の特徴量として上記第1の閾値と比較して目的音区間か否かを判定し、上記第1の目的音区間の検出結果を得る第1の目的音区間判定部とを有し、
    上記第2のパラメータ算出部は、
    同一の単位時間の上記第1の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第2の入力パワーを平滑化して第2の平滑化パワーを算出する第2の平滑化部と、
    上記第2の平滑化パワーを少なくとも適用して、上記第2の閾値を算出する第2の閾値算出部と、
    上記第2の入力パワーを上記第2の特徴量として上記第2の閾値と比較して目的音区間か否かを判定し、上記第2の目的音区間の検出結果を得る第2の目的音区間判定部とを有し、
    上記第1の平滑化部又は上記第2の平滑化部は、所定の単位時間前の上記第2の目的音区間の検出結果又は同一の単位時間の上記第1の目的音区間の検出結果が目的音区間でない場合に平滑化し、目的音区間である場合に平滑化を停止し、上記第1の平滑化パワー又は上記第2の平滑化パワーを帯域別の雑音パワーの推定値として得る
    ことを特徴とする雑音推定プログラム。
  12. 入力信号におけるSNRを推定するSNR推定プログラムであって、
    コンピュータを、
    入力信号を周波数解析して入力スペクトルを算出する周波数解析部と、
    上記周波数解析部が算出したいずれかの入力スペクトルの周波数帯域に対応し、その周波数帯域の信号におけるSNRを推定する、複数の帯域別SNR推定手段と、
    上記各帯域別SNR推定手段が得た、周波数帯域別の複数のSNR推定値を統合して最終的なSNRの推定値を得る帯域別SNR統合手段として機能させるものであり、
    上記各帯域別雑音推定手段はそれぞれ、
    入力された上記周波数帯域信号について算出された第1の入力パワーに基づいた第1の特徴量と、内部で生成した第1の閾値とを比較して、入力された上記周波数帯域信号における目的音区間を検出する第1のパラメータ算出部と、
    入力された上記周波数帯域信号について算出された第2の入力パワーに基づいた第2の特徴量と、内部で生成した第2の閾値とを比較して、入力された上記周波数帯域信号における目的音区間を検出する第2のパラメータ算出部とを備え、
    上記第1のパラメータ算出部は、
    所定の単位時間前の上記第2の目的音区間の検出結果に基づいて平滑化の実行、停止を制御しながら、上記第1の入力パワーを平滑化して第1の平滑化パワーを算出する第1の平滑化部と、
    上記第1の平滑化パワーを少なくとも適用して、上記第1の閾値を算出する第1の閾値算出部と、
    上記第1の入力パワーを上記第1の特徴量として上記第1の閾値と比較して目的音区間か否かを判定し、上記第1の目的音区間の検出結果を得る第1の目的音区間判定部とを有し、
    上記第2のパラメータ算出部は、
    同一の単位時間の上記第2の入力パワー及び上記第1の平滑化パワーに基づいてSNRの推定値を算出するSNR算出部と、
    同一の単位時間の上記第1の目的音区間の検出結果に基づいて、平滑化の実行、停止を制御しながら、上記SNR推定値を平滑化してSNRの平滑値を算出する第2の平滑化部と、
    上記SNR平滑値を少なくとも適用して、上記第2の閾値を算出する第2の閾値算出部と、
    上記SNR推定値を上記第2の特徴量として上記第2の閾値と比較して目的音区間か否かを判定し、上記第2の目的音区間の検出結果を得る第2の目的音区間判定部とを有し、
    上記SNR算出部からの上記SNR推定値を入力された上記周波数帯域信号における、その周波数帯域のSNRの推定値として得る
    ことを特徴とするSNR推定プログラム。
JP2015023551A 2015-02-09 2015-02-09 雑音抑圧装置及びプログラム、雑音推定装置及びプログラム、並びに、snr推定装置及びプログラム Active JP6596833B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015023551A JP6596833B2 (ja) 2015-02-09 2015-02-09 雑音抑圧装置及びプログラム、雑音推定装置及びプログラム、並びに、snr推定装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015023551A JP6596833B2 (ja) 2015-02-09 2015-02-09 雑音抑圧装置及びプログラム、雑音推定装置及びプログラム、並びに、snr推定装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2016145944A true JP2016145944A (ja) 2016-08-12
JP6596833B2 JP6596833B2 (ja) 2019-10-30

Family

ID=56685888

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015023551A Active JP6596833B2 (ja) 2015-02-09 2015-02-09 雑音抑圧装置及びプログラム、雑音推定装置及びプログラム、並びに、snr推定装置及びプログラム

Country Status (1)

Country Link
JP (1) JP6596833B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020095224A (ja) * 2018-12-14 2020-06-18 富士通株式会社 音声補正装置および音声補正方法
CN113661652A (zh) * 2020-01-07 2021-11-16 深圳市大疆创新科技有限公司 音频信号处理方法、相关装置及音响设备、存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10210075A (ja) * 1997-01-20 1998-08-07 Logic Corp 有音検知装置および方法
JP2000330598A (ja) * 1999-05-18 2000-11-30 Mitsubishi Electric Corp 雑音区間判定装置,雑音抑圧装置及び推定雑音情報更新方法
JP2001265367A (ja) * 2000-03-16 2001-09-28 Mitsubishi Electric Corp 音声区間判定装置
JP2005031632A (ja) * 2003-06-19 2005-02-03 Advanced Telecommunication Research Institute International 発話区間検出装置、音声エネルギ正規化装置、コンピュータプログラム及びコンピュータ
JP2008116686A (ja) * 2006-11-06 2008-05-22 Nec Engineering Ltd 雑音抑圧装置
JP2010102204A (ja) * 2008-10-24 2010-05-06 Yamaha Corp 雑音抑圧装置及び雑音抑圧方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10210075A (ja) * 1997-01-20 1998-08-07 Logic Corp 有音検知装置および方法
JP2000330598A (ja) * 1999-05-18 2000-11-30 Mitsubishi Electric Corp 雑音区間判定装置,雑音抑圧装置及び推定雑音情報更新方法
JP2001265367A (ja) * 2000-03-16 2001-09-28 Mitsubishi Electric Corp 音声区間判定装置
JP2005031632A (ja) * 2003-06-19 2005-02-03 Advanced Telecommunication Research Institute International 発話区間検出装置、音声エネルギ正規化装置、コンピュータプログラム及びコンピュータ
JP2008116686A (ja) * 2006-11-06 2008-05-22 Nec Engineering Ltd 雑音抑圧装置
JP2010102204A (ja) * 2008-10-24 2010-05-06 Yamaha Corp 雑音抑圧装置及び雑音抑圧方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
今井卓他: "帯域分割型サブスペース法のための雑音スペクトル形状への適合法に関する一考察", 電子情報通信学会技術研究報告, vol. 109, no. 396, JPN6018042696, 21 January 2010 (2010-01-21), pages 1 - 6, ISSN: 0004048354 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020095224A (ja) * 2018-12-14 2020-06-18 富士通株式会社 音声補正装置および音声補正方法
JP7095586B2 (ja) 2018-12-14 2022-07-05 富士通株式会社 音声補正装置および音声補正方法
CN113661652A (zh) * 2020-01-07 2021-11-16 深圳市大疆创新科技有限公司 音频信号处理方法、相关装置及音响设备、存储介质

Also Published As

Publication number Publication date
JP6596833B2 (ja) 2019-10-30

Similar Documents

Publication Publication Date Title
EP2659487B1 (en) A noise suppressing method and a noise suppressor for applying the noise suppressing method
JP6134078B1 (ja) ノイズ抑制
Mohammadiha et al. A new linear MMSE filter for single channel speech enhancement based on nonnegative matrix factorization
JP5791092B2 (ja) 雑音抑圧の方法、装置、及びプログラム
EP2023342A1 (en) Noise reduction with integrated tonal noise reduction
US9548064B2 (en) Noise estimation apparatus of obtaining suitable estimated value about sub-band noise power and noise estimating method
US9002030B2 (en) System and method for performing voice activity detection
Martín-Doñas et al. Dual-channel DNN-based speech enhancement for smartphones
JP6596833B2 (ja) 雑音抑圧装置及びプログラム、雑音推定装置及びプログラム、並びに、snr推定装置及びプログラム
Upadhyay et al. Spectral subtractive-type algorithms for enhancement of noisy speech: an integrative review
Lee et al. Minima-controlled speech presence uncertainty tracking method for speech enhancement
JP6361148B2 (ja) 雑音推定装置、方法及びプログラム
Surendran et al. Perceptual subspace speech enhancement with variance normalization
Shen et al. A priori SNR estimator based on a convex combination of two DD approaches for speech enhancement
Pallavi et al. Phase-locked Loop (PLL) Based Phase Estimation in Single Channel Speech Enhancement.
CN113870884B (zh) 单麦克风噪声抑制方法和装置
JP6554853B2 (ja) 雑音抑圧装置及びプログラム
Selvi et al. Efficient speech enhancement technique by exploiting the harmonic structure of voiced segments
Fingscheidt et al. Overcoming the statistical independence assumption wrt frequency in speech enhancement
JP6679881B2 (ja) 雑音推定装置、プログラム及び方法、並びに、音声処理装置
JP6536322B2 (ja) 雑音推定装置、プログラム及び方法、並びに、音声処理装置
Lee et al. A phase-dependent a priori SNR estimator in the Log-Mel spectral domain for speech enhancement
Kubo et al. Estimation of spectral subtraction parameter-set for maximizing speech recognition performance
JP2016145940A (ja) 目的音区間検出装置及びプログラム、雑音推定装置及びプログラム、並びに、snr推定装置及びプログラム
Fahim et al. Single-Channel Speech Dereverberation in Noisy Environment for Non-Orthogonal Signals

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171120

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190611

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190809

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190903

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190916

R150 Certificate of patent or registration of utility model

Ref document number: 6596833

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150