JP2014106494A

JP2014106494A - 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム

Info

Publication number: JP2014106494A
Application number: JP2012261704A
Authority: JP
Inventors: Naoji Matsuo; 直司松尾
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2012-11-29
Filing date: 2012-11-29
Publication date: 2014-06-09
Anticipated expiration: 2032-11-29
Also published as: US9626987B2; US20140149111A1; EP2738763B1; EP2738763A3; JP6135106B2; EP2738763A2

Abstract

【課題】音声信号に含まれる雑音成分が相対的に大きい場合でも、本来の信号成分が過剰に抑圧されることなく雑音成分を抑圧する音声強調装置を提供する。
【解決手段】音声強調装置（５、５１）は、周波数帯域ごとに、音声信号に含まれる雑音成分を推定する雑音推定部（１２）と、周波数帯域ごとに、音声信号に含まれる信号成分と雑音成分との比である信号対雑音比を算出する信号対雑音比算出部（１３）と、信号対雑音比が、音声信号中の信号成分を識別可能であることを表す周波数帯域を選択し、選択された周波数帯域の信号対雑音比に応じて音声信号の強調度合いを表すゲインを決定するゲイン算出部（１４）と、ゲインに応じて各周波数帯域の周波数信号の振幅成分を増幅するとともに、各周波数帯域の振幅成分から雑音成分を減じることで周波数信号の振幅成分を補正する強調部（１５）とを有する。
【選択図】図２

Description

本発明は、例えば、音声信号に含まれる信号成分を強調する音声強調装置、音声強調方法及び音声強調用コンピュータプログラムに関する。

マイクロホンにより集音された音声には、雑音成分が含まれることがある。集音された音声に雑音成分が含まれると、その音声が聞き取り難くなることがある。そこで、音声信号に含まれる雑音成分を周波数帯域ごとに推定し、推定した雑音成分を音声信号の振幅スペクトルから減算することで、雑音成分を抑制する技術が開発されている（例えば、特許文献１及び２を参照）。

特開平４−２２７３３８号公報特開２０１０−５４９５４号公報

しかしながら、例えば、車両に搭載されたマイクロホンで、車両の窓を開けた状態での走行中にドライバの音声を集音しようとする場合のように、音声信号に含まれる雑音成分が集音対象の音声に相当する信号成分に比べて相対的に大きいことがある。このような場合、上述したような従来技術では、雑音成分とともに信号成分も抑圧されてしまい、その結果として、本来の音声も聞き取り難くなってしまうことがある。

そこで本明細書は、一つの側面として、音声信号に含まれる雑音成分が相対的に大きい場合でも、本来の信号成分が過剰に抑圧されることなく雑音成分を抑圧する音声強調装置を提供することを目的とする。

一つの実施形態によれば、音声強調装置が提供される。この音声強調装置は、信号成分と雑音成分とを含む音声信号を周波数領域へ変換することにより複数の周波数帯域のそれぞれについての周波数信号を算出する時間周波数変換部と、周波数帯域ごとに、周波数信号に基づいて雑音成分を推定する雑音推定部と、周波数帯域ごとに、信号成分と雑音成分との比である信号対雑音比を算出する信号対雑音比算出部と、信号対雑音比が、音声信号中の信号成分を識別可能であることを表す周波数帯域を選択し、選択された周波数帯域の信号対雑音比に応じて音声信号の強調度合いを表すゲインを決定するゲイン算出部と、ゲインに応じて各周波数帯域の周波数信号の振幅成分を増幅するとともに、各周波数帯域の振幅成分から雑音成分を減じることで周波数信号の振幅成分を補正する強調部と、各周波数帯域の補正された振幅成分を持つ周波数信号を時間領域へ変換することにより補正された音声信号を算出する周波数時間変換部とを有する。

本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。

本明細書に開示された音声強調装置は、音声信号に含まれる雑音成分が相対的に大きい場合でも、本来の信号成分が過剰に抑圧されることなく雑音成分を抑圧することができる。

一つの実施形態による音声強調装置を有する音声入力システムの概略構成図である。音声強調装置の概略構成図である。音声信号の振幅スペクトル及び雑音スペクトルと、ゲインの算出に利用される周波数帯域の関係の一例を示す図である。 SNR(f)の平均値SNRavとゲインgの関係の一例を示す図である。（ａ）は、オリジナルの音声信号の振幅スペクトルとゲインを用いて増幅された振幅スペクトルとの関係の一例を示す図である。（ｂ）は、増幅された振幅スペクトル及び雑音成分と、雑音成分抑圧後の振幅スペクトルとの関係の一例を示す図である。（ａ）は、オリジナルの音声信号の信号波形の一例を示す図であり、（ｂ）は、従来技術により補正された音声信号の信号波形の一例を示す図であり、（ｃ）は、本実施形態による音声強調装置により補正された音声信号の信号波形の一例を示す図である。音声強調処理の動作フローチャートである。第２の実施形態による音声強調装置の概略構成図である。 SNR(f)と調整後のゲインとの関係の一例を示す図である。第２の実施形態による音声強調処理の動作フローチャートである。上記の何れかの実施形態またはその変形例による音声強調装置の各部の機能を実現するコンピュータプログラムが動作することにより、音声強調装置として動作するコンピュータの構成図である。

以下、図を参照しつつ、幾つかの実施形態による音声強調装置について説明する。
この音声強調装置は、集音対象の音声に相当する信号成分とその他の音声に相当する雑音成分とを含む音声信号について、周波数帯域ごとの信号対雑音比を推定し、その信号対雑音比に基づいて信号成分を識別可能な周波数帯域を選択する。そしてこの音声強調装置は、選択された周波数帯域の信号対雑音比に応じて、信号成分の強調度合いを表すゲインを決定する。この音声強調装置は、そのゲインに応じて全ての周波数帯域にわたって音声信号の振幅スペクトルを増幅するとともに、増幅された振幅スペクトルから雑音成分を減じる。

図１は、一つの実施形態による音声強調装置が実装された音声入力システムの概略構成図である。本実施形態では、音声入力システム１は、例えば、車載のハンズフリーホンであり、マイクロホン２と、増幅器３と、アナログ／デジタル変換器４と、音声強調装置５と、通信インターフェース部６とを有する。

マイクロホン２は、音声入力部の一例であり、音声入力システム１の周囲の音を集音し、その音の強度に応じたアナログ音声信号を生成し、そのアナログ音声信号を増幅器３へ出力する。増幅器３は、そのアナログ音声信号を増幅した後、増幅されたアナログ音声信号をアナログ／デジタル変換器４へ出力する。アナログ／デジタル変換器４は、増幅されたアナログ音声信号を所定のサンプリング周期でサンプリングすることによりデジタル化された音声信号を生成する。そしてアナログ−デジタル変換器４は、デジタル化された音声信号を音声強調装置５へ出力する。なお、以下では、デジタル化された音声信号を、単に音声信号と呼ぶ。

この音声信号には、例えば、音声入力システム１を利用するユーザの声といった、集音対象となる信号成分と、背景の騒音といった雑音成分とが含まれる。そこで、音声強調装置５は、例えば、デジタル信号プロセッサを有し、音声信号に含まれる信号成分を強調するとともに、雑音成分を抑圧することにより、補正音声信号を生成する。そして音声強調装置５は、補正音声信号を通信インターフェース部６へ出力する。

通信インターフェース部６は、音声入力システム１を、携帯電話機といった他の機器と接続するための通信インターフェース回路を有する。通信インターフェース回路は、例えば、Bluetooth(登録商標)といった、音声信号の通信に利用可能な近距離無線通信規格に従って動作する回路、あるいは、universal serial bus(USB)といったシリアルバス規格に従って動作する回路とすることができる。そして通信インターフェース部６は、音声強調装置５から受け取った補正音声信号を他の機器へ送信する。

図２は、音声強調装置５の概略構成図である。音声強調装置５は、時間周波数変換部１１と、雑音推定部１２と、信号対雑音比算出部１３と、ゲイン算出部１４と、強調部１５と、周波数時間変換部１６とを有する。音声強調装置５が有するこれらの各部は、例えば、デジタル信号プロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。

時間周波数変換部１１は、音声信号を、所定の時間長（例えば、数10msec）を持つフレーム単位で周波数領域へ変換することにより複数の周波数帯域のそれぞれについて周波数信号を求める。そのために、時間周波数変換部１１は、例えば、音声信号に対して、高速フーリエ変換(Fast Fourier Transform, FFT)、または修正離散コサイン変換(Modified Discrete Cosine Transform, MDCT)といった時間周波数変換を実行することにより周波数信号へ変換する。

本実施形態では、時間周波数変換部１１は、音声信号に対して、連続する二つのフレームがフレーム長の1/2だけずれるように各フレームを設定する。そして時間周波数変換部１１は、各フレームに、例えば、ハニング窓といった窓関数を乗じて、そのフレームを時間周波数変換することで、そのフレームについての各周波数帯域の周波数信号を算出する。

時間周波数変換部１１は、フレームごとに、周波数信号の振幅成分を雑音推定部１２、信号対雑音比算出部１３及び強調部１５へ出力する。また時間周波数変換部１１は、周波数信号の位相成分を周波数時間変換部１６へ出力する。

雑音推定部１２は、過去の所定数のフレームに基づいて推定された周波数帯域ごとの雑音成分を表す雑音モデルを、最新のフレームである現フレームの振幅スペクトルに基づいて更新することで、現フレームにおける各周波数帯域の雑音成分を推定する。

具体的には、雑音推定部１２は、各周波数帯域の周波数信号の振幅成分を時間周波数変換部１１から受け取る度に、振幅スペクトルの平均値pを次式に従って算出する。

ここでNは周波数帯域の総数であり、時間周波数変換において1フレームに含まれるサンプル点数の1/2である。f_lowは、最も低い周波数帯域を表し、f_highは、最も高い周波数帯域を表す。またS(f)は、周波数帯域fにおける現フレームの振幅成分であり、10log₁₀(S(f)²)は、対数で表された振幅スペクトルである。

次に、雑音推定部１２は、現フレームの振幅スペクトルの平均値pと、雑音成分の上限に相当する閾値Thrとを比較する。そして雑音推定部１２は、平均値pが閾値Thr未満である場合、各周波数帯域について次式に従って過去のフレームにおける雑音成分と振幅スペクトルとを平均することにより、雑音モデルを更新する。

ただし、N_t-1(f)は、更新前の雑音モデルに含まれる周波数帯域fの雑音成分であり、音声強調装置５が有するデジタル信号プロセッサのバッファから読み込まれる。また、N_t(f)は、更新後の雑音モデルに含まれる周波数帯域fの雑音成分である。係数αは忘却係数であり、例えば、0.01〜0.1の何れかの値に設定される。一方、平均値pが閾値Thr以上である場合、現フレームには、雑音以外の信号成分が含まれると推定されるので、忘却係数αを0とすることで、雑音推定部１２は、更新前の雑音モデルそのものを、更新後の雑音モデルとする。すなわち、雑音推定部１２は、雑音モデルを更新せず、全ての周波数帯域についてN_t(f)=N_t-1(f)とする。あるいは、雑音推定部１２は、現フレームにおいて雑音以外の信号成分が含まれる場合には、忘却係数αを、例えば、0.0001のように非常に小さい値にすることで、雑音モデルに対する現フレームの影響を小さくしてもよい。

なお、雑音推定部１２は、各周波数帯域の雑音成分を推定する他の様々な手法の何れかに従って、各周波数帯域の雑音成分を推定してもよい。
雑音推定部１２は、更新した雑音モデルをバッファに記憶するとともに、各周波数帯域の雑音成分を信号対雑音比算出部１３及び強調部１５へ出力する。

信号対雑音比算出部１３は、各フレームについて、周波数帯域ごとの信号対雑音比(Signal to Noise Ratio, SNR)を算出する。
本実施形態では、信号対雑音比算出部１３は、次式に従って周波数帯域ごとのSNRを算出する。

ここで、SNR(f)は、周波数帯域fにおけるSNRを表す。またS(f)は、現フレームの周波数帯域fにおける周波数信号の振幅成分であり、N_t(f)は現フレームについての周波数帯域fの雑音の振幅成分である。

信号対雑音比算出部１３は、各周波数帯域のSNR(f)をゲイン算出部１４へ渡す。

ゲイン算出部１４は、フレームごとに、各周波数帯域のSNR(f)に基づいて、全ての周波数帯域にわたって適用されるゲインgを決定する。そのために、本実施形態では、ゲイン算出部１４は、各周波数帯域のうち、SNR(f)が所定の閾値以上となる帯域を選択する。所定の閾値は、例えば、人が音声信号に含まれる信号成分を識別可能なSNR(f)の最小値、例えば、3dBに設定される。

ゲイン算出部１４は、選択した周波数帯域のSNR(f)の平均値SNRavを算出する。そしてゲイン算出部１４は、SNR(f)の平均値SNRavに基づいて、全ての周波数帯域に適用されるゲインgを決定する。

図３は、音声信号の振幅スペクトル及び雑音スペクトルと、ゲインの算出に利用される周波数帯域の関係の一例を示す図である。図３において、横軸は周波数を表し、縦軸は振幅スペクトルの強度[dB]を表す。グラフ３００は、音声信号の振幅スペクトルを表し、グラフ３１０は、雑音成分の振幅スペクトルを表す。図３において、矢印３０１で示される、音声信号の振幅スペクトルと雑音成分の振幅スペクトルの差がSNR(f)に相当する。この例では、周波数帯域f₀〜f₁において、SNR(f)が閾値Thr以上となる。そこで周波数帯域f₀〜f₁が、ゲインgを決定するための周波数帯域として選択される。

図４は、SNR(f)の平均値SNRavとゲインgの関係の一例を示す図である。図４において、横軸は平均値SNRav[dB]を表し、縦軸はゲインgを表す。そしてグラフ４００は、平均値SNRavとゲインgの関係を表す。
グラフ４００に示されるように、平均値SNRavがβ1以下の場合、ゲイン算出部１４は、ゲインgを1.0に設定する。すなわち、音声信号は全く強調されない。一方、平均値SNRavがβ1よりも大きく、かつ、β２以下である場合、ゲイン算出部１４は、平均値SNRavが大きくなるほど、ゲインgも線形に増加させる。そしてゲイン算出部１４は、平均値SNRavがβ２以上であれば、ゲインgを上限値αに設定する。

なお、β１、β２、αは、補正音声信号が不自然に歪むことがないように実験的に決められた値であり、例えば、β１=6[dB]、β２=9[dB]である。またゲインgの上限値αは、例えば、2.0である。

ゲイン算出部１４は、ゲインgを強調部１５へ出力する。

強調部１５は、フレームごとに、ゲインgに応じて各周波数帯域の周波数信号の振幅成分を増幅するとともに、雑音成分を抑圧する。そのために、本実施形態では、強調部１５は、次式に従って、各周波数帯域の周波数信号の振幅成分を増幅する。

ここでS'(f)²は、周波数帯域fの増幅後のパワースペクトルを表す。

さらに、強調部１５は、増幅されたパワースペクトルS'(f)²から、次式に従って雑音成分を減じることにより、補正された各周波数帯域の周波数信号の振幅成分S_c(f)を算出する。これにより、強調部１５は、音声信号に含まれる雑音成分を抑圧できる。

なお、n(f)は、線形の数値で表記された雑音成分のパワースペクトルを表す。

図５（ａ）は、オリジナルの音声信号の振幅スペクトルとゲインを用いて増幅された振幅スペクトルとの関係の一例を示す図である。図５（ｂ）は、増幅された振幅スペクトル及び雑音成分の振幅スペクトルと、雑音成分抑圧後の振幅スペクトルとの関係の一例を示す図である。図５（ａ）及び図５（ｂ）のそれぞれにおいて、横軸は周波数を表し、縦軸は振幅スペクトルの強度[dB]を表す。図５（ａ）におけるグラフ５００は、オリジナルの音声信号の振幅スペクトルを表し、グラフ５１０は、増幅された振幅スペクトルを表す。本実施形態では、グラフ５００とグラフ５１０に示されるように、ゲイン算出に利用された周波数帯域だけでなく、全ての周波数帯域にわたって振幅スペクトルが増幅される。

図５（ｂ）において、グラフ５１０は、増幅された振幅スペクトルを表し、グラフ５２０は、雑音成分の振幅スペクトルを表す。そしてグラフ５３０は、増幅された振幅スペクトルから雑音成分の振幅スペクトルを減じることにより得られる補正後の音声信号の振幅スペクトルを表す。グラフ５１０〜５３０に示されるように、本実施形態では、全ての周波数帯域にわたって増幅された後に雑音成分が減じられる。そのため、オリジナルの音声信号において信号成分が少ない周波数帯域についても、補正された音声信号において信号成分が残る。

強調部１５は、補正された各周波数帯域の周波数信号の振幅成分S_c(f)を周波数時間変換部１６へ出力する。

周波数時間変換部１６は、フレームごとに、補正された各周波数帯域の周波数信号の振幅成分S_c(f)にその周波数帯域の位相成分を乗じて補正された周波数スペクトルを算出する。そして周波数時間変換部１６は、補正された周波数スペクトルを周波数時間変換して時間領域の信号に変換することにより、フレームごとの補正された音声信号を得る。なお、この周波数時間変換は、時間周波数変換部１１により行われる時間周波数変換の逆変換である。最後に、周波数時間変換部１６は、連続するフレームごとの補正された音声信号を、フレーム長の1/2ずつずらして加算することにより、補正された音声信号を得る。

図６（ａ）は、オリジナルの音声信号の信号波形の一例を示す図である。図６（ｂ）は、従来技術により補正された音声信号の信号波形の一例を示す図である。図６（ｃ）は、本実施形態による音声強調装置により補正された音声信号の信号波形の一例を示す図である。
図６（ａ）〜図６（ｃ）において、横軸は時間を表し、縦軸は音声信号の振幅の強度を表す。信号波形６００は、オリジナルの音声信号の信号波形である。また信号波形６１０は、従来技術に従って、オリジナルの音声信号から、単に推定された雑音成分を除去することにより生成された音声信号の信号波形である。そして信号波形６２０は、本実施形態による音声強調装置５による、補正された音声信号の信号波形である。この例では、期間p1〜p5に、信号成分が含まれている。しかし、信号波形６１０に示されるように、従来技術では、期間p1〜p5における信号成分も大きく減衰しており、音が途切れ途切れになってしまう。
一方、本実施形態によれば、従来技術により補正された音声信号よりも、信号成分が残っており、その結果として音が途切れ途切れとなることが防止されている。

図７は、音声強調処理の動作フローチャートである。音声強調装置５は、以下の動作フローチャートに従って、フレームごとに音声強調処理を実行する。
時間周波数変換部１１は、音声信号を、フレーム単位で、ハニング窓かけを1/2フレーム長単位でずらしながら周波数領域へ変換することにより、複数の周波数帯域のそれぞれの周波数信号を算出する（ステップＳ１０１）。そして時間周波数変換部１１は、各周波数帯域の周波数信号の振幅成分を雑音推定部１２、信号対雑音比算出部１３及び強調部１５へ出力する。また時間周波数変換部１１は、各周波数帯域の周波数信号の位相成分を周波数時間変換部１６へ出力する。

雑音推定部１２は、過去の所定数のフレームについて算出された雑音モデルを、現フレームの各周波数帯域の振幅成分に基づいて更新することにより、現フレームにおける、各周波数帯域の雑音成分を推定する（ステップＳ１０２）。そして雑音推定部１２は、更新した雑音モデルをバッファに記憶するとともに、各周波数帯域の雑音成分を信号対雑音比算出部１３及び強調部１５へ出力する。

信号対雑音比算出部１３は、各周波数帯域におけるSNR(f)を算出する（ステップＳ１０３）。そして信号対雑音比算出部１３は、各周波数帯域におけるSNR(f)をゲイン算出部１４へ出力する。

ゲイン算出部１４は、各周波数帯域のSNR(f)に基づいて、音声信号中に信号成分が含まれることを識別可能な周波数帯域を選択する（ステップＳ１０４）。そしてゲイン算出部１４は、選択された周波数帯域のSNR(f)の平均値SNRavが高いほどゲインgが大きくなるように、ゲインgを決定する（ステップＳ１０５）。ゲイン算出部１４は、ゲインgを強調部１５へ渡す。

強調部１５は、全ての周波数帯域にわたって周波数信号の振幅成分にゲインgを乗じることでその振幅成分を増幅する（ステップＳ１０６）。さらに、強調部１５は、各周波数帯域において、増幅された振幅成分から雑音成分を減じることにより、雑音成分が抑圧された補正された振幅成分を算出する（ステップＳ１０７）。強調部１５は、各周波数帯域の補正された振幅成分を周波数時間変換部１６へ出力する。

周波数時間変換部１６は、周波数帯域ごとに、補正された振幅成分に位相成分を統合して補正された周波数信号を算出する。そして周波数時間変換部１６は、補正された周波数信号を周波数時間変換して時間領域の信号に変換することにより、現フレームの補正された音声信号を得る（ステップＳ１０８）。そして周波数時間変換部１６は、一つ前のフレームに対してフレーム長の1/2だけずらして現フレームの補正された音声信号を加算することで補正された音声信号を得る（ステップＳ１０９）。
その後、音声強調装置５は、音声強調処理を終了する。

以上に説明してきたように、この音声強調装置は、音声信号の振幅成分を、全ての周波数帯域にわたって一旦増幅し、その増幅された振幅成分から雑音成分を減じる。これにより、この音声強調装置は、音声信号に含まれる雑音成分が相対的に大きい場合でも、本来の信号成分が過剰に抑圧されることなく雑音成分を抑圧する。またこの音声強調装置は、振幅成分の増幅量を、信号対雑音比が比較的高い周波数帯域に基づいて決定することで、適切な増幅量を設定できる。

次に、第２の実施形態による音声強調装置について説明する。第２の実施形態による音声強調装置は、周波数帯域ごとに、ゲインをその周波数帯域のSNR(f)に応じて調節する。

図８は、第２の実施形態による音声強調装置５１の概略構成図である。音声強調装置５１は、時間周波数変換部１１と、雑音推定部１２と、信号対雑音比算出部１３と、ゲイン算出部１４と、ゲイン調節部１７と、強調部１５と、周波数時間変換部１６とを有する。
図８において、音声強調装置５１の各構成要素には、図２に示した音声強調装置５の対応する構成要素の参照番号と同じ参照番号を付した。
第２の実施形態による音声強調装置５１は、第１の実施形態による音声強調装置５と比較して、ゲイン調節部１７を有する点で異なる。そこで以下では、ゲイン調節部１７及びその関連部分について説明する。音声強調装置５１の他の構成要素については、第１の実施形態の対応する構成要素の説明を参照されたい。

ゲイン調節部１７は、信号対雑音比算出部１３から各周波数帯域のSNR(f)を受け取り、かつ、ゲイン算出部１４からゲインgを受け取る。そしてゲイン調節部１７は、周波数帯域ごとに、SNR(f)が大きくなるほど、その周波数帯域のゲインg(f)を低下させることで、音声信号が過剰に強調されて歪むことを抑制する。

図９は、SNR(f)とゲインg(f)の関係の一例を示す図である。図９において、横軸は平均値SNR(f)[dB]を表し、縦軸はゲインg(f)を表す。そしてグラフ９００は、SNR(f)とゲインg(f)の関係を表す。
グラフ９００に示されるように、SNR(f)がγ1未満の場合、ゲイン調節部１７は、ゲインg(f)をゲイン算出部１４により決定されたゲインgに設定する。一方、SNR(f)がγ1よりも大きく、かつ、γ２未満である場合、ゲイン調節部１７は、SNR(f)が大きくなるほど、ゲインg(f)を線形に減少させる。すなわち、γ１≦SNR(f)＜γ２である場合、ゲインg(f)は次式により算出される。

そしてゲイン算出部１４は、SNR(f)がγ２以上であれば、ゲインg(f)を1.0に設定する。

なお、γ１、γ２は、補正音声信号が不自然に歪むことがないように実験的に決められた値であり、例えば、γ１=12[dB]、γ２=18[dB]である。なお、γ１、γ２は、振幅成分の強調度合いが低くなりすぎないように、ゲインgが最大となるときのSNRavの下限値β２よりも大きくすることが好ましい。

ゲイン調節部１７は、各周波数帯域のゲインg(f)を強調部１５へ出力する。
強調部１５は、（４）式におけるゲインgを、その周波数帯域のゲインg(f)とすることにより、各周波数帯域の周波数信号の振幅成分を増幅する。

図１０は、第２の実施形態による音声強調処理の動作フローチャートである。音声強調装置５１は、フレームごとに、この動作フローチャートに従って音声強調処理を実行する。なお、図１０におけるステップＳ２０１〜Ｓ２０５及びＳ２０８〜Ｓ２１０は、それぞれ、図７に示された第１の実施形態による音声強調処理のステップＳ１０１〜Ｓ１０５及びＳ１０７〜Ｓ１０９に対応する。そこで以下では、ステップＳ２０６及びＳ２０７について説明する。

ゲイン算出部１４によりゲインgが算出されると、ゲイン調節部１７は、そのゲインgを、周波数帯域ごとに、その周波数帯域のSNR(f)が高いほど小さくなるように調節することで、その周波数帯域の調節されたゲインg(f)を決定する（ステップＳ２０６）。そして強調部１５は、各周波数帯域について、振幅成分にその周波数帯域についての調節された
ゲインg(f)を乗じることで振幅成分を増幅する（ステップＳ２０７）。その後、その増幅された振幅成分を用いて補正された音声信号が生成される。

第２の実施形態によれば、音声強調装置は、信号対雑音比が良好な周波数帯域の強調度合いを抑制するために、信号対雑音比が高い周波数帯域のゲインを相対的に低くする。これにより、この音声強調装置は、雑音を抑圧するだけでなく、補正された音声信号が歪むことを抑制できる。

変形例によれば、ゲイン算出部１４は、SNR(f)が閾値以上となる周波数帯域の数が多いほど、ゲインgを大きくしてもよい。これにより、信号成分が含まれる周波数帯域の数が多いほど、音声信号が強調されるので、補正された音声信号の音質がより良好となる。

また他の変形例によれば、強調部１５は、各周波数帯域について、オリジナルの音声信号の振幅成分から雑音成分を減じた残存成分にゲインgを乗じることにより、補正された振幅成分を算出してもよい。これにより、強調部１５は、オリジナルの音声信号の振幅成分が非常に大きい場合でも、ゲインgを乗じることによるオーバーフローの発生を防止できる。

なお、上記の各実施形態または変形例による音声強調装置は、ハンズフリーホン以外にも、携帯電話機、または拡声器など、他の音声入力システムにも適用できる。さらに、上記の各実施形態または変形例による音声強調装置は、複数のマイクロホンを有する音声入力システム、例えば、テレビ会議システムにも適用できる。この場合、音声強調装置は、マイクロホンごとに、そのマイクロホンによる音声信号を、上記の何れかの実施形態または変形例に従って補正する。あるいは、音声強調装置は、一方のマイクロホンの音声信号から、他方のマイクロホンの音声信号を所定時間だけ遅延させて減算または加算することで、特定方向から到来する音声を減衰させるか、その特定方向から到来した音声を強調する合成音声信号を生成する。そして音声強調装置は、合成音声信号に対して音声強調処理を実行してもよい。

さらに、上記の各実施形態または変形例による音声強調装置は、例えば、携帯電話機に実装され、他の装置により生成された音声信号を補正してもよい。この場合には、音声強調装置によって補正された音声信号は、音声強調装置が実装された装置が有するスピーカから再生される。

さらに、上記の各実施形態による音声強調装置の各部が有する機能をコンピュータに実現させるコンピュータプログラムは、磁気記録媒体あるいは光記録媒体といった、コンピュータによって読み取り可能な媒体に記録された形で提供されてもよい。なお、この記録媒体には、搬送波は含まれない。

図１１は、上記の何れかの実施形態またはその変形例による音声強調装置の各部の機能を実現するコンピュータプログラムが動作することにより、音声強調装置として動作するコンピュータの構成図である。

コンピュータ１００は、ユーザインターフェース部１０１と、オーディオインターフェース部１０２と、通信インターフェース部１０３と、記憶部１０４と、記憶媒体アクセス装置１０５と、プロセッサ１０６とを有する。プロセッサ１０６は、ユーザインターフェース部１０１、オーディオインターフェース部１０２、通信インターフェース部１０３、記憶部１０４及び記憶媒体アクセス装置１０５と、例えば、バスを介して接続される。

ユーザインターフェース部１０１は、例えば、キーボードとマウスなどの入力装置と、液晶ディスプレイといった表示装置とを有する。または、ユーザインターフェース部１０１は、タッチパネルディスプレイといった、入力装置と表示装置とが一体化された装置を有してもよい。そしてユーザインターフェース部１０１は、例えば、ユーザの操作に応じて、オーディオインターフェース部１０２を介して入力される音声信号に対する音声強調処理を開始する操作信号をプロセッサ１０６へ出力する。

オーディオインターフェース部１０２は、コンピュータ１００に、マイクロホンなどの音声信号を生成する音声入力装置と接続するためのインターフェース回路を有する。そしてオーディオインターフェース部１０２は、音声入力装置から音声信号を取得して、その音声信号をプロセッサ１０６へ渡す。

通信インターフェース部１０３は、コンピュータ１００を、イーサネット（登録商標）などの通信規格に従った通信ネットワークに接続するための通信インターフェース及びその制御回路を有する。そして、通信インターフェース部１０３は、プロセッサ１０６から受け取った、補正音声信号を含むデータストリームを通信ネットワークを介して他の機器へ出力する。また通信インターフェース部１０３は、通信ネットワークに接続された他の機器から、音声信号を含むデータストリームを取得し、そのデータストリームをプロセッサ１０６へ渡してもよい。

記憶部１０４は、例えば、読み書き可能な半導体メモリと読み出し専用の半導体メモリとを有する。そして記憶部１０４は、プロセッサ１０６上で実行される、音声強調処理を実行するためのコンピュータプログラム、及びこれらの処理の途中または結果として生成されるデータを記憶する。

記憶媒体アクセス装置１０５は、例えば、磁気ディスク、半導体メモリカード及び光記憶媒体といった記憶媒体１０７にアクセスする装置である。記憶媒体アクセス装置１０５は、例えば、記憶媒体１０７に記憶されたプロセッサ１０６上で実行される、音声強調処理用のコンピュータプログラムを読み込み、プロセッサ１０６に渡す。

プロセッサ１０６は、上記の各実施形態の何れかまたは変形例による音声強調処理用コンピュータプログラムを実行することにより、オーディオインターフェース部１０２または通信インターフェース部１０３を介して受け取った音声信号を補正する。そしてプロセッサ１０６は、補正した音声信号を記憶部１０４に保存し、または通信インターフェース部１０３を介して他の機器へ出力する。

ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。

以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
（付記１）
信号成分と雑音成分とを含む音声信号を周波数領域へ変換することにより複数の周波数帯域のそれぞれについての周波数信号を算出する時間周波数変換部と、
周波数帯域ごとに、前記周波数信号に基づいて前記雑音成分を推定する雑音推定部と、
周波数帯域ごとに、前記信号成分と前記雑音成分との比である信号対雑音比を算出する信号対雑音比算出部と、
前記信号対雑音比が、前記音声信号中の前記信号成分を識別可能であることを表す周波数帯域を選択し、当該選択された周波数帯域の前記信号対雑音比に応じて前記音声信号の強調度合いを表すゲインを決定するゲイン算出部と、
前記ゲインに応じて各周波数帯域の前記周波数信号の振幅成分を増幅するとともに、各周波数帯域の前記振幅成分から前記雑音成分を減じることで前記周波数信号の振幅成分を補正する強調部と、
各周波数帯域の補正された前記振幅成分を持つ周波数信号を時間領域へ変換することにより補正された音声信号を算出する周波数時間変換部と、
を有する音声強調装置。
（付記２）
前記ゲイン算出部は、前記選択された周波数帯域の前記信号対雑音比の平均値が高いほど、前記ゲインを大きくする、付記１に記載の音声強調装置。
（付記３）
前記ゲイン算出部は、前記選択された周波数帯域の数が多いほど、前記ゲインを大きくする、付記１に記載の音声強調装置。
（付記４）
前記複数の周波数帯域のそれぞれについて、当該周波数帯域の前記信号対雑音比が高いほど前記ゲインを小さくするよう調節することにより、周波数帯域ごとに調節されたゲインを求めるゲイン調節部をさらに有し、
前記強調部は、前記複数の周波数帯域のそれぞれについて、当該周波数帯域についての調節されたゲインに応じて前記振幅成分を増幅する、付記１に記載の音声強調装置。
（付記５）
前記ゲイン算出部は、前記選択された周波数帯域の前記信号対雑音比の平均値が所定値以上である場合、前記ゲインを第１の値に設定し、
前記ゲイン調節部は、前記信号対雑音比が前記所定値よりも高い信号対雑音比となる周波数帯域について、当該周波数帯域の前記信号対雑音比が高いほど前記調節されたゲインを小さくする、付記４に記載の音声強調装置。
（付記６）
前記強調部は、前記複数の周波数帯域のそれぞれについて、前記増幅された振幅成分から前記雑音成分を減じることで前記補正された振幅成分を算出する、付記１〜５の何れか一項に記載の音声強調装置。
（付記７）
信号成分と雑音成分とを含む音声信号を周波数領域へ変換することにより複数の周波数帯域のそれぞれについての周波数信号を算出し、
周波数帯域ごとに、前記周波数信号に基づいて前記雑音成分を推定し、
周波数帯域ごとに、前記信号成分と前記雑音成分との比である信号対雑音比を算出し、
前記信号対雑音比が、前記音声信号中の前記信号成分を識別可能であることを表す周波数帯域を選択し、当該選択された周波数帯域の前記信号対雑音比に応じて前記音声信号の強調度合いを表すゲインを決定し、
前記ゲインに応じて各周波数帯域の前記周波数信号の振幅成分を増幅するとともに、各周波数帯域の前記振幅成分から前記雑音成分を減じることで前記周波数信号の振幅成分を補正し、
各周波数帯域の補正された前記振幅成分を持つ周波数信号を時間領域へ変換することにより補正された音声信号を算出する、
ことを含む音声強調方法。
（付記８）
信号成分と雑音成分とを含む音声信号を周波数領域へ変換することにより複数の周波数帯域のそれぞれについての周波数信号を算出し、
周波数帯域ごとに、前記周波数信号に基づいて前記雑音成分を推定し、
周波数帯域ごとに、前記信号成分と前記雑音成分との比である信号対雑音比を算出し、
前記信号対雑音比が、前記音声信号中の前記信号成分を識別可能であることを表す周波数帯域を選択し、当該選択された周波数帯域の前記信号対雑音比に応じて前記音声信号の強調度合いを表すゲインを決定し、
前記ゲインに応じて各周波数帯域の前記周波数信号の振幅成分を増幅するとともに、各周波数帯域の前記振幅成分から前記雑音成分を減じることで前記周波数信号の振幅成分を補正し、
各周波数帯域の補正された前記振幅成分を持つ周波数信号を時間領域へ変換することにより補正された音声信号を算出する、
ことをコンピュータに実行させるための音声強調用コンピュータプログラム。

１音声入力システム
２マイクロホン
３増幅器
４アナログ／デジタル変換器
５、５１音声強調装置
６通信インターフェース部
１１時間周波数変換部
１２雑音推定部
１３信号対雑音比算出部
１４ゲイン算出部
１５強調部
１６周波数時間変換部
１７ゲイン調節部
１００コンピュータ
１０１ユーザインターフェース部
１０２オーディオインターフェース部
１０３通信インターフェース部
１０４記憶部
１０５記憶媒体アクセス装置
１０６プロセッサ
１０７記憶媒体

Claims

信号成分と雑音成分とを含む音声信号を周波数領域へ変換することにより複数の周波数帯域のそれぞれについての周波数信号を算出する時間周波数変換部と、
周波数帯域ごとに、前記周波数信号に基づいて前記雑音成分を推定する雑音推定部と、
周波数帯域ごとに、前記信号成分と前記雑音成分との比である信号対雑音比を算出する信号対雑音比算出部と、
前記信号対雑音比が、前記音声信号中の前記信号成分を識別可能であることを表す周波数帯域を選択し、当該選択された周波数帯域の前記信号対雑音比に応じて前記音声信号の強調度合いを表すゲインを決定するゲイン算出部と、
前記ゲインに応じて各周波数帯域の前記周波数信号の振幅成分を増幅するとともに、各周波数帯域の前記振幅成分から前記雑音成分を減じることで前記周波数信号の振幅成分を補正する強調部と、
各周波数帯域の補正された前記振幅成分を持つ周波数信号を時間領域へ変換することにより補正された音声信号を算出する周波数時間変換部と、
を有する音声強調装置。
前記ゲイン算出部は、前記選択された周波数帯域の前記信号対雑音比の平均値が高いほど、前記ゲインを大きくする、請求項１に記載の音声強調装置。
前記ゲイン算出部は、前記選択された周波数帯域の数が多いほど、前記ゲインを大きくする、請求項１に記載の音声強調装置。
前記複数の周波数帯域のそれぞれについて、当該周波数帯域の前記信号対雑音比が高いほど前記ゲインを小さくするよう調節することにより、周波数帯域ごとに調節されたゲインを求めるゲイン調節部をさらに有し、
前記強調部は、前記複数の周波数帯域のそれぞれについて、当該周波数帯域についての調節されたゲインに応じて前記振幅成分を増幅する、請求項１に記載の音声強調装置。
前記ゲイン算出部は、前記選択された周波数帯域の前記信号対雑音比の平均値が所定値以上である場合、前記ゲインを第１の値に設定し、
前記ゲイン調節部は、前記信号対雑音比が前記所定値よりも高い信号対雑音比となる周波数帯域について、当該周波数帯域の前記信号対雑音比が高いほど前記調節されたゲインを小さくする、請求項４に記載の音声強調装置。
信号成分と雑音成分とを含む音声信号を周波数領域へ変換することにより複数の周波数帯域のそれぞれについての周波数信号を算出し、
周波数帯域ごとに、前記周波数信号に基づいて前記雑音成分を推定し、
周波数帯域ごとに、前記信号成分と前記雑音成分との比である信号対雑音比を算出し、
前記信号対雑音比が、前記音声信号中の前記信号成分を識別可能であることを表す周波数帯域を選択し、当該選択された周波数帯域の前記信号対雑音比に応じて前記音声信号の強調度合いを表すゲインを決定し、
前記ゲインに応じて各周波数帯域の前記周波数信号の振幅成分を増幅するとともに、各周波数帯域の前記振幅成分から前記雑音成分を減じることで前記周波数信号の振幅成分を補正し、
各周波数帯域の補正された前記振幅成分を持つ周波数信号を時間領域へ変換することにより補正された音声信号を算出する、
ことを含む音声強調方法。
信号成分と雑音成分とを含む音声信号を周波数領域へ変換することにより複数の周波数帯域のそれぞれについての周波数信号を算出し、
周波数帯域ごとに、前記周波数信号に基づいて前記雑音成分を推定し、
周波数帯域ごとに、前記信号成分と前記雑音成分との比である信号対雑音比を算出し、
前記信号対雑音比が、前記音声信号中の前記信号成分を識別可能であることを表す周波数帯域を選択し、当該選択された周波数帯域の前記信号対雑音比に応じて前記音声信号の強調度合いを表すゲインを決定し、
前記ゲインに応じて各周波数帯域の前記周波数信号の振幅成分を増幅するとともに、各周波数帯域の前記振幅成分から前記雑音成分を減じることで前記周波数信号の振幅成分を補正し、
各周波数帯域の補正された前記振幅成分を持つ周波数信号を時間領域へ変換することにより補正された音声信号を算出する、
ことをコンピュータに実行させるための音声強調用コンピュータプログラム。