JP2013195713A

JP2013195713A - 音声補正装置、音声補正方法及び音声補正用コンピュータプログラム

Info

Publication number: JP2013195713A
Application number: JP2012062860A
Authority: JP
Inventors: Chisato Ishikawa; 千里石川; Taro Togawa; 太郎外川; Takeshi Otani; 猛大谷; Masanao Suzuki; 政直鈴木
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2012-03-19
Filing date: 2012-03-19
Publication date: 2013-09-30
Anticipated expiration: 2032-03-19
Also published as: JP6098038B2

Abstract

【課題】低周波数帯域におけるパワースペクトルと高周波数帯域におけるパワースペクトルの差が小さくてもこもる音を補正できる音声補正装置を提供する。
【解決手段】音声補正装置６は、複数の周波数帯域のうち、少なくとも第１の周波数帯域及び第２の周波数帯域について、スペクトル信号値から人の聴覚特性に応じて聞き取れないスペクトル信号値に相当するマスキング閾値を減算することで知覚可能なスペクトル信号値を表す有効スペクトル信号を算出する有効スペクトル抽出部１３と、第１の周波数帯域の有効スペクトル信号と第２の周波数帯域の有効スペクトル信号との差を求める帯域間パワー差算出部１４と、その差に応じて所定の周波数帯域に対する補正量を決定する補正量算出部１５と、補正量に応じてその所定の周波数帯域内の各周波数のスペクトル信号値を補正する補正部１６とを有する。
【選択図】図２

Description

本発明は、例えば、音声信号を補正する音声補正装置、音声補正方法及び音声補正用コンピュータプログラムに関する。

携帯電話機で集音された音声信号では、例えば、携帯電話機が有するマイクロホンの周波数特性により、高周波数成分が相対的に小さくなることがある。このような場合、その集音された音声信号を再生すると、その再生音はいわゆるこもった音となり、その結果、リスナーにとってその再生音は聞き取り難くなることがあった。

上記のような問題に対して、音声品質を落とさずに音声を強調する技術が研究されている（例えば、特許文献１を参照）。

例えば、特許文献１に開示された音声強調装置は、受話音声と周囲騒音の成分比であるSNRを算出し、かつ、受話音声のピッチ周波数と音声のパワースペクトルの傾きの少なくとも一つから音声の明るさを算出する。またこの音声強調装置は、受話音声の主観的な了解性の向上に寄与する帯域と主観的な明るさの向上に寄与する帯域を示す帯域分割情報とSNRから受話音声が周囲騒音にマスクされた際の受話音声の主観的な了解性の向上に寄与する第１の帯域の強調量を算出する。さらにこの音声強調装置は、第１の帯域の強調量と音声の明るさから、主観的な明るさの向上に寄与する第２の帯域の強調量を算出する。そしてこの音声強調装置は、第１の帯域の強調量と第２の帯域の強調量とを用いて、受話音声のスペクトルを加工する。

特開２０１０−１４９１４号公報

特許文献１に開示された技術では、低周波数帯域と高周波数帯域との間のパワースペクトルの傾きによって強調量が影響されるので、その傾きがある程度大きい場合には、リスナーが音がこもると感じない程度にまで高周波数帯域のスペクトル成分が増幅される。しかしながら、音声信号によっては、低周波数帯域と高周波数帯域との間のパワースペクトルの傾きが小さくても、リスナーは音がこもると感じることがある。このような場合、その音声信号の高周波数帯域に対する強調量が十分に大きくならず、その結果として、強調された音声信号に対しても、リスナーは音がこもると感じることがあった。
また、パワースペクトルの傾きに対する強調量を大きくすると、パワースペクトルの傾きが大きい音声信号に対しては、高周波数帯域のスペクトル成分が過剰に増幅されてしまい、かえって聞き難くなるほど音声信号が歪んでしまう。

そこで本明細書は、低周波数帯域におけるパワースペクトルと高周波数帯域におけるパワースペクトルの差が小さくてもこもる音を補正できる音声補正装置を提供することを目的とする。

一つの実施形態によれば、音声補正装置が提供される。この音声補正装置は、時間領域の音声信号を所定の時間長を持つフレーム単位で周波数領域へ変換することで複数の周波数のそれぞれについてのスペクトル信号値を含むスペクトル信号を算出する時間周波数変換部と、各周波数について、人の聴覚特性に応じて聞き取れないスペクトル信号値に相当するマスキング閾値を算出するマスキング閾値算出部と、少なくとも第１の周波数帯域に含まれる周波数及び第２の周波数帯域に含まれる周波数についてのスペクトル信号値とマスキング閾値に基づいて、第１の周波数帯域及び第２の周波数帯域の知覚可能なスペクトル信号を表す有効スペクトル信号を算出する有効スペクトル抽出部と、第１の周波数帯域の有効スペクトル信号と第２の周波数帯域の有効スペクトル信号との差を求める帯域間パワー差算出部と、その差に応じて所定の周波数帯域の補正量を決定する補正量算出部と、その補正量に応じて、所定の周波数帯域内の各周波数のスペクトル信号値を補正することで補正スペクトル信号を算出する補正部と、補正スペクトル信号を時間領域へ変換することで補正された音声信号を得る周波数時間変換部とを有する。

本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。

本明細書に開示された音声補正装置は、低周波数帯域におけるパワースペクトルと高周波数帯域におけるパワースペクトルの差が小さくてもこもる音を補正できる。

一実施形態による音声補正装置が実装された携帯電話機の概略構成図である。音声補正装置の概略構成図である。パワースペクトルのピーク周波数と各周波数のマスキング閾値との関係の一例を示す図である。（ａ）は、入力された音声信号のパワースペクトルと各周波数のマスキング閾値とを示す図であり、（ｂ）は、（ａ）に示された音声信号のパワースペクトルから算出された有効パワースペクトルの一例を示す図である。低周波数帯域のパワースペクトル及び高周波数帯域のパワースペクトルとパワー差の関係の一例を示す図である。パワー差と基準補正係数の関係の一例を示す図である。周波数と（５）式に示された係数β(f)との関係を示す図である。（ａ）は、こもり感がある音声信号のパワースペクトルの一例を示す図である。（ｂ）は、（ａ）に示されたパワースペクトルのうち、有効パワースペクトルを示す図である。（ｃ）は、（ａ）に示されたパワースペクトルを、それぞれ、従来技術と本実施形態による音声補正装置とで補正した音声信号のパワースペクトルの一例を示す図である。音声補正処理の動作フローチャートである。変形例による、パワー差と基準補正係数の関係の一例を示す図である。変形例による、周波数と（７）式に示された係数β1(f)及びβ2(f)との関係を示す図である。実施形態またはその変形例による音声補正装置の各部の機能を実現するコンピュータプログラムが動作することにより、音声補正装置として動作するコンピュータの構成図である。

以下、図を参照しつつ、一つの実施形態による音声補正装置について説明する。
発明者は、低周波数帯域のパワースペクトルと高周波数帯域のパワースペクトル間の差そのものよりも、低周波数帯域及び高周波数帯域のパワースペクトルのうちの人が知覚可能な成分間の差が音のこもり感に影響するという知見を得た。
そこでこの音声補正装置は、入力された音声信号についての複数の周波数のそれぞれのパワースペクトルから、各周波数について人が知覚できないパワースペクトル値に相当するマスキング閾値を求める。そしてこの音声補正装置は、各周波数について、パワースペクトル値からマスキング閾値を減算して、人が知覚可能なパワースペクトル成分を表す有効パワースペクトル値を算出する。そしてこの音声補正装置は、低周波数帯域の有効パワースペクトルから高周波数帯域の有効パワースペクトルを減じた差が大きいほど、高周波数帯域に含まれる各周波数の周波数信号値の増幅率を高くする。

なお、本明細書において、「低周波数帯域」という用語は、便宜上、その帯域に含まれる周波数成分が大きくなることで音声信号のこもり感の悪化に寄与する、人が知覚可能な周波数帯域を表すために使用される。また「高周波数帯域」という用語は、便宜上、「低周波数帯域」よりも相対的に高く、かつ、その帯域に含まれる周波数成分が大きくなることで音声信号のこもり感の改善に寄与する、人が知覚可能な周波数帯域を表すために使用される。
また、「パワースペクトル値」という用語は、任意の一つの周波数についてのパワースペクトルの値を表すために使用される。一方、「パワースペクトル」という用語は、複数の周波数のそれぞれのパワースペクトル値を含む、その複数の周波数を含む周波数帯域全体にわたるパワースペクトルの信号系列を表すために使用される。

図１は、第１の実施形態による音声補正装置が実装された携帯電話機の概略構成図である。図１に示されるように、携帯電話機１は、制御部２と、通信部３と、マイクロホン４と、アナログ／デジタル変換器５と、音声補正装置６と、デジタル／アナログ変換器７と、スピーカ８とを有する。
このうち、制御部２、通信部３及び音声補正装置６は、それぞれ別個の回路として形成される。あるいはこれらの各部は、その各部に対応する回路が集積された一つの集積回路として携帯電話機１に実装されてもよい。さらに、これらの各部は、携帯電話機１が有するプロセッサ上で実行されるコンピュータプログラムにより実現される、機能モジュールであってもよい。

制御部２は、少なくとも一つのプロセッサ、不揮発性のメモリ及び揮発性のメモリ及びその周辺回路を有する。制御部２は、携帯電話機１が有するキーパッドなどの操作部（図示せず）を介した操作により通話が開始されると、携帯電話機１と基地局装置（図示せず）との間における、無線接続、切断などの呼制御処理を携帯電話機１が準拠する通信規格に従って実行する。そして制御部２は、その呼制御処理の結果に応じて、通信部３に対して音声通話の開始または終了を指示する。さらに、制御部２は、通信部３を介して基地局装置から受信したダウンリンク信号に含まれる符号化された音声信号を取り出し、その音声信号を復号する。そして制御部２は、復号した音声信号を受信音声信号として、音声補正装置６へ出力する。

また制御部２は、マイクロホン４により集音され、アナログ／デジタル変換器５を介して入力された音声信号を符号化し、その符号化された音声信号を含むアップリンク信号を生成する。そして制御部２は、そのアップリンク信号を通信部３へ渡す。なお、音声信号に対する符号化方式としては、例えば、Third Generation Partnership Project(3GPP)により標準化されたAdaptive Multi-Rate-NarrowBand(AMR-NB)方式、またはAdaptive Multi-Rate-WideBand(AMR-WB)方式などが用いられる。

通信部３は、基地局装置との間で無線通信する。そして通信部３は、基地局装置から無線信号を受信して、その無線信号をベースバンド周波数を持つダウンリンク信号に変換する。そして通信部３は、ダウンリンク信号に対して分離、復調、誤り訂正復号などの受信処理を行った後、そのダウンリンク信号を制御部２へ渡す。また通信部３は、制御部２から受け取ったアップリンク信号に対して誤り訂正符号化、変調及び多重化などの送信処理を行った後、そのアップリンク信号を無線周波数を持つ搬送波に重畳して基地局装置へ送信する。

マイクロホン４は、音声入力部の一例であり、携帯電話機１の周囲の音を集音し、その音の強度に応じたアナログ音声信号を生成する。そしてマイクロホン４は、そのアナログ音声信号をアナログ／デジタル変換器５へ出力する。

アナログ／デジタル変換器５は、マイクロホン４から受け取ったアナログ音声信号を所定のサンプリングピッチでサンプリングすることによりデジタル化された入力音声信号を生成する。また、アナログ／デジタル変換器５は、増幅器を有し、アナログ音声信号を増幅した後にデジタル化してもよい。
アナログ／デジタル変換器５は、入力音声信号を制御部２へ出力する。

音声補正装置６は、受信音声信号の再生音がこもることを抑制するよう、受信音声信号に含まれる高周波数帯域の周波数成分を強調することで、補正された音声信号を算出する。そして音声補正装置６は、補正された音声信号をデジタル／アナログ変換器７へ出力する。なお、音声補正装置６の詳細については後述する。

デジタル／アナログ変換器７は、音声補正装置６から受け取った補正音声信号をデジタル−アナログ変換することでアナログ化する。なお、デジタル／アナログ変換器７は、増幅器を有し、その増幅器により、アナログ化された補正音声信号を増幅してもよい。そしてデジタル／アナログ変換器７は、アナログ化された補正音声信号をスピーカ８へ出力する。
スピーカ８は、音声出力部の一例であり、デジタル／アナログ変換器７から受け取った補正音声信号を再生する。

以下、音声補正装置６の詳細について説明する。
図２は、一つの実施形態による音声補正装置６の概略構成図である。音声補正装置６は、時間周波数変換部１１と、マスキング閾値算出部１２と、有効パワースペクトル抽出部１３と、帯域間パワー差算出部１４と、補正量算出部１５と、補正部１６と、周波数時間変換部１７とを有する。
音声補正装置６が有するこれらの各部は、それぞれ、別個の回路として音声補正装置６に実装されてもよく、あるいはそれらの各部の機能を実現する一つの集積回路であってもよい。

時間周波数変換部１１は、受信音声信号を、所定の時間長（例えば、数10msec）を持つフレーム単位で周波数領域へ変換することにより周波数信号を算出する。なお、この周波数信号は、複数の周波数のそれぞれについての周波数信号値を含む。そのために、時間周波数変換部１１は、例えば、受信音声信号に対して、高速フーリエ変換(Fast Fourier Transform, FFT)、または修正離散コサイン変換(Modified Discrete Cosine Transform, MDCT)といった時間周波数変換を実行することにより周波数信号へ変換する。あるいは、時間周波数変換部１１は、Quadrature Mirror Filter(QMF)フィルタバンクあるいはウェーブレット変換を上記の時間周波数変換として用いてもよい。
時間周波数変換部１１は、次式に従って各周波数のパワースペクトル値を算出する。

ここで、S(f)は、周波数fにおける周波数信号値であり、F(f)は、周波数fにおけるパワースペクトル値である。なお、周波数信号値及びパワースペクトル値は、それぞれ、スペクトル信号値の一例である。
時間周波数変換部１１は、フレームごとに、各周波数のパワースペクトル値をマスキング閾値算出部１２及び有効パワースペクトル抽出部１３へ出力する。また、時間周波数変換部１１は、各周波数の周波数信号値を補正部１６へ出力する。

マスキング閾値算出部１２は、各フレームについて、周波数ごとに人の聴覚特性に基づいて人が知覚不能なパワースペクトル値に相当するマスキング閾値を算出する。
一般に、ある周波数の音のスペクトル成分が大きいと、その周波数に近いほど、かつ、その周波数のスペクトル成分が大きいほど、その周波数近傍の周波数の音のスペクトル成分は知覚され難くなるマスキング効果が生じることが知られている。この周波数マスキング効果は、人の聴覚心理的な特性に起因する。
そこでマスキング閾値算出部１２は、各フレームについて、隣接する周波数間のパワースペクトル値の変化を調べることにより、パワースペクトル値が極大値となるピーク周波数を検出する。そしてマスキング閾値算出部１２は、ピーク周波数におけるパワースペクトル値が大きいほど、かつ、ピーク周波数に近いほどマスキング閾値も大きくなるように、例えば、次式に従って各周波数のマスキング閾値を算出する。

ここで、f_iは、最も低いピーク周波数から順にi番目のピーク周波数を表す。F(f_i)は、ピーク周波数f_iにおけるパワースペクトル値である。そしてm(f,f_i)は、ピーク周波数f_iに基づいて算出される、周波数fのマスキング閾値である。関数α(x)は、変数xが大きくなるほど出力値が単調減少する単調減少関数である。さらに関数max(m(f,f_i))は、各ピーク周波数について算出される周波数fに対するマスキング閾値のうちの最大値を出力する関数である。そしてM(f)は、周波数fのマスキング閾値である。（１）式から明らかなように、マスキング閾値M(f)は、何れかのピーク周波数f_iについて算出されたマスキング閾値m(f,f_i)のうちの最大値となる。

図３は、パワースペクトル値のピーク周波数と、本実施形態により設定される各周波数のマスキング閾値との関係の一例を示す図である。図３において横軸は周波数を表し、縦軸はパワーを表す。グラフ３０１は、周波数ごとのパワースペクトル値の一例を表す。またグラフ３０２は、各周波数に対するマスキング閾値を表す。この例では、パワースペクトル３０１は、周波数fA、fB、fCにて極大値となる。すなわち、周波数fA、fB、fCが、それぞれピーク周波数となる。したがって、グラフ３０２に示されるように、マスキング閾値は、何れかのピーク周波数に近い周波数ほど大きく、かつ、ピーク周波数におけるパワースペクトル値が大きいほど大きな値となるように設定される。

なお、マスキング効果は、経時的な音の大きさの変化によっても生じる。例えば、あるフレームにおける音が大きいと、その直後のフレームにおける小さい音は知覚困難となる。
そこで変形例として、マスキング閾値算出部１２は、経時的な音の変化に基づいて各周波数のマスキング閾値を算出してもよい。この場合、マスキング閾値算出部１２は、最新のフレームである現フレームの各周波数に対するマスキング閾値を、現フレームよりも所定数前、例えば一つ前のフレームにおける対応する周波数のパワースペクトル値が大きいほど、大きな値に設定する。例えば、マスキング閾値算出部１２は、ISO/IEC 13818-7:2006のAnnex CのC.1 Psychoacoustic ModelのC.1.4 Steps in Threshold Calculationの項に記載された閾値（マスキング閾値に相当）の算出処理に従って、マスキング閾値を算出できる。あるいは、マスキング閾値算出部１２は、Third Generation Partnership Project(3GPP) TS 26.403 V9.0.0 5.4.2 Threshold Calculationの項に記載されている方法に従ってマスキング閾値を算出してもよい。

さらに他の変形例によれば、マスキング閾値算出部１２は、各周波数について、ピーク周波数に基づいて算出されたマスキング閾値と、経時的な音の変化に基づいて算出されたマスキング閾値とを組み合わせることにより、最終的なマスキング閾値を決定してもよい。例えば、マスキング閾値算出部１２は、周波数ごとに、ピーク周波数に基づいて算出されたマスキング閾値と、経時的な音の変化に基づいて算出されたマスキング閾値のうち、大きい方のマスキング閾値をその周波数に対するマスキング閾値としてもよい。
マスキング閾値算出部１２は、各周波数のマスキング閾値を有効パワースペクトル抽出部１３へ出力する。

有効パワースペクトル抽出部１３は、有効スペクトル抽出部の一例であり、フレームごとに、各周波数について、パワースペクトル値からマスキング閾値を減算することで人が知覚可能なパワースペクトル成分を表す有効パワースペクトル値を算出する。有効パワースペクトル抽出部１３は、例えば、次式に従って有効パワースペクトル値を算出する。

ここでF(f)は、周波数fのパワースペクトル値であり、M(f)は周波数fのマスキング閾値である。そしてF'(f)は、周波数fの有効パワースペクトル値である。

図４（ａ）は、各周波数の音声信号のパワースペクトル値及びマスキング閾値の一例を示す図である。図４（ｂ）は、図４（ａ）に示された音声信号のパワースペクトルから算出された有効パワースペクトルの一例を示す図である。図４（ａ）及び図４（ｂ）において、横軸は周波数を表し、縦軸はパワーを表す。そしてグラフ４０１は、各周波数の音声信号のパワースペクトル値の大きさを表し、グラフ４０２は、各周波数のマスキング閾値を表す。またグラフ４１１は、各周波数の有効パワースペクトル値の大きさを表す。グラフ４１１で表される有効パワースペクトル値の大きさは、図４（ａ）におけるハッチング領域の大きさと等価である。

有効パワースペクトル抽出部１３は、各周波数の有効パワースペクトル値を帯域間パワー差算出部１４へ出力する。

帯域間パワー差算出部１４は、人が知覚可能な周波数帯域のうちの相対的に低い周波数帯域の有効パワースペクトルと、人が知覚可能な周波数帯域のうちの相対的に高い周波数帯域の有効パワースペクトルとのパワー差を算出する。このパワー差が大きいほど、受信音声信号のうちの人の知覚に寄与する高周波成分が相対的に小さいので、このパワー差は、受信音声信号がこもる程度を表す指標となる。
例えば、帯域間パワー差算出部１４は、次式に従って、低周波数帯域及び高周波数帯域内の各周波数のパワースペクトル値の平均値を、それぞれ、低周波数帯域及び高周波数帯域の有効パワースペクトルとすることで、パワー差ΔPを算出する。

ls及びleは、低周波数帯域の下限及び上限の周波数であり、例えば、ls及びleは、それぞれ、ls以上かつle以下の周波数帯域のパワースペクトルを増幅するとこもり感が悪化する周波数の下限値及び上限値に設定される。一方、hs及びheは、それぞれ、高周波数帯域の下限及び上限の周波数であり、例えば、hs及びheは、それぞれ、hs以上かつhe以下の周波数帯域のパワースペクトルを増幅するとこもり感が改善する周波数の下限値及び上限値に設定される。例えば、ls=150[Hz]、le=800[Hz]、hs=2900[Hz]、he=4000[Hz]に設定される。なお、帯域間パワー差算出部１４は、低周波数帯域及び高周波数帯域内の各周波数の有効パワースペクトル値の中央値を、それぞれ、低周波数帯域及び高周波数帯域の有効パワースペクトルとして、パワー差ΔPを算出してもよい。

図５は、低周波数帯域のパワースペクトル及び高周波数帯域のパワースペクトルとパワー差の関係の一例を示す図である。図５において、横軸は周波数を表し、縦軸はパワーを表す。グラフ５００は、周波数ごとの有効パワースペクトル値の大きさを表す。図５に示されるように、パワー差ΔPは、周波数ls〜le間の有効パワースペクトル値の平均値５０１から、周波数hs〜周波数he間の有効パワースペクトル値の平均値５０２を減じた値となる。したがって、パワー差ΔPが大きいほど、相対的に低い周波数帯域のパワースペクトルに対する相対的に高い周波数帯域のパワースペクトルの比が小さくなる。

帯域間パワー差算出部１４は、パワー差ΔPを補正量算出部１５へ出力する。

補正量算出部１５は、フレームごとに、パワー差ΔPに応じて、低周波数帯域に対する高周波数帯域の強調度を大きくするように、補正対象周波数帯域内の各周波数の周波数信号値を強調する程度を表す補正係数を決定する。本実施形態では、補正対象周波数帯域は、高周波数帯域を含み、かつ、低周波数帯域を含まないように設定される。本実施形態では、補正対象周波数帯域の下限の周波数は、hsから所定のオフセット値を減じた値、例えば、2562Hzに設定される。また補正対象周波数帯域の上限は設定しない。

補正量算出部１５は、先ず、パワー差ΔPが大きくなるほど大きな値となる基準補正係数Gmを求める。例えば、補正量算出部１５は、補正量算出部１５が有する不揮発性のメモリ回路に予め記憶された、パワー差ΔPと基準補正係数Gmとの関係を表す関係式またはテーブルを参照することにより、基準補正係数Gmを決定する。

図６は、パワー差ΔPと基準補正係数Gmとの関係の一例を示す図である。図６において、横軸はパワー差ΔPを表し、縦軸は基準補正係数Gmを表す。グラフ６００は、パワー差ΔPと基準補正係数Gmの関係を表す。
グラフ６００に示されるように、例えば、パワー差ΔPが基準値Pl以下であれば、基準補正係数Gmは0に設定される。そしてパワー差ΔPが基準値Plよりも大きく、かつ、補正上限値Pu以下であれば、そのパワー差ΔPが増加するにつれて基準補正係数Gmは線形に増加する。そしてパワー差ΔPが補正上限値Pu以上となると、基準補正係数Gmはその上限値Gmaxに設定される。なお、基準値Plは、例えば、音声信号を補正しなくても、その音声信号に対して人がこもり感を感じないパワー差の上限値、例えば、28dBに設定される。一方、補正上限値Pu及び基準補正係数の上限値Gmaxは、補正対象周波数帯域内の各周波数の周波数信号値を強調することにより生じる音声信号の歪みが主観的に検知されないパワー差の下限値及び基準補正係数の上限値、例えば、48dB及び20dBに設定される。

補正量算出部１５は、基準補正係数Gmを決定すると、次式に示されるように、周波数に応じて決まる係数β(f)を基準補正係数Gmに乗じることで、補正対象周波数帯域内の各周波数に対する補正係数g(f)を決定する。

ここで、hsは、上記の高周波数帯域の下限周波数であり、例えば、2900[Hz]に設定される。Esは、補正対象周波数帯域の下限周波数であり、例えば、2500〜2700[Hz]に設定される。またEulは、補正係数g(f)が一定となる周波数の下限値であり、例えば、3100〜3300[Hz]に設定される。

図７は、周波数と（５）式に示された係数β(f)との関係を示す図である。図７において、横軸は周波数を表し、縦軸は係数β(f)の大きさを表す。グラフ７００は、周波数と係数β(f)との関係を表す。グラフ７００に示されるように、係数β(f)は、周波数Es未満では0であり、周波数Es以上、かつ、周波数Eul以下では、周波数が高くなるにつれて単調増加する。そしてβ(f)は、周波数Eulより大きくなると一定となる。このように、係数β(f)が設定されることにより、補正対象周波数帯域の下限Esの近傍では、その下限Esに近づくにつれて補正係数g(f)も徐々に小さくなる。そのため、補正対象周波数帯域の下限近傍にて周波数信号が不連続となることが防止されるので、補正された音声信号が不自然に歪むことが防止される。

補正量算出部１５は、補正対象周波数帯域内の各周波数の補正係数g(f)を補正部１６へ出力する。

補正部１６は、フレーム単位で、補正対象周波数帯域内の各周波数の周波数信号値を次式に従って補正する。

S(f)は、周波数fの周波数信号値であり、g(f)は、周波数fの補正係数である。そしてS_out(f)は、補正後の周波数信号値である。（６）式から明らかなように、補正係数g(f)=0のとき、補正後の周波数信号値S'(f)は、補正前の周波数信号値S(f)と等しく、補正係数g(f)が大きくなるほど、補正後の周波数信号値S'(f)は増幅される。

図８（ａ）は、こもり感がある音声信号のパワースペクトルの一例を示す図である。図８（ｂ）は、図８（ａ）に示されたパワースペクトルのうち、有効パワースペクトルを示す図である。図８（ｃ）は、図８（ａ）に示されたパワースペクトルを、それぞれ、従来技術と本実施形態による音声補正装置とで補正した音声信号のパワースペクトルの一例を示す図である。
図８（ａ）〜図８（ｃ）において、横軸は周波数を表し、縦軸はパワーを表す。図８（ａ）及び（ｃ）に示されたグラフ８００は、各周波数についてのこもり感がある音声信号のパワースペクトルを表す。また線８０１は、低周波数帯域内の各周波数のパワースペクトル値の平均値P_lowを表し、一方、線８０２は、高周波数帯域内の各周波数のパワースペクトル値の平均値P_highを表す。また図（ｂ）に示されたグラフ８１０は、図８（ａ）に示された各周波数におけるパワースペクトル値のうち、有効パワースペクトル値を表す。そして線８１１及び８１２は、それぞれ、低周波数帯域内の各周波数の有効パワースペクトル値の平均値P'_low及び高周波数帯域内の各周波数の有効パワースペクトル値の平均値P'_highを表す。また図８（ｃ）に示されたグラフ８２０は、従来技術に従って補正された音声信号の周波数ごとのパワースペクトル値を表し、グラフ８２１は、音声補正装置６によって補正された音声信号の周波数ごとのパワースペクトル値を表す。図８（ａ）及び図８（ｂ）に示されるように、パワースペクトル値の平均値P_lowとP_high間の差Δよりも、有効パワースペクトル値の平均値P'_lowとP'_high間の差Δ'の方が大きい。そのため、図８（ｃ）に示されるように、音声補正装置６にて補正された音声信号の方が、従来技術に従って補正された音声信号よりも、低周波数帯域のパワースペクトルに対する高周波数帯域のパワースペクトルの比が大きくなっている。そのため、音声補正装置６にて補正された音声信号の方が、従来技術に従って補正された音声信号よりもこもり感が改善されている。

補正部１６は、補正後の補正対象周波数帯域内の各周波数の周波数信号値を含む、全ての周波数帯域の周波数信号値を周波数時間変換部１７へ出力する。

周波数時間変換部１７は、補正された各周波数の周波数信号値を、時間周波数変換部１１が用いた時間周波数変換の逆変換を用いて時間領域へ変換することにより、補正された音声信号を得る。そして周波数時間変換部１７は、補正された音声信号をデジタル／アナログ変換器７へ出力する。

図９は、音声補正装置６により実行される音声補正処理の動作フローチャートである。音声補正装置６は、フレームごとに、以下に示す動作フローチャートに従って音声補正処理を実行する。

時間周波数変換部１１は、音声信号をフレーム単位で周波数領域へ変換することにより、周波数信号を算出する（ステップＳ１０１）。そして時間周波数変換部１１は、各周波数のパワースペクトル値を算出する（ステップＳ１０２）。時間周波数変換部１１は、各周波数のパワースペクトル値をマスキング閾値算出部１２及び有効パワースペクトル抽出部１３へ出力する。また時間周波数変換部１１は、各周波数の周波数信号値を補正部１６へ出力する。

マスキング閾値算出部１２は、各周波数について、人が知覚困難なパワースペクトル値に相当するマスキング閾値を求める（ステップＳ１０３）。そしてマスキング閾値算出部１２は、各周波数のマスキング閾値を有効パワースペクトル抽出部１３へ出力する。有効パワースペクトル抽出部１３は、各周波数について、パワースペクトル値からマスキング閾値を減ずることにより、人が知覚可能な成分である有効パワースペクトル値を算出する（ステップＳ１０４）。有効パワースペクトル抽出部１３は、各周波数の有効パワースペクトル値を帯域間パワー差算出部１４へ出力する。

帯域間パワー差算出部１４は、低周波数帯域内の各周波数の有効パワースペクトル値の平均値と高周波数帯域内の各周波数の有効パワースペクトル値の平均値とのパワー差ΔPを算出する（ステップＳ１０５）。そして帯域間パワー差算出部１４は、パワー差ΔPを補正量算出部１５へ出力する。
補正量算出部１５は、パワー差ΔPが大きいほど、補正対象周波数帯域内の各周波数の周波数信号値を大きく増幅するように、補正対象周波数帯域内の各周波数の補正係数を決定する（ステップＳ１０６）。そして補正部１６は、補正対象周波数帯域内の各周波数について、補正量算出部１５で決定された補正係数に応じて周波数信号値を増幅することにより、各周波数の周波数信号値を補正する（ステップＳ１０７）。そして周波数時間変換部１７は、補正された各周波数の周波数信号値を時間領域へ変換することで補正された音声信号を算出する（ステップＳ１０８）。
そして音声補正装置６は、補正された音声信号を出力し、音声補正処理を終了する。

以上に説明してきたように、この音声補正装置は、低周波数帯域及び高周波数帯域のパワースペクトルのうちの人が知覚可能な成分の差に基づいて、高周波数帯域内の各周波数の周波数信号値に対する強調度合いを決定する。そのため、この音声補正装置は、低周波数帯域のパワースペクトルと高周波数帯域のパワースペクトルの差が小さくても、音声信号のこもり感を適切に改善できる。

変形例によれば、マスキング閾値算出部は、パワー差の算出に利用する低周波数帯域に含まれる周波数及び高周波数帯域に含まれる周波数のみについてマスキング閾値を算出してもよい。同様に、有効パワースペクトル抽出部も、パワー差の算出に利用する低周波数帯域に含まれる周波数及び高周波数帯域に含まれる周波数のみについて有効パワースペクトル値を算出してもよい。これにより演算量が削減される。

また他の変形例によれば、音声補正装置は、低周波数帯域と高周波数帯域間のパワー差が大きいほど、低周波数帯域に含まれる各周波数の周波数信号値を減衰させてもよい。この変形例によっても、低周波数帯域内の各周波数の周波数信号値に対する高周波数帯域内の各周波数の周波数信号値の比率が相対的に高くなるので、こもり感は改善される。この変形例の場合には、補正量算出部は、パワー差が大きくなるほど、低周波数帯域内の各周波数に対する減衰係数を大きくする。そして補正部は、減衰係数が大きいほど、低周波数帯域内の各周波数の周波数信号値を減衰させることで、補正周波数信号を生成する。

さらに他の変形例によれば、マスキング閾値算出部は、パワースペクトルの代わりに、各周波数信号値の振幅の絶対値を用いて各周波数のマスキング閾値を算出してもよい。周波数信号値の振幅の絶対値も、スペクトル信号の一例である。この場合、有効パワースペクトル抽出部も、各周波数について、周波数信号値の振幅の絶対値からマスキング閾値を減じた値を有効スペクトル信号として求める。そして帯域間パワー差算出部も、周波数信号値の振幅の絶対値に基づいて算出された、低周波数帯域内の各周波数の有効スペクトル信号の平均値と高周波数帯域内の各周波数の有効スペクトル信号の平均値との差を求める。補正量算出部は、その差が大きくなるほど、補正対象周波数帯域内の各周波数についての補正係数を大きくする。

さらに他の変形例によれば、音声補正装置は、高周波数帯域のパワースペクトルが大き過ぎることによる音声の歪みを改善するものであってもよい。この場合には、音声補正装置の補正量算出部は、上記のパワー差ΔPが上記の基準値P1よりも小さい場合に、高周波数帯域に含まれる各周波数のスペクトル信号値を減衰させるように補正係数を決定する。

図１０は、この変形例による、パワー差ΔPと基準補正係数Gmとの関係の一例を示す図である。図１０において、横軸はパワー差ΔPを表し、縦軸は基準補正係数Gmを表す。グラフ１０００は、パワー差ΔPと基準補正係数Gmの関係を表す。
グラフ１０００に示されるように、この変形例では、パワー差ΔPが基準値Pl以下であれば、基準補正係数Gmは負の値に設定され、ΔPが小さくなるほど、基準補正係数Gmも小さくなる。そしてパワー差ΔPが補正下限値Pmin以下では、負の一定値、例えば、-10dBに設定される。なお、パワー差ΔPが基準値Plよりも大きい場合には、図６に示した例と同様に、パワー差ΔPに応じて基準補正係数Gmは決定される。

さらに他の変形例によれば、補正量算出部は、高周波数帯域を複数のサブ周波数帯域に分割し、サブ周波数帯域ごとに補正係数を変えてもよい。例えば、スピーカの能力によっては、高周波数帯域のスペクトル信号を増幅し過ぎると音割れなどの音質劣化が発生することがある。しかし、この変形例によれば、音声補正装置は、そのような音質劣化が発生しない範囲でこもりを改善することができる。

例えば、高周波数帯域を二つのサブ周波数帯域に分割する場合、補正係数g(f)は、次式に従って算出される。

なお、係数β1(f)及びβ2(f)は、それぞれ、低い方のサブ周波数帯域及び高い方のサブ周波数帯域に対応する。

図１１は、周波数と（７）式に示された係数β1(f)及びβ2(f)との関係を示す図である。図１１において、横軸は周波数を表し、縦軸は係数β1(f)及びβ2(f)の大きさを表す。グラフ１１００は、周波数と係数β1(f)との関係を表す。またグラフ１１０１は、周波数と係数β2(f)との関係を表す。グラフ１１００に示されるように、係数β1(f)は、周波数Es1未満では0であり、周波数Es1以上、かつ、周波数Eul1以下では、周波数が高くなるにつれて単調増加する。そして係数β1(f)は、周波数Eul1より高く、かつ、周波数Em未満では一定となる。さらに、係数β1(f)は、周波数Emより高く、かつ、周波数Ee以下では、周波数が高くなるにつれて単調減少する。そして、係数β1(f)は、周波数Eeより高くなると、0となる。一方、グラフ１１０１に示されるように、係数β2(f)は、周波数Es2未満では0であり、周波数Es2以上、かつ、周波数Eul2以下では、周波数が高くなるにつれて単調増加する。そして係数β2(f)は、周波数Eul2より高くなると一定となる。ただし、EeとEul2はほぼ等しく、また、Es2とEmも、ほぼ等しい周波数に設定される。

また他の変形例によれば、音声補正装置は、携帯電話機に搭載されたマイクロホンにより集音され、アナログ／デジタル変換器によりデジタル化された入力音声信号に対して音声補正処理を実行してもよい。この場合、音声補正装置により補正された入力音声信号は、携帯電話機の制御部へ出力される。
この場合、低周波数帯域の下限ls、上限leは、携帯電話機に搭載されたマイクロホンの近接効果により強調される周波数帯域の下限及び上限に設定されてもよい。
さらに、音声補正装置は、携帯電話機に限らず、固定電話機、または電話会議システムなどに実装されてもよい。

さらに、上記の各実施形態による音声補正装置の各部が有する各機能をコンピュータに実現させるコンピュータプログラムは、磁気記録媒体あるいは光記録媒体といった、コンピュータによって読み取り可能な媒体に記録された形で提供されてもよい。

図１２は、上記の実施形態またはその変形例による音声補正装置の各部の機能を実現するコンピュータプログラムが動作することにより、音声補正装置として動作するコンピュータの構成図である。
コンピュータ１００は、ユーザインターフェース部１０１と、通信インターフェース部１０２と、記憶部１０３と、記憶媒体アクセス装置１０４と、プロセッサ１０５とを有する。プロセッサ１０５は、ユーザインターフェース部１０１、通信インターフェース部１０２、記憶部１０３及び記憶媒体アクセス装置１０４と、例えば、バスを介して接続される。

ユーザインターフェース部１０１は、例えば、キーボードとマウスなどの入力装置と、液晶ディスプレイといった表示装置とを有する。または、ユーザインターフェース部１０１は、タッチパネルディスプレイといった、入力装置と表示装置とが一体化された装置を有してもよい。そしてユーザインターフェース部１０１は、例えば、ユーザの操作に応じて、音声補正処理を開始させる操作信号をプロセッサ１０５へ出力する。

通信インターフェース部１０２は、コンピュータ１００を、マイクロホン及びスピーカと接続するためのオーディオインターフェース及びその制御回路を有してもよい。
さらに、通信インターフェース部１０２は、イーサネット（登録商標）などの通信規格に従った通信ネットワークに接続するための通信インターフェース及びその制御回路を有してもよい。
この場合には、通信インターフェース部１０２は、通信ネットワークに接続された他の機器から、音声信号を取得し、プロセッサ１０５へ渡す。また通信インターフェース部１０２は、プロセッサ１０５から受け取った、補正された音声信号を通信ネットワークを介して他の機器へ出力してもよい。

記憶部１０３は、例えば、読み書き可能な半導体メモリと読み出し専用の半導体メモリとを有する。そして記憶部１０３は、プロセッサ１０５上で実行される、音声補正処理を実行するためのコンピュータプログラム、及び音声補正処理で利用される、各種のデータを記憶する。

記憶媒体アクセス装置１０４は、例えば、磁気ディスク、半導体メモリカード及び光記憶媒体といった記憶媒体１０６にアクセスする装置である。記憶媒体アクセス装置１０４は、例えば、記憶媒体１０６に記憶されたプロセッサ１０５上で実行される、音声補正処理用のコンピュータプログラムを読み込み、プロセッサ１０５に渡す。

プロセッサ１０５は、上記の実施形態または変形例による音声補正処理用コンピュータプログラムを実行することにより、音声信号のこもり感を改善するよう、高周波数帯域の周波数成分を強調する。そしてプロセッサ１０５は、補正された音声信号を通信インターフェース部１０２を介して他の機器へ出力する。

ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。

以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
（付記１）
時間領域の音声信号を所定の時間長を持つフレーム単位で周波数領域へ変換することで複数の周波数のそれぞれについてのスペクトル信号値を含むスペクトル信号を算出する時間周波数変換部と、
各周波数について、人の聴覚特性に応じて聞き取れないスペクトル信号値に相当するマスキング閾値を算出するマスキング閾値算出部と、
少なくとも第１の周波数帯域に含まれる周波数及び第２の周波数帯域に含まれる周波数についての前記スペクトル信号値と前記マスキング閾値に基づいて、前記第１の周波数帯域及び前記第２の周波数帯域の知覚可能なスペクトル信号を表す有効スペクトル信号を算出する有効スペクトル抽出部と、
前記第１の周波数帯域の有効スペクトル信号と前記第２の周波数帯域の有効スペクトル信号との差を求める帯域間パワー差算出部と、
前記差に応じて所定の周波数帯域の補正量を決定する補正量算出部と、
前記補正量に応じて、前記所定の周波数帯域内の各周波数のスペクトル信号値を補正することで補正スペクトル信号を算出する補正部と、
前記補正スペクトル信号を時間領域へ変換することで補正された音声信号を得る周波数時間変換部と、
を有する音声補正装置。
（付記２）
前記有効スペクトル抽出部は、前記第１の周波数帯域または前記第２の周波数帯域に含まれる各周波数について前記スペクトル信号値から前記マスキング閾値を減算することで前記第１の周波数帯域の前記有効スペクトル信号及び前記第２の周波数帯域の前記有効スペクトルを算出する、付記１に記載の音声補正装置。
（付記３）
前記マスキング閾値算出部は、現フレームにおける前記複数の周波数帯域のうち、前記スペクトル信号値が極大値となるピーク周波数を検出し、前記ピーク周波数から近く、かつ前記ピーク周波数の前記スペクトル信号値が大きい周波数ほど、当該周波数に対する前記マスキング閾値を大きくする、付記１または２に記載の音声補正装置。
（付記４）
前記マスキング閾値算出部は、現フレームよりも所定数前のフレームにおける前記スペクトル信号値が大きい周波数ほど、当該周波数に対する前記マスキング閾値を大きくする、付記１または２に記載の音声補正装置。
（付記５）
前記第１の周波数帯域は、当該第１の周波数帯域の前記スペクトル信号値を増幅することでこもり感が悪化する周波数帯域であり、一方、前記第２の周波数帯域は、当該第２の周波数帯域の前記スペクトル信号値を増幅することでこもり感が改善する周波数帯域である、付記１〜４の何れか一項に記載の音声補正装置。
（付記６）
前記第１の周波数帯域は、前記音声信号を取得した音声入力部の特性によって周波数信号が増幅される第３の周波数帯域に含まれる、付記１〜５の何れか一項に記載の音声補正装置。
（付記７）
前記第２の周波数帯域は前記第１の周波数帯域よりも高く、
前記補正部は、前記補正量に応じて、前記第１の周波数帯域内の周波数の前記スペクトル信号値に対する前記第２の周波数帯域内の周波数の前記スペクトル信号値の比を高くするように、前記補正スペクトル信号を算出する、付記１〜６の何れか一項に記載の音声補正装置。
（付記８）
前記補正量算出部は、前記差が大きいほど、前記スペクトル信号値の比が高くなるように、前記第１の周波数帯域及び前記第２の周波数帯域のうちの少なくとも一方に対する前記補正量を決定する、付記７に記載の音声補正装置。
（付記９）
時間領域の音声信号を所定の時間長を持つフレーム単位で周波数領域へ変換することで複数の周波数のそれぞれについてのスペクトル信号値を含むスペクトル信号を算出し、
各周波数について、人の聴覚特性に応じて聞き取れないスペクトル信号値に相当するマスキング閾値を算出し、
少なくとも第１の周波数帯域に含まれる周波数及び第２の周波数帯域に含まれる周波数についての前記スペクトル信号値と前記マスキング閾値に基づいて、前記第１の周波数帯域及び前記第２の周波数帯域の知覚可能なスペクトル信号を表す有効スペクトル信号を算出し、
前記第１の周波数帯域の有効スペクトル信号と前記第２の周波数帯域の有効スペクトル信号との差を求め、
前記差に応じて、所定の周波数帯域に対する補正量を決定し、
前記補正量に応じて、前記所定の周波数帯域内の各周波数のスペクトル信号値を補正することで補正スペクトル信号を算出し、
前記補正スペクトル信号を時間領域へ変換することで補正された音声信号を得る、
ことを含む音声補正方法。
（付記１０）
時間領域の音声信号を所定の時間長を持つフレーム単位で周波数領域へ変換することで複数の周波数のそれぞれについてのスペクトル信号値を含むスペクトル信号を算出し、
各周波数について、人の聴覚特性に応じて聞き取れないスペクトル信号値に相当するマスキング閾値を算出し、
少なくとも第１の周波数帯域に含まれる周波数及び第２の周波数帯域に含まれる周波数についての前記スペクトル信号値と前記マスキング閾値に基づいて、前記第１の周波数帯域及び前記第２の周波数帯域の知覚可能なスペクトル信号を表す有効スペクトル信号を算出し、
前記第１の周波数帯域の有効スペクトル信号と前記第２の周波数帯域の有効スペクトル信号との差を求め、
前記差に応じて、所定の周波数帯域に対する補正量を決定し、
前記補正量に応じて、前記所定の周波数帯域内の各周波数のスペクトル信号値を補正することで補正スペクトル信号を算出し、
前記補正スペクトル信号を時間領域へ変換することで補正された音声信号を得る、
ことをコンピュータに実行させる音声補正用コンピュータプログラム。

１携帯電話機
２制御部
３通信部
４マイクロホン
５アナログ／デジタル変換器
６音声補正装置
７デジタル／アナログ変換器
８スピーカ
１１時間周波数変換部
１２マスキング閾値算出部
１３有効パワースペクトル抽出部
１４帯域間パワー差算出部
１５補正量算出部
１６補正部
１７周波数時間変換部
１００コンピュータ
１０１ユーザインターフェース部
１０２通信インターフェース部
１０３記憶部
１０４記憶媒体アクセス装置
１０５プロセッサ
１０６記憶媒体

Claims

時間領域の音声信号を所定の時間長を持つフレーム単位で周波数領域へ変換することで複数の周波数のそれぞれについてのスペクトル信号値を含むスペクトル信号を算出する時間周波数変換部と、
各周波数について、人の聴覚特性に応じて聞き取れないスペクトル信号値に相当するマスキング閾値を算出するマスキング閾値算出部と、
少なくとも第１の周波数帯域に含まれる周波数及び第２の周波数帯域に含まれる周波数についての前記スペクトル信号値と前記マスキング閾値に基づいて、前記第１の周波数帯域及び前記第２の周波数帯域の知覚可能なスペクトル信号を表す有効スペクトル信号を算出する有効スペクトル抽出部と、
前記第１の周波数帯域の有効スペクトル信号と前記第２の周波数帯域の有効スペクトル信号との差を求める帯域間パワー差算出部と、
前記差に応じて所定の周波数帯域の補正量を決定する補正量算出部と、
前記補正量に応じて、前記所定の周波数帯域内の各周波数のスペクトル信号値を補正することで補正スペクトル信号を算出する補正部と、
前記補正スペクトル信号を時間領域へ変換することで補正された音声信号を得る周波数時間変換部と、
を有する音声補正装置。
前記有効スペクトル抽出部は、前記第１の周波数帯域または前記第２の周波数帯域に含まれる各周波数について前記スペクトル信号値から前記マスキング閾値を減算することで前記第１の周波数帯域の前記有効スペクトル信号及び前記第２の周波数帯域の前記有効スペクトルを算出する、請求項１に記載の音声補正装置。
前記マスキング閾値算出部は、現フレームにおける前記複数の周波数帯域のうち、前記スペクトル信号値が極大値となるピーク周波数を検出し、前記ピーク周波数から近く、かつ前記ピーク周波数の前記スペクトル信号値が大きい周波数ほど、当該周波数に対する前記マスキング閾値を大きくする、請求項１または２に記載の音声補正装置。
前記マスキング閾値算出部は、現フレームよりも所定数前のフレームにおける前記スペクトル信号値が大きい周波数ほど、当該周波数に対する前記マスキング閾値を大きくする、請求項１または２に記載の音声補正装置。
前記第２の周波数帯域は前記第１の周波数帯域よりも高く、
前記補正部は、前記補正量に応じて、前記第１の周波数帯域内の周波数の前記スペクトル信号値に対する前記第２の周波数帯域内の周波数の前記スペクトル信号値の比を高くするように、前記補正スペクトル信号を算出する、請求項１〜４の何れか一項に記載の音声補正装置。
前記補正量算出部は、前記差が大きいほど、前記スペクトル信号値の比が高くなるように、前記第１の周波数帯域及び前記第２の周波数帯域のうちの少なくとも一方に対する前記補正量を決定する、請求項５に記載の音声補正装置。
時間領域の音声信号を所定の時間長を持つフレーム単位で周波数領域へ変換することで複数の周波数のそれぞれについてのスペクトル信号値を含むスペクトル信号を算出し、
各周波数について、人の聴覚特性に応じて聞き取れないスペクトル信号値に相当するマスキング閾値を算出し、
少なくとも第１の周波数帯域に含まれる周波数及び第２の周波数帯域に含まれる周波数についての前記スペクトル信号値と前記マスキング閾値に基づいて、前記第１の周波数帯域及び前記第２の周波数帯域の知覚可能なスペクトル信号を表す有効スペクトル信号を算出し、
前記第１の周波数帯域の有効スペクトル信号と前記第２の周波数帯域の有効スペクトル信号との差を求め、
前記差に応じて、所定の周波数帯域に対する補正量を決定し、
前記補正量に応じて、前記所定の周波数帯域内の各周波数のスペクトル信号値を補正することで補正スペクトル信号を算出し、
前記補正スペクトル信号を時間領域へ変換することで補正された音声信号を得る、
ことを含む音声補正方法。
時間領域の音声信号を所定の時間長を持つフレーム単位で周波数領域へ変換することで複数の周波数のそれぞれについてのスペクトル信号値を含むスペクトル信号を算出し、
各周波数について、人の聴覚特性に応じて聞き取れないスペクトル信号値に相当するマスキング閾値を算出し、
少なくとも第１の周波数帯域に含まれる周波数及び第２の周波数帯域に含まれる周波数についての前記スペクトル信号値と前記マスキング閾値に基づいて、前記第１の周波数帯域及び前記第２の周波数帯域の知覚可能なスペクトル信号を表す有効スペクトル信号を算出し、
前記第１の周波数帯域の有効スペクトル信号と前記第２の周波数帯域の有効スペクトル信号との差を求め、
前記差に応じて、所定の周波数帯域に対する補正量を決定し、
前記補正量に応じて、前記所定の周波数帯域内の各周波数のスペクトル信号値を補正することで補正スペクトル信号を算出し、
前記補正スペクトル信号を時間領域へ変換することで補正された音声信号を得る、
ことをコンピュータに実行させる音声補正用コンピュータプログラム。