JP2013195713A - 音声補正装置、音声補正方法及び音声補正用コンピュータプログラム - Google Patents

音声補正装置、音声補正方法及び音声補正用コンピュータプログラム Download PDF

Info

Publication number
JP2013195713A
JP2013195713A JP2012062860A JP2012062860A JP2013195713A JP 2013195713 A JP2013195713 A JP 2013195713A JP 2012062860 A JP2012062860 A JP 2012062860A JP 2012062860 A JP2012062860 A JP 2012062860A JP 2013195713 A JP2013195713 A JP 2013195713A
Authority
JP
Japan
Prior art keywords
frequency
frequency band
spectrum signal
value
correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012062860A
Other languages
English (en)
Other versions
JP6098038B2 (ja
Inventor
Chisato Ishikawa
千里 石川
Taro Togawa
太郎 外川
Takeshi Otani
猛 大谷
Masanao Suzuki
政直 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2012062860A priority Critical patent/JP6098038B2/ja
Publication of JP2013195713A publication Critical patent/JP2013195713A/ja
Application granted granted Critical
Publication of JP6098038B2 publication Critical patent/JP6098038B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)

Abstract

【課題】低周波数帯域におけるパワースペクトルと高周波数帯域におけるパワースペクトルの差が小さくてもこもる音を補正できる音声補正装置を提供する。
【解決手段】音声補正装置6は、複数の周波数帯域のうち、少なくとも第1の周波数帯域及び第2の周波数帯域について、スペクトル信号値から人の聴覚特性に応じて聞き取れないスペクトル信号値に相当するマスキング閾値を減算することで知覚可能なスペクトル信号値を表す有効スペクトル信号を算出する有効スペクトル抽出部13と、第1の周波数帯域の有効スペクトル信号と第2の周波数帯域の有効スペクトル信号との差を求める帯域間パワー差算出部14と、その差に応じて所定の周波数帯域に対する補正量を決定する補正量算出部15と、補正量に応じてその所定の周波数帯域内の各周波数のスペクトル信号値を補正する補正部16とを有する。
【選択図】図2

Description

本発明は、例えば、音声信号を補正する音声補正装置、音声補正方法及び音声補正用コンピュータプログラムに関する。
携帯電話機で集音された音声信号では、例えば、携帯電話機が有するマイクロホンの周波数特性により、高周波数成分が相対的に小さくなることがある。このような場合、その集音された音声信号を再生すると、その再生音はいわゆるこもった音となり、その結果、リスナーにとってその再生音は聞き取り難くなることがあった。
上記のような問題に対して、音声品質を落とさずに音声を強調する技術が研究されている(例えば、特許文献1を参照)。
例えば、特許文献1に開示された音声強調装置は、受話音声と周囲騒音の成分比であるSNRを算出し、かつ、受話音声のピッチ周波数と音声のパワースペクトルの傾きの少なくとも一つから音声の明るさを算出する。またこの音声強調装置は、受話音声の主観的な了解性の向上に寄与する帯域と主観的な明るさの向上に寄与する帯域を示す帯域分割情報とSNRから受話音声が周囲騒音にマスクされた際の受話音声の主観的な了解性の向上に寄与する第1の帯域の強調量を算出する。さらにこの音声強調装置は、第1の帯域の強調量と音声の明るさから、主観的な明るさの向上に寄与する第2の帯域の強調量を算出する。そしてこの音声強調装置は、第1の帯域の強調量と第2の帯域の強調量とを用いて、受話音声のスペクトルを加工する。
特開2010−14914号公報
特許文献1に開示された技術では、低周波数帯域と高周波数帯域との間のパワースペクトルの傾きによって強調量が影響されるので、その傾きがある程度大きい場合には、リスナーが音がこもると感じない程度にまで高周波数帯域のスペクトル成分が増幅される。しかしながら、音声信号によっては、低周波数帯域と高周波数帯域との間のパワースペクトルの傾きが小さくても、リスナーは音がこもると感じることがある。このような場合、その音声信号の高周波数帯域に対する強調量が十分に大きくならず、その結果として、強調された音声信号に対しても、リスナーは音がこもると感じることがあった。
また、パワースペクトルの傾きに対する強調量を大きくすると、パワースペクトルの傾きが大きい音声信号に対しては、高周波数帯域のスペクトル成分が過剰に増幅されてしまい、かえって聞き難くなるほど音声信号が歪んでしまう。
そこで本明細書は、低周波数帯域におけるパワースペクトルと高周波数帯域におけるパワースペクトルの差が小さくてもこもる音を補正できる音声補正装置を提供することを目的とする。
一つの実施形態によれば、音声補正装置が提供される。この音声補正装置は、時間領域の音声信号を所定の時間長を持つフレーム単位で周波数領域へ変換することで複数の周波数のそれぞれについてのスペクトル信号値を含むスペクトル信号を算出する時間周波数変換部と、各周波数について、人の聴覚特性に応じて聞き取れないスペクトル信号値に相当するマスキング閾値を算出するマスキング閾値算出部と、少なくとも第1の周波数帯域に含まれる周波数及び第2の周波数帯域に含まれる周波数についてのスペクトル信号値とマスキング閾値に基づいて、第1の周波数帯域及び第2の周波数帯域の知覚可能なスペクトル信号を表す有効スペクトル信号を算出する有効スペクトル抽出部と、第1の周波数帯域の有効スペクトル信号と第2の周波数帯域の有効スペクトル信号との差を求める帯域間パワー差算出部と、その差に応じて所定の周波数帯域の補正量を決定する補正量算出部と、その補正量に応じて、所定の周波数帯域内の各周波数のスペクトル信号値を補正することで補正スペクトル信号を算出する補正部と、補正スペクトル信号を時間領域へ変換することで補正された音声信号を得る周波数時間変換部とを有する。
本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
本明細書に開示された音声補正装置は、低周波数帯域におけるパワースペクトルと高周波数帯域におけるパワースペクトルの差が小さくてもこもる音を補正できる。
一実施形態による音声補正装置が実装された携帯電話機の概略構成図である。 音声補正装置の概略構成図である。 パワースペクトルのピーク周波数と各周波数のマスキング閾値との関係の一例を示す図である。 (a)は、入力された音声信号のパワースペクトルと各周波数のマスキング閾値とを示す図であり、(b)は、(a)に示された音声信号のパワースペクトルから算出された有効パワースペクトルの一例を示す図である。 低周波数帯域のパワースペクトル及び高周波数帯域のパワースペクトルとパワー差の関係の一例を示す図である。 パワー差と基準補正係数の関係の一例を示す図である。 周波数と(5)式に示された係数β(f)との関係を示す図である。 (a)は、こもり感がある音声信号のパワースペクトルの一例を示す図である。(b)は、(a)に示されたパワースペクトルのうち、有効パワースペクトルを示す図である。(c)は、(a)に示されたパワースペクトルを、それぞれ、従来技術と本実施形態による音声補正装置とで補正した音声信号のパワースペクトルの一例を示す図である。 音声補正処理の動作フローチャートである。 変形例による、パワー差と基準補正係数の関係の一例を示す図である。 変形例による、周波数と(7)式に示された係数β1(f)及びβ2(f)との関係を示す図である。 実施形態またはその変形例による音声補正装置の各部の機能を実現するコンピュータプログラムが動作することにより、音声補正装置として動作するコンピュータの構成図である。
以下、図を参照しつつ、一つの実施形態による音声補正装置について説明する。
発明者は、低周波数帯域のパワースペクトルと高周波数帯域のパワースペクトル間の差そのものよりも、低周波数帯域及び高周波数帯域のパワースペクトルのうちの人が知覚可能な成分間の差が音のこもり感に影響するという知見を得た。
そこでこの音声補正装置は、入力された音声信号についての複数の周波数のそれぞれのパワースペクトルから、各周波数について人が知覚できないパワースペクトル値に相当するマスキング閾値を求める。そしてこの音声補正装置は、各周波数について、パワースペクトル値からマスキング閾値を減算して、人が知覚可能なパワースペクトル成分を表す有効パワースペクトル値を算出する。そしてこの音声補正装置は、低周波数帯域の有効パワースペクトルから高周波数帯域の有効パワースペクトルを減じた差が大きいほど、高周波数帯域に含まれる各周波数の周波数信号値の増幅率を高くする。
なお、本明細書において、「低周波数帯域」という用語は、便宜上、その帯域に含まれる周波数成分が大きくなることで音声信号のこもり感の悪化に寄与する、人が知覚可能な周波数帯域を表すために使用される。また「高周波数帯域」という用語は、便宜上、「低周波数帯域」よりも相対的に高く、かつ、その帯域に含まれる周波数成分が大きくなることで音声信号のこもり感の改善に寄与する、人が知覚可能な周波数帯域を表すために使用される。
また、「パワースペクトル値」という用語は、任意の一つの周波数についてのパワースペクトルの値を表すために使用される。一方、「パワースペクトル」という用語は、複数の周波数のそれぞれのパワースペクトル値を含む、その複数の周波数を含む周波数帯域全体にわたるパワースペクトルの信号系列を表すために使用される。
図1は、第1の実施形態による音声補正装置が実装された携帯電話機の概略構成図である。図1に示されるように、携帯電話機1は、制御部2と、通信部3と、マイクロホン4と、アナログ/デジタル変換器5と、音声補正装置6と、デジタル/アナログ変換器7と、スピーカ8とを有する。
このうち、制御部2、通信部3及び音声補正装置6は、それぞれ別個の回路として形成される。あるいはこれらの各部は、その各部に対応する回路が集積された一つの集積回路として携帯電話機1に実装されてもよい。さらに、これらの各部は、携帯電話機1が有するプロセッサ上で実行されるコンピュータプログラムにより実現される、機能モジュールであってもよい。
制御部2は、少なくとも一つのプロセッサ、不揮発性のメモリ及び揮発性のメモリ及びその周辺回路を有する。制御部2は、携帯電話機1が有するキーパッドなどの操作部(図示せず)を介した操作により通話が開始されると、携帯電話機1と基地局装置(図示せず)との間における、無線接続、切断などの呼制御処理を携帯電話機1が準拠する通信規格に従って実行する。そして制御部2は、その呼制御処理の結果に応じて、通信部3に対して音声通話の開始または終了を指示する。さらに、制御部2は、通信部3を介して基地局装置から受信したダウンリンク信号に含まれる符号化された音声信号を取り出し、その音声信号を復号する。そして制御部2は、復号した音声信号を受信音声信号として、音声補正装置6へ出力する。
また制御部2は、マイクロホン4により集音され、アナログ/デジタル変換器5を介して入力された音声信号を符号化し、その符号化された音声信号を含むアップリンク信号を生成する。そして制御部2は、そのアップリンク信号を通信部3へ渡す。なお、音声信号に対する符号化方式としては、例えば、Third Generation Partnership Project(3GPP)により標準化されたAdaptive Multi-Rate-NarrowBand(AMR-NB)方式、またはAdaptive Multi-Rate-WideBand(AMR-WB)方式などが用いられる。
通信部3は、基地局装置との間で無線通信する。そして通信部3は、基地局装置から無線信号を受信して、その無線信号をベースバンド周波数を持つダウンリンク信号に変換する。そして通信部3は、ダウンリンク信号に対して分離、復調、誤り訂正復号などの受信処理を行った後、そのダウンリンク信号を制御部2へ渡す。また通信部3は、制御部2から受け取ったアップリンク信号に対して誤り訂正符号化、変調及び多重化などの送信処理を行った後、そのアップリンク信号を無線周波数を持つ搬送波に重畳して基地局装置へ送信する。
マイクロホン4は、音声入力部の一例であり、携帯電話機1の周囲の音を集音し、その音の強度に応じたアナログ音声信号を生成する。そしてマイクロホン4は、そのアナログ音声信号をアナログ/デジタル変換器5へ出力する。
アナログ/デジタル変換器5は、マイクロホン4から受け取ったアナログ音声信号を所定のサンプリングピッチでサンプリングすることによりデジタル化された入力音声信号を生成する。また、アナログ/デジタル変換器5は、増幅器を有し、アナログ音声信号を増幅した後にデジタル化してもよい。
アナログ/デジタル変換器5は、入力音声信号を制御部2へ出力する。
音声補正装置6は、受信音声信号の再生音がこもることを抑制するよう、受信音声信号に含まれる高周波数帯域の周波数成分を強調することで、補正された音声信号を算出する。そして音声補正装置6は、補正された音声信号をデジタル/アナログ変換器7へ出力する。なお、音声補正装置6の詳細については後述する。
デジタル/アナログ変換器7は、音声補正装置6から受け取った補正音声信号をデジタル−アナログ変換することでアナログ化する。なお、デジタル/アナログ変換器7は、増幅器を有し、その増幅器により、アナログ化された補正音声信号を増幅してもよい。そしてデジタル/アナログ変換器7は、アナログ化された補正音声信号をスピーカ8へ出力する。
スピーカ8は、音声出力部の一例であり、デジタル/アナログ変換器7から受け取った補正音声信号を再生する。
以下、音声補正装置6の詳細について説明する。
図2は、一つの実施形態による音声補正装置6の概略構成図である。音声補正装置6は、時間周波数変換部11と、マスキング閾値算出部12と、有効パワースペクトル抽出部13と、帯域間パワー差算出部14と、補正量算出部15と、補正部16と、周波数時間変換部17とを有する。
音声補正装置6が有するこれらの各部は、それぞれ、別個の回路として音声補正装置6に実装されてもよく、あるいはそれらの各部の機能を実現する一つの集積回路であってもよい。
時間周波数変換部11は、受信音声信号を、所定の時間長(例えば、数10msec)を持つフレーム単位で周波数領域へ変換することにより周波数信号を算出する。なお、この周波数信号は、複数の周波数のそれぞれについての周波数信号値を含む。そのために、時間周波数変換部11は、例えば、受信音声信号に対して、高速フーリエ変換(Fast Fourier Transform, FFT)、または修正離散コサイン変換(Modified Discrete Cosine Transform, MDCT)といった時間周波数変換を実行することにより周波数信号へ変換する。あるいは、時間周波数変換部11は、Quadrature Mirror Filter(QMF)フィルタバンクあるいはウェーブレット変換を上記の時間周波数変換として用いてもよい。
時間周波数変換部11は、次式に従って各周波数のパワースペクトル値を算出する。
Figure 2013195713
ここで、S(f)は、周波数fにおける周波数信号値であり、F(f)は、周波数fにおけるパワースペクトル値である。なお、周波数信号値及びパワースペクトル値は、それぞれ、スペクトル信号値の一例である。
時間周波数変換部11は、フレームごとに、各周波数のパワースペクトル値をマスキング閾値算出部12及び有効パワースペクトル抽出部13へ出力する。また、時間周波数変換部11は、各周波数の周波数信号値を補正部16へ出力する。
マスキング閾値算出部12は、各フレームについて、周波数ごとに人の聴覚特性に基づいて人が知覚不能なパワースペクトル値に相当するマスキング閾値を算出する。
一般に、ある周波数の音のスペクトル成分が大きいと、その周波数に近いほど、かつ、その周波数のスペクトル成分が大きいほど、その周波数近傍の周波数の音のスペクトル成分は知覚され難くなるマスキング効果が生じることが知られている。この周波数マスキング効果は、人の聴覚心理的な特性に起因する。
そこでマスキング閾値算出部12は、各フレームについて、隣接する周波数間のパワースペクトル値の変化を調べることにより、パワースペクトル値が極大値となるピーク周波数を検出する。そしてマスキング閾値算出部12は、ピーク周波数におけるパワースペクトル値が大きいほど、かつ、ピーク周波数に近いほどマスキング閾値も大きくなるように、例えば、次式に従って各周波数のマスキング閾値を算出する。
Figure 2013195713
ここで、fiは、最も低いピーク周波数から順にi番目のピーク周波数を表す。F(fi)は、ピーク周波数fiにおけるパワースペクトル値である。そしてm(f,fi)は、ピーク周波数fiに基づいて算出される、周波数fのマスキング閾値である。関数α(x)は、変数xが大きくなるほど出力値が単調減少する単調減少関数である。さらに関数max(m(f,fi))は、各ピーク周波数について算出される周波数fに対するマスキング閾値のうちの最大値を出力する関数である。そしてM(f)は、周波数fのマスキング閾値である。(1)式から明らかなように、マスキング閾値M(f)は、何れかのピーク周波数fiについて算出されたマスキング閾値m(f,fi)のうちの最大値となる。
図3は、パワースペクトル値のピーク周波数と、本実施形態により設定される各周波数のマスキング閾値との関係の一例を示す図である。図3において横軸は周波数を表し、縦軸はパワーを表す。グラフ301は、周波数ごとのパワースペクトル値の一例を表す。またグラフ302は、各周波数に対するマスキング閾値を表す。この例では、パワースペクトル301は、周波数fA、fB、fCにて極大値となる。すなわち、周波数fA、fB、fCが、それぞれピーク周波数となる。したがって、グラフ302に示されるように、マスキング閾値は、何れかのピーク周波数に近い周波数ほど大きく、かつ、ピーク周波数におけるパワースペクトル値が大きいほど大きな値となるように設定される。
なお、マスキング効果は、経時的な音の大きさの変化によっても生じる。例えば、あるフレームにおける音が大きいと、その直後のフレームにおける小さい音は知覚困難となる。
そこで変形例として、マスキング閾値算出部12は、経時的な音の変化に基づいて各周波数のマスキング閾値を算出してもよい。この場合、マスキング閾値算出部12は、最新のフレームである現フレームの各周波数に対するマスキング閾値を、現フレームよりも所定数前、例えば一つ前のフレームにおける対応する周波数のパワースペクトル値が大きいほど、大きな値に設定する。例えば、マスキング閾値算出部12は、ISO/IEC 13818-7:2006のAnnex CのC.1 Psychoacoustic ModelのC.1.4 Steps in Threshold Calculationの項に記載された閾値(マスキング閾値に相当)の算出処理に従って、マスキング閾値を算出できる。あるいは、マスキング閾値算出部12は、Third Generation Partnership Project(3GPP) TS 26.403 V9.0.0 5.4.2 Threshold Calculationの項に記載されている方法に従ってマスキング閾値を算出してもよい。
さらに他の変形例によれば、マスキング閾値算出部12は、各周波数について、ピーク周波数に基づいて算出されたマスキング閾値と、経時的な音の変化に基づいて算出されたマスキング閾値とを組み合わせることにより、最終的なマスキング閾値を決定してもよい。例えば、マスキング閾値算出部12は、周波数ごとに、ピーク周波数に基づいて算出されたマスキング閾値と、経時的な音の変化に基づいて算出されたマスキング閾値のうち、大きい方のマスキング閾値をその周波数に対するマスキング閾値としてもよい。
マスキング閾値算出部12は、各周波数のマスキング閾値を有効パワースペクトル抽出部13へ出力する。
有効パワースペクトル抽出部13は、有効スペクトル抽出部の一例であり、フレームごとに、各周波数について、パワースペクトル値からマスキング閾値を減算することで人が知覚可能なパワースペクトル成分を表す有効パワースペクトル値を算出する。有効パワースペクトル抽出部13は、例えば、次式に従って有効パワースペクトル値を算出する。
Figure 2013195713
ここでF(f)は、周波数fのパワースペクトル値であり、M(f)は周波数fのマスキング閾値である。そしてF'(f)は、周波数fの有効パワースペクトル値である。
図4(a)は、各周波数の音声信号のパワースペクトル値及びマスキング閾値の一例を示す図である。図4(b)は、図4(a)に示された音声信号のパワースペクトルから算出された有効パワースペクトルの一例を示す図である。図4(a)及び図4(b)において、横軸は周波数を表し、縦軸はパワーを表す。そしてグラフ401は、各周波数の音声信号のパワースペクトル値の大きさを表し、グラフ402は、各周波数のマスキング閾値を表す。またグラフ411は、各周波数の有効パワースペクトル値の大きさを表す。グラフ411で表される有効パワースペクトル値の大きさは、図4(a)におけるハッチング領域の大きさと等価である。
有効パワースペクトル抽出部13は、各周波数の有効パワースペクトル値を帯域間パワー差算出部14へ出力する。
帯域間パワー差算出部14は、人が知覚可能な周波数帯域のうちの相対的に低い周波数帯域の有効パワースペクトルと、人が知覚可能な周波数帯域のうちの相対的に高い周波数帯域の有効パワースペクトルとのパワー差を算出する。このパワー差が大きいほど、受信音声信号のうちの人の知覚に寄与する高周波成分が相対的に小さいので、このパワー差は、受信音声信号がこもる程度を表す指標となる。
例えば、帯域間パワー差算出部14は、次式に従って、低周波数帯域及び高周波数帯域内の各周波数のパワースペクトル値の平均値を、それぞれ、低周波数帯域及び高周波数帯域の有効パワースペクトルとすることで、パワー差ΔPを算出する。
Figure 2013195713
ls及びleは、低周波数帯域の下限及び上限の周波数であり、例えば、ls及びleは、それぞれ、ls以上かつle以下の周波数帯域のパワースペクトルを増幅するとこもり感が悪化する周波数の下限値及び上限値に設定される。一方、hs及びheは、それぞれ、高周波数帯域の下限及び上限の周波数であり、例えば、hs及びheは、それぞれ、hs以上かつhe以下の周波数帯域のパワースペクトルを増幅するとこもり感が改善する周波数の下限値及び上限値に設定される。例えば、ls=150[Hz]、le=800[Hz]、hs=2900[Hz]、he=4000[Hz]に設定される。なお、帯域間パワー差算出部14は、低周波数帯域及び高周波数帯域内の各周波数の有効パワースペクトル値の中央値を、それぞれ、低周波数帯域及び高周波数帯域の有効パワースペクトルとして、パワー差ΔPを算出してもよい。
図5は、低周波数帯域のパワースペクトル及び高周波数帯域のパワースペクトルとパワー差の関係の一例を示す図である。図5において、横軸は周波数を表し、縦軸はパワーを表す。グラフ500は、周波数ごとの有効パワースペクトル値の大きさを表す。図5に示されるように、パワー差ΔPは、周波数ls〜le間の有効パワースペクトル値の平均値501から、周波数hs〜周波数he間の有効パワースペクトル値の平均値502を減じた値となる。したがって、パワー差ΔPが大きいほど、相対的に低い周波数帯域のパワースペクトルに対する相対的に高い周波数帯域のパワースペクトルの比が小さくなる。
帯域間パワー差算出部14は、パワー差ΔPを補正量算出部15へ出力する。
補正量算出部15は、フレームごとに、パワー差ΔPに応じて、低周波数帯域に対する高周波数帯域の強調度を大きくするように、補正対象周波数帯域内の各周波数の周波数信号値を強調する程度を表す補正係数を決定する。本実施形態では、補正対象周波数帯域は、高周波数帯域を含み、かつ、低周波数帯域を含まないように設定される。本実施形態では、補正対象周波数帯域の下限の周波数は、hsから所定のオフセット値を減じた値、例えば、2562Hzに設定される。また補正対象周波数帯域の上限は設定しない。
補正量算出部15は、先ず、パワー差ΔPが大きくなるほど大きな値となる基準補正係数Gmを求める。例えば、補正量算出部15は、補正量算出部15が有する不揮発性のメモリ回路に予め記憶された、パワー差ΔPと基準補正係数Gmとの関係を表す関係式またはテーブルを参照することにより、基準補正係数Gmを決定する。
図6は、パワー差ΔPと基準補正係数Gmとの関係の一例を示す図である。図6において、横軸はパワー差ΔPを表し、縦軸は基準補正係数Gmを表す。グラフ600は、パワー差ΔPと基準補正係数Gmの関係を表す。
グラフ600に示されるように、例えば、パワー差ΔPが基準値Pl以下であれば、基準補正係数Gmは0に設定される。そしてパワー差ΔPが基準値Plよりも大きく、かつ、補正上限値Pu以下であれば、そのパワー差ΔPが増加するにつれて基準補正係数Gmは線形に増加する。そしてパワー差ΔPが補正上限値Pu以上となると、基準補正係数Gmはその上限値Gmaxに設定される。なお、基準値Plは、例えば、音声信号を補正しなくても、その音声信号に対して人がこもり感を感じないパワー差の上限値、例えば、28dBに設定される。一方、補正上限値Pu及び基準補正係数の上限値Gmaxは、補正対象周波数帯域内の各周波数の周波数信号値を強調することにより生じる音声信号の歪みが主観的に検知されないパワー差の下限値及び基準補正係数の上限値、例えば、48dB及び20dBに設定される。
補正量算出部15は、基準補正係数Gmを決定すると、次式に示されるように、周波数に応じて決まる係数β(f)を基準補正係数Gmに乗じることで、補正対象周波数帯域内の各周波数に対する補正係数g(f)を決定する。
Figure 2013195713
ここで、hsは、上記の高周波数帯域の下限周波数であり、例えば、2900[Hz]に設定される。Esは、補正対象周波数帯域の下限周波数であり、例えば、2500〜2700[Hz]に設定される。またEulは、補正係数g(f)が一定となる周波数の下限値であり、例えば、3100〜3300[Hz]に設定される。
図7は、周波数と(5)式に示された係数β(f)との関係を示す図である。図7において、横軸は周波数を表し、縦軸は係数β(f)の大きさを表す。グラフ700は、周波数と係数β(f)との関係を表す。グラフ700に示されるように、係数β(f)は、周波数Es未満では0であり、周波数Es以上、かつ、周波数Eul以下では、周波数が高くなるにつれて単調増加する。そしてβ(f)は、周波数Eulより大きくなると一定となる。このように、係数β(f)が設定されることにより、補正対象周波数帯域の下限Esの近傍では、その下限Esに近づくにつれて補正係数g(f)も徐々に小さくなる。そのため、補正対象周波数帯域の下限近傍にて周波数信号が不連続となることが防止されるので、補正された音声信号が不自然に歪むことが防止される。
補正量算出部15は、補正対象周波数帯域内の各周波数の補正係数g(f)を補正部16へ出力する。
補正部16は、フレーム単位で、補正対象周波数帯域内の各周波数の周波数信号値を次式に従って補正する。
Figure 2013195713
S(f)は、周波数fの周波数信号値であり、g(f)は、周波数fの補正係数である。そしてSout(f)は、補正後の周波数信号値である。(6)式から明らかなように、補正係数g(f)=0のとき、補正後の周波数信号値S'(f)は、補正前の周波数信号値S(f)と等しく、補正係数g(f)が大きくなるほど、補正後の周波数信号値S'(f)は増幅される。
図8(a)は、こもり感がある音声信号のパワースペクトルの一例を示す図である。図8(b)は、図8(a)に示されたパワースペクトルのうち、有効パワースペクトルを示す図である。図8(c)は、図8(a)に示されたパワースペクトルを、それぞれ、従来技術と本実施形態による音声補正装置とで補正した音声信号のパワースペクトルの一例を示す図である。
図8(a)〜図8(c)において、横軸は周波数を表し、縦軸はパワーを表す。図8(a)及び(c)に示されたグラフ800は、各周波数についてのこもり感がある音声信号のパワースペクトルを表す。また線801は、低周波数帯域内の各周波数のパワースペクトル値の平均値Plowを表し、一方、線802は、高周波数帯域内の各周波数のパワースペクトル値の平均値Phighを表す。また図(b)に示されたグラフ810は、図8(a)に示された各周波数におけるパワースペクトル値のうち、有効パワースペクトル値を表す。そして線811及び812は、それぞれ、低周波数帯域内の各周波数の有効パワースペクトル値の平均値P'low及び高周波数帯域内の各周波数の有効パワースペクトル値の平均値P'highを表す。また図8(c)に示されたグラフ820は、従来技術に従って補正された音声信号の周波数ごとのパワースペクトル値を表し、グラフ821は、音声補正装置6によって補正された音声信号の周波数ごとのパワースペクトル値を表す。図8(a)及び図8(b)に示されるように、パワースペクトル値の平均値PlowとPhigh間の差Δよりも、有効パワースペクトル値の平均値P'lowとP'high間の差Δ'の方が大きい。そのため、図8(c)に示されるように、音声補正装置6にて補正された音声信号の方が、従来技術に従って補正された音声信号よりも、低周波数帯域のパワースペクトルに対する高周波数帯域のパワースペクトルの比が大きくなっている。そのため、音声補正装置6にて補正された音声信号の方が、従来技術に従って補正された音声信号よりもこもり感が改善されている。
補正部16は、補正後の補正対象周波数帯域内の各周波数の周波数信号値を含む、全ての周波数帯域の周波数信号値を周波数時間変換部17へ出力する。
周波数時間変換部17は、補正された各周波数の周波数信号値を、時間周波数変換部11が用いた時間周波数変換の逆変換を用いて時間領域へ変換することにより、補正された音声信号を得る。そして周波数時間変換部17は、補正された音声信号をデジタル/アナログ変換器7へ出力する。
図9は、音声補正装置6により実行される音声補正処理の動作フローチャートである。音声補正装置6は、フレームごとに、以下に示す動作フローチャートに従って音声補正処理を実行する。
時間周波数変換部11は、音声信号をフレーム単位で周波数領域へ変換することにより、周波数信号を算出する(ステップS101)。そして時間周波数変換部11は、各周波数のパワースペクトル値を算出する(ステップS102)。時間周波数変換部11は、各周波数のパワースペクトル値をマスキング閾値算出部12及び有効パワースペクトル抽出部13へ出力する。また時間周波数変換部11は、各周波数の周波数信号値を補正部16へ出力する。
マスキング閾値算出部12は、各周波数について、人が知覚困難なパワースペクトル値に相当するマスキング閾値を求める(ステップS103)。そしてマスキング閾値算出部12は、各周波数のマスキング閾値を有効パワースペクトル抽出部13へ出力する。有効パワースペクトル抽出部13は、各周波数について、パワースペクトル値からマスキング閾値を減ずることにより、人が知覚可能な成分である有効パワースペクトル値を算出する(ステップS104)。有効パワースペクトル抽出部13は、各周波数の有効パワースペクトル値を帯域間パワー差算出部14へ出力する。
帯域間パワー差算出部14は、低周波数帯域内の各周波数の有効パワースペクトル値の平均値と高周波数帯域内の各周波数の有効パワースペクトル値の平均値とのパワー差ΔPを算出する(ステップS105)。そして帯域間パワー差算出部14は、パワー差ΔPを補正量算出部15へ出力する。
補正量算出部15は、パワー差ΔPが大きいほど、補正対象周波数帯域内の各周波数の周波数信号値を大きく増幅するように、補正対象周波数帯域内の各周波数の補正係数を決定する(ステップS106)。そして補正部16は、補正対象周波数帯域内の各周波数について、補正量算出部15で決定された補正係数に応じて周波数信号値を増幅することにより、各周波数の周波数信号値を補正する(ステップS107)。そして周波数時間変換部17は、補正された各周波数の周波数信号値を時間領域へ変換することで補正された音声信号を算出する(ステップS108)。
そして音声補正装置6は、補正された音声信号を出力し、音声補正処理を終了する。
以上に説明してきたように、この音声補正装置は、低周波数帯域及び高周波数帯域のパワースペクトルのうちの人が知覚可能な成分の差に基づいて、高周波数帯域内の各周波数の周波数信号値に対する強調度合いを決定する。そのため、この音声補正装置は、低周波数帯域のパワースペクトルと高周波数帯域のパワースペクトルの差が小さくても、音声信号のこもり感を適切に改善できる。
変形例によれば、マスキング閾値算出部は、パワー差の算出に利用する低周波数帯域に含まれる周波数及び高周波数帯域に含まれる周波数のみについてマスキング閾値を算出してもよい。同様に、有効パワースペクトル抽出部も、パワー差の算出に利用する低周波数帯域に含まれる周波数及び高周波数帯域に含まれる周波数のみについて有効パワースペクトル値を算出してもよい。これにより演算量が削減される。
また他の変形例によれば、音声補正装置は、低周波数帯域と高周波数帯域間のパワー差が大きいほど、低周波数帯域に含まれる各周波数の周波数信号値を減衰させてもよい。この変形例によっても、低周波数帯域内の各周波数の周波数信号値に対する高周波数帯域内の各周波数の周波数信号値の比率が相対的に高くなるので、こもり感は改善される。この変形例の場合には、補正量算出部は、パワー差が大きくなるほど、低周波数帯域内の各周波数に対する減衰係数を大きくする。そして補正部は、減衰係数が大きいほど、低周波数帯域内の各周波数の周波数信号値を減衰させることで、補正周波数信号を生成する。
さらに他の変形例によれば、マスキング閾値算出部は、パワースペクトルの代わりに、各周波数信号値の振幅の絶対値を用いて各周波数のマスキング閾値を算出してもよい。周波数信号値の振幅の絶対値も、スペクトル信号の一例である。この場合、有効パワースペクトル抽出部も、各周波数について、周波数信号値の振幅の絶対値からマスキング閾値を減じた値を有効スペクトル信号として求める。そして帯域間パワー差算出部も、周波数信号値の振幅の絶対値に基づいて算出された、低周波数帯域内の各周波数の有効スペクトル信号の平均値と高周波数帯域内の各周波数の有効スペクトル信号の平均値との差を求める。補正量算出部は、その差が大きくなるほど、補正対象周波数帯域内の各周波数についての補正係数を大きくする。
さらに他の変形例によれば、音声補正装置は、高周波数帯域のパワースペクトルが大き過ぎることによる音声の歪みを改善するものであってもよい。この場合には、音声補正装置の補正量算出部は、上記のパワー差ΔPが上記の基準値P1よりも小さい場合に、高周波数帯域に含まれる各周波数のスペクトル信号値を減衰させるように補正係数を決定する。
図10は、この変形例による、パワー差ΔPと基準補正係数Gmとの関係の一例を示す図である。図10において、横軸はパワー差ΔPを表し、縦軸は基準補正係数Gmを表す。グラフ1000は、パワー差ΔPと基準補正係数Gmの関係を表す。
グラフ1000に示されるように、この変形例では、パワー差ΔPが基準値Pl以下であれば、基準補正係数Gmは負の値に設定され、ΔPが小さくなるほど、基準補正係数Gmも小さくなる。そしてパワー差ΔPが補正下限値Pmin以下では、負の一定値、例えば、-10dBに設定される。なお、パワー差ΔPが基準値Plよりも大きい場合には、図6に示した例と同様に、パワー差ΔPに応じて基準補正係数Gmは決定される。
さらに他の変形例によれば、補正量算出部は、高周波数帯域を複数のサブ周波数帯域に分割し、サブ周波数帯域ごとに補正係数を変えてもよい。例えば、スピーカの能力によっては、高周波数帯域のスペクトル信号を増幅し過ぎると音割れなどの音質劣化が発生することがある。しかし、この変形例によれば、音声補正装置は、そのような音質劣化が発生しない範囲でこもりを改善することができる。
例えば、高周波数帯域を二つのサブ周波数帯域に分割する場合、補正係数g(f)は、次式に従って算出される。
Figure 2013195713
なお、係数β1(f)及びβ2(f)は、それぞれ、低い方のサブ周波数帯域及び高い方のサブ周波数帯域に対応する。
図11は、周波数と(7)式に示された係数β1(f)及びβ2(f)との関係を示す図である。図11において、横軸は周波数を表し、縦軸は係数β1(f)及びβ2(f)の大きさを表す。グラフ1100は、周波数と係数β1(f)との関係を表す。またグラフ1101は、周波数と係数β2(f)との関係を表す。グラフ1100に示されるように、係数β1(f)は、周波数Es1未満では0であり、周波数Es1以上、かつ、周波数Eul1以下では、周波数が高くなるにつれて単調増加する。そして係数β1(f)は、周波数Eul1より高く、かつ、周波数Em未満では一定となる。さらに、係数β1(f)は、周波数Emより高く、かつ、周波数Ee以下では、周波数が高くなるにつれて単調減少する。そして、係数β1(f)は、周波数Eeより高くなると、0となる。一方、グラフ1101に示されるように、係数β2(f)は、周波数Es2未満では0であり、周波数Es2以上、かつ、周波数Eul2以下では、周波数が高くなるにつれて単調増加する。そして係数β2(f)は、周波数Eul2より高くなると一定となる。ただし、EeとEul2はほぼ等しく、また、Es2とEmも、ほぼ等しい周波数に設定される。
また他の変形例によれば、音声補正装置は、携帯電話機に搭載されたマイクロホンにより集音され、アナログ/デジタル変換器によりデジタル化された入力音声信号に対して音声補正処理を実行してもよい。この場合、音声補正装置により補正された入力音声信号は、携帯電話機の制御部へ出力される。
この場合、低周波数帯域の下限ls、上限leは、携帯電話機に搭載されたマイクロホンの近接効果により強調される周波数帯域の下限及び上限に設定されてもよい。
さらに、音声補正装置は、携帯電話機に限らず、固定電話機、または電話会議システムなどに実装されてもよい。
さらに、上記の各実施形態による音声補正装置の各部が有する各機能をコンピュータに実現させるコンピュータプログラムは、磁気記録媒体あるいは光記録媒体といった、コンピュータによって読み取り可能な媒体に記録された形で提供されてもよい。
図12は、上記の実施形態またはその変形例による音声補正装置の各部の機能を実現するコンピュータプログラムが動作することにより、音声補正装置として動作するコンピュータの構成図である。
コンピュータ100は、ユーザインターフェース部101と、通信インターフェース部102と、記憶部103と、記憶媒体アクセス装置104と、プロセッサ105とを有する。プロセッサ105は、ユーザインターフェース部101、通信インターフェース部102、記憶部103及び記憶媒体アクセス装置104と、例えば、バスを介して接続される。
ユーザインターフェース部101は、例えば、キーボードとマウスなどの入力装置と、液晶ディスプレイといった表示装置とを有する。または、ユーザインターフェース部101は、タッチパネルディスプレイといった、入力装置と表示装置とが一体化された装置を有してもよい。そしてユーザインターフェース部101は、例えば、ユーザの操作に応じて、音声補正処理を開始させる操作信号をプロセッサ105へ出力する。
通信インターフェース部102は、コンピュータ100を、マイクロホン及びスピーカと接続するためのオーディオインターフェース及びその制御回路を有してもよい。
さらに、通信インターフェース部102は、イーサネット(登録商標)などの通信規格に従った通信ネットワークに接続するための通信インターフェース及びその制御回路を有してもよい。
この場合には、通信インターフェース部102は、通信ネットワークに接続された他の機器から、音声信号を取得し、プロセッサ105へ渡す。また通信インターフェース部102は、プロセッサ105から受け取った、補正された音声信号を通信ネットワークを介して他の機器へ出力してもよい。
記憶部103は、例えば、読み書き可能な半導体メモリと読み出し専用の半導体メモリとを有する。そして記憶部103は、プロセッサ105上で実行される、音声補正処理を実行するためのコンピュータプログラム、及び音声補正処理で利用される、各種のデータを記憶する。
記憶媒体アクセス装置104は、例えば、磁気ディスク、半導体メモリカード及び光記憶媒体といった記憶媒体106にアクセスする装置である。記憶媒体アクセス装置104は、例えば、記憶媒体106に記憶されたプロセッサ105上で実行される、音声補正処理用のコンピュータプログラムを読み込み、プロセッサ105に渡す。
プロセッサ105は、上記の実施形態または変形例による音声補正処理用コンピュータプログラムを実行することにより、音声信号のこもり感を改善するよう、高周波数帯域の周波数成分を強調する。そしてプロセッサ105は、補正された音声信号を通信インターフェース部102を介して他の機器へ出力する。
ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
(付記1)
時間領域の音声信号を所定の時間長を持つフレーム単位で周波数領域へ変換することで複数の周波数のそれぞれについてのスペクトル信号値を含むスペクトル信号を算出する時間周波数変換部と、
各周波数について、人の聴覚特性に応じて聞き取れないスペクトル信号値に相当するマスキング閾値を算出するマスキング閾値算出部と、
少なくとも第1の周波数帯域に含まれる周波数及び第2の周波数帯域に含まれる周波数についての前記スペクトル信号値と前記マスキング閾値に基づいて、前記第1の周波数帯域及び前記第2の周波数帯域の知覚可能なスペクトル信号を表す有効スペクトル信号を算出する有効スペクトル抽出部と、
前記第1の周波数帯域の有効スペクトル信号と前記第2の周波数帯域の有効スペクトル信号との差を求める帯域間パワー差算出部と、
前記差に応じて所定の周波数帯域の補正量を決定する補正量算出部と、
前記補正量に応じて、前記所定の周波数帯域内の各周波数のスペクトル信号値を補正することで補正スペクトル信号を算出する補正部と、
前記補正スペクトル信号を時間領域へ変換することで補正された音声信号を得る周波数時間変換部と、
を有する音声補正装置。
(付記2)
前記有効スペクトル抽出部は、前記第1の周波数帯域または前記第2の周波数帯域に含まれる各周波数について前記スペクトル信号値から前記マスキング閾値を減算することで前記第1の周波数帯域の前記有効スペクトル信号及び前記第2の周波数帯域の前記有効スペクトルを算出する、付記1に記載の音声補正装置。
(付記3)
前記マスキング閾値算出部は、現フレームにおける前記複数の周波数帯域のうち、前記スペクトル信号値が極大値となるピーク周波数を検出し、前記ピーク周波数から近く、かつ前記ピーク周波数の前記スペクトル信号値が大きい周波数ほど、当該周波数に対する前記マスキング閾値を大きくする、付記1または2に記載の音声補正装置。
(付記4)
前記マスキング閾値算出部は、現フレームよりも所定数前のフレームにおける前記スペクトル信号値が大きい周波数ほど、当該周波数に対する前記マスキング閾値を大きくする、付記1または2に記載の音声補正装置。
(付記5)
前記第1の周波数帯域は、当該第1の周波数帯域の前記スペクトル信号値を増幅することでこもり感が悪化する周波数帯域であり、一方、前記第2の周波数帯域は、当該第2の周波数帯域の前記スペクトル信号値を増幅することでこもり感が改善する周波数帯域である、付記1〜4の何れか一項に記載の音声補正装置。
(付記6)
前記第1の周波数帯域は、前記音声信号を取得した音声入力部の特性によって周波数信号が増幅される第3の周波数帯域に含まれる、付記1〜5の何れか一項に記載の音声補正装置。
(付記7)
前記第2の周波数帯域は前記第1の周波数帯域よりも高く、
前記補正部は、前記補正量に応じて、前記第1の周波数帯域内の周波数の前記スペクトル信号値に対する前記第2の周波数帯域内の周波数の前記スペクトル信号値の比を高くするように、前記補正スペクトル信号を算出する、付記1〜6の何れか一項に記載の音声補正装置。
(付記8)
前記補正量算出部は、前記差が大きいほど、前記スペクトル信号値の比が高くなるように、前記第1の周波数帯域及び前記第2の周波数帯域のうちの少なくとも一方に対する前記補正量を決定する、付記7に記載の音声補正装置。
(付記9)
時間領域の音声信号を所定の時間長を持つフレーム単位で周波数領域へ変換することで複数の周波数のそれぞれについてのスペクトル信号値を含むスペクトル信号を算出し、
各周波数について、人の聴覚特性に応じて聞き取れないスペクトル信号値に相当するマスキング閾値を算出し、
少なくとも第1の周波数帯域に含まれる周波数及び第2の周波数帯域に含まれる周波数についての前記スペクトル信号値と前記マスキング閾値に基づいて、前記第1の周波数帯域及び前記第2の周波数帯域の知覚可能なスペクトル信号を表す有効スペクトル信号を算出し、
前記第1の周波数帯域の有効スペクトル信号と前記第2の周波数帯域の有効スペクトル信号との差を求め、
前記差に応じて、所定の周波数帯域に対する補正量を決定し、
前記補正量に応じて、前記所定の周波数帯域内の各周波数のスペクトル信号値を補正することで補正スペクトル信号を算出し、
前記補正スペクトル信号を時間領域へ変換することで補正された音声信号を得る、
ことを含む音声補正方法。
(付記10)
時間領域の音声信号を所定の時間長を持つフレーム単位で周波数領域へ変換することで複数の周波数のそれぞれについてのスペクトル信号値を含むスペクトル信号を算出し、
各周波数について、人の聴覚特性に応じて聞き取れないスペクトル信号値に相当するマスキング閾値を算出し、
少なくとも第1の周波数帯域に含まれる周波数及び第2の周波数帯域に含まれる周波数についての前記スペクトル信号値と前記マスキング閾値に基づいて、前記第1の周波数帯域及び前記第2の周波数帯域の知覚可能なスペクトル信号を表す有効スペクトル信号を算出し、
前記第1の周波数帯域の有効スペクトル信号と前記第2の周波数帯域の有効スペクトル信号との差を求め、
前記差に応じて、所定の周波数帯域に対する補正量を決定し、
前記補正量に応じて、前記所定の周波数帯域内の各周波数のスペクトル信号値を補正することで補正スペクトル信号を算出し、
前記補正スペクトル信号を時間領域へ変換することで補正された音声信号を得る、
ことをコンピュータに実行させる音声補正用コンピュータプログラム。
1 携帯電話機
2 制御部
3 通信部
4 マイクロホン
5 アナログ/デジタル変換器
6 音声補正装置
7 デジタル/アナログ変換器
8 スピーカ
11 時間周波数変換部
12 マスキング閾値算出部
13 有効パワースペクトル抽出部
14 帯域間パワー差算出部
15 補正量算出部
16 補正部
17 周波数時間変換部
100 コンピュータ
101 ユーザインターフェース部
102 通信インターフェース部
103 記憶部
104 記憶媒体アクセス装置
105 プロセッサ
106 記憶媒体

Claims (8)

  1. 時間領域の音声信号を所定の時間長を持つフレーム単位で周波数領域へ変換することで複数の周波数のそれぞれについてのスペクトル信号値を含むスペクトル信号を算出する時間周波数変換部と、
    各周波数について、人の聴覚特性に応じて聞き取れないスペクトル信号値に相当するマスキング閾値を算出するマスキング閾値算出部と、
    少なくとも第1の周波数帯域に含まれる周波数及び第2の周波数帯域に含まれる周波数についての前記スペクトル信号値と前記マスキング閾値に基づいて、前記第1の周波数帯域及び前記第2の周波数帯域の知覚可能なスペクトル信号を表す有効スペクトル信号を算出する有効スペクトル抽出部と、
    前記第1の周波数帯域の有効スペクトル信号と前記第2の周波数帯域の有効スペクトル信号との差を求める帯域間パワー差算出部と、
    前記差に応じて所定の周波数帯域の補正量を決定する補正量算出部と、
    前記補正量に応じて、前記所定の周波数帯域内の各周波数のスペクトル信号値を補正することで補正スペクトル信号を算出する補正部と、
    前記補正スペクトル信号を時間領域へ変換することで補正された音声信号を得る周波数時間変換部と、
    を有する音声補正装置。
  2. 前記有効スペクトル抽出部は、前記第1の周波数帯域または前記第2の周波数帯域に含まれる各周波数について前記スペクトル信号値から前記マスキング閾値を減算することで前記第1の周波数帯域の前記有効スペクトル信号及び前記第2の周波数帯域の前記有効スペクトルを算出する、請求項1に記載の音声補正装置。
  3. 前記マスキング閾値算出部は、現フレームにおける前記複数の周波数帯域のうち、前記スペクトル信号値が極大値となるピーク周波数を検出し、前記ピーク周波数から近く、かつ前記ピーク周波数の前記スペクトル信号値が大きい周波数ほど、当該周波数に対する前記マスキング閾値を大きくする、請求項1または2に記載の音声補正装置。
  4. 前記マスキング閾値算出部は、現フレームよりも所定数前のフレームにおける前記スペクトル信号値が大きい周波数ほど、当該周波数に対する前記マスキング閾値を大きくする、請求項1または2に記載の音声補正装置。
  5. 前記第2の周波数帯域は前記第1の周波数帯域よりも高く、
    前記補正部は、前記補正量に応じて、前記第1の周波数帯域内の周波数の前記スペクトル信号値に対する前記第2の周波数帯域内の周波数の前記スペクトル信号値の比を高くするように、前記補正スペクトル信号を算出する、請求項1〜4の何れか一項に記載の音声補正装置。
  6. 前記補正量算出部は、前記差が大きいほど、前記スペクトル信号値の比が高くなるように、前記第1の周波数帯域及び前記第2の周波数帯域のうちの少なくとも一方に対する前記補正量を決定する、請求項5に記載の音声補正装置。
  7. 時間領域の音声信号を所定の時間長を持つフレーム単位で周波数領域へ変換することで複数の周波数のそれぞれについてのスペクトル信号値を含むスペクトル信号を算出し、
    各周波数について、人の聴覚特性に応じて聞き取れないスペクトル信号値に相当するマスキング閾値を算出し、
    少なくとも第1の周波数帯域に含まれる周波数及び第2の周波数帯域に含まれる周波数についての前記スペクトル信号値と前記マスキング閾値に基づいて、前記第1の周波数帯域及び前記第2の周波数帯域の知覚可能なスペクトル信号を表す有効スペクトル信号を算出し、
    前記第1の周波数帯域の有効スペクトル信号と前記第2の周波数帯域の有効スペクトル信号との差を求め、
    前記差に応じて、所定の周波数帯域に対する補正量を決定し、
    前記補正量に応じて、前記所定の周波数帯域内の各周波数のスペクトル信号値を補正することで補正スペクトル信号を算出し、
    前記補正スペクトル信号を時間領域へ変換することで補正された音声信号を得る、
    ことを含む音声補正方法。
  8. 時間領域の音声信号を所定の時間長を持つフレーム単位で周波数領域へ変換することで複数の周波数のそれぞれについてのスペクトル信号値を含むスペクトル信号を算出し、
    各周波数について、人の聴覚特性に応じて聞き取れないスペクトル信号値に相当するマスキング閾値を算出し、
    少なくとも第1の周波数帯域に含まれる周波数及び第2の周波数帯域に含まれる周波数についての前記スペクトル信号値と前記マスキング閾値に基づいて、前記第1の周波数帯域及び前記第2の周波数帯域の知覚可能なスペクトル信号を表す有効スペクトル信号を算出し、
    前記第1の周波数帯域の有効スペクトル信号と前記第2の周波数帯域の有効スペクトル信号との差を求め、
    前記差に応じて、所定の周波数帯域に対する補正量を決定し、
    前記補正量に応じて、前記所定の周波数帯域内の各周波数のスペクトル信号値を補正することで補正スペクトル信号を算出し、
    前記補正スペクトル信号を時間領域へ変換することで補正された音声信号を得る、
    ことをコンピュータに実行させる音声補正用コンピュータプログラム。
JP2012062860A 2012-03-19 2012-03-19 音声補正装置、音声補正方法及び音声補正用コンピュータプログラム Active JP6098038B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012062860A JP6098038B2 (ja) 2012-03-19 2012-03-19 音声補正装置、音声補正方法及び音声補正用コンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012062860A JP6098038B2 (ja) 2012-03-19 2012-03-19 音声補正装置、音声補正方法及び音声補正用コンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2013195713A true JP2013195713A (ja) 2013-09-30
JP6098038B2 JP6098038B2 (ja) 2017-03-22

Family

ID=49394729

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012062860A Active JP6098038B2 (ja) 2012-03-19 2012-03-19 音声補正装置、音声補正方法及び音声補正用コンピュータプログラム

Country Status (1)

Country Link
JP (1) JP6098038B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9576586B2 (en) 2014-06-23 2017-02-21 Fujitsu Limited Audio coding device, audio coding method, and audio codec device

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05175772A (ja) * 1991-11-28 1993-07-13 Yamaha Corp 音響再生装置
JPH07202823A (ja) * 1993-11-25 1995-08-04 Sharp Corp 符号化復号化装置
JPH1070467A (ja) * 1997-04-30 1998-03-10 Mitsubishi Electric Corp オーディオ信号符号化・復号化装置及びオーディオ信号再生装置
JP2000347688A (ja) * 1999-06-09 2000-12-15 Mitsubishi Electric Corp 雑音抑圧装置
JP2007318274A (ja) * 2006-05-24 2007-12-06 Yamaha Corp 放収音装置
WO2009057488A1 (ja) * 2007-10-30 2009-05-07 Clarion Co., Ltd. 聴覚感度補正装置
JP2010016430A (ja) * 2008-07-01 2010-01-21 Kenwood Corp 周波数特性調整装置および周波数特性調整方法ならびにプログラム
JP2012023688A (ja) * 2010-07-16 2012-02-02 Lapis Semiconductor Co Ltd 信号処理装置、半導体チップ、信号処理システム、及び信号処理方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05175772A (ja) * 1991-11-28 1993-07-13 Yamaha Corp 音響再生装置
JPH07202823A (ja) * 1993-11-25 1995-08-04 Sharp Corp 符号化復号化装置
JPH1070467A (ja) * 1997-04-30 1998-03-10 Mitsubishi Electric Corp オーディオ信号符号化・復号化装置及びオーディオ信号再生装置
JP2000347688A (ja) * 1999-06-09 2000-12-15 Mitsubishi Electric Corp 雑音抑圧装置
JP2007318274A (ja) * 2006-05-24 2007-12-06 Yamaha Corp 放収音装置
WO2009057488A1 (ja) * 2007-10-30 2009-05-07 Clarion Co., Ltd. 聴覚感度補正装置
JP2010016430A (ja) * 2008-07-01 2010-01-21 Kenwood Corp 周波数特性調整装置および周波数特性調整方法ならびにプログラム
JP2012023688A (ja) * 2010-07-16 2012-02-02 Lapis Semiconductor Co Ltd 信号処理装置、半導体チップ、信号処理システム、及び信号処理方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9576586B2 (en) 2014-06-23 2017-02-21 Fujitsu Limited Audio coding device, audio coding method, and audio codec device

Also Published As

Publication number Publication date
JP6098038B2 (ja) 2017-03-22

Similar Documents

Publication Publication Date Title
US9420370B2 (en) Audio processing device and audio processing method
US8085941B2 (en) System and method for dynamic sound delivery
US8964998B1 (en) System for dynamic spectral correction of audio signals to compensate for ambient noise in the listener's environment
KR102060208B1 (ko) 적응적 음성 명료도 처리기
US8275150B2 (en) Apparatus for processing an audio signal and method thereof
US8086451B2 (en) System for improving speech intelligibility through high frequency compression
JP4836720B2 (ja) ノイズサプレス装置
US7912729B2 (en) High-frequency bandwidth extension in the time domain
KR100876794B1 (ko) 이동 단말에서 음성의 명료도 향상 장치 및 방법
WO2021012872A1 (zh) 一种编码参数调控方法、装置、设备及存储介质
JP5151762B2 (ja) 音声強調装置、携帯端末、音声強調方法および音声強調プログラム
US20100004927A1 (en) Speech sound enhancement device
US20090248409A1 (en) Communication apparatus
EP2626857B1 (en) Reverberation reduction device and reverberation reduction method
JPWO2014129233A1 (ja) 音声強調装置
KR101084406B1 (ko) 음향 처리 방법
Premananda et al. Speech enhancement algorithm to reduce the effect of background noise in mobile phones
JP2008309955A (ja) ノイズサプレス装置
JP6098038B2 (ja) 音声補正装置、音声補正方法及び音声補正用コンピュータプログラム
JP6197367B2 (ja) 通話装置及びマスキング音生成プログラム
US11368776B1 (en) Audio signal processing for sound compensation
KR20120016709A (ko) 휴대용 단말기에서 통화 품질을 향상시키기 위한 장치 및 방법
US20210329387A1 (en) Systems and methods for a hearing assistive device
JP6160045B2 (ja) 調整装置および調整方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141204

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160105

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160303

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160816

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161116

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20161124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170206

R150 Certificate of patent or registration of utility model

Ref document number: 6098038

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150