JP2012073295A - 音声帯域拡張装置および音声帯域拡張方法 - Google Patents

音声帯域拡張装置および音声帯域拡張方法 Download PDF

Info

Publication number
JP2012073295A
JP2012073295A JP2010216035A JP2010216035A JP2012073295A JP 2012073295 A JP2012073295 A JP 2012073295A JP 2010216035 A JP2010216035 A JP 2010216035A JP 2010216035 A JP2010216035 A JP 2010216035A JP 2012073295 A JP2012073295 A JP 2012073295A
Authority
JP
Japan
Prior art keywords
band
signal
snr
unit
input signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010216035A
Other languages
English (en)
Other versions
JP5552988B2 (ja
Inventor
Taro Togawa
太郎 外川
Shusaku Ito
周作 伊藤
Takeshi Otani
猛 大谷
Masanao Suzuki
政直 鈴木
Takashi Ota
恭士 大田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2010216035A priority Critical patent/JP5552988B2/ja
Priority to US13/158,812 priority patent/US20120078632A1/en
Priority to EP11171463.0A priority patent/EP2434486A3/en
Priority to CN201110179765.2A priority patent/CN102419980B/zh
Publication of JP2012073295A publication Critical patent/JP2012073295A/ja
Application granted granted Critical
Publication of JP5552988B2 publication Critical patent/JP5552988B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Circuits Of Receivers In General (AREA)

Abstract

【課題】音質を改善すること。
【解決手段】本願の開示する技術は、一つの態様において、FFT部110と、SNR算出処理部120と、帯域選択部130と、拡張信号生成部140と、加算部150と、IFFT部160とを有する。FFT部110は、外部から入力された入力信号をフーリエ変換する。SNR算出処理部120は、入力信号の帯域ごとにSNRを算出する。帯域選択部130は、帯域ごとのSNRに基づいて、SNRが閾値を超え、かつ、SNRが最大となる帯域を選択する。拡張信号生成部140は、帯域選択部130により選択された信号を基に拡張信号を生成する。加算部150は、入力信号に拡張信号を加算し、帯域拡張信号を生成する。IFFT部160は、帯域拡張信号を逆フーリエ変換し、出力信号を生成する。
【選択図】図1

Description

本発明は、音声帯域拡張装置および音声帯域拡張方法に関する。
携帯電話などの通信機器では、通信帯域を効率的に利用するために、音声信号の低域成分や高域成分を取り除き、音声通信を行っている。しかし、音声信号の低域成分や高域成分を取り除くと、音質が劣化してしまうため、劣化した音質を改善する技術が提案されている。
例えば、消失した高域成分の音声信号を擬似的に生成することで、音質を改善する従来技術1が存在する。図26〜28は、従来技術1を説明するための図である。図26〜28の横軸は、周波数を示し、縦軸は、音の大きさを示す。
図26に示すように、音声信号は、例えば、0〜6kHzの広帯域信号である。この広帯域信号が伝送される際に帯域が0〜4kHzに制限されていると、4〜6kHzの高域成分は消失する。つまり、図27に示すように、伝送された音声信号は、0〜4kHzの狭帯域信号に劣化してしまう。従来技術1では、この狭帯域信号を入力信号として受信し、消失した帯域に隣接する2〜4kHzの信号を利用して、消失した信号を補完するための拡張信号を擬似的に生成する。そして、図28に示すように、この拡張信号を狭帯域信号に加算し、0〜4kHzの帯域を0〜6kHzの帯域に拡張することで、音質を改善する。なお、破線で示した信号は、拡張信号を示す。
また、入力信号に含まれる雑音が多い場合には、雑音の影響を抑えつつ音質を改善する従来技術2が存在する。図29〜32は、従来技術2を説明するための図である。図29〜32では、4〜6kHzの高域成分が消失しており、2〜4kHzの隣接帯域の信号を用いて拡張信号を生成する場合を説明する。図29および図31の横軸は、周波数を示し、縦軸は、音の大きさを示す。図29および図31の網掛け部分は、音声信号に含まれる雑音のレベルを示し、破線で示した信号は、拡張信号を示す。また、図30は、図29に対応するSNR(Signal Noise Ratio:信号対雑音比)の高さを示し、図32は、図31に対応するSNRの高さを示す。SNRは、雑音のレベルに対する音声のレベルの比率を示し、音声のレベルが大きいほど高い値を示す。
図29〜30に示すように、従来技術2では、隣接帯域のSNRが高く、雑音が少ない場合には、隣接帯域の信号を用いて拡張信号を生成し、音質を改善する。しかし、図31〜32に示すように、隣接帯域のSNRが低く、雑音が多い場合には、隣接帯域の信号を用いて拡張信号を生成しても多くの雑音が含まれるので、かえって音質を劣化させてしまう。このため、従来技術2では、拡張信号に含まれる雑音が多い場合に、拡張信号全体のレベルを減衰させることで、雑音の影響を抑えつつ音質を改善する。
ここで、従来技術2にかかる音声帯域拡張装置の構成の一例を説明する。図33は、従来技術2にかかる音声帯域拡張装置の構成の一例を説明するための図である。図33に示すように、この音声帯域拡張装置10は、拡張信号生成部11と、SNR算出部12と、重み付け加算部13とを備える。拡張信号生成部11は、入力された入力信号のうち、隣接帯域の信号を用いて拡張信号を生成する。SNR算出部12は、隣接帯域のSNRを算出する。重み付け加算部13は、拡張信号と入力信号とを加算し、入力信号の帯域を拡張した出力信号を生成する。また、重み付け加算部13は、隣接帯域のSNRが低い場合には、拡張信号に含まれる雑音レベルが所定の値を下回るように拡張信号全体のレベルを減衰させた後に、拡張信号と入力信号とを加算する。
特開平8−130494号公報 特開2008−176328号公報
しかしながら、上記従来技術では、入力信号に含まれる雑音が多い場合には、帯域を拡張しても、必ずしも音質を改善することができないという問題があった。例えば、従来技術1では、入力信号に含まれる雑音が多い場合には、拡張信号にも多くの雑音が含まれるので、音質を改善することができなかった。また、従来技術2では、雑音の影響を抑えるために拡張信号全体のレベルを減衰させるので、消失した信号のレベルを十分に補えず、音質を改善することができなかった。
開示の技術は、上記に鑑みてなされたものであって、音質を改善することができる音声帯域拡張装置および音声帯域拡張方法を提供することを目的とする。
本願の開示する技術は、一つの態様において、評価部と、帯域選択部と、生成部と、加算部とを備える。評価部は、外部から入力された入力信号の帯域ごとに雑音レベルまたは信号対雑音比を評価する。帯域選択部は、評価部による評価結果に基づいて、入力信号から雑音が少ない帯域を選択する。生成部は、帯域選択部により選択された帯域の信号を用いて、入力信号の帯域を拡張する拡張信号を生成する。加算部は、生成部により生成された拡張信号を入力信号に加算する。
本願の開示する技術の一つの態様によれば、音質を改善することができるという効果を奏する。
図1は、本実施例1にかかる音声帯域拡張装置の構成を示す図である。 図2は、SNR算出処理部の構成を示す図である。 図3は、帯域ごとのSNRを示す図(1)である。 図4は、周波数BINと適用ゲインの大きさとの関係を示す図である。 図5は、拡張信号生成部が実行する拡張信号生成処理について説明するための図(1)である。 図6は、周波数BINと調整ゲインとの関係を示す図である。 図7は、拡張信号生成部が実行するレベル調整処理について説明するための図である。 図8は、本実施例1にかかる音声帯域拡張装置の処理手順を示すフローチャートである。 図9は、本実施例1にかかる音声帯域拡張装置の効果を説明するための図である。 図10は、本実施例1にかかる音声帯域拡張装置の効果を説明するための図である。 図11は、帯域ごとのSNRを示す図(2)である。 図12は、本実施例2にかかる音声帯域拡張装置の構成を示す図である。 図13は、帯域ごとのSNRを示す図(3)である。 図14は、本実施例2にかかる音声帯域拡張装置の処理手順を示すフローチャートである。 図15は、本実施例3にかかる音声帯域拡張装置の構成を示す図である。 図16は、帯域ごとのSNRを示す図(4)である。 図17は、帯域ごとのSNRを示す図(5)である。 図18は、拡張信号生成部が実行する拡張信号生成処理について説明するための図(2)である。 図19は、本実施例3にかかる音声帯域拡張装置の処理手順を示すフローチャートである。 図20は、本実施例4にかかる音声帯域拡張装置の構成を示す図である。 図21は、帯域ごとのSNRを示す図(6)である。 図22は、帯域ごとのSNRを示す図(7)である。 図23は、本実施例4にかかる音声帯域拡張装置の処理手順を示すフローチャートである。 図24は、本実施例4にかかる音声帯域拡張装置の効果を説明するための図である。 図25は、本実施例4にかかる音声帯域拡張装置の効果を説明するための図である。 図26は、従来技術1を説明するための図である。 図27は、従来技術1を説明するための図である。 図28は、従来技術1を説明するための図である。 図29は、従来技術2を説明するための図である。 図30は、従来技術2を説明するための図である。 図31は、従来技術2を説明するための図である。 図32は、従来技術2を説明するための図である。 図33は、従来技術2にかかる音声帯域拡張装置の構成の一例を説明するための図である。
以下に、本願の開示する音声帯域拡張装置および音声帯域拡張方法の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
本実施例1にかかる音声帯域拡張装置の構成の一例について説明する。図1は、本実施例1にかかる音声帯域拡張装置の構成を示す図である。図1に示すように、音声帯域拡張装置100は、FFT部110と、SNR算出処理部120と、帯域選択部130と、拡張信号生成部140と、加算部150と、IFFT部160とを有する。
FFT(Fast Fourier Transform)部110は、外部から入力された入力信号をフーリエ変換し、フーリエ変換した入力信号を、SNR算出処理部120と、帯域選択部130と、加算部150とに出力する。FFT部110に入力される入力信号は、例えば、0〜4kHzの狭帯域信号である。
FFT部110は、下記の式(1)に基づいて、入力信号のフレームごとにスペクトルFin(j)を算出する。式(1)のnはフレーム番号を示し、xはn番目のフレームにおける入力信号を示し、NはFFT分析長を示し、jは周波数BINを示す。ここでは、周波数BIN0〜192は、周波数0[Hz]〜6k[Hz]にそれぞれ対応するものとする。
Figure 2012073295
SNR算出処理部120は、入力信号の帯域ごとにSNRを算出し、算出した帯域ごとのSNRを帯域選択部130に出力する。ここでは、SNR算出処理部120は、2kHzの帯域幅ごとに入力信号のSNRを算出するものとする。SNR算出処理部120は、帯域ごとのSNRを帯域選択部130に出力する。なお、SNR算出処理部120は、評価部の一例である。また、SNR算出処理部120が算出するSNRは、雑音レベルまたは信号対雑音比の一例である。
以下において、SNR算出処理部120の構成を説明する。図2は、SNR算出処理部の構成を示す図である。図2に示すように、SNR算出処理部120は、音声判定部121と、音声レベル更新部122と、雑音レベル更新部123と、SNR算出部124とを有する。
音声判定部121は、入力信号のフレームごとに音声/非音声を判定する。例えば、音声判定部121は、特許第3849116号に開示の技術のように、パワースペクトルのピーク周波数やピッチ周期などを用いて特徴量を算出し、算出した特徴量が音声特有のものであるか否か基づいて、音声/非音声を判定する。
すなわち、音声判定部121は、入力信号のフレームの特徴量が音声特有のものである場合には、フレームを音声と判定する。これに対して、音声判定部121は、入力信号のフレームの特徴量が音声特有のものでない場合には、フレームを非音声と判定する。音声特有の特徴量は、音声判定部121が予め保持しているものとする。音声判定部121は、音声と判定したフレームを音声レベル更新部122に出力し、非音声と判定したフレームを雑音レベル更新部123に出力する。
音声レベル更新部122は、フレームの帯域ごとに音声レベルを算出し、算出した音声レベルをSNR算出部124に出力する。例えば、音声レベル更新部122は、下記の式(2)を用いて、帯域ごとの音声レベルV(n,B)を算出する。式(2)において、nはフレーム番号を示し、Bはi番目の帯域を示す。また、spec_pow(n,B)はi番目の帯域のスペクトルパワーの平均を示し、COF1は平滑化係数を示す。なお、音声レベル更新部122は、前回のフレームで算出した音声レベルV(n−1,B)を記憶しているものとする。
Figure 2012073295
雑音レベル更新部123は、フレームの帯域ごとに雑音レベルを算出し、算出した雑音レベルをSNR算出部124に出力する。例えば、雑音レベル更新部123は、下記の式(3)を用いて、帯域ごとの雑音レベルN(n,B)を算出する。式(3)のCOF2は平滑化係数を示す。なお、雑音レベル更新部123は、前回のフレームで算出した雑音レベルN(n−1,B)を記憶しているものとする。
Figure 2012073295
SNR算出部124は、帯域ごとにSNRを算出し、算出した帯域ごとのSNRを帯域選択部130に出力する。例えば、SNR算出部124は、下記の式(4)を用いて、音声レベルV(n,B)および雑音レベルN(n,B)からSNR(n,B)を算出する。
Figure 2012073295
図1の説明に戻る。帯域選択部130は、帯域ごとのSNRに基づいて、SNRが閾値を超え、かつ、SNRが最大となる帯域を選択する。そして、帯域選択部130は、選択した帯域の信号を拡張信号生成部140に出力する。なお、閾値は、SNRが低い帯域が選択されないように設定される任意の値である。また、帯域選択部130は、帯域選択部の一例である。
ここで、帯域選択部130の処理を具体的に説明する。図3は、帯域ごとのSNRを示す図である。図3に示す例では、帯域1のSNRは0[dB]、帯域2のSNRは0[dB]、帯域3のSNRは6[dB]である。ここで、帯域1は、0〜2kHz、帯域2は、1〜3kHz、帯域3は、2〜4kHzとする。また、帯域1の周波数BIN範囲は、0〜63、帯域2の周波数BIN範囲は、32〜95、帯域3の周波数BIN範囲は、64〜127とする。
閾値が「5」に設定されていたとすると、SNRが閾値を超え、かつ、SNRが最大となる帯域は、帯域3となる。このため、帯域選択部130は、帯域3を選択し、帯域3の信号を拡張信号生成部140に出力する。なお、帯域選択部130は、SNRが閾値より高い帯域が入力信号に存在しない場合には、レベル0の信号を拡張信号生成部140に出力する。なお、閾値については、この例示に限るものではなく、音声帯域拡張装置100を利用する者が任意の値に設定してよい。
拡張信号生成部140は、帯域選択部130から取得した信号を基に拡張信号を生成する。この拡張信号は、入力信号の高域成分を補う信号である。拡張信号生成部140は、生成した拡張信号を加算部150に出力する。なお、拡張信号生成部140は、生成部の一例である。
ここで、拡張信号生成部140が、拡張信号を生成する処理について説明する。拡張信号生成部140は、帯域選択部130から取得した信号にゲインを適用することで減衰信号を生成し、この減衰信号を任意の周波数にシフトすることで拡張信号を生成する。以下の説明において、帯域選択部130から取得した信号を選択信号と表記し、この選択信号に適用するゲインを適用ゲインと表記する。
拡張信号生成部140は、拡張信号を下記の式(5)によって求める。式(5)において、jは周波数BINを示し、shiftは周波数シフト量を示す。また、Fex(j)は周波数BIN「j」に対応する拡張信号のスペクトルを示し、Fin(j)は、周波数BIN「j」に対応する選択信号のスペクトルを示す。
Figure 2012073295
また、式(5)において、gain(j)は、適用ゲインを示す。図4は、周波数BINと適用ゲインの大きさとの関係を示す図である。図4に示すように、周波数BINが大きくなるに従い、適用ゲインの大きさは小さくなる。図4に示す例では、周波数BINが64〜128まで変化すると、適用ゲインの大きさは0dB〜−9dBまで変化する。このように、周波数と適用ゲインとの関係が右下がりとなる値を用いることで、音声の特徴をよく表した拡張信号を生成することができる。なぜなら、音声信号には、高域ほど音声レベルが小さくなる性質があるからである。
次に、拡張信号生成部140が、選択信号から減衰信号を生成し、拡張信号を生成する処理を図面を用いて説明する。図5は、拡張信号生成部が実行する拡張信号生成処理について説明するための図(1)である。図5の横軸は周波数および周波数BINを示し、縦軸は音の大きさを示す。ここでは一例として、帯域選択部130により選択された2〜4kHzの選択信号5aから、4〜6kHzの拡張信号5cを生成する場合を説明する。
図5に示すように、拡張信号生成部140は、選択信号5aに適用ゲインを適用することで選択信号5aを減衰させ、減衰信号5bを生成する。そして、拡張信号生成部140は、減衰信号5bを2kHz分高域側にシフトさせ、拡張信号5cを生成する。
なお、図4に示した例では、帯域選択部130により選択された帯域が2〜4kHzである場合に適用される適用ゲインについて説明したが、本発明はこれに限定されるものではない。つまり、帯域選択部130により選択された帯域に応じて、適用ゲインgain(j)の値を変更しても良い。例えば、帯域選択部130により選択された帯域が0〜2kHzである場合には、より大きく減衰するように適用ゲインgain(j)の値を小さくしても良い。
ところで、入力信号と拡張信号との境界周波数において信号のレベル差が大きい場合には、そのまま拡張信号を利用して入力信号の高域成分を補うと、スペクトルが不連続となり、音質を劣化させてしまう。このため、拡張信号生成部140は、入力信号と拡張信号との境界周波数において信号のレベル差が大きい場合には、拡張信号のレベルを増減させ、境界周波数におけるスペクトルの不連続を解消し、音質が劣化することを防止する。
拡張信号生成部140が、拡張信号のレベルを調整する処理について具体的に説明する。ここでは一例として、入力信号と拡張信号との境界周波数を4kHzとする。周波数4kHzに対応する周波数BINを128とする。拡張信号生成部140は、式(6)によって拡張信号を調整する。式(6)において、Fex´(j)は、周波数BIN「j」に対応する調整後の拡張信号のスペクトルを示す。Fex(j)は、周波数BIN「j」に対応する調整前の拡張信号のスペクトルを示す。Fin(127)は、周波数BIN「127」に対応する入力信号のスペクトルを示す。Fex(128)は、周波数BIN「128」に対応する調整前の拡張信号のスペクトルを示す。
Figure 2012073295
また、式(6)において、−{Fex(128)−Fin(127)}×(128+L−j)/Lは、拡張信号を調整するための調整ゲインである。拡張信号生成部140は、周波数BIN範囲j=128〜128+Lの拡張信号に調整ゲインを適用することで、拡張信号を調整する。Lは、レベル調整を行う周波数BIN範囲に対応する。
図6は、周波数BINと調整ゲインとの関係を示す図である。図6の横軸は周波数および周波数BINを示し、縦軸は調整ゲインの大きさを示す。図6に示すように、拡張信号生成部140は、j=128で加算する調整ゲインを−{Fex(128)−Fin(127)}とし、j=128+Lで加算する調整ゲインが0になるように、調整ゲインを周波数BINに応じて変化させる。
次に、拡張信号生成部140が、拡張信号を調整する処理を図面を用いて説明する。図7は、拡張信号生成部が実行するレベル調整処理について説明するための図である。図7の横軸は周波数および周波数BINを示し、縦軸は音の大きさを示す。図7の信号7aは、入力信号であり、信号7bは、拡張信号であり、信号7cは、レベル調整後の拡張信号である。図7に示すように、拡張信号生成部140が、調整ゲインを適用し、拡張信号7bを拡張信号7cに調整することで、入力信号7aと拡張信号7cとのスペクトルが連続し、音声劣化を防止することができる。
図1の説明に戻る。加算部150は、入力信号に拡張信号を加算し、帯域拡張信号を生成する。加算部150により生成される帯域拡張信号は、例えば、0〜6kHzの信号である。加算部150は、生成した帯域拡張信号をIFFT部160に出力する。なお、加算部150は、加算部の一例である。
例えば、加算部150は、下記の式(7)を用いて、入力信号に拡張信号を加算する。式(7)のFout(j)は帯域拡張信号のスペクトルを示し、Fin(j)は入力信号のスペクトルを示し、Fex(j)は拡張信号のスペクトルを示す。
Figure 2012073295
IFFT(Inverse Fast Fourier Transform)部160は、帯域拡張信号を逆フーリエ変換し、出力信号を生成する。例えば、IFFT部160は、下記の式(8)を用いて、出力信号xを生成する。IFFT部160は、生成した出力信号を外部に出力する。
Figure 2012073295
次に、本実施例1にかかる音声帯域拡張装置の処理手順の一例について説明する。図8は、本実施例1にかかる音声帯域拡張装置の処理手順を示すフローチャートである。図8に示す処理は、例えば、音声帯域拡張装置100に入力信号が入力されたことを契機として実行される。
図8に示すように、音声帯域拡張装置100に入力信号が入力されると(ステップS101)、音声帯域拡張装置100は、入力信号をフーリエ変換する(ステップS102)。音声帯域拡張装置100は、入力信号の帯域ごとのSNRを算出する(ステップS103)。
音声帯域拡張装置100は、帯域ごとのSNRに基づいて、SNRが閾値を超え、かつ、SNRが最大となる帯域を選択する(ステップS104)。音声帯域拡張装置100は、選択した帯域の信号を基に拡張信号を生成し(ステップS105)、生成した拡張信号を入力信号に加算し、帯域拡張信号を生成する(ステップS106)。
音声帯域拡張装置100は、帯域拡張信号を逆フーリエ変換し(ステップS107)、逆フーリエ変換した帯域拡張信号を出力信号として出力する(ステップS108)。
次に、本実施例1にかかる音声帯域拡張装置の効果について説明する。本実施例1にかかる音声帯域拡張装置100は、入力された入力信号の帯域ごとにSNRを算出し、帯域ごとのSNRに基づいて、SNRが閾値を超え、かつ、SNRが最大となる帯域を選択する。音声帯域拡張装置100は、選択した帯域の信号を用いて拡張信号を生成し、入力信号を拡張する。すなわち、音声帯域拡張装置100は、入力信号のうち、雑音が少ない帯域の信号を用いて拡張信号を生成することで、拡張信号に含まれる雑音を低レベルに抑えるので、音質を改善することができる。
また、音声帯域拡張装置100は、入力信号のうち、どの帯域を選択したとしても、選択した帯域の周波数に応じて適用ゲインを変化させるので、音声の特徴をよく表すように適切に減衰させた拡張信号を生成でき、音質を改善することができる。
図9および図10は、本実施例1にかかる音声帯域拡張装置の効果を説明するための図である。図9の横軸は、周波数を示し、縦軸は、音の大きさを示す。図9の網掛け部分は、音声信号に含まれる雑音のレベルを示す。図10は、図9に対応するSNRの高さを示す。ここでは一例として、0〜2kHzの帯域の信号を用いて4〜6kHzの帯域を拡張する場合を説明する。なお、図10に示す0〜2kHzの帯域のSNRは、閾値を超えるものとする。
図9および図10に示すように、音声帯域拡張装置100は、SNRが閾値を超え、かつ、SNRが最大となる帯域として、0〜2kHzの帯域を選択する。音声帯域拡張装置100は、選択した帯域の信号を用いて4〜6kHzの拡張信号を生成し、入力信号を拡張するので、雑音の影響を抑えつつ、高い音質向上効果を実現することができる。
また、従来技術では、拡張信号の生成に使用する帯域のSNRが低くても拡張信号を生成し、入力信号に加算していたので、かえって音質を劣化させていた。これに対して、音声帯域拡張装置100は、SNRが閾値より高い帯域が入力信号に存在しない場合には、拡張信号に代えてレベル0の信号を入力信号に加算する。このため、音声帯域拡張装置100は、SNRが閾値より低い帯域の信号を基に生成した拡張信号を加算することがないので、音質の劣化を防ぐことができる。
ところで、図3に示した例では、SNRが閾値より高い帯域が1箇所のみ存在する場合を説明したが、SNRが閾値より高い帯域が複数箇所存在する場合には、帯域選択部130は、SNRが最大の帯域を選択する。図11は、帯域ごとのSNRを示す図(2)である。
図11に示した例では、帯域1のSNRは0[dB]、帯域2のSNRは10[dB]、帯域3のSNRは6[dB]である。ここで、帯域1は、0〜2kHz、帯域2は、1〜3kHz、帯域3は、2〜4kHzとする。
閾値が「5」に設定されていたとすると、SNRが閾値を超える帯域は、帯域2および帯域3となる。このうち、SNRが最大となる帯域は、帯域2である。このため、帯域選択部130は、帯域2を選択する。なお、閾値については、この例示に限るものではなく、音声帯域拡張装置100を利用する者が任意の値に設定してよい。
本実施例2にかかる音声帯域拡張装置の構成の一例について説明する。図12は、本実施例2にかかる音声帯域拡張装置の構成を示す図である。図12に示すように、音声帯域拡張装置200は、FFT部110と、SNR算出処理部120と、帯域選択部230と、拡張信号生成部140と、加算部150と、IFFT部160とを有する。このうち、図10に示すFFT部110と、SNR算出処理部120の説明は、図1に示したFFT部110と、SNR算出処理部120の説明と同様である。また、図12に示す拡張信号生成部140と、加算部150と、IFFT部160の説明は、図1に示した拡張信号生成部140と、加算部150と、IFFT部160の説明と同様である。
帯域選択部230は、帯域ごとのSNRに基づいて、SNRが閾値を超え、かつ、拡張する帯域に最も近接した帯域を選択する。そして、帯域選択部230は、選択した帯域の信号を拡張信号生成部140に出力する。なお、閾値は、SNRが低い帯域が選択されないように設定される任意の値である。また、帯域選択部230は、帯域選択部の一例である。
ここで、帯域選択部230の処理を具体的に説明する。図13は、帯域ごとのSNRを示す図(3)である。図13に示す例では、帯域1のSNRは0[dB]、帯域2のSNRは10[dB]、帯域3のSNRは6[dB]である。ここで、帯域1は、0〜2kHz、帯域2は、1〜3kHz、帯域3は、2〜4kHzとする。
閾値が「5」に設定されていたとすると、SNRが閾値を超える帯域は、帯域2および帯域3となる。また、拡張する帯域を4〜6kHzとすると、拡張する帯域に最も近接した帯域は、帯域3となる。このため、帯域選択部230は、帯域3を選択し、帯域3の信号を拡張信号生成部140に出力する。なお、帯域選択部230は、SNRが閾値より高い帯域が入力信号に存在しない場合には、レベル0の信号を拡張信号生成部140に出力する。なお、閾値については、この例示に限るものではなく、音声帯域拡張装置200を利用する者が任意の値に設定してよい。
次に、本実施例2にかかる音声帯域拡張装置の処理手順の一例について説明する。図14は、本実施例2にかかる音声帯域拡張装置の処理手順を示すフローチャートである。図14に示す処理は、例えば、音声帯域拡張装置200に入力信号が入力されたことを契機として実行される。
図14に示すように、音声帯域拡張装置200に入力信号が入力されると(ステップS201)、音声帯域拡張装置200は、入力信号をフーリエ変換する(ステップS202)。音声帯域拡張装置200は、入力信号の帯域ごとのSNRを算出する(ステップS203)。
音声帯域拡張装置200は、帯域ごとのSNRに基づいて、SNRが閾値を超え、かつ、拡張する帯域に最も近接した帯域を選択する(ステップS204)。音声帯域拡張装置200は、選択した帯域の信号を用いて拡張信号を生成し(ステップS205)、生成した拡張信号を入力信号に加算し、帯域拡張信号を生成する(ステップS206)。
音声帯域拡張装置200は、帯域拡張信号を逆フーリエ変換し(ステップS207)、逆フーリエ変換した帯域拡張信号を出力信号として出力する(ステップS208)。
次に、本実施例2にかかる音声帯域拡張装置の効果について説明する。本実施例2にかかる音声帯域拡張装置200は、入力された入力信号の帯域ごとにSNRを算出し、帯域ごとのSNRに基づいて、SNRが閾値を超え、かつ、拡張する帯域の信号波形に最も類似した帯域を選択する。音声帯域拡張装置200は、選択した帯域の信号を用いて拡張信号を生成し、入力信号を拡張する。すなわち、音声帯域拡張装置200は、入力信号のうち、雑音が少なく、拡張する帯域の信号波形に類似の信号を用いて拡張信号を生成するので、高域の信号波形により類似の拡張信号を生成でき、音質を改善することがきる。
本実施例3にかかる音声帯域拡張装置の構成の一例について説明する。図15は、本実施例3にかかる音声帯域拡張装置の構成を示す図である。図15に示すように、音声帯域拡張装置300は、FFT部110と、SNR算出処理部320と、帯域選択部330と、拡張信号生成部340と、加算部150と、IFFT部160とを有する。このうち、図15に示すFFT部110と、加算部150と、IFFT部160の説明は、図1に示したFFT部110と、加算部150と、IFFT部160の説明と同様である。
SNR算出処理部320は、SNR算出処理部120と同一の機能を有する。さらに、SNR算出処理部320は、後述する帯域選択部330により設定された帯域幅でSNRを再算出する命令を受け付ける。そして、SNR算出処理部320は、帯域選択部330から受け付けた命令に基づいてSNRを再算出し、再算出した帯域ごとのSNRを帯域選択部330に出力する。なお、SNR算出処理部320は、評価部の一例である。
例えば、SNR算出処理部320は、帯域選択部330から1kHzの帯域幅でSNRを再算出する命令を受け付ける。そして、SNR算出処理部320は、1kHzの帯域幅でSNRを再算出し、再算出した帯域ごとのSNRを帯域選択部330に出力する。
帯域選択部330は、帯域選択部130と同一の機能を有する。さらに、帯域選択部330は、SNRが閾値を超える帯域が入力信号に存在しない場合には、SNRを算出する帯域幅が狭くなるように帯域幅を設定する。帯域選択部330は、設定した帯域幅でSNRを再算出する命令をSNR算出処理部320に出力する。そして、帯域選択部330は、再算出されたSNRに基づいて、SNRが閾値を超え、かつ、SNRが最大となる帯域を選択し、選択した帯域の信号を拡張信号生成部340に出力する。なお、閾値は、SNRが低い帯域が選択されないように設定される任意の値である。また、帯域選択部330は、帯域選択部の一例である。
ここで、帯域選択部330の処理を具体的に説明する。図16は、帯域ごとのSNRを示す図(4)である。図16では、2kHzの帯域幅でSNRが算出された場合を説明する。図16に示す例では、帯域1のSNRは0[dB]、帯域2のSNRは3[dB]、帯域3のSNRは3[dB]である。ここで、帯域1は、0〜2kHz、帯域2は、1〜3kHz、帯域3は、2〜4kHzとする。
閾値が「5」に設定されていたとすると、SNRが閾値を超える帯域は存在しない。このため、帯域選択部330は、SNRを算出する帯域幅を1kHzに設定し、1kHzの帯域幅でSNRを再算出する命令をSNR算出処理部320に出力する。
図17は、帯域ごとのSNRを示す図(5)である。図17では、1kHzの帯域幅でSNRが算出された場合を説明する。図17に示す例では、帯域1−1のSNRは0[dB]、帯域2−1のSNRは0[dB]、帯域3−1のSNRは6[dB]、帯域4−1のSNRは0[dB]である。ここで、帯域1−1は、0〜1kHz、帯域2−1は、1〜2kHz、帯域3−1は、2〜3kHz、帯域4−1は、3〜4kHzとする。
1kHzの帯域幅でSNRを算出すると、SNRが閾値「5」を超え、かつ、SNRが最大となる帯域は、帯域3−1となる。このため、帯域選択部330は、帯域3−1を選択し、帯域3−1の信号を拡張信号生成部340に出力する。なお、閾値については、この例示に限るものではなく、音声帯域拡張装置300を利用する者が任意の値に設定してよい。
拡張信号生成部340は、拡張信号生成部140と同一の機能を有する。さらに、拡張信号生成部340は、帯域選択部330から取得した帯域が拡張する帯域より狭い場合には、取得した帯域の信号から複数の減衰信号を生成し、これらの減衰信号をそれぞれ異なる周波数にシフトすることで拡張信号を生成する。なお、拡張信号生成部340は、生成部の一例である。
図18は、拡張信号生成部が実行する拡張信号生成処理について説明するための図(2)である。図18の横軸は周波数を示し、縦軸は音の大きさを示す。ここでは一例として、帯域選択部330により選択された2〜3kHzの選択信号18aから、4〜6kHzの拡張信号18bを生成する場合を説明する。
図18に示すように、拡張信号生成部340は、選択信号18aに適用ゲインを適用することで選択信号18aを減衰させ、2kHz分高域側にシフトさせることで、4〜5kHzの信号を生成する。また、拡張信号生成部340は、選択信号18aに適用ゲインを適用することで選択信号18aを減衰させ、3kHz分高域側にシフトさせることで、5〜6kHzの信号を生成する。そして、拡張信号生成部340は、4〜5kHzの信号と5〜6kHzの信号とを加算することで、4〜6kHzの拡張信号18bを生成する。
次に、本実施例3にかかる音声帯域拡張装置の処理手順の一例について説明する。図19は、本実施例3にかかる音声帯域拡張装置の処理手順を示すフローチャートである。図19に示す処理は、例えば、音声帯域拡張装置300に入力信号が入力されたことを契機として実行される。
図19に示すように、音声帯域拡張装置300に入力信号が入力されると(ステップS301)、音声帯域拡張装置300は、入力信号をフーリエ変換する(ステップS302)。音声帯域拡張装置300は、入力信号の帯域ごとのSNRを算出する(ステップS303)。
音声帯域拡張装置300は、SNRが閾値を超える帯域が存在する場合には(ステップS304,Yes)、SNRが最大となる帯域を選択する(ステップS305)。一方、音声帯域拡張装置300は、SNRが閾値を超える帯域が存在しない場合には(ステップS304,No)、SNRを算出する帯域幅を狭め、狭めた帯域幅でSNRを再算出し(ステップS306)、ステップS305に移行する。
音声帯域拡張装置300は、選択した帯域の信号から拡張信号を生成し(ステップS307)、生成した拡張信号を入力信号に加算することで帯域拡張信号を生成する(ステップS308)。
音声帯域拡張装置300は、帯域拡張信号を逆フーリエ変換し(ステップS309)、逆フーリエ変換した帯域拡張信号を出力信号として出力する(ステップS310)。
次に、本実施例3にかかる音声帯域拡張装置の効果について説明する。本実施例3にかかる音声帯域拡張装置300は、入力された入力信号の帯域ごとにSNRを算出し、帯域ごとのSNRに基づいて、SNRが閾値を超え、かつ、SNRが最大となる帯域を選択する。また、音声帯域拡張装置300は、SNRが閾値を超える帯域が存在しない場合には、SNRを算出する帯域幅を狭め、狭めた帯域幅でSNRを再算出し、再算出した帯域ごとのSNRに基づいて帯域を選択する。すなわち、音声帯域拡張装置300は、特定の帯域幅では雑音が少ない帯域を入力信号から検出できない場合であっても、帯域幅を調整することで雑音が少ない帯域を検出し、拡張信号を生成するので、音質を改善することができる。
本実施例4にかかる音声帯域拡張装置の構成の一例について説明する。図20は、本実施例4にかかる音声帯域拡張装置の構成を示す図である。図20に示すように、音声帯域拡張装置400は、FFT部110と、SNR算出処理部420と、帯域選択部430と、拡張信号生成部140と、加算部150と、IFFT部160と、メモリ470とを有する。このうち、図20に示すFFT部110と、拡張信号生成部140と、加算部150と、IFFT部160の説明は、図1に示したFFT部110と、拡張信号生成部140と、加算部150と、IFFT部160の説明と同様である。
SNR算出処理部420は、SNR算出処理部120と同一の機能を有する。さらに、SNR算出処理部420は、後述するメモリ470から入力信号の過去のフレームを取得し、過去のフレームを用いて帯域ごとのSNRを再算出する。なお、SNR算出処理部420は、評価部の一例である。
例えば、SNR算出処理部420は、現在のフレームをn番目とした場合に、メモリ470からn−1番目のフレームを取得し、n−1番目のフレームを用いて帯域ごとのSNRを算出する。そして、SNR算出処理部420は、n−1番目のフレームにおける帯域ごとのSNRを帯域選択部430に出力する。
帯域選択部430は、帯域選択部130と同一の機能を有する。さらに、帯域選択部430は、SNRが閾値を超える帯域が入力信号に存在しない場合には、入力信号の過去のフレームを用いて帯域ごとのSNRを再算出する命令をSNR算出処理部420に出力する。帯域選択部430は、SNR算出処理部420により再算出されたSNRに基づいて、SNRが閾値を越え、かつ、現在のフレームに最も近いフレームの帯域を選択する。そして、帯域選択部430は、選択した帯域の信号を拡張信号生成部140に出力する。なお、閾値は、SNRが低い帯域が選択されないように設定される任意の値である。また、帯域選択部430は、帯域選択部の一例である。
ここで、帯域選択部430の処理を具体的に説明する。図21は、帯域ごとのSNRを示す図(6)である。図21に示す例では、n番目のフレームにおける帯域1のSNRは0[dB]、帯域2のSNRは0[dB]、帯域3のSNRは0[dB]である。ここで、帯域1は、0〜2kHz、帯域2は、1〜3kHz、帯域3は、2〜4kHzとする。また、n番目のフレームは、現在のフレームとする。
閾値が「5」に設定されていたとすると、SNRが閾値を超える帯域は存在しない。このため、帯域選択部430は、入力信号のn−1番目のフレームとn−2番目のフレームとを用いてSNRを再算出する命令をSNR算出処理部420に出力する。そして、帯域選択部430は、SNR算出処理部420により再算出された帯域ごとのSNRを取得する。
図22は、帯域ごとのSNRを示す図(7)である。図22に示す例では、n−1番目のフレームにおける帯域1のSNRは0[dB]、帯域2のSNRは0[dB]、帯域3のSNRは6[dB]である。また、n−2番目のフレームにおける帯域1のSNRは0[dB]、帯域2のSNRは0[dB]、帯域3のSNRは6[dB]である。ここで、帯域1は、0〜2kHz、帯域2は、1〜3kHz、帯域3は、2〜4kHzとする。また、n−1番目のフレームは、現在のフレームの1つ前のフレーム、n−2番目のフレームは、現在のフレームの2つ前のフレームとする。
n−1番目のフレームとn−2番目のフレームとを用いてSNRを再算出すると、SNRが閾値「5」を超える帯域は、n−1番目のフレームの帯域3およびn−2番目のフレームの帯域3となる。このうち、現在のフレームに最も近いフレームの帯域は、n−1番目のフレームの帯域3となる。このため、帯域選択部430は、n−1番目のフレームの帯域3を選択し、n−1番目のフレームの帯域3の信号を拡張信号生成部140に出力する。なお、閾値については、この例示に限るものではなく、音声帯域拡張装置400を利用する者が任意の値に設定してよい。
なお、帯域選択部430が利用する過去のフレームは、n−1番目のフレームとn−2番目のフレームとに限定されるものではなく、音声信号の波形が大きく変化しない範囲内で、さらに前のフレームを利用するようにしても良い。例えば、1フレームを256サンプルとした場合には、8フレーム程度は音声信号の波形が大きく変化しないので、帯域選択部430は、n−7番目のフレームまで利用しても良い。
メモリ470は、FFT部110から出力された入力信号をフレームごとに記憶する。例えば、メモリ470は、入力信号のn番目のフレームと、n−1番目のフレームと、n−2番目のフレームとを記憶する。
次に、本実施例4にかかる音声帯域拡張装置の処理手順の一例について説明する。図23は、本実施例4にかかる音声帯域拡張装置の処理手順を示すフローチャートである。図23に示す処理は、例えば、音声帯域拡張装置400に入力信号が入力されたことを契機として実行される。
図23に示すように、音声帯域拡張装置400に入力信号が入力されると(ステップS401)、音声帯域拡張装置400は、入力信号をフーリエ変換する(ステップS402)。音声帯域拡張装置400は、入力信号の帯域ごとのSNRを算出する(ステップS403)。
音声帯域拡張装置400は、SNRが閾値を超える帯域が存在する場合には(ステップS404,Yes)、SNRが最大となる帯域を選択する(ステップS405)。一方、音声帯域拡張装置400は、SNRが閾値を超える帯域が存在しない場合には(ステップS404,No)、入力信号の過去のフレームを用いて帯域ごとのSNRを再算出し、(ステップS406)、ステップS405に移行する。
音声帯域拡張装置400は、選択した帯域の信号から拡張信号を生成し(ステップS407)、生成した拡張信号を入力信号に加算することで帯域拡張信号を生成する(ステップS408)。
音声帯域拡張装置400は、帯域拡張信号を逆フーリエ変換し(ステップS409)、逆フーリエ変換した帯域拡張信号を出力信号として出力する(ステップS410)。
次に、本実施例4にかかる音声帯域拡張装置の効果について説明する。本実施例4にかかる音声帯域拡張装置400は、入力された入力信号の帯域ごとにSNRを算出し、帯域ごとのSNRに基づいて、SNRが閾値を超え、かつ、SNRが最大となる帯域を選択する。また、音声帯域拡張装置400は、SNRが閾値を超える帯域が存在しない場合には、入力信号の過去のフレームを用いて帯域ごとのSNRを再算出し、再算出した帯域ごとのSNRに基づいて帯域を選択する。このため、音声帯域拡張装置400は、雑音が少ない帯域が入力信号に存在しない場合であっても、過去の入力信号から雑音が少ない帯域を選択して拡張信号を生成することで、拡張信号に含まれる雑音を低レベルに抑えるので、音質を改善することができる。
図24および図25は、本実施例4にかかる音声帯域拡張装置の効果を説明するための図である。図24および図25の横軸は、周波数を示し、縦軸は、音の大きさを示す。図24および図25の網掛け部分は、音声信号に含まれる雑音のレベルを示す。図24は、入力信号の現在のフレームを示し、図25は、入力信号の過去のフレームを示す。ここでは一例として、過去のフレームの2〜4kHzの帯域の信号を用いて、4〜6kHzの帯域を拡張する場合を説明する。なお、図24に示す0〜4kHzの帯域のSNRは、閾値を超えないものとし、図25に示す2〜4kHzの帯域のSNRは、SNRが閾値を超え、かつ、SNRが最大となる帯域であるものとする。
図24および図25に示すように、音声帯域拡張装置400は、現在のフレームにSNRが閾値を超える帯域が存在しない場合には、SNRが閾値を超え、かつ、SNRが最大となる帯域として、過去のフレームの2〜4kHzの帯域を選択する。音声帯域拡張装置100は、選択した帯域の信号を用いて4〜6kHzの拡張信号を生成し、入力信号を拡張するので、雑音の影響を抑えつつ、高い音質向上効果を実現することができる。
ところで、本実施例1〜4において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上述文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
また、図1,12,15,20に示した音声帯域拡張装置100,200,300,400の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、音声帯域拡張装置100,200,300,400の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、SNR算出処理部120および帯域選択部130の機能を単一の処理部に持たせても良い。
なお、FFT部110、SNR算出処理部120,320,420、帯域選択部130,230,330,430、拡張信号生成部140,340、加算部150、IFFT部160にて行われる各処理機能は、以下のように実現される。すなわち、これらの各処理機能は、その全部または任意の一部が、CPU(Central Processing Unit)および当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、メモリ470は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子、ハードディスクや光ディスクなどの記憶装置に対応する。
以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)外部から入力された入力信号の帯域ごとに雑音レベルまたは信号対雑音比を評価する評価部と、
前記評価部による評価結果に基づいて、前記入力信号から雑音が少ない帯域を選択する帯域選択部と、
前記帯域選択部により選択された帯域の信号を用いて、入力信号の帯域を拡張する拡張信号を生成する生成部と、
前記生成部により生成された前記拡張信号を前記入力信号に加算する加算部と
を備えたことを特徴とする音声帯域拡張装置。
(付記2)前記生成部は、
前記帯域選択部により選択された帯域の周波数に応じて変化する適用ゲインを設定し、設定した適用ゲインを前記帯域選択部により選択された帯域の信号に適用することで、前記拡張信号を生成することを特徴とする付記1に記載の音声帯域拡張装置。
(付記3)前記評価部は、
評価対象とする帯域幅を狭めたサブ帯域ごとの雑音レベルまたは信号対雑音比を評価し、
前記帯域選択部は、
前記評価部による評価結果に基づいて、前記入力信号から雑音が少ないサブ帯域を選択し、
前記生成部は、
前記帯域選択部により選択されたサブ帯域の信号を用いて、前記拡張信号を生成することを特徴とする付記1または2に記載の音声帯域拡張装置。
(付記4)外部から入力された入力信号を記憶するメモリをさらに備え、
前記評価部は、前記入力信号に雑音が少ない帯域が存在しない場合に、前記メモリに記憶された過去の入力信号の帯域ごとに雑音レベルまたは信号対雑音比を評価し、
前記帯域選択部は、前記評価部による評価結果に基づいて、前記過去の入力信号から雑音が少ない帯域を選択することを特徴とする付記1〜3のいずれか1つに記載の音声帯域拡張装置。
(付記5)コンピュータによって実行される音声帯域拡張方法であって、
外部から入力された入力信号の帯域ごとに雑音レベルまたは信号対雑音比を評価し、
前記雑音レベルを評価する処理による評価結果に基づいて、前記入力信号から雑音が少ない帯域を選択し、
前記帯域を選択する処理により選択された帯域の信号を用いて、入力信号の帯域を拡張するための拡張信号を生成し、
前記拡張信号を生成する処理により生成された前記拡張信号を前記入力信号に加算する
ことを特徴とする音声帯域拡張方法。
(付記6)前記拡張信号を生成する処理は、前記帯域を選択する処理により選択された帯域の周波数に応じて変化する適用ゲインを設定し、設定した適用ゲインを前記帯域を選択する処理により選択された帯域の信号に適用することで、前記拡張信号を生成することを特徴とする付記5に記載の音声帯域拡張方法。
(付記7)前記雑音レベルを評価する処理は、
評価対象とする帯域幅を狭めたサブ帯域ごとの雑音レベルまたは信号対雑音比を評価し、
前記帯域を選択する処理は、
前記雑音レベルを評価する処理による評価結果に基づいて、前記入力信号から雑音が少ないサブ帯域を選択し、
前記拡張信号を生成する処理は、
前記帯域を選択する処理により選択されたサブ帯域の信号を用いて、前記拡張信号を生成することを特徴とする付記5または6に記載の音声帯域拡張方法。
(付記8)前記雑音レベルを評価する処理は、前記入力信号に雑音が少ない帯域が存在しない場合に、メモリに記憶された過去の入力信号の帯域ごとに雑音レベルまたは信号対雑音比を評価し、
前記帯域を選択する処理は、前記雑音レベルを評価する処理による評価結果に基づいて、前記過去の入力信号から雑音が少ない帯域を選択することを特徴とする付記5〜7のいずれか1つに記載の音声帯域拡張方法。
100,200,300,400 音声帯域拡張装置
110 FFT部
120,320,420 SNR算出処理部
121 音声判定部
122 音声レベル更新部
123 雑音レベル更新部
124 SNR算出部
130,230,330,430 帯域選択部
140,340 拡張信号生成部
150 加算部
160 IFFT部
470 メモリ

Claims (5)

  1. 外部から入力された入力信号の帯域ごとに雑音レベルまたは信号対雑音比を評価する評価部と、
    前記評価部による評価結果に基づいて、前記入力信号から雑音が少ない帯域を選択する帯域選択部と、
    前記帯域選択部により選択された帯域の信号を用いて、入力信号の帯域を拡張する拡張信号を生成する生成部と、
    前記生成部により生成された前記拡張信号を前記入力信号に加算する加算部と
    を備えたことを特徴とする音声帯域拡張装置。
  2. 前記生成部は、前記帯域選択部により選択された帯域の周波数に応じて変化する適用ゲインを設定し、設定した適用ゲインを前記帯域選択部により選択された帯域の信号に適用することで、前記拡張信号を生成することを特徴とする請求項1に記載の音声帯域拡張装置。
  3. 前記評価部は、評価対象とする帯域幅を狭めたサブ帯域ごとの雑音レベルまたは信号対雑音比を評価し、
    前記帯域選択部は、前記評価部による評価結果に基づいて、前記入力信号から雑音が少ないサブ帯域を選択し、
    前記生成部は、前記帯域選択部により選択されたサブ帯域の信号を用いて、前記拡張信号を生成することを特徴とする請求項1または2に記載の音声帯域拡張装置。
  4. 外部から入力された入力信号を記憶するメモリをさらに備え、
    前記評価部は、前記入力信号に雑音が少ない帯域が存在しない場合に、前記メモリに記憶された過去の入力信号の帯域ごとに雑音レベルまたは信号対雑音比を評価し、
    前記帯域選択部は、前記評価部による評価結果に基づいて、前記過去の入力信号から雑音が少ない帯域を選択することを特徴とする請求項1〜3のいずれか1つに記載の音声帯域拡張装置。
  5. コンピュータによって実行される音声帯域拡張方法であって、
    外部から入力された入力信号の帯域ごとに雑音レベルまたは信号対雑音比を評価し、
    前記雑音レベルを評価する処理による評価結果に基づいて、前記入力信号から雑音が少ない帯域を選択し、
    前記帯域を選択する処理により選択された帯域の信号を用いて、入力信号の帯域を拡張するための拡張信号を生成し、
    前記拡張信号を生成する処理により生成された前記拡張信号を前記入力信号に加算する
    ことを特徴とする音声帯域拡張方法。
JP2010216035A 2010-09-27 2010-09-27 音声帯域拡張装置および音声帯域拡張方法 Expired - Fee Related JP5552988B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2010216035A JP5552988B2 (ja) 2010-09-27 2010-09-27 音声帯域拡張装置および音声帯域拡張方法
US13/158,812 US20120078632A1 (en) 2010-09-27 2011-06-13 Voice-band extending apparatus and voice-band extending method
EP11171463.0A EP2434486A3 (en) 2010-09-27 2011-06-27 Voice-band extending apparatus and voice-band extending method
CN201110179765.2A CN102419980B (zh) 2010-09-27 2011-06-29 语音频带扩展装置和语音频带扩展方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010216035A JP5552988B2 (ja) 2010-09-27 2010-09-27 音声帯域拡張装置および音声帯域拡張方法

Publications (2)

Publication Number Publication Date
JP2012073295A true JP2012073295A (ja) 2012-04-12
JP5552988B2 JP5552988B2 (ja) 2014-07-16

Family

ID=44508740

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010216035A Expired - Fee Related JP5552988B2 (ja) 2010-09-27 2010-09-27 音声帯域拡張装置および音声帯域拡張方法

Country Status (4)

Country Link
US (1) US20120078632A1 (ja)
EP (1) EP2434486A3 (ja)
JP (1) JP5552988B2 (ja)
CN (1) CN102419980B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015215528A (ja) * 2014-05-13 2015-12-03 日本電信電話株式会社 音声強調装置、音声強調方法及びプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007011341A (ja) * 2005-06-28 2007-01-18 Harman Becker Automotive Systems-Wavemakers Inc 高調波信号の周波数拡張
JP2008176328A (ja) * 2007-01-18 2008-07-31 Harman Becker Automotive Systems Gmbh 拡張帯域幅を有する音響信号を提供する方法および装置
JP2010066335A (ja) * 2008-09-09 2010-03-25 Nippon Telegr & Teleph Corp <Ntt> 信号広帯域化装置、信号広帯域化方法、そのプログラム、その記録媒体
JP2010526331A (ja) * 2007-04-30 2010-07-29 サムスン エレクトロニクス カンパニー リミテッド 高周波数領域の符号化及び復号化の方法並びに装置
WO2011080855A1 (ja) * 2009-12-28 2011-07-07 三菱電機株式会社 音声信号復元装置および音声信号復元方法

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5469494A (en) * 1994-03-02 1995-11-21 Telular International, Inc. Self-diagnostic system for cellular-transceiver systems
US5715365A (en) * 1994-04-04 1998-02-03 Digital Voice Systems, Inc. Estimation of excitation parameters
JPH08130494A (ja) 1994-10-28 1996-05-21 Fujitsu Ltd 音声信号処理システム
US5806025A (en) * 1996-08-07 1998-09-08 U S West, Inc. Method and system for adaptive filtering of speech signals using signal-to-noise ratio to choose subband filter bank
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
US6035048A (en) * 1997-06-18 2000-03-07 Lucent Technologies Inc. Method and apparatus for reducing noise in speech and audio signals
DE19743662A1 (de) * 1997-10-02 1999-04-08 Bosch Gmbh Robert Verfahren und Vorrichtung zur Erzeugung eines bitratenskalierbaren Audio-Datenstroms
TW376611B (en) * 1998-05-26 1999-12-11 Koninkl Philips Electronics Nv Transmission system with improved speech encoder
DE10026904A1 (de) * 2000-04-28 2002-01-03 Deutsche Telekom Ag Verfahren zur Berechnung des die Lautstärke mitbestimmenden Verstärkungsfaktors für ein codiert übertragenes Sprachsignal
US6615169B1 (en) * 2000-10-18 2003-09-02 Nokia Corporation High frequency enhancement layer coding in wideband speech codec
JP3849116B2 (ja) 2001-02-28 2006-11-22 富士通株式会社 音声検出装置及び音声検出プログラム
EP1527442B1 (en) * 2002-08-01 2006-04-05 Matsushita Electric Industrial Co., Ltd. Audio decoding apparatus and audio decoding method based on spectral band replication
US7333930B2 (en) * 2003-03-14 2008-02-19 Agere Systems Inc. Tonal analysis for perceptual audio coding using a compressed spectral representation
CN102280109B (zh) * 2004-05-19 2016-04-27 松下电器(美国)知识产权公司 编码装置、解码装置及它们的方法
WO2006048814A1 (en) * 2004-11-02 2006-05-11 Koninklijke Philips Electronics N.V. Encoding and decoding of audio signals using complex-valued filter banks
US8249861B2 (en) * 2005-04-20 2012-08-21 Qnx Software Systems Limited High frequency compression integration
EP1943643B1 (en) * 2005-11-04 2019-10-09 Nokia Technologies Oy Audio compression
JP5055759B2 (ja) * 2005-12-16 2012-10-24 沖電気工業株式会社 帯域変換信号生成器及び帯域拡張装置
US8612216B2 (en) * 2006-01-31 2013-12-17 Siemens Enterprise Communications Gmbh & Co. Kg Method and arrangements for audio signal encoding
GB2437559B (en) * 2006-04-26 2010-12-22 Zarlink Semiconductor Inc Low complexity noise reduction method
KR101291672B1 (ko) * 2007-03-07 2013-08-01 삼성전자주식회사 노이즈 신호 부호화 및 복호화 장치 및 방법
KR101411901B1 (ko) * 2007-06-12 2014-06-26 삼성전자주식회사 오디오 신호의 부호화/복호화 방법 및 장치
US8433582B2 (en) * 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
US8036891B2 (en) * 2008-06-26 2011-10-11 California State University, Fresno Methods of identification using voice sound analysis
WO2010028297A1 (en) * 2008-09-06 2010-03-11 GH Innovation, Inc. Selective bandwidth extension
GB0822537D0 (en) * 2008-12-10 2009-01-14 Skype Ltd Regeneration of wideband speech
US9947340B2 (en) * 2008-12-10 2018-04-17 Skype Regeneration of wideband speech
GB2466668A (en) * 2009-01-06 2010-07-07 Skype Ltd Speech filtering
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
US8280725B2 (en) * 2009-05-28 2012-10-02 Cambridge Silicon Radio Limited Pitch or periodicity estimation
US8515768B2 (en) * 2009-08-31 2013-08-20 Apple Inc. Enhanced audio decoder
US8321215B2 (en) * 2009-11-23 2012-11-27 Cambridge Silicon Radio Limited Method and apparatus for improving intelligibility of audible speech represented by a speech signal

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007011341A (ja) * 2005-06-28 2007-01-18 Harman Becker Automotive Systems-Wavemakers Inc 高調波信号の周波数拡張
JP2008176328A (ja) * 2007-01-18 2008-07-31 Harman Becker Automotive Systems Gmbh 拡張帯域幅を有する音響信号を提供する方法および装置
JP2010526331A (ja) * 2007-04-30 2010-07-29 サムスン エレクトロニクス カンパニー リミテッド 高周波数領域の符号化及び復号化の方法並びに装置
JP2010066335A (ja) * 2008-09-09 2010-03-25 Nippon Telegr & Teleph Corp <Ntt> 信号広帯域化装置、信号広帯域化方法、そのプログラム、その記録媒体
WO2011080855A1 (ja) * 2009-12-28 2011-07-07 三菱電機株式会社 音声信号復元装置および音声信号復元方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015215528A (ja) * 2014-05-13 2015-12-03 日本電信電話株式会社 音声強調装置、音声強調方法及びプログラム

Also Published As

Publication number Publication date
CN102419980B (zh) 2014-04-16
EP2434486A2 (en) 2012-03-28
CN102419980A (zh) 2012-04-18
EP2434486A3 (en) 2013-12-11
JP5552988B2 (ja) 2014-07-16
US20120078632A1 (en) 2012-03-29

Similar Documents

Publication Publication Date Title
JP6558748B2 (ja) 音声/オーディオ信号処理方法および装置
JP4945586B2 (ja) 信号帯域拡張装置
US8989403B2 (en) Noise suppression device
JP2018116297A (ja) 帯域幅拡張のための高周波数符号化/復号化方法及びその装置
US9520144B2 (en) Determining a harmonicity measure for voice processing
CN103325380A (zh) 用于信号增强的增益后处理
US9454956B2 (en) Sound processing device
KR101661868B1 (ko) 오디오 신호를 위한 비트 할당 방법 및 장치
JP2015050685A (ja) オーディオ信号処理装置および方法、並びにプログラム
JP6073456B2 (ja) 音声強調装置
US10319394B2 (en) Apparatus and method for improving speech intelligibility in background noise by amplification and compression
US10991378B2 (en) Method for reducing noise in an audio signal and a hearing device
EP3149730A2 (en) Enhancing intelligibility of speech content in an audio signal
US11437054B2 (en) Sample-accurate delay identification in a frequency domain
JP5552988B2 (ja) 音声帯域拡張装置および音声帯域拡張方法
US9697848B2 (en) Noise suppression device and method of noise suppression
KR20190049954A (ko) 신호 처리 방법 및 디바이스
JP5609157B2 (ja) 係数設定装置および雑音抑圧装置
US9443503B2 (en) Signal processing device, signal processing method and signal processing program
JP6677110B2 (ja) 音声信号処理装置及び音声信号処理プログラム
JP6559576B2 (ja) 雑音抑圧装置、雑音抑圧方法及びプログラム
JP6554853B2 (ja) 雑音抑圧装置及びプログラム
JP2001216000A (ja) 雑音抑制方法、音声信号処理方法、および信号処理回路
JP2009103974A (ja) マスキングレベル算出装置、符号化装置、マスキングレベル算出方法およびマスキングレベル算出プログラム
JP2017134153A (ja) 音声信号処理装置、方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130702

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140320

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140430

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140513

R150 Certificate of patent or registration of utility model

Ref document number: 5552988

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees