JP5595605B2 - 音声信号復元装置および音声信号復元方法 - Google Patents

音声信号復元装置および音声信号復元方法 Download PDF

Info

Publication number
JP5595605B2
JP5595605B2 JP2013551031A JP2013551031A JP5595605B2 JP 5595605 B2 JP5595605 B2 JP 5595605B2 JP 2013551031 A JP2013551031 A JP 2013551031A JP 2013551031 A JP2013551031 A JP 2013551031A JP 5595605 B2 JP5595605 B2 JP 5595605B2
Authority
JP
Japan
Prior art keywords
audio signal
frequency band
signal
unit
band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013551031A
Other languages
English (en)
Other versions
JPWO2013098885A1 (ja
Inventor
耕佑 細谷
訓 古田
正 山浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of JP5595605B2 publication Critical patent/JP5595605B2/ja
Publication of JPWO2013098885A1 publication Critical patent/JPWO2013098885A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Noise Elimination (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Description

この発明は、電話回線等の伝送路を介すること等により、周波数帯域が狭帯域に制限された音声信号から広帯域の音声信号へ拡張したり、雑音抑制処理および音声圧縮処理等により劣化および欠損した帯域の音声信号を復元したりする音声信号復元装置および音声信号復元方法に関するものである。
アナログ電話では、電話回線を通じて送信される音声の周波数帯域が、例えば300〜3400Hzと狭く帯域制限されている。このため、従来の電話回線の音質はあまり良好とは言えない。また、携帯電話等のデジタル音声通信では、ビットレートの制限によりアナログ回線と同様に帯域幅が制限されるため、この場合にも音質が良いとは言えない。
上記の課題に対して、受信側で狭帯域音声信号から擬似的に広帯域音声信号を生成または復元する音声信号復元技術がある。しかし、この音声信号復元技術は、元々オーディオまたは固定電話に適用する技術として発達してきており、復元対象となる狭帯域音声信号に雑音が混入しない、または少量しか雑音が混入しない環境を前提としたものが多い。
一方、復元対象となる狭帯域音声信号に雑音が混入した場合の、擬似的な広帯域音声信号の復元技術として、例えば特許文献1の音声帯域拡張装置が提案されている。
この特許文献1では、音声信号復元の前処理として、狭帯域音声信号をノイズ除去信号(音声成分)と抽出ノイズ信号(雑音成分)とに分離する成分分離部を導入している。この成分分離部は、ノイズ除去部、差分処理部、および周期成分除去部によって構成されており、ノイズ除去部により抽出した音声成分と、差分処理部および周期成分除去部により抽出した雑音成分とに分離する。そして、成分分離部の後段にて、それぞれの成分に対して音声信号復元を行うことにより、入力となる狭帯域音声信号に雑音が混入しても、不快な雑音が低減し、出力される広帯域の音声復元信号の明瞭度が向上している。
特開2011−75728号公報
上記の従来法には、以下に述べる課題がある。
上記特許文献1にて開示されている音声信号復元技術は、入力となる狭帯域音声信号に低SN比(Signal to Noise ratio)で雑音が混入した場合、ノイズ除去部の雑音推定がうまく動作せず、雑音量が過剰に推定される。そして、過剰に推定された雑音量に応じて雑音抑圧を行うので、狭帯域音声信号の雑音成分だけでなく、音声成分も抑圧してしまい、分離された音声成分の調波構造が崩れてしまうという課題がある。
さらに、調波構造の崩れた狭帯域音声信号を用いて、拡張帯域の微細構造を含む音源信号の生成を行うと、かえって明瞭度の低い音声になってしまうという課題もある。なぜなら、狭帯域音声信号の調波構造の情報を使って、拡張帯域の微細構造を含む音源信号を生成するので、調波構造の崩れの影響を受けやすいからである。
本発明は、上記の課題を解決すべくなされたもので、入力となる狭帯域音声信号に低SN比で雑音が混入した場合であっても、狭帯域音声信号の調波構造の崩れを防止して、明瞭度の高い音声復元信号を生成することが可能な音声信号復元装置および音声信号復元方法を提供することを目的とする。
この発明の音声信号復元装置は、第1の周波数帯域の音声信号に基づいて、当該第1の周波数帯域を含む第2の周波数帯域の音源信号を生成する音源生成部と、第1の周波数帯域の音声信号に含まれる雑音成分を抑圧する雑音抑圧部と、雑音抑圧部により雑音抑圧された第1の周波数帯域の音声信号に基づいて、第2の周波数帯域のスペクトル包絡を推定するスペクトル包絡推定部と、音源生成部の生成した第2の周波数帯域の音源信号、およびスペクトル包絡推定部の推定した第2の周波数帯域のスペクトル包絡を合成して、第2の周波数帯域の音声信号を生成する信号合成部とを備えるものである。
この発明の音声信号復元方法は、第1の周波数帯域の音声信号に基づいて、当該第1の周波数帯域を含む第2の周波数帯域の音源信号を生成する音源生成ステップと、第1の周波数帯域の音声信号に含まれる雑音成分を抑圧する雑音抑圧ステップと、雑音抑圧ステップで雑音抑圧した第1の周波数帯域の音声信号に基づいて、第2の周波数帯域のスペクトル包絡を推定するスペクトル包絡推定ステップと、音源生成ステップで生成した第2の周波数帯域の音源信号、およびスペクトル包絡推定ステップで推定した第2の周波数帯域のスペクトル包絡を合成して、第2の周波数帯域の音声信号を生成する信号合成ステップとを備えるものである。
この発明によれば、雑音抑圧処理を行っていない第1の周波数帯域の音声信号から音源信号を生成するようにしたので、この音声信号の調波構造の崩れを防止できる。そのため、低SN比で雑音が混入した場合であっても、音声信号が本来持つ調波構造の情報を使って音源信号を生成することができ、結果として、明瞭度の高い音声復元信号を生成することができる。
この発明の実施の形態1に係る音声信号復元装置の構成を示すブロック図である。 実施の形態1に係る音声信号復元装置が行う帯域拡張処理のイメージ図である。 この発明の実施の形態2に係る音声信号復元装置の構成を示すブロック図である。 この発明の実施の形態3に係る音声信号復元装置の構成を示すブロック図である。 この発明の実施の形態4に係る音声信号復元装置の構成を示すブロック図である。 この発明の実施の形態5に係る音声信号復元装置が行う音声復元処理のイメージ図である。 この発明の実施の形態6に係る音声信号復元装置を用いたハンズフリー音声通話システムの構成を示すブロック図である。
以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
図1は、本実施の形態1に係る音声信号復元装置100の構成を示すブロック図である。
この音声信号復元装置100は、広帯域の音声信号(以下、広帯域音声信号)が帯域制限された狭帯域の音声信号(以下、狭帯域音声信号)を入力に用いて、この制限された帯域(以下、拡張帯域)の信号を生成して狭帯域音声信号と合成し、広帯域の音声復元信号を生成する装置である。
図1において、音源生成部101は狭帯域音声信号を入力とし、拡張帯域の微細構造を含む音源信号を生成し、信号合成部104へ出力する。雑音抑圧部102は、狭帯域音声信号を入力とし、雑音抑圧を行って、雑音抑圧された狭帯域音声信号をスペクトル包絡推定部103へ出力する。スペクトル包絡推定部103は、雑音抑圧された狭帯域音声信号を入力とし、拡張帯域のスペクトル包絡を推定し、信号合成部104へ出力する。信号合成部104は、音源信号とスペクトル包絡を入力とし、拡張帯域を含む擬似音声信号を生成し、帯域通過フィルタ部105へ出力する。帯域通過フィルタ部(第1の帯域通過フィルタ部)105は、擬似音声信号を入力とし、狭帯域音声信号の帯域以外の周波数成分を抽出して信号加算部106へ出力する。信号加算部106は、狭帯域音声信号と帯域通過フィルタ部105で帯域制限された擬似音声信号を入力とし、この2つの信号を加算することにより広帯域の音声復元信号を生成し、装置外へ出力する。
本実施の形態1では、入力となる狭帯域音声信号の調波構造を崩すことを防ぐために、音源生成部101の前段に雑音抑圧部を導入しない。こうすることによって、音源生成部101において、狭帯域音声信号に雑音が混入した場合でも本来の音声が持つ調波構造から拡張帯域の微細構造を含む音源信号を生成することができるようになる。そのため、入力となる狭帯域音声信号に低SN比で雑音が混入する場合でも明瞭度の高い広帯域の音声復元信号を生成できるようになる。
以下、音声信号復元装置100の動作を説明する。
先ず、マイクロホン(不図示)等を通じて取り込まれた音声および音楽等が、A/D(アナログ/デジタル)変換された後、所定のサンプリング周波数(例えば、8000Hz)でサンプリングされると共にフレーム単位(例えば、10ms)に分割され、更に帯域制限された狭帯域音声信号(例えば、300〜3400Hz)として、本実施の形態1の音声信号復元装置100へ入力される。
また、この説明では、拡張帯域を50〜300Hzおよび3400〜7000Hz、最終的に得る広帯域の音声復元信号の周波数帯域を50〜7000Hzとする。
図2は、本実施の形態1に係る音声信号復元装置100が行う帯域拡張処理のイメージ図であり、図2(a)は入力となる狭帯域音声信号、図2(b)は出力となる広帯域の音声復元信号を示す。音声信号復元装置100は、帯域Iに制限された狭帯域音声信号に対し、本来無いはずの低域IIおよび高域II’を推定付与して、帯域II,I,II’に拡張した広帯域の音声復元信号を生成する。
なお、帯域Iが第1の周波数帯域に相当し、帯域II,I,II’が第2の周波数帯域に相当する。
音源生成部101は、狭帯域音声信号に対し非線形処理を行うことにより、拡張帯域II,II’の微細構造を含む音源信号を生成する。拡張帯域II,II’の調波構造を生成する非線形処理としては、例えば、二乗処理、全波整流、半波整流を用いてもよいし、これら以外の処理を行ってもよい。
雑音抑圧部102は、狭帯域音声信号に対し雑音抑圧を行い、雑音抑圧された狭帯域音声信号をスペクトル包絡推定部103へ出力する。
なお、雑音抑圧部102で用いる雑音抑圧処理のアルゴリズムは一般的なものでよく、例えば、スペクトル・サブトラクション(Spectral Subtraction)法(S.F.Boll,“Suppression of acoustic noise in speech using spectral subtraction”,IEEE Trans.on Acoustics,Speech,and Signal Processing,vol.ASSP−27,No.2,pp.113−120,1979)、ウィナー・フィルタ(Wiener Filter)法(J.S.Lim,A.V.Oppenheim,“Enhancement and bandwidth compression of noisy speech”,Proc.IEEE,vol.67,No.12,pp.1586−1604,1979)、および最尤推定法(R.J.McAulay,M.L.Malpass,“Speech enhancement using a soft−decision noise suppression filter”,IEEE Trans.on Acoustics,Speech,and Signal Processing,vol.ASSP−28,No.2,pp.137−145,1980)等が適用できる。
スペクトル包絡推定部103は、後述の通り、雑音抑圧された狭帯域音声信号の振幅スペクトル値の情報のみを用いて拡張帯域II,II’の振幅スペクトル値を推定している。このような振幅スペクトル値の情報を用いてスペクトル包絡を推定する手法では、狭帯域音声信号に雑音成分が残っていると、推定する拡張帯域の振幅スペクトル値が過剰に推定され、最終的に広帯域の音声復元信号の明瞭度が低下する。そこで、スペクトル包絡推定部103の前処理として、雑音抑圧部102で雑音抑圧を行う。
また、このように雑音抑圧を行っても、先ほど述べた通り、スペクトル包絡推定部103は振幅スペクトル値の情報のみを用い、調波構造の情報は用いないため、音源生成部101に比べ、狭帯域音声信号の音声成分の、雑音抑圧による調波構造の崩れの影響を受け難い。
スペクトル包絡推定部103は、雑音抑圧部102によって雑音抑圧された狭帯域音声信号の振幅スペクトルの平均値(以下、平均振幅スペクトル値)を算出し、この平均振幅スペクトル値から、予め用意した学習モデルを用いて拡張帯域II,II’のスペクトル包絡を推定し、信号合成部104へ出力する。
ここでは、例として狭帯域音声信号の平均振幅スペクトル値から拡張帯域の平均振幅スペクトル値を推定する方法を述べるが、調波構造の情報を用いずにスペクトル包絡を推定することができれば、これ以外の方法であってもよい。
また、スペクトル包絡推定部103で推定に用いる学習モデルは、一般的なアルゴリズムで学習したものでよく、例えば線形回帰予測、ニューラルネットワーク(Neural Network)等を用いてもよいし、これら以外でもよい。
また、こういった平均振幅スペクトル値のみを使った大まかな推定しかしないことにより、入力となる狭帯域音声信号に低SN比で雑音が混入して、拡張帯域の平均振幅スペクトル値に多少の推定誤差が生じても、広帯域の音声復元信号の音質が劣化しない、雑音に対して頑健なスペクトル包絡推定となる。
なお、スペクトル包絡推定部103は、入力となる狭帯域音声信号の平均振幅スペクトル値、推定する拡張帯域の平均振幅スペクトル値を、いくつかのサブバンドに分けて求めてもよい。こうすることにより、より高精度に拡張帯域のスペクトル包絡を推定できる効果がある。
この際、スペクトル包絡推定部103は、サブバンド毎の雑音量推定を行い、推定雑音量が少ないサブバンドのみを用いて拡張帯域の平均振幅スペクトル値を求めてもよい。こうすることにより、入力となる狭帯域音声信号に雑音が混入する影響に起因して拡張帯域の平均振幅スペクトル値が過剰に推定されることを、抑圧する効果がある。
また、推定する拡張帯域の平均振幅スペクトル値に所定の上限値を設けてもよい。こうすることにより、入力となる狭帯域音声信号に雑音が混入し、拡張帯域の平均振幅スペクトル値が理想的な広帯域音声信号よりも過剰に推定されることを防ぐ効果がある。ここで言う「理想的な広帯域音声信号」とは帯域制限される前の音声信号を指す。
この上限値は、固定値でもよいし、入力となる狭帯域音声信号の平均振幅スペクトル値に応じてフレーム毎に動的に変更してもよい。
また、音韻によってスペクトルの様態は異なるため、音韻特徴に応じてこの上限値を切り替えてもよい。例えば、無声摩擦音部のスペクトルの振幅スペクトル値は高域になるに従い大きくなることが知られているので、無声摩擦音部では上限値を大きくする。こうすることにより、より明瞭度の高い広帯域の音声復元信号を得られる効果が期待できる。
なお、本実施の形態1では、スペクトル包絡推定部103が推定に用いる尺度として、振幅スペクトル値を例にとって説明したが、これに限定されるものではなく、パワースペクトル等を尺度に用いてもよい。
信号合成部104は、音源生成部101によって生成された拡張帯域II,II’の微細構造を含む音源信号と、スペクトル包絡推定部103によって推定された拡張帯域II,II’のスペクトル包絡とを入力とし、この2つを合成することによって帯域II,I,II’の擬似音声信号を生成する。
帯域通過フィルタ部105は、信号合成部104によって生成された擬似音声信号を入力とし、この擬似音声信号から狭帯域音声信号の帯域I以外の周波数成分のみを抽出し、帯域制限された擬似音声信号(帯域II,II’)として信号加算部106へ出力する。本実施の形態1では、300Hz以下の低域成分と、3400Hz以上の高域成分を抽出することとなる。
なお、帯域通過フィルタ部105が第1の帯域通過フィルタ部に相当し、帯域II,II’が第3の周波数帯域に相当する。
この帯域通過フィルタ部105は、低域成分および高域成分の抽出に、FIR(Finite Impulse Responce)フィルタ、IIR(Infinite Impulse Response)フィルタ等を用いればよい。
信号加算部106は、狭帯域音声信号(帯域I)と、帯域通過フィルタ部105によって帯域制限された擬似音声信号(帯域II,II’)とを入力とし、この2つの信号を加算することで、帯域II,I,II’の広帯域の音声復元信号を生成する。
以上より、実施の形態1によれば、音声信号復元装置100は、帯域Iに制限された狭帯域音声信号に基づいて帯域II,I,II’の音源信号を生成する音源生成部101と、狭帯域音声信号に含まれる雑音成分を抑圧する雑音抑圧部102と、雑音抑圧部102により雑音抑圧された狭帯域音声信号に基づいて帯域II,II’のスペクトル包絡を推定するスペクトル包絡推定部103と、音源生成部101の生成した帯域II,I,II’の音源信号、およびスペクトル包絡推定部103の推定した帯域II,II’のスペクトル包絡を合成して帯域II,I,II’の擬似音声信号を生成する信号合成部104とを備える構成にしたので、雑音抑圧処理を行っていない狭帯域音声信号から音源信号を生成することになり、音源信号の調波構造の崩れを防止できる。このため、低SN比で雑音が混入した場合であっても、狭帯域音声信号が本来持つ調波構造の情報を使って音源信号を生成することができ、結果として、明瞭度の高い広帯域の音声復元信号を復元することができる。
また、実施の形態1によれば、音声信号復元装置100は、信号合成部104の合成した帯域II,I,II’の擬似音声信号から帯域II,II’の擬似音声信号を抽出する帯域通過フィルタ部105と、帯域通過フィルタ部105により抽出された帯域II,II’の擬似音声信号および狭帯域音声信号を加算する信号加算部106とを備える構成にした。このため、狭帯域音声信号が本来持つ調波構造に基づき生成された擬似音声信号を用いて帯域を拡張することができ、明瞭度の高い広帯域の音声復元信号を復元することができる。
また、実施の形態1によれば、スペクトル包絡推定部103は、スペクトル包絡として、雑音抑圧部102により雑音抑圧された狭帯域音声信号から求まる平均振幅スペクトル値に基づき、帯域II,II’の平均振幅スペクトル値を推定するように構成した。このため、スペクトル包絡を推定する際に調波構造の情報を用いず雑音抑圧の影響を受けにくくなり、明瞭度の高い広帯域の音声復元信号を生成することができる。
なお、上記実施の形態1では、低域IIと高域II’の両方の帯域復元を実施する構成を説明したが、必要に応じて低域IIのみあるいは高域II’のみの帯域復元を実施するように構成してもよい。
実施の形態2.
図3は、本実施の形態2に係る音声信号復元装置100の構成を示すブロック図であり、図1と同一または相当の部分については同一の符号を付し説明を省略する。
本実施の形態2に係る音声信号復元装置100は、上記実施の形態1の変形例であり、音源生成部101の前処理として弱雑音抑圧部107が導入されている。
先立って説明したように、従来の音声信号復元技術では、入力となる狭帯域音声信号に対して低SN比で雑音が混入した場合には、雑音推定がうまく動作せず、雑音量が過剰に推定されるという課題があった。この場合、過剰に推定された雑音量に応じて雑音抑圧を行うので、狭帯域音声信号の雑音成分だけでなく、音声成分も抑圧してしまい、狭帯域音声信号の音声成分の調波構造を崩してしまうことがある。入力となる狭帯域音声信号の音声成分の調波構造の崩れは、特に音源信号生成においては深刻である。
そこで、本実施の形態2では、弱雑音抑圧部107において、雑音抑圧により狭帯域音声信号の音声成分の調波構造が崩れてしまわないように、雑音抑圧量に所定の上限値を設けて、この上限値以下の雑音抑圧量に応じて雑音抑圧を行う。
なお、雑音抑圧量の上限値は、固定値でもよいし、入力となる狭帯域音声信号の振幅の最大値を検出して、この値に応じてフレーム毎に動的に変更してもよい。
また、弱雑音抑圧部107で用いるアルゴリズムは、雑音抑圧部102のアルゴリズムと同じであっても構わないし、違っても構わない。
以上より、実施の形態2によれば、音声信号復元装置100は、雑音抑圧量を所定の上限値内に制限しながら狭帯域音声信号に含まれる雑音成分を抑圧する弱雑音抑圧部107を備え、音源生成部101は、弱雑音抑圧部107により雑音抑圧された狭帯域音声信号に基づいて帯域II,I,II’の音源信号を生成するように構成した。このため、振幅スペクトル値推定の前処理として調波構造の崩れの影響を抑えつつ雑音抑圧を行うことができ、入力となる狭帯域音声信号に低SN比で雑音が混入する場合であっても、明瞭度の高い広帯域の音声復元信号を生成する効果がある。
実施の形態3.
図4は、本実施の形態3に係る音声信号復元装置100の構成を示すブロック図であり、図1と同一または相当の部分については同一の符号を付し説明を省略する。
本実施の形態3に係る音声信号復元装置100は、上記実施の形態1の変形例であり、信号加算部106aへの入力を、狭帯域音声信号に代えて、雑音抑圧部102によって雑音抑圧された狭帯域音声信号に変更している。
この信号加算部106aは、雑音抑圧部102によって雑音抑圧された狭帯域音声信号(例えば、図2に示す帯域I)と、帯域通過フィルタ部105によって帯域制限された擬似音声信号(例えば、図2に示す帯域II,II’)とを入力とし、この2つの信号を加算することで広帯域の音声復元信号を生成する。
以上より、実施の形態3によれば、信号加算部106aは、帯域通過フィルタ部105により抽出された帯域II,II’の擬似音声信号、および雑音抑圧部102により雑音抑圧された狭帯域音声信号を加算するように構成した。このため、最終的な出力となる広帯域の音声復元信号の狭帯域音声信号部分の帯域Iが、雑音抑圧された信号に置き換わることになる。この結果、入力となる狭帯域音声信号に低SN比で雑音が混入する場合であっても、上記実施の形態1に比べてより明瞭度の高い広帯域の音声復元信号を生成する効果がある。
実施の形態4.
図5は、本実施の形態4に係る音声信号復元装置100の構成を示すブロック図であり、図3と同一または相当の部分については同一の符号を付し説明を省略する。
本実施の形態4に係る音声信号復元装置100は、上記実施の形態2の変形例であり、信号加算部106の後処理としてスペクトル整形部108が導入されている。
音声信号復元装置100により生成される広帯域の音声復元信号は、理想的な広帯域音声信号と比較すると、調波構造の極大値が大きくなっていたり、逆に極小値が小さくなっていたりする傾向がある。これは、スペクトル包絡推定に多少の推定誤差があるためである。そして、雑音混入により、拡張帯域のスペクトル包絡の推定精度が音声だけのときと比べ落ちるため、その傾向は、雑音が混入した狭帯域音声信号から拡張帯域を生成して広帯域の音声復元信号を生成した場合に顕著である。このような、理想的な広帯域音声信号との差異が、明瞭度を低下させる要因の一つになると考えられる。
そこで、本実施の形態4では、スペクトル整形部108を導入し、上記で述べた調波構造の崩れを整形して理想的な広帯域音声信号の調波構造に近づけることにより、広帯域の音声復元信号の音質を向上させる。
このスペクトル整形部108は、信号加算部106によって生成された広帯域の音声復元信号を入力とし、この広帯域の音声復元信号のスペクトル包絡を整形して出力する。
スペクトル整形の具体的な処理としては、ピーク強調処理またはディップ強調処理、フィルタの畳み込み処理等が挙げられるが、理想的な広帯域音声信号に近づけるような処理であるならば、これら以外の処理であってもよい。
例えばピーク強調処理では、スペクトル整形部108が広帯域の音声復元信号のうちの拡張帯域の振幅スペクトル値の平均値を求め、この平均値と拡張帯域の調波構造の極大値との差が所定の閾値を下回る場合に、その極大値における振幅スペクトル値を大きくする処理を行う。
なお、この閾値は、固定値でもよいし、入力となる狭帯域音声の平均振幅スペクトル値に応じて適応的に変更してもよい。また、振幅スペクトル値の強調度合いも、固定値でもよいし、入力となる狭帯域音声の平均振幅スペクトル値に応じて適応的に変更してもよい。
また例えば、ディップ強調処理では、スペクトル整形部108が広帯域の音声復元信号のうちの拡張帯域の振幅スペクトル値の平均値を求め、この平均値と拡張帯域の調波構造の極小値との差が所定の閾値を上回る場合に、その極小値における振幅スペクトル値を小さくする処理を行う。
なお、ピーク強調処理と同様に、閾値および強調度合いは、固定値でもよいし、入力となる狭帯域音声の平均振幅スペクトル値に応じて適応的に変更してもよい。
また例えば、フィルタの畳み込み処理では、スペクトル整形部108が狭帯域音声信号の基本周波数を抽出し、抽出した基本周波数に基づいて、その高調波を強調するようなフィルタを畳み込むという方法が考えられる。または、基本周波数を抽出せず、予め、人間の声の一般的な基本周波数の範囲(100〜200Hz)に従ってフィルタ係数を設定しておいてもよい。
以上より、実施の形態4によれば、音声信号復元装置100は、信号加算部106の生成した広帯域の音声復元信号のスペクトルを整形するスペクトル整形部108を備える構成にしたので、より明瞭度の高い広帯域の音声復元信号を生成する効果がある。
なお、上記実施の形態1〜4では、一例として、狭帯域音声信号が電話音声である場合について説明しており、300〜3400Hzに帯域制限された音声信号から、30〜7000Hzの広帯域の音声復元信号を生成しているが、狭帯域音声信号および広帯域の音声復元信号の周波数帯域はこれらの値に限定されるものではない。例えば、広帯域の音声復元信号を25〜14000Hz等、更に広い帯域で実施することも可能である。
実施の形態5.
上記実施の形態1〜4は、図2のイメージ図のように、本来無いはずの低域IIおよび高域II’を推定して、帯域Iに制限された狭帯域音声信号に付与することによって、帯域幅をII,I,II’に拡張した明瞭度の高い広帯域の音声復元信号を生成する構成であった。
それに対し、本実施の形態5では、入力となる狭帯域音声信号と出力となる音声復元信号の帯域幅は変わらないが、狭帯域音声信号の帯域のうちの失われた帯域の信号成分を復元する構成にする。
図6は、本実施の形態5に係る音声信号復元装置100が行う音声復元処理のイメージ図であり、図6(a)は入力となる狭帯域音声信号、図6(b)は出力となる音声復元信号を示す。入力となる狭帯域音声信号は、帯域I,II,I’のうちの帯域IIの音声信号が雑音抑圧処理および音声圧縮処理等により劣化または欠損している。音声信号復元装置100は、この劣化または欠損した帯域IIを推定して狭帯域音声信号に付与し、帯域I,II,I’に復元した音声復元信号を生成する。
なお、帯域I,II,I’が第1の周波数帯域および第2の周波数帯域に相当する。
本実施の形態5に係る音声信号復元装置100は、図1〜図5に示す上記実施の形態1〜4の音声信号復元装置100と同じ構成である。
ただし、狭帯域音声信号から劣化した帯域IIを除去する場合には、図1、図3、図5の音声信号復元装置において狭帯域音声信号の入力側と信号加算部106の間に、帯域II以外の帯域を通過させる帯域通過フィルタ部(第2の帯域通過フィルタ部に相当する)を導入する必要がある。また、図4の音声信号復元装置においては、雑音抑圧部102と信号加算部106aの間に帯域II以外の帯域を通過させる帯域通過フィルタ部(第2の帯域通過フィルタ部に相当する)を導入する必要がある。
なお、不図示の上記帯域通過フィルタ部により抽出される帯域I,I’が第4の周波数帯域に相当する。
以上より、実施の形態5によれば、音声信号復元装置100は、信号加算部106の合成した帯域I,II,I’の擬似音声信号から帯域IIの擬似音声信号を抽出する帯域通過フィルタ部105と、帯域I,II,I’の狭帯域音声信号から帯域I,I’の狭帯域音声信号を抽出する不図示の帯域通過フィルタ部とを備え、信号加算部106は、帯域通過フィルタ部105により抽出された帯域IIの擬似音声信号、および不図示の帯域通過フィルタ部により抽出された帯域I,I’の狭帯域音声信号を加算するように構成した。このため、雑音抑圧等によって失われた帯域IIの復元を行い、より明瞭度の高い音声復元信号を生成する効果が期待できる。
実施の形態6.
図7は、本実施の形態6に係る音声信号復元装置100を用いた、カーナビゲーション装置のハンズフリー音声通話システム200の構成を示すブロック図である。この音声信号復元装置100としては、上記実施の形態1〜5に係る音声信号復元装置100のいずれかを適用する。
外部通信部201は、車内に在るユーザの携帯電話とBluetooth(登録商標)等により通信を行い、携帯電話との間で音声信号(通話相手先の受話音声およびユーザの音声)の受け渡しを行う。音声信号復元装置100は、外部通信部201から出力される通話相手先の音声信号(即ち、狭帯域音声信号)を入力とし、上記実施の形態1〜5で述べた音声復元を行い、外部入出力部202へ出力する。外部入出力部202は、不図示のスピーカおよびマイクロホンを備えており、ユーザとのインタフェースの役割を果たす。即ち、音声信号復元装置100により音声復元された音声信号(即ち、広帯域音声信号)を再生したり、ユーザの発話を集音して音声信号として出力したりする。
エコーキャンセラ部203は、音声信号復元装置100により音声復元された広帯域音声信号と、外部入出力部202のスピーカで再生した広帯域音声信号をマイクロホンで集音した信号とを入力とし、スピーカからの出力音声をマイクロホンが拾うことによって生じるエコーを抑圧する。ノイズサプレッサ部204は、エコーキャンセラ部203の出力するユーザの音声信号を入力とし、この音声信号中に含まれる、車両の走行中等に生じた雑音を抑圧し、雑音抑圧した音声信号を外部通信部201へ出力する。
以上より、実施の形態6によれば、ハンズフリー音声通話システム200に音声信号復元装置100を導入することによって、通話相手が騒音環境下にいるような場合においても、明瞭度の高い受話音声を提供することができる。
上記実施の形態6では、音声信号復元装置100を、カーナビゲーション装置のハンズフリー音声通話システム200に適用した構成にしたが、これに限定されるものではなく、例えば、音声通信、音声蓄積、音声認識システムが導入された、カーナビゲーションまたは携帯電話等の音声通信システム、ハンズフリー通話システム、TV会議システム、監視システム等に適用可能であり、これらシステムの音質改善および音声認識率の向上を図る効果がある。
なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
以上のように、この発明に係る音声信号復元装置は、低SN比で雑音が混入する場合でも明瞭度の高い音声復元を可能にしたので、車両搭載のハンズフリー通話システム等に用いるのに適している。
100 音声信号復元装置、101 音源生成部、102 雑音抑圧部、103 スペクトル包絡推定部、104 信号合成部、105 帯域通過フィルタ部(第1の帯域通過フィルタ部)、106,106a 信号加算部、107 弱雑音抑圧部、108 スペクトル整形部、200 ハンズフリー音声通話システム、201 外部通信部、202 外部入出力部、203 エコーキャンセラ部、204 ノイズサプレッサ部。

Claims (8)

  1. 第1の周波数帯域の音声信号に基づいて、当該第1の周波数帯域を含む第2の周波数帯域の音源信号を生成する音源生成部と、
    上記第1の周波数帯域の音声信号に含まれる雑音成分を抑圧する雑音抑圧部と、
    上記雑音抑圧部により雑音抑圧された上記第1の周波数帯域の音声信号に基づいて、上記第2の周波数帯域のスペクトル包絡を推定するスペクトル包絡推定部と、
    上記音源生成部の生成した上記第2の周波数帯域の音源信号、および上記スペクトル包絡推定部の推定した上記第2の周波数帯域のスペクトル包絡を合成して、上記第2の周波数帯域の音声信号を生成する信号合成部とを備える音声信号復元装置。
  2. 雑音抑圧量を所定の上限値内に制限しながら、上記第1の周波数帯域の音声信号に含まれる雑音成分を抑圧する弱雑音抑圧部を備え、
    上記音源生成部は、上記弱雑音抑圧部により雑音抑圧された上記第1の周波数帯域の音声信号に基づいて、上記第2の周波数帯域の音源信号を生成することを特徴とする請求項1記載の音声信号復元装置。
  3. 上記スペクトル包絡推定部は、上記スペクトル包絡として、上記雑音抑圧部により雑音抑圧された上記第1の周波数帯域の音声信号から求まる振幅スペクトルの平均値に基づき、上記第2の周波数帯域の振幅スペクトルの平均値を推定することを特徴とする請求項1記載の音声信号復元装置。
  4. 上記信号合成部の合成した上記第2の周波数帯域の音声信号から、上記第2の周波数帯域内の任意の第3の周波数帯域の音声信号を抽出する第1の帯域通過フィルタ部と、
    上記第1の帯域通過フィルタ部により抽出された上記第3の周波数帯域の音声信号、および上記第1の周波数帯域の音声信号を加算する信号加算部とを備えることを特徴とする請求項1記載の音声信号復元装置。
  5. 上記第1の周波数帯域の音声信号から、上記第1の周波数帯域内であって上記第3の周波数帯域を含まない任意の第4の周波数帯域の音声信号を抽出する第2の帯域通過フィルタ部を備え、
    上記信号加算部は、上記第1の帯域通過フィルタ部により抽出された上記第3の周波数帯域の音声信号、および上記第2の帯域通過フィルタ部により抽出された上記第4の周波数帯域の音声信号を加算することを特徴とする請求項4記載の音声信号復元装置。
  6. 上記信号加算部は、上記第1の帯域通過フィルタ部により抽出された上記第3の周波数帯域の音声信号、および上記雑音抑圧部により雑音抑圧された上記第1の周波数帯域の音声信号を加算することを特徴とする請求項4記載の音声信号復元装置。
  7. 上記信号加算部の生成した音声信号のスペクトルを整形するスペクトル整形部を備えることを特徴とする請求項4記載の音声信号復元装置。
  8. 第1の周波数帯域の音声信号に基づいて、当該第1の周波数帯域を含む第2の周波数帯域の音源信号を生成する音源生成ステップと、
    上記第1の周波数帯域の音声信号に含まれる雑音成分を抑圧する雑音抑圧ステップと、
    上記雑音抑圧ステップで雑音抑圧した上記第1の周波数帯域の音声信号に基づいて、上記第2の周波数帯域のスペクトル包絡を推定するスペクトル包絡推定ステップと、
    上記音源生成ステップで生成した上記第2の周波数帯域の音源信号、および上記スペクトル包絡推定ステップで推定した上記第2の周波数帯域のスペクトル包絡を合成して、上記第2の周波数帯域の音声信号を生成する信号合成ステップとを備える音声信号復元方法。
JP2013551031A 2011-12-27 2011-12-27 音声信号復元装置および音声信号復元方法 Active JP5595605B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2011/007311 WO2013098885A1 (ja) 2011-12-27 2011-12-27 音声信号復元装置および音声信号復元方法

Publications (2)

Publication Number Publication Date
JP5595605B2 true JP5595605B2 (ja) 2014-09-24
JPWO2013098885A1 JPWO2013098885A1 (ja) 2015-04-30

Family

ID=48696459

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013551031A Active JP5595605B2 (ja) 2011-12-27 2011-12-27 音声信号復元装置および音声信号復元方法

Country Status (5)

Country Link
US (1) US9390718B2 (ja)
JP (1) JP5595605B2 (ja)
CN (1) CN103827967B (ja)
DE (1) DE112011106045B4 (ja)
WO (1) WO2013098885A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130282373A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
WO2014178122A1 (ja) * 2013-04-30 2014-11-06 楽天株式会社 音声通信システム、音声通信方法、音声通信用プログラム、音声送信端末、及び音声送信端末用プログラム
JP6282925B2 (ja) * 2014-05-13 2018-02-21 日本電信電話株式会社 音声強調装置、音声強調方法及びプログラム
US9536537B2 (en) * 2015-02-27 2017-01-03 Qualcomm Incorporated Systems and methods for speech restoration
CN106558298A (zh) * 2015-09-29 2017-04-05 广州酷狗计算机科技有限公司 一种音效模拟方法和装置及系统
CN111386568B (zh) 2017-10-27 2023-10-13 弗劳恩霍夫应用研究促进协会 使用神经网络处理器生成带宽增强的音频信号的装置、方法或计算机可读存储介质
US10950253B2 (en) 2018-02-09 2021-03-16 Board Of Regents, The University Of Texas System Vocal feedback device and method of use
US11017787B2 (en) * 2018-02-09 2021-05-25 Board Of Regents, The University Of Texas System Self-adjusting fundamental frequency accentuation subsystem for natural ear device

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4262826B2 (ja) * 1998-04-28 2009-05-13 古河スカイ株式会社 キャンボディ用アルミニウム合金ラミネート被覆材およびその製造方法
JP2000206995A (ja) 1999-01-11 2000-07-28 Sony Corp 受信装置及び方法、通信装置及び方法
CN1235192C (zh) * 2001-06-28 2006-01-04 皇家菲利浦电子有限公司 传输系统以及用于接收窄带音频信号的接收机和方法
US6895375B2 (en) 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
US7546237B2 (en) * 2005-12-23 2009-06-09 Qnx Software Systems (Wavemakers), Inc. Bandwidth extension of narrowband speech
US20080300866A1 (en) 2006-05-31 2008-12-04 Motorola, Inc. Method and system for creation and use of a wideband vocoder database for bandwidth extension of voice
KR101379263B1 (ko) 2007-01-12 2014-03-28 삼성전자주식회사 대역폭 확장 복호화 방법 및 장치
CN101483042B (zh) * 2008-03-20 2011-03-30 华为技术有限公司 一种噪声生成方法以及噪声生成装置
JP5203077B2 (ja) 2008-07-14 2013-06-05 株式会社エヌ・ティ・ティ・ドコモ 音声符号化装置及び方法、音声復号化装置及び方法、並びに、音声帯域拡張装置及び方法
US9947340B2 (en) * 2008-12-10 2018-04-17 Skype Regeneration of wideband speech
JP5493655B2 (ja) * 2009-09-29 2014-05-14 沖電気工業株式会社 音声帯域拡張装置および音声帯域拡張プログラム
WO2011080855A1 (ja) * 2009-12-28 2011-07-07 三菱電機株式会社 音声信号復元装置および音声信号復元方法
CN102870156B (zh) * 2010-04-12 2015-07-22 飞思卡尔半导体公司 音频通信设备、输出音频信号的方法和通信系统
US9245538B1 (en) * 2010-05-20 2016-01-26 Audience, Inc. Bandwidth enhancement of speech signals assisted by noise reduction

Also Published As

Publication number Publication date
US20140207443A1 (en) 2014-07-24
WO2013098885A1 (ja) 2013-07-04
DE112011106045T5 (de) 2014-10-09
CN103827967B (zh) 2016-08-17
CN103827967A (zh) 2014-05-28
JPWO2013098885A1 (ja) 2015-04-30
DE112011106045B4 (de) 2019-10-02
US9390718B2 (en) 2016-07-12

Similar Documents

Publication Publication Date Title
JP5595605B2 (ja) 音声信号復元装置および音声信号復元方法
JP5183828B2 (ja) 雑音抑圧装置
JP5535241B2 (ja) 音声信号復元装置および音声信号復元方法
US8010355B2 (en) Low complexity noise reduction method
JP5528538B2 (ja) 雑音抑圧装置
JP4863713B2 (ja) 雑音抑制装置、雑音抑制方法、及びコンピュータプログラム
JP5646077B2 (ja) 雑音抑圧装置
CN1356014A (zh) 利用频谱减除的双拾音器信号降噪系统和方法
WO2018163328A1 (ja) 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置
US9245538B1 (en) Bandwidth enhancement of speech signals assisted by noise reduction
JP2003280696A (ja) 音声強調装置及び音声強調方法
JP5840087B2 (ja) 音声信号復元装置および音声信号復元方法
JP2007251354A (ja) マイクロホン、音声生成方法
KR101850693B1 (ko) 인-이어 마이크로폰을 갖는 이어셋의 대역폭 확장 장치 및 방법
JP2009223210A (ja) 信号帯域拡張装置および信号帯域拡張方法
KR20110024969A (ko) 음성신호에서 통계적 모델을 이용한 잡음 제거 장치 및 방법
KR101824648B1 (ko) 음성 신호 처리 방법 및 장치
JP5466581B2 (ja) 反響消去方法、反響消去装置及び反響消去プログラム
JP2006201622A (ja) 帯域分割型雑音抑圧装置及び帯域分割型雑音抑圧方法
Rao et al. Speech enhancement using perceptual Wiener filter combined with unvoiced speech—A new Scheme
Shafi et al. Transform Based Speech Enhancement Using DCT Based MMSE Filter, & Its Comparison With DFT Filter
Krishnamoorthy et al. Processing noisy speech for enhancement
Xu et al. A novel wavelet packet speech enhancement algorithm based on time-frequency threshold
Wang et al. Time-Frequency Thresholding: A new algorithm in wavelet package speech enhancement
CN114664319A (zh) 频带扩展方法、装置、设备、介质及程序产品

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140708

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140805

R150 Certificate of patent or registration of utility model

Ref document number: 5595605

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250