JP2008076975A - 音信号補正方法、音信号補正装置及びコンピュータプログラム - Google Patents

音信号補正方法、音信号補正装置及びコンピュータプログラム Download PDF

Info

Publication number
JP2008076975A
JP2008076975A JP2006258965A JP2006258965A JP2008076975A JP 2008076975 A JP2008076975 A JP 2008076975A JP 2006258965 A JP2006258965 A JP 2006258965A JP 2006258965 A JP2006258965 A JP 2006258965A JP 2008076975 A JP2008076975 A JP 2008076975A
Authority
JP
Japan
Prior art keywords
sound signal
smoothing
noise
spectrum
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006258965A
Other languages
English (en)
Other versions
JP4753821B2 (ja
Inventor
Naoji Matsuo
直司 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2006258965A priority Critical patent/JP4753821B2/ja
Priority to DE602007001927T priority patent/DE602007001927D1/de
Priority to EP07100995A priority patent/EP1903560B1/en
Priority to US11/698,113 priority patent/US8249270B2/en
Priority to CN2007100083381A priority patent/CN101154384B/zh
Priority to KR1020070009990A priority patent/KR20080027709A/ko
Publication of JP2008076975A publication Critical patent/JP2008076975A/ja
Priority to KR1020080120753A priority patent/KR100930745B1/ko
Application granted granted Critical
Publication of JP4753821B2 publication Critical patent/JP4753821B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

【課題】定常雑音等の雑音が発生している環境下において取得した雑音及び音声を含む音信号に対し、雑音の認識精度を向上させることにより、音声認識率を向上させ、またウオッタリノイズ等の不自然な雑音を発生させることがない音信号補正方法、音信号補正装置及びコンピュータプログラムを提供する。
【解決手段】音信号補正装置1は、取得した音信号をFFT処理して位相スペクトル及び振幅スペクトルに変換し(ステップS4)、得られた音信号の振幅スペクトルを、雑音モデルと比較して、音信号の振幅スペクトルの補正に用いる補正係数を導出し(ステップS5)、導出した補正係数を用いて音信号の振幅スペクトルの波形を平滑化し(ステップS6)、位相スペクトル及び平滑化した振幅スペクトルを逆FFT処理することにより、振幅スペクトルが補正された音信号に変換する(ステップS7)。
【選択図】図2

Description

本発明は、取得した音に基づく音信号を、雑音の照合用信号パターンに係る雑音モデルに基づいて補正する音信号補正方法、該音信号補正方法を適用した音信号補正装置、及び該音信号補正装置を実現するコンピュータプログラムに関し、特に取得した音に対する音声認識率を向上させる音信号補正方法、音信号補正装置及びコンピュータプログラムに関する。
カーナビゲーション装置等の音声認識装置における音声認識率の向上、電話機の送話品質の向上等の音声に関する装置の品質向上を目的として、雑音環境において取得した音から雑音成分を抑制する雑音抑制技術が用いられている。
図8は、従来の雑音抑制技術を概念的に示す説明図である。従来の雑音抑制技術では、雑音、音声等の音を取得し、取得した音に基づくフレーム単位の音信号を入力信号in(n)としてFFT(高速フーリエ変換:Fast Fourier Transformation)にて位相スペクトルtan-1IN(f)及び振幅スペクトル|IN(f)|に変換する。そして音信号の振幅スペクトル|IN(f)|との類似度が高い雑音モデルに基づいて、定常雑音の振幅スペクトル|N(f)|を推測し、音信号の振幅スペクトル|IN(f)|から推測した定常雑音の振幅スペクトル|N(f)|を減算する。そして定常雑音の振幅スペクトル|N(f)|を減算した音信号の振幅スペクトル|IN(f)|と、位相スペクトルtan-1IN(f)とを逆FFTにて変換することでフレーム単位の出力信号out(n)を導出する。導出された出力信号は、雑音が抑制された音信号として、音声認識等の処理に用いられる。
図9は、従来の雑音抑制技術に係る振幅スペクトルを示す図である。図9(a)は、音信号の振幅スペクトル|IN(f)|に関する周波数及び振幅の値の関係を示し、図9(b)は、定常雑音の振幅スペクトル|N(f)|を減算した音信号の振幅スペクトル|IN(f)|に関する周波数及び振幅の値の関係を示している。図9(a)及び図9(b)を比較すると明らかな様に、図9(b)に示す波形は、入力信号の振幅スペクトル|IN(f)|から推測した定常雑音の振幅スペクトル|N(f)|が減算されており、これにより雑音が抑制されている。この様な雑音抑制技術は、スペクトルサブトラクションと呼ばれており、スペクトルサブトラクションを用いた雑音抑制技術は、例えば特許文献1に開示されている。
特開平7−193548号公報
しかしながら雑音には、時間変化する非定常成分が含まれているため、特許文献1に記載されている様なスペクトルサブトラクションを用いた雑音抑制技術では非定常成分が残留する。例えば図9に示した波形は、雑音のみからなる入力信号に係る波形であるが、定常雑音を抑制後、図9(b)に示す様な非定常性が強い雑音が残留している。この様に残留した雑音は、不自然な雑音であるため、音声認識用音響モデルに含まれる雑音モデルとの整合性が低く、雑音としての認識精度が低下するという問題がある。具体的には、残留した雑音を、「s」、「n」等のスペクトルパワーが比較的小さい音素と認識するという様な誤りに繋がる。従って雑音の抑制が音声認識率の向上に繋がらず、逆に音声認識率の低下を招くという問題を生じさせる。またウオッタリノイズ等の不自然な雑音を発生させるという問題がある。
本発明は斯かる事情に鑑みてなされたものであり、音信号を雑音モデルと比較し、比較した結果に基づいて音信号の波形を平滑化することにより、不自然な雑音の残留を防止して雑音としての認識精度を向上させ、音声認識率を向上させることが可能であり、しかもウオッタリノイズの発生を防止する音信号補正方法、該音信号補正方法を適用した音信号補正装置、及び該音信号補正装置を実現するコンピュータプログラムの提供を目的とする。
第1発明に係る音信号補正方法は、取得した音に基づく音信号を、雑音の照合用信号パターンに係る雑音モデルに基づいて補正する音信号補正方法であって、音信号を雑音モデルと比較し、比較した結果に基づいて音信号の波形を平滑化することを特徴とする。
第2発明に係る音信号補正装置は、取得した音に基づく音信号を、雑音の照合用信号パターンに係る雑音モデルに基づいて補正する音信号補正装置であって、音信号を雑音モデルと比較する手段と、比較した結果に基づいて音信号の波形を平滑化する手段とを備えることを特徴とする。
第3発明に係る音信号補正装置は、取得した音に基づく音信号のスペクトルを、雑音の照合用信号パターンのスペクトルに係る雑音モデルに基づいて補正する音信号補正装置であって、音信号のスペクトルを雑音モデルと比較して、音信号の補正に用いる補正係数を導出する導出手段と、導出した補正係数を用いて音信号の波形を平滑化する平滑化手段とを備えることを特徴とする。
第4発明に係る音信号補正装置は、第3発明において、前記導出手段は、音信号のスペクトルに係る強度と、雑音モデルに基づいて決定される閾値との差の程度に応じた補正係数を導出する様に構成してあることを特徴とする。
第5発明に係る音信号補正装置は、第3発明又は第4発明において、前記平滑化手段は、音信号のスペクトルの周波数軸方向の変化を平滑化する様に構成してあることを特徴とする。
第6発明に係る音信号補正装置は、第5発明において、前記平滑化手段は、下記式(A)に基づいて平滑化する様に構成してあることを特徴とする。
|IN(f)’|=α|IN(f−1)’|+(1−α)|IN(f)| …式(A)
但し、|IN(f)’|:周波数fに対する平滑化後のスペクトル
|IN(f)|:周波数fに対する平滑化前のスペクトル
|IN(f−1)’|:周波数fとの差が所定の周波数間隔である周波数f−1に対する平滑化後のスペクトル
α:0≦α≦1である補正係数
第7発明に係る音信号補正装置は、第3発明又は第4発明において、前記平滑化手段は、音信号のスペクトルの時間軸方向の変化を平滑化する様に構成してあることを特徴とする。
第8発明に係る音信号補正装置は、第7発明において、前記平滑化手段は、下記式(B)に基づいて平滑化する様に構成してあることを特徴とする。
|IN(f)’|t =α|IN(f)’|t-1 +(1−α)|IN(f)|t …式(B)
但し、|IN(f)’|t :時刻tにおける周波数fに対する平滑化後のスペクトル
|IN(f)|t :時刻tにおける周波数fに対する平滑化前のスペクトル
|IN(f)’|t-1 :時刻tより所定時間前の時刻t−1における周波数fに対する平滑化後のスペクトル
α:0≦α≦1である補正係数
第9発明に係る音信号補正装置は、第2発明乃至第8発明のいずれかにおいて、平滑化後の音信号に基づいて、音声認識処理を実行する手段を更に備えることを特徴とする。
第10発明に係るコンピュータプログラムは、コンピュータに、取得した音に基づく音信号を、雑音の照合用信号パターンに係る雑音モデルに基づいて補正する音信号補正装置であって、コンピュータに、音信号を雑音モデルと比較させる手順と、コンピュータに、比較した結果に基づいて音信号の波形を平滑化させる手順とを実行させることを特徴とする。
本発明では、音信号を雑音モデルと比較し、比較した結果に基づいて音信号の波形を平滑化することにより、非定常性が強い雑音の顕在化を抑制し、雑音モデルとの整合性が高い定常雑音の波形に補正することができるので、雑音としての認識精度を向上させることが可能であり、従って例えば音声認識装置に適用した場合には、音声認識率を向上させることが可能である。また電話通信に係る装置に用いた場合には、ウオッタリノイズ等の不自然な雑音の発生を抑制することが可能である。
しかも本発明では、雑音モデルとの比較結果に応じて補正係数を変更することにより、音声等の雑音とは異なる強度のスペクトルが含まれる場合には、平滑化の程度が低くなるので、音声に基づくピークを平滑化してしまうことを抑制し、音声認識率を向上させることが可能である。
本発明に係る音信号補正方法、音信号補正装置及びコンピュータプログラムは、取得した音に基づく音信号を、雑音の信号パターンに係る雑音モデルと比較し、比較した結果に基づいて音信号の波形の周波数軸方向の変化及び/又は時間軸方向の変化を平滑化する。
この構成により、本発明では、非定常性が強い雑音の顕在化を抑制し、雑音モデルとの整合性が高い定常雑音の波形に補正することができるので、雑音としての認識精度を向上させることが可能である等、優れた効果を奏する。従って例えば音声認識装置に適用した場合には、音声認識率を向上させることが可能であり、また電話通信に係る装置に用いた場合には、ウオッタリノイズ等の不自然な雑音の発生を抑制することが可能である等、優れた効果を奏する。
また本発明の音信号補正装置等は、音信号を雑音モデルと比較して、音信号のスペクトルに係る強度と、雑音モデルに基づいて決定される閾値との差の程度に応じて、音信号の補正に用いる補正係数を導出し、導出した補正係数を用いて音信号の波形を平滑化する。
この構成により、本発明では、音声等の雑音とは異なる強度のスペクトルが含まれる場合には、平滑化の程度が低くなるので、音声に基づくピークを平滑化してしまうことを抑制し、音声認識率を向上させることが可能である等、優れた効果を奏する。
以下、本発明をその実施の形態を示す図面に基づいて詳述する。図1は、本発明の音信号補正装置の構成を示すブロック図である。図1中1は、例えば車両に搭載されるナビゲーション装置等のコンピュータを用いた音信号補正装置であり、音信号補正装置1は、装置全体を制御するCPU(Central Processing Unit) 、DSP(Digital Signal Processor)等の制御手段10と、プログラム及びデータ等の各種情報を記録するハードディスク、ROM等の記録手段11と、一時的に発生するデータを記憶するRAM等の記憶手段12と、外部から音を取得するマイクロホン等の音取得手段13と、音を出力するスピーカ等の音出力手段14と、液晶モニタ等の表示手段15と、目的地までの経路指示等のナビゲーションに係る処理を実行するナビゲーション手段16とを備えている。
記録手段11には、本発明のコンピュータプログラム11aが記録されており、記録されているコンピュータプログラム11aに含まれる各種手順を記憶手段12に記憶して制御手段10の制御にて実行することにより、コンピュータは、本発明の音信号補正装置1として動作する。
また記録手段11の記録領域の一部は、音声認識に要する照合用信号パターンに係る音響モデル及び雑音モデルを記録している音声認識用音響モデルデータベース(音声認識用音響モデルDB)11b、音響モデルに対応する音素又は音節定義で表記された認識語彙及び文法を記録している認識辞書11c等の各種データベースとして用いられている。
記憶手段12の記憶領域の一部は、音取得手段13が受け付けたアナログ信号である音を所定の周期で標本化(サンプリング)してデジタル化した音信号を記憶する音信号バッファ12a、及び音信号を所定の時間長に区分したフレームを記憶するフレームバッファ12bとして用いられる。
ナビゲーション手段16は、GPS(Global Positioning System) 等の位置検出機構と、地図情報を記録するDVD(Digital Versatile Disk)、ハードディスク等の記録媒体とを有し、現在地からの目的地までの経路探索、経路指示等のナビゲーション処理を実行し、地図及び経路を表示手段15に表示し、音声による案内を音出力手段14から出力する。
なお図1に示した構成例はあくまでも一例であり、様々な形態に展開することが可能である。例えば音声認識に係る機能を一又は複数のVLSIチップとして構成し、ナビゲーション装置に組み込むことも可能であり、音声認識用の専用装置をナビゲーション装置に外付けすることも可能である。また制御手段10を音声認識及びナビゲーションの双方の処理で共用する様にしても、夫々専用の回路を設ける様にしても良く、更には音声認識に関する特定の演算、例えばFFT(高速フーリエ変換:Fast Fourier Transformation)等の処理を実行するコプロセッサを制御手段10に組み込んでも良い。また音信号バッファ12aを音取得手段13の付属回路とし、フレームバッファ12bを制御手段10が備えるメモリ上に構成する様にしても良い。さらに本発明の音信号補正装置1は、ナビゲーション装置等の車載装置に限らず、送話時に雑音を抑制する電話通信の送話装置、更には中継装置、受話装置等の様々な用途の装置に用いることが可能である。
次に本発明の音信号補正装置1の処理について説明する。図2は、本発明の音信号補正装置1の処理を示すフローチャートである。音信号補正装置1は、コンピュータプログラム11aを実行する制御手段10の制御により、音取得手段13にて外部の音を取得し(ステップS1)、アナログ信号として受け付けた音を所定の周期で標本化してデジタル化した音信号を音信号バッファ12aに記憶する(ステップS2)。ステップS1にて取得する外部の音とは、人が発声する音声、定常雑音、非定常雑音等の様々な音が重畳した音である。人が発声する音声は、音響モデルとの照合により認識の対象となる音声である。定常雑音は、ロードノイズ、エンジン音等の雑音であり、雑音モデルとの照合により本発明が補正の対象としている音である。非定常雑音は、非定常的に発生する雑音であり、様々な除去方法が提案及び確立されている。
そして音信号補正装置1は、制御手段10の制御により、音信号バッファ12aに記憶した音信号から所定長のフレームを生成する(ステップS3)。ステップS3では、音信号を、例えば20ms〜30msの所定長の単位でフレーム化する。なお各フレームは、10ms〜15msずつオーバーラップしている。そして各フレームに対しては、ハミング窓、ハニング窓等の窓関数、高域強調フィルタによるフィルタリング等の音声認識の分野で一般的なフレーム処理が施される。この様にして生成された各フレームに対し、以降の処理が行われる。
音信号補正装置1は、制御手段10の制御により、フレーム単位の音信号をFFT処理して位相スペクトル及び振幅スペクトルに変換し(ステップS4)、得られた音信号の振幅スペクトルを、定常雑音の振幅スペクトルなどを基にした雑音モデルと比較して、音信号の振幅スペクトルの補正に用いる補正係数を導出する(ステップS5)。ステップS5において、比較の対象となる雑音モデルとしては、例えば定常雑音の振幅スペクトルの平均値が用いられる。またステップS5において、音信号の振幅スペクトルと雑音モデルとの比較は、音信号の振幅スペクトルのピーク値、ピークの積分値、ピークの二乗値等の強度を、雑音モデルに基づいて決定される閾値と比較することにより行われ、音信号の振幅スペクトルに係る強度と、閾値との差の程度に応じた補正係数が導出される。
そして音信号補正装置1は、導出した補正係数を用いて音信号の振幅スペクトルの波形を平滑化し(ステップS6)、位相スペクトル及び平滑化した振幅スペクトルを逆FFT処理することにより、振幅スペクトルが補正されたフレーム単位の音信号に変換する(ステップS7)。ステップS6では、振幅スペクトルの周波数軸方向の変化及び/又は時間軸方向の変化を平滑化する。
そして音信号補正装置1は、制御手段10の制御により、ステップS7で変換した音信号の出力の音声認識処理を行う(ステップS8)。また音声のスペクトルを用いた音声認識処理の場合、ステップS7を行わずに、ステップS6の結果で認識を行うことができる。
図2を用いて説明した本発明の音信号補正装置1のステップS4〜S7の処理を更に詳述する。図3は、本発明の音信号補正装置1の補正処理を概念的に示す説明図である。なお図3において、nはFFT処理した音信号のフレーム番号を示し、fは周波数を示す。本発明の音信号補正装置1では、取得した雑音、音声等の音を含むフレーム単位の音信号を入力信号in(n)としてFFT処理にて位相スペクトルtan-1IN(f)及び振幅スペクトル|IN(f)|に変換する。そして音信号の振幅スペクトル|IN(f)|との類似度が高い雑音モデルに基づいて、定常雑音の振幅スペクトル|N(f)|を推測し、推測した定常雑音の振幅スペクトル|N(f)|と音信号の振幅スペクトル|IN(f)|との比較結果に基づいて補正係数αを導出する。そして導出した補正係数αを用いて音信号の振幅スペクトル|IN(f)|の波形を平滑化する。そして補正係数αを用いて平滑化した振幅スペクトル|IN(f)|と、位相スペクトルtan-1IN(f)とを逆FFT(IFFT)処理することでフレーム単位の出力信号out(n)に変換する。
図4は、本発明の音信号補正装置1に係る音信号の振幅スペクトルを示す図である。図4(a)は、振幅スペクトル|IN(f)|に関する周波数及びスペクトルパワーの関係を示し、図4(b)は、波形を平滑化した振幅スペクトル|IN(f)|に関する周波数及び振幅の値の関係を示している。図4は、雑音のみからなる音信号に基づく波形を示しており、図4(a)に示す振幅スペクトルを図4(b)に示す様に平滑化することにより、振幅スペクトルの波形は、非定常性が強い雑音成分が抑制されて定常雑音としての典型となる波形、即ち雑音モデルとの類似性が高い波形に補正される。従って音声認識等の以降の処理において、定常雑音として除去することが容易であり、音声認識率を向上させることができる。
図5は、本発明の音信号補正装置1の平滑化処理を模式的に示す制御フロー図である。図5は、音信号の振幅スペクトル|IN(f)|の周波数軸方向の平滑化処理を示しており、下記の式1として示される巡回型フィルタと等価である。
|IN(f)’|n =α|IN(f−1)’|n +(1−α)|IN(f)|n …式1
但し、|IN(f)’|n :n番目のフレームに係る周波数fに対する平滑化後の振幅スペクトル
|IN(f)|n :n番目のフレームに係る周波数fに対する平滑化前の振幅スペクトル
|IN(f−1)’|n :n番目のフレームに係る周波数fとの差が所定の周波数である周波数f−1に対する平滑化後のスペクトル
α:0≦α≦1である補正係数
式1において、f−1は、周波数fとの差が所定の周波数間隔である周波数、具体的には離散値である周波数に変換した振幅スペクトルにおいて周波数fと相隣る周波数であり、周波数fと周波数f−1との差である所定の周波数間隔とは、離散値としての周波数の間隔を示している。図5及び式1として示す様に、本発明の音信号補正装置1は、音信号の振幅スペクトル|IN(f)|n に対して増幅器1aにより1−αを乗じたスペクトル(1−α)|IN(f)|n と、相隣る周波数f−1の平滑化後の振幅スペクトル|IN(f−1)|n をシフト器1bにより所定の周波数間隔分シフトさせて、増幅器1cによりαを乗じたスペクトルα|IN(f−1)’|n とを加算器1dにより加算する処理を繰り返すことで周波数軸方向の平滑化を行う。
図5及び式1から明らかな様に補正係数αが0に近付く程、平滑化後の振幅スペクトル|IN(f)’|n は、平滑化前の振幅スペクトル|IN(f)|n に近い波形となり、補正係数αが0の場合、平滑化後の振幅スペクトル|IN(f)’|n は、平滑化前の振幅スペクトル|IN(f)|n と一致する。また補正係数αが1に近付く程、平滑化後の振幅スペクトル|IN(f)’|n は平滑化され、補正係数αが1の場合、平滑化後の振幅スペクトル|IN(f)’|n は周波数軸方向の変化がない一定の値をとる。
図6は、本発明の音信号補正装置1の平滑化処理を模式的に示す制御フロー図である。図6は、音信号の振幅スペクトル|IN(f)|の周波数軸方向の平滑化処理を示しており、下記の式2として示される巡回型フィルタと等価である。
|IN(f)’|n =α|IN(f)’|n-1 +(1−α)|IN(f)|n …式2
但し、|IN(f)’|n :n番目のフレームに係る周波数fに対する平滑化後の振幅スペクトル
|IN(f)|n :n番目のフレームに係る周波数fに対する平滑化前の振幅スペクトル
|IN(f)’|n-1 :n−1番目のフレームに係る周波数fに対する平滑化後のスペクトル
α:0≦α≦1である補正係数
図6及び式2として示す様に、本発明の音信号補正装置1は、音信号のn番目のフレームに係る振幅スペクトル|IN(f)|n に対して増幅器1aにより1−αを乗じたスペクトル(1−α)|IN(f)|n と、直前のフレームであるn−1番目のフレームに係る平滑化後の振幅スペクトル|IN(f)|n-1 を遅延器1eによりフレーム間隔に相当する所定の時間分保持し、増幅器1cによりαを乗じたスペクトルα|IN(f)’|n-1 とを加算器1dにより加算する処理を繰り返すことで時間軸方向の平滑化を行う。
図6及び式2から明らかな様に補正係数αが0に近付く程、平滑化後の振幅スペクトル|IN(f)’|n は、平滑化前の振幅スペクトル|IN(f)|n に近い波形となり、補正係数αが0の場合、平滑化後の振幅スペクトル|IN(f)’|n は、平滑化前の振幅スペクトル|IN(f)|n と一致する。また補正係数αが1に近付く程、平滑化後の振幅スペクトル|IN(f)’|n は平滑化され、補正係数αが1の場合、平滑化後の振幅スペクトル|IN(f)’|n は時間軸方向の変化がない一定の値をとる。
なおフレームは、所定の時間間隔で区分した音信号に基づいて生成されているので、式2は、下記の式3として示される巡回型フィルタと同等である。
|IN(f)’|t =α|IN(f)’|t-1 +(1−α)|IN(f)|t …式3
但し、|IN(f)’|t :時刻tにおける周波数fに対する平滑化後の振幅スペクトル
|IN(f)|t :時刻tにおける周波数fに対する平滑化前の振幅スペクトル
|IN(f)’|t-1 :時刻tより所定時間前の時刻t−1における周波数fに対する平滑化後の振幅スペクトル
α:0≦α≦1である補正係数
図7は、本発明の音信号補正装置1の補正係数導出処理を示すグラフである。図7は、横軸に周波数fにおける振幅スペクトル|IN(f)|の値をとり、縦軸に補正係数αをとってその関係を示している。また周波数fにおける定常雑音|N(f)|の値に定数x[dB]を加算した値を、補正係数αの導出に係る閾値として用いている。図5に示す様に、補正係数αは、振幅スペクトル|IN(f)|と、雑音モデルに係る定常雑音に基づき決定される閾値|N(f)|+x[dB]との差の程度に応じて導出される。具体的には、振幅スペクトル|IN(f)|の値が、閾値|N(f)|+x[dB]以上である場合、補正係数αは0となり、振幅スペクトル|IN(f)|の値が、閾値|N(f)|+x[dB]未満である場合、振幅スペクトル|IN(f)|の値と、閾値|N(f)|+x[dB]との差が大きくなる程、即ち振幅スペクトル|IN(f)|の値が小さくなる程、その程度に応じて補正係数αは大きくなり、最大値である1に近付く。なお図7では、補正係数αの最大値がα0 となる様に設定した例を示している。
図7に示す様に定常雑音|N(f)|の値そのものを閾値とするのではなく、定常雑音|N(f)|の値に定数x[dB]を加算した値を閾値とすることにより、定常雑音のスペクトルの揺らぎに対応することが可能となる。
上述した様に、定常雑音とは異なる強度の音声等の振幅スペクトルが含まれる場合には、補正係数αを小さくして平滑化の程度が低くすることにより、音声に基づくピークを平滑化してしまうことを抑制することが可能であり、定常雑音に基づく振幅スペクトルの成分が多く含まれる場合には、補正係数αを大きくし平滑化の程度を高くすることにより、定常雑音の雑音モデルとの類似度を高くし、定常雑音の除去を容易にすることが可能である。
前記実施の形態では、音信号をFFT処理して位相スペクトル及び振幅スペクトルに変換し、得られた音信号の振幅スペクトルを平滑化する形態を示したが、本発明はこれに限らず、FFT処理の結果である複素数を実部と虚部とに分け、実部及び虚部を夫々平滑化する等、様々な処理に適用することが可能である。
また前記実施の形態では、音声認識装置に適用する形態を示したが、本発明はこれに限らず、電話通信の送話装置に適用し、送話する音信号に含まれる定常雑音を抑制する等の様々な形態に展開することが可能である。なお電話通信に適用する場合、送話装置では、平滑化のみを行い、受話装置側にて定常雑音の抑制処理を行う様にしても良い。
さらに前記実施の形態では、音声を認識する処理に適用する形態を示したが、音声認識のための雑音モデルの学習処理に適用する等、様々な形態に展開することが可能である。
本発明の音信号補正装置の構成を示すブロック図である。 本発明の音信号補正装置の処理を示すフローチャートである。 本発明の音信号補正装置の補正処理を概念的に示す説明図である。 本発明の音信号補正装置に係る音信号の振幅スペクトルを示す図である。 本発明の音信号補正装置の平滑化処理を模式的に示す制御フロー図である。 本発明の音信号補正装置の平滑化処理を模式的に示す制御フロー図である。 本発明の音信号補正装置の補正係数導出処理を示すグラフである。 従来の雑音抑制技術を概念的に示す説明図である。 従来の雑音抑制技術に係る振幅スペクトルを示す図である。
符号の説明
1 音信号補正装置
10 制御手段
11 記録手段
11a コンピュータプログラム
11b 音声認識用音響モデルデータベース
11c 認識辞書
12 記録手段
12a 音信号バッファ
12b フレームバッファ
13 音取得手段
14 音出力手段
15 表示手段
16 ナビゲーション手段

Claims (10)

  1. 取得した音に基づく音信号を、雑音の照合用信号パターンに係る雑音モデルに基づいて補正する音信号補正方法であって、
    音信号を雑音モデルと比較し、
    比較した結果に基づいて音信号の波形を平滑化する
    ことを特徴とする音信号補正方法。
  2. 取得した音に基づく音信号を、雑音の照合用信号パターンに係る雑音モデルに基づいて補正する音信号補正装置であって、
    音信号を雑音モデルと比較する手段と、
    比較した結果に基づいて音信号の波形を平滑化する手段と
    を備えることを特徴とする音信号補正装置。
  3. 取得した音に基づく音信号のスペクトルを、雑音の照合用信号パターンのスペクトルに係る雑音モデルに基づいて補正する音信号補正装置であって、
    音信号のスペクトルを雑音モデルと比較して、音信号の補正に用いる補正係数を導出する導出手段と、
    導出した補正係数を用いて音信号の波形を平滑化する平滑化手段と
    を備えることを特徴とする音信号補正装置。
  4. 前記導出手段は、音信号のスペクトルに係る強度と、雑音モデルに基づいて決定される閾値との差の程度に応じた補正係数を導出する様に構成してあることを特徴とする請求項3に記載の音信号補正装置。
  5. 前記平滑化手段は、音信号のスペクトルの周波数軸方向の変化を平滑化する様に構成してあることを特徴とする請求項3又は請求項4に記載の音信号補正装置。
  6. 前記平滑化手段は、下記式(A)に基づいて平滑化する様に構成してあることを特徴とする請求項5に記載の音信号補正装置。
    |IN(f)’|=α|IN(f−1)’|+(1−α)|IN(f)| …式(A)
    但し、|IN(f)’|:周波数fに対する平滑化後のスペクトル
    |IN(f)|:周波数fに対する平滑化前のスペクトル
    |IN(f−1)’|:周波数fとの差が所定の周波数間隔である周波数f−1に対する平滑化後のスペクトル
    α:0≦α≦1である補正係数
  7. 前記平滑化手段は、音信号のスペクトルの時間軸方向の変化を平滑化する様に構成してあることを特徴とする請求項3又は請求項4に記載の音信号補正装置。
  8. 前記平滑化手段は、下記式(B)に基づいて平滑化する様に構成してあることを特徴とする請求項7に記載の音信号補正装置。
    |IN(f)’|t =α|IN(f)’|t-1 +(1−α)|IN(f)|t …式(B)
    但し、|IN(f)’|t :時刻tにおける周波数fに対する平滑化後のスペクトル
    |IN(f)|t :時刻tにおける周波数fに対する平滑化前のスペクトル
    |IN(f)’|t-1 :時刻tより所定時間前の時刻t−1における周波数fに対する平滑化後のスペクトル
    α:0≦α≦1である補正係数
  9. 平滑化後の音信号に基づいて、音声認識処理を実行する手段を更に備えることを特徴とする請求項2乃至請求項8のいずれかに記載の音信号補正装置。
  10. コンピュータに、取得した音に基づく音信号を、雑音の照合用信号パターンに係る雑音モデルに基づいて補正する音信号補正装置であって、
    コンピュータに、音信号を雑音モデルと比較させる手順と、
    コンピュータに、比較した結果に基づいて音信号の波形を平滑化させる手順と
    を実行させることを特徴とするコンピュータプログラム。
JP2006258965A 2006-09-25 2006-09-25 音信号補正方法、音信号補正装置及びコンピュータプログラム Active JP4753821B2 (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
JP2006258965A JP4753821B2 (ja) 2006-09-25 2006-09-25 音信号補正方法、音信号補正装置及びコンピュータプログラム
DE602007001927T DE602007001927D1 (de) 2006-09-25 2007-01-23 Verfahren und Vorrichtung zur Tonsignalkorrektur und Computerprogramm
EP07100995A EP1903560B1 (en) 2006-09-25 2007-01-23 Sound signal correcting method, sound signal correcting apparatus and computer program
US11/698,113 US8249270B2 (en) 2006-09-25 2007-01-26 Sound signal correcting method, sound signal correcting apparatus and computer program
CN2007100083381A CN101154384B (zh) 2006-09-25 2007-01-29 声音信号纠正方法、声音信号纠正设备以及计算机程序
KR1020070009990A KR20080027709A (ko) 2006-09-25 2007-01-31 음 신호 보정 방법, 음 신호 보정 장치 및 기록 매체
KR1020080120753A KR100930745B1 (ko) 2006-09-25 2008-12-01 음 신호 보정 방법, 음 신호 보정 장치 및 기록 매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006258965A JP4753821B2 (ja) 2006-09-25 2006-09-25 音信号補正方法、音信号補正装置及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2008076975A true JP2008076975A (ja) 2008-04-03
JP4753821B2 JP4753821B2 (ja) 2011-08-24

Family

ID=38229174

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006258965A Active JP4753821B2 (ja) 2006-09-25 2006-09-25 音信号補正方法、音信号補正装置及びコンピュータプログラム

Country Status (6)

Country Link
US (1) US8249270B2 (ja)
EP (1) EP1903560B1 (ja)
JP (1) JP4753821B2 (ja)
KR (2) KR20080027709A (ja)
CN (1) CN101154384B (ja)
DE (1) DE602007001927D1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010046954A1 (ja) * 2008-10-24 2010-04-29 三菱電機株式会社 雑音抑圧装置および音声復号化装置
JP2012168477A (ja) * 2011-02-16 2012-09-06 Nikon Corp ノイズ推定装置、信号処理装置、撮像装置、及びプログラム
WO2013179464A1 (ja) 2012-05-31 2013-12-05 トヨタ自動車株式会社 音源検出装置、ノイズモデル生成装置、ノイズ抑圧装置、音源方位推定装置、接近車両検出装置及びノイズ抑圧方法
JP2015166764A (ja) * 2014-03-03 2015-09-24 富士通株式会社 音声処理装置、雑音抑圧方法、およびプログラム

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5056157B2 (ja) * 2007-05-18 2012-10-24 ソニー株式会社 ノイズ低減回路
EP2151821B1 (en) * 2008-08-07 2011-12-14 Nuance Communications, Inc. Noise-reduction processing of speech signals
KR101475864B1 (ko) * 2008-11-13 2014-12-23 삼성전자 주식회사 잡음 제거 장치 및 잡음 제거 방법
EP2689418B1 (en) * 2011-03-21 2017-10-25 Telefonaktiebolaget LM Ericsson (publ) Method and arrangement for damping of dominant frequencies in an audio signal
CA2841883A1 (en) * 2011-07-25 2013-01-31 Frank RUDZICZ System and method for acoustic transformation
US10431243B2 (en) * 2013-04-11 2019-10-01 Nec Corporation Signal processing apparatus, signal processing method, signal processing program
EP2963646A1 (en) 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and method for decoding an audio signal, encoder and method for encoding an audio signal
CN105575395A (zh) * 2014-10-14 2016-05-11 中兴通讯股份有限公司 语音唤醒方法及装置、终端及其处理方法
JP6496030B2 (ja) * 2015-09-16 2019-04-03 株式会社東芝 音声処理装置、音声処理方法及び音声処理プログラム
JP6729187B2 (ja) * 2016-08-30 2020-07-22 富士通株式会社 音声処理プログラム、音声処理方法及び音声処理装置
CN107786709A (zh) * 2017-11-09 2018-03-09 广东欧珀移动通信有限公司 通话降噪方法、装置、终端设备及计算机可读存储介质
CN109547848B (zh) 2018-11-23 2021-02-12 北京达佳互联信息技术有限公司 响度调整方法、装置、电子设备以及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004020945A (ja) * 2002-06-17 2004-01-22 Nec Corp 音声認識装置、音声認識方法、および、音声認識プログラム
JP2006047639A (ja) * 2004-08-04 2006-02-16 Advanced Telecommunication Research Institute International 雑音除去装置
WO2006046293A1 (ja) * 2004-10-28 2006-05-04 Fujitsu Limited 雑音抑圧装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4630305A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic gain selector for a noise suppression system
JPH07193548A (ja) 1993-12-25 1995-07-28 Sony Corp 雑音低減処理方法
JP3484757B2 (ja) 1994-05-13 2004-01-06 ソニー株式会社 音声信号の雑音低減方法及び雑音区間検出方法
JP3183104B2 (ja) 1995-07-14 2001-07-03 松下電器産業株式会社 ノイズ削減装置
CA2312721A1 (en) * 1997-12-08 1999-06-17 Mitsubishi Denki Kabushiki Kaisha Sound signal processing method and sound signal processing device
US6088668A (en) * 1998-06-22 2000-07-11 D.S.P.C. Technologies Ltd. Noise suppressor having weighted gain smoothing
JP2000047697A (ja) 1998-07-30 2000-02-18 Nec Eng Ltd ノイズキャンセラ
US6351731B1 (en) * 1998-08-21 2002-02-26 Polycom, Inc. Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor
JP3454206B2 (ja) 1999-11-10 2003-10-06 三菱電機株式会社 雑音抑圧装置及び雑音抑圧方法
DE60142800D1 (de) * 2001-03-28 2010-09-23 Mitsubishi Electric Corp Rauschunterdrücker
JP2004061567A (ja) 2002-07-25 2004-02-26 Nec Engineering Ltd ノイズキャンセラ
US7492889B2 (en) * 2004-04-23 2009-02-17 Acoustic Technologies, Inc. Noise suppression based on bark band wiener filtering and modified doblinger noise estimate

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004020945A (ja) * 2002-06-17 2004-01-22 Nec Corp 音声認識装置、音声認識方法、および、音声認識プログラム
JP2006047639A (ja) * 2004-08-04 2006-02-16 Advanced Telecommunication Research Institute International 雑音除去装置
WO2006046293A1 (ja) * 2004-10-28 2006-05-04 Fujitsu Limited 雑音抑圧装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010046954A1 (ja) * 2008-10-24 2010-04-29 三菱電機株式会社 雑音抑圧装置および音声復号化装置
CN102150206A (zh) * 2008-10-24 2011-08-10 三菱电机株式会社 噪音抑制装置以及声音解码装置
JP5153886B2 (ja) * 2008-10-24 2013-02-27 三菱電機株式会社 雑音抑圧装置および音声復号化装置
JP2012168477A (ja) * 2011-02-16 2012-09-06 Nikon Corp ノイズ推定装置、信号処理装置、撮像装置、及びプログラム
WO2013179464A1 (ja) 2012-05-31 2013-12-05 トヨタ自動車株式会社 音源検出装置、ノイズモデル生成装置、ノイズ抑圧装置、音源方位推定装置、接近車両検出装置及びノイズ抑圧方法
JP2015166764A (ja) * 2014-03-03 2015-09-24 富士通株式会社 音声処理装置、雑音抑圧方法、およびプログラム

Also Published As

Publication number Publication date
DE602007001927D1 (de) 2009-09-24
JP4753821B2 (ja) 2011-08-24
CN101154384A (zh) 2008-04-02
CN101154384B (zh) 2010-06-02
KR100930745B1 (ko) 2009-12-09
EP1903560A1 (en) 2008-03-26
KR20080027709A (ko) 2008-03-28
US20080085012A1 (en) 2008-04-10
EP1903560B1 (en) 2009-08-12
KR20090008164A (ko) 2009-01-21
US8249270B2 (en) 2012-08-21

Similar Documents

Publication Publication Date Title
JP4753821B2 (ja) 音信号補正方法、音信号補正装置及びコンピュータプログラム
JP4283212B2 (ja) 雑音除去装置、雑音除去プログラム、及び雑音除去方法
JP5183828B2 (ja) 雑音抑圧装置
US10741195B2 (en) Sound signal enhancement device
EP3276621B1 (en) Noise suppression device and noise suppressing method
JP5071480B2 (ja) エコー抑制装置、エコー抑制システム、エコー抑制方法及びコンピュータプログラム
JP4568733B2 (ja) 雑音抑圧装置、雑音抑圧方法、雑音抑圧プログラムおよびコンピュータに読み取り可能な記録媒体
WO2010046954A1 (ja) 雑音抑圧装置および音声復号化装置
JPWO2018163328A1 (ja) 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置
JP2000330597A (ja) 雑音抑圧装置
JP3877270B2 (ja) 音声特徴量抽出装置
WO2020110228A1 (ja) 情報処理装置、プログラム及び情報処理方法
US10706870B2 (en) Sound processing method, apparatus for sound processing, and non-transitory computer-readable storage medium
JP2008129077A (ja) ノイズ除去装置
JP3761497B2 (ja) 音声認識装置、音声認識方法、および、音声認識プログラム
US10109291B2 (en) Noise suppression device, noise suppression method, and computer program product
JP2013130815A (ja) 雑音抑圧装置
Ogawa More robust J-RASTA processing using spectral subtraction and harmonic sieving
JP2002175100A (ja) 適応型雑音抑圧音声符号化装置
JP2006084639A (ja) 音声スペクトル推定装置および音声スペクトル推定プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110524

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110524

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140603

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4753821

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150