JP4757158B2 - 音信号処理方法、音信号処理装置及びコンピュータプログラム - Google Patents

音信号処理方法、音信号処理装置及びコンピュータプログラム Download PDF

Info

Publication number
JP4757158B2
JP4757158B2 JP2006254931A JP2006254931A JP4757158B2 JP 4757158 B2 JP4757158 B2 JP 4757158B2 JP 2006254931 A JP2006254931 A JP 2006254931A JP 2006254931 A JP2006254931 A JP 2006254931A JP 4757158 B2 JP4757158 B2 JP 4757158B2
Authority
JP
Japan
Prior art keywords
spectrum
sound signal
signal processing
envelope
peak
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006254931A
Other languages
English (en)
Other versions
JP2008076676A (ja
Inventor
太介 伊藤
昭二 早川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2006254931A priority Critical patent/JP4757158B2/ja
Priority to DE102007001255.3A priority patent/DE102007001255B4/de
Priority to US11/698,059 priority patent/US20080069364A1/en
Priority to CN2007100083451A priority patent/CN101149928B/zh
Priority to KR1020070009338A priority patent/KR100870889B1/ko
Publication of JP2008076676A publication Critical patent/JP2008076676A/ja
Application granted granted Critical
Publication of JP4757158B2 publication Critical patent/JP4757158B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Description

本発明は、取得した音に基づく音信号をスペクトルに変換して信号処理を実行する音信号処理方法、該音信号処理方法を適用した音信号処理装置、及び該音信号処理装置を実現するためのコンピュータプログラムに関し、特にマイク等の入力手段から入力された音に含まれる装置の電子音、緊急自動車のサイレン等の非定常的な雑音の抑制に関する。
例えばカーナビゲーション装置等の装置に搭載される音声認識機能においては、音声が含まれる音声区間を正しく検出することができるか否かが音声認識の性能に大きく影響する。音声区間の検出方法としては、例えば音信号をFFT(高速フーリエ変換)等の変換方法にて変換したスペクトルの時間軸方向の振幅の二乗として求められるパワーが所定の閾値以上の場合に音声と判定することで音声区間を検出する方法、ピッチと呼ばれる音信号の周期性の抽出を行い、ピッチが存在する場合に音声と判定することで音声区間を検出する方法、これら両方法の組合せ等の方法が主流である。
ここで従来の音声認識システムにおける音声認識処理を説明する。図7は、従来の音声認識処理を示すフローチャートである。音声認識システムは、音声及び雑音を含む音をマイクにて取得し(S101)、取得した音に基づく音信号を所定時間毎に区分したフレーム単位でスペクトルに変換し、変換したスペクトルからパワー、ピッチ、ケプストラム等の特徴量を抽出する(S102)。
さらに音声認識システムは、抽出した特徴量であるパワー及びピッチから音声区間検出用の閾値以上となるフレームを検出し、検出したフレームが一定時間以上連続するか否かを判定することにより、取得した音から音声区間を判定する(S103)。
そして音声認識システムは、音声区間と判定したフレームの特徴量を、音響モデル及び言語辞書と照合することで音声区間の音声を認識する(S104)。
図7に示す様な音声認識処理において、カーナビゲーションシステムのボタン操作音等の電子音は或る程度のパワー及びピッチを有するため、音声認識システムが単独の電子音を取得した場合、電子音を音声であると誤判定し易いという問題がある。
そこで特許文献1には、電子音(トーン信号)には少ない数のピークが存在するという性質を利用し、スペクトルのピークが検出された場合に電子音として判定する方法が開示されている。
また特許文献2には、緊急自動車のサイレン音を抑圧する雑音抑圧方法が開示されている。
さらに電子音、サイレン音等の非定常雑音だけでなく、周期性のノイズを抑圧する方法が特許文献3に開示されている。
特開平8−265457号公報 特開2003−58186号公報 特開2005−257805号公報
しかしながら特許文献1に開示されている従来の方法では、車両のエンジン音、エアコン音等の雑音が発生している環境下では、電子音のスペクトルのピークを検出する精度が低下するという問題がある。
ここで特許文献1が有する問題について図を用いて説明する。図8は、スペクトルを示す図である。図8(a)は、車両のエンジン音による雑音が発生していない環境下での周波数及びパワーの関係を示す波形図であり、図8(b)は、エンジン音による雑音が発生している環境下での周波数及びパワーの関係を示す波形図である。図8(a)に示すように、エンジン音による雑音が発生していない環境下では、パワーが点線で示す閾値以上となる2本の帯域幅の少ない鋭いピークが明確に出現しており、電子音による雑音であるとして高精度に検出することが可能である。しかしながら図8(b)に示すように、点線で示すエンジン音による雑音が発生している環境下では、低周波数帯にエンジン音に起因する帯域幅の広い緩やかなピークが発生するため電子音に起因する2本のピークが不明確となるため、単に閾値とパワーとを比較するだけの方法では、ピークを検出する精度が低下する。
特許文献2に記載した方法では、サイレン音の基本周波数の抽出が必要となり、過去のフレームから平均スペクトルを計算しなければならず、従って事前に学習した周期性雑音しか抑制することができないという問題がある。
特許文献3に記載した方法では、抑制する雑音収集用のマイクが別途必要となるという問題がある。
本発明は斯かる事情に鑑みてなされたものであり、スペクトルからスペクトル包絡を算出し、スペクトルからスペクトル包絡を除去し、スペクトル包絡を除去したスペクトルに基づいてスペクトルピークを検出して抑制することにより、エンジン音、エアコン音等の定常雑音が発生する環境下でも高精度に電子音、サイレン音等の非定常雑音のピークを検出して抑制することが可能であり、また事前の学習を必要とせず、更には雑音収集用のマイクを要しない音信号処理方法、該音信号処理方法を適用した音信号処理装置、及び該音信号処理装置を実現するためのコンピュータプログラムの提供を目的とする。
本発明に係る音信号処理方法は、取得した音に基づく音信号を変換した原スペクトルにして信号処理を実行する音信号処理方法において、前記原スペクトルに基づくスペクトル包絡を算出し、前記原スペクトルからスペクトル包絡を除去し、スペクトル包絡を除去した包絡除去スペクトルからスペクトルピークを検出し、前記原スペクトルから、前記スペクトルピークを抑制することを特徴とする。
本発明では、スペクトル包絡を除去後、スペクトルピークを検出することにより、エンジン音、エアコン音等の低周波域で発生する緩やかなピークによる悪影響を受けることなく、電子音等の鋭いピークを検出することができるので、高精度にピークを検出し、雑音を除去することが可能である。また事前の学習を必要とせず、更には雑音収集用のマイクを必要としない。
本発明に係る音信号処理装置は、取得した音に基づく音信号を変換した原スペクトルにして信号処理を実行する音信号処理装置において、前記原スペクトルに基づくスペクトル包絡を算出する包絡算出手段と、前記原スペクトルからスペクトル包絡を除去する包絡除去手段と、スペクトル包絡を除去した包絡除去スペクトルからスペクトルピークを検出する検出手段と、前記原スペクトルから、前記スペクトルピークを抑制する抑制手段とを備えることを特徴とする。
本発明では、スペクトル包絡を除去後、スペクトルピークを検出することにより、エンジン音、エアコン音等の低周波域で発生する緩やかなピークによる悪影響を受けることなく、電子音等の鋭いピークを検出することができるので、高精度にピークを検出し、雑音を除去することが可能である。また事前の学習を必要とせず、更には雑音収集用のマイクを必要としない。
本発明に係る音信号処理装置は、前記包絡算出手段は、音信号を第1変換により変換した変換スペクトルからケプストラムを算出し、算出したケプストラムに係る所定の次数より低次の成分を、第1変換の逆変換である第2変換により変換してスペクトル包絡を算出する様に構成してあることを特徴とする。
本発明では、FFT等の第1変換及び逆FFT等の第2変換により、スペクトルの概形を示す包絡スペクトルを算出する。
本発明に係る音信号処理装置は、前記検出手段は、前記包絡除去スペクトルについて、所定の閾値より大きい値を示す帯域を、前記スペクトルピークを含む帯域として検出する様に構成してあることを特徴とする。
本発明では、閾値との比較により、スペクトルピークを検出することが可能である。
本発明に係る音信号処理装置は、前記検出手段は、前記包絡除去スペクトルについて、所定幅の帯域中の値の集計値と、他の全帯域の値の集計値との比の値が所定の閾値より大きい値を示す帯域を、前記スペクトルピークを含む帯域として検出する様に構成してあることを特徴とする。
本発明では、単にスペクトルピークが高い帯域ではなく、全帯域のスペクトルパワーと比較してパワーが強い帯域からピークを抽出することにより、帯域全体から見て顕著なピークを検出することが可能である。
本発明に係る音信号処理装置は、前記抑制手段は、前記スペクトルピークを含む帯域の前記原スペクトルの値で、閾値以上である値を、閾値に基づく値に置換して前記スペクトルピークを抑制する様に構成してあることを特徴とする。
本発明では、電子音等の雑音に基づくスペクトルピークの値を、閾値に置換することにより、ピークを除去して雑音を抑制することが可能である。
本発明に係る音信号処理装置は、前記抑制手段は、前記スペクトルピークを含む帯域の前記原スペクトルの値で、スペクトル包絡以上である値を、スペクトル包絡に基づく値に置換して前記スペクトルピークを抑制する様に構成してあることを特徴とする。
本発明では、電子音等の雑音に基づくスペクトルピークの値を、スペクトル包絡に基づく値に置換することにより、ピークを除去して雑音を抑制することが可能である。
本発明に係る音信号処理装置は、前記抑制手段は、前記スペクトルピークを含む帯域の前記原スペクトルの値を、前記スペクトルピークを含む帯域より広い帯域の値の集計値に置換して前記スペクトルピークを抑制する様に構成してあることを特徴とする。
本発明では、電子音等の雑音に基づくスペクトルピークの値を、例えばスペクトルピークを中心とする数100Hz幅の帯域の値の平均値等の集計値に置換することにより、ピークを除去して雑音を抑制することが可能である。
本発明に係る信号処理装置は、前記スペクトルピークを抑制した音信号に基づいて、音声認識処理を実行する手段を更に備えることを特徴とする。
本発明では、電子音等の雑音を除去した音信号に基づいて高精度に音声認識処理を実行することが可能である。
本発明に係るコンピュータプログラムは、コンピュータに、取得した音に基づく音信号を変換した原スペクトルにして信号処理を実行させるコンピュータプログラムにおいて、コンピュータに、前記原スペクトルに基づくスペクトル包絡を算出させる手順と、コンピュータに、前記原スペクトルからスペクトル包絡を除去させる手順と、コンピュータに、スペクトル包絡を除去した包絡除去スペクトルからスペクトルピークを検出させる手順と、コンピュータに、前記原スペクトルから、前記スペクトルピークを抑制させる手順とを実行させることを特徴とする。
本発明では、ナビゲーション装置等のコンピュータにて実行することにより、コンピュータが音信号検出装置として動作し、スペクトル包絡を除去後、スペクトルピークを検出することにより、エンジン音、エアコン音等の低周波域で発生する緩やかなピークによる悪影響を受けることなく、電子音等の鋭いピークを検出することができるので、高精度にピークを検出し、雑音を除去することが可能である。また事前の学習を必要とせず、更には雑音収集用のマイクを必要としない。
本発明に係る音信号検出方法、音信号検出装置及びコンピュータプログラムは、取得した音に基づく音信号をFFT等の処理により、スペクトルに変換し、スペクトルからスペクトル包絡を算出し、スペクトルからスペクトル包絡を除去し、スペクトル包絡を除去したスペクトルからスペクトルピークを検出し、検出したスペクトルピークを抑制する。
この構成により、本発明では、スペクトル包絡を除去後、スペクトルピークを検出することにより、スペクトルの概形であるスペクトル包絡を除去して、スペクトルの微細構造をスペクトルピークの検出に用いることができることから、エンジン音、エアコン音等の低周波域で発生する緩やかなピークによる悪影響を受けることなく、電子音等の鋭いピークを検出することができるので、高精度にピークを検出し、雑音を除去することが可能である等、優れた効果を奏する。また事前の学習を必要とせず、更には雑音収集用のマイクを必要としない等、優れた効果を奏する。
特に車両に搭載される音声認識機能を備えたカーナビゲーションシステムに適用した場合には、車両のエンジン音、エアコン音等の定常雑音が発生している環境下においても、電子音、サイレン音等の非定常雑音のスペクトルピークの検出及び抑制を高精度に実現するため、電子音、サイレン音等の雑音を音声と誤認識することがないので、音声認識精度を向上させることが可能である等、優れた効果を奏する。
以下、本発明をその実施の形態を示す図面に基づいて詳述する。
実施の形態1.
図1は、本発明の実施の形態1に係る音信号処理装置の構成例を示すブロック図である。図1中1は、例えば車両に搭載されるナビゲーション装置等のコンピュータを用いた音信号処理装置であり、音信号処理装置1は、少なくとも、装置全体を制御するCPU(Central Processing Unit) 、DSP(Digital Signal Processor)等の制御手段10と、プログラム及びデータ等の各種情報を記録するハードディスク、ROM等の記録手段11と、一時的に発生するデータを記憶するRAM等の記憶手段12と、外部から音を取得するマイクロホン等の音取得手段13と、音を出力するスピーカ等の音出力手段14と、液晶モニタ等の表示手段15と、目的地までの経路指示等のナビゲーションに係る処理を実行するナビゲーション手段16とを備えている。
記録手段11には、本発明のコンピュータプログラム11aが記録されており、記録されているコンピュータプログラム11aに含まれる各種手順を記憶手段12に記憶して制御手段10の制御にて実行することにより、コンピュータは、本発明の音信号処理装置1として動作する。
また記録手段11の記録領域の一部は、音声認識用の音響モデルを記録している音響モデルデータベース(音響モデルDB)11b、音響モデルに対応する音素又は音節定義で表記された認識語彙及び文法を記録している言語辞書11c等の各種データベースとして用いられている。
記憶手段12の記憶領域の一部は、音取得手段13が取得したアナログ信号である音を所定の周期で標本化(サンプリング)してデジタル化した音データを記憶する音データバッファ12a、及び音データを所定の時間長に区分したフレームを記憶するフレームバッファ12bとして用いられる。
ナビゲーション手段16は、GPS(Global Positioning System) 等の位置検出機構と、地図情報を記録するDVD(Digital Versatile Disk)、ハードディスク等の記録媒体とを有し、現在地からの目的地までの経路探索、経路指示等のナビゲーション処理を実行し、地図及び経路を表示手段15に表示し、音声による案内を音出力手段14から出力する。
なお図1に示した構成例はあくまでも一例であり、様々な形態に展開することが可能である。例えば音信号処理に係る機能を一又は複数のVLSIチップとして構成し、ナビゲーション装置に組み込むことも可能であり、音信号処理用の専用装置をナビゲーション装置に外付けすることも可能である。また制御手段10を音信号処理及びナビゲーションの双方の処理で共用する様にしても、夫々専用の回路を設ける様にしても良く、更には音信号処理に関する特定の演算、例えば後述するFFT(高速フーリエ変換:Fast Fourier Transformation)、逆FFT等の処理を実行するコプロセッサを制御手段10に組み込んでも良い。また音データバッファ12aを音取得手段12の付属回路とし、フレームバッファ12bを制御手段10が備えるメモリ上に構成する様にしても良い。さらに本発明の音信号処理装置1は、ナビゲーション装置等の車載装置に限らず、電話器等の音声認識を行う様々な用途の装置に用いることが可能である。
次に本発明の実施の形態1に係る音信号処理装置1の処理について説明する。図2は、本発明の実施の形態1に係る音信号処理装置1の処理の一例を示すフローチャートである。音信号処理装置1は、コンピュータプログラム11aを実行する制御手段10の制御により、音取得手段13にて外部の音を取得し(ステップS1)、アナログ信号である取得した音を所定の周期で標本化してデジタル化した音データを音データバッファ12aに記憶する(ステップS2)。ステップS1にて取得する外部の音とは、人が発声する音声、定常雑音、非定常雑音等の様々な音が重畳した音である。人が発声する音声とは、音信号処理装置1による認識の対象となる音声である。定常雑音とは、車両のエンジン音、エアコン音等の雑音である。非定常雑音とは、電子機器の操作時に発生する電子音、サイレン音等の雑音である。
そして音信号処理装置1は、制御手段10の制御により、音データバッファ12aに記憶した音データから所定長のフレームを生成する(ステップS3)。ステップS3では、音データを、例えば20ms〜30msの所定長の単位でフレーム化する。なお各フレームは、10ms〜15msずつオーバーラップしている。そして各フレームに対しては、ハミング窓、ハニング窓等の窓関数、高域強調フィルタによるフィルタリング等の音声認識の分野で一般的なフレーム処理が施される。この様にして生成された各フレームに対し、以降の処理が行われる。
音信号処理装置1は、制御手段10の制御により、フレーム単位の音データに基づく音信号をFFT処理してスペクトルに変換する(ステップS4)。ステップS4では、音信号をFFT処理して得られた振幅スペクトルX(ω)を二乗してパワースペクトルを求め、求めたパワースペクトルの対数である対数パワースペクトル20log10|X(ω)|を計算する。この様にして音信号を対数パワースペクトルに変換する。なおステップS104において、音信号をFFT処理して得られた振幅スペクトルX(ω)の対数である対数振幅スペクトル10log10|X(ω)|を計算し、計算した対数振幅スペクトルを変換後のスペクトルとして用いてもよい。
音信号処理装置1は、制御手段10の制御により、音信号のフーリエ変換に基づくスペクトルをケプストラムに変換し、変換したケプストラムに係る所定の次数より低次の成分を逆FFT処理してスペクトル包絡を算出する(ステップS5)。
ステップS5の処理について説明する。音信号をFFT処理した振幅スペクトル|X(ω)|は、高次成分及び低次成分のFFTを夫々示すG(ω)及びH(ω)を用いた下記の式1で示すことができる。
X(ω)=G(ω)H(ω) …式1
式1の対数は、下記の式2で示すことができる。
log10|X(ω)|=log10|G(ω)|+log10|H(ω)| …式2
式2を、周波数ωを変数として逆FFTしたものがケプストラムc(τ)である。なお式2の右辺第1項は、スペクトルの高次の成分である微細構造を示し、右辺第2項は、スペクトルの低次の成分であるスペクトル包絡を示す。即ちステップS5では、FFTスペクトルから算出したFFTケプストラムの10次以下、20次以下等の所定の次数より低次の成分を逆FFTすることにより、スペクトル包絡を算出する。なおLPC(Linier Predictive Coding)ケプストラムを用いたスペクトル包絡を用いる方法もあるが、この場合、ピークが強調された包絡となるので、FFTケプストラムが望ましい。
そして音信号処理装置1は、制御手段10の制御により、ステップS4にて求めたスペクトルから、ステップS5にて算出したスペクトル包絡を除去する(ステップS6)。ステップS6の除去は、ステップS4にて求めたスペクトルの各周波数における値から、スペクトル包絡の各周波数における値を減算することにより行われる。ステップS6にてスペクトルからスペクトル包絡を除去することにより、スペクトルの傾きが除去されて平坦になるため、スペクトルの微細構造が処理結果として求められる。なおスペクトル微細構造は、スペクトルからスペクトル包絡を除去する代わりに、スペクトル包絡を計算する際に使用しなかったFFTケプストラムの11次以上、21次以上等の高次の成分を逆FFTすることにより算出しても良い。
そして音信号処理装置1は、制御手段10の制御により、スペクトル包絡を除去したスペクトルにおいて、スペクトルピークを検出し(ステップS7)、検出したスペクトルピークを抑制する(ステップS8)。
ステップS7において、スペクトルピークの検出は、記録手段11に記録されている所定の閾値より大きい値を示すスペクトルピークを含む帯域を、抑制すべきスペクトルピークを含む帯域として検出する。またスペクトルピークが大きい順からn(nは自然数)個のピークを、抑制すべきスペクトルピークとして、その帯域を検出する様にしても良い。更には所定の閾値より大きい値を示すスペクトルピークの中で、スペクトルピークの値が大きい順から最大n個のピークを抑制すべきスペクトルピークとし、その帯域を検出する様にしても良い。なおnの値としては、2〜4程度が適当である。
ステップS8のスペクトルピークの抑制方法として、幾つかの方法を以下に例示列挙する。第1の抑制方法は、検出したスペクトルピークを含む帯域で、パワーの値が閾値以上である値を、閾値に置換する方法、即ち閾値以上となるパワー相当分をスペクトルから減算する方法である。なお必ずしも閾値に置換するのではなく、閾値に基づく値、例えば閾値から所定値分高い値に置換する様にしても良い。
第2の抑制方法は、検出したスペクトルピークを含む周辺の帯域、例えばスペクトルピークを中心とする数100Hz幅の帯域で、パワーの値がスペクトル包絡以上である値を、対応するスペクトル包絡の値に置換する方法である。
第3の抑制方法は、検出したスペクトルピークがスペクトル包絡と交差する点間の帯域、即ちスペクトルピークを形成するパワーの値が、スペクトル包絡を上回ってから下回るまでの帯域の値を、対応するスペクトル包絡の値に置換する方法である。
第4の抑制方法は、検出したスペクトルピークを含む帯域のパワーの値を、検出したスペクトルピークを含む帯域より広い帯域、例えばスペクトルピークを中心とする数100Hz幅の帯域の値の平均値等の集計値に置換してスペクトルピークを置換する方法である。
そして信号処理装置1は、制御手段10の制御により、スペクトルピークを抑制したパワースペクトルを周波数軸方向に積分したパワー、ピッチ、ケプストラム等の特徴成分を抽出し(ステップS9)、抽出したスペクトルパワー及びピッチに基づいて音声区間を判定する(ステップS10)。ステップS10における音声区間の判定は、ステップS9にて計算したスペクトルパワーを、記録手段11に記録している音声検出用の閾値と比較して閾値以上のスペクトルパワーが存在し、かつピッチが存在する場合に、音声区間であると判定する。
そして音信号処理装置1は、制御手段10の制御により、音声区間と判定したフレームにおいて、スペクトルピークを抑制したスペクトルから抽出した特徴成分である特徴ベクトルに基づいて、音響モデルデータベース11bに記録している音響モデル及び言語辞書11cに記録している認識語彙及び文法を参照し、音声認識処理を実行する(ステップS11)。ステップS11の音声認識処理は、音響モデルとの類似度を計算し、認識語彙に関する言語的情報を参照することにより行われる。
図3は、本発明の実施の形態1に係る音信号処理装置1のスペクトルの一例を示す図である。図3では、横軸に周波数をとり、縦軸にスペクトルのパワーをとって、その関係を示している。図3中実線がパワースペクトルS1を示し、一点鎖線がパワースペクトルS1に基づき算出されたスペクトル包絡S2を示し、点線がパワースペクトルS1からスペクトル包絡S2を除去して求められたスペクトルの微細構造S3を示している。またTL(Threshold Level) として示している様に30dBが、閾値として設定されている。図3に示す様にパワースペクトルS1からスペクトル包絡S2を除去することにより、パワースペクトルS1の低周波数域側から高周波数域側へかけての傾きが除去され、スペクトルの微細構造S3に含まれる3本のスペクトルピークが明確になっている。なお微細構造S3からスペクトルピークを検出する際、周波数の下端及び上端の帯域数100Hzは、デジタル信号処理時の帯域フィルタの影響があること、電子音は低周波数域には存在しないこと、スペクトル包絡S2の精度が低下すること等の理由により、検出の対象から除くことが望ましい。
図4は、本発明の実施の形態1に係る音信号処理装置1の音信号の一例を示す波形図である。図4(a)は、フレームとして区分した音信号の振幅の経時変化を示しており、図4(b)は、図4(a)の音信号の振幅を二乗したパワーの概形を示している。図4(b)中、P1がスペクトル包絡除去前のパワーの概形を示しており、P2がスペクトル包絡除去後のパワーの概形を示している。図4(b)に示す様に図4(a)に重畳しているエンジン音等の定常雑音に起因する緩やかなピークが区間R中、P1では現れているが、P2では除去されている。
この様に本発明の実施の形態1では、エンジン音、エアコン音等の緩やかなピークを有する定常雑音環境下においても、定常雑音を排除して電子音、サイレン音等の鋭いピークを有する非定常雑音によるピークを検出し、検出したピークを抑制することができるので、非定常雑音を音声として誤認識することを防止することが可能である。なお音声(母音)のスペクトルも複数のピークを有するが、電子音と比べてピークが鋭くないため、スペクトル包絡として除去されるので、母音のピークを誤って抑制することはない。
実施の形態2.
実施の形態2は、実施の形態1において、スペクトルピークの検出方法を変更した形態である。実施の形態2における音信号処理装置の構成例は、実施の形態1と同様であるので、実施の形態1を参照するものとし、その説明を省略する。なお以降の説明において、音信号処理装置の構成については、実施の形態1と同様の符号を付すものとする。また実施の形態2における音信号処理装置1の処理は、実施の形態1と同様であるので、実施の形態1を参照するものとし、その説明を省略する。なお以降の説明において、音信号処理装置1の各処理については、実施の形態1と同様のステップ番号を付して説明する。
図5は、本発明の実施の形態2に係る音信号処理装置1のスペクトルの一例を示す図である。図5では、横軸に周波数をとり、縦軸にスペクトルのパワーをとって、その関係を示している。図5中実線がパワースペクトルS1を示し、一点鎖線がパワースペクトルS1に基づき算出されたスペクトル包絡S2を示し、点線がパワースペクトルS1からスペクトル包絡S2を除去して求められたスペクトルの微細構造S3を示している。
実施の形態2における音信号処理装置1は、スペクトル包絡を除去したスペクトルから、スペクトルピークを検出するステップS7の処理として、所定幅の帯域中の値の集計値と、他の全帯域の値の集計値との比の値が、所定の閾値より大きい値を示す帯域を、スペクトルピークを含む帯域として検出する。具体的には、スペクトルのパワーの値が最大となる周波数を検出し、検出した周波数を中心とする100Hz等の所定幅の帯域中のパワーの集計値、例えば平均値を求める。図5では、f1として示した帯域中のパワーの平均値P1を求める。さらにf1以外の全帯域のパワーの集計値、例えば平均値を求める。図5では、f2として示した帯域中のパワーの平均値P2を求める。そしてP1及びP2の比の値P1/P2が所定の閾値より大きい場合、帯域f1を、スペクトルピークを含む帯域として検出する。更にスペクトルのパワーが2番目に大きい周波数を検出するという処理を繰り返し、比の値が閾値より大きくなるスペクトルピークを、所定個数nを上限として検出する。検出したスペクトルピークに対する抑制等の処理は、実施の形態1と同様である。
実施の形態3.
実施の形態3は、実施の形態1において、スペクトルピークの検出方法を変更した形態である。実施の形態3における音信号処理装置の構成例は、実施の形態1と同様であるので、実施の形態1を参照するものとし、その説明を省略する。なお以降の説明において、音信号処理装置の構成については、実施の形態1と同様の符号を付すものとする。また実施の形態3における音信号処理装置1の処理は、実施の形態1と同様であるので、実施の形態1を参照するものとし、その説明を省略する。なお以降の説明において、音信号処理装置1の各処理については、実施の形態1と同様のステップ番号を付して説明する。
図6は、本発明の実施の形態3に係る音信号処理装置1のスペクトルの一例を示す図である。図6では、横軸に周波数をとり、縦軸にスペクトルのパワーをとって、その関係を示している。図6中実線がパワースペクトルS1を示し、一点鎖線がパワースペクトルS1に基づき算出されたスペクトル包絡S2を示し、点線がパワースペクトルS1からスペクトル包絡S2を除去して求められたスペクトルの微細構造S3を示している。
実施の形態3における音信号処理装置1は、スペクトル包絡を除去したスペクトルから、スペクトルピークを検出するステップS7の処理として、第1所定幅の第1帯域中の値の集計値と、第1帯域の近傍の第2所定幅の第2帯域中の値の集計値との比が所定の閾値より大きい値を示す第1帯域を、スペクトルピークを含む帯域として検出する。具体的には、スペクトルのパワーの値が最大となる周波数を検出し、検出した周波数を中心とする100Hz等の所定幅の帯域中のパワーの集計値、例えば平均値を求める。図6では、f1として示した帯域中のパワーの平均値P1を求める。さらにf1の前後の夫々150Hzの帯域のパワーの集計値、例えば平均値を求める。図6では、f2として示した帯域中のパワーの平均値P2を求める。そしてP1及びP2の比の値P1/P2が所定の閾値より大きい場合、帯域f1を、スペクトルピークを含む帯域として検出する。更にスペクトルのパワーが2番目に大きい周波数を検出するという処理を繰り返し、比の値が閾値より大きくなるスペクトルピークを、所定個数nを上限として検出する。検出したスペクトルピークに対する抑制等の処理は、実施の形態1と同様である。
前記実施の形態1乃至3では、音声認識に係る発明として、非定常雑音を除去後、音声認識を行う形態を示したが、本発明はこれに限らず、音声処理に係る様々な分野に展開することが可能である。例えば電話通信に適用し、受話器が取得した音に基づく音信号を通話相手へ送信する場合に、本発明の処理により、音信号から非定常雑音を除去した上で、通話相手へ送信する様にしても良い。
以上の実施の形態に関し、更に以下の付記を開示する。
(付記1)
取得した音に基づく音信号をスペクトルに変換して信号処理を実行する音信号処理方法において、
スペクトルに基づくスペクトル包絡を算出し、
スペクトルからスペクトル包絡を除去し、
スペクトル包絡を除去したスペクトルからスペクトルピークを検出し、
検出したスペクトルピークを抑制する
ことを特徴とする音信号処理方法。
(付記2)
取得した音に基づく音信号をスペクトルに変換して信号処理を実行する音信号処理装置において、
スペクトルに基づくスペクトル包絡を算出する包絡算出手段と、
スペクトルからスペクトル包絡を除去する包絡除去手段と、
スペクトル包絡を除去したスペクトルからスペクトルピークを検出する検出手段と、
検出したスペクトルピークを抑制する抑制手段と
を備えることを特徴とする音信号処理装置。
(付記3)
前記包絡算出手段は、音信号を第1変換により変換したスペクトルからケプストラムを算出し、算出したケプストラムに係る所定の次数より低次の成分を、第1変換の逆変換である第2変換により変換してスペクトル包絡を算出する様に構成してあることを特徴とする付記2に記載の音信号処理装置。
(付記4)
前記包絡除去手段は、スペクトルの値からスペクトル包絡の値を減算する様に構成してあることを特徴とする付記2又は付記3に記載の音信号処理装置。
(付記5)
前記検出手段は、スペクトル包絡を除去したスペクトルについて、所定の閾値より大きい値を示す帯域を、スペクトルピークを含む帯域として検出する様に構成してあることを特徴とする付記2乃至付記4のいずれかに記載の音信号処理装置。
(付記6)
前記検出手段は、スペクトル包絡を除去したスペクトルについて、所定幅の帯域中の値の集計値と、他の全帯域の値の集計値との比の値が所定の閾値より大きい値を示す帯域を、スペクトルピークを含む帯域として検出する様に構成してあることを特徴とする付記2乃至付記4のいずれかに記載の音信号処理装置。
(付記7)
前記検出手段は、スペクトル包絡を除去したスペクトルについて、第1所定幅の第1帯域中の値の集計値と、第1帯域の近傍の第2所定幅の第2帯域中の値の集計値との比が所定の閾値より大きい値を示す第1帯域を、スペクトルピークを含む帯域として検出する様に構成してあることを特徴とする付記2乃至付記4のいずれかに記載の音信号処理装置。
(付記8)
前記検出手段は、所定の個数を上限としてスペクトルピークを含む帯域を検出する様に構成してあることを特徴とする付記2乃至付記7のいずれかに記載の音信号処理装置。
(付記9)
前記抑制手段は、検出したスペクトルピークを含む帯域のスペクトルの値で、閾値以上である値を、閾値に基づく値に置換してスペクトルピークを抑制する様に構成してあることを特徴とする付記2乃至付記8のいずれかに記載の音信号処理装置。
(付記10)
前記抑制手段は、検出したスペクトルピークを含む帯域のスペクトルの値で、スペクトル包絡以上である値を、スペクトル包絡に基づく値に置換してスペクトルピークを抑制する様に構成してあることを特徴とする付記2乃至付記8のいずれかに記載の音信号処理装置。
(付記11)
前記抑制手段は、検出したスペクトルピークを含む帯域のスペクトルの値を、検出したスペクトルピークを含む帯域より広い帯域の値の集計値に置換してスペクトルピークを抑制する様に構成してあることを特徴とする付記2乃至付記8のいずれかに記載の音信号処理装置。
(付記12)
スペクトルピークを抑制した音信号に基づいて、音声認識処理を実行する手段を更に備えることを特徴とする付記2乃至付記11のいずれかに記載の音信号処理装置。
(付記13)
コンピュータに、取得した音に基づく音信号をスペクトルに変換して信号処理を実行させるコンピュータプログラムにおいて、
コンピュータに、スペクトルに基づくスペクトル包絡を算出させる手順と、
コンピュータに、スペクトルからスペクトル包絡を除去させる手順と、
コンピュータに、スペクトル包絡を除去したスペクトルからスペクトルピークを検出させる手順と、
コンピュータに、検出したスペクトルピークを抑制させる手順と
を実行させることを特徴とするコンピュータプログラム。
本発明の実施の形態1に係る音信号処理装置の構成例を示すブロック図である。 本発明の実施の形態1に係る音信号処理装置の処理の一例を示すフローチャートである。 本発明の実施の形態1に係る音信号処理装置のスペクトルの一例を示す図である。 本発明の実施の形態1に係る音信号処理装置の音信号の一例を示す波形図である。 本発明の実施の形態2に係る音信号処理装置のスペクトルの一例を示す図である。 本発明の実施の形態3に係る音信号処理装置のスペクトルの一例を示す図である。 従来の音声認識処理を示すフローチャートである。 スペクトルを示す図である。
符号の説明
1 音信号処理装置
10 制御手段
11 記録手段
11a コンピュータプログラム
11b 音響モデルデータベース
11c 言語辞書
12 記録手段
12a 音データバッファ
12b フレームバッファ
13 音取得手段
14 音出力手段
15 表示手段
16 ナビゲーション手段

Claims (10)

  1. 取得した音に基づく音信号を変換した原スペクトルにして信号処理を実行する音信号処理方法において、
    前記原スペクトルに基づくスペクトル包絡を算出し、
    前記原スペクトルからスペクトル包絡を除去し、
    スペクトル包絡を除去した包絡除去スペクトルからスペクトルピークを検出し、
    前記原スペクトルから、前記スペクトルピークを抑制する
    ことを特徴とする音信号処理方法。
  2. 取得した音に基づく音信号を変換した原スペクトルにして信号処理を実行する音信号処理装置において、
    前記原スペクトルに基づくスペクトル包絡を算出する包絡算出手段と、
    前記原スペクトルからスペクトル包絡を除去する包絡除去手段と、
    スペクトル包絡を除去した包絡除去スペクトルからスペクトルピークを検出する検出手段と、
    前記原スペクトルから、前記スペクトルピークを抑制する抑制手段と
    を備えることを特徴とする音信号処理装置。
  3. 前記包絡算出手段は、音信号を第1変換により変換した変換スペクトルからケプストラムを算出し、算出したケプストラムに係る所定の次数より低次の成分を、第1変換の逆変換である第2変換により変換してスペクトル包絡を算出する様に構成してあることを特徴とする請求項2に記載の音信号処理装置。
  4. 前記検出手段は、前記包絡除去スペクトルについて、所定の閾値より大きい値を示す帯域を、前記スペクトルピークを含む帯域として検出する様に構成してあることを特徴とする請求項2又は請求項3に記載の音信号処理装置。
  5. 前記検出手段は、前記包絡除去スペクトルについて、所定幅の帯域中の値の集計値と、他の全帯域の値の集計値との比の値が所定の閾値より大きい値を示す帯域を、前記スペクトルピークを含む帯域として検出する様に構成してあることを特徴とする請求項2又は請求項3に記載の音信号処理装置。
  6. 前記抑制手段は、前記スペクトルピークを含む帯域の前記原スペクトルの値で、閾値以上である値を、閾値に基づく値に置換して前記スペクトルピークを抑制する様に構成してあることを特徴とする請求項2乃至請求項5のいずれかに記載の音信号処理装置。
  7. 前記抑制手段は、前記スペクトルピークを含む帯域の前記原スペクトルの値で、スペクトル包絡以上である値を、スペクトル包絡に基づく値に置換して前記スペクトルピークを抑制する様に構成してあることを特徴とする請求項2乃至請求項5のいずれかに記載の音信号処理装置。
  8. 前記抑制手段は、前記スペクトルピークを含む帯域の前記原スペクトルの値を、前記スペクトルピークを含む帯域より広い帯域の値の集計値に置換して前記スペクトルピークを抑制する様に構成してあることを特徴とする請求項2乃至請求項5のいずれかに記載の音信号処理装置。
  9. 前記スペクトルピークを抑制した音信号に基づいて、音声認識処理を実行する手段を更に備えることを特徴とする請求項2乃至請求項8のいずれかに記載の音信号処理装置。
  10. コンピュータに、取得した音に基づく音信号を変換した原スペクトルにして信号処理を実行させるコンピュータプログラムにおいて、
    コンピュータに、前記原スペクトルに基づくスペクトル包絡を算出させる手順と、
    コンピュータに、前記原スペクトルからスペクトル包絡を除去させる手順と、
    コンピュータに、スペクトル包絡を除去した包絡除去スペクトルからスペクトルピークを検出させる手順と、
    コンピュータに、前記原スペクトルから、前記スペクトルピークを抑制させる手順と
    を実行させることを特徴とするコンピュータプログラム。
JP2006254931A 2006-09-20 2006-09-20 音信号処理方法、音信号処理装置及びコンピュータプログラム Expired - Fee Related JP4757158B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2006254931A JP4757158B2 (ja) 2006-09-20 2006-09-20 音信号処理方法、音信号処理装置及びコンピュータプログラム
DE102007001255.3A DE102007001255B4 (de) 2006-09-20 2007-01-08 Tonsignalverarbeitungsverfahren und -vorrichtung und Computerprogramm
US11/698,059 US20080069364A1 (en) 2006-09-20 2007-01-26 Sound signal processing method, sound signal processing apparatus and computer program
CN2007100083451A CN101149928B (zh) 2006-09-20 2007-01-29 声音信号处理方法、声音信号处理设备及计算机程序
KR1020070009338A KR100870889B1 (ko) 2006-09-20 2007-01-30 음신호 처리 방법, 음신호 처리 장치 및 기록 매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006254931A JP4757158B2 (ja) 2006-09-20 2006-09-20 音信号処理方法、音信号処理装置及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2008076676A JP2008076676A (ja) 2008-04-03
JP4757158B2 true JP4757158B2 (ja) 2011-08-24

Family

ID=39154761

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006254931A Expired - Fee Related JP4757158B2 (ja) 2006-09-20 2006-09-20 音信号処理方法、音信号処理装置及びコンピュータプログラム

Country Status (5)

Country Link
US (1) US20080069364A1 (ja)
JP (1) JP4757158B2 (ja)
KR (1) KR100870889B1 (ja)
CN (1) CN101149928B (ja)
DE (1) DE102007001255B4 (ja)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8401632B1 (en) * 2008-11-26 2013-03-19 Nuvasive, Inc. Systems and methods for performing neurophysiologic assessments
JP5141542B2 (ja) * 2008-12-24 2013-02-13 富士通株式会社 雑音検出装置及び雑音検出方法
US9432790B2 (en) * 2009-10-05 2016-08-30 Microsoft Technology Licensing, Llc Real-time sound propagation for dynamic sources
JP2011087118A (ja) * 2009-10-15 2011-04-28 Sony Corp 音声処理装置、音声処理方法、およびプログラム
US8818806B2 (en) * 2010-11-30 2014-08-26 JVC Kenwood Corporation Speech processing apparatus and speech processing method
JP5668553B2 (ja) 2011-03-18 2015-02-12 富士通株式会社 音声誤検出判別装置、音声誤検出判別方法、およびプログラム
JP5774191B2 (ja) * 2011-03-21 2015-09-09 テレフオンアクチーボラゲット エル エム エリクソン(パブル) オーディオ信号において卓越周波数を減衰させるための方法および装置
WO2012128679A1 (en) * 2011-03-21 2012-09-27 Telefonaktiebolaget L M Ericsson (Publ) Method and arrangement for damping dominant frequencies in an audio signal
CN102800317B (zh) * 2011-05-25 2014-09-17 华为技术有限公司 信号分类方法及设备、编解码方法及设备
JP6119604B2 (ja) * 2011-08-11 2017-04-26 日本電気株式会社 信号処理装置、信号処理方法、および信号処理プログラム
US9633654B2 (en) 2011-12-06 2017-04-25 Intel Corporation Low power voice detection
JP5874431B2 (ja) * 2012-02-20 2016-03-02 株式会社Jvcケンウッド 報知音検出装置、雑音信号抑制装置、報知音検出方法、雑音信号抑制方法
JP5915240B2 (ja) * 2012-02-20 2016-05-11 株式会社Jvcケンウッド 特殊信号検出装置、雑音信号抑制装置、特殊信号検出方法、雑音信号抑制方法
WO2013125257A1 (ja) 2012-02-20 2013-08-29 株式会社Jvcケンウッド 雑音信号抑制装置、雑音信号抑制方法、特殊信号検出装置、特殊信号検出方法、報知音検出装置、および、報知音検出方法
US9424731B2 (en) * 2012-08-01 2016-08-23 Yosef Korakin Multi level hazard detection system
CN103680514B (zh) * 2013-12-13 2016-06-29 广州市百果园网络科技有限公司 网络语音通信中的信号处理方法和系统
US9614724B2 (en) 2014-04-21 2017-04-04 Microsoft Technology Licensing, Llc Session-based device configuration
US10111099B2 (en) 2014-05-12 2018-10-23 Microsoft Technology Licensing, Llc Distributing content in managed wireless distribution networks
US9874914B2 (en) 2014-05-19 2018-01-23 Microsoft Technology Licensing, Llc Power management contracts for accessory devices
US10037202B2 (en) 2014-06-03 2018-07-31 Microsoft Technology Licensing, Llc Techniques to isolating a portion of an online computing service
US9367490B2 (en) 2014-06-13 2016-06-14 Microsoft Technology Licensing, Llc Reversible connector for accessory devices
US9510125B2 (en) 2014-06-20 2016-11-29 Microsoft Technology Licensing, Llc Parametric wave field coding for real-time sound propagation for dynamic sources
US9717006B2 (en) 2014-06-23 2017-07-25 Microsoft Technology Licensing, Llc Device quarantine in a wireless network
JP6018141B2 (ja) 2014-08-14 2016-11-02 株式会社ピー・ソフトハウス オーディオ信号処理装置、オーディオ信号処理方法およびオーディオ信号処理プログラム
CN104456830A (zh) * 2014-10-29 2015-03-25 无锡悟莘科技有限公司 一种智能空调的声音控制方法
US9734692B2 (en) 2015-06-15 2017-08-15 WALL SENSOR Ltd. Method for poisitioning a residental pest detector and a system for detecting residential pests
US9606226B2 (en) 2015-06-15 2017-03-28 WALL SENSOR Ltd. Method and system for detecting residential pests
CN106128355A (zh) * 2016-07-14 2016-11-16 北京智能管家科技有限公司 一种led灯阵的显示方法及装置
CN106856623B (zh) * 2017-02-20 2020-02-11 鲁睿 基带语音信号通讯噪声抑制方法及系统
US10602298B2 (en) 2018-05-15 2020-03-24 Microsoft Technology Licensing, Llc Directional propagation
US10932081B1 (en) 2019-08-22 2021-02-23 Microsoft Technology Licensing, Llc Bidirectional propagation of sound
CN110503973B (zh) * 2019-08-28 2022-03-22 浙江大华技术股份有限公司 音频信号瞬态噪音抑制方法、系统以及存储介质
CN111540344B (zh) * 2020-04-21 2022-01-21 北京字节跳动网络技术有限公司 声学网络模型训练方法、装置及电子设备
US11282382B1 (en) * 2020-12-22 2022-03-22 Waymo Llc Phase lock loop siren detection

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3555191A (en) * 1968-07-15 1971-01-12 Bell Telephone Labor Inc Pitch detector
US3566035A (en) * 1969-07-17 1971-02-23 Bell Telephone Labor Inc Real time cepstrum analyzer
US4538295A (en) * 1982-08-16 1985-08-27 Nissan Motor Company, Limited Speech recognition system for an automotive vehicle
JPS6086429A (ja) * 1983-10-19 1985-05-16 Tech Res & Dev Inst Of Japan Def Agency 船舶航走音分析装置
US4827516A (en) * 1985-10-16 1989-05-02 Toppan Printing Co., Ltd. Method of analyzing input speech and speech analysis apparatus therefor
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
US6236964B1 (en) * 1990-02-01 2001-05-22 Canon Kabushiki Kaisha Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data
DE69132645T2 (de) * 1990-05-28 2002-04-18 Matsushita Electric Ind Co Ltd Vorrichtung zur Sprachsignalverarbeitung für die Bestimmung eines Sprachsignals in einem verrauschten Sprachsignal
JP3343965B2 (ja) * 1992-10-31 2002-11-11 ソニー株式会社 音声符号化方法及び復号化方法
US5742928A (en) * 1994-10-28 1998-04-21 Mitsubishi Denki Kabushiki Kaisha Apparatus and method for speech recognition in the presence of unnatural speech effects
JP3094832B2 (ja) * 1995-03-24 2000-10-03 三菱電機株式会社 信号識別器
US5864798A (en) * 1995-09-18 1999-01-26 Kabushiki Kaisha Toshiba Method and apparatus for adjusting a spectrum shape of a speech signal
US5806022A (en) * 1995-12-20 1998-09-08 At&T Corp. Method and system for performing speech recognition
JPH09212196A (ja) * 1996-01-31 1997-08-15 Nippon Telegr & Teleph Corp <Ntt> 雑音抑圧装置
SE9700772D0 (sv) * 1997-03-03 1997-03-03 Ericsson Telefon Ab L M A high resolution post processing method for a speech decoder
US5970441A (en) * 1997-08-25 1999-10-19 Telefonaktiebolaget Lm Ericsson Detection of periodicity information from an audio signal
FR2768547B1 (fr) * 1997-09-18 1999-11-19 Matra Communication Procede de debruitage d'un signal de parole numerique
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US6453287B1 (en) * 1999-02-04 2002-09-17 Georgia-Tech Research Corporation Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
KR100334238B1 (ko) * 1999-12-23 2002-05-02 오길록 음성 파형의 포락선 정보를 이용한 음성/비음성 판별 장치및 그 방법
US6766292B1 (en) * 2000-03-28 2004-07-20 Tellabs Operations, Inc. Relative noise ratio weighting techniques for adaptive noise cancellation
US6941263B2 (en) * 2001-06-29 2005-09-06 Microsoft Corporation Frequency domain postfiltering for quality enhancement of coded speech
JP2003058186A (ja) * 2001-08-13 2003-02-28 Yrp Kokino Idotai Tsushin Kenkyusho:Kk 雑音抑圧方法および雑音抑圧装置
KR100880480B1 (ko) * 2002-02-21 2009-01-28 엘지전자 주식회사 디지털 오디오 신호의 실시간 음악/음성 식별 방법 및시스템
US7949522B2 (en) * 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
US7272551B2 (en) * 2003-02-24 2007-09-18 International Business Machines Corporation Computational effectiveness enhancement of frequency domain pitch estimators
US7231346B2 (en) * 2003-03-26 2007-06-12 Fujitsu Ten Limited Speech section detection apparatus
US7567900B2 (en) * 2003-06-11 2009-07-28 Panasonic Corporation Harmonic structure based acoustic speech interval detection method and device
WO2005041170A1 (en) * 2003-10-24 2005-05-06 Nokia Corpration Noise-dependent postfiltering
JP4413043B2 (ja) * 2004-03-09 2010-02-10 日本電信電話株式会社 周期性ノイズ抑圧方法、周期性ノイズ抑圧装置、周期性ノイズ抑圧プログラム
US20050288923A1 (en) * 2004-06-25 2005-12-29 The Hong Kong University Of Science And Technology Speech enhancement by noise masking
KR100639968B1 (ko) * 2004-11-04 2006-11-01 한국전자통신연구원 음성 인식 장치 및 그 방법
JP4761506B2 (ja) * 2005-03-01 2011-08-31 国立大学法人北陸先端科学技術大学院大学 音声処理方法と装置及びプログラム並びに音声システム
JP4448464B2 (ja) * 2005-03-07 2010-04-07 日本電信電話株式会社 雑音低減方法、装置、プログラム及び記録媒体
JP4958303B2 (ja) * 2005-05-17 2012-06-20 ヤマハ株式会社 雑音抑圧方法およびその装置
US8520861B2 (en) * 2005-05-17 2013-08-27 Qnx Software Systems Limited Signal processing system for tonal noise robustness
US8566086B2 (en) * 2005-06-28 2013-10-22 Qnx Software Systems Limited System for adaptive enhancement of speech signals
US7590530B2 (en) * 2005-09-03 2009-09-15 Gn Resound A/S Method and apparatus for improved estimation of non-stationary noise for speech enhancement
EP1772855B1 (en) * 2005-10-07 2013-09-18 Nuance Communications, Inc. Method for extending the spectral bandwidth of a speech signal
US20070239444A1 (en) * 2006-03-29 2007-10-11 Motorola, Inc. Voice signal perturbation for speech recognition

Also Published As

Publication number Publication date
JP2008076676A (ja) 2008-04-03
CN101149928B (zh) 2010-06-02
CN101149928A (zh) 2008-03-26
DE102007001255B4 (de) 2014-01-09
US20080069364A1 (en) 2008-03-20
KR20080026456A (ko) 2008-03-25
DE102007001255A1 (de) 2008-04-10
KR100870889B1 (ko) 2008-11-28

Similar Documents

Publication Publication Date Title
JP4757158B2 (ja) 音信号処理方法、音信号処理装置及びコンピュータプログラム
JP4868999B2 (ja) 音声認識方法、音声認識装置及びコンピュータプログラム
JP5229234B2 (ja) 非音声区間検出方法及び非音声区間検出装置
US9190072B2 (en) Local peak weighted-minimum mean square error (LPW-MMSE) estimation for robust speech
JP5723923B2 (ja) 音声特徴量抽出装置、及び音声特徴量抽出プログラム
US8812312B2 (en) System, method and program for speech processing
US9070375B2 (en) Voice activity detection system, method, and program product
US8566084B2 (en) Speech processing based on time series of maximum values of cross-power spectrum phase between two consecutive speech frames
US9087513B2 (en) Noise reduction method, program product, and apparatus
JP5282523B2 (ja) 基本周波数抽出方法、基本周波数抽出装置、およびプログラム
JP4571871B2 (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
JP2007079389A (ja) 音声分析方法および音声分析装置
JP4325044B2 (ja) 音声認識システム
WO2013132959A1 (ja) 雑音抑制方法、プログラム及び装置
JP4362072B2 (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
JP4226273B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
US20100063816A1 (en) Method and System for Parsing of a Speech Signal
JP2006084659A (ja) オーディオ信号分析方法、その方法を用いた音声認識方法、それらの装置、プログラムおよびその記録媒体
Hernando On the use of filter-bank energies driven from the autocorrelation sequence for noisy speech recognition.
Hernando Pericás On the use of filter bank energies driven from the osa sequence for noisy speech recognition
JP2006084665A (ja) オーディオ信号分析方法、その方法を用いた音声認識方法、それらの装置、プログラムおよびその記録媒体
JP2013156360A (ja) 音声認識装置、カーナビゲーション装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090518

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110304

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110315

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110510

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110531

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110531

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140610

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees