JP2009058708A - 音声処理システム、方法及びプログラム - Google Patents

音声処理システム、方法及びプログラム Download PDF

Info

Publication number
JP2009058708A
JP2009058708A JP2007225195A JP2007225195A JP2009058708A JP 2009058708 A JP2009058708 A JP 2009058708A JP 2007225195 A JP2007225195 A JP 2007225195A JP 2007225195 A JP2007225195 A JP 2007225195A JP 2009058708 A JP2009058708 A JP 2009058708A
Authority
JP
Japan
Prior art keywords
power spectrum
discrete cosine
output
signal
cosine transform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007225195A
Other languages
English (en)
Other versions
JP5089295B2 (ja
Inventor
Osamu Ichikawa
治 市川
Takashi Fukuda
隆 福田
Masafumi Nishimura
雅史 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2007225195A priority Critical patent/JP5089295B2/ja
Priority to US12/200,610 priority patent/US8812312B2/en
Publication of JP2009058708A publication Critical patent/JP2009058708A/ja
Application granted granted Critical
Publication of JP5089295B2 publication Critical patent/JP5089295B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】 雑音下でも安定した音声認識を可能ならしめる音声処理技法を提供すること。
【解決手段】 観測音声のケプストラムの上位項と下位項をカットすることにより、観測音声そのものから直接フィルタを設計するようにしたことによって、そのフィルタは、有声音の区間では調波構造部分に重みのあるフィルタとなり、調波構造がない無声音の区間では、フラットに近いフィルタとなる。この変化が連続的であるので、有声音の区間と無声音の区間を区別することなく、安定して処理をすることができる。
【選択図】 図6

Description

この発明は、音声認識技術に関し、特に、カーナビなど、雑音が大きい環境下でも、安定して音声認識を行うことができるシステム、方法及びそのプログラムに関する。
近年特に、自動車において、音声認識技術に対する要望が高まっている。すなわち、従来は、自動車において、カーナビのボタン操作、エアコンなど、運転とは直接関係ない操作も、手操作で行う必要があった。そのため、そのような操作の間、ハンドル操作が疎かになり、場合により、事故につながる危険性があった。
そこで、ドライバーが運転に集中しながら、音声の指示により、様々な操作を可能とするシステムを搭載した車があらわれている。これによれば、ドライバーが、運転中でも、音声で指示すると、マップライト部にあるマイクが音声を捉えて、システムはこの音声を認識し、コマンドに変換してカーナビを操作することにより、カーナビが作動する。同様にして、エアコンやオーディオの操作も音声で行うことができる。
しかし、自動車における音声認識は、多くの雑音に晒されるため、ノイズを抑えて高い認識率を達成することが困難であった。典型的な自動車走行中のノイズは、下記のとおりである。
1.音楽再生
2.同乗者妨害音声
3.ファン風量が大きいときのノイズ、及び窓開け
音楽再生に関しては、その音は、エコーキャンセラー技術で回避できる。同乗者妨害音声については、例えば、本出願人に係る特開2003−337594に記載されているようなマイクロフォンアレイ技術により、マイクに指向性を与えて、音声認識のマイクが、同乗者の音声を拾わないようにすることができる。しかし、ファン風量が大きいときのノイズ、及び窓開けの場合、音声が背景雑音に埋没し、従来から行われているSpectral Subtractionや、ウィーナフィルタなどの雑音除去技術をもってしても、十分な認識率を達成することは困難であった。そこで、雑音を除去するというアプローチでなく、人間の音声がもつ調波構造を利用して音声を雑音から浮かび上がらせようという方式が期待されている。
Liang Gu, Kenneth Rose, “Perceptual harmonic cepstral coefficients for speech recognition innoisy environment “, ICASSP '01. page(s): 125-128 vol.1、及び特開2001−249676に記載されている技術は、調波構造部分にフィルタの重み付けをするくし型フィルタであって、有声音の区間と無声音の区間を判定し、かつ有声音の区間での基本周波数(=F0またはピッチとも呼ばれる)を正確に推定することを処理の前提としていた。しかし、有声音の区間での基本周波数の正確な推定は、雑音環境下では不安定な処理であるため、実用化は困難であった。
特開2003−76393は、騒音環境下における音声推定方法および音声認識方法に関するものであり、入力音響信号を短時間セグメントごとに切り出し、短時間周波数分析を行う音響分析ステップと、音声推定に必要とする要素を推定する要素推定ステップと、要素推定ステップによって得られた要素を用いて音声を推定する音声推定ステップを含む音声推定方法であって、具体的には、入力音響信号を短時間セグメントごとに切り出し、短時間周波数分析を行い、音声認識が符合帳で保持する音声のスペクトル包絡を知識として利用し、音モデルを生成し、前記短時間周波数分析によって得られたスペクトル情報を確率密度関数とみなし、最大事後確率推定を用いて、混合重み値を推定し、各時刻で最大の重み値を持つ音モデルを生成した要素の存在仮定が最も尤度が高いとして、その要素を出力することを開示する。しかし、この開示技法は、調波構造の強調に関するものではない。
特開2001−249676 特開2003−76393 Liang Gu, Kenneth Rose, "Perceptual harmonic cepstral coefficients for speech recognition innoisy environment ", ICASSP '01. page(s): 125-128 vol.1
この発明の目的は、雑音下でも安定した音声認識を可能ならしめる音声処理技法を提供することにある。
本願発明者は、上述したような、雑音の存在下でいかに安定した音声認識を行うか、という問題を解決するために研究し、観測音声から基本周波数を推定して、その倍音を通過または増幅させるフィルタを設計する、という従来技術の延長線上では、なかなか有効な技法を考え出すことができなかった。そこで、さらに研究を進めた結果、非自明にも、観測音声そのものから、直接フィルタを設計する、というアイデアに想到したのである。
このように設計されたフィルタは、有声音の区間では調波構造部分に重みのあるフィルタとなり、調波構造がない無声音の区間では、フラットに近いフィルタとなる。この変化が連続的であるので、有声音の区間と無声音の区間を区別することなく処理をすることができる。また、基本周波数を明示的に推定する必要もないので動作が安定である。
本発明に基づくフィルタの作成は、下記のようにして行う。
1.処理フレーム毎に、観測音声の対数スペクトルを得る。
2.離散コサイン変換(DCT)により、そのケプストラム表現を得る。
3.人間の音声の調波構造の間隔より広い変化と狭い変化を除去すべく、ケプストラムの上位項と下位項をカット(ゼロに設定)する。
4.逆離散コサイン変換(IDCT)と指数関数により、そのスペクトル表現を得る。
5.平均が1になるように正規化し、それをフィルタとする。なお、この正規化ステップは、省略することもできる。
6.フィルタは、周波数bin ごとの重みとして求められている。これをフレーム毎にもとの観測音声のスペクトルに乗じる。
7.以下は、通常の音声認識処理と同様、メル軸での対数スペクトルを求め、メルケプストラムに変換し、音声認識の特徴量とする。
この本発明の技法は、Spectral substractionなどの既存の雑音除去技術と組み合わせることができる。なお、この本発明の技法は、本質的に、調波構造の強調であるため、音楽のような基本周波数をもつ雑音は、認識すべき人間の音声と同様に強調する傾向がある。これを補うため、指向性を与えるマイクロフォンアレイ技術や、エコーキャンセラー技術を前処理として、音楽ノイズや混合音声については、事前に除去することが有効である。
本発明によれば、観測音声そのものから、直接フィルタを設計するようにしたことによって、そのフィルタは、有声音の区間では調波構造部分に重みのあるフィルタとなり、調波構造がない無声音の区間では、フラットに近いフィルタとなる。この変化が連続的であるので、有声音の区間と無声音の区間を区別することなく、安定して処理をすることができる。
以下、本発明の実施例を図面に基づいて詳細に説明する。以下、特に注記しない限り、以下の説明の全体を通じて、同じ要素には同じ番号を付すものとする。
図1を参照すると、本発明を実施するための例示的なハードウェア構成の概要ブロック図が示されている。図1において、スピーカ102の付近で発生した音は、スピーカ102によってアナログ信号として、A/D変換器104に入力され、そこで、CPU106が処理可能な、ディジタル信号に変換される。
スピーカ102が拾う音は、例えば、カーナビの場合、運転者の話声、同乗者の話声だけでなく、エアコンの送風音、カーオーディオから出力される音、エンジン音、クラクションの音などが含まれる。車の窓が開けられている場合、対向車からの騒音、通行人の話し声、なども含まれる。
CPU106は、このように入力されたディジタル化された音声信号に対して、予め導入されているソフトウェア(図示しない)により、離散フーリエ変換、離散コサイン変換などの、音声情報処理に必要な処理を行う。CPU106によって行われる具体的な処理については、後で詳述する。
CPU106は、上記音声情報処理を行うために、ある程度のメモリ領域を必要とする。例えば、離散フーリエ変換、離散コサイン変換のためには、行列計算が行われるので、行列の変数及び中間的な値を格納する領域が必要である。このため、好適には、ランダム・アクセス・メモリ(RAM)であるメモリ108がCPU106に接続され、CPU106によってデータを読み書き可能になっている。CPU106には、適当な入出力インターフェース(図示しない)を介して、表示装置110が接続されている。表示装置110は、ユーザに、処理内容や処理状況、その他の視覚的情報を提供するために使用される。
図1の実施例では、CPU106が処理した結果のディジタル的な音声信号は、D/A変換器112によって、アナログ信号に変換される。このアナログ信号は、音声認識装置に渡され、処理される。また、この場合、アナログ信号なので、ユーザーがそのまま、スピーカ(図示しない)で聴くこともできる。よって、この構成は、補聴器のような目的にも使用することができる。
図2の実施例は、図1のD/A変換器112が、通信装置202で置き換えられている以外は、図1と同一の構成である。図2の実施例では、CPU106が処理した結果のディジタル的な音声信号は、PCI、イーサネット(商標)などのディジタル通信方式で、音声認識装置に渡され、処理される。
図3の実施例は、図1のD/A変換器112が、共有メモリ302で置き換えられている以外は、図1と同一の構成である。共有メモリ302は、メモリ108の一部であってもよいし、別のメモリであってもよい。図3の実施例では、CPU106が処理した結果のディジタル的な音声信号は、共有メモリ302に配置され、適当なタイミングで、音声認識装置がそこから音声信号のデータを読み取ることになる。
図4は、従来から知られている、典型的な音声認識のための前処理を示す。図4の左から入ってくる音声信号は、予め、図1〜図3に示すA/D変換器104により、ディジタル信号に変換されているものとする。
そのディジタル化された音声信号は、ブロック402で、ハニング窓、ハミング窓などの適当に方法でまずフレーム化処理され、次に離散フーリエ変換されて、音声信号のスペクトルが、ブロック404で、メルフィルター離散コサイン変換されて、対数スケールのケプストラムである、メルケプストラムが得られる。ここで、対数スケールが使用される理由は、人間の聴覚の特性が、経験上、対数スケールであるからである。こうして得られたメルケプストラムを用いて、ブロック406では、HMM、音響モデル、Nグラム言語モデルなどの既知の方法により、音声認識が行われるが、音声認識処理自体は、本発明の要旨ではないので、これ以上の説明は、省略する。
図5は、本発明の技法の位置づけを示す図である。すなわち、図示されるように、本発明の処理ブロック502は、従来技術における、音声信号のスペクトルを出力するブロック402と、メルケプストラムを出力するブロック404の間に、全体の処理の一貫性を維持しつつ、すなわち、他のブロックの機能に変更を加えないで、挿入することができる。このことは、本発明の処理技法の有利な特徴の1つである。処理ブロック502の機能を要約して述べると、観測音声そのものから、直接フィルタを生成し、そのフィルタをかけた出力を、ブロック404に引き渡すことである。このフィルタの作成処理は、音声フレーム毎に独立して行われ、すなわち、音声フレーム毎に新たにフィルタが作成されることになる。なお、ブロック406の音声認識部で使用される音響モデルには、学習用音声を使用して作成されるが、その作成の際においても、本発明のブロック502を用いることが好適である。
次に、図6を参照して、本発明の実施例に係る、音声処理について説明する。図6には、観測音声のスペクトル602の例が示されている。jを離散フーリエ変換のbin番号とし、観測音声のTフレーム目のパワースペクトルをyT(j)とすると、ステップ604では、下記の式により、対数スペクトルYT(j)が計算される。
YT(j) = log(yT(j))
また、この対数スペクトルを算出する際、より安定した表現を得るために、前後数フレームのパワースペクトルを平均したものを用いても良い。よって、本明細書における「対数スペクトル」という用語は、前後数フレームのパワースペクトルを平均したものの対数スペクトルも含むものとする。
尚、bin番号とは、離散フーリエ変換の周波数に対応するものである。例えば、サンプリング周波数16KHz で、512ポイントの離散フーリエ変換をかけると、
bin番号 周波数
0 0 Hz
1 31.25Hz
2 62.5Hz
3 93.75Hz
: :
256 8000Hz
となる。すなわち、離散フーリエ変換の出力は、階段状の周波数ごとにまとめられ、番号で参照される。
このような処理の結果の波形を、雑音の例に関して波形604aに示し、有声音の例に関して波形604bに示す。図示されているように、雑音の例と、有声音の例は、それぞれ異なるフレームから取られたものである。
次に、離散コサイン変換行列を、D(i,j)とする。すると、ステップ606で、ケプストラムCT(i)は、次のように求められる。
なお、離散コサイン変換行列は、下記のような要素成分をもつ。
このような処理の結果の波形を、雑音の例に関して波形606aに示し、有声音の例に関して波形606bに示す。
ケプストラムは、対数スペクトルの外形の特徴を抽出した係数であるので、ステップ608で、人間の発声の調波構造に対応した領域の項のみ残し、それ以外の項をカットする。そのために、下記の式で示す処理を行う。
このような処理の結果の波形を、雑音の例に関して波形608aに示し、有声音の例に関して波形608bに示す。上記の式で、εは、0または非常に小さい定数である。lower_cep_numと、upper_cep_numは、人間の発声の調波構造としてあり得る範囲に対応する。1つの実験例では、人間の発声の基本周波数は、100MHzから400MHzの間にあると仮定し、lower_cep_num = 40且つ、upper_cep_num = 160と設定した。但し、これは、サンプリング周波数16KHz、FFT幅512点としてた場合の設定の例である。
次に、ステップ610では、逆離散コサイン変換をかけて、加工されたケプストラムを対数スペクトル領域に戻す処理が行われる。それは、下記のような式で示す処理を行う。
ここで、D-1(j,i)は、逆離散コサイン変換行列D-1のi,j成分を示す。D-1は、上記した離散コサイン変換行列Dの逆行列であり、一般的には、Dはユニタリ行列なので、D-1は、Dの転置行列として、求められる。
このような処理の結果の波形を、雑音の例に関して波形610aに示し、有声音の例に関して波形610bに示す。
ステップ612では、逆離散コサイン変換をかけた結果に対して、先ず、下記の式によって、対数スペクトル領域から、パワースペクトル領域に戻す処理が行われる。それには、下記の数式の処理を行う。
次に、下記の式により、平均値が1になるように正規化し、以って最終的なフィルタを作成する。下記の式で、Num_binは、bin総数である。この結果のフィルタを、雑音の例の場合612a、有声音の例の場合612bとして、それぞれ示す。これらから、雑音の場合はフィルタが全般にピークが低くてなだらかで、有声音の場合に、高く尖ったピークをもつことが見て取れる。
ステップ614では、下記の式で示すように、フレームTのパワースペクトルに、このようにして得られた信号を、bin毎の重み係数として掛け合わせることによってフィルタとして作用させることで、観測音声の強調が行われる。
こうして得られたzT(j)は、bin番号jのTフレーム目の出力音声のパワースペクトルであり、雑音の例の場合は、スペクトル614aのようになり、有声音の例の場合は、スペクトル614bのようになる。ここで、スペクトル604aとスペクトル614aを比較すると、雑音の例の場合は、図6に示す処理の結果、スペクトルに目だった変化がないことが見て取れる。一方、有声音の例の場合は、スペクトル604bに比較すると、スペクトル614bで、図6に示す処理の結果、フォルマントが高くなっており、これにより、雑音の存在下でも高い精度で音声認識を可能ならしめることができることがわかる。
ところで、本発明を適用することにより、本発明を用いない場合と比較して、離散コサイン変換が1回、逆離散コサイン変換が1回増加する。すなわち、FFT幅が512点のときに、256x256の行列を256次元のベクトルに乗ずる計算が2回生じるということである。これは、音声認識自身に必要な計算量と比べれば、大した計算量ではないが、次の例に示すように、2回を1回に減らし、計算量を削減することが可能である。
Y …観測音声の対数スペクトルのベクトル 256次元
D …離散コサイン変換行列 256x256次元
A …上位項と下位項をカットする行列 256x256次元
W …逆離散コサイン変換後の対数スペクトル 256次元
但しAは、下記のような形式の行列である。この行列中、εは、図6のステップ608で言及したのと同じ小さい数である。
これによれば、W = D-1ADYであって、DもAも固定値の行列なので、D-1ADの部分を予め計算して1個の行列にしておけば、計算量の削減、すなわち計算時間の短縮が可能である。
図7は、音声強調された出力を、時間領域の音声信号として音声認識装置に提供する場合の機能ブロック図を示す。例えば、図示されている個々の機能ブロック図は、本発明に係る音声処理システムの個々のソフトウェア処理モジュールであると考えることもできる。
図7において、音声入力部702は、図1のA/D変換器104の機能によって、音声ディジタル信号を提供する。DFT部704は、離散フーリエ変換機能により、パワースペクトルを出力する。対数スペクトル生成部706は、DFT部704からパワースペクトルを入力して、図6の処理ステップ604に関して説明した機能を実行する。DCT部708は、対数スペクトル生成部706からの出力を入力して、図6の処理ステップ606に関して説明した機能を実行する。ケプストラム上位・下位項のカット部710は、DCT部708からの出力を入力して、図6の処理ステップ608に関して説明した機能を実行する。I−DCT部712は、ケプストラム上位・下位項のカット部710からの出力を入力して、図6の処理ステップ610に関して説明した機能を実行する。フィルタ作成部714は、I−DCT部712からの出力を入力して、図6の処理ステップ612に関して説明した機能を実行する。フィルタ実行部716は、DFT部704からのパワースペクトルと、フィルタ作成部714からの出力を入力して、図6の処理ステップ614に関して説明した機能を実行する。フィルタ実行部716の出力と、音声入力部702の出力は、I−DFT(逆離散フーリエ変換)部718に入力され、時間領域のディジタル音声信号に変換される。このディジタル音声信号は、例えばD/A変換器とスピーカをもつ出力部により、人間が可聴な音声信号として出力される。
図8は、音声強調された出力を、スペクトル領域の音声信号として音声認識装置に提供する場合の機能ブロック図を示す。ここでも、図示されている個々の機能ブロック図は、本発明に係る音声処理システムの個々のソフトウェア処理モジュールであると考えることもできる。
図8において、音声入力部802は、図1のA/D変換器104の機能によって、音声ディジタル信号を提供する。DFT部804は、離散フーリエ変換機能により、パワースペクトルを出力する。対数スペクトル生成部806は、DFT部804からパワースペクトルを入力して、図6の処理ステップ604に関して説明した機能を実行する。DCT部808は、対数スペクトル生成部806からの出力を入力して、図6の処理ステップ606に関して説明した機能を実行する。ケプストラム上位・下位項のカット部810は、DCT部808からの出力を入力して、図6の処理ステップ608に関して説明した機能を実行する。I−DCT部812は、ケプストラム上位・下位項のカット部810からの出力を入力して、図6の処理ステップ610に関して説明した機能を実行する。フィルタ作成部814は、I−DCT部812からの出力を入力して、図6の処理ステップ612に関して説明した機能を実行する。フィルタ実行部816は、DFT部804からのパワースペクトルと、フィルタ作成部814からの出力を入力して、図6の処理ステップ614に関して説明した機能を実行する。フィルタ実行部816の出力は、スペクトル領域の音声信号として音声認識装置に提供され、出力部818は、図2の通信装置202または図3の共有メモリ302であってよい。
次に、本発明に係る音声処理の評価実験について述べる。評価実験には、情報処理学会(IPSJ) SIG-SLP 雑音下音声認識評価ワーキンググループ の、自動車内音声認識の評価用データベースCENSREC-3 (Corpus and Environments for Noisy Speech RECognition) を使用した。
CENSREC-3には、通常走行、ハザードON、エアコン(Low)、エアコン(High)、オーディオON、窓開など各種環境条件にて自動車内で発声された単語音声が含まれている。音声データは、学習用と評価用に分かれており、学習用データにて音響モデルの作成を行い、その音響モデルを用いて評価用データの音声認識を実行し、認識率評価する枠組みとなっている。ここでは、音声認識フロントエンドを変更しない通常の音声認識の実行またはその結果を、ベースラインと呼び、本発明のような音声認識フロントエンドの変更によって、どれくらいベースラインから認識率が改善されたかを評価した。
CENSREC-3 は、学習用データと評価用データの選択のしかたにより、コンディション1 からコンディション6までの評価コンディションがある。今回は、実用のシナリオに近い、学習用にも評価用にも遠隔マイク音声を使うコンディション3で評価実験を行った。
以下の表に、結果の単語認識率(正確度%) を示す。今回は、背景に音楽雑音があると副作用が発生するであろうことが予想されるので、オーディオ・オンのケースとそれ以外の全てのケースで集計を分けた。また、改善を期待できる窓開とエアコン・ハイのケースの結果についても個別に付記した。
ベースラインに対し、本発明の処理を施した音声認識は、オーディオ・オン以外のケースにおいて、認識率を改善している。特に、今回の課題であった窓開やエアコン・ハイのケースで大幅な改善を示した。一方で、オーディオ・オンのケースでは、認識率はベースラインより劣化した。但し、オーディオからの音声をノイズとして拾うことは、周知のエコーキャンセリングの技術により効果的に抑えることができるので、比較的容易に回避可能であることを理解されたい。
本発明の技法は、Spectral Subtraction (SS)など従来からある雑音除去手法と併用できる。表の ”SS+本発明” に示すように、オーディオON以外のケースにおいて、SSと本発明の技法の組み合わせにより、SS単体、本発明の技法単体単体よりも大きな認識率の改善を達成した。
以上、本発明の上記実施例では、主として音声認識システムの前処理システムとして説明してきたが、このような用途に限らず、その雑音抑制特性を利用して、図1に示すような構成により、補聴器などの用途に好適に適用することができる。
本発明を実施するためのハードウェア構成の概略ブロック図である。 本発明を実施するための、別のハードウェア構成の概略ブロック図である。 本発明を実施するための、さらに別のハードウェア構成の概略ブロック図である。 従来の典型的な音声認識システムの処理ブロック図である。 従来の典型的な音声認識システムに、本発明を適用した処理ブロック図である。 本発明の音声処理のフローチャートと、対応するスペクトルを示す図である。 音声強調された出力を、時間領域の音声信号として音声認識装置に提供する場合の機能ブロック図である。 音声強調された出力を、スペクトル領域の音声信号として音声認識装置に提供する場合の機能ブロック図である。

Claims (12)

  1. コンピュータにより、音声信号を処理するためのシステムであって、
    音声信号のパワースペクトルを入力して、該パワースペクトルの対数スペクトルを生成する手段と、
    前記対数スペクトルを生成する手段の出力を、離散コサイン変換する手段と、
    前記離散コサイン変換する手段の出力を入力して、該出力のケプストラム上位及び下位項をカットする手段と、
    前記ケプストラム上位及び下位項をカットする手段の出力を入力して、逆離散コサイン変換する手段と、
    前記逆離散コサイン変換する手段の出力を、パワースペクトル領域に戻すように変換する手段と、
    前記パワースペクトル領域に戻された出力を、前記音声信号のパワースペクトルに対して、フィルタするように作用させる手段を有する、
    音声処理システム。
  2. 前記パワースペクトル領域に戻すように変換する手段が、前記逆離散コサイン変換する手段の出力を正規化する手段をさらに有する、請求項1の音声処理システム。
  3. 前記ケプストラム上位及び下位項をカットする手段は、人間の音声としてありえる範囲の調波構造に対応する領域を残すようにカットする、請求項1の音声処理システム。
  4. コンピュータにより、音声信号を処理するための方法であって、
    音声信号のパワースペクトルを入力して、該パワースペクトルの対数スペクトル信号を生成するステップと、
    前記対数スペクトル信号を、離散コサイン変換するステップと、
    前記離散コサイン変換された信号の、ケプストラム上位及び下位項をカットするステップと、
    前記ケプストラム上位及び下位項をカットされた信号を、逆離散コサイン変換するステップと、
    前記逆離散コサイン変換された信号を、パワースペクトル領域に戻すステップと、
    前記パワースペクトル領域に戻された信号を、前記音声信号のパワースペクトルに対して、フィルタするように作用させるステップとを有する、
    音声処理方法。
  5. 前記パワースペクトル領域に戻された信号を正規化するステップをさらに有する、請求項4の音声処理方法。
  6. 前記ケプストラム上位及び下位項をカットするステップは、人間の音声としてありえる範囲の調波構造に対応する領域を残すようにカットする、請求項4の音声処理方法。
  7. コンピュータの処理によって、音声認識のために、音声信号を処理するためのプログラムであって、
    前記コンピュータに、
    音声信号のパワースペクトルを入力して、該パワースペクトルの対数スペクトル信号を生成するステップと、
    前記対数スペクトル信号を、離散コサイン変換するステップと、
    前記離散コサイン変換された信号の、ケプストラム上位及び下位項をカットするステップと、
    前記ケプストラム上位及び下位項をカットされた信号を、逆離散コサイン変換するステップと、
    前記逆離散コサイン変換された信号を、パワースペクトル領域に戻すステップと、
    前記パワースペクトル領域に戻された信号を、前記音声信号のパワースペクトルに対して、フィルタとして作用させるステップを実行させる、
    音声処理プログラム。
  8. 前記パワースペクトル領域に戻された信号を正規化するステップをさらに有する、請求項7の音声処理プログラム。
  9. 前記ケプストラム上位及び下位項をカットするステップは、人間の音声としてありえる範囲の調波構造に対応する領域を残すようにカットする、請求項7の音声処理プログラム。
  10. コンピュータにより、音声認識を行うためのシステムであって、
    音声信号のパワースペクトルを入力して、該パワースペクトルの対数スペクトルを生成する手段と、
    前記対数スペクトルの出力を、離散コサイン変換する手段と、
    前記離散コサイン変換する手段の出力を入力して、ケプストラム上位及び下位項をカットする手段と、
    前記ケプストラム上位及び下位項をカットする手段の出力を入力して、逆離散コサイン変換する手段と、
    前記逆離散コサイン変換する手段の出力を、パワースペクトル領域に戻すように変換する手段と、
    前記パワースペクトル領域に戻された出力を、前記音声信号のパワースペクトルに対して、フィルタとして作用させる手段を有し、
    前記フィルタされたパワースペクトルを用いて、音声認識処理を行う、
    音声認識システム。
  11. 前記パワースペクトル領域に戻すように変換する手段が、前記逆離散コサイン変換する手段の出力を正規化する手段をさらに有する、請求項10の音声認識システム。
  12. コンピュータにより、マイクから取り込んだ音声を出力するためのシステムであって、
    前記マイクから取り込んだ音声をA/D変換して、ディジタル音声信号として出力する手段と、
    前記ディジタル音声信号を離散フーリエ変換して、音声信号のパワースペクトルとして出力する手段と、
    前記音声信号のパワースペクトルを入力して、該パワースペクトルの対数スペクトルを生成する手段と、
    前記対数スペクトルの出力を、離散コサイン変換する手段と、
    前記離散コサイン変換する手段の出力を入力して、ケプストラム上位及び下位項をカットする手段と、
    前記ケプストラム上位及び下位項をカットする手段の出力を入力して、逆離散コサイン変換する手段と、
    前記逆離散コサイン変換する手段の出力を、パワースペクトル領域に戻すように変換する手段と、
    前記パワースペクトル領域に戻された出力を、前記音声信号のパワースペクトルに対して、フィルタとして作用させる手段と、
    前記フィルタされたパワースペクトルをD/A変換して、アナログ音声信号として出力する手段を有する、
    音声出力システム。
JP2007225195A 2007-08-31 2007-08-31 音声処理システム、方法及びプログラム Expired - Fee Related JP5089295B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007225195A JP5089295B2 (ja) 2007-08-31 2007-08-31 音声処理システム、方法及びプログラム
US12/200,610 US8812312B2 (en) 2007-08-31 2008-08-28 System, method and program for speech processing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007225195A JP5089295B2 (ja) 2007-08-31 2007-08-31 音声処理システム、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2009058708A true JP2009058708A (ja) 2009-03-19
JP5089295B2 JP5089295B2 (ja) 2012-12-05

Family

ID=40554507

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007225195A Expired - Fee Related JP5089295B2 (ja) 2007-08-31 2007-08-31 音声処理システム、方法及びプログラム

Country Status (2)

Country Link
US (1) US8812312B2 (ja)
JP (1) JP5089295B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011024572A1 (ja) * 2009-08-28 2011-03-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム
JP2011164126A (ja) * 2010-02-04 2011-08-25 Nippon Telegr & Teleph Corp <Ntt> 雑音抑圧フィルタ算出方法と、その装置と、プログラム
WO2013140733A1 (ja) * 2012-03-23 2013-09-26 パナソニック株式会社 帯域パワー算出装置及び帯域パワー算出方法
JP2014502737A (ja) * 2011-01-11 2014-02-03 ワランデル アルネ 音の強弱変更
US9070375B2 (en) 2008-02-29 2015-06-30 International Business Machines Corporation Voice activity detection system, method, and program product
JP2015188395A (ja) * 2014-03-28 2015-11-02 株式会社クボタ コンバイン
JP2020510862A (ja) * 2017-02-24 2020-04-09 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 周期的表示を用いる音識別

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2689419B1 (en) 2011-03-21 2015-03-04 Telefonaktiebolaget L M Ericsson (PUBL) Method and arrangement for damping dominant frequencies in an audio signal
WO2012128678A1 (en) * 2011-03-21 2012-09-27 Telefonaktiebolaget L M Ericsson (Publ) Method and arrangement for damping of dominant frequencies in an audio signal
US9076446B2 (en) * 2012-03-22 2015-07-07 Qiguang Lin Method and apparatus for robust speaker and speech recognition
CN103366737B (zh) * 2012-03-30 2016-08-10 株式会社东芝 在自动语音识别中应用声调特征的装置和方法
CN104063155B (zh) * 2013-03-20 2017-12-19 腾讯科技(深圳)有限公司 内容分享方法、装置及电子设备
US9507852B2 (en) * 2013-12-10 2016-11-29 Google Inc. Techniques for discriminative dependency parsing
CN105812995B (zh) * 2016-03-09 2018-11-09 西安航空学院 一种噪音滤除方法和装置
EP3242295B1 (en) * 2016-05-06 2019-10-23 Nxp B.V. A signal processor
EP3396670B1 (en) * 2017-04-28 2020-11-25 Nxp B.V. Speech signal processing
US11545143B2 (en) 2021-05-18 2023-01-03 Boris Fridman-Mintz Recognition or synthesis of human-uttered harmonic sounds

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04116700A (ja) * 1990-09-07 1992-04-17 Mitsubishi Electric Corp 音声分析・合成装置
JPH06289896A (ja) * 1993-03-31 1994-10-18 Hitachi Ltd 音声の特徴強調方式および装置
JPH08275087A (ja) * 1995-04-04 1996-10-18 Matsushita Electric Ind Co Ltd 音声加工テレビ
JP2000020090A (ja) * 1998-06-30 2000-01-21 Denso Corp 要求推定装置
JP2001249676A (ja) * 2000-03-06 2001-09-14 Japan Science & Technology Corp 雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法
JP2003076393A (ja) * 2001-08-31 2003-03-14 Inst Of Systems Information Technologies Kyushu 騒音環境下における音声推定方法および音声認識方法
JP2003108200A (ja) * 2001-09-27 2003-04-11 Kenwood Corp 音声信号雑音除去装置、音声信号雑音除去方法及びプログラム
JP2004012700A (ja) * 2002-06-05 2004-01-15 Canon Inc 音声合成方法および装置並びに辞書生成方法および装置
JP2004297273A (ja) * 2003-03-26 2004-10-21 Kenwood Corp 音声信号雑音除去装置、音声信号雑音除去方法及びプログラム
JP2005062442A (ja) * 2003-08-12 2005-03-10 Kenwood Corp 波形接続装置、波形接続方法及びプログラム
JP2007025296A (ja) * 2005-07-15 2007-02-01 Yamaha Corp 音声特徴量算出装置およびプログラム
JP2007079389A (ja) * 2005-09-16 2007-03-29 Yamaha Motor Co Ltd 音声分析方法および音声分析装置
JP2008026777A (ja) * 2006-07-25 2008-02-07 Casio Comput Co Ltd 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5721694A (en) * 1994-05-10 1998-02-24 Aura System, Inc. Non-linear deterministic stochastic filtering method and system
US5727124A (en) * 1994-06-21 1998-03-10 Lucent Technologies, Inc. Method of and apparatus for signal recognition that compensates for mismatching
US5594834A (en) * 1994-09-30 1997-01-14 Motorola, Inc. Method and system for recognizing a boundary between sounds in continuous speech
AU5359498A (en) * 1996-11-22 1998-06-10 T-Netix, Inc. Subword-based speaker verification using multiple classifier fusion, with channel, fusion, model, and threshold adaptation
US6711536B2 (en) * 1998-10-20 2004-03-23 Canon Kabushiki Kaisha Speech processing apparatus and method
JP2001024976A (ja) 1999-07-06 2001-01-26 Canon Inc 画像処理装置及び電子カメラ及びそれらの制御方法並びにメモリ媒体
US6732073B1 (en) * 1999-09-10 2004-05-04 Wisconsin Alumni Research Foundation Spectral enhancement of acoustic signals to provide improved recognition of speech
US6366880B1 (en) * 1999-11-30 2002-04-02 Motorola, Inc. Method and apparatus for suppressing acoustic background noise in a communication system by equaliztion of pre-and post-comb-filtered subband spectral energies
JP2002149200A (ja) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法
WO2002029782A1 (en) * 2000-10-02 2002-04-11 The Regents Of The University Of California Perceptual harmonic cepstral coefficients as the front-end for speech recognition
US7035797B2 (en) * 2001-12-14 2006-04-25 Nokia Corporation Data-driven filtering of cepstral time trajectories for robust speech recognition
JP4195267B2 (ja) 2002-03-14 2008-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
JP2004356894A (ja) * 2003-05-28 2004-12-16 Mitsubishi Electric Corp 音質調整装置
US7516067B2 (en) * 2003-08-25 2009-04-07 Microsoft Corporation Method and apparatus using harmonic-model-based front end for robust speech recognition
JP2005249816A (ja) * 2004-03-01 2005-09-15 Internatl Business Mach Corp <Ibm> 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム
US7698143B2 (en) * 2005-05-17 2010-04-13 Mitsubishi Electric Research Laboratories, Inc. Constructing broad-band acoustic signals from lower-band acoustic signals
US7809559B2 (en) * 2006-07-24 2010-10-05 Motorola, Inc. Method and apparatus for removing from an audio signal periodic noise pulses representable as signals combined by convolution
US7672842B2 (en) * 2006-07-26 2010-03-02 Mitsubishi Electric Research Laboratories, Inc. Method and system for FFT-based companding for automatic speech recognition
US20080071540A1 (en) * 2006-09-13 2008-03-20 Honda Motor Co., Ltd. Speech recognition method for robot under motor noise thereof
US8032365B2 (en) * 2007-08-31 2011-10-04 Tellabs Operations, Inc. Method and apparatus for controlling echo in the coded domain

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04116700A (ja) * 1990-09-07 1992-04-17 Mitsubishi Electric Corp 音声分析・合成装置
JPH06289896A (ja) * 1993-03-31 1994-10-18 Hitachi Ltd 音声の特徴強調方式および装置
JPH08275087A (ja) * 1995-04-04 1996-10-18 Matsushita Electric Ind Co Ltd 音声加工テレビ
JP2000020090A (ja) * 1998-06-30 2000-01-21 Denso Corp 要求推定装置
JP2001249676A (ja) * 2000-03-06 2001-09-14 Japan Science & Technology Corp 雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法
JP2003076393A (ja) * 2001-08-31 2003-03-14 Inst Of Systems Information Technologies Kyushu 騒音環境下における音声推定方法および音声認識方法
JP2003108200A (ja) * 2001-09-27 2003-04-11 Kenwood Corp 音声信号雑音除去装置、音声信号雑音除去方法及びプログラム
JP2004012700A (ja) * 2002-06-05 2004-01-15 Canon Inc 音声合成方法および装置並びに辞書生成方法および装置
JP2004297273A (ja) * 2003-03-26 2004-10-21 Kenwood Corp 音声信号雑音除去装置、音声信号雑音除去方法及びプログラム
JP2005062442A (ja) * 2003-08-12 2005-03-10 Kenwood Corp 波形接続装置、波形接続方法及びプログラム
JP2007025296A (ja) * 2005-07-15 2007-02-01 Yamaha Corp 音声特徴量算出装置およびプログラム
JP2007079389A (ja) * 2005-09-16 2007-03-29 Yamaha Motor Co Ltd 音声分析方法および音声分析装置
JP2008026777A (ja) * 2006-07-25 2008-02-07 Casio Comput Co Ltd 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9070375B2 (en) 2008-02-29 2015-06-30 International Business Machines Corporation Voice activity detection system, method, and program product
JP5315414B2 (ja) * 2009-08-28 2013-10-16 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム
US8468016B2 (en) 2009-08-28 2013-06-18 International Business Machines Corporation Speech feature extraction apparatus, speech feature extraction method, and speech feature extraction program
DE112010003461B4 (de) 2009-08-28 2019-09-05 International Business Machines Corporation Vorrichtung zur Extraktion von Sprachmerkmalen, Verfahren zur Extraktion von Sprachmerkmalen und Programm zur Extraktion von Sprachmerkmalen
GB2485926B (en) * 2009-08-28 2013-06-05 Ibm Speech feature extracting apparatus, speech feature extracting method, and speech feature extracting program
US8930185B2 (en) 2009-08-28 2015-01-06 International Business Machines Corporation Speech feature extraction apparatus, speech feature extraction method, and speech feature extraction program
JP2013178575A (ja) * 2009-08-28 2013-09-09 Internatl Business Mach Corp <Ibm> 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム
WO2011024572A1 (ja) * 2009-08-28 2011-03-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム
GB2485926A (en) * 2009-08-28 2012-05-30 Ibm Audio feature extracting apparatus, audio feature extracting method, and audio feature extracting program
DE112010003461T5 (de) 2009-08-28 2012-07-26 International Business Machines Corp. Vorrichtung zur extraktion von sprachmerkmalen,verfahren zur extraktion von sprachmerkmalen und programm zurextraktion von sprachmerkmalen
JP2011164126A (ja) * 2010-02-04 2011-08-25 Nippon Telegr & Teleph Corp <Ntt> 雑音抑圧フィルタ算出方法と、その装置と、プログラム
JP2014502737A (ja) * 2011-01-11 2014-02-03 ワランデル アルネ 音の強弱変更
WO2013140733A1 (ja) * 2012-03-23 2013-09-26 パナソニック株式会社 帯域パワー算出装置及び帯域パワー算出方法
JPWO2013140733A1 (ja) * 2012-03-23 2015-08-03 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 帯域パワー算出装置及び帯域パワー算出方法
US9581623B2 (en) 2012-03-23 2017-02-28 Panasonic Intellectual Property Corporation Of America Band power computation device and band power computation method
JP2015188395A (ja) * 2014-03-28 2015-11-02 株式会社クボタ コンバイン
JP2020510862A (ja) * 2017-02-24 2020-04-09 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 周期的表示を用いる音識別
JP7100855B2 (ja) 2017-02-24 2022-07-14 インターナショナル・ビジネス・マシーンズ・コーポレーション 周期的表示を用いる音識別

Also Published As

Publication number Publication date
US20090210224A1 (en) 2009-08-20
US8812312B2 (en) 2014-08-19
JP5089295B2 (ja) 2012-12-05

Similar Documents

Publication Publication Date Title
JP5089295B2 (ja) 音声処理システム、方法及びプログラム
JP5723923B2 (ja) 音声特徴量抽出装置、及び音声特徴量抽出プログラム
JP5875414B2 (ja) 雑音抑制方法、プログラム及び装置
JP5230103B2 (ja) 自動音声認識器のためのトレーニングデータを生成する方法およびシステム
JP5505896B2 (ja) 発話区間検出システム、方法及びプログラム
US6173258B1 (en) Method for reducing noise distortions in a speech recognition system
Yu et al. A minimum-mean-square-error noise reduction algorithm on mel-frequency cepstra for robust speech recognition
Kim et al. Nonlinear enhancement of onset for robust speech recognition.
JP2008076676A (ja) 音信号処理方法、音信号処理装置及びコンピュータプログラム
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
JP2002091478A (ja) 音声認識システム
Ishizuka et al. A feature extraction method using subband based periodicity and aperiodicity decomposition with noise robust frontend processing for automatic speech recognition
Kaur et al. Optimizing feature extraction techniques constituting phone based modelling on connected words for Punjabi automatic speech recognition
WO2013132959A1 (ja) 雑音抑制方法、プログラム及び装置
Prakash et al. Fourier-Bessel cepstral coefficients for robust speech recognition
Fukuda et al. Improved voice activity detection using static harmonic features
JP2007206603A (ja) 音響モデルの作成方法
JP4325044B2 (ja) 音声認識システム
CN111226278A (zh) 低复杂度的浊音语音检测和基音估计
Fousek et al. Additive noise and channel distortion-robust parametrization tool-performance evaluation on Aurora 2 & 3.
Bonde et al. Noise robust automatic speech recognition with adaptive quantile based noise estimation and speech band emphasizing filter bank
Wolf et al. Evaluation of different feature extraction methods for speech recognition in car environment
Kakino et al. Experimental study of shout detection with the rahmonic structure
Uddin Md et al. Comparative study between MFCC and LP-Mel based front-ends for noisy speech recognition using HMM
JP2004184856A (ja) 音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120306

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120821

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120911

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150921

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees