JP2005070367A - 信号分析装置、信号処理装置、音声認識装置、信号分析プログラム、信号処理プログラムおよび音声認識プログラム、記録媒体、並びに電子機器 - Google Patents

信号分析装置、信号処理装置、音声認識装置、信号分析プログラム、信号処理プログラムおよび音声認識プログラム、記録媒体、並びに電子機器 Download PDF

Info

Publication number
JP2005070367A
JP2005070367A JP2003299346A JP2003299346A JP2005070367A JP 2005070367 A JP2005070367 A JP 2005070367A JP 2003299346 A JP2003299346 A JP 2003299346A JP 2003299346 A JP2003299346 A JP 2003299346A JP 2005070367 A JP2005070367 A JP 2005070367A
Authority
JP
Japan
Prior art keywords
signal
band
level
normalization
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003299346A
Other languages
English (en)
Other versions
JP4301896B2 (ja
Inventor
Toshio Akaha
俊夫 赤羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2003299346A priority Critical patent/JP4301896B2/ja
Priority to PCT/JP2004/010841 priority patent/WO2005020212A1/ja
Priority to CN2004800241642A priority patent/CN1839427B/zh
Publication of JP2005070367A publication Critical patent/JP2005070367A/ja
Application granted granted Critical
Publication of JP4301896B2 publication Critical patent/JP4301896B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】 高騒音環境下においても音声区間の検出ができないことによる悪影響を低減でき、雑音区間が全くない音声が入力された場合や、発声中に徐々に雑音レベルが変化する場合にも、安定した音声認識精度があげられる信号分析装置を提供する。
【解決手段】 入力信号を、複数の周波数帯域の信号に分割する周波数帯域分割手段と、前記各帯域に分割された入力信号に対して、帯域ごとの帯域エネルギーを抽出する帯域エネルギー抽出手段と、前記抽出された帯域エネルギーを、帯域ごとに正規化し、帯域ごとの正規化帯域エネルギーを求める正規化手段とを、有する信号分析装置である。
【選択図】 図4

Description

本発明は、入力された音声・音響信号を分析する信号分析装置、および信号処理装置、並びに信号分析装置を用いた音声認識装置に関する。
音声認識に用いられる信号分析手段では、信号の入力から数十ミリ秒程度の区間を、数ミリ秒から数十ミリ秒程度の間隔でずらしながら、信号を抽出し、分析フレームとする。次に、各分析フレームにおける入力信号の波形から、音響パラメータを計算し、時系列の音響パラメータを得る。
特定話者音声認識では、得られた時系列の音響パラメータを、予め登録した音響パラメータの時系列パターン(標準パターン)と照合する。入力信号の音響パラメータに最も類似した標準パターンを認識結果とする。
不特定話者音声認識の場合には、予め大量のデータから、音響パラメータを計算し、音声単位ごとに計算した音響パラメータの統計量を求め、確率的音響モデルを作成する。同時に、この音声単位ごとの確率的音響モデルを連結して、単語モデルまたは文章モデルを作成する。入力信号から分析された音響パラメータについて、前記単語モデルまたは文章モデルに対する確率尤度を計算し、比較して、最も高い確率尤度の単語モデルまたは文章モデルを認識結果とする。ここでいう音声単位としては、例えば音素、音節、または単語などの単位が用いられる。
このように、音声認識を行うためには、音響パラメータを求める信号分析技術は、認識性能を決める重要な技術である。このため、雑音や回線の回線特性などの歪による影響を受けにくい信号分析技術が必要とされる。非特許文献1には、このような信号分析技術として用いられる、帯域エネルギーをケプストラム係数に変換するMFCC(Mel Frequency Cepstrum Coefficient)が示されている。
図1は、MFCCを求めるための手順を示すフローチャートである。以下、図1を用いて、MFCCの分析方法を説明する。MFCCでは、まず、分析フレームごとに音声波形を信号分析器に入力する(ステップS101)。次に、フレームの切り出し区間の両端に急激な変化が起こらないように、ハミング窓関数を掛ける(ステップS102)。次に、FFT(First Fourior Transform:高速フーリエ変換)を用いて、各フレームにおける線形周波数軸上のエネルギーを求める(ステップS103)。この線形周波数軸上のエネルギーは、メル周波数軸上で等分割した帯域ごとにまとめられ、帯域エネルギーに変換される(ステップS104)。変換された帯域エネルギーは、帯域ごとに、対数変換される(ステップS105)。次に、各帯域におけるパワーをコサイン変換することで、MFCCが求められる(ステップS106)。求められたMFCCは、信号分析器から出力される(ステップS107)。このように、メル周波数軸上で等分割して求められたケプストラム係数を、メル周波数ケプストラム係数(MFCC)という。メル周波数は、人間の聴覚特性に準じた周波数単位であり、低い周波数での分解能が、高い周波数での分解能に比べて細かくなる。このため、同じ次数のケプストラムであれば、線形周波数軸を用いた場合に比べて、音声認識性能に優れることが知られている。
なお、本明細書中では、ステップS101〜ステップS105を、周波数分析ステップ(ステップS201)と、ステップS106からステップS107を、パラメータ変換ステップ(ステップS202)と、いう場合がある。
しかし、実際に音声認識は、家庭、オフィス、自動車、屋外などの背景雑音、または装置自身から発生する冷却ファンなどの騒音や、電磁的に波形に混入する加法的な騒音などの加法性雑音の存在下で行われる。さらに、マイクロホンあるいは音声伝達回路などの伝達特性や、話者がマイクロホンに向かう際の距離や角度が異なることによる音響特性の変化などの乗法的な歪が存在する。MFCCは、これらの騒音や歪の影響を受けやすい。このため、MFCCを用いた音声認識では、騒音の大きな環境下で使用する場合や回線特性の歪が大きい使用方法をする場合には、認識性能が大幅に低下するという問題がある。これらの騒音や歪の影響を低減させるために、以下に述べるような信号分析方法が用いられている。
[SS法、及びその簡易化手法]
非特許文献2には、加法性雑音の影響を少なくする方法として、スペクトル減算(SS:spectral subtraction)法が開示されている。この方法は、入力音声信号を周波数分析して入力の振幅スペクトルまたはパワー(2乗)スペクトルを求め、雑音区間で推定された推定雑音スペクトルに所定の係数αを乗じ、このスペクトル減算係数αを乗じた後の推定雑音スペクトルを入力スペクトルから減じることで、雑音成分を抑圧する方法である。この方法では、音声品質を向上させるためには、多数の帯域に分割して処理をする必要がある。
また、特許文献1には、このSS法を改善し、帯域分割を少なくして雑音成分を抑圧する方法が開示されている。
[CMS法]
非特許文献1には、乗法性の歪の影響を低減する方法として、CMS法(Cepstrum Mean Subtraction:ケプストラム平均除法)が開示されている。この方法は、CMN法(Cepstrum Mean Normalization:ケプストラム平均正規化法)とも呼ばれる。これは、乗法性歪が、発声された音声のケプストラムの長時間平均として得られる、という仮定に基づく。具体的には、ケプストラム係数から、入力音声のケプストラム係数の平均値を差し引いて、回線やマイクロホンなどの音響系の特性に基づく歪の影響を低減できる。このことは、ケプストラムのコサイン変換である対数スペクトルの歪を差し引くことと等価である。
しかし、実際の入力音声においては、音声の音源位置と雑音の音源位置とが異なる。音声区間と雑音区間とでは、正規化すべき回線特性が異なるため、音声区間の平均ケプストラムを雑音区間に適用することは、雑音区間のケプストラムを不安定にし、認識性能に悪影響を及ぼすという問題がある。このため、雑音区間に適用できるCMS法の改良法が検討されている。
[E−CMN法]
非特許文献3および特許文献2には、CMS法の改良法であるE−CMN法が提案されている。E−CMN法は、音声区間のケプストラム平均と、非音声区間のケプストラム平均とを別個に求め、音声区間と、非音声区間とで、別個に正規化処理を行う。この方法により、誤認識率を低減させることができる。
[音声検出]
上記したSS法、その簡易化手法、E−CMN法は、いずれの方法においても、音声区間と非音声区間とを区別するために、音声検出を必要とする。音声検出技術は、携帯電話に用いる音声通信の規格などに標準的な方法が開示されている。音声検出は、一般に、入力信号の短時間におけるエネルギーの変化、スペクトル形状の変化などに基づいて、入力信号を、音声区間と、雑音区間とに時間的に分割する。
特開2001−228893号公報(特許請求の範囲、段落0027〜0029) 特開平10−254494号公報(特許請求の範囲)
鹿野清宏ら編著、「音声認識システム」、第1版、株式会社オーム社、平成13年5月15日、p.13−15 S. Boll, 「Suppression of acoustic noise in speech using spectral subtraction」, IEEE Trans. ASSP, 1979, vol. ASSP-27, no. 2, pp. 113-120 庄境 誠、外2名、「ケプストラム平均正規化法とHMM合成法に基づくモデル適応化法E−CMN/PMCと自動車内音声認識への適用」、電子情報通信学会論文誌、社団法人電子情報通信学会、1997、第J80−D−II巻、第10号、p.2636−2644
しかし、上記信号分析方法、およびこれらの分析方法に使用する音声認識方法には、以下のような問題がある。
[SS法、及びその簡易化手法に関する問題点]
SS法では、雑音区間のスペクトルを、音声区間で減算するので、雑音の少ない環境での入力音声を推定する場合には、優れる。しかし、雑音区間においては、雑音のパワーは小さくなるが、雑音のスペクトル形状自体は変わらない。現在主流である統計に基づく音声認識を行う場合には、予め統計的に学習した雑音とは、異なるスペクトル形状の雑音が入力すると、雑音区間の照合精度が低下する。このため、雑音区間を音声区間と誤って照合するため、全体として高い認識精度が得られない。この認識精度の低下を防ぐためには、何らかの適応的なスペクトル補正が必要となる。その方法の一つが、E−CMN法のように雑音スペクトルを正規化する方法である。しかし、E−CMN法には、以下のような問題がある。
[E−CMN法に関する問題点]
上記したように、E−CMN法では、音声区間と雑音区間とで、独立にケプストラム平均を求めるので、より正確に回線特性を正規化できる。特にこの方法によると、雑音区間のスペクトル形状を平坦化できるので、SS法では解決できない、雑音区間の照合精度を改善することができる。
しかし、音声区間と雑音区間との判断は、音声区間の検出精度に依存する。このために、高騒音環境では、音声区間の切り出し精度が低下し、誤ったケプストラム平均値を元に正規化を行うため、認識精度に悪影響を及ぼすという問題がある。以下に、音声検出の問題点を述べる。
[雑音区間の長さ]
SS法やE−CMN法では、雑音スペクトルの推定は、音声区間を検出する際に、雑音区間と判断された区間に対して行われる。しかし、実際に信号分析装置を使用する環境において、装置が動作を開始したすぐ後に、音声が発声された場合には、雑音スペクトルを推定するための十分な雑音区間長が得られない。このため、雑音の適応ができない、あるいは誤った雑音を適応するという問題がある。
[音声区間検出の困難性]
静かな環境では、音声区間と雑音区間とは容易に分離できる。このため、音声パワーの時間変化を利用すれば、発声区間を検出するのは比較的容易である。しかし、高騒音環境で、SN比が低い場合には、音声区間の始点や終点の精度が低下する、発声の区間内であっても、音声は、音声のパワーが大きい一部の区間を除けば、ほとんどの部分が雑音に埋もれる。このため、音声区間と非音声区間との差が曖昧になり、音声区間を検出することが困難となる。
このようなSN比が低い音声の発声区間を周波数分析し、対数変換したスペクトルを観察すると、音声のパワーが優位な周波数帯域では、音声のスペクトルが表される。一方、それ以外の雑音のパワーが優位な周波数帯域では、雑音のスペクトルが表される。すなわち、音声の発声区間であっても、帯域により、雑音を表している場合がある。このため、従来の方法のように、全周波数帯域を一括して音声区間と雑音区間とを分離する方法では、回線歪を受けた音声のスペクトル平均を正確に求めることは、難しい。逆に、音声区間が検出できない場合には、本来の音声区間も、雑音区間として処理される。このため、雑音のスペクトル平均さえも正確に求めることもできない。
すなわち、本発明の目的は、高騒音環境下においても音声区間の検出ができないことによる悪影響を低減できる信号分析装置を提供することにある。
また、本発明の別の目的は、雑音区間が全くない音声が入力された場合や、発声中に徐々に雑音レベルが変化する場合にも、安定した音声認識精度があげられる信号分析装置を提供することにある。
上記課題を解決するために、本発明の信号分析装置は、入力信号を、複数の周波数帯域の信号に分割する周波数帯域分割手段と、前記各帯域に分割された入力信号に対して、帯域ごとの帯域エネルギーを抽出する帯域エネルギー抽出手段と、前記抽出された帯域エネルギーを、帯域ごとに正規化し、帯域ごとの正規化帯域エネルギーを求める正規化手段と、を、有する。
この構成によれば、抽出された帯域エネルギーが、帯域ごとに正規化される。この結果、音声区間の検出を明確に行わなくても、信号分析ができるので、音声区間の検出誤りを避けることができる。また、雑音区間が短い場合に生ずる、雑音の適応ができない、あるいは誤った雑音を適応するというという問題を回避できる。
ここで、正規化とは、雑音の種類や大きさ、回線の特性、マイクへの入力感度などの環境の要因により生ずる、入力される信号のエネルギー分布が移動する量を少なくすることを意味する。具体的には、正規化は、信号のエネルギー分布の平均を減算して、直流成分を減衰させる方法、環境雑音の値を減算する方法などにより行う。また、本明細書中では、正規化には、入力レベルのエネルギー分布の広がり方を制御することも含まれる。
本発明の信号分析装置は、前記正規化手段は、前記帯域ごとに抽出された帯域エネルギーから、直流成分を減衰させる低域遮断フィルタで構成されていてもよい。この構成によれば、入力信号の直流成分を含めて低周波成分を減衰するので、最も簡単な構成で正規化することができる。
本発明の信号分析装置は、前記抽出された帯域エネルギーの系列から、帯域ごとの条件付平均値を、第1のレベルとして計算するレベル計算手段を、有し、前記正規化手段では、前記帯域ごと抽出された帯域エネルギーから、同じ帯域の第1のレベルを所定の係数で乗じた値を減算するものであってもよい。
この構成によれば、計算された第1のレベルを用いて、入力信号の当該帯域エネルギーが正規化される。すなわち、帯域ごとに、より正確な正規化を行うことができる。
なお、帯域エネルギーの平均値は、信号レベルと雑音レベルの2つに限られず、雑音Aのレベルと雑音Bのレベル、あるいは特定の信号Xのレベルと特定の信号Yのレベルなど、信号分析装置の使用環境や使用用途により、2つ、あるいは3つ以上のレベルに分類することができる。本明細書中では、これら複数のレベルのうち、基準となるレベルを第1のレベルと呼び、それ以外のレベルを、第2のレベル、第3のレベルなどという。なお、本明細書中では、主として、第1のレベルとして雑音のレベルを、第2のレベルとして音声のレベルを、用いている。
雑音レベルは、入力された帯域エネルギーのうち、雑音を表現していると想定される、エネルギー分布が相対的にエネルギーが低い集合の平均を示し、音声レベルは、同じく、音声を表現していると推定される、エネルギー分布が相対的にエネルギーが高い集合の平均を示す。本明細書中で、これらの雑音レベルまたは音声レベルのように、エネルギーの高低のような条件の下で分割したエネルギーの平均を「条件付平均」ということがある。
本発明の信号分析装置において、雑音と音声のような条件を採用した場合、エネルギー分布の中で、相対的にエネルギーの低い集合と高い集合とを、離散的に区分するのではなく、中間的な入力範囲を連続的に扱うことが望ましい。すなわち、音声区間を検出せずに、フレームごとに、帯域エネルギーの大きさから、音声らしさ、雑音らしさを連続値で判断することが望ましい。
また、上記信号分析装置は、前記レベル計算手段では、前記第1のレベルの計算に加え、前記抽出された帯域エネルギーの系列から、第1のレベルとは異なる、帯域ごとの条件付き平均値の少なくとも1つを、第2のレベルとして計算し、前記正規化手段では、前記帯域ごとに抽出された帯域エネルギーから、同じ帯域の第1のレベルおよび第2のレベルをそれぞれ所定の係数で乗じた値を減算するものであってもよい。
この構成によれば、計算された第1のレベルと第2のレベルとを用いて、帯域エネルギーが正規化され、計算された音声レベルを用いて、帯域エネルギーからの減算量が決定されるので、より正確な正規化が可能となる。なお、第1のレベルとは異なる、帯域ごとの条件付き平均値は、1つには限られず、複数あってもよい。
上記信号分析装置は、前記帯域エネルギーの値に応じて1つまたは複数の正規化係数を求める正規化係数取得手段をさらに有し、前記正規化手段では、前記帯域ごと抽出された帯域エネルギーから、同じ帯域の前記第1のレベルまたは前記第1のレベルおよび複数のレベルに前記正規化係数を乗じた値を減算するものであってもよい。
この構成によると、1つまたは複数の帯域ごとの条件付平均値に対応する、帯域エネルギーの値に応じた1つまたは複数の正規化係数が求められる。この結果、1つまたは複数の条件付平均値を反映して減算量を調整できるので、より正確な正規化が可能となる。
本発明の信号処理装置は、信号の正規化を逐次的に行う信号処理装置であって、入力信号に基づいて第1のレベルを更新し、記憶するレベル計算手段と、前記第1のレベルに所定の係数を乗じた値を、入力信号から減算する正規化手段と、前記第1のレベルと前記入力信号との差に基づいて、更新係数を求める更新係数取得手段とを、備え、前記レベル計算手段では、前記更新係数を用いて、第1のレベルを、入力信号に近づけることにより、第1のレベルを、入力信号の条件付平均値とするものである。
この構成によれば、例えば特定の周波数帯域における入力信号などの、一次元の入力信号についても、正規化して、信号処理を行うことができる。すなわち、入力エネルギーのエネルギー分布の広がりを入力エネルギーの高低などから検出し、更新係数を求めて、第1のレベルを、入力信号に近づけることにより、入力信号のエネルギー分布が、環境により変動することを抑制できる。
上記信号処理装置は、前記第1のレベルと前記入力信号との差に基づいて、正規化係数を取得する正規化係数取得手段を備え、前記正規化手段では、前記第1のレベルに正規化係数を乗じた値を、入力信号から減算し、入力レベルに応じて減算量を制御するものであってもよい。
また、上記信号処理装置は、前記レベル計算手段では、入力信号に基づいて複数のレベルを更新して記憶し、前記正規化手段では、前記複数のレベルにそれぞれ所定の係数を乗じた値を、入力信号から減算し、前記更新係数取得手段では、前記第1のレベルと前記入力信号との差に基づいて、複数のレベルの更新係数を求め、前記レベル計算手段では、前記複数のレベルの更新係数を用いて、前記求められた複数のレベルを、更新して、入力の分布に適した正規化を行うものであってもよい。
さらに、上記信号処理装置は、前記レベル計算手段では、入力信号に基づいて複数のレベルを更新して記憶し、前記正規化手段では、前記複数のレベルにそれぞれ所定の係数を乗じた値を、入力信号から減算し、前記更新係数取得手段では、前記第1のレベルと前記入力信号との差に基づいて、複数のレベルの更新係数を求め、前記正規化係数取得手段では、複数のレベルに対応した複数の正規化係数を求め、前記正規化手段では、前記複数のレベルのそれぞれに対応した正規化係数を、それぞれのレベルに乗じた値を、入力信号から減算し、入力のレベルに応じて適した正規化を行うものであってもよい。
上記信号分析装置は、各帯域でのレベル計算手段および正規化手段では、上記信号分析装置を用いる構成としてもよい。すなわち、各帯域での信号処理手段として、本発明の信号処理装置を用いることができる。
上記信号分析装置は、低周波に属する帯域と、高周波に属する帯域とでは、所定の係数を異なる値とすることができる。この構成によれば、雑音領域と音声領域とのように、周波数により信号のエネルギー分布が異なる場合に、正確に正規化できる。
上記の信号分析装置は、各時刻の入力信号から得られた帯域ごとの帯域エネルギーを、対数エネルギーとして処理するものであれば好ましい。対数で正規化を行うと、回線特性による歪の影響を除去することができるからである。
本発明の音声認識装置は、上記信号分析装置と、信号分析装置から得られた帯域ごとに正規化された帯域エネルギーから音響パラメータを求めるパラメータ変換手段を有し、前記求められた音響パラメータを用いて、入力信号に含まれる音声を認識する音声認識部とを、有するものである。本発明の信号分析装置を用いると、雑音や回線特性による歪に強い音響パラメータが得られるので、音声認識装置に用いると、音声認識精度を向上させることができる。
上記音声認識装置は、MFCC(Mel Frequency Cepstrum Coefficients)パラメータの抽出過程において、各帯域エネルギーの正規化を行うものであってもよい。この構成によると、正規化された帯域エネルギーからケプストラムパラメータへ線形変換を行うことにより、正規化されたケプストラム係数を求めることができる。
上記信号分析装置をコンピュータに実行させるための信号分析プログラムであってもよいし、上記信号処理装置をコンピュータに実行させるための信号分析プログラムであってもよい。また、上記音声認識装置をコンピュータに実行させるための音声認識プログラムであってもよい。
またこれらのプログラムを記録したコンピュータ読み取り可能な記録媒体であってもよい。
また、上記音声認識装置を有する電子機器であって、入力信号に含まれる音声信号を前記音声認識装置により認識した結果に基づいて、機能を選択し、実行するものであってもよい。本発明の電子機器は、雑音や回線特性による歪の影響を受けにくい。この結果、家庭で使用する音声認識型のリモコンや、携帯電話などの電子機器として利用するのが好ましい。
本発明の信号分析装置は、以下の効果を有する。
(1)本発明では、全周波数帯域における音声区間を検出せずに、周波数帯域ごとに得られた各時刻の入力信号からの帯域エネルギーを用いて、帯域ごとに別個に、条件付帯域エネルギーのレベルを計算し、各帯域エネルギーを正規化する。すなわち、音声の発声区間であっても、雑音エネルギーが優位な帯域については、雑音区間として処理され、音声のエネルギーが優位な帯域のみが音声区間として処理される。この結果、入力信号の回線特性をより正確に正規化できる。
本発明の信号分析装置においても、音声と雑音とが混在する場合には、帯域ごとの音声と雑音との判断を誤る場合はある。しかし、帯域ごとに別個に、音声と雑音とを区別するので、帯域全体で、音声と雑音とを区別する場合に比べて、その影響を低減できる。すなわち、本発明の構成によれば、音声区間と雑音区間との区間検出誤りを低減できる。
(2)本発明の信号分析装置では、帯域ごとに帯域エネルギーの正規化を行う際に、対数スペクトル領域で、正規化処理を行う。対数スペクトル領域で正規化処理を行うと、対数スペクトルの線形変換(コサイン変換)であるケプストラム係数で補正を行うCMN法と同様の効果が得られる。この結果、マイクロホンなどの影響による回線特性の歪を正規化することができる。すなわち、音声認識時の雑音スペクトルが、学習時の雑音スペクトルと異なっていても、認識精度が大幅に劣化することを防止できる。なお、SS法のように、振幅レベルで減算を行うこともできるが、回線特性の歪を正規化することができない。
また、本発明の信号分析装置では、帯域ごとに雑音レベルと音声レベルとを別個に求めて、帯域ごとの雑音レベルまたは帯域ごとの音声レベルを正規化するので、E−CMN法と同様の効果が得られる。
(3)本発明の信号分析装置では、抽出された帯域エネルギーの系列から、音声と雑音との判断を行う。すなわち、発声区間であっても、一部の帯域は、雑音として判断される。このため、スペクトル形状の異なる音素からなる発声であれば、音声発声区間内に、ほぼ全周波数帯域の雑音レベルの推定が完了する。すなわち、本発明の信号分析装置では、雑音区間が存在しなくても、雑音レベルの推定が可能となる。
本発明の信号分析装置は、特に、電池駆動を前提とした携帯型機器に用いることが望ましい。電池駆動をする携帯型機器では、電池の消費量を抑えるために、発声のときだけ、入力信号が分析される。すなわち、雑音区間が存在しない使用態様であっても、等価的に雑音スペクトルが推定できるので、回線特性の歪のみならず、雑音などの歪も正規化することができる。
以下に、本発明を実施するための最良の形態を、図面を参照しながら説明する。なお、本発明は、これらによって限定されるものではない。本発明を実施するための最良の形態は、MFCC法と、E−CMN法と、比較しながら説明する。
[MFCC法の構成]
図2は、従来のMFCC分析を行う信号分析装置の構成を示すブロック図である。図中、101は、周波数分析手段を、102は、パラメータ変換手段を示す。周波数分析手段101では、図1の周波数分析ステップ(ステップS201)の処理を行い、パラメータ変換手段102では、図1のパラメータ変換ステップ(ステップS202)の処理を行う。
[E−CMN法の構成]
図3は、MFCC法を用いた従来のE−CMN法による分析を行う信号分析装置の構成を示すブロック図である。この図では、図3のMFCC分析を行う信号分析装置の構成に、さらに入力信号から、音声区間を検出する音声区間検出手段203と、平均更新手段201と、減算処理手段202とが追加された構成となっている。入力された音声は、周波数分析手段101とパラメータ計算手段102とで、処理することにより、MFCCが求められる。入力された音声は、同時に音声区間検出手段203で、音声区間が検出される。平均更新手段では、パラメータ計算手段102から、得られた平均ケプストラムを、音声区間検出手段203で得られた音声区間情報を用いて、更新する。具体的には、音声区間であれば、音声の平均ケプストラムを更新し、非音声区間であれば、雑音の平均ケプストラムを更新する。減算処理手段202では、音声区間検出手段203で得られた音声区間情報を用いて、音声区間であればパラメータ計算手段102から出力された現在のケプストラムから、音声の平均ケプストラムを減算し、非音声区間であれば、パラメータ計算手段102から出力された現在のケプストラムから、雑音の平均ケプストラムを減算する。
音声区間検出方法としては、フレームごとの短時間信号パワーや、フレームごとのスペクトルの概形を用いて、音声区間を検出することが一般に行われている。これらの方法には、携帯電話などの音声通話に用いられる標準的な方法が用いられている。
[本発明の構成]
図4は、本発明の信号分析装置の構成を示す図である。本発明では、図4のMFCC分析に用いる信号分析装置の周波数分析手段101と、パラメータ計算手段102との間に、帯域ごとに、更新係数取得手段301と、レベル計算手段302と、正規化手段303と、正規化係数取得手段304と、が設けられている。また、本発明の周波数帯域分析手段101は、入力信号を、複数の周波数帯域の信号に分割する周波数帯域分割手段305と、この各帯域に分割された入力信号に対して、帯域ごとの帯域エネルギーを抽出する帯域エネルギー抽出手段306とから構成される。
更新係数取得手段301では、信号が入力される時刻より前に計算された雑音レベルや音声レベルと、前記周波数分析手段101で求めた現在の帯域ごとの帯域エネルギーとを比較し、レベル計算手段302でレベルの更新に用いられる更新係数を得る。
レベル計算手段302では、前記更新係数取得手段301で得られた更新係数を用いて、入力エネルギーと、雑音レベルや音声レベルとの差をもとに、雑音レベルや音声レベルを更新し、記憶する。具体的な方法は、後述する。
正規化係数取得手段304では、上記更新係数取得理手段301と同様に、信号が入力される時刻より前に計算された雑音レベルや音声レベルと、前記周波数分析手段101で求めた現在の帯域ごとの帯域エネルギーとを比較し、正規化手段303で用いる正規化係数を計算する。
正規化手段303では、前記正規化係数取得手段304で求めた正規化係数と、前記レベル計算手段302で求めた音声レベルや雑音レベルを用いて、前記周波数分析手段101で求めた現在の帯域エネルギーを正規化し、出力する。
この実施形態では、更新係数取得手段301と正規化係数取得手段304とを別の構成にしているが、両者は類似した処理を行うため、更新係数取得手段301と正規化係数取得手段304とを、同一の構成としてもよい。
CMS法やE−CMN法の文献における実装では、単語や文章を発声した時の毎回の音声を蓄えて、その音声レベルのレベルを求めて正規化して認識を行う、あるいは1回前の発声のレベルを用いて正規化をするように記載されている。しかし、発声が終了してから認識処理を行うのは、応答が遅いために現実的ではない。また、携帯型の装置などでは、1回前の使用環境が、現在の使用環境と同じである保証はない。そこで、本実施の形態では、発声ごとのレベルや、1回前の発声のレベルではなく、実時間に雑音レベルなどを更新し、この更新された雑音レベルを用いて、実時間で帯域エネルギーを正規化する態様を説明する。なお、本発明の信号分析装置は、発声ごとのレベルや、1回前の発声のレベルを用いて帯域エネルギーを正規化することとしてもよい。
[動作]
図5は、本発明にかかる信号分析処理の流れを示すフローチャートである。図6は、本発明にかかる信号分析処理による入力帯域エネルギーと、更新係数、正規化係数、正規化帯域エネルギーとの対応関係を示す図である。以下に、本発明の信号分析の処理を図5と図6を用いて、詳細に説明する。なお、雑音は低いエネルギーで、音声は高いエネルギーであることを利用して、更新係数や正規化係数を適用する。
周波数分析ステップ(ステップS201)と、パラメータ分析ステップ(ステップS202)とで、行う処理は図1の処理と同様である。
本発明の信号分析装置は、2以上の帯域に分割できれば、原理的には動作する。また、周波数軸としては、メル周波数軸以外にも、パーク周波数軸や線形周波数軸であっても、動作する。なお、音声認識を目的として、信号分析を行う場合には、周波数分析における帯域分割数や周波数スケールは、MFCCに準拠した値でよく、分割数は10から30程度が妥当である。例えば、11kHzでサンプリングした音声であれば、メル周波数軸上で24帯域に分割し、12次元のケプストラムへ変換する構成であれば、有効であることが、実験により確認されている。従来のMFCCの処理における周波数分析ステップと、パラメータ変換ステップの処理を、本発明の信号分析装置に流用することで、処理量が増加することを抑制できる。
ステップS203〜ステップS205で行う処理は、帯域ごとに独立して行われる。係数取得ステップ(ステップS203)では、周波数分析ステップ(ステップS201)で求められた帯域エネルギーと、入力信号の入力時刻以前に求められた帯域ごとの雑音レベルとの差から、更新係数および正規化係数を求める。次に、帯域ごとに求められた更新係数を元に、前記帯域の雑音レベルを更新する(ステップS204)。次に、ステップS204で更新された、帯域の雑音レベルと、正規化係数を用いて、その帯域の帯域エネルギーを正規化する(ステップS205)。正規化された帯域エネルギーは、ケプストラム係数に変換する(ステップS202)。
なお、本実施形態では、音声認識に一般的に用いられるケプストラム係数に変換した。しかし、必ずしもケプストラム係数に変換する必要はなく、正規化されたエネルギーをそのまま出力する構成としてもよい。
[更新基準]
次に、図6を用いて、更新係数を用いて、帯域エネルギーにおける雑音レベルを更新する方法について説明する。図6(c)は、入力帯域エネルギーと更新係数との関係を示す図である。
なお、雑音レベルを推定する方法としては、入力エネルギーのヒストグラムを計算して、下方の数%を雑音レベルとして採用する方法もある。しかし、ヒストグラムを計算するためにはある程度長い入力が必要となる。このため、次に説明する、実時間で逐次的に雑音レベルを更新する処理を行うのが、好ましい。
時刻tでの雑音レベルをN(t)、入力帯域エネルギーをE(t)、更新係数をα(t)とすると、雑音レベルN(t)の更新は例えば次のように行う。なお、雑音レベル、入力帯域エネルギーの単位は、デシベル(dB)を基準と考える。

N(t)= (1−α(t))*N(t−1)+α(t)*E(t)…式(1)

α(t)= 0 (N(t−1)+R < E(t)のとき)

α(t)= A*(1−(E(t)−N(t−1))/R)
(N(t−1)<E(t)≦ N(t−1)+R のとき)

α(t)= A (E(t)≦ N(t−1) のとき)
ここで、Aは、最大の更新係数を示し、0以上、1以下の値である。Aは、例えば0.02程度の値とする。Rは、雑音と音声のエネルギーの境界範囲を示し、例えば2dB程度とする。この更新係数は、入力された帯域エネルギーの時系列の中で、特に低いエネルギーが分布している場合の平均値を求めることができるので、雑音レベルを更新することができる。
上記式において、(α(t)/A)は、雑音らしさ示す指標と考えることができる。
雑音レベルの初期値N(0)を、N(0)=E(1)とすれば、素早い立ち上がり特性が得られ、良い認識結果が得られることが、実験的に確かめられている。
上記の式を用いて雑音レベルを更新すれば、雑音の下方への変化に対しては、比較的速く追従し、上方への変化に対しては、徐々に追従速度が遅くなり、1フレームの間にR(dB)よりも大きな雑音の増加がある場合は、全く追従しない。このような雑音の変化速度への追従は、AとRのパラメータによって制御することができる。Aを0.02とした場合は、0.5Hz程度よりも遅い雑音の変化に対しては、上方へも追従するようになる。一般に音声の変化速度は、1秒間に数個から十数個の音素が入れ替わることから、数Hzから数十Hzの成分が多い。一方、背景雑音はそれよりも遅い場合が多い。ただし、突発性の雑音により、急激に雑音エネルギーが上昇することがあると、その後追従できなくなる。このため、α(t)の下限を0ではなく、微小な値、例えば0.001程度とすることで、数秒の後に追従するように設定することができる。
これらのパラメータの動作確認には、帯域ごとのエネルギー変化速度を調整した人工的なデータを入力することにより、追従速度を確認することができる。
時刻tでの音声レベルをS(t)、入力帯域エネルギーをE(t)、更新係数をγ(t)とすると、音声レベルS(t)の更新は例えば次のように行う。

S(t)= (1−γ(t))*N(t−1)+γ(t)*E(t)… 式2

γ(t)= C (N(t−1)+R < E(t)のとき)

γ(t)= C*(E(t)−N(t−1)/R)
(N(t−1)<E(t)≦ N(t−1)+R のとき)

γ(t)= 0 (E(t)≦ N(t−1) のとき)
ここで、Cは、最大の更新係数を示し、1以下の値である。Cは、上記Aと同様に、例えば0.02程度の値とする。Rは、雑音と音声のエネルギーの境界範囲を示し、上記雑音レベルでの境界領域と同じ値としてもよいし、異なる値としてもよい。この更新係数は、入力された帯域エネルギーの時系列の中で、特に高いエネルギーが分布している場合の平均値を求めることができるので、音声レベルを更新することができる。
初期値S(0)には、前回の発声における最後のS(t)を用いることが好ましい。最後のS(t)が得られない場合には、S(0)=0を用いることで、よい結果が得られることが、実験的に確認されている。ここで、(γ(t)/C)は、音声らしさを示す指標と考えることができる。
音声レベルに関しては、更新を行わず、固定的な値を用いることもできる。この場合には、多量の音声データから、平均的な音声レベルを計算して用いることが、効果的である。
雑音レベルと音声レベルとを更新するためには、入力信号の時系列から雑音区間か、音声区間かを判断することが必要である。式1および式2では、両区間の検出は2値的に求めるのではなく、中間的な値をとることができる(図6(c))。雑音区間と音声区間との判断は、周波数帯域ごとに行われる。このため、各帯域で判断された雑音区間と音声区間とは、他の帯域で判断された雑音区間と音声区間とは異なる。さらに、各帯域で判断された雑音区間と音声区間とは、実際の話者の発声区間とも異なる。
更新係数は、全ての周波数帯域で共通である必要はない。帯域ごとに異なる更新係数を、予め保持しておくことにより、帯域ごとに最適な更新係数を適応をすることができる。
例えば、低周波数帯域での雑音が比較的ゆっくりと変動する場合には、低周波数帯域の更新係数の最大値Aを小さくすることで、音声入力に対して誤って追従して更新される危険性が少なくなる。
[雑音レベル、音声レベルの簡略取得例]
雑音レベルを求める方法として、入力時刻まで入力エネルギーの最小値を雑音レベルとすることもできる。これは、上記式(1)において、エネルギーの境界範囲を0dBとし、最大の更新係数1とした場合と考えることができる。また、音声レベルについても、入力時刻まで入力エネルギーの最小値を音声レベルとすることもできる。これは、雑音は低いエネルギーで、音声は高いエネルギーであることを利用したものである。
雑音レベル、音声レベルを求める方法としては、この例に限られるものではなく、エネルギー分布の範囲内で、低い値と高い値とを求めることができる方法であれば、雑音レベル、音声レベルを求めることができる。
[正規化基準]
次に、図6を用いて、正規化係数を用いて、帯域エネルギーを正規化する方法について説明する。図6(b)は、入力帯域エネルギーと正規化係数との関係を示す図である。
時刻tでの雑音レベルをN(t)、入力帯域エネルギーをE(t)、正規化係数をβ(t)とすると、正規化帯域エネルギーE’(t)の更新は例えば次の式により求められる。なお、雑音レベル、エネルギーの単位は、デシベル(dB)とする。

E’(t)= E(t)−β(t)*N(t)… 式3

β(t)= 0 (N(t−1)+R < E(t)のとき)

β(t)= B*(1−(E(t)−N(t−1))/R)
(N(t−1)<E(t)≦ N(t−1)+R のとき)

β(t)= B (E(t) ≦ N(t−1)のとき)
ここで、Bは、最大の減算量を示し、1以下の値である。Bは、例えば0.5程度の値とする。Rは、雑音と音声のエネルギーの境界範囲を示し、例えば2dB程度とする。上記更新係数での境界領域と同じ値としてもよいし、異なる値としてもよい。
次に、雑音レベルに加え、音声レベルS(t)を用いて、帯域エネルギーを正規化する方法を説明する。音声レベルを用いた帯域エネルギーの正規化は、例えば、下式により計算できる。

E’(t)= E(t)−β(t)*N(t)−δ(t)*S(t)… 式4

δ(t)= D (N(t−1)+R < E(t)のとき)

δ(t)= D*(E(t)−N(t−1))/R
(N(t−1)<E(t)≦ N(t−1)+R のとき)

δ(t)= 0 (E(t) ≦ N(t−1)のとき)
ここで、Dは、最大の減算量を示し、1以下の値である。Cは、上記Bと同様に、例えば0.5程度の値とする。Rは、雑音と音声のエネルギーの境界範囲を示し、上記雑音レベルでの境界領域と同じ値としてもよいし、異なる値としてもよい。
この例では、入力エネルギーE(t)と、雑音レベルN(t)との差を用いて、音声レベルの正規化係数を求めた。この方法を用いると、話者や回線の特性による認識精度の低下を低減できる。なお、入力エネルギーE(t)と、音声レベルS(t)との差を用いて、音声レベルの正規化係数を求めることもできる。
この例では、帯域エネルギーを正規化するために、音声レベルや雑音レベルに所定の計算で求めた係数を掛けて減算する方法を示した。しかし、正規化を行うためには、この方法に限られず、例えば、入力エネルギーを音声レベルで割るなどの除法による方法でも、正規化の効果が得られる場合がある。入力のダイナミックレンジや環境変化の大きさに応じて、適宜正規化方法を変える構成としてもよい。
図6(a)は、式3と式4とを用いて、入力された帯域エネルギーに対する正規化帯域エネルギーの関係を示す図である。雑音レベルと音声レベルとを両方用いる場合を、E’=E−β*Nーδ*S のグラフに示す。D=0とした場合雑音のエネルギーだけを用いる場合を、E’=E−β*N のグラフに示す。各帯域の雑音レベルと音声レベルの大きさに応じて、適宜適用する正規化係数を変えて、帯域エネルギーを正規化することができる。この他にも、使用する環境が、非常に雑音の安定した場所である場合などには、雑音の適用は必要なくなるので、B=0とすることで、音声レベルのみを使用することができる。
[低域遮断フィルタを用いる場合]
雑音と音声との境界領域の幅R(dB)を非常に大きな値とした場合には、ほぼ全区間で雑音レベルを一定の更新係数Aで更新し、ほぼ全区間の入力帯域エネルギーに対して一定の正規化係数Bで減算することになる。これを簡単に実現するには、図15に示すように、各帯域に低域遮断フィルタを設ける構成とすればよい。図15は、正規化手段として低域遮断フィルタ307を用いた本発明の信号分析手段の構成を示す図である。すなわち、入力信号を周波数分析した後、各帯域のエネルギーについて低域遮断を行い、その後音声パラメータへと変換することにより、ある程度の正規化の効果が得られる。この場合の低域遮断フィルタは、音声によるスペクトルの変化速度である1Hzから10Hz程度よりも低い周波数、すなわち1Hz以下が好ましい。
この構成の実現の例として、tをフレーム、低域遮断フィルタへの入力をx(t)、出力をy(t)として、

y(t)=x(t)−z(t)
z(t)=x(t)*0.02+z(t)*0.98

のような処理を行うと、フレーム周期が10msであれば、0.5Hzで、−1dB、0.24Hzで、約−3dB、0Hzで、−5.7dBの減衰特性となる。この構成の実現するためには、上記式に従うものに限られない。
また、周波数帯域の低域と高域とで、雑音の変化速度が異なるような環境では、帯域ごとに異なる特性の低域遮断フィルタで構成することにより、より使用環境に適した性能改善を図ることができる。
[スペクトルからみた本実施の形態の動作]
次に、本発明の実施の形態を、図に基づいてスペクトルの視点で説明する。
図7は、音声波形を含む音響信号の例を示す図である。図中、横軸は時間を、縦軸は振幅を示す。この図では、時間t1からt2の区間が発声区間を表し、表示されている時間の全体に騒音が含まれていることを示している。
図8は、図7に示した音声波形を含む音響信号のスペクトログラムを簡略化した図である。図中、横軸は時間を、縦軸は周波数を示す。時間t1からt2の区間が発声区間を表す。実際のスペクトルは、連続値であるが、この図の例では、簡単のため他の部分より相対的にエネルギーが高い領域を、閉曲線で閉じ、網掛けで、示している。
図9は、図8に示したスペクトルを従来のE−CMN法を用いて正規化する場合の正規化処理を行う範囲を示す図である。図中、横軸は時間を示し、横軸の各区切りは、分析フレームを示す。縦軸は周波数を示し、縦軸の各区切りは、周波数帯域を示す。他の部分より相対的にエネルギーが高い領域を、閉曲線で閉じている。また、網掛けされている部分は、音声区間としての適用範囲であり、それ以外の部分は雑音区間としての適用範囲である。
E−CMN法を用いる場合、ケプストラム係数を正規化するに際して、周波数帯域を選択して正規化することはできない。このため、音声区間と判断された時間t1からt2の区間では、音声のケプストラム係数が更新され、それ以外の区間では、雑音のケプストラム係数が更新される。更新されたケプストラム係数を用いて、それぞれの区間のケプストラムを正規化する。このため、音声区間に、雑音が含まれている場合には、誤ってケプストラム係数が更新されることになる。
図10は、図8に示したスペクトルを、本発明の信号分析装置を用いて正規化する場合の正規化処理を行う範囲を示す図である。図中、横軸は時間を示し、横軸の各区切りは、分析フレームを示す。縦軸は周波数を示し、縦軸の各区切りは、周波数帯域を示す。また、網掛けされている部分は、音声区間としての適用範囲であり、それ以外の部分は雑音区間としての適用範囲である。
本発明の場合、帯域ごとに音声区間と雑音区間とを判断する。この結果、音声の発声区間(t1〜t2)に、関係なく、周囲の雑音より高いエネルギーを持つ帯域とフレーム(図の網掛け部分)では、その帯域の音声レベルが更新され、この更新された音声レベルを用いて帯域エネルギーが正規化される。それ以外の部分では、音声の発声区間(t1〜t2)であっても、エネルギーが低く、雑音区間と判断されるので、その帯域の雑音レベルが更新され、この更新された雑音レベルを用いて帯域エネルギーが正規化される。
すなわち、本発明によれば、音声区間判断の際に、従来のように明らかな非音声区間が存在しなくてもよい。複数の種類の音素が含まれる音声であれば、音声区間に含まれる全ての帯域において、雑音レベルを更新できる。
なお、図10では、簡単のため、図中に網掛け部分を設けて、音声区間と雑音区間とは、明確な境界が存在するように図示した。しかし、式1〜式4からわかるように、音声区間と雑音区間とは、明確な境界が存在しない。実際は、帯域エネルギーの雑音レベルN(t)からN(t)+Rの範囲で、徐々に切り替わるように処理を行う。R=0の場合にのみ、図10のような明確な境界が形成される。
[雑音区間のない入力の例]
図11は、図7に示す音声波形を含む音響信号が入力された場合に、E−CMN法による雑音スペクトルの適応が進行する様子を示す図である。図12は、図7に示す音声波形を含む音響信号が入力された場合に、本発明の信号分析装置による雑音スペクトルの適応が進行する様子を示す図である。図中、網掛け部分は、雑音が正しく推定された帯域とフレームとを示す。
ここでは、特に雑音区間がない入力の例として、発声開始時刻と同じ時刻t1から装置への入力が開始した場合を示す。電池駆動の携帯型装置では、音声入力が、ボタンなどの指示で開始する。このような場合に、雑音区間がない入力が行われると、考えられる。
無響室などの特殊な場合を除き、入力雑音のレベルが事前にわからない実環境用のシステムにおいて、雑音区間が存在しない入力音声に対しての音声切り出しは不可能である。この場合に、最初の入力フレームを、音声と解釈するか、雑音と解釈するかは、システムの設計による。
最初の入力フレームを雑音と解釈するシステムの場合に、E−CMN法を適用すると、図11の時刻t1からt2までの発声区間は、全て雑音区間として認識される。このため、誤った雑音スペクトルが推定される。これにより、第1発声は、雑音として平坦化されるため、認識することができなくなる。そして、音声の入力が終わるt2以後に、本来の雑音レベルの推定がされる。
一方、最初の入力フレームを音声と解釈するシステムの場合であっても、E−CMN法を適用すると、図11の時刻t1からt2までの発声区間雑音スペクトルが推定できない。このため、t2付近の語尾の認識精度に問題を生ずる。
最初の入力フレームを雑音と解釈するシステムの場合に、本発明の信号分析装置を用いると、音声の優位な帯域では、雑音スペクトルの推定誤りを生ずる。しかし、スペクトル形状が変化し、帯域の音声パワーが雑音パワー以下になった時点で、その帯域の雑音パワーが推定される。図12の例では、発声に終了する時刻t2よりも早い時刻t3で、雑音パワーの推定が終了する。したがって、時刻t3からt2の間では、正しく雑音スペクトルを正規化できる。すなわち、本発明の信号分析装置を用いると、E−CMN法を用いる場合よりも、早く正しい正規化が可能となる。また、雑音の推定が完了した帯域では、完了時刻以降に、その帯域のパワーが上昇すると、音声パワーが推定されるので、発声の途中から、精度の良い音声認識が可能となる。
このように、本発明の信号分析装置を用いると、ボタンなどによって音声入力開始を指示する装置であっても、最初の発声から高精度の音声認識を行うことができる。
以上説明したように、本発明の信号分析装置では、音声発声中にも雑音スペクトルの推定ができる。この結果、発音中に、徐々に雑音スペクトルが変化するような場合でも、その変化がゆっくりと進むものであれば、雑音の変化に適応して、正規化を行うことができる。したがって、本発明の信号分析装置を音声認識装置に適用すれば、より安定した音声認識ができる音声認識装置が得られる。
[音声認識装置とその認識方法]
図13は、本発明の音声認識装置を用いた音声認識システムの例を示すブロック図である。音声認識システムは、一般に音響モデル学習装置401と、音声認識装置402とを有して構成される。
音声データベース403は、音響モデルを学習するためのものである。主として、パーソナルコンピュータや、ワークステーションの固定ディスクなどに格納されている。404は、本発明の信号分析装置を用いた信号分析手段である。実際は、図6に示す構成のものや、図6で示す構成に、さらに音響パラメータの時間的な変化量を求める部分を追加した構成で、使用される。405は、音響モデル学習手段であり、音声データベースの発声内容を記録した言語データベース406と、前記信号分析手段404の出力から、統計的に各音素あるいは各音節といった音声単位毎に統計を求める。モデルは一般に隠れマルコフモデルを用いる場合が一般的である。
407は、音響モデル学習手段405で求めた音響モデルを示す。408は別途作成した言語辞書である。言語辞書408は、単語を音素列で表した単語辞書や、単語間の接続制限を規定した文法データを含む。言語辞書408の作成は、手作業で行ってもよく、言語データベース406に含まれる文章から単語間の接続確率を統計で求めてもよい。
409は、信号分析装置404と同様の信号分析を行う信号分析手段である。410は、尤度演算手段を示し、前記音響モデル407の各統計量と、信号分析手段409で求めた音響パラメータから、各時刻の入力信号に対する各音声単位の尤度を求める。411は、照合手段であり、求められた各音声単位の尤度の時系列から尤もらしい言語的な仮説の尤度を計算し、尤度の高い順に候補を出力する。音声認識方法としては尤度演算や照合手段を明確に分離しない実装もあり得る。
[プログラム、電子機器]
音声認識は、一般に、汎用あるいは信号処理用のCPUを用いて、デジタル処理で、実行される。図14は、本発明の音声認識装置や、本発明の音声認識装置を含んだ電子機器の構成を示す図である。
501は、パーソナルコンピュータを始めデジタル機器におけるデータやアドレスのバスを示す。各処理手段は、このバスに接続されており、各々の処理を行う。502は、ボタンやキーボード、マイクなどの複数の入力手段を示す。音声入力は、マイクから入力される場合に限られず、別の機器で電気信号に変換されたものを、通信回線を介して入力する場合もある。503は、入力手段502からの指示に従い、機器を制御し、また入力された音声を音声認識するCPUを示す。504は、CPUが処理するための作業用のメモリ、および、音声認識プログラムを含むプログラムメモリである。505は、ディスプレイやブザー、スピーカ、ランプなどの出力装置である。音声を認識した結果は、候補として表示される場合もあるし、認識結果を受けて何らかの処理が行われる場合もあり、さらには処理された結果を表示する場合もある。この電子機器が携帯電話の場合は、これらの処理ブロックに、図示しない無線通信手段が追加される。パーソナルコンピュータや携帯型情報機器などでは、通信手段や外部記憶装置などが追加される。
音声認識装置により認識した結果に基づいて、機能を選択し、実行する例としては、例えばテレビのチャンネルを切り替える、ビデオ装置の再生や停止などの操作、エアコンの温度設定などが挙げられる。また、情報端末の場合であれば、通信の制御、プログラムの実行制御、文字の入力などが挙げられる。
信号分析プログラムあるいは音声認識プログラムを含むこれらの装置の制御プログラムは、プログラム記録媒体に記録された情報処理プログラムによって実現される。上記実施の形態における上記プログラム記録媒体は、RAM(ランダム・アクセル・メモリ)とは別体に設けられたROM(リード・オンリー・メモリ)でなるプログラムメディアである。または、外部補助記録装置に装着されて読み出されるプログラムメディアであってもよい。尚、何れの場合においても、上記プログラムメディアから情報処理プログラムを読み出すプログラム読み出し手段は、上記プログラムメディアに直接アクセスして読み出す構成を有していてもよいし、上記RAMに設けられたプログラム記憶エリア(図示せず)にダウンロードし、上記プログラム記憶エリアにアクセスして読み出す構成を有していてもよい。尚、上記プログラムメディアからRAMの上記プログラム記録エリアにダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているもとする。
ここで、上記プログラムメディアとは、本体側と分離可能に構成され、磁気テープやカセットテープ等のテープ系、フロッピーディスク、ハードディクス等の磁気ディスクやCD(コンパクトディスク)−ROM、MO(光磁気)ディスク、MD(ミニディスク)、DVD(デジタル多用途ディスク)等の光ディスクのディスク系、IC(集積回路)カードや光カード等のカード系、マスクROM、EPROM(紫外線消去型ROM)、EEPROM(電気的消去型ROM)、フラッシュROM等の半導体メモリ系を含めた、固定的にプログラムを坦持する媒体である。
また、上記実施の形態における音声認識装置あるいは電子機器は、モデムを備えてインターネットを含む通信ネットワークと接続可能となっている。この場合、上記プログラムメディアは、通信ネットワークからのダウンロード等によって流動的にプログラムを坦持する媒体であっても差し支えない。尚、その場合における上記通信ネットワークからダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。あるいは、別の記録媒体からインストールされるものとする。
図1は、MFCCを求めるための手順を示すフローチャートである。 図2は、従来のMFCC分析を行う信号分析装置の構成を示すブロック図である。 図3は、MFCC法を用いた従来のE−CMN法による分析を行う信号分析装置の構成を示すブロック図である。 図4は、本発明の信号分析装置の構成を示す図である。 図5は、本発明にかかる信号分析処理の流れを示すフローチャートである。 図6は、本発明にかかる信号分析処理による入力帯域エネルギーと、更新係数、正規化係数、正規化帯域エネルギーとの対応関係を示す図である。 図6(a)は、式3と式4とを用いて、入力された帯域エネルギーに対する正規化帯域エネルギーの関係を示す図である。 図6(b)は、入力帯域エネルギーと正規化係数との関係を示す図である。 図6(c)は、入力帯域エネルギーと更新係数との関係を示す図である。 図7は、音声波形を含む音響信号の例を示す図である。 図8は、図7に示した音声波形を含む音響信号のスペクトログラムを簡略化した図である。 図9は、図8に示したスペクトルを従来のE−CMN法を用いて正規化する場合の正規化処理を行う範囲を示す図である。 図10は、図8に示したスペクトルを、本発明の信号分析装置を用いて正規化する場合の正規化処理を行う範囲を示す図である。 図11は、図7に示す音声波形を含む音響信号が入力された場合に、E−CMN法による雑音スペクトルの適応が進行する様子を示す図である。 図12は、図7に示す音声波形を含む音響信号が入力された場合に、本発明の信号分析装置による雑音スペクトルの適応が進行する様子を示す図である。 図13は、本発明の音声認識装置を用いた音声認識システムの例を示すブロック図である。 図14は、本発明の音声認識装置や、本発明の音声認識装置を含んだ電子機器の構成を示す図である。 図15は、正規化手段として低域遮断フィルタを用いた本発明の信号分析手段の構成を示す図である。
符号の説明
101 周波数分析手段
102 パラメータ変換手段
201 平均更新手段
202 減算処理手段
203 音声区間検出手段
301 更新係数取得手段
302 レベル計算手段
303 正規化手段
304 正規化係数取得手段
305 周波数帯域分割手段
306 帯域エネルギー抽出手段
307 低域遮断フィルタ
401 音響モデル学習装置
402 音声認識装置
403 音声データベース
404 信号分析手段
405 音響モデル学習手段
406 言語データベース
407 音響モデル
408 言語辞書
409 信号分析手段
410 尤度演算手段
411 照合手段
501 バス
502 入力手段
503 CPU
504 プログラムメモリ
505 出力手段

Claims (22)

  1. 入力信号を、複数の周波数帯域の信号に分割する周波数帯域分割手段と、
    前記各帯域に分割された入力信号に対して、帯域ごとの帯域エネルギーを抽出する帯域エネルギー抽出手段と、
    前記抽出された帯域エネルギーを、帯域ごとに正規化し、帯域ごとの正規化帯域エネルギーを求める正規化手段と、
    を、有する信号分析装置。
  2. 請求項1に記載の信号分析装置であって、
    前記正規化手段は、前記帯域ごとに抽出された帯域エネルギーから、直流成分を減衰させる低域遮断フィルタで構成されていることを特徴とする信号分析装置。
  3. 請求項1に記載の信号分析装置であって、
    前記抽出された帯域エネルギーの系列から、帯域ごとの条件付平均値を、第1のレベルとして計算するレベル計算手段を、有し、
    前記正規化手段では、前記帯域ごと抽出された帯域エネルギーから、同じ帯域の第1のレベルを所定の係数で乗じた値を減算する
    ことを特徴とする信号分析装置。
  4. 請求項3に記載の信号分析装置であって、
    前記レベル計算手段では、前記第1のレベルの計算に加え、前記抽出された帯域エネルギーの系列から、第1のレベルとは異なる、帯域ごとの条件付き平均値の少なくとも1つを、第2のレベルとして計算し、
    前記正規化手段では、前記帯域ごとに抽出された帯域エネルギーから、同じ帯域の第1のレベルおよび第2のレベルをそれぞれ所定の係数で乗じた値を減算する
    ことを特徴とする信号分析装置。
  5. 請求項3または4に記載の信号分析装置であって、
    前記帯域エネルギーの値に応じて1つまたは複数の正規化係数を求める正規化係数取得手段をさらに有し、
    前記正規化手段では、前記帯域ごと抽出された帯域エネルギーから、同じ帯域の前記第1のレベルまたは前記第1のレベルおよび複数のレベルに前記正規化係数を乗じた値を減算する
    ことを特徴とする信号分析装置。
  6. 請求項4または5に記載の信号分析装置であって、
    前記第1のレベルが、音声を含まない背景雑音の、帯域ごとの条件付き平均値であり、
    前記第2のレベルが、音声の、帯域ごとの条件付き平均値であることを特徴とする信号分析装置。
  7. 信号の正規化を逐次的に行う信号処理装置であって、
    入力信号に基づいて第1のレベルを更新し、記憶するレベル計算手段と、
    前記第1のレベルに所定の係数を乗じた値を、入力信号から減算する正規化手段と、
    前記第1のレベルと前記入力信号との差に基づいて、更新係数を求める更新係数取得手段とを、備え、
    前記レベル計算手段では、前記更新係数を用いて、第1のレベルを、入力信号に近づけることにより、
    第1のレベルを、入力信号の条件付平均値とすることを特徴とする信号処理装置。
  8. 請求項7に記載の信号処理装置であって、
    前記第1のレベルと前記入力信号との差に基づいて、正規化係数を取得する正規化係数取得手段を備え、
    前記正規化手段では、前記第1のレベルに正規化係数を乗じた値を、入力信号から減算し、
    入力レベルに応じて減算量を制御することを特徴とする信号処理装置。
  9. 請求項7に記載の信号処理装置であって、
    前記レベル計算手段では、入力信号に基づいて複数のレベルを更新して記憶し、
    前記正規化手段では、前記複数のレベルにそれぞれ所定の係数を乗じた値を、入力信号から減算し、
    前記更新係数取得手段では、前記第1のレベルと前記入力信号との差に基づいて、複数のレベルの更新係数を求め、
    前記レベル計算手段では、前記複数のレベルの更新係数を用いて、前記求められた複数のレベルを、更新して、
    入力の分布に適した正規化を行うことを特徴とする信号処理装置。
  10. 請求項8に記載の信号処理装置であって、
    前記レベル計算手段では、入力信号に基づいて複数のレベルを更新して記憶し、
    前記正規化手段では、前記複数のレベルにそれぞれ所定の係数を乗じた値を、入力信号から減算し、
    前記更新係数取得手段では、前記第1のレベルと前記入力信号との差に基づいて、複数のレベルの更新係数を求め、
    前記正規化係数取得手段では、複数のレベルに対応した複数の正規化係数を求め、
    前記正規化手段では、前記複数のレベルのそれぞれに対応した正規化係数を、それぞれのレベルに乗じた値を、入力信号から減算し、
    入力のレベルに応じて適した正規化を行うことを特徴とする信号処理装置。
  11. 請求項3ないし6のいずれかに記載の信号分析装置であって、
    各帯域でのレベル計算手段および正規化手段では、
    請求項7ないし10のいずれかに記載の信号処理装置を用いることを特徴とする信号分析装置。
  12. 請求項11に記載の信号分析装置であって、
    低周波に属する帯域と、高周波に属する帯域とでは、所定の係数を異なる値とすることを特徴とする信号分析装置。
  13. 各時刻の入力信号から得られた帯域ごとの帯域エネルギーを、対数エネルギーとして処理することを特徴とする請求項1ないし6、請求項11または12のいずれかに記載の信号分析装置。
  14. 請求項1ないし8、請求項11ないし13のいずれかに記載の信号分析装置と、
    信号分析装置から得られた帯域ごとに正規化された帯域エネルギーから音響パラメータを求めるパラメータ変換手段を有し、
    前記求められた音響パラメータを用いて、入力信号に含まれる音声を認識する音声認識部とを、有する音声認識装置。
  15. MFCC(Mel Frequency Cepstrum Coefficients)パラメータの抽出過程において、各帯域エネルギーの正規化を行うことを特徴とする請求項14に記載の音声認識装置。
  16. 請求項1ないし6、請求項11ないし13のいずれかに記載の信号分析装置をコンピュータに実行させるための信号分析プログラム。
  17. 請求項7ないし10のいずれかに記載の信号処理装置をコンピュータに実行させるための信号分析プログラム。
  18. 請求項14または15に記載の音声認識装置をコンピュータに実行させるための音声認識プログラム。
  19. 請求項17に記載の信号分析プログラムを記録したコンピュータ読み取り可能な記録媒体。
  20. 請求項18に記載の信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体。
  21. 請求項19に記載の音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。
  22. 請求項14または15に記載の音声認識装置を有する電子機器であって、
    入力信号に含まれる音声信号を前記音声認識装置により認識した結果に基づいて、機能を選択し、実行することを特徴とする電子機器。
JP2003299346A 2003-08-22 2003-08-22 信号分析装置、音声認識装置、プログラム、記録媒体、並びに電子機器 Expired - Fee Related JP4301896B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2003299346A JP4301896B2 (ja) 2003-08-22 2003-08-22 信号分析装置、音声認識装置、プログラム、記録媒体、並びに電子機器
PCT/JP2004/010841 WO2005020212A1 (ja) 2003-08-22 2004-07-29 信号分析装置、信号処理装置、音声認識装置、信号分析プログラム、信号処理プログラム、音声認識プログラム、記録媒体および電子機器
CN2004800241642A CN1839427B (zh) 2003-08-22 2004-07-29 信号分析装置、信号处理装置、语音识别装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003299346A JP4301896B2 (ja) 2003-08-22 2003-08-22 信号分析装置、音声認識装置、プログラム、記録媒体、並びに電子機器

Publications (2)

Publication Number Publication Date
JP2005070367A true JP2005070367A (ja) 2005-03-17
JP4301896B2 JP4301896B2 (ja) 2009-07-22

Family

ID=34213754

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003299346A Expired - Fee Related JP4301896B2 (ja) 2003-08-22 2003-08-22 信号分析装置、音声認識装置、プログラム、記録媒体、並びに電子機器

Country Status (3)

Country Link
JP (1) JP4301896B2 (ja)
CN (1) CN1839427B (ja)
WO (1) WO2005020212A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007212707A (ja) * 2006-02-09 2007-08-23 Ricoh Co Ltd 定着装置及び画像形成装置
JP2011203500A (ja) * 2010-03-25 2011-10-13 Toshiba Corp 音情報判定装置、及び音情報判定方法
JP2012132950A (ja) * 2010-12-17 2012-07-12 Fujitsu Ltd 音声認識装置、音声認識方法および音声認識プログラム
JP2015501450A (ja) * 2011-11-01 2015-01-15 クゥアルコム・インコーポレイテッドQualcomm Incorporated オーディオ特徴データの抽出と分析
US9390709B2 (en) 2012-09-25 2016-07-12 Seiko Epson Corporation Voice recognition device and method, and semiconductor integrated circuit device
US9564131B2 (en) 2011-12-07 2017-02-07 Qualcomm Incorporated Low power integrated circuit to analyze a digitized audio stream
JP2020184100A (ja) * 2019-04-26 2020-11-12 株式会社スクウェア・エニックス 情報処理プログラム、情報処理装置、情報処理方法及び学習済モデル生成方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10629184B2 (en) 2014-12-22 2020-04-21 Intel Corporation Cepstral variance normalization for audio feature extraction
CN104900237B (zh) * 2015-04-24 2019-07-05 上海聚力传媒技术有限公司 一种用于对音频信息进行降噪处理的方法、装置和系统
JP6764028B2 (ja) * 2017-07-19 2020-09-30 日本電信電話株式会社 マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法
CN108461081B (zh) * 2018-03-21 2020-07-31 北京金山安全软件有限公司 语音控制的方法、装置、设备和存储介质
CN110797008B (zh) * 2018-07-16 2024-03-29 阿里巴巴集团控股有限公司 一种远场语音识别方法、语音识别模型训练方法和服务器
US10897534B1 (en) * 2019-09-13 2021-01-19 International Business Machines Corporation Optimization for a call that waits in queue

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03230200A (ja) * 1990-02-05 1991-10-14 Sekisui Chem Co Ltd 音声認識方法
JP3230200B2 (ja) * 1995-06-26 2001-11-19 農林水産省蚕糸・昆虫農業技術研究所長 改質蛋白質繊維又はその繊維製品の製造法
JPH10133692A (ja) * 1996-10-28 1998-05-22 Hitachi Ltd 録音装置及びカメラ一体型映像音声記録装置
JP2002014694A (ja) * 2000-06-30 2002-01-18 Toyota Central Res & Dev Lab Inc 音声認識装置
EP1376539B8 (en) * 2001-03-28 2010-12-15 Mitsubishi Denki Kabushiki Kaisha Noise suppressor
JP2003195894A (ja) * 2001-12-27 2003-07-09 Mitsubishi Electric Corp 符号化装置、復号化装置、符号化方法、及び復号化方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007212707A (ja) * 2006-02-09 2007-08-23 Ricoh Co Ltd 定着装置及び画像形成装置
JP2011203500A (ja) * 2010-03-25 2011-10-13 Toshiba Corp 音情報判定装置、及び音情報判定方法
JP2012132950A (ja) * 2010-12-17 2012-07-12 Fujitsu Ltd 音声認識装置、音声認識方法および音声認識プログラム
US9992745B2 (en) 2011-11-01 2018-06-05 Qualcomm Incorporated Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate
JP2015501450A (ja) * 2011-11-01 2015-01-15 クゥアルコム・インコーポレイテッドQualcomm Incorporated オーディオ特徴データの抽出と分析
CN108551686A (zh) * 2011-11-01 2018-09-18 高通股份有限公司 音频特征数据的提取及分析
US9564131B2 (en) 2011-12-07 2017-02-07 Qualcomm Incorporated Low power integrated circuit to analyze a digitized audio stream
US10381007B2 (en) 2011-12-07 2019-08-13 Qualcomm Incorporated Low power integrated circuit to analyze a digitized audio stream
US11069360B2 (en) 2011-12-07 2021-07-20 Qualcomm Incorporated Low power integrated circuit to analyze a digitized audio stream
US11810569B2 (en) 2011-12-07 2023-11-07 Qualcomm Incorporated Low power integrated circuit to analyze a digitized audio stream
US9390709B2 (en) 2012-09-25 2016-07-12 Seiko Epson Corporation Voice recognition device and method, and semiconductor integrated circuit device
JP2020184100A (ja) * 2019-04-26 2020-11-12 株式会社スクウェア・エニックス 情報処理プログラム、情報処理装置、情報処理方法及び学習済モデル生成方法
JP7421869B2 (ja) 2019-04-26 2024-01-25 株式会社スクウェア・エニックス 情報処理プログラム、情報処理装置、情報処理方法及び学習済モデル生成方法

Also Published As

Publication number Publication date
CN1839427B (zh) 2010-04-28
CN1839427A (zh) 2006-09-27
WO2005020212A1 (ja) 2005-03-03
JP4301896B2 (ja) 2009-07-22

Similar Documents

Publication Publication Date Title
EP1199708B1 (en) Noise robust pattern recognition
US8131544B2 (en) System for distinguishing desired audio signals from noise
US7319960B2 (en) Speech recognition method and system
EP1355296B1 (en) Keyword detection in a speech signal
US7133826B2 (en) Method and apparatus using spectral addition for speaker recognition
Hirsch et al. A new approach for the adaptation of HMMs to reverberation and background noise
KR20180087942A (ko) 음성 인식 방법 및 장치
JP2000132177A (ja) 音声処理装置及び方法
US20060136206A1 (en) Apparatus, method, and computer program product for speech recognition
US8473282B2 (en) Sound processing device and program
Cohen et al. Spectral enhancement methods
JP4301896B2 (ja) 信号分析装置、音声認識装置、プログラム、記録媒体、並びに電子機器
JP3451146B2 (ja) スペクトルサブトラクションを用いた雑音除去システムおよび方法
CN112951259B (zh) 音频降噪方法、装置、电子设备及计算机可读存储介质
JP6759898B2 (ja) 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
US11308946B2 (en) Methods and apparatus for ASR with embedded noise reduction
You et al. Spectral-domain speech enhancement for speech recognition
JP2000132181A (ja) 音声処理装置及び方法
US10446173B2 (en) Apparatus, method for detecting speech production interval, and non-transitory computer-readable storage medium for storing speech production interval detection computer program
JP2000122688A (ja) 音声処理装置及び方法
KR20070061216A (ko) Gmm을 이용한 음질향상 시스템
US20080228477A1 (en) Method and Device For Processing a Voice Signal For Robust Speech Recognition
JP2003271190A (ja) 雑音除去方法、雑音除去装置及び、それを用いた音声認識装置
Kotnik et al. Efficient noise robust feature extraction algorithms for distributed speech recognition (DSR) systems
Oonishi et al. A noise-robust speech recognition approach incorporating normalized speech/non-speech likelihood into hypothesis scores

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090324

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090421

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120501

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees