JP2009058708A

JP2009058708A - 音声処理システム、方法及びプログラム

Info

Publication number: JP2009058708A
Application number: JP2007225195A
Authority: JP
Inventors: Osamu Ichikawa; 治市川; Takashi Fukuda; 隆福田; Masafumi Nishimura; 雅史西村
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2007-08-31
Filing date: 2007-08-31
Publication date: 2009-03-19
Anticipated expiration: 2027-08-31
Also published as: US20090210224A1; US8812312B2; JP5089295B2

Abstract

【課題】雑音下でも安定した音声認識を可能ならしめる音声処理技法を提供すること。
【解決手段】観測音声のケプストラムの上位項と下位項をカットすることにより、観測音声そのものから直接フィルタを設計するようにしたことによって、そのフィルタは、有声音の区間では調波構造部分に重みのあるフィルタとなり、調波構造がない無声音の区間では、フラットに近いフィルタとなる。この変化が連続的であるので、有声音の区間と無声音の区間を区別することなく、安定して処理をすることができる。
【選択図】図６

Description

この発明は、音声認識技術に関し、特に、カーナビなど、雑音が大きい環境下でも、安定して音声認識を行うことができるシステム、方法及びそのプログラムに関する。

近年特に、自動車において、音声認識技術に対する要望が高まっている。すなわち、従来は、自動車において、カーナビのボタン操作、エアコンなど、運転とは直接関係ない操作も、手操作で行う必要があった。そのため、そのような操作の間、ハンドル操作が疎かになり、場合により、事故につながる危険性があった。

そこで、ドライバーが運転に集中しながら、音声の指示により、様々な操作を可能とするシステムを搭載した車があらわれている。これによれば、ドライバーが、運転中でも、音声で指示すると、マップライト部にあるマイクが音声を捉えて、システムはこの音声を認識し、コマンドに変換してカーナビを操作することにより、カーナビが作動する。同様にして、エアコンやオーディオの操作も音声で行うことができる。

しかし、自動車における音声認識は、多くの雑音に晒されるため、ノイズを抑えて高い認識率を達成することが困難であった。典型的な自動車走行中のノイズは、下記のとおりである。
１．音楽再生
２．同乗者妨害音声
３．ファン風量が大きいときのノイズ、及び窓開け

音楽再生に関しては、その音は、エコーキャンセラー技術で回避できる。同乗者妨害音声については、例えば、本出願人に係る特開２００３−３３７５９４に記載されているようなマイクロフォンアレイ技術により、マイクに指向性を与えて、音声認識のマイクが、同乗者の音声を拾わないようにすることができる。しかし、ファン風量が大きいときのノイズ、及び窓開けの場合、音声が背景雑音に埋没し、従来から行われているSpectral Subtractionや、ウィーナフィルタなどの雑音除去技術をもってしても、十分な認識率を達成することは困難であった。そこで、雑音を除去するというアプローチでなく、人間の音声がもつ調波構造を利用して音声を雑音から浮かび上がらせようという方式が期待されている。

Liang Gu, Kenneth Rose, “Perceptual harmonic cepstral coefficients for speech recognition innoisy environment “, ICASSP '01. page(s): 125-128 vol.1、及び特開２００１−２４９６７６に記載されている技術は、調波構造部分にフィルタの重み付けをするくし型フィルタであって、有声音の区間と無声音の区間を判定し、かつ有声音の区間での基本周波数（=Ｆ０またはピッチとも呼ばれる）を正確に推定することを処理の前提としていた。しかし、有声音の区間での基本周波数の正確な推定は、雑音環境下では不安定な処理であるため、実用化は困難であった。

特開２００３−７６３９３は、騒音環境下における音声推定方法および音声認識方法に関するものであり、入力音響信号を短時間セグメントごとに切り出し、短時間周波数分析を行う音響分析ステップと、音声推定に必要とする要素を推定する要素推定ステップと、要素推定ステップによって得られた要素を用いて音声を推定する音声推定ステップを含む音声推定方法であって、具体的には、入力音響信号を短時間セグメントごとに切り出し、短時間周波数分析を行い、音声認識が符合帳で保持する音声のスペクトル包絡を知識として利用し、音モデルを生成し、前記短時間周波数分析によって得られたスペクトル情報を確率密度関数とみなし、最大事後確率推定を用いて、混合重み値を推定し、各時刻で最大の重み値を持つ音モデルを生成した要素の存在仮定が最も尤度が高いとして、その要素を出力することを開示する。しかし、この開示技法は、調波構造の強調に関するものではない。
特開２００１−２４９６７６特開２００３−７６３９３ Liang Gu, Kenneth Rose, "Perceptual harmonic cepstral coefficients for speech recognition innoisy environment ", ICASSP '01. page(s): 125-128 vol.1

この発明の目的は、雑音下でも安定した音声認識を可能ならしめる音声処理技法を提供することにある。

本願発明者は、上述したような、雑音の存在下でいかに安定した音声認識を行うか、という問題を解決するために研究し、観測音声から基本周波数を推定して、その倍音を通過または増幅させるフィルタを設計する、という従来技術の延長線上では、なかなか有効な技法を考え出すことができなかった。そこで、さらに研究を進めた結果、非自明にも、観測音声そのものから、直接フィルタを設計する、というアイデアに想到したのである。

このように設計されたフィルタは、有声音の区間では調波構造部分に重みのあるフィルタとなり、調波構造がない無声音の区間では、フラットに近いフィルタとなる。この変化が連続的であるので、有声音の区間と無声音の区間を区別することなく処理をすることができる。また、基本周波数を明示的に推定する必要もないので動作が安定である。

本発明に基づくフィルタの作成は、下記のようにして行う。
1.処理フレーム毎に、観測音声の対数スペクトルを得る。
2.離散コサイン変換（ＤＣＴ）により、そのケプストラム表現を得る。
3.人間の音声の調波構造の間隔より広い変化と狭い変化を除去すべく、ケプストラムの上位項と下位項をカット（ゼロに設定）する。
4.逆離散コサイン変換（ＩＤＣＴ）と指数関数により、そのスペクトル表現を得る。
5.平均が１になるように正規化し、それをフィルタとする。なお、この正規化ステップは、省略することもできる。
6.フィルタは、周波数bin ごとの重みとして求められている。これをフレーム毎にもとの観測音声のスペクトルに乗じる。
7.以下は、通常の音声認識処理と同様、メル軸での対数スペクトルを求め、メルケプストラムに変換し、音声認識の特徴量とする。

この本発明の技法は、Spectral substractionなどの既存の雑音除去技術と組み合わせることができる。なお、この本発明の技法は、本質的に、調波構造の強調であるため、音楽のような基本周波数をもつ雑音は、認識すべき人間の音声と同様に強調する傾向がある。これを補うため、指向性を与えるマイクロフォンアレイ技術や、エコーキャンセラー技術を前処理として、音楽ノイズや混合音声については、事前に除去することが有効である。

本発明によれば、観測音声そのものから、直接フィルタを設計するようにしたことによって、そのフィルタは、有声音の区間では調波構造部分に重みのあるフィルタとなり、調波構造がない無声音の区間では、フラットに近いフィルタとなる。この変化が連続的であるので、有声音の区間と無声音の区間を区別することなく、安定して処理をすることができる。

以下、本発明の実施例を図面に基づいて詳細に説明する。以下、特に注記しない限り、以下の説明の全体を通じて、同じ要素には同じ番号を付すものとする。

図１を参照すると、本発明を実施するための例示的なハードウェア構成の概要ブロック図が示されている。図１において、スピーカ１０２の付近で発生した音は、スピーカ１０２によってアナログ信号として、Ａ／Ｄ変換器１０４に入力され、そこで、ＣＰＵ１０６が処理可能な、ディジタル信号に変換される。

スピーカ１０２が拾う音は、例えば、カーナビの場合、運転者の話声、同乗者の話声だけでなく、エアコンの送風音、カーオーディオから出力される音、エンジン音、クラクションの音などが含まれる。車の窓が開けられている場合、対向車からの騒音、通行人の話し声、なども含まれる。

ＣＰＵ１０６は、このように入力されたディジタル化された音声信号に対して、予め導入されているソフトウェア（図示しない）により、離散フーリエ変換、離散コサイン変換などの、音声情報処理に必要な処理を行う。ＣＰＵ１０６によって行われる具体的な処理については、後で詳述する。

ＣＰＵ１０６は、上記音声情報処理を行うために、ある程度のメモリ領域を必要とする。例えば、離散フーリエ変換、離散コサイン変換のためには、行列計算が行われるので、行列の変数及び中間的な値を格納する領域が必要である。このため、好適には、ランダム・アクセス・メモリ（ＲＡＭ）であるメモリ１０８がＣＰＵ１０６に接続され、ＣＰＵ１０６によってデータを読み書き可能になっている。ＣＰＵ１０６には、適当な入出力インターフェース（図示しない）を介して、表示装置１１０が接続されている。表示装置１１０は、ユーザに、処理内容や処理状況、その他の視覚的情報を提供するために使用される。

図１の実施例では、ＣＰＵ１０６が処理した結果のディジタル的な音声信号は、Ｄ／Ａ変換器１１２によって、アナログ信号に変換される。このアナログ信号は、音声認識装置に渡され、処理される。また、この場合、アナログ信号なので、ユーザーがそのまま、スピーカ（図示しない）で聴くこともできる。よって、この構成は、補聴器のような目的にも使用することができる。

図２の実施例は、図１のＤ／Ａ変換器１１２が、通信装置２０２で置き換えられている以外は、図１と同一の構成である。図２の実施例では、ＣＰＵ１０６が処理した結果のディジタル的な音声信号は、ＰＣＩ、イーサネット（商標）などのディジタル通信方式で、音声認識装置に渡され、処理される。

図３の実施例は、図１のＤ／Ａ変換器１１２が、共有メモリ３０２で置き換えられている以外は、図１と同一の構成である。共有メモリ３０２は、メモリ１０８の一部であってもよいし、別のメモリであってもよい。図３の実施例では、ＣＰＵ１０６が処理した結果のディジタル的な音声信号は、共有メモリ３０２に配置され、適当なタイミングで、音声認識装置がそこから音声信号のデータを読み取ることになる。

図４は、従来から知られている、典型的な音声認識のための前処理を示す。図４の左から入ってくる音声信号は、予め、図１〜図３に示すＡ／Ｄ変換器１０４により、ディジタル信号に変換されているものとする。

そのディジタル化された音声信号は、ブロック４０２で、ハニング窓、ハミング窓などの適当に方法でまずフレーム化処理され、次に離散フーリエ変換されて、音声信号のスペクトルが、ブロック４０４で、メルフィルター離散コサイン変換されて、対数スケールのケプストラムである、メルケプストラムが得られる。ここで、対数スケールが使用される理由は、人間の聴覚の特性が、経験上、対数スケールであるからである。こうして得られたメルケプストラムを用いて、ブロック４０６では、ＨＭＭ、音響モデル、Ｎグラム言語モデルなどの既知の方法により、音声認識が行われるが、音声認識処理自体は、本発明の要旨ではないので、これ以上の説明は、省略する。

図５は、本発明の技法の位置づけを示す図である。すなわち、図示されるように、本発明の処理ブロック５０２は、従来技術における、音声信号のスペクトルを出力するブロック４０２と、メルケプストラムを出力するブロック４０４の間に、全体の処理の一貫性を維持しつつ、すなわち、他のブロックの機能に変更を加えないで、挿入することができる。このことは、本発明の処理技法の有利な特徴の１つである。処理ブロック５０２の機能を要約して述べると、観測音声そのものから、直接フィルタを生成し、そのフィルタをかけた出力を、ブロック４０４に引き渡すことである。このフィルタの作成処理は、音声フレーム毎に独立して行われ、すなわち、音声フレーム毎に新たにフィルタが作成されることになる。なお、ブロック４０６の音声認識部で使用される音響モデルには、学習用音声を使用して作成されるが、その作成の際においても、本発明のブロック５０２を用いることが好適である。

次に、図６を参照して、本発明の実施例に係る、音声処理について説明する。図６には、観測音声のスペクトル６０２の例が示されている。jを離散フーリエ変換のｂｉｎ番号とし、観測音声のＴフレーム目のパワースペクトルをy_T(j)とすると、ステップ６０４では、下記の式により、対数スペクトルY_T(j)が計算される。
Y_T(j) = log(y_T(j))
また、この対数スペクトルを算出する際、より安定した表現を得るために、前後数フレームのパワースペクトルを平均したものを用いても良い。よって、本明細書における「対数スペクトル」という用語は、前後数フレームのパワースペクトルを平均したものの対数スペクトルも含むものとする。

尚、ｂｉｎ番号とは、離散フーリエ変換の周波数に対応するものである。例えば、サンプリング周波数16KHz で、５１２ポイントの離散フーリエ変換をかけると、
bin番号周波数
0 0 Hz
1 31.25Hz
2 62.5Hz
3 93.75Hz
: :
256 8000Hz
となる。すなわち、離散フーリエ変換の出力は、階段状の周波数ごとにまとめられ、番号で参照される。

このような処理の結果の波形を、雑音の例に関して波形６０４ａに示し、有声音の例に関して波形６０４ｂに示す。図示されているように、雑音の例と、有声音の例は、それぞれ異なるフレームから取られたものである。

次に、離散コサイン変換行列を、D(i,j)とする。すると、ステップ６０６で、ケプストラムC_T(i)は、次のように求められる。
なお、離散コサイン変換行列は、下記のような要素成分をもつ。
このような処理の結果の波形を、雑音の例に関して波形６０６ａに示し、有声音の例に関して波形６０６ｂに示す。

ケプストラムは、対数スペクトルの外形の特徴を抽出した係数であるので、ステップ６０８で、人間の発声の調波構造に対応した領域の項のみ残し、それ以外の項をカットする。そのために、下記の式で示す処理を行う。
このような処理の結果の波形を、雑音の例に関して波形６０８ａに示し、有声音の例に関して波形６０８ｂに示す。上記の式で、εは、０または非常に小さい定数である。lower_cep_numと、upper_cep_numは、人間の発声の調波構造としてあり得る範囲に対応する。１つの実験例では、人間の発声の基本周波数は、100MHzから400MHzの間にあると仮定し、lower_cep_num = 40且つ、upper_cep_num = 160と設定した。但し、これは、サンプリング周波数16KHz、ＦＦＴ幅512点としてた場合の設定の例である。

次に、ステップ６１０では、逆離散コサイン変換をかけて、加工されたケプストラムを対数スペクトル領域に戻す処理が行われる。それは、下記のような式で示す処理を行う。
ここで、D^-1(j,i)は、逆離散コサイン変換行列D^-1のi,j成分を示す。D^-1は、上記した離散コサイン変換行列Dの逆行列であり、一般的には、Dはユニタリ行列なので、D^-1は、Dの転置行列として、求められる。

このような処理の結果の波形を、雑音の例に関して波形６１０ａに示し、有声音の例に関して波形６１０ｂに示す。

ステップ６１２では、逆離散コサイン変換をかけた結果に対して、先ず、下記の式によって、対数スペクトル領域から、パワースペクトル領域に戻す処理が行われる。それには、下記の数式の処理を行う。
次に、下記の式により、平均値が１になるように正規化し、以って最終的なフィルタを作成する。下記の式で、Num_binは、bin総数である。この結果のフィルタを、雑音の例の場合６１２ａ、有声音の例の場合６１２ｂとして、それぞれ示す。これらから、雑音の場合はフィルタが全般にピークが低くてなだらかで、有声音の場合に、高く尖ったピークをもつことが見て取れる。

ステップ６１４では、下記の式で示すように、フレームTのパワースペクトルに、このようにして得られた信号を、bin毎の重み係数として掛け合わせることによってフィルタとして作用させることで、観測音声の強調が行われる。
こうして得られたz_T(j)は、bin番号jのTフレーム目の出力音声のパワースペクトルであり、雑音の例の場合は、スペクトル６１４ａのようになり、有声音の例の場合は、スペクトル６１４ｂのようになる。ここで、スペクトル６０４ａとスペクトル６１４ａを比較すると、雑音の例の場合は、図６に示す処理の結果、スペクトルに目だった変化がないことが見て取れる。一方、有声音の例の場合は、スペクトル６０４ｂに比較すると、スペクトル６１４ｂで、図６に示す処理の結果、フォルマントが高くなっており、これにより、雑音の存在下でも高い精度で音声認識を可能ならしめることができることがわかる。

ところで、本発明を適用することにより、本発明を用いない場合と比較して、離散コサイン変換が１回、逆離散コサイン変換が１回増加する。すなわち、FFT幅が512点のときに、256x256の行列を256次元のベクトルに乗ずる計算が２回生じるということである。これは、音声認識自身に必要な計算量と比べれば、大した計算量ではないが、次の例に示すように、２回を１回に減らし、計算量を削減することが可能である。
Y …観測音声の対数スペクトルのベクトル 256次元
D …離散コサイン変換行列 256x256次元
A …上位項と下位項をカットする行列 256x256次元
W …逆離散コサイン変換後の対数スペクトル 256次元
但しAは、下記のような形式の行列である。この行列中、εは、図６のステップ６０８で言及したのと同じ小さい数である。

これによれば、W = D^-1ADYであって、DもAも固定値の行列なので、D^-1ADの部分を予め計算して１個の行列にしておけば、計算量の削減、すなわち計算時間の短縮が可能である。

図７は、音声強調された出力を、時間領域の音声信号として音声認識装置に提供する場合の機能ブロック図を示す。例えば、図示されている個々の機能ブロック図は、本発明に係る音声処理システムの個々のソフトウェア処理モジュールであると考えることもできる。

図７において、音声入力部７０２は、図１のＡ／Ｄ変換器１０４の機能によって、音声ディジタル信号を提供する。ＤＦＴ部７０４は、離散フーリエ変換機能により、パワースペクトルを出力する。対数スペクトル生成部７０６は、ＤＦＴ部７０４からパワースペクトルを入力して、図６の処理ステップ６０４に関して説明した機能を実行する。ＤＣＴ部７０８は、対数スペクトル生成部７０６からの出力を入力して、図６の処理ステップ６０６に関して説明した機能を実行する。ケプストラム上位・下位項のカット部７１０は、ＤＣＴ部７０８からの出力を入力して、図６の処理ステップ６０８に関して説明した機能を実行する。Ｉ−ＤＣＴ部７１２は、ケプストラム上位・下位項のカット部７１０からの出力を入力して、図６の処理ステップ６１０に関して説明した機能を実行する。フィルタ作成部７１４は、Ｉ−ＤＣＴ部７１２からの出力を入力して、図６の処理ステップ６１２に関して説明した機能を実行する。フィルタ実行部７１６は、ＤＦＴ部７０４からのパワースペクトルと、フィルタ作成部７１４からの出力を入力して、図６の処理ステップ６１４に関して説明した機能を実行する。フィルタ実行部７１６の出力と、音声入力部７０２の出力は、Ｉ−ＤＦＴ（逆離散フーリエ変換）部７１８に入力され、時間領域のディジタル音声信号に変換される。このディジタル音声信号は、例えばＤ／Ａ変換器とスピーカをもつ出力部により、人間が可聴な音声信号として出力される。

図８は、音声強調された出力を、スペクトル領域の音声信号として音声認識装置に提供する場合の機能ブロック図を示す。ここでも、図示されている個々の機能ブロック図は、本発明に係る音声処理システムの個々のソフトウェア処理モジュールであると考えることもできる。

図８において、音声入力部８０２は、図１のＡ／Ｄ変換器１０４の機能によって、音声ディジタル信号を提供する。ＤＦＴ部８０４は、離散フーリエ変換機能により、パワースペクトルを出力する。対数スペクトル生成部８０６は、ＤＦＴ部８０４からパワースペクトルを入力して、図６の処理ステップ６０４に関して説明した機能を実行する。ＤＣＴ部８０８は、対数スペクトル生成部８０６からの出力を入力して、図６の処理ステップ６０６に関して説明した機能を実行する。ケプストラム上位・下位項のカット部８１０は、ＤＣＴ部８０８からの出力を入力して、図６の処理ステップ６０８に関して説明した機能を実行する。Ｉ−ＤＣＴ部８１２は、ケプストラム上位・下位項のカット部８１０からの出力を入力して、図６の処理ステップ６１０に関して説明した機能を実行する。フィルタ作成部８１４は、Ｉ−ＤＣＴ部８１２からの出力を入力して、図６の処理ステップ６１２に関して説明した機能を実行する。フィルタ実行部８１６は、ＤＦＴ部８０４からのパワースペクトルと、フィルタ作成部８１４からの出力を入力して、図６の処理ステップ６１４に関して説明した機能を実行する。フィルタ実行部８１６の出力は、スペクトル領域の音声信号として音声認識装置に提供され、出力部８１８は、図２の通信装置２０２または図３の共有メモリ３０２であってよい。

次に、本発明に係る音声処理の評価実験について述べる。評価実験には、情報処理学会(IPSJ) SIG-SLP 雑音下音声認識評価ワーキンググループの、自動車内音声認識の評価用データベースCENSREC-3 (Corpus and Environments for Noisy Speech RECognition) を使用した。

CENSREC-3には、通常走行、ハザードON、エアコン(Low)、エアコン(High)、オーディオON、窓開など各種環境条件にて自動車内で発声された単語音声が含まれている。音声データは、学習用と評価用に分かれており、学習用データにて音響モデルの作成を行い、その音響モデルを用いて評価用データの音声認識を実行し、認識率評価する枠組みとなっている。ここでは、音声認識フロントエンドを変更しない通常の音声認識の実行またはその結果を、ベースラインと呼び、本発明のような音声認識フロントエンドの変更によって、どれくらいベースラインから認識率が改善されたかを評価した。

CENSREC-3 は、学習用データと評価用データの選択のしかたにより、コンディション１からコンディション６までの評価コンディションがある。今回は、実用のシナリオに近い、学習用にも評価用にも遠隔マイク音声を使うコンディション３で評価実験を行った。

以下の表に、結果の単語認識率（正確度%）を示す。今回は、背景に音楽雑音があると副作用が発生するであろうことが予想されるので、オーディオ・オンのケースとそれ以外の全てのケースで集計を分けた。また、改善を期待できる窓開とエアコン・ハイのケースの結果についても個別に付記した。
ベースラインに対し、本発明の処理を施した音声認識は、オーディオ・オン以外のケースにおいて、認識率を改善している。特に、今回の課題であった窓開やエアコン・ハイのケースで大幅な改善を示した。一方で、オーディオ・オンのケースでは、認識率はベースラインより劣化した。但し、オーディオからの音声をノイズとして拾うことは、周知のエコーキャンセリングの技術により効果的に抑えることができるので、比較的容易に回避可能であることを理解されたい。

本発明の技法は、Spectral Subtraction （ＳＳ）など従来からある雑音除去手法と併用できる。表の ”SS+本発明” に示すように、オーディオON以外のケースにおいて、SSと本発明の技法の組み合わせにより、ＳＳ単体、本発明の技法単体単体よりも大きな認識率の改善を達成した。

以上、本発明の上記実施例では、主として音声認識システムの前処理システムとして説明してきたが、このような用途に限らず、その雑音抑制特性を利用して、図１に示すような構成により、補聴器などの用途に好適に適用することができる。

本発明を実施するためのハードウェア構成の概略ブロック図である。本発明を実施するための、別のハードウェア構成の概略ブロック図である。本発明を実施するための、さらに別のハードウェア構成の概略ブロック図である。従来の典型的な音声認識システムの処理ブロック図である。従来の典型的な音声認識システムに、本発明を適用した処理ブロック図である。本発明の音声処理のフローチャートと、対応するスペクトルを示す図である。音声強調された出力を、時間領域の音声信号として音声認識装置に提供する場合の機能ブロック図である。音声強調された出力を、スペクトル領域の音声信号として音声認識装置に提供する場合の機能ブロック図である。

Claims

コンピュータにより、音声信号を処理するためのシステムであって、
音声信号のパワースペクトルを入力して、該パワースペクトルの対数スペクトルを生成する手段と、
前記対数スペクトルを生成する手段の出力を、離散コサイン変換する手段と、
前記離散コサイン変換する手段の出力を入力して、該出力のケプストラム上位及び下位項をカットする手段と、
前記ケプストラム上位及び下位項をカットする手段の出力を入力して、逆離散コサイン変換する手段と、
前記逆離散コサイン変換する手段の出力を、パワースペクトル領域に戻すように変換する手段と、
前記パワースペクトル領域に戻された出力を、前記音声信号のパワースペクトルに対して、フィルタするように作用させる手段を有する、
音声処理システム。
前記パワースペクトル領域に戻すように変換する手段が、前記逆離散コサイン変換する手段の出力を正規化する手段をさらに有する、請求項１の音声処理システム。
前記ケプストラム上位及び下位項をカットする手段は、人間の音声としてありえる範囲の調波構造に対応する領域を残すようにカットする、請求項１の音声処理システム。
コンピュータにより、音声信号を処理するための方法であって、
音声信号のパワースペクトルを入力して、該パワースペクトルの対数スペクトル信号を生成するステップと、
前記対数スペクトル信号を、離散コサイン変換するステップと、
前記離散コサイン変換された信号の、ケプストラム上位及び下位項をカットするステップと、
前記ケプストラム上位及び下位項をカットされた信号を、逆離散コサイン変換するステップと、
前記逆離散コサイン変換された信号を、パワースペクトル領域に戻すステップと、
前記パワースペクトル領域に戻された信号を、前記音声信号のパワースペクトルに対して、フィルタするように作用させるステップとを有する、
音声処理方法。
前記パワースペクトル領域に戻された信号を正規化するステップをさらに有する、請求項４の音声処理方法。
前記ケプストラム上位及び下位項をカットするステップは、人間の音声としてありえる範囲の調波構造に対応する領域を残すようにカットする、請求項４の音声処理方法。
コンピュータの処理によって、音声認識のために、音声信号を処理するためのプログラムであって、
前記コンピュータに、
音声信号のパワースペクトルを入力して、該パワースペクトルの対数スペクトル信号を生成するステップと、
前記対数スペクトル信号を、離散コサイン変換するステップと、
前記離散コサイン変換された信号の、ケプストラム上位及び下位項をカットするステップと、
前記ケプストラム上位及び下位項をカットされた信号を、逆離散コサイン変換するステップと、
前記逆離散コサイン変換された信号を、パワースペクトル領域に戻すステップと、
前記パワースペクトル領域に戻された信号を、前記音声信号のパワースペクトルに対して、フィルタとして作用させるステップを実行させる、
音声処理プログラム。
前記パワースペクトル領域に戻された信号を正規化するステップをさらに有する、請求項７の音声処理プログラム。
前記ケプストラム上位及び下位項をカットするステップは、人間の音声としてありえる範囲の調波構造に対応する領域を残すようにカットする、請求項７の音声処理プログラム。
コンピュータにより、音声認識を行うためのシステムであって、
音声信号のパワースペクトルを入力して、該パワースペクトルの対数スペクトルを生成する手段と、
前記対数スペクトルの出力を、離散コサイン変換する手段と、
前記離散コサイン変換する手段の出力を入力して、ケプストラム上位及び下位項をカットする手段と、
前記ケプストラム上位及び下位項をカットする手段の出力を入力して、逆離散コサイン変換する手段と、
前記逆離散コサイン変換する手段の出力を、パワースペクトル領域に戻すように変換する手段と、
前記パワースペクトル領域に戻された出力を、前記音声信号のパワースペクトルに対して、フィルタとして作用させる手段を有し、
前記フィルタされたパワースペクトルを用いて、音声認識処理を行う、
音声認識システム。
前記パワースペクトル領域に戻すように変換する手段が、前記逆離散コサイン変換する手段の出力を正規化する手段をさらに有する、請求項１０の音声認識システム。
コンピュータにより、マイクから取り込んだ音声を出力するためのシステムであって、
前記マイクから取り込んだ音声をＡ／Ｄ変換して、ディジタル音声信号として出力する手段と、
前記ディジタル音声信号を離散フーリエ変換して、音声信号のパワースペクトルとして出力する手段と、
前記音声信号のパワースペクトルを入力して、該パワースペクトルの対数スペクトルを生成する手段と、
前記対数スペクトルの出力を、離散コサイン変換する手段と、
前記離散コサイン変換する手段の出力を入力して、ケプストラム上位及び下位項をカットする手段と、
前記ケプストラム上位及び下位項をカットする手段の出力を入力して、逆離散コサイン変換する手段と、
前記逆離散コサイン変換する手段の出力を、パワースペクトル領域に戻すように変換する手段と、
前記パワースペクトル領域に戻された出力を、前記音声信号のパワースペクトルに対して、フィルタとして作用させる手段と、
前記フィルタされたパワースペクトルをＤ／Ａ変換して、アナログ音声信号として出力する手段を有する、
音声出力システム。