JP2004531767A5 - - Google Patents

Download PDF

Info

Publication number
JP2004531767A5
JP2004531767A5 JP2003505912A JP2003505912A JP2004531767A5 JP 2004531767 A5 JP2004531767 A5 JP 2004531767A5 JP 2003505912 A JP2003505912 A JP 2003505912A JP 2003505912 A JP2003505912 A JP 2003505912A JP 2004531767 A5 JP2004531767 A5 JP 2004531767A5
Authority
JP
Japan
Prior art keywords
frequency
signal
band
filter
pass filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003505912A
Other languages
English (en)
Other versions
JP4177755B2 (ja
JP2004531767A (ja
Filing date
Publication date
Priority claimed from US09/882,744 external-priority patent/US6493668B1/en
Application filed filed Critical
Publication of JP2004531767A publication Critical patent/JP2004531767A/ja
Publication of JP2004531767A5 publication Critical patent/JP2004531767A5/ja
Application granted granted Critical
Publication of JP4177755B2 publication Critical patent/JP4177755B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

発話特徴抽出システム
(発明の背景)
本発明は、発話認識、音声識別、音声認証システムにおいて使用するための発話特徴抽出システムに関する。より詳細には、本発明は、低減されたエラーレートを有する発話認識システムまたは他の発話処理システムを作成するために使用され得る発話特徴処理システムに関する。
一般的に、発話認識システムは、発話者の音声信号を解析することによって発話された語を識別することを試みる装置である。発話は、特徴が抽出される電気的形態に変換される。次いで、システムは、公知の発話ユニットに関連付けられた以前に格納されたモデルのシーケンスに特徴のシーケンスを整合させることを試みる。特定の規則に従って、特徴のシーケンスがモデルのシーケンスに対応する場合、対応する語は、発話認識システムによって認識されているとみなされる。
しかし、バックグランド音(ラジオ、車の騒音、または他の付近の発話者)は、音声から有用な特徴を抽出することが困難であり得る。さらに、異なるマイクロホン、電話受話器または電話回線の使用等の周囲の条件の変化は、システム性能と干渉し得る。あるいは、発話者の距離、発話者間の差異、発話者の抑揚または強調、および発話者の健康であっても、システム性能に悪影響を与え得る。いくつかのこれらの問題のさらなる説明は、Richard A.Quinnellによる、「Speech Recognition:No Longer a Dream, But Still a Challenge,」EDM Magazine,1995年1月19日、41〜46頁を参照のこと。
ほとんどの発話認識システムでは、発話特徴は、ケプストラム解析によって抽出され、ケプストラム解析は、特定の周波数帯域におけるエネルギーを測定することを含む。この解析の結果は、これらの帯域の信号の振幅を反映する。連続的な期間にわたるこれらの振幅変化の解析は、振幅変調信号としてモデル化され得る。
人間の耳が、受信された発話信号の周波数変調および振幅変調に敏感であるが、この周波数変調された量は、ケプストラム解析を実行するシステムにおいて部分的のみ反映される。
従って、発話の周波数変調特徴および以前から公知の振幅変調特徴をキャプチャすることが可能である発話特徴抽出システムを提供することが望ましい。
入力発話信号の周波数変調特徴に関する情報を提供する特徴抽出システムを組み込む発話認識および他の発話処理システムを提供することもまた望ましい。
(発明の要旨)
上記観点から、本発明の目的は、発話の周波数変調特徴および以前から公知の振幅変調特徴をキャプチャすることが可能な発話特徴抽出システムを提供することである。
本発明のさらなる目的は、入力発話信号の周波数変調特徴に関する情報を提供する特徴抽出システムを組み込む発話認識および他の発話処理システムを提供することである。
本発明は、発話の周波数変調特徴および振幅特徴を反映する発話特徴抽出システムを提供する。これは、一実施形態では、線形周波数スケール(「線形スケール」)に従って、隣接する周波数帯域において配置された複数の複素バンドパスフィルタを含むフィルタ抽出ステージによってなされる。複数の複素バンドパスフィルタは、複数のペアに分割される。1つのペアは、隣接する周波数帯域において2つの複素バンドパスフィルタを含む。各ペアに対して、より高い周波数(「一次周波数」)においてフィルタの出力は、より低い周波数(「二次フィルタ」)におけるフィルタの出力の共役によって増倍される。生成した信号は、ロウパスフィルタリングされる。
別の実施形態では、特徴抽出位相は、対数(または指数)周波数スケール(「対数スケール」)に従って配置された複数の複素バンドパスフィルタを含む。フィルタ対の一次フィルタは、対数スケールに沿った種々の周波数に中心がある。各ペアの一次フィルタに対応する二次フィルタは、一次フィルタよりも所定の周波数だけ低いところに中心がある。各ペアに対して、一次フィルタの出力は、二次フィルタの出力の共役によって増倍される。生成した信号は、ロウパスフィルタリングされる。
さらに別の実施形態では、複数のバンドパスフィルタがメルスケール(mel−scale)に従って配置される。フィルタ対の一次フィルタは、メルスケールに沿った種々の周波数に中心がある。各ペアの一次フィルタに対応する二次フィルタは、一次フィルタよりも所定の周波数だけ低いところに中心がある。各ペアに対して、一次フィルタの出力は、二次フィルタの出力の共役によって増倍される。生成した信号は、ロウパスフィルタリングされる。
さらに別の実施形態では、複数のバンドパスフィルタが、上述の線形およびログスケールメルスケール(mel−scale)に従って配置される。バンドパスフィルタのペアの部分は、線形スケールに従って隣接する周波数帯域に配置される。これらの対の各々に対して、一次フィルタの出力は、二次フィルタの出力の共役によって増倍される。生成した信号は、ロウパスフィルタリングされる。
バンドパスフィルタの残りの対の一次フィルタは、対数スケールに沿った種々の周波数に中心があり、一次フィルタに対応する二次フィルタは、一次フィルタよりも所定の周波数だけ低いところに中心がある。これらの対の各々に対して、一次フィルタの出力は、二次フィルタの出力の共役によって増倍される。生成した信号は、ロウパスフィルタリングされる。
上述の実施形態に対して、ロウパスフィルタの各々は、2つの成分(ロウパスフィルタ出力が生成された隣接するバンドパスフィルタを通過した信号の周波数に実質的に敏感であるFM成分、および、隣接するバンドパスフィルタを通過した信号の振幅に実質的に敏感であるAM成分)を計算するために処理される。FM成分は、ロウパスフィルタ出力を生成するために使用された隣接するバンドパスフィルタの出力の位相差を反映する。
次いで、AMおよびFM成分は、離散コサイン変換、メルスケール変換、平均規格化、デルタおよび加速度解析、線形判別分析、主成分解析等の公知の特徴分析を用いて処理され、統計的処理、あるいは他の認識または識別方法に対して適用可能な発話特徴を生成する。代替的な実施形態では、複数の複素バンドパスフィルタは、高速フーリエ変換(FFT)または他のデジタル信号処理(DSP)技術を用いてインプリメントされ得る。
さらに、本発明の方法および装置は、発話認識システムにおけるケプストラル解析を実行することに加えて使用され得る。本発明の上記および他の目的が、添付の図面を考慮して、以下の詳細な説明の考慮によって明らかになる。その図面では、同様な参照符号は同様の部品を指す。
(発明の詳細な説明)
図1を参照すると、例示的なスピーチ認識システム5の一般的な記載は、本発明のスピーチ抽出システムを取り込むことが記載される。当業者に明らかなように、本発明のスピーチ特徴抽出システムはまた、話し手の識別、認証、および他の音声処理システムにおいて用いられ得る。
システム5は、プリフィルタリングステージ10、特徴抽出ステージ12、統計処理ステージ14、およびエネルギーステージ16の4つのステージを含む。
プリフィルタリングステージ10、統計処理ステージ14、およびエネルギーステージ16は、当業者に公知のスピーチ処理技術を利用し、本発明の部分を形成しない。特徴抽出ステージ12は、本発明のスピーチ特徴抽出システムを取り込み、以下に記載されるように、当業者に公知である特徴拡張技術を含む。
音声スピーチ信号は、マイクロホン、受話器、または他のデバイスによって電気的な信号に変換され、システム5に入力スピーチ信号として提供される。本発明の好適な実施形態において、電気的な信号は、サンプリングされるか、またはデジタル化され、音声スピーチを表すデジタル信号(IN)を提供する。プリフィルタリングステージ10は、音声信号INの高周波コンポーネントを増幅して、プリフィルタリングされた信号は、次に、特徴抽出ステージ12に提供される。
特徴抽出ステージ12は、プリフィルタリングされた信号Xを処理して、スピーチ認識のために役立ち得る入力信号INの特性に関係した特徴ベクトルのシーケンスを生成する。特徴抽出ステージ12の出力は、特徴ベクトルのシーケンスと好適な統計なモデルとを比較して、入力信号INにおいてワードまたは他のスピーチユニットを識別する統計処理ステージ14によって用いられる。特徴ベクトルは、例えば、Jelinekの「Statistical Methods for Speech Recognition」、The MIT Press、1997、pp.15−37に記載される隠れマルコフモデル(Hidden Markov Model;HMM)といった公知の技術を用いてモデル比較される。統計処理ステージ14の出力は、認識されたワードまたは特定のアプリケーションによる他の適切な出力である。
ステージ14における統計処理は、ローカルに実行されるか、またはステージ10、12の処理が実行される場合に関連して、遠隔位置で実行され得る。例えば、特徴ベクトルのシーケンスは、統計処理のために遠隔サーバに転送され得る。
図1の例示のスピーチ認識システムは、好適には、入力信号INのフレームにおいて総エネルギーを示す出力信号を提供するエネルギーステージ16をさらに含む。統計処理ステージ14は、この総エネルギー情報を用いて、入力信号に含まれるスピーチの改善された認識を提供し得る。
ここで図2を参照すると、プリフィルタリングステージ10および特徴抽出ステージ12は、より詳細に記載される。プリフィルタリングステージ10は、入力信号の高周波コンポーネントを増幅するハイパスフィルタである。プリフィルタリングステージ10は、1サンプル遅延素子21、乗算器23、および加算器24を含む。乗算器23は、典型的に−0.97の固定値を有する定数によって1サンプル遅延された信号を乗算する。プリフィルタリングステージ10の出力Xは、バンドパスフィルタ30、30、...30のバンクにおけるサンプリングレートにおいて出力される。
一実施形態において、バンドパスフィルタ30、30、...30は、近接した周波数バンドにおいて位置付けられる。図5のグラフ72において示されるように線形周波数スケール(「線形スケール」)68によってバンドパスフィルタ30、30、...30の間隔があけられる。用語「線形周波数スケール」は、通常かつ従来の意味(すなわち、実際の周波数分割は不規則に間隔があけられる)に従って本明細書中に用いられる。複数の複素バンドパスフィルタ30、30、...30は、ペアP1−2に分割される。ペア(PまたはP)は、隣接した周波数バンドにそれぞれ2つの複素バンドパスフィルタ(301−2または303−4)を含む。全てのペア(PまたはPについて、高周波数バンド(30または30)におけるフィルタの出力(「一次フィルタ」として以下に言及される)は、より低い周波数バンド(30または30)におけるフィルタの出力の共役によって乗算される(「二次フィルタ」として以下に言及される)。結果として生じる信号は、ロウパスフィルタリングされる。
バンドバスフィルタ30、30、...30の数および周波数バンドの幅は、好適には、スピーチ処理システムのアプリケーションによって選択される。例えば、電話技術のアプリケーションに役立つシステムは、ほぼ100Hz離れた中心周波数を有する約40のバンドパスフィルタ30、30、...30を利用する。例えば、フィルタ30は50Hzの中心周波数を有し、フィルタ30は150Hzの中心周波数を有し、フィルタ30は250Hzの中心周波数を有し得、ゆえに、フィルタ3040の中心周波数は3950Hzである。各フィルタのバンド幅は、数百ヘルツであり得る。
別の実施形態において、図6のグラフ70に示されるように、バンドパスフィルタ30、30、...30108は、例えば、対数的(または指数関数的)周波数スケール74(「対数スケール」)といった非線形周波数スケールによって構成される。用語対数的周波数は、通常かつ従来の意味によって本明細書中に用いられる。
経験的な証明は、図5の線形スケール68の代わりに図6の対数スケール74を用いることが音声認識性能を改良することを示唆する。すなわち、なぜなら、人間の耳は、音声スペクトルを超える周波数を非線形に消滅するからである。線形スケール68の代わりに対数スケールを用いる別の利点は、対数スケール74がさらなるバンドパスフィルタ30、30、...30を用いることなく周波数スペクトルのより広い領域をカバーし得る。
バンドパスフィルタ301−108のペアP1−54は、対数スケール74によって間隔があけられる。ペアPはフィルタ30および30を含み、ペアP10はフィルタ3019を含み、ペアP54はフィルタ30107および30108を含む。この構成において、フィルタ30、3020および30108は一次フィルタであり、フィルタ3019、および30107は二次フィルタである。
1つの好適な実施形態において、一次フィルタ30、3020、...30108は、対数スケール74に沿った多様な周波数に中心があり、二次フィルタ30、30、...30107は、それぞれ、対応する一次フィルタ30、30、...30108 よりも100ヘルツ(Hz)だけ低いところに中心がある。図6のグラフ70を作成するために例示のMATLABコードは以下に示される。
Figure 2004531767
別の実施形態において、一次フィルタ30、3020、...30108および二次フィルタ30、30、...30107の中心周波数は、別々および独立したアルゴリズムを用いて配置され得、二次フィルタ30、30、...30107がそれらの対応する一次フィルタ30、3020、...30108 よりも100ヘルツ(Hz)だけ低いところに中心がある
一実施形態において、バンドパスフィルタ301−108は、三角形状である。別の実施形態において、バンドパスフィルタ301−108は、特定の音声認識システムの必要性による多様な形状であり得る。
対数スケール74は、0〜4000Hzの領域に示され得る。全てのペアP1−54に対して、一次フィルタ30、3020、...30108の出力は、二次フィルタ30、30、...30107の出力の共役によって乗算される。結果として生じる信号は、ロウパスフィルタリングされる。
ペアP1−54、高い周波数よりも低い周波数においてより多くのペアP1−5 含むように構成される。例えば、500〜1000Hzの周波数領域において7つのペア(P16−22)があり、3000〜3500Hzの周波数領域において3つだけのペア(P49−51)がある。従って、より低い周波数においてオーバーサンプリングが実行されているが、より高い周波数において少なくともいくつかのサンプリング実行されている。対数スケール74に沿ったペアP1−54の集中は、特定の音声認識システムの必要性によって変化され得る。
デジタル信号処理設計の当業者に明らかであるように、前述の実施形態のバンドパスフィルタは、任意の多くのソフトウェアまたはハードウェア技術を用いてインプリメントされ得る。例えば、複数の複素フィルタは、高速フーリエ変換(FFT)、チャープZ変換、他の周波数ドメイン分析技術を用いてインプリメントされ得る。
代替の実施形態において、図7に記載されるように、バンドパスフィルタ30、30、...30は、例えば、メルスケールといった非線形周波数スケールによって構成される。メルスケール80は、音声認識システムの技術において周知であり、典型的に等式
Figure 2004531767
によって定義される。ここで、fは、線形スケール68による周波数を表し、Mel(f)は、それに対応するメルスケール80の周波数を表す。
図7は、メルスケール80によって間隔があけられたバンドパスフィルタ301−9を示すグラフ84の一実施形態を示す。中心周波数(CF1−9)は、上述の等式を用いることによって計算されるMel(f)値である。典型的に、フィルタ301−9は、ゼロからナイキスト(Nyquist)周波数までの全体の周波数領域に広がる。一実施形態において、フィルタ301−9は、同じバンド幅を有する。別の実施形態において、フィルタ301−9は異なるバンド幅を有し得る。
図8に記載される、さらに別の実施形態において、バンドパスフィルタ301−8は線形68および非線形74の周波数スケールの組み合わせによって間隔があけられる。バンドパスフィルタ301−4(P1−2)は、線形周波数68によって隣接した周波数バンドに構成される。
一次フィルタ30および30は、対数スケール74に沿って中心がある。二次フィルタ30および30は、30および30の中心周波数よりも100Hzだけ低い周波数に中心がある。これらのペア(PまたはP)のそれぞれについて、一次フィルタ(30および30)の出力は、二次フィルタ(30および30)の出力の共役によってそれぞれ乗算され、結果的に生じる信号は、ロウパスフィルタリングされる。
図2を再度参照すると、ブロック401−20は、バンドパスフィルタ30、30、...30n−1の出力信号の複素共役を提供する。乗算器ブロック421−20は、近似のより高い周波数のバンドパスフィルタ30、30、30、...3040の出力によって複素共役を乗算する。つぎに、出力信号Z1−20は、一連のロウパスフィルタ441−22を通される。ロウパスフィルタの出力は、典型的に、特徴フレームレートにおいてのみ生成される。例えば、8kHzの入力スピーチサンプリングレートにおいて、ロウパスフィルタの出力は、10ミリ秒毎に1度の特徴フレームレートにおいて計算されるだけである。
ロウパスフィルタ441−22の各出力は、実数のコンポーネントRおよび虚数のコンポーネントIを有する複素信号である。ブロック461−20は、ロウパスフィルタ出力の実数および虚数のコンポーネントを処理し、等式(1)および(2)、
Figure 2004531767
に示されるように出力信号A1−20およびF1−20を提供し、ここで、RおよびIは対応するロウパスフィルタ出力の実数および虚数のコンポーネントである。出力信号Aは、ロウパスフィルタ出力の振幅の関数であり、Fはロウパスフィールドルタ出力が生成された隣接したバンドパスフィルタによって通過される信号の周波数の関数である。入力信号の振幅および周波数を示す2つのセットの信号を計算することによって、本発明のスピーチ特徴抽出システムを組み込むスピーチ認識システムは、減少されるエラーレートを提供するように期待される。
次に、振幅信号A1−20および周波数信号F1−20は、例えば、離散コサイン変換、メルスケール変換、平均規格化、デルタおよび加速度分析、線形判別分析、ならびに、当該分野において本来公知である主要コンポーネント分析を用いて、特徴拡張コンポーネント12bにおける従来の特徴拡張技術を用いて処理される。本発明のスピーチ抽出システムに組み込む本発明のスピーチ認識システムの好適な実施形態は、本明細書中で以下に記載されるように、離散コサイン変換およびデルタ特徴技術を利用する。
さらに図2を参照すると、特徴拡張コンポーネント12bは、出力信号A1−20およびF1−20を受信し、それぞれ離散コサイン変換(DCT)ブロック50および54を用いてそれらの信号を処理する。DCT50および54は、信号A1−20およびF1−20の分散行列を対角化するように試みる。これは、DCT50の出力信号B0−19およびDCT54の出力信号C0−19における特徴を無相関するために役立つ。次に、出力信号B0−19およびC0−19の各セットは統計的な処理ステージ14に入力される。出力信号B0−19を提供するように入力信号A0−20上のDCT50によって実行される関数は等式(3)によって示され、出力信号C0−19を提供するように入力信号F1−20上のDCT54によって実行される関数は等式(4)によって示される。
Figure 2004531767
等式(3)および(4)において、Nは入力信号ベクトルAおよびFの各々を構成する要素の総数(例えば、図2においてN=20)に等しく、nは0からN−1のインデックス(例えば、図2の実施形態においてn=0〜19)であり、rは出力信号BおよびCのインデックス(例えば、図2の実施形態においてr=0〜19)である。従って、各ベクトル出力信号B について、入力信号A1−20の各ベクトルは、コサイン関数およびD(r)によって乗算され、等式(3)において示されるように共に加算される。各ベクトル出力信号C について、入力信号S1−20の各ベクトルは、コサイン関数およびD(r)によって乗算され、等式(4)において示されるように共に加算される。D(r)は、等式
Figure 2004531767
によって得られる係数である。
出力信号B0−19およびC0−19はまた、それぞれデルタブロック52および56に入力される。デルタブロック52および56のそれぞれは、連続する特徴フレーム間の特徴ベクトル値の測定間の差を取得し、この差がスピーチ認識性能を拡張するように用いられ得る。いくつかの差の式は、当該分野に公知であるように、デルタブロック52および56によって用いられ得る。例えば、デルタブロック52および56は、2つの連続する特徴フレーム間の差を取得し得る。デルタブロック52および56の出力信号は、統計処理ステージ14に入力される。
Figure 2004531767
によって、入力スピーチ信号INの各フレームの総エネルギーの対数(Eで表される)を計算するための図2のエネルギーステージ16は、既に公知の技術である。
式(7)は、エネルギーブロック16が前のLサンプリング間隔(例えば、K=220、T=1/8000秒)の間の入力信号INの値の正方形の和を取得し、Kで和を割って、最終的な結果の対数を取得することを示す。エネルギーブロック16はフレーム毎(例えば、10ミリ秒)にこの計算を実行し、統計処理ブロック14に入力としての結果を提供する。
ここで、図3を参照すると、本発明の特徴抽出システムにおける使用に適した例示の複素バンドパスフィルタ30’が記載される。フィルタ30’は、加算器31、乗算器32、および1サンプル遅延素子33を含む。乗算器32は、1サンプル遅延出力Yに複素係数Gを掛けて、結果として、入力信号Xに足されて、出力信号Yを生成する。
本発明の特徴抽出システムの代替の実施形態は、図4に関して記載される。図4の実施形態は、図2の実施形態に類似しており、フィルタリングステージ10、統計処理ステージ14、およびエネルギーステージ16を含み、上述されるように実質的に動作する。しかし、図4の実施形態は、特徴抽出ステージ12’が特徴抽出システム12a’内でさらなる回路部を含むという前述される実施形態とは異なり、特徴ベクトルはさらなる情報を含む。
例えば、特徴抽出ステージ12a’は、バンドパスフィルタ301−41のバンクおよび共役ブロック401−40を含む。各バンドパスフィルタの出力は、乗算器421−40によるより低い隣接したバンドパスフィルタの出力の共役と組み合わされ、計算ブロック461−40は、ベクトルが20の代わりに40の素子の長さを有することを除いて、上述されるようにベクトルAおよびFを計算する。DCT50および54、ならびに、特徴拡張コンポーネント12b’のデルタブロック52および56は、40の素子入力ベクトルを承認して、40の素子ベクトルを統計処理ブロック14に出力する。バンドパスフィルタ301−41が例えば対数スケールまたはメルスケールといった非線型周波数スケールによって構成される場合、図4に示される構成は適用できないことは理解される。
本発明は、意図された音声処理アプリケーションによってバンドパスフィルタ30の任意の数、ならびに、共役ブロック40、乗算器42、ロウパスフィルタ44、およびブロック46の対応する数を含み、各ロウパスフィルタの出力信号AおよびFを提供し得る。特徴抽出ステージを含む。さらに、信号AおよびFは、重み付された様態で組み合わされ得、信号の一部のみが使用され得る。例えば、一周波数ドメインにおける振幅信号、ならびに、別の周波数ドメインにおける振幅と周波数との組み合わせのみを用いることは利点があり得る。
本発明の好適な例示の実施形態が上述され、多様な変化および変更が本発明から逸脱することなくなされることは、当業者によって理解され、本発明の実際の意図および範囲内に含まれるような全ての変化および変更をカバーすることが、添付の特許請求の範囲において意図される。
図1は、本発明の発話特徴抽出システムを組み込む例示的な発話認識システムのブロック図である。 図2は、図1の発話認識システムの詳細なブロック図である。 図3は、本発明の特徴抽出システムをインプリメントするために適するバンドパスフィルタの詳細なブロック図である。 図4は、本発明の代替的な発話特徴抽出システムを含む発話認識の代替的な実施形態の詳細なブロック図である。 図5は、線形的な周波数スケールに従って配置されたバンドパスフィルタ周波数を示すグラフである。 図6は、対数周波数スケールに従って配置されたバンドパスフィルタのペアを示すグラフである。 図7は、メルスケールに従って配置されたバンドパスフィルタのペアを示すグラフである。 図8は、線形および対数周波数スケールの組み合わせに従って配置されたバンドパスフィルタ周波数を示すグラフである。

Claims (38)

  1. 周波数特徴および振幅特徴を有する入力発話信号から特徴を抽出する装置であって、
    該装置は、
    該入力発話信号を受信するように適された第1および第2のバンドパスフィルタであって、該第1のバンドパスフィルタは、第1の信号を提供し、該第2のバンドパスフィルタは、第2の信号を提供し、該第1のバンドパスフィルタおよび該第2のバンドパスフィルタは、隣接した周波数帯域を有する、第1および第2のバンドパスフィルタと、
    該第2のバンドパスフィルタに接続された共役回路であって、該第2の信号の共役である第3の信号を提供する共役回路と、
    該第1のバンドパスフィルタおよび該共役回路に接続された乗算器であって、該第1の信号と該第3の信号の積である第4の信号を提供する乗算器と、
    該乗算器に接続されたフィルタ手段であって、該第4の信号をフィルタリングして、該入力発話信号の該周波数特徴に対応する第5の信号と、該入力発話信号の振幅特徴に対応する第6の信号出力するフィルタ手段と
    を備える、装置。
  2. 前記フィルタ手段は、ロウパスフィルタを含む、請求項1に記載の装置。
  3. 前記入力発話信号と前記第1および第2のバンドパスフィルタとの間に接続されたハイパスフィルタをさらに備える、請求項1に記載の装置。
  4. 前記ロウパスフィルタは、実数部Rおよび虚数部Iを有する信号を提供し、前記フィルタ手段は、A=log RおよびF=I/Sqrt(R +I )を計算する回路をさらに備える、請求項2に記載の装置。
  5. 前記第1のバンドパスフィルタおよび第2のバンドパスフィルタの各々は、遅延エレメント、複素乗算器と、加算器備える、請求項1に記載の装置。
  6. 前記加算器は、前記入力発話信号を受信し、出力信号を出力し、該加算器は、入力発話信号と、該出力信号に複素係数乗算したものの遅延されたサンプルを含む信号を加算する、請求項5に記載の装置。
  7. 離散コサイン変換、メルスケール変換、平均規格化、デルタおよび加速度解析、線形判別解析、または主成分解析などの1つ以上の特徴強調手法を実行する回路をさらに備える、請求項4に記載の装置。
  8. 前記1つ以上の特徴強調手法を実行する回路の出力を統計的に処理し、該出力を複数の所定のモデルと比較する回路をさらに備える、請求項7に記載の装置。
  9. 前記1つ以上の特徴強調手法を実行する回路は、AおよびFの離散コサイン変換を計算する回路を備える、請求項7に記載の装置。
  10. 前記1つ以上の特徴強調手法を実行する回路は、Aの連続する離散コサイン変換間の差を計算し、Fの連続する離散コサイン変換間の差を計算する回路をさらに備える、請求項7に記載の装置。
  11. 音を電気信号に変換するトランスデューサと、
    電気信号をデジタル信号に変換するサンプラー
    さらに備え、前記入力発話信号は、該デジタル信号を含む、請求項1に記載の装置。
  12. デジタルプロセッサをさらに備え、前記第1および第2のバンドパスフィルタ、前記共役回路、前記乗算器、前記フィルタ手段は、該デジタルプロセッサ上で実行されるように適されたアルゴリズムを含む、請求項1に記載の装置。
  13. 線形スケールでの前記第1のバンドパスフィルタの中心周波数は、対数スケールでの対応する周波数に変換され、前記第2のバンドパスフィルタの中心周波数は、該第1のバンドパスフィルタの周波数より所定の周波数だけ低い周波数に選択される、請求項1に記載の装置。
  14. 前記第2のフィルタの中心周波数は、前記第1のフィルタの中心周波数より100ヘルツだけ低い周波数である、請求項13に記載の装置。
  15. 前記第1のフィルタの帯域と前記第2のフィルタの帯域は重なる、請求項13に記載の装置。
  16. 前記第1のフィルタの帯域幅と前記第2のフィルタの帯域幅は同じである、請求項13に記載の装置。
  17. 線形スケールでの前記第1のバンドパスフィルタの中心周波数は、メルスケールでの対応する周波数に変換され、前記第2のバンドパスフィルタの中心周波数は、該第1のバンドパスフィルタの周波数よりも所定の周波数だけ低い周波数に選択される、請求項1に記載の装置。
  18. 前記第2のフィルタの中心周波数は、前記第1のフィルタの中心周波数より100ヘルツだけ低い周波数である、請求項17に記載の装置。
  19. 前記第1のフィルタの帯域と前記第2のフィルタの帯域は重なる、請求項17に記載の装置。
  20. 前記メルスケールは、式
    Figure 2004531767
    によって定義される、請求項17に記載の装置。
  21. 前記第1のフィルタの帯域幅と前記第2のフィルタの帯域幅は同じである、請求項17に記載の装置。
  22. 前記第1および第2のバンドパスフィルタは、高速フーリエ変換を用いてインプリメントされる、請求項1に記載の装置。
  23. 力発話信号から特徴を抽出するための方法であって、
    該方法は、
    第1のバンドパスフィルタと第2のバンドパスフィルタとを用いて、該入力発話信号を、第1の周波数帯域における第1の信号第2の周波数帯域における第2の信号とに分離することであって、該第1のバンドパスフィルタおよび該第2のバンドパスフィルタは、隣接した周波数帯域を有する、ことと、
    共役回路を用いて該第1の信号の共役をとることと、
    乗算器を用いて該第1の信号の該共役と該第2の信号とを乗算することにより、第3の信号を提供することと、
    フィルタ手段を用いて該第3の信号を処理することにより、該入力発話信号における周波数特徴に対応する周波数成分と、該入力発話信号における振幅特徴に対応する振幅成分を生成することと
    を包含する、方法。
  24. 前記入力発話信号を処理することにより前記第1および第2の信号を生成する前にハイパスフィルタを用いて該入力発話信号をハイパスフィルタリングすることをさらに包含する、請求項23に記載の方法。
  25. 前記フィルタ手段を用いて前記第3の信号を処理することは、ロウパスフィルタを用いて該第3の信号をロウパスフィルタリングすることをさらに包含する、請求項23に記載の方法。
  26. 前記第3の信号をロウパスフィルタリングすることは、実数部Rおよび虚数部Iを有する信号を提供し、前記第3の信号を処理することは、A=log RおよびF=I/Sqrt(R +I )を計算することを包含する、請求項25に記載の方法。
  27. 第1の回路を用いて、一連の特徴ベクトルを生成するための特徴強調手法を用いて前記第3の信号を処理することをさらに包含する、請求項26に記載の方法。
  28. 第2の回路を用いて、前記一連の特徴ベクトルを複数の所定のモデルと比較することによって該一連の特徴ベクトルを統計的に処理することをさらに包含する、請求項27に記載の方法。
  29. 第3の回路を用いてAおよびFの離散コサイン変換を計算することをさらに包含する、請求項27に記載の方法。
  30. 第4の回路を用いて、Aの連続する離散コサイン変換間の差およびFの連続する離散コサイン変換間の差を計算することをさらに包含する、請求項29に記載の方法。
  31. 第5の回路を用いて、前記連続する離散コサイン変換間の差を統計的に処理して、該差を複数の所定のパターンと比較することをさらに包含する、請求項30に記載の方法。
  32. トランスデューサを用いて音を電気的信号に変換することと、
    サンプラーを用いて該電気信号をサンプリングすることにより、デジタル信号を提供することと
    をさらに包含し、前記入力発話信号は、該デジタル信号を含む、請求項23に記載の方法。
  33. 変換手段を用いて、線形スケールでの前記第1の周波数帯域の中心周波数対数スケールでの対応する周波数に変換することと選択手段を用いて、前記第2の周波数帯域の中心周波数を該第1の周波数帯域の周波数よりも所定の周波数だけ低い周波数に選択することとを包含する、請求項23に記載の方法。
  34. 前記第2の周波数帯域の中心周波数は、前記第1の周波数帯域の中心周波数よりも100ヘルツだけ低い周波数である、請求項33に記載の方法。
  35. 前記第1の周波数帯域と前記第2の周波数帯域とはなる、請求項33に記載の方法。
  36. 変換手段を用いて、線形スケールでの前記第1の周波数帯域の中心周波数をメルスケールでの対応する周波数に変換することと選択手段を用いて、前記第2の周波数帯域の中心周波数を該第1の周波数帯域の周波数よりも所定の周波数だけ低い周波数に選択することとを包含する、請求項23に記載の方法。
  37. 前記第2の周波数帯域の中心周波数は、前記第1の周波数帯域の中心周波数よりも100ヘルツだけ低い周波数である、請求項36に記載の方法
  38. 前記第1の周波数帯域と前記第2の周波数帯域とはなる、請求項36に記載の方法
JP2003505912A 2001-06-15 2002-06-14 発話特徴抽出システム Expired - Fee Related JP4177755B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/882,744 US6493668B1 (en) 2001-06-15 2001-06-15 Speech feature extraction system
PCT/US2002/019182 WO2002103676A1 (en) 2001-06-15 2002-06-14 Speech feature extraction system

Publications (3)

Publication Number Publication Date
JP2004531767A JP2004531767A (ja) 2004-10-14
JP2004531767A5 true JP2004531767A5 (ja) 2008-04-17
JP4177755B2 JP4177755B2 (ja) 2008-11-05

Family

ID=25381249

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003505912A Expired - Fee Related JP4177755B2 (ja) 2001-06-15 2002-06-14 発話特徴抽出システム

Country Status (7)

Country Link
US (2) US6493668B1 (ja)
EP (1) EP1402517B1 (ja)
JP (1) JP4177755B2 (ja)
AT (1) ATE421137T1 (ja)
CA (1) CA2450230A1 (ja)
DE (1) DE60230871D1 (ja)
WO (1) WO2002103676A1 (ja)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3673507B2 (ja) * 2002-05-16 2005-07-20 独立行政法人科学技術振興機構 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム
JP4265908B2 (ja) * 2002-12-12 2009-05-20 アルパイン株式会社 音声認識装置及び音声認識性能改善方法
DE102004008225B4 (de) * 2004-02-19 2006-02-16 Infineon Technologies Ag Verfahren und Einrichtung zum Ermitteln von Merkmalsvektoren aus einem Signal zur Mustererkennung, Verfahren und Einrichtung zur Mustererkennung sowie computerlesbare Speichermedien
US20070041517A1 (en) * 2005-06-30 2007-02-22 Pika Technologies Inc. Call transfer detection method using voice identification techniques
US20070118372A1 (en) * 2005-11-23 2007-05-24 General Electric Company System and method for generating closed captions
US20070118364A1 (en) * 2005-11-23 2007-05-24 Wise Gerald B System for generating closed captions
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
US8744844B2 (en) 2007-07-06 2014-06-03 Audience, Inc. System and method for adaptive intelligent noise suppression
US9185487B2 (en) 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
US8194880B2 (en) 2006-01-30 2012-06-05 Audience, Inc. System and method for utilizing omni-directional microphones for speech enhancement
US8204252B1 (en) 2006-10-10 2012-06-19 Audience, Inc. System and method for providing close microphone adaptive array processing
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US8204253B1 (en) 2008-06-30 2012-06-19 Audience, Inc. Self calibration of audio device
US20080010067A1 (en) * 2006-07-07 2008-01-10 Chaudhari Upendra V Target specific data filter to speed processing
US8259926B1 (en) 2007-02-23 2012-09-04 Audience, Inc. System and method for 2-channel and 3-channel acoustic echo cancellation
US8189766B1 (en) 2007-07-26 2012-05-29 Audience, Inc. System and method for blind subband acoustic echo cancellation postfiltering
JP5183741B2 (ja) 2007-08-27 2013-04-17 テレフオンアクチーボラゲット エル エム エリクソン(パブル) ノイズ補充と帯域拡張との間の遷移周波数の適合
US20090150164A1 (en) * 2007-12-06 2009-06-11 Hu Wei Tri-model audio segmentation
US8180064B1 (en) 2007-12-21 2012-05-15 Audience, Inc. System and method for providing voice equalization
US8194882B2 (en) 2008-02-29 2012-06-05 Audience, Inc. System and method for providing single microphone noise suppression fallback
US8355511B2 (en) 2008-03-18 2013-01-15 Audience, Inc. System and method for envelope-based acoustic echo cancellation
US8521530B1 (en) 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal
US8626516B2 (en) * 2009-02-09 2014-01-07 Broadcom Corporation Method and system for dynamic range control in an audio processing system
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US9008329B1 (en) 2010-01-26 2015-04-14 Audience, Inc. Noise reduction using multi-feature cluster tracker
US9142220B2 (en) 2011-03-25 2015-09-22 The Intellisis Corporation Systems and methods for reconstructing an audio signal from transformed audio information
US8548803B2 (en) * 2011-08-08 2013-10-01 The Intellisis Corporation System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain
US8620646B2 (en) 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
US9183850B2 (en) 2011-08-08 2015-11-10 The Intellisis Corporation System and method for tracking sound pitch across an audio signal
WO2013184667A1 (en) 2012-06-05 2013-12-12 Rank Miner, Inc. System, method and apparatus for voice analytics of recorded audio
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
US9280968B2 (en) * 2013-10-04 2016-03-08 At&T Intellectual Property I, L.P. System and method of using neural transforms of robust audio features for speech processing
WO2016040885A1 (en) 2014-09-12 2016-03-17 Audience, Inc. Systems and methods for restoration of speech components
US9922668B2 (en) 2015-02-06 2018-03-20 Knuedge Incorporated Estimating fractional chirp rate with multiple frequency representations
US9870785B2 (en) 2015-02-06 2018-01-16 Knuedge Incorporated Determining features of harmonic signals
US9842611B2 (en) 2015-02-06 2017-12-12 Knuedge Incorporated Estimating pitch using peak-to-peak distances
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4300229A (en) * 1979-02-21 1981-11-10 Nippon Electric Co., Ltd. Transmitter and receiver for an othogonally multiplexed QAM signal of a sampling rate N times that of PAM signals, comprising an N/2-point offset fourier transform processor
US4221934A (en) * 1979-05-11 1980-09-09 Rca Corporation Compandor for group of FDM signals
GB8307702D0 (en) * 1983-03-21 1983-04-27 British Telecomm Digital band-split filter means
NL8400677A (nl) * 1984-03-02 1985-10-01 Philips Nv Transmissiesysteem voor de overdracht van data signalen in een modulaatband.

Similar Documents

Publication Publication Date Title
JP4177755B2 (ja) 発話特徴抽出システム
JP2004531767A5 (ja)
CA2247364C (en) Method and recognizer for recognizing a sampled sound signal in noise
US6804643B1 (en) Speech recognition
CA2249792C (en) Audio signal compression method, audio signal compression apparatus, speech signal compression method, speech signal compression apparatus, speech recognition method, and speech recognition apparatus
RU2507608C2 (ru) Устройства и способы для обработки аудио сигнала с целью повышения разборчивости речи, используя функцию выделения нужных характеристик
US8359195B2 (en) Method and apparatus for processing audio and speech signals
Kim et al. Nonlinear enhancement of onset for robust speech recognition.
Kesarkar et al. Feature extraction for speech recognition
US5806022A (en) Method and system for performing speech recognition
US7672842B2 (en) Method and system for FFT-based companding for automatic speech recognition
Alam et al. Robust feature extraction for speech recognition by enhancing auditory spectrum
Wang et al. Low pass filtering and bandwidth extension for robust anti-spoofing countermeasure against codec variabilities
Gandhiraj et al. Auditory-based wavelet packet filterbank for speech recognition using neural network
KR100571427B1 (ko) 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법
CN112863517B (zh) 基于感知谱收敛率的语音识别方法
JP3707135B2 (ja) カラオケ採点装置
CN110767238B (zh) 基于地址信息的黑名单识别方法、装置、设备及存储介质
Nikhil et al. Impact of ERB and bark scales on perceptual distortion based near-end speech enhancement
JPH08123490A (ja) スペクトル包絡量子化装置
JP2001249676A (ja) 雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法
Anacleto et al. Cubic Law and MAP Compensation Techniques for Robust Text-Independent Speaker Identification
CN117079666A (zh) 歌曲打分方法、装置、终端设备以及存储介质
Kalamani et al. Comparison Of Cepstral And Mel Frequency Cepstral Coefficients For Various Clean And Noisy Speech Signals
JP4014374B2 (ja) 音声分析方法