JPH10500781A

JPH10500781A - 話者識別および確証システム

Info

Publication number: JPH10500781A
Application number: JP7522534A
Authority: JP
Inventors: マモン、リチャード・ジェイ; アッサーレー、カーレッド・ティー
Original assignee: ラットガース・ユニバーシティー
Priority date: 1994-02-28
Filing date: 1995-02-28
Publication date: 1998-01-20
Also published as: EP0748500A1; DE69534942T2; CA2184256A1; EP0748500A4; ATE323933T1; MX9603686A; CN1142274A; US5522012A; WO1995023408A1; EP0748500B1; DE69534942D1; AU683370B2; AU2116495A

Abstract

(57)【要約】本発明は、非音声領域成分を減衰しスピーチ成分を正規化するためスピーチの各フレームに適応成分加重を供給する話者認識方法およびシステムに関する。線形予測の全ポールモデルは運動平均成分を有する新しい伝達関数を形成するために使用される。正規化されたスペクトルは新しい伝達関数から決定される。スピーチ成分の改良された特性を有する正規化されたスペクトルが限定される。改良されたスピーチ成分から、チャンネル上で改良された話者認識が得られる。

Description

【発明の詳細な説明】話者識別および確証システム［発明の技術的背景］１．技術分野本発明は、スピーチのスペクトルを正規化するためスピーチの各フレームの成分に適応加重を与え、それによってチャンネルの影響を減少する話者認識システムまたは類似の装置に関する。２．関連技術の説明話者識別システムの目的は発声からそこにいる話者を決定することである。代りに、話者確証システムの目的は発声から話者の主張する身元を確証することである。話者識別および話者確証システムは話者認識の一般的カテゴリーに限定されることができる。典型的な電話交換システムはしばしば異なったチャンネルで同一の開始および終了位置間の呼びを経路設定することが知られている。各チャンネルで決定されたスピーチのスペクトルはチャンネルの影響により異なった形状を有することができる。さらに、雑音環境で発声されたスピーチのスペクトルは静寂な環境で同一の話者により発声されたスピーチのスペクトルとは異なった形状を有することができる。非音声領域成分によりスピーチのスペクトルが変化するために異なったチャンネル上または雑音環境でのスピーチ認識はそれ故困難である。一般的な方法はスペクトル形状を訂正するためにスピーチスペクトルの正規化を試みる。米国特許第5,001,761 号明細書は雑音の影響を有するある周波数周辺でスピーチを正規化する装置を開示している。スピーチのスペクトルは予め定められた周波数で分割される。それぞれ分割されたスペクトルの線形近似ラインが決定され、近似ラインはスペクトルを正規化するため予め定められた周波数で結合される。この装置は、スピーチの各フレームが雑音の影響を有する予め定められた周波数に対して正規化されるだけであり、スピーチのフレームはスペクトルの周波数範囲で生じることができる非音声領域の影響を減少するために正規化されない欠点を有する。米国特許第4,926,488 号明細書はスピーチ信号を伴う雑音を考慮するため発声された入力を強調するようにスピーチを正規化する方法を開示している。この方法はスピーチの特徴ベクトルを発生する。特徴ベクトルは複数のパラメータを含んだオペレータ関数により正規化される。最も近いプロトタイプのベクトルは正規化されたベクトルのために決定され、オペレータ関数は正規化されたベクトルを最も近いプロトタイプに近付けるように変更される。変更されたオペレータベクトルは正規化されたベクトルへ変換するため次の特徴ベクトルに与えられる。この特許は１以上の周波数にわたって生じる非音声領域の影響を考慮しないという限定を有する。スピーチは一般的に人間の音声領域を模倣する方法でモデル化される。線形予測コード（ＬＰＣ）はスピーチセグメントのスペクトルエンベロープで位置スペクトル（周波数）とピーク形状（帯域幅）に変換されることができるパラメータを使用してスピーチの短いセグメントを記述するために使用されている。セプストラル係数は信号のパワースペクトルの対数の逆フーリエ変換を表している。セプストラル係数は周波数スペクトルまたは線形予測ＬＰ係数から得られることができる。セプストラル係数は話者認識の主要な特性として使用されることができる。典型的に１２のセプストラル係数がスピーチの各フレームに対して形成される。減少された組のセプストラル係数はスピーチの合成または認識に使用されることができることが発見されている。米国特許第5,165,008 号明細書にはスピーチ合成方法を開示されており、ここでは５つのセプストラル係数が話者の独立したデータの各セグメントに使用される。５つのセプストラル係数の組は係数加重係数を決定するため線形予測解析により決定される。係数加重係数は音声領域のリソース空間におけるベクトルの各素子の２乗されていない予測エラーを最小にする。同一の係数加重係数がスピーチの各フレームに供給され、非音声領域の影響を考慮しない。非音声領域の影響を減少しながら信号の音声領域特徴を改良するスピーチの各フレームに対するスピーチ成分の適応加重を与えるためスピーチのスペクトルが正規化されるスピーチ認識システムを提供することが所望される。［発明の要約］本発明の方法は、時間に関する成分のスペクトル形状を伴って、スピーチ成分と、非音声領域成分との間に差が存在する事実を使用する。チャンネル、雑音成分のような非音声領域成分がスピーチ成分の帯域幅よりも実質上大きいスペクトルの帯域幅を有することが発見されている。スピーチインテリジェンスは大きい帯域幅成分の減衰し、一方スピーチに関する小さい帯域幅成分の強調することにより改良される。改良されたスピーチインテリジェンスは高性能話者認識装置のような製品で使用されることができる。この方法はデジタルスピーチの連続フレームを発生するためにアナログスピーチ信号をデジタル形態に変換することによるアナログスピーチ信号の解析を含んでいる。デジタルスピーチのフレームは話者のスペクトルと予測係数として知られている１組のスピーチパラメータを抽出するため線形予測解析を使用して適切に解析される。予測係数はスピーチのフレームの成分を特徴づける全ポールフィルタの複数のポールを有する。スペクトル成分は関連する帯域幅に基づいて顕著な成分の貢献を強調するため正規化されることができる。適応成分加重はスピーチに関連する成分を強調し、スピーチではない影響に関する成分を減衰するためにスペクトル成分に供給される。セプストラル係数はスピーチ信号の強調された特徴を与えるために正規化されたスペクトルに基づいて決定される。改良された分類は強調された特徴に基づいてスピーチ認識システムで行われる。好ましくは本発明の話者認識システムはクレジットカード処理、電話料請求カード処理、コンピュータ回路網の利得アクセス用の電話システムで個人の身元を確証するために使用されることができる。さらに、話者認識システムはドアの音声付勢ロック、音声付勢自動車エンジン、音声付勢コンピュータシステムに使用されることができる。本発明は後述の図面を参照してさらに理解されよう。［図面の簡単な説明］図１はシステムの訓練期間中における本発明のシステムのフロー図である。図２は評価期間における本発明のシステムのフロー図である。図３は特徴抽出および特徴強調のための本発明の方法のフロー図である。図４は適応成分加重フィルタ処理のない従来技術のスピーチスペクトルのグラフである。図５は適応成分加重フィルタ処理を有する図４で示されたスピーチスペクトルのグラフである。図６Ａは適応成分加重フィルタ処理のないスペクトルである。図６Ｂは適応成分加重フィルタ処理を有するスペクトルである。図７は適応成分加重フィルタ処理のない場合とある場合とのスペクトルの比較である。図８は伝達関数（１−０．９ｚ^-1）に対する運動平均フィルタ（ＦＩＲ）の応答特性である。［好ましい実施例の詳細な説明］説明において、同一符号は本発明を図示する異なった図面にしたがった同様の素子を示すために使用されている。図１はシステムの訓練中のスピーチ認識システム10のフロー図を示している。スピーチ訓練入力信号はデジタルスピーチの連続フレームを与えるためにアナログデジタルコンバータ11に供給される。特徴抽出モジュール12はデジタルスピーチのフレームを受信する。特徴抽出モジュール12はデジタルスピーチのフレームの特性パラメータを獲得する。話者認識では、特徴抽出モジュール12で抽出された特徴は適切な話者認識を可能にするために話者に特有である。特徴強調モジュール14は特徴抽出モジュール12で抽出された特徴を強調する。特徴強調モジュール14はまた複数の抽出特徴を話者認識に必要とされる主要特徴に減少する。強調特徴における分類がブロック16で行われる。好ましくは分類は各話者に対するユニバーサルコードブックを生成するためにベクトル量子化の一般技術で行われることができる。代りの例では、分類は多重層知覚、神経回路網、ラジアル基礎関数回路網、陰蔽マルコフモデルにより行われることができる。技術で知られている他の分類方法が本発明の方法で使用されることが認識されよう。図２では、話者認識システム10が話者識別または確証用に示されている。スピーチ評価入力信号はアナログデジタルコンバータ11でデジタル化され、特徴抽出モジュール12に供給される。スピーチ入力信号の強調された特徴はテンプレート整合モジュール18で受信される。テンプレート整合モジュール18は話者の同一であることを決定するかまたは話者がユニバーサルコードブック中にエントリーを有するかを確証するためユニバーサルコードブックまたは典型的な分類システムで最も近い整合を決定する。図３は特徴抽出ブロック12と特徴強調ブロック14を実行するための好ましい実施例のフロー図を示している。スピーチｓ（ｋ）のフレームは変調モデル（ＭＭ）により表されることができる。変調モデル（ＭＭ）は振幅変調（ＡＭ）および周波数変調（ＦＭ）成分の数Ｎを表したパラメータを含んでいる。スピーチフレームは次の式により表されることができる。ここで、Ａ_i（ｋ）はｉ番目の振幅変調成分であり、φ_i（ｋ）はｉ番目の瞬間位相成分であり、η（ｋ）はモデルエラーである。振幅変調成分Ａ_i（ｋ）と瞬間位相成分φ_i（ｋ）は典型的に狭帯域幅の信号である。次式を得るため、線形予測解析は１ピッチ期間の時間間隔にわたる変調関数を決定するために使用されることができる。ここでＧ_iは成分利得であり、Ｂ_iは帯域幅であり、ω_iは中心周波数であり、θ_i は相対的遅延である。スピーチ信号ｓ（ｋ）は線形予測コード化（ＬＰＣ）係数を得るためにブロック110へ供給される。スピーチ信号のＬＰ多項式Ａ（ｚ）は以下の式により限定されることができる。ここでａ_iは線形予測係数であり、Ｐは係数のオーダーである。線形予測コード化解析では、音声領域の伝達関数は次式により限定されるＰ番目のオーダーのＬＰ解析により与えられる時変化の全ポールフィルタによりモデル化されることができる。Ａ（ｚ）のルートは次式を得るためそのルートによってＬＰ多項式Ａ（ｚ）を係数化することによりブロック112 で決定されることができる。ここでｚ_iはＬＰ多項式Ａ（ｚ）のルートであり、ＰはＬＰ多項式のオーダーである。通常、ＬＰ多項式のルートは複素数であり、原点から複素数ｚ平面までほぼ１の放射状距離に位置する。衰しスピーチに対応する小さい帯域幅成分を強調するためブロック114 において決定される。ができる。剰余ｒ_iは各成分ｉの相対的利得と、位相オフセットを表し、これは複合スペクトルのスペクトル傾斜として限定されることができる。大きい帯域幅のスペクトル成分は非音声領域成分に対応し、非音声領域成分は大きい剰余値を有することが発見されている。正規化された残余ｒ_iは、その帯域幅に基づいてスペクトルの各成分ｉの比例した貢献を生じる。剰余ｒ_iの正規化はｒ_iを１のような定数に設定することにより行われる。例えばｒ_iが１に設定されるならば、成分ｉの貢献はほぼ以下のようになる。これは次式に等しい。式114 から各成分ｉの貢献は帯域幅Ｂ_iに反比例し、成分ｉが大きな帯域幅Ｂ_iであるならば、式114 の値は成分ｉが小さい帯域幅Ｂ_iを有する場合よりも小さいことが示される。剰余ｒ_iの正規化は帯域幅に基づく加重をスピーチの各フレームのスペクトル成分に供給する適応成分加重（ＡＣＷ）として限定されることができる。前述の発見に基づいて、スピーチ成分を増加しながら非音声領域成分を減衰すはオーダーＰ−１の運動平均成分（ＭＡ）を有し、これは信号のスピーチ成分の貢献を正規化する。セプストラル係数はM.R.Schroeder の“Direct（nonrecursive）relation bet ween cepstrals and predictor coefficients”、Proc．IEEE 29:297-301、1981 年４月で記載されているようなスペクトル情報として使用されることが技術で知られている。セプストラル係数は次式のセプストラル指数に正規化されたポールのパワー合計により限定されることができる。ここでｃ_nはセプストラル係数である。セプストラル係数ｃ_nは式106 により限定されているＬＰ多項式Ａ（ｚ）のルートにより表されることができる。予測係数ａ_iは実数であることが知られている。式106 により限定されるＬＰ多項式Ａ（ｚ）のルートは実数であるか共役複素数対で生じる。ＬＰ多項式Ａ（ｚ）の各ルートは以下の関係で中心周波数ωと帯域幅Ｂ_iに関連される。中心周波数ω_iと帯域幅Ｂ_iは以下のようにして発見されることができる。ここでＩｍ（ｚ_i）は虚数ルートであり、Ｒｅ（ｚ_i）は実数ルートであるＢ_i＝−１ｎ｜ｚ_i｜（１２２）式118 を式117 に代入すると、以下のように限定されることができるスピーチ信号ｓ（ｋ）のセプストラル係数が得られる。ここでｎ番目のセプストラルｃ_n係数はＭＭパラメータの非線形変換である。周波数指数ｎは式100 の時間変数ｋに対応し、相対遅延φ_iはゼロに設定され、相対利得Ｇ_iは１に設定される。がブロック116 で決定されることができる。Ｎ（ｚ）は次式のように限定されることができるスピーチスペクトルのチャンネルおよびスペクトル傾斜を表したＬＰ多項式である。ここでｂは線形予測係数を表しており、Ｐは多項式のオーダーである。信号のスピーチ成分を正規化するＦＩＲフィルタは以下のように限定されることができる。式126 により限定されるようにＬＰ多項式Ｎ（ｚ）を係数化し、式110 により限定されているようにＡ（ｚ）を係数化すると次式のように限定される新しい伝達ここでｚ_iは式126 により限定されたＬＰ多項式のルートである。適応成分加重（ＡＣＷ）を有するスペクトルは次式によりその正規化されたセはブロック118 で計算される。正規化されたセプストラルは非音声領域成分を減衰し、一般的なセプストラルスペクトルのスピーチ成分を増加する。ブロック11 8 から決定された正規化されたセプストラルスペクトルは分類ブロック16またはテンプレート整合ブロック18で使用されることができる。図４は伝達関数Ｈ（ｚ）からの１つのチャンネル上での話者に対する従来技術によるスピーチスペクトル分解を示している。１−４と符号の付けられた成分は音声領域の共振を表している。共振のピークはω₁−ω₄で示された中心周波数で生じる。各共振はＢ₁−Ｂ₄と示されるそれぞれの帯域幅を有する。５、６で示された成分は非音声領域の影響を表している。図４は非音声領域の影響を表したＢ₅ 、Ｂ₆で示された帯域幅がスピーチ成分のＢ₁−Ｂ₄とラベルされた帯域幅よりも非常に大きいことを示している。ーチスペクトルの分解を示している。図５では成分１−４のピークが強調され、成分５、６のピークは減衰される。図６Ａは音声領域および非音声領域成分を含んだスピーチ信号の従来技術のスペクトルを示している。図６Ｂは適応成分加重フィルタの適用後のスピーチ信号のスペクトルを示している。図６Ｂは信号のスピーチ成分を強調するためピーク１−４を約３０ｄｂの値に正規化している。図７は図６Ｂで示されたスペクトルにおけるＮ（ｚ）により限定された運動平均フィルタの応答特性を示している。との比較を示している。伝達関数Ｈ（ｚ）はチャンネルの影響を含んでいる。伝テキスト独立話者識別例が行われた。同じ（ニューイングランド）方言の３８人の話者を表すＤＡＲＰＡＴＩＭＩＴデータベースのサブセットが使用された。各話者は１発声当り３秒の平均継続時間で１０回発声した。５発声がブロック16 の訓練システム10で使用され、５発声がブロック18の評価用に使用された。伝達関数Ｈ（ｚ）から得られた第１の組のセプストラル特性は適応成分加重伝達関数訓練および試験はスピーチ信号のチャンネルの影響なしに行われた。Ｈ（ｚ）９３％の同一の認識率を有した。訓練および試験がチャンネルの影響を含んだスピーチ信号で行われ、ここでチャンネルは伝達関数（１−０．９ｚ^-1）によりシミュレートされた。Ｈ（ｚ）か（ｚ）から決定された第２の組のセプストラル特性は７４．４％の認識率を有した。認識率を２４．６％に改良することが適応成分加重により決定されるセプストラル特性を使用して発見された。本発明はスピーチ信号の特徴の改良によりチャンネル等における話者認識を改良する利点を有する。スピーチ信号の非音声領域成分は減衰され、音声領域成分は強調される。本発明は好ましくは電話システムまたは雑音環境にわたる話者認識に使用される。本発明を好ましい実施例を参照して説明したが、この説明は限定を意図するものではない。変形が本発明の技術的範囲を逸脱することなく行われることが当業者に認識されるであろう。

【手続補正書】特許法第１８４条の８【提出日】１９９５年６月１６日【補正内容】【図１】【図２】【図３】【図４】【図５】【図６】【図７】【図８】【図９】【手続補正書】特許法第１８４条の８【提出日】１９９５年８月２８日【補正内容】請求の範囲（１）話者認識方法において、スピーチセグメントを複数のスピーチフレームへウィンドウ処理し、それぞれの前記スピーチフレームの線形予測多項式から線形予測係数を決定し、前記線形予測係数から第１のセプストラル係数を決定することによって前記スピーチセグメントを第１のセプストラル情報へ解析し、前記第１のセプストラル情報は前記第１のセプストラル係数を有しており、適応成分加重セプストラルを生成するために前記第１のセプストラル情報から予め定められた成分へ加重を供給し、前記スピーチ信号中の広帯域幅成分を減衰させ、前記適応成分加重セプストラルと、複数の話者により発声される複数のスピーチパターンとの類似性を前もって計算することにより前記適応成分加重セプストラルを認識するステップを含んでいる方法。（２）前記スピーチセグメントを解析する前記ステップにおいて、全ポールフィルタを前記線形予測多項式に適用し、前記全ポールフィルタのポールから前記線形予測多項式の複数のルートを決定し、それぞれの前記ルートは剰余成分を含んでおり、前記スピーチ信号のスピーチフォルマントを強調し、前記剰余成分を減衰するために有限インパルス応答フィルタを決定し、前記有限インパルス応答フィルタから適応成分加重を決定し、ｚ平面の単位円内の予め定められた数の前記ルート数を有する前記フレームの１つを選択し、前記選択されたフレームは前記第１のセプストラル情報の前記予め定められた成分を形成するステップをさらに有する請求項１記載の方法。（３）スピーチ信号を複数のデジタルスピーチフレームに変換する手段と、各前記スピーチフレームの線形予測多項式から線形予測係数を決定し、前記線形予測係数から第１のセプストラル係数を決定することによって前記デジタルスピーチを第１のセプストラル情報へ変換し、前記第１のセプストラル情報は前記第１のセプストラル係数を有するスピーチパラメータ抽出手段と、前記スピーチ信号の広帯域幅成分を減衰するために適応成分加重セプストラルを生成する前記第１のセプストラルパラメータへ適応加重を適用するスピーチパラメータ強調手段と、前記適応成分加重セプストラルと、複数の話者により発声された複数のスピーチサンプルとの類似性を前もって決定する評価手段とを具備している話者認識用システム。（４）前記パラメータ抽出手段において、ＬＰ多項式を決定する手段と、前記ＬＰ多項式の複数のルートを決定する手段と、ｚ平面の単位円内の予め定められた数の前記ルートを有する前記フレームの１つを選択する手段とをさらに具備し、前記選択されたフレームは前記第１のセプストラル情報の前記予め定められた成分を形成する請求項３記載のシステム。（５）スピーチセグメントを複数のスピーチフレームへウィンドウ処理し、それぞれの前記スピーチフレームに対する線形予測多項式から線形予測係数を決定し、前記線形予測係数から第１のセプストラル係数を決定し、ここで第１のセプストラル情報は前記第１のセプストラル係数を構成し、全ポールフィルタを前記線形予測多項式へ適用し、前記全ポールフィルタのポールから前記線形予測多項式の複数のルートを決定し、各前記ルートは剰余成分を含んでおり、ｚ平面の単位円内の予め定められた数の前記ルートを有する前記フレームの１つを選択し、それにおいて前記選択されたフレームは前記第１のセプストラル情報の前記予め定められた成分を形成し、前記第１のセプストラル情報からの予め定められた成分へ加重を適用して前記スピーチ信号中の広帯域幅成分を減衰するために適応成分加重セプストラルを生成し、有限インパルス応答フィルタを決定して前記スピーチ信号のスピーチフォルマントを強調し、前記剰余成分を減衰する有限インパルス応答を決定するステップにおいて、前記スピーチ信号のスピーチフォルマントを強調して前記剰余成分を減衰するために有限インパルス応答フィルタを決定し、前記有限インパルス応答フィルタから適合成分加重係数を決定し、前記適合成分加重係数から第２のセプストラル係数を決定し、前記適応成分加重セプストラルを形成するために前記第１のセプストラル係数から前記第２のセプストラル係数を減算するステップを有し、前記適応成分加重セプストラルと、複数の話者により発声される複数のスピーチパターンとの類似性を前もって計算することにより前記適応成分加重セプストラルを認識するステップを含んでいる話者認識方法。（６）前記有限インパルス応答フィルタは前記第１のスペクトルの前記剰余成分を正規化する請求項５記載の方法。（７）前記有限インパルス応答フィルタが次式の適応成分加重スペクトルに対応し、ここでｂ_iは前記適応成分加重係数であり、ＰはＬＰ解析のオーダーである請求項６記載の方法。（８）前記適応成分加重セプストラルを分類手段において前記複数のスピーチパラメータとして分類するステップをさらに有する請求項７記載の方法。（９）前記適応成分加重セプストラルを前記分類手段において前記分類された適応成分加重セプストラルと整合することにより前記適応成分加重セプストラルと前記スピーチパターンとの前記類似性を決定するステップをさらに有する請求項８記載の方法。（１０）話者認識システムにおいて、スピーチ信号をデジタルスピーチの複数のフレームに変換する手段と、前記デジタルスピーチを第１のセプストラル情報へ変換し、前記ＬＰＣフィルタのそれぞれは剰余成分を含む複数のルートを決定するために全ポール線形予測（ＬＰＣ）フィルタ手段を具備しているスピーチパラメータ抽出手段と、ｚ平面の単位円内の予め定められた数の前記ルートを有する前記フレームの１つを選択する手段であって、前記選択されたフレームは前記第１のセプストラル情報の前記予め定められた成分を形成するフレーム選択手段と、前記第１のセプストラル情報へ適応加重を供給して、前記スピーチ信号の広帯域幅成分を減衰するための適応成分加重セプストラルを生成し、前記スピーチ信号のスピーチフォルマントを強調して前記剰余成分を減衰するための有限インパルス応答フィルタと、前記有限ィンパルス応答フィルタから適応成分加重係数を計算する手段と、前記適応成分加重係数から第２のセプストラル係数を計算する手段と、前記適応成分加重セプストラルを形成するために前記第１のセプストラル係数から前記第２のセプストラル係数を減算する手段とを具備しているスピーチパラメータ強調手段と、前記適応成分加重セプストラルと、複数の話者により発声された複数のスピーチサンプルとの類似性を前もって決定する評価手段とを具備している話者認識用システム。（１１）前記有限インパルス応答フィルタは以下の適応成分加重スペクトルに対応し、ここでｂ_iは前記適応成分加重係数であり、ＰはＬＰ解析のオーダーである請求項１０記載のシステム。（１２）前記複数のスピーチパターンとして前記適応成分加重セプストラルを分類する手段をさらに具備している請求項１１記載のシステム。（１３）前記適応成分加重セプストラルを前記分類手段において前記記憶された適応成分加重セプストラルと整合することにより前記適応成分加重セプストラルと前記スピーチパターンとの類似性を決定する手段をさらに具備している請求項１２記載のシステム。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＤＥ，ＤＫ，ＥＳ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＭ，ＡＴ，ＡＵ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＺ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＧＢ，ＧＥ，ＨＵ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＫ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＮ，ＭＷ，ＭＸ，ＮＬ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＴＪ，ＴＴ，ＵＡ，ＵＧ，ＵＺ，ＶＮ (72)発明者アッサーレー、カーレッド・ティーアメリカ合衆国、ニュージャージー州 08904、ハイランド、ハイランド・アベニュー 17

Claims

【特許請求の範囲】（１）第１のスペクトル情報へスピーチ音声を解析し、正規化された第２のスペクトルを発生するため前記第１のスペクトル情報から予め定められた成分へ加重を供給し、前記第２のスペクトルと、前もって複数の話者により発声された複数のスピーチパターンの類似性を計算することにより前記第２のスペクトルを認識するステップからなる話者認識方法。（２）前記スピーチ音声は前記スピーチ音声を複数のフレームに分離することにより解析され、それぞれのフレームは予め定められた時間を有し、線形予測解析を通じてそれぞれの前記スピーチ音声のＬＰＣ係数を獲得する請求項１記載の方法。（３）第１の加重は第１の予め定められた成分に供給され、第２の加重は第２の予め定められた成分に供給される請求項２記載の方法。（４）前記第１の加重は前記第１の成分を増加し、前記第２の加重は前記第２の成分を減衰する請求項３記載の方法。（５）前記第１、第２の加重は各前記フレームのために決定される請求項４記載の方法。（６）前記第２の成分は大きい帯域幅を有する請求項５記載の方法。（７）前記ＬＰＣ係数のルートを決定し、それぞれの前記ルートは剰余成分を含んでおり、各前記ルートの前記剰余成分を正規化するステップにより前記第１、第２の加重が決定される請求項６記載の方法。（８）前記第２のスペクトルは以下の変換により限定され、ここでＰは解析のオーダーであり、ｚ_iは前記スピーチ音声の帯域幅と周波数を表す複素数のルートである請求項７記載の方法。（９）スピーチの前記第２のスペクトルの正規化セプストラルを決定するステップをさらに有する請求項８記載の方法。（１０）前記セプストラルが次式により限定され、ここでＰは係数の数であり、ｚ_iは前記第２のスペクトルの複素数のルートである請求項９記載の方法。（１１）前記複数のスピーチパターンとして分類手段中に前記第２のスペクトルを記憶するステップをさらに有する請求項１０記載の方法。（１２）前記第２のスペクトルを前記分類手段の前記記憶された第２のスペクトルと整合することによって前記第２のスペクトルと前記スピーチパターンとの前記類似性を決定するステップをさらに有する請求項１１記載の方法。（１３）スピーチ信号をデジタルスピーチの複数のフレームに変換する手段と、前記デジタルスピーチを１組の第１のスペクトルパラメータに変換するスピーチパラメータ抽出手段と、正規化された第２のスペクトルを発生するために適応加重を前記第１のスペクトルパラメータに供給するスピーチパラメータ強調手段と、前記第２のスペクトルと、前もって前記話者により発声された複数のスピーチサンプルとの類似性を決定する評価手段とを具備している話者認識用システム。（１４）前記複数のスピーチサンプルが前記第２のスペクトルにより発生される請求項１３記載のシステム。（１５）前記第１のスペクトルが前記スピーチ信号を全ポールのＬＰＣフィルタを通してフィルタ処理することにより発生される請求項１４記載のシステム。（１６）前記スピーチ信号が音声領域および非音声領域成分を含んでおり、前記スピーチパラメータ強調手段は前記非音声領域成分を減衰し、前記音声領域成分を増加するための運動平均フィルタ手段を含んでいる請求項１５記載のシステム。（１７）前記複数のスピーチサンプルを量子化するベクトル量子化手段と、前記量子化されたサンプルをコードブックに記憶する手段をさらに具備している請求項１６記載のシステム。（１８）前記評価手段が前記第２のスペクトルを前記コードブックに記憶された前記サンプルに整合することにより前記第２のスペクトルと前記複数のスピーチサンプルとの類似性を決定するテンプレート整合手段を具備している請求項１７記載のシステム。れは次式により定められる請求項１８記載のシステム。