JPH10500781A - 話者識別および確証システム - Google Patents

話者識別および確証システム

Info

Publication number
JPH10500781A
JPH10500781A JP7522534A JP52253495A JPH10500781A JP H10500781 A JPH10500781 A JP H10500781A JP 7522534 A JP7522534 A JP 7522534A JP 52253495 A JP52253495 A JP 52253495A JP H10500781 A JPH10500781 A JP H10500781A
Authority
JP
Japan
Prior art keywords
speech
spectrum
component
cepstral
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP7522534A
Other languages
English (en)
Inventor
マモン、リチャード・ジェイ
アッサーレー、カーレッド・ティー
Original Assignee
ラットガース・ユニバーシティー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ラットガース・ユニバーシティー filed Critical ラットガース・ユニバーシティー
Publication of JPH10500781A publication Critical patent/JPH10500781A/ja
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Burglar Alarm Systems (AREA)
  • Selective Calling Equipment (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Complex Calculations (AREA)

Abstract

(57)【要約】 本発明は、非音声領域成分を減衰しスピーチ成分を正規化するためスピーチの各フレームに適応成分加重を供給する話者認識方法およびシステムに関する。線形予測の全ポールモデルは運動平均成分を有する新しい伝達関数を形成するために使用される。正規化されたスペクトルは新しい伝達関数から決定される。スピーチ成分の改良された特性を有する正規化されたスペクトルが限定される。改良されたスピーチ成分から、チャンネル上で改良された話者認識が得られる。

Description

【発明の詳細な説明】 話者識別および確証システム [発明の技術的背景] 1.技術分野 本発明は、スピーチのスペクトルを正規化するためスピーチの各フレームの成 分に適応加重を与え、それによってチャンネルの影響を減少する話者認識システ ムまたは類似の装置に関する。 2.関連技術の説明 話者識別システムの目的は発声からそこにいる話者を決定することである。代 りに、話者確証システムの目的は発声から話者の主張する身元を確証することで ある。話者識別および話者確証システムは話者認識の一般的カテゴリーに限定さ れることができる。 典型的な電話交換システムはしばしば異なったチャンネルで同一の開始および 終了位置間の呼びを経路設定することが知られている。各チャンネルで決定され たスピーチのスペクトルはチャンネルの影響により異なった形状を有することが できる。さらに、雑音環境で発声されたスピーチのスペクトルは静寂な環境で同 一の話者により発声されたスピーチのスペクトルとは異なった形状を有すること ができる。非音声領域成分によりスピーチのスペクトルが変化するために異なっ たチャンネル上または雑音環境でのスピーチ認識はそれ故困難である。 一般的な方法はスペクトル形状を訂正するためにスピーチスペクトルの正規化 を試みる。米国特許第5,001,761 号明細書は雑音の影響を有するある周波数周辺 でスピーチを正規化する装置を開示している。スピーチのスペクトルは予め定め られた周波数で分割される。それぞれ分割されたスペクトルの線形近似ラインが 決定され、近似ラインはスペクトルを正規化するため予め定められた周波数で結 合される。この装置は、スピーチの各フレームが雑音の影響を有する予め定めら れた周波数に対して正規化されるだけであり、スピーチのフレームはスペクトル の周波数範囲で生じることができる非音声領域の影響を減少するために正規化さ れない欠点を有する。 米国特許第4,926,488 号明細書はスピーチ信号を伴う雑音を考慮するため発声 された入力を強調するようにスピーチを正規化する方法を開示している。この方 法はスピーチの特徴ベクトルを発生する。特徴ベクトルは複数のパラメータを含 んだオペレータ関数により正規化される。最も近いプロトタイプのベクトルは正 規化されたベクトルのために決定され、オペレータ関数は正規化されたベクトル を最も近いプロトタイプに近付けるように変更される。変更されたオペレータベ クトルは正規化されたベクトルへ変換するため次の特徴ベクトルに与えられる。 この特許は1以上の周波数にわたって生じる非音声領域の影響を考慮しないとい う限定を有する。 スピーチは一般的に人間の音声領域を模倣する方法でモデル化される。線形予 測コード(LPC)はスピーチセグメントのスペクトルエンベロープで位置スペ クトル(周波数)とピーク形状(帯域幅)に変換されることができるパラメータ を使用してスピーチの短いセグメントを記述するために使用されている。セプス トラル係数は信号のパワースペクトルの対数の逆フーリエ変換を表している。セ プストラル係数は周波数スペクトルまたは線形予測LP係数から得られることが できる。セプストラル係数は話者認識の主要な特性として使用されることができ る。典型的に12のセプストラル係数がスピーチの各フレームに対して形成され る。 減少された組のセプストラル係数はスピーチの合成または認識に使用されるこ とができることが発見されている。米国特許第5,165,008 号明細書にはスピーチ 合成方法を開示されており、ここでは5つのセプストラル係数が話者の独立した データの各セグメントに使用される。5つのセプストラル係数の組は係数加重係 数を決定するため線形予測解析により決定される。係数加重係数は音声領域のリ ソース空間におけるベクトルの各素子の2乗されていない予測エラーを最小にす る。同一の係数加重係数がスピーチの各フレームに供給され、非音声領域の影響 を考慮しない。 非音声領域の影響を減少しながら信号の音声領域特徴を改良するスピーチの各 フレームに対するスピーチ成分の適応加重を与えるためスピーチのスペクトルが 正規化されるスピーチ認識システムを提供することが所望される。 [発明の要約] 本発明の方法は、時間に関する成分のスペクトル形状を伴って、スピーチ成分 と、非音声領域成分との間に差が存在する事実を使用する。チャンネル、雑音成 分のような非音声領域成分がスピーチ成分の帯域幅よりも実質上大きいスペクト ルの帯域幅を有することが発見されている。スピーチインテリジェンスは大きい 帯域幅成分の減衰し、一方スピーチに関する小さい帯域幅成分の強調することに より改良される。改良されたスピーチインテリジェンスは高性能話者認識装置の ような製品で使用されることができる。 この方法はデジタルスピーチの連続フレームを発生するためにアナログスピー チ信号をデジタル形態に変換することによるアナログスピーチ信号の解析を含ん でいる。デジタルスピーチのフレームは話者のスペクトルと予測係数として知ら れている1組のスピーチパラメータを抽出するため線形予測解析を使用して適切 に解析される。予測係数はスピーチのフレームの成分を特徴づける全ポールフィ ルタの複数のポールを有する。スペクトル成分は関連する帯域幅に基づいて顕著 な成分の貢献を強調するため正規化されることができる。適応成分加重はスピー チに関連する成分を強調し、スピーチではない影響に関する成分を減衰するため にスペクトル成分に供給される。セプストラル係数はスピーチ信号の強調された 特徴を与えるために正規化されたスペクトルに基づいて決定される。改良された 分類は強調された特徴に基づいてスピーチ認識システムで行われる。 好ましくは本発明の話者認識システムはクレジットカード処理、電話料請求カ ード処理、コンピュータ回路網の利得アクセス用の電話システムで個人の身元を 確証するために使用されることができる。さらに、話者認識システムはドアの音 声付勢ロック、音声付勢自動車エンジン、音声付勢コンピュータシステムに使用 されることができる。 本発明は後述の図面を参照してさらに理解されよう。 [図面の簡単な説明] 図1はシステムの訓練期間中における本発明のシステムのフロー図である。 図2は評価期間における本発明のシステムのフロー図である。 図3は特徴抽出および特徴強調のための本発明の方法のフロー図である。 図4は適応成分加重フィルタ処理のない従来技術のスピーチスペクトルのグラ フである。 図5は適応成分加重フィルタ処理を有する図4で示されたスピーチスペクトル のグラフである。 図6Aは適応成分加重フィルタ処理のないスペクトルである。 図6Bは適応成分加重フィルタ処理を有するスペクトルである。 図7は適応成分加重フィルタ処理のない場合とある場合とのスペクトルの比較 である。 図8は伝達関数(1−0.9z-1)に対する運動平均フィルタ(FIR)の応 答特性である。 [好ましい実施例の詳細な説明] 説明において、同一符号は本発明を図示する異なった図面にしたがった同様の 素子を示すために使用されている。 図1はシステムの訓練中のスピーチ認識システム10のフロー図を示している。 スピーチ訓練入力信号はデジタルスピーチの連続フレームを与えるためにアナロ グデジタルコンバータ11に供給される。特徴抽出モジュール12はデジタルスピー チのフレームを受信する。特徴抽出モジュール12はデジタルスピーチのフレーム の特性パラメータを獲得する。話者認識では、特徴抽出モジュール12で抽出され た特徴は適切な話者認識を可能にするために話者に特有である。 特徴強調モジュール14は特徴抽出モジュール12で抽出された特徴を強調する。 特徴強調モジュール14はまた複数の抽出特徴を話者認識に必要とされる主要特徴 に減少する。強調特徴における分類がブロック16で行われる。好ましくは分類は 各話者に対するユニバーサルコードブックを生成するためにベクトル量子化の一 般技術で行われることができる。代りの例では、分類は多重層知覚、神経回路網 、ラジアル基礎関数回路網、陰蔽マルコフモデルにより行われることができる。 技術で知られている他の分類方法が本発明の方法で使用されることが認識されよ う。 図2では、話者認識システム10が話者識別または確証用に示されている。スピ ーチ評価入力信号はアナログデジタルコンバータ11でデジタル化され、特徴抽出 モジュール12に供給される。スピーチ入力信号の強調された特徴はテンプレート 整合モジュール18で受信される。テンプレート整合モジュール18は話者の同一で あることを決定するかまたは話者がユニバーサルコードブック中にエントリーを 有するかを確証するためユニバーサルコードブックまたは典型的な分類システム で最も近い整合を決定する。 図3は特徴抽出ブロック12と特徴強調ブロック14を実行するための好ましい実 施例のフロー図を示している。スピーチs(k)のフレームは変調モデル(MM )により表されることができる。変調モデル(MM)は振幅変調(AM)および 周波数変調(FM)成分の数Nを表したパラメータを含んでいる。スピーチフレ ームは次の式により表されることができる。 ここで、Ai(k)はi番目の振幅変調成分であり、φi(k)はi番目の瞬間位 相成分であり、η(k)はモデルエラーである。 振幅変調成分Ai(k)と瞬間位相成分φi(k)は典型的に狭帯域幅の信号で ある。次式を得るため、線形予測解析は1ピッチ期間の時間間隔にわたる変調関 数を決定するために使用されることができる。 ここでGiは成分利得であり、Biは帯域幅であり、ωiは中心周波数であり、θi は相対的遅延である。 スピーチ信号s(k)は線形予測コード化(LPC)係数を得るためにブロッ ク110へ供給される。スピーチ信号のLP多項式A(z)は以下の式により限定 されることができる。 ここでaiは線形予測係数であり、Pは係数のオーダーである。 線形予測コード化解析では、音声領域の伝達関数は次式により限定されるP番 目のオーダーのLP解析により与えられる時変化の全ポールフィルタによりモデ ル化されることができる。 A(z)のルートは次式を得るためそのルートによってLP多項式A(z)を 係数化することによりブロック112 で決定されることができる。 ここでziはLP多項式A(z)のルートであり、PはLP多項式のオーダーで ある。通常、LP多項式のルートは複素数であり、原点から複素数z平面までほ ぼ1の放射状距離に位置する。 衰しスピーチに対応する小さい帯域幅成分を強調するためブロック114 において 決定される。 ができる。 剰余riは各成分iの相対的利得と、位相オフセットを表し、これは複合スペク トルのスペクトル傾斜として限定されることができる。 大きい帯域幅のスペクトル成分は非音声領域成分に対応し、非音声領域成分は 大きい剰余値を有することが発見されている。 正規化された残余riは、その帯域幅に基づいてスペクトルの各成分iの比例 した貢献を生じる。剰余riの正規化はriを1のような定数に設定することによ り行われる。例えばriが1に設定されるならば、成分iの貢献はほぼ以下のよ うになる。 これは次式に等しい。 式114 から各成分iの貢献は帯域幅Biに反比例し、成分iが大きな帯域幅Biで あるならば、式114 の値は成分iが小さい帯域幅Biを有する場合よりも小さい ことが示される。剰余riの正規化は帯域幅に基づく加重をスピーチの各フレー ムのスペクトル成分に供給する適応成分加重(ACW)として限定されることが できる。 前述の発見に基づいて、スピーチ成分を増加しながら非音声領域成分を減衰す はオーダーP−1の運動平均成分(MA)を有し、これは信号のスピーチ成分の 貢献を正規化する。 セプストラル係数はM.R.Schroeder の“Direct(nonrecursive)relation bet ween cepstrals and predictor coefficients”、Proc.IEEE 29:297-301、1981 年4月で記載されているようなスペクトル情報として使用されることが技術で知 られている。セプストラル係数は次式のセプストラル指数に正規化されたポール のパワー合計により限定されることができる。 ここでcnはセプストラル係数である。 セプストラル係数cnは式106 により限定されているLP多項式A(z)のル ートにより表されることができる。 予測係数aiは実数であることが知られている。式106 により限定されるLP多 項式A(z)のルートは実数であるか共役複素数対で生じる。LP多項式A(z )の各ルートは以下の関係で中心周波数ωと帯域幅Biに関連される。 中心周波数ωiと帯域幅Biは以下のようにして発見されることができる。 ここでIm(zi)は虚数ルートであり、Re(zi)は実数ルートである Bi=−1n|zi| (122) 式118 を式117 に代入すると、以下のように限定されることができるスピーチ 信号s(k)のセプストラル係数が得られる。 ここでn番目のセプストラルcn係数はMMパラメータの非線形変換である。周 波数指数nは式100 の時間変数kに対応し、相対遅延φiはゼロに設定され、相 対利得Giは1に設定される。 がブロック116 で決定されることができる。N(z)は次式のように限定される ことができるスピーチスペクトルのチャンネルおよびスペクトル傾斜を表したL P多項式である。 ここでbは線形予測係数を表しており、Pは多項式のオーダーである。信号のス ピーチ成分を正規化するFIRフィルタは以下のように限定されることができる 。 式126 により限定されるようにLP多項式N(z)を係数化し、式110 により限 定されているようにA(z)を係数化すると次式のように限定される新しい伝達 ここでziは式126 により限定されたLP多項式のルートである。 適応成分加重(ACW)を有するスペクトルは次式によりその正規化されたセ はブロック118 で計算される。正規化されたセプストラルは非音声領域成分を減 衰し、一般的なセプストラルスペクトルのスピーチ成分を増加する。ブロック11 8 から決定された正規化されたセプストラルスペクトルは分類ブロック16または テンプレート整合ブロック18で使用されることができる。 図4は伝達関数H(z)からの1つのチャンネル上での話者に対する従来技術 によるスピーチスペクトル分解を示している。1−4と符号の付けられた成分は 音声領域の共振を表している。共振のピークはω1−ω4で示された中心周波数で 生じる。各共振はB1−B4と示されるそれぞれの帯域幅を有する。5、6で示さ れた成分は非音声領域の影響を表している。図4は非音声領域の影響を表したB5 、B6で示された帯域幅がスピーチ成分のB1−B4とラベルされた帯域幅よりも 非常に大きいことを示している。 ーチスペクトルの分解を示している。図5では成分1−4のピークが強調され、 成分5、6のピークは減衰される。 図6Aは音声領域および非音声領域成分を含んだスピーチ信号の従来技術のス ペクトルを示している。図6Bは適応成分加重フィルタの適用後のスピーチ信号 のスペクトルを示している。図6Bは信号のスピーチ成分を強調するためピーク 1−4を約30dbの値に正規化している。 図7は図6Bで示されたスペクトルにおけるN(z)により限定された運動平 均フィルタの応答特性を示している。 との比較を示している。伝達関数H(z)はチャンネルの影響を含んでいる。伝 テキスト独立話者識別例が行われた。同じ(ニューイングランド)方言の38 人の話者を表すDARPA TIMITデータベースのサブセットが使用された 。 各話者は1発声当り3秒の平均継続時間で10回発声した。5発声がブロック16 の訓練システム10で使用され、5発声がブロック18の評価用に使用された。伝達 関数H(z)から得られた第1の組のセプストラル特性は適応成分加重伝達関数 訓練および試験はスピーチ信号のチャンネルの影響なしに行われた。H(z) 93%の同一の認識率を有した。 訓練および試験がチャンネルの影響を含んだスピーチ信号で行われ、ここでチ ャンネルは伝達関数(1−0.9z-1)によりシミュレートされた。H(z)か (z)から決定された第2の組のセプストラル特性は74.4%の認識率を有し た。認識率を24.6%に改良することが適応成分加重により決定されるセプス トラル特性を使用して発見された。 本発明はスピーチ信号の特徴の改良によりチャンネル等における話者認識を改 良する利点を有する。スピーチ信号の非音声領域成分は減衰され、音声領域成分 は強調される。本発明は好ましくは電話システムまたは雑音環境にわたる話者認 識に使用される。 本発明を好ましい実施例を参照して説明したが、この説明は限定を意図するも のではない。変形が本発明の技術的範囲を逸脱することなく行われることが当業 者に認識されるであろう。
【手続補正書】特許法第184条の8 【提出日】1995年6月16日 【補正内容】 【図1】 【図2】 【図3】 【図4】 【図5】 【図6】 【図7】 【図8】 【図9】 【手続補正書】特許法第184条の8 【提出日】1995年8月28日 【補正内容】 請求の範囲 (1)話者認識方法において、 スピーチセグメントを複数のスピーチフレームへウィンドウ処理し、 それぞれの前記スピーチフレームの線形予測多項式から線形予測係数を決定し 、前記線形予測係数から第1のセプストラル係数を決定することによって前記ス ピーチセグメントを第1のセプストラル情報へ解析し、前記第1のセプストラル 情報は前記第1のセプストラル係数を有しており、 適応成分加重セプストラルを生成するために前記第1のセプストラル情報から 予め定められた成分へ加重を供給し、前記スピーチ信号中の広帯域幅成分を減衰 させ、 前記適応成分加重セプストラルと、複数の話者により発声される複数のスピー チパターンとの類似性を前もって計算することにより前記適応成分加重セプスト ラルを認識するステップを含んでいる方法。 (2)前記スピーチセグメントを解析する前記ステップにおいて、 全ポールフィルタを前記線形予測多項式に適用し、 前記全ポールフィルタのポールから前記線形予測多項式の複数のルートを決定 し、それぞれの前記ルートは剰余成分を含んでおり、 前記スピーチ信号のスピーチフォルマントを強調し、前記剰余成分を減衰する ために有限インパルス応答フィルタを決定し、 前記有限インパルス応答フィルタから適応成分加重を決定し、 z平面の単位円内の予め定められた数の前記ルート数を有する前記フレームの 1つを選択し、前記選択されたフレームは前記第1のセプストラル情報の前記予 め定められた成分を形成するステップをさらに有する請求項1記載の方法。 (3)スピーチ信号を複数のデジタルスピーチフレームに変換する手段と、 各前記スピーチフレームの線形予測多項式から線形予測係数を決定し、前記線 形予測係数から第1のセプストラル係数を決定することによって前記デジタルス ピーチを第1のセプストラル情報へ変換し、前記第1のセプストラル情報は前記 第1のセプストラル係数を有するスピーチパラメータ抽出手段と、 前記スピーチ信号の広帯域幅成分を減衰するために適応成分加重セプストラル を生成する前記第1のセプストラルパラメータへ適応加重を適用するスピーチパ ラメータ強調手段と、 前記適応成分加重セプストラルと、複数の話者により発声された複数のスピー チサンプルとの類似性を前もって決定する評価手段とを具備している話者認識用 システム。 (4)前記パラメータ抽出手段において、 LP多項式を決定する手段と、 前記LP多項式の複数のルートを決定する手段と、 z平面の単位円内の予め定められた数の前記ルートを有する前記フレームの1 つを選択する手段とをさらに具備し、前記選択されたフレームは前記第1のセプ ストラル情報の前記予め定められた成分を形成する請求項3記載のシステム。 (5)スピーチセグメントを複数のスピーチフレームへウィンドウ処理し、 それぞれの前記スピーチフレームに対する線形予測多項式から線形予測係数を 決定し、 前記線形予測係数から第1のセプストラル係数を決定し、ここで第1のセプス トラル情報は前記第1のセプストラル係数を構成し、 全ポールフィルタを前記線形予測多項式へ適用し、 前記全ポールフィルタのポールから前記線形予測多項式の複数のルートを決定 し、各前記ルートは剰余成分を含んでおり、 z平面の単位円内の予め定められた数の前記ルートを有する前記フレームの1 つを選択し、それにおいて前記選択されたフレームは前記第1のセプストラル情 報の前記予め定められた成分を形成し、 前記第1のセプストラル情報からの予め定められた成分へ加重を適用して前記 スピーチ信号中の広帯域幅成分を減衰するために適応成分加重セプストラルを生 成し、有限インパルス応答フィルタを決定して前記スピーチ信号のスピーチフォ ルマントを強調し、前記剰余成分を減衰する有限インパルス応答を決定するステ ップにおいて、前記スピーチ信号のスピーチフォルマントを強調して前記剰余成 分を減衰するために有限インパルス応答フィルタを決定し、前記有限インパルス 応答フィルタから適合成分加重係数を決定し、前記適合成分加重係数から第2の セプストラル係数を決定し、前記適応成分加重セプストラルを形成するために前 記第1のセプストラル係数から前記第2のセプストラル係数を減算するステップ を有し、 前記適応成分加重セプストラルと、複数の話者により発声される複数のスピー チパターンとの類似性を前もって計算することにより前記適応成分加重セプスト ラルを認識するステップを含んでいる話者認識方法。 (6)前記有限インパルス応答フィルタは前記第1のスペクトルの前記剰余成分 を正規化する請求項5記載の方法。 (7)前記有限インパルス応答フィルタが次式の適応成分加重スペクトルに対応 し、 ここでbiは前記適応成分加重係数であり、PはLP解析のオーダーである請求 項6記載の方法。 (8)前記適応成分加重セプストラルを分類手段において前記複数のスピーチパ ラメータとして分類するステップをさらに有する請求項7記載の方法。 (9)前記適応成分加重セプストラルを前記分類手段において前記分類された適 応成分加重セプストラルと整合することにより前記適応成分加重セプストラルと 前記スピーチパターンとの前記類似性を決定するステップをさらに有する請求項 8記載の方法。 (10)話者認識システムにおいて、 スピーチ信号をデジタルスピーチの複数のフレームに変換する手段と、 前記デジタルスピーチを第1のセプストラル情報へ変換し、前記LPCフィル タのそれぞれは剰余成分を含む複数のルートを決定するために全ポール線形予測 (LPC)フィルタ手段を具備しているスピーチパラメータ抽出手段と、z平面 の単位円内の予め定められた数の前記ルートを有する前記フレームの1つを選択 する手段であって、前記選択されたフレームは前記第1のセプストラル情報の前 記予め定められた成分を形成するフレーム選択手段と、 前記第1のセプストラル情報へ適応加重を供給して、前記スピーチ信号の広帯 域幅成分を減衰するための適応成分加重セプストラルを生成し、前記スピーチ信 号のスピーチフォルマントを強調して前記剰余成分を減衰するための有限インパ ルス応答フィルタと、前記有限ィンパルス応答フィルタから適応成分加重係数を 計算する手段と、前記適応成分加重係数から第2のセプストラル係数を計算する 手段と、前記適応成分加重セプストラルを形成するために前記第1のセプストラ ル係数から前記第2のセプストラル係数を減算する手段とを具備しているスピー チパラメータ強調手段と、 前記適応成分加重セプストラルと、複数の話者により発声された複数のスピー チサンプルとの類似性を前もって決定する評価手段とを具備している話者認識用 システム。 (11)前記有限インパルス応答フィルタは以下の適応成分加重スペクトルに対 応し、 ここでbiは前記適応成分加重係数であり、PはLP解析のオーダーである請求 項10記載のシステム。 (12)前記複数のスピーチパターンとして前記適応成分加重セプストラルを分 類する手段をさらに具備している請求項11記載のシステム。 (13)前記適応成分加重セプストラルを前記分類手段において前記記憶された 適応成分加重セプストラルと整合することにより前記適応成分加重セプストラル と前記スピーチパターンとの類似性を決定する手段をさらに具備している請求項 12記載のシステム。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,DE, DK,ES,FR,GB,GR,IE,IT,LU,M C,NL,PT,SE),OA(BF,BJ,CF,CG ,CI,CM,GA,GN,ML,MR,NE,SN, TD,TG),AM,AT,AU,BB,BG,BR, BY,CA,CH,CN,CZ,DE,DK,ES,F I,GB,GE,HU,JP,KE,KG,KP,KR ,KZ,LK,LT,LU,LV,MD,MG,MN, MW,MX,NL,NO,NZ,PL,PT,RO,R U,SD,SE,SG,SI,SK,TJ,TT,UA ,UG,UZ,VN (72)発明者 アッサーレー、カーレッド・ティー アメリカ合衆国、ニュージャージー州 08904、ハイランド、ハイランド・アベニ ュー 17

Claims (1)

  1. 【特許請求の範囲】 (1)第1のスペクトル情報へスピーチ音声を解析し、 正規化された第2のスペクトルを発生するため前記第1のスペクトル情報から 予め定められた成分へ加重を供給し、 前記第2のスペクトルと、前もって複数の話者により発声された複数のスピー チパターンの類似性を計算することにより前記第2のスペクトルを認識するステ ップからなる話者認識方法。 (2)前記スピーチ音声は前記スピーチ音声を複数のフレームに分離することに より解析され、それぞれのフレームは予め定められた時間を有し、線形予測解析 を通じてそれぞれの前記スピーチ音声のLPC係数を獲得する請求項1記載の方 法。 (3)第1の加重は第1の予め定められた成分に供給され、第2の加重は第2の 予め定められた成分に供給される請求項2記載の方法。 (4)前記第1の加重は前記第1の成分を増加し、前記第2の加重は前記第2の 成分を減衰する請求項3記載の方法。 (5)前記第1、第2の加重は各前記フレームのために決定される請求項4記載 の方法。 (6)前記第2の成分は大きい帯域幅を有する請求項5記載の方法。 (7)前記LPC係数のルートを決定し、それぞれの前記ルートは剰余成分を含 んでおり、 各前記ルートの前記剰余成分を正規化するステップにより前記第1、第2の加 重が決定される請求項6記載の方法。 (8)前記第2のスペクトルは以下の変換により限定され、 ここでPは解析のオーダーであり、ziは前記スピーチ音声の帯域幅と周波数を 表す複素数のルートである請求項7記載の方法。 (9)スピーチの前記第2のスペクトルの正規化セプストラルを決定するステッ プをさらに有する請求項8記載の方法。 (10)前記セプストラルが次式により限定され、 ここでPは係数の数であり、ziは前記第2のスペクトルの複素数のルートであ る請求項9記載の方法。 (11)前記複数のスピーチパターンとして分類手段中に前記第2のスペクトル を記憶するステップをさらに有する請求項10記載の方法。 (12)前記第2のスペクトルを前記分類手段の前記記憶された第2のスペクト ルと整合することによって前記第2のスペクトルと前記スピーチパターンとの前 記類似性を決定するステップをさらに有する請求項11記載の方法。 (13)スピーチ信号をデジタルスピーチの複数のフレームに変換する手段と、 前記デジタルスピーチを1組の第1のスペクトルパラメータに変換するスピー チパラメータ抽出手段と、 正規化された第2のスペクトルを発生するために適応加重を前記第1のスペク トルパラメータに供給するスピーチパラメータ強調手段と、 前記第2のスペクトルと、前もって前記話者により発声された複数のスピーチ サンプルとの類似性を決定する評価手段とを具備している話者認識用システム。 (14)前記複数のスピーチサンプルが前記第2のスペクトルにより発生される 請求項13記載のシステム。 (15)前記第1のスペクトルが前記スピーチ信号を全ポールのLPCフィルタ を通してフィルタ処理することにより発生される請求項14記載のシステム。 (16)前記スピーチ信号が音声領域および非音声領域成分を含んでおり、前記 スピーチパラメータ強調手段は前記非音声領域成分を減衰し、前記音声領域成分 を増加するための運動平均フィルタ手段を含んでいる請求項15記載のシステム 。 (17)前記複数のスピーチサンプルを量子化するベクトル量子化手段と、 前記量子化されたサンプルをコードブックに記憶する手段をさらに具備してい る請求項16記載のシステム。 (18)前記評価手段が前記第2のスペクトルを前記コードブックに記憶された 前記サンプルに整合することにより前記第2のスペクトルと前記複数のスピーチ サンプルとの類似性を決定するテンプレート整合手段を具備している請求項17 記載のシステム。 れは次式により定められる請求項18記載のシステム。
JP7522534A 1994-02-28 1995-02-28 話者識別および確証システム Ceased JPH10500781A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US08/203,988 US5522012A (en) 1994-02-28 1994-02-28 Speaker identification and verification system
US08/203,988 1994-02-28
PCT/US1995/002801 WO1995023408A1 (en) 1994-02-28 1995-02-28 Speaker identification and verification system

Publications (1)

Publication Number Publication Date
JPH10500781A true JPH10500781A (ja) 1998-01-20

Family

ID=22756137

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7522534A Ceased JPH10500781A (ja) 1994-02-28 1995-02-28 話者識別および確証システム

Country Status (9)

Country Link
US (1) US5522012A (ja)
EP (1) EP0748500B1 (ja)
JP (1) JPH10500781A (ja)
CN (1) CN1142274A (ja)
AT (1) ATE323933T1 (ja)
AU (1) AU683370B2 (ja)
CA (1) CA2184256A1 (ja)
DE (1) DE69534942T2 (ja)
WO (1) WO1995023408A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005119654A1 (ja) * 2004-06-01 2005-12-15 Toshiba Tec Kabushiki Kaisha 話者認識装置、プログラム及び話者認識方法

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5666466A (en) * 1994-12-27 1997-09-09 Rutgers, The State University Of New Jersey Method and apparatus for speaker recognition using selected spectral information
JPH08211897A (ja) * 1995-02-07 1996-08-20 Toyota Motor Corp 音声認識装置
US5839103A (en) * 1995-06-07 1998-11-17 Rutgers, The State University Of New Jersey Speaker verification system using decision fusion logic
JP3397568B2 (ja) * 1996-03-25 2003-04-14 キヤノン株式会社 音声認識方法及び装置
FR2748343B1 (fr) * 1996-05-03 1998-07-24 Univ Paris Curie Procede de reconnaissance vocale d'un locuteur mettant en oeuvre un modele predictif, notamment pour des applications de controle d'acces
US6078664A (en) * 1996-12-20 2000-06-20 Moskowitz; Scott A. Z-transform implementation of digital watermarks
US6038528A (en) * 1996-07-17 2000-03-14 T-Netix, Inc. Robust speech processing with affine transform replicated data
SE515447C2 (sv) * 1996-07-25 2001-08-06 Telia Ab Metod och anordning för talverifiering
US5946654A (en) * 1997-02-21 1999-08-31 Dragon Systems, Inc. Speaker identification using unsupervised speech models
SE511418C2 (sv) * 1997-03-13 1999-09-27 Telia Ab Metod för talarverifiering/identifiering via modellering av typiska icke-typiska egenskaper.
US5995924A (en) * 1997-05-05 1999-11-30 U.S. West, Inc. Computer-based method and apparatus for classifying statement types based on intonation analysis
US6182037B1 (en) * 1997-05-06 2001-01-30 International Business Machines Corporation Speaker recognition over large population with fast and detailed matches
US5940791A (en) * 1997-05-09 1999-08-17 Washington University Method and apparatus for speech analysis and synthesis using lattice ladder notch filters
US6076055A (en) * 1997-05-27 2000-06-13 Ameritech Speaker verification method
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
US6192353B1 (en) 1998-02-09 2001-02-20 Motorola, Inc. Multiresolutional classifier with training system and method
US6243695B1 (en) * 1998-03-18 2001-06-05 Motorola, Inc. Access control system and method therefor
US6317710B1 (en) 1998-08-13 2001-11-13 At&T Corp. Multimedia search apparatus and method for searching multimedia content using speaker detection by audio data
US6400310B1 (en) * 1998-10-22 2002-06-04 Washington University Method and apparatus for a tunable high-resolution spectral estimator
US6684186B2 (en) * 1999-01-26 2004-01-27 International Business Machines Corporation Speaker recognition using a hierarchical speaker model tree
WO2000054257A1 (en) * 1999-03-11 2000-09-14 British Telecommunications Public Limited Company Speaker recognition
US20030115047A1 (en) * 1999-06-04 2003-06-19 Telefonaktiebolaget Lm Ericsson (Publ) Method and system for voice recognition in mobile communication systems
US6401063B1 (en) * 1999-11-09 2002-06-04 Nortel Networks Limited Method and apparatus for use in speaker verification
US6901362B1 (en) * 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
KR100366057B1 (ko) * 2000-06-26 2002-12-27 한국과학기술원 인간 청각 모델을 이용한 효율적인 음성인식 장치
US6754373B1 (en) * 2000-07-14 2004-06-22 International Business Machines Corporation System and method for microphone activation using visual speech cues
US20040190688A1 (en) * 2003-03-31 2004-09-30 Timmins Timothy A. Communications methods and systems using voiceprints
JP2002306492A (ja) * 2001-04-16 2002-10-22 Electronic Navigation Research Institute カオス論的ヒューマンファクタ評価装置
ATE335195T1 (de) * 2001-05-10 2006-08-15 Koninkl Philips Electronics Nv Hintergrundlernen von sprecherstimmen
AU2001270365A1 (en) * 2001-06-11 2002-12-23 Ivl Technologies Ltd. Pitch candidate selection method for multi-channel pitch detectors
US6898568B2 (en) * 2001-07-13 2005-05-24 Innomedia Pte Ltd Speaker verification utilizing compressed audio formants
US20030149881A1 (en) * 2002-01-31 2003-08-07 Digital Security Inc. Apparatus and method for securing information transmitted on computer networks
KR100488121B1 (ko) * 2002-03-18 2005-05-06 정희석 화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법
CN1811911B (zh) * 2005-01-28 2010-06-23 北京捷通华声语音技术有限公司 自适应的语音变换处理方法
US7788101B2 (en) * 2005-10-31 2010-08-31 Hitachi, Ltd. Adaptation method for inter-person biometrics variability
US7603275B2 (en) * 2005-10-31 2009-10-13 Hitachi, Ltd. System, method and computer program product for verifying an identity using voiced to unvoiced classifiers
CN101051464A (zh) * 2006-04-06 2007-10-10 株式会社东芝 说话人认证的注册和验证方法及装置
DE102007011831A1 (de) * 2007-03-12 2008-09-18 Voice.Trust Ag Digitales Verfahren und Anordnung zur Authentifizierung einer Person
CN101303854B (zh) * 2007-05-10 2011-11-16 摩托罗拉移动公司 用于提供识别的语音输出的方法
US8849432B2 (en) * 2007-05-31 2014-09-30 Adobe Systems Incorporated Acoustic pattern identification using spectral characteristics to synchronize audio and/or video
CN101339765B (zh) * 2007-07-04 2011-04-13 黎自奋 一种国语单音辨认方法
CN101281746A (zh) * 2008-03-17 2008-10-08 黎自奋 一个百分之百辨认率的国语单音与句子辨认方法
DE102009051508B4 (de) * 2009-10-30 2020-12-03 Continental Automotive Gmbh Vorrichtung, System und Verfahren zur Sprachdialogaktivierung und -führung
EP3373176B1 (en) * 2014-01-17 2020-01-01 Cirrus Logic International Semiconductor Limited Tamper-resistant element for use in speaker recognition
GB2552723A (en) 2016-08-03 2018-02-07 Cirrus Logic Int Semiconductor Ltd Speaker recognition
GB2552722A (en) * 2016-08-03 2018-02-07 Cirrus Logic Int Semiconductor Ltd Speaker recognition
JP6791258B2 (ja) * 2016-11-07 2020-11-25 ヤマハ株式会社 音声合成方法、音声合成装置およびプログラム
JP6845489B2 (ja) * 2017-03-07 2021-03-17 日本電気株式会社 音声処理装置、音声処理方法、および音声処理プログラム
GB201801875D0 (en) * 2017-11-14 2018-03-21 Cirrus Logic Int Semiconductor Ltd Audio processing

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4058676A (en) * 1975-07-07 1977-11-15 International Communication Sciences Speech analysis and synthesis system
JPS58129682A (ja) * 1982-01-29 1983-08-02 Toshiba Corp 個人照合装置
US5131043A (en) * 1983-09-05 1992-07-14 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for speech recognition wherein decisions are made based on phonemes
US4991216A (en) * 1983-09-22 1991-02-05 Matsushita Electric Industrial Co., Ltd. Method for speech recognition
IT1160148B (it) * 1983-12-19 1987-03-04 Cselt Centro Studi Lab Telecom Dispositivo per la verifica del parlatore
CA1229681A (en) * 1984-03-06 1987-11-24 Kazunori Ozawa Method and apparatus for speech-band signal coding
US5146539A (en) * 1984-11-30 1992-09-08 Texas Instruments Incorporated Method for utilizing formant frequencies in speech recognition
US4773093A (en) * 1984-12-31 1988-09-20 Itt Defense Communications Text-independent speaker recognition system and method based on acoustic segment matching
US4922539A (en) * 1985-06-10 1990-05-01 Texas Instruments Incorporated Method of encoding speech signals involving the extraction of speech formant candidates in real time
JPH0760318B2 (ja) * 1986-09-29 1995-06-28 株式会社東芝 連続音声認識方式
US4837830A (en) * 1987-01-16 1989-06-06 Itt Defense Communications, A Division Of Itt Corporation Multiple parameter speaker recognition system and methods
US4926488A (en) * 1987-07-09 1990-05-15 International Business Machines Corporation Normalization of speech by adaptive labelling
US5001761A (en) * 1988-02-09 1991-03-19 Nec Corporation Device for normalizing a speech spectrum
CA1328509C (en) * 1988-03-28 1994-04-12 Tetsu Taguchi Linear predictive speech analysis-synthesis apparatus
CN1013525B (zh) * 1988-11-16 1991-08-14 中国科学院声学研究所 认人与不认人实时语音识别的方法和装置
US5293448A (en) * 1989-10-02 1994-03-08 Nippon Telegraph And Telephone Corporation Speech analysis-synthesis method and apparatus therefor
US5007094A (en) * 1989-04-07 1991-04-09 Gte Products Corporation Multipulse excited pole-zero filtering approach for noise reduction
JPH02309820A (ja) * 1989-05-25 1990-12-25 Sony Corp デイジタル信号処理装置
US4975956A (en) * 1989-07-26 1990-12-04 Itt Corporation Low-bit-rate speech coder using LPC data reduction processing
US5167004A (en) * 1991-02-28 1992-11-24 Texas Instruments Incorporated Temporal decorrelation method for robust speaker verification
US5165008A (en) * 1991-09-18 1992-11-17 U S West Advanced Technologies, Inc. Speech synthesis using perceptual linear prediction parameters
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005119654A1 (ja) * 2004-06-01 2005-12-15 Toshiba Tec Kabushiki Kaisha 話者認識装置、プログラム及び話者認識方法

Also Published As

Publication number Publication date
EP0748500A1 (en) 1996-12-18
DE69534942T2 (de) 2006-12-07
CA2184256A1 (en) 1995-08-31
EP0748500A4 (en) 1998-09-23
ATE323933T1 (de) 2006-05-15
MX9603686A (es) 1997-12-31
CN1142274A (zh) 1997-02-05
US5522012A (en) 1996-05-28
WO1995023408A1 (en) 1995-08-31
EP0748500B1 (en) 2006-04-19
DE69534942D1 (de) 2006-05-24
AU683370B2 (en) 1997-11-06
AU2116495A (en) 1995-09-11

Similar Documents

Publication Publication Date Title
JPH10500781A (ja) 話者識別および確証システム
EP1252621B1 (en) System and method for modifying speech signals
Mammone et al. Robust speaker recognition: A feature-based approach
Li et al. An auditory-based feature extraction algorithm for robust speaker identification under mismatched conditions
JP5230103B2 (ja) 自動音声認識器のためのトレーニングデータを生成する方法およびシステム
Murthy et al. Robust text-independent speaker identification over telephone channels
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
EP1739657B1 (en) Speech signal enhancement
EP0970466B1 (en) Voice conversion
Mowlaee et al. Phase importance in speech processing applications
US5666466A (en) Method and apparatus for speaker recognition using selected spectral information
Pulakka et al. Speech bandwidth extension using gaussian mixture model-based estimation of the highband mel spectrum
US5806022A (en) Method and system for performing speech recognition
Malayath et al. Data-driven temporal filters and alternatives to GMM in speaker verification
De Lara A method of automatic speaker recognition using cepstral features and vectorial quantization
Makhijani et al. Speech enhancement using pitch detection approach for noisy environment
Deshpande et al. Speaker identification based on robust AM-FM features
Rosell An introduction to front-end processing and acoustic features for automatic speech recognition
Krishnamoorthy et al. Application of combined temporal and spectral processing methods for speaker recognition under noisy, reverberant or multi-speaker environments
Guntur Feature extraction algorithms for speaker recognition system and fuzzy logic
Tan et al. Speech feature extraction and reconstruction
da Silva et al. On the effect of the language in CMS channel normalization
Angal et al. Comparison of Speech Recognition of Isolated Words Using Linear Predictive Coding (Lpc), Linear Predictive Cepstral Coefficient (Lpcc) & Perceptual Linear Prediction (Plp) and the Effect of Variation of Model Order on Speech Recognition Rate
Qarachorloo et al. New Proposed Feature Extraction Method to Enhance Speaker Recognition Rate with GMM
Choudhary et al. INTERNATIONAL JOURNAL OF ENGINEERING SCIENCES & RESEARCH TECHNOLOGY MEL FREQUENCY CEPSTRAL COEFFICIENTS (MFCC) BASED SPEAKER IDENTIFICATION IN NOISY ENVIRONMENT USING LBG VECTOR QUANTIZATION

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050308

A313 Final decision of rejection without a dissenting response from the applicant

Free format text: JAPANESE INTERMEDIATE CODE: A313

Effective date: 20050725

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20051011