JPH08508107A - 話者認識のための方法および装置 - Google Patents

話者認識のための方法および装置

Info

Publication number
JPH08508107A
JPH08508107A JP6520840A JP52084094A JPH08508107A JP H08508107 A JPH08508107 A JP H08508107A JP 6520840 A JP6520840 A JP 6520840A JP 52084094 A JP52084094 A JP 52084094A JP H08508107 A JPH08508107 A JP H08508107A
Authority
JP
Japan
Prior art keywords
long
recognition
term
speaker
coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP6520840A
Other languages
English (en)
Inventor
パウルウスキ、マーク
タング、ジョゼフ・ゴードン
Original Assignee
ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー filed Critical ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー
Priority claimed from PCT/GB1994/000629 external-priority patent/WO1994022132A1/en
Publication of JPH08508107A publication Critical patent/JPH08508107A/ja
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Complex Calculations (AREA)
  • Toys (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

(57)【要約】 各々が複数の周波数帯域での短期スペクトル量を示す複数の係数からなる一連の係数セットにより構成される複数の特徴データを音声信号に応答して発生する手段(210,220,230)と、前記特徴データを所定の話者参照データ比較し、この比較に依存して対応する話書の認識を示す手段(260)とにより構成され、前記周波数帯域は周波数軸に沿って不均一に間隔が取られ、前記係数の少なくとも1つの長期平均スペクトル量を抽出し、前記長期平均によって前記少なくとも1つを正規化する手段によって特徴づけられる話者認識装置。

Description

【発明の詳細な説明】 話者認識のための方法および装置 本発明は音声処理に関し、特に、話者認識のための処理に関する。認識処理に は、話者の身元の検出または検証を行う話者の認識、および特定の単語(または 場合によっては句または音素、あるいは他の話される要素)を検出する音声認識 がある。音声認識には、いわゆる複数の話者から得られた音声データが認識処理 に使用される話者独立認識、および一人の話者から得られた音声データが認識処 理に使用される話者依存認識がある。一般的には、音声認識においては、処理は 、さまざまな話者により話された単語の影響を削減することを目的とするのに対 し、話者認識ではその反対のことが当てはまる。 認識処理においては、代表的にはデジタル形態で音声データをいわゆるフロン トエンドプロセッサに入力することが共通している。フロントエンドプロセッサ は入力音声データ系列から最もコンパクトで、最も知覚的に重要であり、フロン トエンド特徴セットまたはベクトルと参照されるデータセットを取り出す。例え ば、音声は、通常、マイクを通して入力され、サンプリングされ、デジタル化さ れ、10−20msの長さのフレームにセグメント化され(例えば8KHzでサ ンプリングされる)、フレーム毎に1セットのK係数(通常は、i−25)が計 算される。1単語あたりN個のフレーム、例えば25−100個が存在するので 、1個の特徴ベクトルにはNXK(約1,000)の係数が存在する。話者認識 においては、一般的には、認識対象の話者は、認識装置および話者に既知の、所 定の単語(例えば、バンキングの個人識別番号)を話していると想定される。テ ンプレートとして知られる単語の記憶された表記は、本人であることが分かって いる話者から以前に得られたその単語の参照特徴マトリックスを構成する。認識 対象の話者から得られる入力特徴マトリックスがこのテンプレートと比較され、 この2つの間の類似性の度合が許諾決定のためしきい値と比較される。 話者の単語を話す速度が変化するという傾向から問題が生じるため、ある指定 された単語に対応する入力音声マトリックスが、その単語のテンプレートに比較 して長い(つまり、構成されるフレームの数が多い)または短い場合がある。し たがって、認識装置が、比較を実施する前に2つのマトリックスの時間調整を行 うことが必要となり、時間調整および比較の1つの有名な方法が、例えば、ラビ ナー(Rabiner)その他による「クラスタ化技法を用いた単語の話者独立 認識」、ASSPのIEEETrans.第24巻、第4号、1979年8月に 記述されるダイナミックタイムワープ(DTW)法である。 認識処理には、さまざまな特徴が使用または提案されている。一般的には、音 声認識に使用される特徴は、話者を検知せずにある単語を別の単語から区別する ことを意図しているのに対し、話者認識のための特徴は1つまたは複数の単語に 関して話者を区別することを意図しているため、一方の種類の認識に適当な特徴 が、他方に不適当である場合がある。話者認識用のいくつかの特徴は、アタル( Atal)による「話者のその声からの自動認識」Proc IEEE、第64 巻、460−475ページ、1976年4月に記述されている。 既知の形態の特徴係数はケプストラム(cepstrum)である。ケプストラ(ceps tra)は、スペクトル分解(例えば、フーリエ変換のようなスペクトル変換)を 実行し、変換係数の対数を取り、逆スペクトル分解を実行することにより形成さ れる。 話者認識においては、LPC(線形予測係数)ケプストラムおよびFFT(高 速フーリエ変換)ケプストラムが既知であり、LPCケプストラムの方がより広 く採用されている。 音声認識において既知の特徴は、メル周波数ケプストラム係数(MFCC)で ある。MFCCを計算するためのアルゴリズム、およびMFCC特徴ベクトルと ダイナミックタイムワーブを使用したワード・テンプレートとの間の距離基準の 計算については、本明細書に(その参照も含めて)その全体が取り入れられる、 コレット(Chollet)およびギャクノウレ(Gagnoulet)による「参照システムを 使用する音声認識およびデータベースの評価について、」1982年IEEE音 響、音声および信号処理国際会議、2026−2029ページに記述されている 。 一般的には、MFCC特徴ベクトルは、音声信号の各フレームでスペクトル変 換(例えば、FFT)を実行し、信号スペクトルを得て、スペクトルの限界点を 、不均等な、いわゆる「メル周波数」スケールで周波数軸に沿って分散される一 連の広帯域に積分し、各帯域の振幅の対数を取ってから、さらに変換(例えば、 距 離コサイン変換(DCT))を実行し、そのフレームのMFCC係数セットを作 り出すことにより得られる。有効情報は、一般的にはより低位の係数に制限され ることが分かっている。メル周波数スケールは、例えば、0−1Khzの間の線 形周波数スケールで均等に間隔を取り、1KHzを超える対数周波数スケールで 均等に間隔を取る周波数帯域を使用できる。 MFCCは、話者間で異なるために音声認識には有効であるが、話者認識には 望ましくないピッチ情報を排除する。したがって、MFCCは、話者認識には望 ましくない。 S.フルイ(S.Furui)による「統計的な特徴および動的特徴による話 者認識」、電気通信実験室レビュー(Review of Electrica l Communications Laboratories)、第30巻、 第3号、467−482ページ、1982年は、4種類の話者認識法を記述、比 較している。スペクトル包絡線は、これらの内の2つの方法で、ログ・エリア定 量(log area rations)により表され、他の2つの方法では、LPC−ケプスト ラム係数により表されている。LPC−ケプストラム係数を使用した場合には、 係数は、数個の単語(例えば、最高7個)である可能性がある発話全体の期間で 平均化され、その平均値が、各フレームのケプストラム係数から差し引かれ、伝 送システムにより生じる周波数−応答歪みを補正する。その後で、正規化された ケプストラム係数の時間関数が、10msごとに90msの間隔で直交多項式表 示(orthogonal polynomial representation)により拡張される。多項式処理に より、各セグメントの各ケプスト・ラム係数の平均値、勾配および曲率に対応す る多項式表示が生じる。ケプストラム係数の元の時間関数が、第一次および第二 次多項式係数とともに、第零次多項式係数の代わりに使用されるため、各発話は 、30次元ベクトルの時間回数により表記される。これらの30個の要素から、 (拡張トレーニング/登録段階の間に決定される)顧客および詐欺サンプル発話 の全体的な距離分布を拡張するために、18個の要素のセットが選択される。代 替処理装置では、LPC分析の後に、とりわけフーリエ・コサイン拡大係数の作 成を含む統計特徴抽出プロセスが続く。この代替処理を使用すると、最終的な特 徴のセットは、60個の選択された要素で構成される。LPCケプストラム係数 および基 本周波数の時間関数から抽出されるフーリエ係数を含む統計特徴を使用したこの 後者の処理装置(「方法2」)は、使用された特定のトレーニングおよび詐欺用 のデータで99.9の認識精度を出したと報告された。フルイは、結果は「LP Cケプストラム係数が、ログ・エリア定量よりはるかに効率的であることを示し ている」と結論づけている。フルイは、それ以外のケプストラムの使用について は教示していないし、入力音声を複数の所定周波数帯域にフィルタもしていない 。さらに、フルイは、特に関連する認識装置の母集団が非常に大きい場合に、非 常に大きな特徴セット(例えば、最高60個の要素)を利用した場合 - 明らか に回避することが望ましいこと - の値を教示している。 「長距離電話回線での話者確認」ICASSP89、第1巻、1989年5月 23日において、J.M.ナイク(J.M.Naik)その他は、テンプレート をベースにしたダイナミックタイムワープ(template-based Dynamic Time Warp ing)または隠されたマルコフ型モデル(Hidden Makkov Modelling)のどちらか を用いて、話者確認技法を比較する。ここでも、LPC分析が実行され、特徴の 抽出元となった前処理済み情報を提供した。最初に、32個のパラメータが、以 下に示すLPCデータの各フレームから計算された。 *dB単位の音声レベル推定値 *dB単位のRMSフレーム・エネルギー *スペクトル変化率のスカラー基準 *dB単位の14フィルターバンク振幅(filter-bank magnitudes) - メル間隔のシミュレーション済みフィルタ・バンク - フレーム・エネルギーにより正規化済み *40msを超えるフレーム・エネルギーの時間差異 *40msの間の14フィルタ・バンク振幅の時間差異 1つのテンプレートとして使用するための18個の特徴のセットを作り出すた めに、参照テンプレートとテスト・テンプレートの比較に使用される音声特徴が 、これらの32個のパラメータの線形変換により得られた。メル間隔が取られた フィルタ・バンクの使用には説明や理山は示されておらず、LPC以外の形式の ケプストラムの使用も絶対的に示唆されていない。 本発明は、改善されたフロントエンド特徴を用いて、話者認識のための方法お よび装置を提供することを目的とする。 したがって、本発明は、その内の少なくとも1つが任意の時間間隔でその平均 レベルにより正規化される複数のスペクトル振幅係数を構成する認識特徴を得る ために、音声信号を処理する話者認識のための方法および装置を提供する。 正規化は、音声信号が通過する電気通信回線による音声信号の長期フィルタ化 の効果を削減する役割を果たす。 例えば、係数は、メル周波数スケール上で分散できる。この場合には、係数を メル周波数ケプストラム係数とすることができる。正規化は、各係数値の長期算 術平均値を形成し、これを各係数値から差し引くことにより簡便に実行される。 係数は対数であるため、減算は、各メル周波数帯域内のソース信号の幾何平均に よる除算に相当する。 メル周波数ケプストラム係数が、このようにして正規化された場合、比較的少 ない係数だけを使用して、信頼性ある特徴セットとなり、さらに、話者と認識装 置間の伝送チャネルが大幅に削減されるため、その使用が特に電気通信の応用例 に適していることが分かっている。 本発明のそれ以外の点および実施例には、これ以降明かになる優位点があり、 本明細書に開示され、請求される通りである。 本発明は、以下の記述および図を参照し、例によってのみ記述される。 図1は、電気通信環境での本発明に従った認識プロセッサの利用の概要図であ る。 図2は、本発明の実施例に従った認識プロセッサの機能要素を図式により示す ブロック図である。 図3は、図2の部分を形成するMFCC生成プログラムの動作を図式で示すフ ロー図である。 図4は、図3のプロセスの部分を図解する周波数領域内の説明図である。 図5は、図2の部分を形成する終了点検出器の動作を詳細に示すフロー図であ る。 図6は、図5のプロセスを図解するための時間に比較した振幅の説明図である 。 図7は、実施例の図2の部分を形成する正規化プロセッサの動作を図式で示す フロー図である。 図8aは、話者確認の実施例での図2の部分を形成する比較プロセッサの動作 を図解するフロー図である。 図8bは、話者識別の実施例での図2の部分を形成する比較プロセッサの動作 を図解するフロー図である。 図9は、図7の実施例の代わりの実施例で図2の部分を形成する正規化プロセ ッサの動作を示すフロー図である。 図10aは、2つの異なった電気通信回線の時間に比較したMFCC係数値の 図解プロットである。 図10bは、図7の実施例に従って正規化された係数の対応するプロットであ る。 最適実施例 図1を参照すると、話者認識を含む電気通信システムは、通常は電話受話器の パーツとなる1本のマイク1、電気通信網(通常はアナログ式公衆交換電話網) 2、ネットワーク2からの音声信号を受信するために接続される認識プロセッサ 3、および認識プロセッサ3に接続され、そこから、特定の話者の認識またはそ の反対を示す音声認識信号を受け、それに応答する処置を行うため配置された活 用装置4により構成される。例えば、活用装置4を、銀行業務のトランザクショ ンを実行するための遠隔操作式銀行業務用端末とすることができる。 多くの場合、活用装置4は、話者に対して、ネットワーク2を介して、通常は 加入者受話器の一部となるスピーカ5に伝送される可聴応答を生成する。 動作時には、話者は、マイク1に向かって話し、アナログ音声信号がマイク1 からネットワーク2の中に、認識プロセッサ3まで伝送され、そこで音声信号は 解析され、特定の話者の識別またはそうでないことを示す信号が生成され、活用 装置4に伝送され、活用装置はそれから話者を認識した場合に適切な処置を行う 。 通常、認識プロセッサは、音声信号を確認するために比較する話者の身元に関 するデータを得る必要があり、このデータを得るためには、認識プロセッサが活 用装置4に接続されていないが、その話者の認識データを形成するためにマイク 1から音声信号を受信する動作の第2モードにある認識プロセッサにより実行で きる。ただし、話者認識データ獲得のそれ以外の方法も考えられる。例えば、話 者認識データは、話者によって携帯され、カードリーダに挿入可能なカードに保 持されてもよい。音声信号を伝送する前に、カードからデータが読み出され、P STNを介して認識プロセッサに伝送される。 通常、認識プロセッサ3は、マイク1からネットワーク2まで、またはネット ワーク2を通って、信号が取る経路を知らない。例えば、マイク1が、移動アナ ログ式無線リンクまたは移動デジタル式無線リンクを通してネットワーク2に接 続されたり、別の国または広範囲に渡る種類および品質の受話器から発生するこ とがある。同様にして、ネットワーク2の中で、無線リンク、アナログ経路およ びデジタル経路などを含む、非常に多様な伝送経路の内の1つが取られることも ある。したがって、認識プロセッサ3に到達する音声信号Yは、マイク1で受信 される音声信号Sに対応し、マイク1、ネットワーク2へのリンク、ネットワー ク2を通るチャネル、および認識プロセッサ3へのリンクの転送特性で巻き込ま れる。これら転送特性は単一の転送特性Hにより統括され、指定されてもよい。 認識プロセッサ3 図2には、実施例に従った認識装置の機能要素を図示する。高エンファシス・ フィルタ210が、8ビットの数のシーケンスとして、例えば8KHzのサンプ リング速度で、デジタル化された音声波形を受信し、(1−0.95z・1フィ ルタを実行するなどして)高エンファシス・フィルタ化プロセスを実行し、さら に高い周波数の振幅を増加させる。音声フレーム生成プログラム220は、フィ ルタ化された信号を受信し、連続するサンプルのフレームのシーケンスを形成す る。例えば、フレームは、それぞれ256個の隣接するサンプルを構成し、16 msごとに1という割合で長さ32msのフレームを与えるために、各フレーム は後続フレームと先行フレームに50%重なる。例えば、16msの差動遅延の あるフレーム・バッファ221、222のペアが、平行に広げられ、1つ置きに 読み出される。 各フレームの始まりと終わりでの不連続点が原因のスプリアス周波数のアーチ ファクトを排除するために、各フレームが、(周知のように)各ウィンドウのエ ッジに向かってサンプルを縮小するハミング・ウィンドウ・プロセッサ223を 通して渡される。 それから、256個のウィンドウ化されたサンプルの各フレームが、MFCC 生成プログラム230により処理され、MFCC係数のセット(例えば、8個の 係数)を抽出する。同時に、ウィンドウ化されたフレームのそれぞれは、音声発 話の始まりと終わりを検出し、音声/非音声制御信号を、係数記憶装置251お よび正規化プロセッサ252でなる正規化器250に供給するエンドポインタ2 40に供給される。エンドポインタ240からの「音声開始」信号を受信してか ら、正規化器250は、「音声信号の終わり」がエンドポインタ240から受信 されるまで、正規化器係数記憶装置251内に各連続フレームの8個の係数のい くつかまたはすべてを記憶する。この時点で、正規化プロセッサ252は、記憶 装置251内の音声フレーム毎の記憶係数から、8個の係数の各々につき算術平 均係数値を計算する。それから、各係数の算術平均係数値がフレーム毎の対応記 憶係数値から差し引かれ、8×N個の係数を構成する正規化マトリックスを実現 する(この場合、Nは、話された発話の開始点と終了点の間のフレーム数である )。 この正規化係数マトリックスが、話者テンプレート270から指定された話者 に結び付いた、対応するマトリックスを読み取り、2つの比較を行い、正規化音 声ベクトルと話者テンプレートの間の類似度に応じて、話者テンプレート記憶装 置270から認識/非認識出力信号を生成する比較プロセッサ260に供給され る。 高エンファシス・フィルタ210、ウィンドウ・プロセッサ223、MFCC 生成プログラム230、エンドポインタ240、正規化プロセッサ252、およ び比較プロセッサ260は、1以上のデジタル信号プロセッサ(DSP)装置ま たは/およびマイクロプロセッサにより構成されてもよい。マイクロプロセッサ は適当にプログラムされ、そこに接続される読書き記憶装置内に設けられるフレ ーム・バッファ221、222、係数記憶装置251、および話者テンプレート 記憶装置270を備えている。 MFCC生成 図3を参照すると、MFCC生成プログラム230により実行されるプロセス は、ステップ401で256個の変換係数を実現するために、各フレームでフー リエ変換を実行し、ステップ402で128個の係数べきスペクトルを実現する ために、各周波数での実数構成要素と虚数構成要素の平方を合計することにより 、フーリエ係数から音声信号のパワースペクトルを形成し、図4を参照して以下 に述するようにステップ403でパワースペクトルを19個の周波数帯域につい て積分し、ステップ404で19個の係数の各々の(例えば、基数10に対する )対数を求め、ステップ405で19個の対数値で離散コサイン変換を行ない、 ステップ406で下位8個の係数を選択することから成る。 離散コサイン変換は周知であり、例えば、前記に参照したコレットおよびギャ グノウレの論文に記述されている。簡略すると、N番目のMmのコサイン構成要 素は、以下により指定される。 この場合、Nは離散周波数帯域数(この場合には、20で、周波数領域回転が2 0番目の点を得るために適用されている)であり、A(n)はm番目の周波数帯 域の振幅である。DCTの効果は、係数A(n)をかなりの程度まで相関としな い。 図4を参照すると、図4aは、概念上、ステップ402で作成されたパワース ペクトルの一部を示す。図4bは、周波数軸に沿ったメル周波数の三角形の積分 ウィンドウの対応する部分を示す。三角形のウィンドウは、そのそれぞれが0− 1KHzの間で隣のウィンドウと50%重なる、周波数軸に沿って線状に間隔が 取られた10個のウィンドウ、および三角形で1KHz以上の対数周波数スケー ル上で50%重なるさらに10個のウィンドウを有する。 図4cは、三角形のウィンドウの1つの対応する期間で、パワースペクトル内 の各サンプルを点単位で乗算する効果を図示している。明確化のために、偶数の ウィンドウだけが図示されている。 次に、図4cのウィンドウ化された値は各ウィンドウを横切って積分され、図 4dに示されるように、そのウィンドウに対応する1個の合計係数を実現する。 このようにして作り出された19個の係数(ゼロ周波数係数M0は無視されて いる)は、パワーに対応しており、このパワーは対応するセットの帯域通過フィ ルタの各々の出力で発生され、1KHz以下のフィルタは、均等に広い等しい帯 域幅を有し、1KHz以上のフィルタは対数周波数スケールで等しく均等に広が る帯域幅を有する。 エンドポイント処理 ここでは、図5と6を参照し、図2のエンドポインタ240の動作を、さらに 詳細に説明する。 エンドポインタ240は、最初に、各フレーム内の信号値を2乗し、加算し、 フレームのパワー、即ちエネルギの測定値Pを求める。 Pの値は、ときおりノイズ信号により妨害されるかもしれない比較的低いレベ ルに設定されている第1しきい値PLに対してテストされる。フレームがこの低 しきい値PLを上回るパワーレベルを持つまで処理は行なわれない。低しきい値 PLを超えるフレームでは、そのフレームに割り当てられる数を示すフラグが記 憶される(図5の変数”START”として示される)。 フレーム内のパワーP値が、音声の存在に対応し、適当なノイズ・レベルを超 えたレベルにある高しきい値PHを超えると、音声が存在すると見なされる。音 声の開始点として解釈される点とは、信号が低しきい値PLを超えたその点(” START”)の前にある所定数(”LEAD”)のフレームから成るフレーム である。このようにして、音声は、信号レベルが高しきい値を超えるときにのみ 存在すると確認されるが、発話の開始は失われない。したがって、このようにし て開始点として計算されるフレーム数は、正規化器250を制御するためにエン ドポインタ240により出力される。 音声信号のレベルが所定時間Tmaxより長い間2つのしきい値の間にとどまる と、値”START”がクリアされる。 フレーム・エネルギーが高しきい値PHから、低しきい値PL以下に低下すると 、 エンドポインタ240は、「オーバハング」時間Tohと呼ぶ所定のフレーム数の 間待機する。レベルが、オーバハング時間内に再び低しきい値PLを超えると、 音声は依然として存在すると見なされる。一旦、信号のパワーレベルが、Tohフ レーム以上に対して、低しきい値PL以下に低下してしまうと、発話は終了した と見なされ、エンドポインタは、フレームTohの数(つまり、信号がしきい値PL で最後だった点)以下の原フレーム数と“LAG”と称する所定数のフレームと の加算値に対応する終点フレーム番号を出力する。 正規化 図7を参照して、ここで正規化器250により実行される正規化プロセスを詳 細に説明する。 フレーム当たり8個のMFCC係数から成るフレームは、係数バッファ251 に連続して記憶される。エンドポインタ240は、発話の終端を検出してから、 正規化器250に開始フレーム番号と終了フレーム番号の信号を送る。その後で 、正規化プロセッサ252が、8個の係数の各々毎に、開始フレームと終了フレ ームの間のすべてのフレームに対して記憶装置からその係数の値を再呼び出しし 、係数値を加算し、開始フレームと終了フレームの間のフレーム数をNで除算す ることにより、算術平均を求める。これにより、8個の平均値Mi(i=1から 8)のセットが得られる。 次に、各フレームの係数ごとに、正規化プロセッサ252が、各係数値Mikか ら対応する平均値Miを減算することにより、正規化係数値Gi.k(この場合、K はフレーム数である)が計算される。 それから、正規化ベクトルGikを構成する8×N個の係数のセットが、正規化 プロセッサ252により出力される。 比較処理 比較プロセッサ260の動作は従来の動作であるため、その詳細な説明は不必 要である。図8aは、話者確認での比較プロセッサの動作を図により示している 。本質的には、比較プロセッサは、正規化MFCCを構成する特徴ベクトルGを 読み取り、係数の対応する参照ベクトルを読み取り、周知のダイナミックタイム ワープ・アルゴリズムなどを使って2つのベクトル間の比較を実行し、2つのベ ク トルを(前記コレットおよびギャグノウレの論文で指定されるアルゴリズムなど を使用して)時間調整し、2つのベクトル間の差異を示すスカラー距離基準を作 成し、しきい値に対して距離基準Dをテストする。距離Dがしきい値を下回る場 合には、話者は、記憶されているテンプレートに対応するとして受け入れられる 。下回らない場合には、話者は拒絶される。図8bは、話者識別における比較プ ロセッサ260の対応する動作を示す。この場合、複数の異なったベクトルTが 連続してテンプレート記憶装置270から読み取られ、音声ベクトルGが、代わ りにそれぞれと比較され、対応するメートル法距離Diを求める。そうすると、 話者は、音声ベクトルが(つまり、最少メートルDiとする)下位値とは異なる テンプレートに対応すると識別される。 代替実施例 前述の実施例では、図7に関連して説明したように、正規化器250は、N( 開始点と終了点の間のフレーム数)、係数値MTOTの合計、従って各係数の平均 値、およびひいては各係数の正規化された値を計算する前に、発話の開始点と終 了点の両方を知っている必要がある。従って、正規化器250は、エンドポイン タ240により終了点が検出されるまで待たなければならず、それ以降の認識処 理は、発話の最後まで遅延される。多くのアプリケーションにおいて、および高 速ハードウェアを使用する場合、この遅延により困難は生じない可能性がある。 しかしながら、それ以外のアプリケーションでは、発話の終了前に正規化を開始 するのが望ましい。 従って、第1の代替実施例においては、各係数の算術平均値を減算することに より係数の正規化を行う代わりに、係数は、定期的に(例えば、フレーム単位で )更新される移動平均を減算することにより、正規化される。 従って、図9を参照すると、この実施例では、エンドポインタ240が発話の 開始を合図してから、正規化プロセッサ252が、係数毎に、その係数Miの現 平均値を読み出し、これをMFCC係数の値Miから減算し、正規化された係数 Giを求め、フレーム・カウンタNを増加し、係数値Miを現在の合計値MTOTに 加算し、その合計をフレーム・カウンタNで除算し、その結果は係数平均値Mi の新しい値として記憶される。従って、フレームごとの正規化された係数値Gは 、ただ ちに解除し得る。 この種の移動平均は、初期に「平均」値がサンプルの代表数から求められない ため、実施例をわずかに下回る程度に実行するだろうと予測されている。ただし 、正規化されていない係数と比較した場合に、それでも性能の改善がある程度期 待されている。当然、(過去のサンプルの移動ウィンドウを使用するか、あらゆ るフレームほど頻繁ではなく更新して)移動平均値を計算する他の方法は、等し く可能である。この種の実施例では、係数記憶装置251は、使用しなくても済 む。 前述の実施例においては、単独の連続発話(つまり、1個の単語)でのエンド ポイント処理および正規化について説明した。複数の別個の単語に基づいた話者 識別を実行する必要がある場合には、前記実施例で記述されたプロセスが孤立し た連続単語のそれぞれに対して反復される。ただし、話者区別に有効な情報が、 互いに関連した各単語の係数値の相対レベルで発見されることがある。 従って、それ以降の実施例においては、正規化器50により形成される長期平 均値Miが、発話の全単語で形成される。本発明に従う第1の例では、これは、 単語が単独の発話として次々とすぐに続くかのように、各単語の開始点と終了点 の間の全フレームでの平均値を形成し、単語間の非音声フレームを無視すること により達成される。 同じ結果は、前記実施例での場合のように単語ごとに別個の平均を得てから、 すべての単語の重み付け平均を求めることができるように、その引き出し元であ る単語の各フレーム数により重みが加えられた各平均を加算して、その後で全単 語で得た重み付け平均で各単語の各係数を除算することにより、第2の例でも達 成される。 前記の2つの例では、個々の単語のそれぞれに対応する平均に加えられる重み は、話者が、単語を話す速度(話者の単語の話し方のスペクトル特性には関係な く、可変である)に従って変化する単語の長さに応じて変化する。 従って、代替実施例においては、長期平均は、以前のように孤立した各単語の 全体について平均を求めてから、個々の平均から重み付け平均を形成するが、過 去の例でのように単語の実際の期間ではなく、その単語を表すテンプレート記憶 装置内に記憶される対応するテンプレートの長さなどに対応して所定の重みを利 用することにより求められる。このようにして、単語が話される速度に対する依 存が削減される。 ある状況下において、エンドポインタ240を使用しないで済ませ、長期平均 を電話の通話期間全体で求めることは可能であるが、非音声の期間中、受信され た信号レベルが概して低すぎて通信回線のスペクトルの信頼できる表示を行うこ とができず、さらには、存在するノイズ・スペクトルから回線スペクトルを分離 するのが困難であるため、実際には、これは一般的に好まれない。 前記に記述される例では、電気通信交換機に連結するのに適した認識処理装置 を説明した。ただし、別の実施例では、本発明が、電話網に接続される従来の加 入者局に接続される単純な装置で実現される場合がある。この場合、アナログか らデジタルへの変換手段が、入信アナログ電話信号のデジタル化に用意される。 プログラマブルデジタル信号処理(DSP)装置の使用法を参照しているが、 十分な速度で動作している従来の汎用マイクロプロセッサを利用することが可能 であることも等しく認識されるであろう。同様に、カスタム設計された大規模集 積(LSI)論理回路を利用することもできる。 MFCCを参照して本発明を説明してきたが、メル周波数スケールに近似して いるか、メル周波数スケールと異なっている、不均等な周波数スケール上のフィ ルタ・バンクを利用できる。周波数領域における積分に関して、三角形のウィン ドウについて前述したが、ウィンドウの他の形状も等しく利用できることが理解 されるであろう。MFCC値を計算するためのデジタル・プロセッサについて説 明したが、原則的には、図5bに図示される帯域に対応する、複数の帯域通過ア ナログ・フィルタまたは帯域通過デジタル・フィルタを代わりに提供し、各フィ ルタ・バンド内のべきをサンプリングすることは可能である。 本発明がMFCCへの適用で驚くほど優位であることが分かったが、他のフロ ントエンド特徴(ケプストラム特徴であることが望ましい)へのその適応は除外 されていない。 ダイナミックタイムワープ(DTW)プロセスを使った比較プロセスについて 説明してきたが、本発明は、他の種類の比較処理を利用する認識にも等しく適用 できる。例えば、英国電気通信技術ジャーナル(British Teleco m Technology Journal)、第6巻、第2号、1988年4 月2日、S.J.コックス(S.J.Cox)による「自動音声認識用ヒッデン マルコフ型モデル:理論と応用」、105−115ページ、またはニューラル・ ネットワーク(周知の多層認識(MLP)または「自主的組織」型などで、その 両方とも英国電気通信技術ジャーナルの同じ発行物に説明されている)に開示さ れるように、ヒッデンマルコフ型モデル(HMM)を利用する比較処理を利用す ることもできる。 本発明の話者認識への適用について本明細書で説明してきたが、本発明の解釈 が(音声認識のような)他の認識タスクにも適用できることは明かであろう。 テンプレート生成 一般的には、本発明は、識別対象の話者または各話者のために記憶されていた 参照モデル(DTW認識の場合は「テンプレート」)を利用する。参照モデルを 引き出す方法は周知であるため、本発明を理解するには、各テンプレートが、あ る話者による同じ単語の複数の発話を入力し、発話をデジタル化し、係数Giの 正規化されたセットを、発話のそれぞれに関して前述したのと同じように抽出し 、ダイナミックタイムワープ・プロセスなどを使用して発話を調整してから、参 照モデルTを提供する平均化された係数ベクトルを得るために、発話の時間調整 された係数ベクトルを平均化するプロセスにより求めることができることを示す ことで十分である。言い替えると、それ以降の認識で指定された特徴セットと使 用するために参照モデルを形成するプロセスは、一般的には、特徴セット自体を 得るプロセスと同じであり、特徴セットの数は参照モデルを指定するために平均 化される。 本発明の効果 図10を参照すると、図10a(左側の欄)に、8個のMFCCの各々につい て、発話期間中を通しての係数値のグラフを示す。それぞれの場合に、2つのト レースが示されている。これらは、2つの異なった伝送チャネルを経由して伝送 される同じ記録済み発話に対応する。特に、第2の係数と第7の係数において、 回線は、2つの回線間の対応する周波数帯域での転送特性の差異に対応して、2 つのトレース間の実質上一定したオフセットを生じさせる。 ダイナミックタイムワープ・プロセスでは、比較対象の2つのパターンの部分 が時間調整に取り入れられる他のプロセスでの場合と同様に、ダイナミックタイ ムワープ・プロセスが、本来、時間軸に沿って波形の部分を移動し、別の波形と の一致を見つける。本明細書でのように、2つの波形が垂直に変位されている場 合は、この時間軸に沿って移動するというプロセスの結果、不一致が生じ、従っ て誤認識の可能性が増加し、正しい認識の確率が減少する結果となるであろう。 図10bを参照すると、右側の欄に、本発明に従った正規化されたMFCCの 対応するプロットが示されている。特に、第2の係数、第6の係数、および第7 の係数を参照することにより、平均値を削除すると、それぞれの場合に2つのト レースがさらに緊密に調整されることが分かる。このようにして、音声ベクトル が、別の通信回線を経山して得られた可能性があるテンプレートと比較されると 、ダイナミックタイムワープ比較処理では、伝送チャネルの効果のために、話者 を誤識別する可能性が少なくなる。 前記のように、話者から認識プロセッサまでの(一般的には線形の)経路は、 経路の連続ステージのカスケード化転送関数の積で構成する総括的転送特性Hに より表すことができる。このようにして、周波数領域では、認識プロセッサによ り受信される音声信号の各スペクトル成分が、話者の声のスペクトル成分と通信 チャネルまたは通信経路の転送関数の対応するスペクトル成分との積で構成され る。従って、チャネルの転送特性Hが既知であれば、音声信号に対するチャネル の影響は、受信信号スペクトルの各期間を転送特性Hの対応する期間で除算する ことにより除外できる。 ただし、電気通信システムにおいては、複数の多様な代替信号経路のため、チ ャネル転送関数Hを直接モデル化することは不可能である。ただし、チャネル転 送関数が、一般的にはスペクトル的に静止している(つまり、時間が経過しても それほど変化しない)ことが分かる。従って、単一スペクトル成分の時系列を調 べると、転送関数は、その列内の各値に対する1つの一定した乗法数的因子とし て作用する。従って、時系列の各成分の幾何平均は、この一定の因子と原時系列 の幾何平均の積である。このようにして、受信音声信号スペクトルの各時間がそ の長期平均で除算される場合には、チャネルの影響は排除される。 各スペクトル期間の対数を取るときに、長期幾何平均を求め、それによって除 算するよりも、対数化スペクトル期間の長期算術平均を求め、この算術平均を各 スペクトル期間から減算することができる。 MFCC生成のウィンドウ化段および積分段においては、この関係にいくらか の変形があり、故に前述の分析が完全にMFCCの正規化に適用せず、単に本発 明の効果を図解しているに過ぎないと考えられる。 正規化プロセスは、チャネルの影響だけではなく、音声情報および話者情報も 削除する。従って、これは、二人の話者を区別するのに使用できるデータを削除 することにより、認識の精度を削減すると考えられる。実際には、驚くべきこと に、広範囲な実験を行った後に、これが当てはまらないことが分かった。

Claims (1)

  1. 【特許請求の範囲】 1.所定周波数帯域における音声信号量に各々が関連する複数の係数で構成され る認識特徴データを入力音声信号から抽出するステップと、前記特徴データを所 定の話者参照データと比較するステップと、この比較に依存して話者の認識を示 すステップとから成る音声認識方法において、前記周波数帯域が周波数軸に沿っ て不均一に間隔を置かれ、前記係数生成ステップは、長期平均スペクトル量を得 るステップと、前記長期量の影響が実質的に減少される正規化係数を発生するよ うに前記係数の少なくとも1つを処理するステップを有することを特徴とする音 声認識方法。 2.周波数帯域がメル周波数スケールで間隔が取られる請求項1に記載される方 法。 3.周波数帯域が所定限界を下回る周波数で線形的に間隔が取られ、前記限界を 上回る周波数では対数的に間隔が取られる請求項1に記載される方法。 4.前記係数生成ステップは、前記量の対数を発生するステップと、対数長期平 均値を発生するステップと、対数量から対数長期平均を差し引くステップとを含 む請求項1から3のいずれかに記載される方法。 5.前記比較が特徴データを参照データに時間調整するためのである請求項1か ら4のいずれかに記載される方法。 6.比較がダイナミックタイムワープ・プロセスを利用する請求項5に記載され る方法。 7.前記入力音声信号内で音声開始点と音声終了点を認識するステップと、前記 開始点と前記終了点の間の期間で前記長期平均を抽出するステップとを含む請求 項1から6のいずれかに記載される方法。 8.前記長期平均が長期算術平均を構成する請求項1から7のいずれかに記載さ れる方法。 9.前記長期平均が、定期的に更新される移動平均を構成する請求項1から7の いずれかに記載される方法。 10.複数の単語を順次入力し、前記単語のすべてについて前記長期平均を求め ることを含む前述の請求項のいずれかに記載される方法。 11.各セットが複数の周波数帯域で短期スペクトル量を示す複数の係数からな る一連の係数セットで構成される複数の特徴データを 音声信号に応答して発生する手段(210,220,230)と、前記特徴デー タを所定の話者参照データと比較し、前記比較に依存して対応する話者の認識を 示す手段(260)とにより構成される話者認識装置において、前記周波数帯域 は周波数軸に沿って不均一に間隔を置かれており、前記係数の少なくとも1つの 長期平均スペクトル量を抽出し、前記長期平均によって前記少なくとも1つの係 数を正規化する手段(250)を有することを特徴とする話者認識装置。 12.周波数帯域がメル周波数スケールで間隔が取られる請求項11に記載され る装置。 13.周波数帯域が、所定の限界を下回る周波数で線形的に間隔が取られ、前記 限界を上回る周波数で対数的に間隔が取られる請求項11記載の装置。 14.前記係数を発生する手段(230)が、前記量の対数を生成し、対数長期 平均値を生成し、対数係数量から対数長期平均を差し引くよう構成される請求項 11ないし13に記載される装置。 15.前記比較手段(260)が、参照データと特徴データを時間調整するため に設けられる請求項11ないし14のいずれかに記載される装置。 16.前記比較手段(260)がダイナミックタイムワープ・プロセスを利用す る請求項15記載の装置。 17.さらに、前記音声信号内の開始点と終了点を認識するための手段(240 )を具備し、前記正規化手段(250)が前記開始点と前記終了点の間の発話の 期間で前記長期平均を得るために設けられる請求項11ないし16のいずれかに 記載される装置。 18.前記長期平均が長期算術平均を構成する請求項11ないし17のいずれか に記載される装置。 19.前記長期平均が、定期的に更新される移動平均を構成する請求項11ない し17のいずれかに記載される装置。 20.複数の単語を次々に入力するために設けられ、前記正規化手段(250) が前記単語のすべてに対して前記長期平均を求める請求項11ないし19のいず れかに記載される装置。 21.電話網に接続されるように適応される請求項11ないし20のいずれかに 記載される装置。 22.電話ネットワークに接続される請求項21に記載される装置。 23.各々が音声信号の対応する周波数帯域での短期量に関連する複数の信号か らなる認識データを抽出する手段(210,220,230)および前記認識デ ータに依存して認識処理を行う手段(260)とにより構成される音声信号の認 識処理装置において、前記周波数帯域での移動長期平均スペクトル量を周期的に 発生または更新し、静止スペクトル包絡線成分への依存度を減少するために前記 長期平均を用いて情報を処理する手段が設けられることを特徴とする音声信号認 識処理装置。
JP6520840A 1993-03-25 1994-03-25 話者認識のための方法および装置 Ceased JPH08508107A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP93302302.0 1993-03-25
EP93302302 1993-03-25
PCT/GB1994/000629 WO1994022132A1 (en) 1993-03-25 1994-03-25 A method and apparatus for speaker recognition

Publications (1)

Publication Number Publication Date
JPH08508107A true JPH08508107A (ja) 1996-08-27

Family

ID=8214353

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6520840A Ceased JPH08508107A (ja) 1993-03-25 1994-03-25 話者認識のための方法および装置

Country Status (9)

Country Link
US (1) US5583961A (ja)
EP (1) EP0691024B1 (ja)
JP (1) JPH08508107A (ja)
KR (1) KR100312919B1 (ja)
AU (1) AU685788B2 (ja)
CA (1) CA2158847C (ja)
DE (1) DE69420400T2 (ja)
FI (1) FI954527A (ja)
SG (2) SG50487A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022544065A (ja) * 2019-07-30 2022-10-17 ドルビー ラボラトリーズ ライセンシング コーポレイション 信号認識または修正のために音声データから抽出した特徴を正規化するための方法および装置

Families Citing this family (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69421911T2 (de) * 1993-03-25 2000-07-20 British Telecomm Spracherkennung mit pausedetektion
JPH08508583A (ja) * 1993-03-31 1996-09-10 ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 接続スピーチ認識
US6230128B1 (en) 1993-03-31 2001-05-08 British Telecommunications Public Limited Company Path link passing speech recognition with vocabulary node being capable of simultaneously processing plural path links
US5749073A (en) * 1996-03-15 1998-05-05 Interval Research Corporation System for automatically morphing audio information
US5960399A (en) * 1996-12-24 1999-09-28 Gte Internetworking Incorporated Client/server speech processor/recognizer
JP3962445B2 (ja) * 1997-03-13 2007-08-22 キヤノン株式会社 音声処理方法及び装置
US6003000A (en) * 1997-04-29 1999-12-14 Meta-C Corporation Method and system for speech processing with greatly reduced harmonic and intermodulation distortion
US6633842B1 (en) * 1999-10-22 2003-10-14 Texas Instruments Incorporated Speech recognition front-end feature extraction for noisy speech
FR2786308B1 (fr) * 1998-11-20 2001-02-09 Sextant Avionique Procede de reconnaissance vocale dans un signal acoustique bruite et systeme mettant en oeuvre ce procede
US7117149B1 (en) 1999-08-30 2006-10-03 Harman Becker Automotive Systems-Wavemakers, Inc. Sound source classification
GB2357231B (en) 1999-10-01 2004-06-09 Ibm Method and system for encoding and decoding speech signals
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7043430B1 (en) 1999-11-23 2006-05-09 Infotalk Corporation Limitied System and method for speech recognition using tonal modeling
WO2001039179A1 (en) * 1999-11-23 2001-05-31 Infotalk Corporation Limited System and method for speech recognition using tonal modeling
DE10012145C2 (de) * 2000-03-13 2002-02-21 Christian Popella Verfahren und Vorrichtung zur akustischen Erkennung erkrankungsbedingter physikalischer Veränderungen des Stimmbildapparates
TW521266B (en) * 2000-07-13 2003-02-21 Verbaltek Inc Perceptual phonetic feature speech recognition system and method
FR2825826B1 (fr) * 2001-06-11 2003-09-12 Cit Alcatel Procede pour detecter l'activite vocale dans un signal, et codeur de signal vocal comportant un dispositif pour la mise en oeuvre de ce procede
US6678656B2 (en) * 2002-01-30 2004-01-13 Motorola, Inc. Noise reduced speech recognition parameters
DE10254612A1 (de) * 2002-11-22 2004-06-17 Humboldt-Universität Zu Berlin Verfahren zur Ermittlung spezifisch relevanter akustischer Merkmale von Schallsignalen für die Analyse unbekannter Schallsignale einer Schallerzeugung
US7885420B2 (en) 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US8073689B2 (en) 2003-02-21 2011-12-06 Qnx Software Systems Co. Repetitive transient noise removal
US8326621B2 (en) 2003-02-21 2012-12-04 Qnx Software Systems Limited Repetitive transient noise removal
US7949522B2 (en) 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
US7895036B2 (en) 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
US7725315B2 (en) 2003-02-21 2010-05-25 Qnx Software Systems (Wavemakers), Inc. Minimization of transient noises in a voice signal
US8271279B2 (en) 2003-02-21 2012-09-18 Qnx Software Systems Limited Signature noise removal
US7340398B2 (en) * 2003-08-21 2008-03-04 Hewlett-Packard Development Company, L.P. Selective sampling for sound signal classification
DE10361850A1 (de) * 2003-12-31 2005-07-28 Kress, Markus Verfahren zur Identifizierung von Personen
US8724447B2 (en) * 2004-01-28 2014-05-13 Qualcomm Incorporated Timing estimation in an OFDM receiver
JP2005308512A (ja) * 2004-04-21 2005-11-04 Agilent Technol Inc スペクトラム処理方法および該方法を用いる測定装置
FI20045146A0 (fi) * 2004-04-22 2004-04-22 Nokia Corp Audioaktiivisuuden ilmaisu
US7716046B2 (en) 2004-10-26 2010-05-11 Qnx Software Systems (Wavemakers), Inc. Advanced periodic signal enhancement
US8543390B2 (en) 2004-10-26 2013-09-24 Qnx Software Systems Limited Multi-channel periodic signal enhancement system
US8170879B2 (en) 2004-10-26 2012-05-01 Qnx Software Systems Limited Periodic signal enhancement system
US8306821B2 (en) 2004-10-26 2012-11-06 Qnx Software Systems Limited Sub-band periodic signal enhancement system
US7949520B2 (en) 2004-10-26 2011-05-24 QNX Software Sytems Co. Adaptive filter pitch extraction
US7680652B2 (en) 2004-10-26 2010-03-16 Qnx Software Systems (Wavemakers), Inc. Periodic signal enhancement system
US8284947B2 (en) 2004-12-01 2012-10-09 Qnx Software Systems Limited Reverberation estimation and suppression system
US7702505B2 (en) * 2004-12-14 2010-04-20 Electronics And Telecommunications Research Institute Channel normalization apparatus and method for robust speech recognition
GB2421317B (en) * 2004-12-15 2009-02-11 Agilent Technologies Inc A method and apparatus for detecting leading pulse edges
GB2422237A (en) * 2004-12-21 2006-07-19 Fluency Voice Technology Ltd Dynamic coefficients determined from temporally adjacent speech frames
US8027833B2 (en) 2005-05-09 2011-09-27 Qnx Software Systems Co. System for suppressing passing tire hiss
US8170875B2 (en) 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US8311819B2 (en) 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
US8126706B2 (en) * 2005-12-09 2012-02-28 Acoustic Technologies, Inc. Music detector for echo cancellation and noise reduction
JP4527679B2 (ja) * 2006-03-24 2010-08-18 学校法人早稲田大学 音声の類似度の評価を行う方法および装置
US7844453B2 (en) 2006-05-12 2010-11-30 Qnx Software Systems Co. Robust noise estimation
JP4827661B2 (ja) * 2006-08-30 2011-11-30 富士通株式会社 信号処理方法及び装置
US9830912B2 (en) 2006-11-30 2017-11-28 Ashwin P Rao Speak and touch auto correction interface
WO2008069308A1 (ja) * 2006-12-08 2008-06-12 Nec Corporation 音声認識装置および音声認識方法
US8335685B2 (en) 2006-12-22 2012-12-18 Qnx Software Systems Limited Ambient noise compensation system robust to high excitation noise
US8326620B2 (en) 2008-04-30 2012-12-04 Qnx Software Systems Limited Robust downlink speech and noise detector
JP4305509B2 (ja) * 2006-12-26 2009-07-29 ヤマハ株式会社 音声処理装置およびプログラム
US20080256613A1 (en) * 2007-03-13 2008-10-16 Grover Noel J Voice print identification portal
ES2403410T3 (es) 2007-08-27 2013-05-17 Telefonaktiebolaget L M Ericsson (Publ) Frecuencia de transición adaptativa entre el rellenado con ruido y la extensión del ancho de banda
US8850154B2 (en) 2007-09-11 2014-09-30 2236008 Ontario Inc. Processing system having memory partitioning
US8904400B2 (en) 2007-09-11 2014-12-02 2236008 Ontario Inc. Processing system having a partitioning component for resource partitioning
US8694310B2 (en) 2007-09-17 2014-04-08 Qnx Software Systems Limited Remote control server protocol system
TWI356399B (en) * 2007-12-14 2012-01-11 Ind Tech Res Inst Speech recognition system and method with cepstral
JP2009157442A (ja) * 2007-12-25 2009-07-16 Toshiba Corp データ検索装置および方法
US8209514B2 (en) 2008-02-04 2012-06-26 Qnx Software Systems Limited Media processing system having resource partitioning
US8645131B2 (en) * 2008-10-17 2014-02-04 Ashwin P. Rao Detecting segments of speech from an audio stream
US9922640B2 (en) 2008-10-17 2018-03-20 Ashwin P Rao System and method for multimodal utterance detection
GB2465782B (en) * 2008-11-28 2016-04-13 Univ Nottingham Trent Biometric identity verification
US10257191B2 (en) 2008-11-28 2019-04-09 Nottingham Trent University Biometric identity verification
US9767806B2 (en) * 2013-09-24 2017-09-19 Cirrus Logic International Semiconductor Ltd. Anti-spoofing
US20110286605A1 (en) * 2009-04-02 2011-11-24 Mitsubishi Electric Corporation Noise suppressor
US8595005B2 (en) * 2010-05-31 2013-11-26 Simple Emotion, Inc. System and method for recognizing emotional state from a speech signal
US20140095161A1 (en) * 2012-09-28 2014-04-03 At&T Intellectual Property I, L.P. System and method for channel equalization using characteristics of an unknown signal
US9549068B2 (en) 2014-01-28 2017-01-17 Simple Emotion, Inc. Methods for adaptive voice interaction
US11853884B2 (en) 2017-02-10 2023-12-26 Synaptics Incorporated Many or one detection classification systems and methods
US11100932B2 (en) * 2017-02-10 2021-08-24 Synaptics Incorporated Robust start-end point detection algorithm using neural network
CN107527620B (zh) 2017-07-25 2019-03-26 平安科技(深圳)有限公司 电子装置、身份验证的方法及计算机可读存储介质
US10540990B2 (en) * 2017-11-01 2020-01-21 International Business Machines Corporation Processing of speech signals
WO2020046831A1 (en) * 2018-08-27 2020-03-05 TalkMeUp Interactive artificial intelligence analytical system
US11205419B2 (en) * 2018-08-28 2021-12-21 International Business Machines Corporation Low energy deep-learning networks for generating auditory features for audio processing pipelines
CN112820300B (zh) * 2021-02-25 2023-12-19 北京小米松果电子有限公司 音频处理方法及装置、终端、存储介质
CN112951245B (zh) * 2021-03-09 2023-06-16 江苏开放大学(江苏城市职业学院) 一种融入静态分量的动态声纹特征提取方法
CN113488070B (zh) * 2021-09-08 2021-11-16 中国科学院自动化研究所 篡改音频的检测方法、装置、电子设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4829578A (en) * 1986-10-02 1989-05-09 Dragon Systems, Inc. Speech detection and recognition apparatus for use with background noise of varying levels

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022544065A (ja) * 2019-07-30 2022-10-17 ドルビー ラボラトリーズ ライセンシング コーポレイション 信号認識または修正のために音声データから抽出した特徴を正規化するための方法および装置

Also Published As

Publication number Publication date
AU685788B2 (en) 1998-01-29
FI954527A (fi) 1995-11-20
CA2158847A1 (en) 1994-09-29
KR100312919B1 (ko) 2001-12-28
EP0691024A1 (en) 1996-01-10
SG50487A1 (en) 1998-07-20
SG50502A1 (en) 1998-07-20
FI954527A0 (fi) 1995-09-25
AU6432994A (en) 1994-10-11
DE69420400D1 (de) 1999-10-07
DE69420400T2 (de) 2000-07-13
KR960701428A (ko) 1996-02-24
EP0691024B1 (en) 1999-09-01
CA2158847C (en) 2000-03-14
US5583961A (en) 1996-12-10

Similar Documents

Publication Publication Date Title
JPH08508107A (ja) 話者認識のための方法および装置
Murthy et al. Robust text-independent speaker identification over telephone channels
Viikki et al. A recursive feature vector normalization approach for robust speech recognition in noise
US6278970B1 (en) Speech transformation using log energy and orthogonal matrix
JP4802135B2 (ja) 話者認証登録及び確認方法並びに装置
EP1159737B9 (en) Speaker recognition
US5459815A (en) Speech recognition method using time-frequency masking mechanism
WO2002029782A1 (en) Perceptual harmonic cepstral coefficients as the front-end for speech recognition
US4937871A (en) Speech recognition device
EP1023718B1 (en) Pattern recognition using multiple reference models
Garg et al. A comparative study of noise reduction techniques for automatic speech recognition systems
WO1994022132A1 (en) A method and apparatus for speaker recognition
Paliwal On the use of filter-bank energies as features for robust speech recognition
Nijhawan et al. A new design approach for speaker recognition using MFCC and VAD
Kumar et al. Effective preprocessing of speech and acoustic features extraction for spoken language identification
Ouzounov Cepstral features and text-dependent speaker identification–A comparative study
Sharma et al. Speech recognition of Punjabi numerals using synergic HMM and DTW approach
Biswas et al. Speaker identification using Cepstral based features and discrete Hidden Markov Model
Li et al. Speech recognition of mandarin syllables using both linear predict coding cepstra and Mel frequency cepstra
Sun et al. Experiments on Chinese speech recognition with tonal models and pitch estimation using the Mandarin speecon data.
Ogawa et al. Robust Example Search Using Bottleneck Features for Example-Based Speech Enhancement.
Jing et al. Auditory-modeling inspired methods of feature extraction for robust automatic speech recognition
Upadhyay et al. Analysis of different classifier using feature extraction in speaker identification and verification under adverse acoustic condition for different scenario
Lai et al. Discrete word recognition using energy-time profiles
Islam et al. Speaker identification system using PCA & eigenface

Legal Events

Date Code Title Description
A313 Final decision of rejection without a dissenting response from the applicant

Free format text: JAPANESE INTERMEDIATE CODE: A313

Effective date: 20040113

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040203