JPH02500864A - パターン認識 - Google Patents

パターン認識

Info

Publication number
JPH02500864A
JPH02500864A JP63505550A JP50555088A JPH02500864A JP H02500864 A JPH02500864 A JP H02500864A JP 63505550 A JP63505550 A JP 63505550A JP 50555088 A JP50555088 A JP 50555088A JP H02500864 A JPH02500864 A JP H02500864A
Authority
JP
Japan
Prior art keywords
bits
pattern
group
recognition
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63505550A
Other languages
English (en)
Inventor
ロレツト,ジヨン・モーテイマー
Original Assignee
ブリテツシュ・テレコミユニケイシヨン・パブリツク・リミテツド・カンパニー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ブリテツシュ・テレコミユニケイシヨン・パブリツク・リミテツド・カンパニー filed Critical ブリテツシュ・テレコミユニケイシヨン・パブリツク・リミテツド・カンパニー
Publication of JPH02500864A publication Critical patent/JPH02500864A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Acoustics & Sound (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Character Discrimination (AREA)
  • Telephonic Communication Services (AREA)
  • Image Analysis (AREA)
  • Holo Graphy (AREA)
  • Machine Translation (AREA)
  • Image Processing (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】 パターン認識 本発明は、パターン認識に係り、そして、特に、しかし排他的にではなく、・音 声認識に関する。
ブレドソウとブラウン(Bledsoe & Brovn)によって(−Pat tern recognition and reading by mach ine+、 Proc、 Eastern Joint Computer C onf、1Boston、 pp225−232; 1959により)最初に提 案されたパターン認識のN要素法は、2次元パターンの認識のために提案されて きている。第1図は、その各エレメントが「0」または「1」の単一ビットであ られされるNXMパターンを示している。nビットのセットが特定の方法(例え ばランダムに)によって各ケースが「n要素」を形成するようにアレイから選択 される。
通常、各ビットは1回だけ使用されるから、N M / nのn要素が存在する 。テンプレート記憶部(第2図、n−4と仮定)は、N M / n個のロー( 各n要素毎に1個の)および2″′個のカラムを有している。学習シーケンスに おいては、各n要素は、0から21−1の2進数として翻訳され、そのn要素に 割り付けられたローの対応するカラムに「1」が書き込まれる。もちろん、全て の同じn要素の選択を有するパターンの数の学習過程によりテンプレート記憶部 内に、既に書き込まれているものに一致するか否かにかかわらず、パターン間の 類似度の度合に従って、さらなる「1」がプロットされる。
テンプレートは、認識されるべきパターンの数についてこのようにして形成され る。未知のパターンが識別されようとするとき、n要素が同様の方法で形成され 、且つ各々がテンプレート記憶部の1つにおける対応するロケーションを読み出 すのに用いられる。「1」の区画の数は未知のパターンと既知のパターンとの類 似度の「スコア」を示す。
スコアは各テンプレート毎にめられ、未知のパターンは、最も高いスコアを与え るテンプレートに対応するものであると認識されるであろう。
タターソールとジョンストン(Tattersall and Johnsto n)はこの原理を用いた音声認識装置を提案している(”5peeCh Rec ognisers −based on Autumn conference 、 1984 N−tupie Sampling”’、 Proeeedln gs of the In5titute ofAeousties、 Vol  6 part 4 pp405−412) 、この場合、第1図のパターンに おけるカラムは音声のワードの時間についての連続するサンプルを示し、各カラ ム内におけるビットは該サンプル(あるいは随意的に抽出された特徴)の2進コ ード(例えばバーコード)をあられす。それからこのパターンは上述したのとほ とんど同じ方法で解析される。
本発明は、添付された請求の範囲において定義される。
以下、本発明のいくつかの実施態様、実施例によって、次のような添付図面を参 照しつつ、説明されるであろう。
第3図は、本発明に従った音声認識装置の1つの形態の第5図は、マイクロフィ ーチャー選択の変形を示す図、そして 第6図は、第4図のテンプレート記憶部の変形版を示す図である。
説明される実施例は音声認識に関するが、本発明は他のタイプのパターンの認識 にも価値があることは留意されるべきである。
第3図に示される装置は、音声信号を受けるための音声入力端10ををし、該音 声信号はA/D (アナログ−ディジタル)変換器11によって変換される。生 の時間領域サンプルは(タターソールとジョンストンにより提案されたように) 直接利用され得るが、この実施例ではそれらは、音声の種々の特性、例えばエネ ルギプロファイル、スペクトル値、ゼロクロシングレート等、の2進表記にそれ らを変換する(以下にさらに詳細に説明されるように)ためのフロントエンド処 理装置12に供給される。この出力は80ビツトで且つ音声の各IQms期間を 与えるものと仮定される。
フロントエンド処理装置12は、入力アレイ記憶部13に、連続的にデータを供 給するが、該記憶部の内容は、入力信号を監視し且つ例えばあるゼロクロシング のカウント値またはエネルギ閾値−あるいはこれら2つの組合せ−が生じたとき にトリガする、検出器14によりワードの開始が認識されるまで作用しない。ト リガ事象が生じる前に生じる低レベル音声が含まれることを確実にするために、 わずかな期間のデーター例えば30m5−もとらえられる。
もしもフロントエンド処理装置12の固有の遅延が充分でない場合にはディレィ 15を含ませてもよい。
入力アレイ記憶部13は、1秒ぶ兄(すなわち10m5期間100個)のデータ を収容し、それ故80X100−8000ビットの容量を有している。しかしな がら、検出器14は、ワード入力が1秒の期間よりも短い場合には無音期間のさ らなる処理を禁止すべく構成されている。もし望むならば、ワード期間は、最終 の認識処理の重み付けにおいて考慮されるようにしてもよい。
8000ビツトは、各々8ビツトの順序付られたセット(「8要素」)からなる マイクロフィーチャーに概念的に分割される。理論的には、それらは、入力アレ イ記憶部からランダムに選択される。但し、以下に論するであろうようにその選 択においである制約が生じるかも知れない。第3図の場合には1000このマイ クロフィーチャーが存在する。入力アレイにおける各マイクロフィーチャーを作 るビットのアドレスは、割付レジスタ16に格納される。該割付レジスタは、入 力制御装置17により生成されるインデックス番号(1・・・1000)および ビット番号(1・・・8)によりアクセスし得る1000X8のロケーションを 有する記憶装置である。
全てのマイクロフィーチャーは同じビット数からなることは原理的に必要ではな いが、以下の記述においてはそれが仮定されることに注意すべきである。
本装置は、(a)学習モードと(b)認識モードとにおいて動作する。学習モー ドでは、学習シーケンスにおいて入力される音声ワードは、複数のテンプレート 記憶部18におけるテンプレートを形成するのに使用される。特定の値を有する 与えられたマイクロフィーチャーの生起の事実を単に記録するだけの上述された 以前の提案とは異なり、ここでは、学習シーケンスの間におけるその発生の頻度 を記録することが提案される。原理的には同様の記憶構成が使用されるであろう 、しかし頻度を収容するために、単一ビットよりもむしろ、ロケーションあたり 数ビットを有する、が、このことは記憶部あたりかなりの記憶容量(すなわち1 000X256x例えば頻度のために3ビット−768Kb i t)を意味し 、ある修正を容易にするためにも望ましい構成は以下に説明されるようになる。
しかしながら、この記憶構成は頻度が格納されない場合にも有利であることに注 意すべきである。
一つのテンプレート記憶部18(他も同様である)が第4図に示されている。そ れは、各マイクロフィーチャーについて数個の(例えば5個の)エントリを存し くすなわち、全部で5000個のエントリを有する)、各エントリはマイクロフ ィーチャー値に対する一つの8ビツトバイトとその頻度に対する1バイトとから なる(すなわち10,00 。
0バイト)。
インデックス番号は、マイクロフィーチャーが格納され、且つ各マイクロフィー チャー値が固定されるために確保されるロケーションの数を与えるアドレスを決 定し、そして、該ロケーションおよびインデックスが機能的に関連付けられ、そ して各々が他方から容易に算定できる。
学習シーケンスの間に、選択されたワードがある回数(例えば5回)繰り返され る。連続するマイクロフィーチャーは、インデックス番号(およびビット番号) を入力アレイ記憶部13における適切なロケーションをアドレシングし、100 0個のマイクロフィーチャー値を与えるために割付レジスタ17J=交互に与え ることにより生成される。
得られた各マイクロフィーチャー値は、誤値に対して格納チャーについてそれが 先に生じていない限り、一つの頻度を有するテンプレート記憶部におけるエント リとして格納される。したがって、もしも、マイクロフィーチャーインデックス 番号738として示されるように、値201は4回生じ且つ137は1回士あれ ば、そのマイクロフィーチャーには2つのエントリがあり、その他の3つはゼロ である。
認識モードにおいては、マイクロフィーチャー値は、全く同様の方法で入力アレ イ記憶部から得られる。第3図を再び参照すると、サーチユニット19は、各々 の値をとり、且つテンプレート記憶部においてマツチするものを見つけるため該 マイクロフィーチャーに対応するエントリのグループをサーチする。もしもマツ チするもが見つかったら、対応する頻度が読み出され、そのようにして読み出さ れた頻度の合計を形成するアキュムレータ20に送られる。それから、この結果 は、そのテンプレートに対する最大可能合計、すなわち、1000個のマイクロ フィーチャーの各々についての最大頻度の合計、により除算される。該合計は、 所望するときに算出することができ、あるいは(図示のように)テンプレート記 憶部内の付加的なロケーションに格納されてもよい。
テンプレート記憶部18は、アキュムレータ20、および除算器21は認識され るべき各ワードについて設けられる。比較器22は、各除算器21から出力され るスコアを受け、出力端23にテンプレートが最も高いスコアを発生した、すな わちワードが認識された、ことを示す信号を生成する。認識処理は、いかなる出 力も生ずる前に最大スコアが閾値を超えるという原理を適用してもよい。
説明される装置は、時間配列について検出器14の動作に依存する。しかしなが ら、量のバリエーション(例えば)が学習音声の矛盾する配列を結果として招く ことも可能である。このことは、異なる配列を持ったいくつかの音声を学習した 装置が、誤配列に対する許容の度合を学習することを意味している。しかし、該 装置の変形版においては、最初の次の各ワードは、検出器14により決定される 時間配列において、且つ(例えば)±lQmsおよび±20m5のシフトを有す る、既に見つけられたテンプレートに対する認識処理に供される。最高のスコア を与える配列が選択され且つそれに基づいてテンプレートが更新される。この調 整は時間配列誤差に対する認識処理の上述の許容値を減少させ、そしてそれに続 いて認識に先立って未知の音声の同様のシフトの試行が実行されなければならな い。この変形の望ましさは、テンプレート記憶部が異なるワードに対して学習さ れるべき認識のために受容し得る時間遅延に依存するであろう。もちろん、配列 処理は、異なるワードに対して独立に動作させるべきである。さらなる好ましい 特徴は、適応性の提供であり、それによってテンプレートは認識モードにおいて 「学習」し続ける。これを達成する単純な方法は、成功認識に寄与するマイクロ フィーチャー値に関する頻度を増加させることであろう。したがって、「頻度」 は、学習期間の間に生じた頻度よりもむしろ、成功とわかっている認識の頻度と なるであろう。
1つだけの頻度の増加は、認識装置が動作している限りいつも、ワード出力がい つも正しいという仮定のちとに、自動的に行なわれ得るが、望ましくは、それが 正しいときに、あるいは(代わりに)もしもそれが間違っているときにのみ機械 が知らされるように外部入力に応じて生ずる。
もしも機械が、会話に使用されるならば、会話が、種々の段階にて確認が要求さ れるように構成されるべきである。
このことが、成功率の高い認識を示すような方法で生じたら、スコアに寄与する マイクロフィーチャー値の頻度は、1つだけ増加される。
さらに洗練された手法は、認識に成功したワードからの全てのマイクロフィーチ ャーをテンプレートに加えることであろう。この容易さは、テンプレートについ ての記憶容量の増加、および記憶周波数が大きくなり過ぎないようにするための 手段を必要とする。この結果、テンプレートは、もはや現われなくなったマイク ロフィーチャー値を「忘れ」得るようにすることができる。このことは、装置が 、例えば話者の認識または照合に使用されたとき、ある時間の経過後に話者の声 の変更に追随できるであろうことを意味している。
第5図は変形されたテンプレート記憶部の一部を示しており、1つのマイクロフ ィーチャーのために配置された記憶部のみ(例えばインデックス番号312)が 示されているが、各マイクロフィーチャーが各々2個の(8ビツト)バイトの1 6個のエントリが割り当てられる。学習フェイズの間において(例えば)5個の 音声が、合計5の頻度でマイクロフィーチャー312の5つの値まで生じる。典 型的な図は、最初の3個のエントリに、頻度の下降する順序で、第5a図に示さ れる。残ったエントリは頻度Oを有し、関連する値のフィールドの内容はもちろ ん重要でない。
認識モードにおいて、テンプレートが認識の成功を与えるたび毎に: (a〉マイクロフィーチャーは、既にエンタされていない値を有し、この値は次 の可能なエントリフィールドに1つの頻度でエンタされる(もしも一時間ワーブ について以下に説明されるように一1個以上の値が得られたならば、どの1個を エンタするのに選択するかは任意である)、か、あるいは、 (b)マイクロフィーチャーは、既にエンタされている値を有し、存在する頻度 は1つだけ増加され、そして、(もしも必要ならば)エントリの順序は頻度の下 降順序を維持するように調整される。このようにして、各マイクロフィーチャー のために確保された記憶部は、ある時間の後に1以上の頻度を有するリストの最 上部に位置するいくつかのマイクロフィーチャー値により構成され、残りは1の 頻度を持つ(第5図)。
しかしながら、次のことが示唆される。最初の8個のエントリのみが認識処理で 使用され、ロケーション9から16の値が待ち状態に保持され、並べ換え処理が それらを上位8個のロケーションに位置させたときにのみ有効となる。
上位8個のロケーションの値の変化が速すぎることを防止するため、ロケーショ ン8と9との間に概念的な障壁が設けられ、ロケーション9の値のみが、もしも その頻度がロケーション8の頻度値の2倍以上であるならば、この障壁を超えて 上に移動することができる。
2つの可能性のあるオーバフロー条件が生じ得る。最初に上位のエントリが大き くなりすぎるかも知れない。その場合、全ての頻度が半分にされ、1つの頻度が ゼロとなるように切り捨てられ、すなわち、空のエントリは新たな値をエントリ するために空白のままとされる。低位のロケーションが無効の値で満たされるの を防止するため、これは記憶部のサイズによって指示されるものよりも一層低い 頻度(例えば31)で行なわれるかも知れない。有りそうな第2の可能性−占有 される全てのエントリのそれ−は、それによって一層減少されるであろうが、も しそれが生ずるとエントリ16が新たな1つのために常時放棄されることを示唆 する。
存在するマイクロフィーチャー値の「頻度」を半分にして、空白を作った後に、 いかなる新たなマイクロフィーチャー値も、示唆されるその真の頻度よりも、こ れらに関する大きな頻度が収集される。このことは、望ましいと思える特徴に、 生き延びて、リストの最上位に向けて上昇させる大きなチャンスを与える。この ようにして、テンプレートの構成は、装置が認識において達成した成功にしたが って頻繁に適用される。話者照合のアプリケーションにおいては、正しい話者が 識別されたことに100%の確実性があるときにのみテンプレートを適用するこ とは明らかに重要である。逆に、装置が使われれば使われるほど、これがそうで あるという確実性はますます増大する。
マイクロフィーチャーの選択が完全にランダムでなくてよいことについては既に 述べた。変形例においては、ランダムに選択されたマイクロフィーチャーを作る ビットの順序づけられたセットが、与えられたセットを作るビットはすべてセッ ト幅の時間窓内に存在するという制約を受けることが示唆される。例えば、上述 された入力アレイ記憶部が各々10m5を表現する100個のカラムを有する図 を用いて、各マイクロフィーチャーを形成する8ビツトが、50m5の窓を持っ て存在するかも知れない。例えば、第6図に示されるマイクロフィーチャー1は 、1から5の10m5期間内に存在すると共に、マイクロフィーチャー2は10 m5期間2〜6に、そしてマイクロフィーチャー3は期間3〜7内に存在する。
50m5窓は任意でよく、あ制約は、入力データ記憶部の各カラム内のビットの 意味に関連する。以下に述べるように、80ビツトが、各々入力音声の特定のパ ラメータを示すいくつかのグループからなるであろうことが認識される。例えば 、2〜3ビツトが2進またはパーチャート(棒グラフ)表現で有声/無声の評価 を示す。
パーチャート 2進 ooo −oo 不定(信号レベル が低すぎる) 001 − 01 無声 011 − 10 中間有声 111 − 11 有声 パーチャート表現において、各ビットの重要性は他に対して独立であり、(すな わち中間ビット−1少なくとも何かの音声が存在することを意味している)マイ クロフィーチャー選択に関して何の制約もないことを示している。2進表現の場 合、これはそうではなく、1対のビットが不可分、すなわち2個のビットがいつ も同じマイクロフィーチャーの部分を形成する、として取り扱われる。このこと は、マイクロフィーチャーが8ビツト以上を持つことを防止するいくつかの規則 を必要とするであろう(この規則はビット選択の厳密なランダム性を破壊するが 技術を危うくすることはないであろう)。
もしも1つの第2期間が消費される前にワードが終わるならば、時間窓の特徴は 認識処理の終端を容易にすることに注意すべきである。もし、ランダムまたは他 の構成が用いられるならば、望ましくは、無音期間から抽出されるビットの全て からなるいかなるマイクロフィーチャーも認識処理において無視される。
さらなる提案は、与えられたワードが発声された速度のバリエーションを適用す るための、時間ワーブの導入である。もしもワードが、テンプレートが学習され たワードと比較してゆっくりと発声されるならばワードの最初のマイクロフィー チャーは時間的に一致するけれども、ワードの中間あるいは最後においては遅れ が生じる。
この事態は、いかに述べる時間ワーブ技術を適用することにより適応させ得る。
これは、ワードの最初には正確に時間が揃っていると仮定する。上述したように 時間調整処理は、単語全体にわたって平均配列を最適化しようとするから、該処 理がもしも用いられれば、比較をワードの最初の(例えば)200msに限るこ とにより望ましく変形できる。時間:A整に伴い、テンプレート学習に適用され る時間ワーブ技術が、認識モードにも該技術が適用されない限り、発声の速度の バリエーションに関するテンプレートの許容差を減少し得る。
最初に、最大50m5の各期間に基づいて基本的なマイクロフィーチャー値が割 り付けられていると仮定して、他のマイクロフィーチャーは次のように生成され る。
最初の200のマイクロフィーチャーは唯1つの値を生成する。
その次の200は、時間にして20m5だけずれ、それらの窓内に同様の割当を 有する2つの窓からのビットからなる2つの値を生成する。(もしも割付演算子 が、データアレイに差し込まれマイクロフィーチャーを形成するビットを取り出 すための非常に歪曲された8つの長いフォークとして視覚化されれば、時間ワー ブされたマイクロフィーチャー値は、20m5後のデータアレイに同じフォーク を差し込むことにより生成される。) 次の200は、各々時間にして20m5ずれた3つの窓から3つの値を生成し、 同様にして5つの形態が存在するであろう最後の200まで生成する。この構成 のもとての、マイクロフィーチャーの総数は200.X (1+2+3+4+5 )、すなわち3000である。最後の200における±5%の時間ワーブを示す 時間の広がりは、100m5であろう。適用される時間ワーブの実際の度合は経 験をもとに選定されるべきであり、引用された図は単に例に過ぎない。
そして、学習の間、マイクロフィーチャー201(例えば)は、5つの学習音声 が10の値を持つと仮定すれば、各音声について2つの値を持つであろう。もし も異なる音声間にわたる値の複製がないとすれば、各音声から任意に1つの値が 選定され、頻度1が与えられる。6値は頻度(すなわち接値を生成する異なる音 声の数)を与え、最も高い頻度を何する5つの値がテンプレートに格納される。
同様に、多重の値を持つ後のマイクロフィーチャーについて、6値は同じ値を生 成する異なる音声の数に等しい頻度の値を与え、最も高い頻度を有する5つの値 は選択されたワードについてのテンプレート内に格納される。
認識モードにおいては、入力アレイ記憶部に記憶された情報は、3000のマイ クロフィーチャー値を生成するように処理される。これらの値は、256ずっの 1000のディメンションを有し、第3図のサーチ制御部19の部分を形成する データアレイ、ここでは「タブロー」と称される、を形成するのに使用される。
各マイクロフィーチャーのインデックス(1から1000)は、このタブローの ローをアドレスし、「1」は、マイクロフィーチャーの値(1から256)に対 応するカラムに書き込まれる。こうして、最初の200のローは、1つの「1」 を持ち、2゜1から400のローは、1つまたは2つの「1」を持ち、順次同様 にして最後の200ローは5つの「1」を持つ。
ここで、タブローは、各ワードについてのテンプレートを形成する格納されたマ イクロフィーチャーの値によりアドレスされる。特に、テンプレートからの各マ イクロフィーチャーの値は同じインデックスを有するタブローのローをアドレス し、カラムをその値でアドレスし、そしてもしも「1」が存在すればマイクロフ ィーチャー値の頻度は重みとして扱われ、読み出され、且つ合計スコアに達する まで合計される。前と同様、未知のワードがテンプレートワードにマツチする相 対類似度に達するように、未知のワードが達成し得る最大のスコアで除算され正 規化される。
マイクロフィーチャー201に進んで、タブローの各ローに2またはそれ以上の エントリ「1」が存在する。望ましくは、テンプレート記憶部におけるマイクロ フィーチャー値は、最上位における最高頻度によって順序付けられ、その結果、 読み出されるべき第一の頻度はそのマイクロフィーチャーについて可能性のある もつとも高いスコアであろう。同様に、どのテンプレートについても最大スコア を決定するのに、各インデックスに対応するリストの最上位の頻度のみが読み出 され且つ合計されるべきである。
これは、全ての記憶されたテンプレートについて繰り返され、最も高い相対類似 度を達成するテンプレートの同一性は、未知のワードに対するベストマツチとみ なされるワードとして出力される。
このワープ処理は、時間軸の準線形歪として表現され、与えられたマイクロフィ ーチャーのビットが存在する制限時間窓であるので単純シフトによって容易に実 現し得る。
もしも、ビットの完全にランダムな割付が用いられれば、マイクロフィーチャー の個々のビットは、入力データアレイ内の時間位置に依存する量だけシフトされ る必要がある(柔らかいフォークに似ている)。最後の200 m sにお準線 形に適切にワーブされた個々のビットをともなう5つの形態で存在する。入力デ ータアレイの始点から600〜800m5の間隔よりも遅れない時間内に含まれ るビットは4つの形態で存在する等であり、その結果、初期の200m5の期間 内に存在する成分ビットの全てのマイクロフィーチャーは、一つの形態で存在す る。
統計的に、マイクロフィーチャー値の総数は、この構成においてちょうど等しく 、すなわち3000となる。このフロントエンド処理12の性質はさらに論じら れる。入力データ記憶部へのエントリのために導かれるある数の可能なパラメー タがある。これらの全てが特定の装置に使用される必要があるわけではないが、 パラメータが明確に粗く量子化されると認められるので、量子化によって失われ た情報が2つのケースにおいて異なることに基づいて、頻度領域のパラメータお よび時間領域のパラメータの両者を含むことが望ましい。可能な特徴は、次のよ うになる。
i)音声周波数量域内の合計エネルギ ii)宵声/無声評価 1ii)特別エネルギレベル−すなわち、該範囲にわたるそれぞれの周波数帯域 の放向のエネルギレベルiv)スペクトルエネルギ傾斜−すなわち、(i i  i)に関する帯域の隣接するものの間のレベルの相違■)スペクトルエネルギタ イムプロファイル−すなわち、連続するサンプル期間におけるある数の各周波数 帯域におけるエネルギレベルの間の相違 vi)ゼロクロスレート−与えられた期間内の音声波形のゼロクロスの数 vii)ウィグルレート−与えられた期間内の音声波形の静止点(最大および最 小)の数 viii)超過静止点−(vii)と(Vi)との差。
これらの各々を交互に実行することを考えると、例えばサンプリングレートを1 0m5あたり1つと仮定すれば、i)エネルギ 有効な音声周波数範囲全体、すなわち200〜5000Hz (6db点、なだ らかなロールオフ)にわたるフィルタが、ワードのエネルギプロフィールを生成 するのに使用される。フィルターの絶対出力値は、4ビツト、すなわち非線形間 隔で粗く量子化された16レベルで表現され、すなわち16レベルの各々は(例 えば)4または5の新たな評価値の一つに割り付けられる。エネルギのパーチャ ート符号化のような連続するエネルギの量子化が用いられ、3つの可能性は次の ようになる。
oo ooo oooo r無音」 −すなわちある閾値よりも低いエネルギ001 0001 低い 01 0011 適度 011 0111 相当 11 111 1111 大きい 原理的には、適切な時間区間を超える入力エネルギレベルの実際のダイナミック レンジの記録およびしたがってパラメータコードの割付調整により、正規化が導 入され得る。
しかしながら、音声におけるA/D変換は、警告とともに取り扱われる必要があ り、むしろゆっくり動作すべきである。
it)有声−無声評価 高周波エネルギに対する低周波エネルギの割合が音声の評伝値として用いられる 。2ビツトコードで十分であり、すなわち 00 不定、すなわち認識するにはレベルが低すぎる01 無声−ある閾値より も低い割合 10 中間の有声 11 有声 2つのフィルタのための適切な周波数帯域は、低域、Bdb点で、300Hz〜 160CIHz、高域、Bdb点で、2300 Hz 〜5000 Hz 、両 者ともなだらかなロールオフである。フィルタ内のエネルギレベルは4ビツト線 形コードであられされる。パラメータコードに対するそれらの割合の割付はおそ らく非線形であり、どんな場合でも1またはそれより大きい他の適切な閾値レベ ルに依存する(各フィルタの帯域によって異なる)。
i i i)スペクトルエネルギレベル200Hz〜5000Hzにわたり、中 心周波数が対数的に250Hzから4500Hzまで離れた、モしてオーバラッ プ点で4.5dbのロスがある16個のフィルタのバンクにより、スペクトル解 析が行なわれる。フィルタの出力は10m5毎にサンプルされ、4ビツトで線形 コード化され、パラメータコードに対するそれらの割付のため重く量子化される 。おそらく3〜4の非線形レベルで十分であり、(2〜3ビツトの)パーチャー トコードで表現できる。すなわち、 oo ooo ある閾値よりも低い 01 001 低い 011 中間 11 111 有声 (i)において同じ記載で述べたように、再び、正規化が導入される。
iv)スペクトルエネルギ傾斜 フィルタバンクから出力される線形コード化出力は、他のセットのパラメータコ ードを提供するために再び検査される。各10m5期間に、低周波から高周波ま で進むにつれてエネルギの相違が存在する。それらが15ある、そうするとそれ らは次のように非常に粗く量子化される。
00 不定、−両レベルがある閾値よりも低い01’−’:差が負 10 ”+2 :差が正 11 ′ 、差がある閾値よりも低い もしも、有声−無声の評価が部分的か全有声かを示すならば、シーケンス[+、 −コ、または[+、−、−1は最大を示し、フォーマットにより識別され得る。
該フォーマットの割合は重要な、音声の「準不変」であることがわかる。したが って、対数間隔フィルタの使用は、これらの割合が、単純なコードの再配列によ り、全ての最低位のフォーマットを同じレベルにするようにすることを許容させ る。
このようにすれば、上記コードは、各連続する10m5毎の紙の垂直ストリップ 上に書ける。もしも、2つの最低のフィルタからのエネルギレベル間の差に相当 する、最低位のエントリが、十であれば、第1のフォーマット最低位のフィルタ より上にあると仮定する。該ストリップを新たなエントリか−または−の源レベ ルまでスライドさせる。
そして、N1のフォーマットは、°データラインとして採用される源レベル(ま たは若干下に)に一致させられる。もしも、最低位のエントリが−であれば、第 一のフォーマットは最低のフィルタ帯域以下に位置するとみなされ、しかし望ま しくは下過ぎないように、そしてストリップは変化させないままとする。
このようにして、第1のフォーマットは、すべて(粗く)データラインに整列さ れる。該フィルタは対数間隔で配置されるので、シーケンス[+、−]または[ +、 −、−3により示される、次の最大値の位置は、第1のフォーマットに対 する第2のフォーマットの割合を示し、その次の最大値の位置は、第1のフォー マットに対する第3のフォーマットの割合を示す。
部分的または全体の有声が検出されたときに、スペクトルエネルギ差の再整列の みが行なわれる。そうでなければ、エントリは変化させないままとされる。
再整列は容易な音声認識を行なおうとしている。話者照合の目的のためには、再 整列は行なわれない。したがって、処理においては、ある段階において照合が重 要であり、他において認識が行なわれるなら、ソフトウェア制御によって、単純 なアルゴリズムの変更が可能である。
■)スペクトルエネルギ時間プロファイル周波数に対するエネルギ傾斜が、10 m5時間間隔内でカテゴリ化されるので、各フィルタ帯域のエネルギ傾斜が時間 に対してカテゴリ化される。ここに、16のエネルギ差が有れば、それは上の( iv)に示されたコード化の概念によって表現することができる。もしも、上述 したように、部分的または全体の有声がスペクトルエネルギ傾斜を最装置するの に用いられれば、時間に対するプロファイルは、同じ変換に供され、それはスペ クトルエネルギ傾斜情報によって制御されるべきである。
vi)ゼロクロスレート 固定時間間隔、例えば2.5ms、に生ずるゼロクロスの数はカウントされ、例 えば次のように適宜コード化される。
0000 ゼロクロス無し 0001 1または2のクロス 0011 3.4または5のクロス 0111 6〜11のクロス 1111 12〜20のクロス ゼロクロスの最大値は、8X(期間ms)であり、もしも必要なら期間は増加ま たは減少させることができる。コーディングの前にある形式のスムージングまた はフィルタリングが、例えば3つの隣接する値の間での平均化、あるいは例えば 1/4.1/2.1/4の係数を有するファーフィルタの適用が、望まれる。
vii)ウィグルレート 定められた期間における静止点(最大値および最小値)の数がカウントされ且つ コード化される。該期間は、ゼロクロスレートの査定と同じであり、おそらくス ムージングの後に、同様のコーディング理論が使用される。すなわち、000  0〜2の極値 001 3〜6の極値 011 7〜12の極値 111 13〜20の極値 または 00 0〜3の極値 01 4〜10の極値 11 11〜20の極値 viii)過剰静止点 望ましく且つ有意義な、波形からのよりコンパクトなパラメータの探索に当たり 、ゼロクロスを超える静止点の数は考慮に値するであろう。該パラメータは0か ら20まで変化するであろう。スムージングの後にはそれは次のようにあられせ る。
000 0〜2の過剰極値 001 3〜6の過剰極値 011 7〜12の過剰極値 111 13〜20の過剰極値 先に示唆された80ビツトの位置を作るための上述がらの可能な選択は次のよう になる。
a)全音声エネルギ 4ビツト b)静止点の数:4×3ビツト 12ビツトC)スペクトルエネルギレベル: 16X2ビツト 32ビツト d)スペクトルエネルギ傾斜: 15×2ビツト 30ビツト e)有声−無声評価= 2ビット 合計 80ビツト 先に概要を述べたスコアリングの方法にはパラドックスが存在する。5つの音声 がテンプレートを作るのに用いられ、それらのうち4つが同じである場合を考え ると、5番目はそれら4つと共通なマイクロフィーチャーを持たない。
それから、繰り返される音声の繰り返し回数は100%・のスコアであるととも に、シングルトン音声の繰り返しは25%のスコアであるので、その最大値が達 成されるけれども、繰り返される音声に対して等しい有効性を有する。
この状況を監視する1つの方法は、ゼロの数をスコアに加算することである。こ の数がむしろ低くなったとき、マイクロフィーチャーの記憶値と未知の音声の間 で多数の一致を示すが、それにもかかわらず低いスコアに一致する。
この状況で実際のスコアにある種の重み付けが行なわれる。
あるいは、生起の頻度をアキュムレートされる重みとして用いるよりもむしろ、 ルックアップテーブルを介しての頻度の単色関数を用いることができる。頻度の 平方根近似が適切な関数として助言される。
他の可能性のある変形は、処理速度の向上の提供である。
制限された時間窓からマイクロフィーチャーが抽出される一つのそのようなオプ ションでは、未知の音声の最初の部分から取り出されるものが、例えば25%の 最もスコアを高くしそうなテンプレートの決定のために処理され得る。
この操作が完了する時間までには、さらなるマイクロフィーチャー値が生成され 、それらは選択された25%の最終ソートに使用され得る(あるいは、処理速度 およびテンプレートの数に依存する3段階処理を適用することもできる)また、 マイクロフィーチャーのランダム選択が最初のソートに使用でき、1またはそれ 以上のソーティングがそれに続く。これらのオプションのいずれかに対するバッ クアップとして、もしもこの適用が誤りを与えるならば、高速化された結果とし て得られるいかなる動作に対しても補正を施すために、通常の処理を行なうこと もできる。
浄書(内容に変更なし) 浄iF(内容に変更なし) q畳(内容に変更なし) 手続補正書(方式) 1.事件の表示 PCT/GB88100538 2、発明の名称 パターン認識 3、補正をする者 事件との関係 特許出願人 名称 ブリテラシュ・テレコミュニケイション〆・パブリック・リミテッド・カ ンパニー 4、代理人 東京都千代田区霞が関3丁目7番2号 平成元年11月7日(発送日) 代理権を証するもの(委任状) m訂調杏餠告 +II+−−m−m ^am−tar lll−h−、?CT/ GB ε8/ Coジ38SA 23142

Claims (26)

    【特許請求の範囲】
  1. 1.(a)ビットのパターンを受ける入力手段と、(b)上記パターンから選択 されたビットのグループを定義する割付データを記憶する手段と、(c)テンプ レート記憶手段と、 (d)(i)学習モードにおいて、上記定義されたグループの各々について、該 グループ内のビットの組合せが上記パターン内に生じることを示すデータを上記 テンプレート記憶手段に記録し、且つ (ii)認識モードにおいて、未知のパターンに応答して、上記パターンから選 択されたビットの定義されたグループの各々について、該グループのビットに応 答して、もしあれば、特定のビットの組合せについてテンプレート記憶手段に記 録された頻度を再生し、そのパターンについて類似度評価を再生された頻度の関 数として形成し、認識成功を示す、あるいは認識基準に類似度評価が合っている か否かに依存する出力を生成し、するように動作する制御手段を具備するパター ン認識装置。
  2. 2.複数のテンプレート記憶手段を含み、上記制御手段は類似度が認識基準に合 致するテンプレート記憶手段の1つを認識する出力を発生する比較手段を含む請 求の範囲1の装置。
  3. 3.認識モードにおいて、制御手段は任意のグループに対して作動可能であり、 このグループに関して頻度が、未知のパターンにおいて生じる特定ビットの組合 せに対して、テンプレート記憶手段にすでに記憶されており、もしあれば、この テンプレート記憶手段に関して認識基準は上記記憶済み頻度を調整するために合 致する請求の範囲1または23の装置。
  4. 4.認識モードにおいて、制御手段は任意のグループに対して作動可能であり、 このグループに関して頻度が、未知のパターンにおいて生じる特定ビットの組合 せに対して、テンプレート記憶手段にまだ記憶されておらず、もしあれば、この テンプレート記憶手段に関して認識基準は組合せを有するそのグループに関して そのテンプレート記憶手段に頻度を書き込むことに合致する請求の範囲3の装置 。
  5. 5.調整および入力は、もしあれば、それぞれ有効な認識を確認または未確認す る外部信号の有無に応じて暫定的である先行する請求の範囲のいずれか1の装置 。
  6. 6.上記または各テンプレート記憶手段は各グループに対して、組合せと関連す る頻度の記憶場所と特定ビット組合せの記憶場所とにより各々構成される複数の エントリにより構成される個々の部分を有する先行する請求の範囲のいずれか1 の装置。
  7. 7.音声信号を受信し、音声特性の間隔の連続時間いおいて音声信号の音声特性 の間隔を表わすビットパターンを発生する先行する請求の範囲のいずれか1の装 置。
  8. 8.上記装置は沈黙を表わすパターンの部分から排他的に抽出された無視グルー プに配置される請求の範囲7の装置。
  9. 9.上記割付データは上記パターンから不規則に選択されるビットグループを表 わす請求の範囲7または8の装置。
  10. 10.上記割付データはビットグループを表わし、各グループは上記パターンの 限定時間窓内から選択される請求の範囲7または8の装置。
  11. 11.上記グループの大部分は各々等間隔で異なる時間窓から選択される請求の 範囲10の装置。
  12. 12.上記グループは第一カテゴリおよび後続するカテゴリに概念的に分割され 、後続カテゴリの各々は先のカテゴリのグループより遅い時間窓から抽出される グループにより構成され、上記制御手段は少なくとも認識モードにおいて、上記 第一カテゴリにおけるグループ以外の各グループに関して1以上の付加グループ を選択するために動作し、各付加グループは関連するグループのビット指定に関 して、そのグループのすべてのビットに対して同じ量だけ一時的にシフトされる ピットにより構成され、付加グループの数およびそれらが連続的に課せられる一 時的シフトの範囲は連続カテゴリに対して増加する請求の範囲10または11の 装置。
  13. 13.上記制御手段は少なくとも認識モードにおいて上記ビットグループに付加 して付加ビットグループを選択するために作動でき、各付加ビットグループは上 記ビットグループの1つに関連し、上記パターン内のビットの一時的位置に関連 する量だけ関連グループのビット指定に関して一時的にシフトされるビットによ り構成される請求の範囲9の装置。
  14. 14.制御手段は、学習モードにて少なくとも1つのパターンが処理された後に 、学習モードにおいても付加的なビットグループ選択処理が行なわれるように動 作し得る請求の範囲12または13の装置。
  15. 15.制御手段は、少なくとも認識モードにおいて、パターンに関する複数の時 間整列を有する類似度評価を形成すること、および最大類似度を示す類似度評価 を生成する限りそれによって該パターンを処理することを含む時間整列処理を実 行するように動作し得る請求の範囲7〜14のいずれか1の装置。
  16. 16.制御手段は、学習モードにて少なくとも1つのパターンが処理された後に 、学習モードにおいても時間整列処理が行なわれるように動作し得る請求の範囲 15の装置。
  17. 17.請求の範囲12、13または14に従属するときに、時間整列処理がパタ ーンの最初の部分に制限される請求の範囲15または16の装置。
  18. 18.入力手段は、上記時間期間の各々について、複数のビット、そのいくつか は音声信号の波形の特性をあらわし、その他は信号の周波数スペクトルの特性を あらわす、を生成するように構成される請求の範囲7〜17のいずれか1の装置 。
  19. 19.入力手段は、上記時間期間の各々について、i)音声周波数帯域内の全エ ネルギ ii)有声/無声評価 iii)多数の個々の周波数帯域内のエネルギレベルiv)(iii)で言及さ れた帯域の隣接するものの間の差 V)連続するサンプル期間における多数の個々の周波数帯域内のエネルギレベル の差 vi)与えられた期間内の音声波形のゼロクロシングの数 vii)与えられた期間内の音声波形における静止点の数 の特性のうちの2つ以上を表すビットからなる複数のビットを生成するように構 成される請求の範囲7〜18のいずれか1の装置。
  20. 20.入力手段は、上記時間区間の各々について、(iii)で言及された帯域 、該帯域は対数空間の中心周波数を有する、の隣接するもののエネルギレベルの 間の差に対応するビットを生成するように構成され、且つ各時間区間について、 周波数の上昇順序にて考慮された、各値のセット、は、ビットの上記パターンに エントリする前に、シフトされ、もし必要なら甲斐の周波数帯域エネルギレベル に等しいかそれより低い上位の周波数帯域エネルギレベルを示す是下位の値がデ ータによって整列される請求の範囲19の装置。
  21. 21.音声信号の少なくとも1つの特性は、パターンにおいて意味が互いに依存 する2またはそれ以上のビットによってあらわされ、グループまたは付加的なグ ループを形成するビットの選択は、それら2またはそれ以上のビットが同じグル ープに選択されるようなものである請求の範囲7〜20のいずれか1に記載の装 置。
  22. 22.類似度の評価は再生された頻度の合計の形成を含む先行する請求の範囲の いずれか1の装置。
  23. 23.類似度の評価は再生された頻度の平方根の合計の形成を含む先行する請求 の範囲のいずれか1の装置。
  24. 24.各グループは同一のビット数を有する先行する請求の範囲のいずれか1の 装置。
  25. 25.(a)ビットのパターンを受ける入力手段と、(b)上記パターンから選 択されたビットのグループを定義する割付データを記憶する手段と、(c)テン プレート記憶手段と、 (d)(i)学習モードにおいて、上記定義されたグループの各々について、該 グループ内のビットの組合せが上記パターン内に生じることを示すデータを上記 テンプレート記憶手段に記録し、且つ (ii)認識モードにおいて、未知のパターンに応答して、上記パターンから選 択されたビットの定義されたグループの各々について、該グループのビットに応 答して、テンプレート記憶手段に既に生じたものとして特定のビットの組合せが 記憶されているかについての指示を再生し、そのパターンについて類似度評価を 再生された指示値の関数として形成し、認識成功を示す、あるいは認識基準に類 似度評価が合っているか否かに依存する出力を生成し、 するように動作する 制御手段を有し、且つ上記テンプレート記憶手段は、各グループについて、特定 のビットの組合せを格納するためのロケーションをそれぞれ有する複数のエント リを具備する個々の部分を有するパターン認識装置。
  26. 26.上記入力手段は、受信音声信号から該音声信号の音声特性のある期間を示 すビットのパターンを該期間に続く時間区間に生成する音声認識のための請求の 範囲25の装置。
JP63505550A 1987-07-09 1988-07-07 パターン認識 Pending JPH02500864A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB878716194A GB8716194D0 (en) 1987-07-09 1987-07-09 Speech recognition
GB8716194 1987-07-09

Publications (1)

Publication Number Publication Date
JPH02500864A true JPH02500864A (ja) 1990-03-22

Family

ID=10620380

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63505550A Pending JPH02500864A (ja) 1987-07-09 1988-07-07 パターン認識

Country Status (9)

Country Link
US (1) US5065431A (ja)
EP (1) EP0300648B1 (ja)
JP (1) JPH02500864A (ja)
AT (1) ATE116758T1 (ja)
AU (2) AU605335B2 (ja)
DE (1) DE3852678T2 (ja)
GB (1) GB8716194D0 (ja)
HK (1) HK138896A (ja)
WO (1) WO1989000747A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001344000A (ja) * 2000-05-31 2001-12-14 Toshiba Corp ノイズキャンセラとこのノイズキャンセラを備えた通信装置、並びにノイズキャンセル処理プログラムを記憶した記憶媒体
JP2020504329A (ja) * 2016-12-29 2020-02-06 サムスン エレクトロニクス カンパニー リミテッド 共振器を利用した話者認識方法及びその装置

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6272241B1 (en) 1989-03-22 2001-08-07 British Telecommunications Public Limited Company Pattern recognition
GB8906558D0 (en) * 1989-03-22 1989-05-04 British Telecomm Pattern recognition
US5125039A (en) * 1989-06-16 1992-06-23 Hawkins Jeffrey C Object recognition system
JP2808906B2 (ja) * 1991-02-07 1998-10-08 日本電気株式会社 音声認識装置
DE4133590A1 (de) * 1991-07-03 1993-01-14 Bosch Gmbh Robert Verfahren zur klassifikation von signalen
US5428707A (en) * 1992-11-13 1995-06-27 Dragon Systems, Inc. Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance
US5920837A (en) * 1992-11-13 1999-07-06 Dragon Systems, Inc. Word recognition system which stores two models for some words and allows selective deletion of one such model
US6092043A (en) * 1992-11-13 2000-07-18 Dragon Systems, Inc. Apparatuses and method for training and operating speech recognition systems
EP0602296A1 (en) * 1992-12-17 1994-06-22 International Business Machines Corporation Adaptive method for generating field dependant models for intelligent systems
US5649023A (en) * 1994-05-24 1997-07-15 Panasonic Technologies, Inc. Method and apparatus for indexing a plurality of handwritten objects
US5710916A (en) * 1994-05-24 1998-01-20 Panasonic Technologies, Inc. Method and apparatus for similarity matching of handwritten data objects
JPH07319924A (ja) * 1994-05-24 1995-12-08 Matsushita Electric Ind Co Ltd 手書き電子文書のインデックス付けおよび探索方法
US5661763A (en) * 1995-07-28 1997-08-26 Adtran, Inc. Apparatus and method for detecting programmable length bit pattern in serial digital data stream
ATE208516T1 (de) 1998-02-05 2001-11-15 Intellix As Klassifizierungssystem und -verfahren mit n-tuple-oder ram-basiertem neuronalem netzwerk
US7142699B2 (en) * 2001-12-14 2006-11-28 Siemens Corporate Research, Inc. Fingerprint matching using ridge feature maps
US20060235662A1 (en) * 2005-04-15 2006-10-19 Argentar David R Eliminating redundant patterns in a method using position indices of symbols to discover patterns in sequences of symbols
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
US7676360B2 (en) * 2005-12-01 2010-03-09 Sasken Communication Technologies Ltd. Method for scale-factor estimation in an audio encoder
KR100930047B1 (ko) * 2007-01-12 2009-12-08 삼성전자주식회사 다중 채널 무선통신 시스템에서 동적 채널 할당 장치 및방법
US20090216968A1 (en) * 2008-02-27 2009-08-27 Martin Gregory D Method and apparatus for storing sequential sample data as memories for the purpose of rapid memory recognition using mathematic invariants
CN113008418A (zh) * 2021-02-26 2021-06-22 福州大学 一种压阻型柔性触觉传感器

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3521235A (en) * 1965-07-08 1970-07-21 Gen Electric Pattern recognition system
US4087630A (en) * 1977-05-12 1978-05-02 Centigram Corporation Continuous speech recognition apparatus
US4319085A (en) * 1980-04-08 1982-03-09 Threshold Technology Inc. Speech recognition apparatus and method
US4513436A (en) * 1980-09-16 1985-04-23 Oki Electric Industry, Co., Ltd. Speech recognition system
US4490847A (en) * 1981-11-27 1984-12-25 National Research Development Corporation Recognition apparatus
GB8427165D0 (en) * 1984-10-26 1984-12-05 British Telecomm Adaptive recognising device
US4852171A (en) * 1984-11-09 1989-07-25 Alcatel Usa Corp. Apparatus and method for speech recognition
US4760604A (en) * 1985-02-15 1988-07-26 Nestor, Inc. Parallel, multi-unit, adaptive, nonlinear pattern class separator and identifier
US4805225A (en) * 1986-11-06 1989-02-14 The Research Foundation Of The State University Of New York Pattern recognition method and apparatus

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001344000A (ja) * 2000-05-31 2001-12-14 Toshiba Corp ノイズキャンセラとこのノイズキャンセラを備えた通信装置、並びにノイズキャンセル処理プログラムを記憶した記憶媒体
JP4580508B2 (ja) * 2000-05-31 2010-11-17 株式会社東芝 信号処理装置及び通信装置
JP2020504329A (ja) * 2016-12-29 2020-02-06 サムスン エレクトロニクス カンパニー リミテッド 共振器を利用した話者認識方法及びその装置
US11341973B2 (en) 2016-12-29 2022-05-24 Samsung Electronics Co., Ltd. Method and apparatus for recognizing speaker by using a resonator
US11887606B2 (en) 2016-12-29 2024-01-30 Samsung Electronics Co., Ltd. Method and apparatus for recognizing speaker by using a resonator

Also Published As

Publication number Publication date
EP0300648A1 (en) 1989-01-25
EP0300648B1 (en) 1995-01-04
US5065431A (en) 1991-11-12
AU605335B2 (en) 1991-01-10
HK138896A (en) 1996-08-02
AU1969488A (en) 1989-02-13
DE3852678T2 (de) 1995-05-11
AU6383490A (en) 1991-01-03
GB8716194D0 (en) 1987-08-12
AU637144B2 (en) 1993-05-20
DE3852678D1 (de) 1995-02-16
WO1989000747A1 (en) 1989-01-26
ATE116758T1 (de) 1995-01-15

Similar Documents

Publication Publication Date Title
JPH02500864A (ja) パターン認識
Picone Signal modeling techniques in speech recognition
US5313556A (en) Acoustic method and apparatus for identifying human sonic sources
JP3037864B2 (ja) 音声コード化装置及び方法
WO1995034884A1 (fr) Analyseur de signaux
Snyder et al. The JHU Speaker Recognition System for the VOiCES 2019 Challenge.
JPH0449717B2 (ja)
EP0273615B1 (en) Speaker indentification
US5828993A (en) Apparatus and method of coding and decoding vocal sound data based on phoneme
Rosenberg et al. Evaluation of a vector quantization talker recognition system in text independent and text dependent modes
KR20190135916A (ko) 음성 신호를 이용한 사용자 스트레스 판별 장치 및 방법
JP6273227B2 (ja) 音声認識システム、音声認識方法、プログラム
CN117337465A (zh) 人类发出的谐波声音的识别或合成
US5706398A (en) Method and apparatus for compressing and decompressing voice signals, that includes a predetermined set of syllabic sounds capable of representing all possible syllabic sounds
US6349281B1 (en) Voice model learning data creation method and its apparatus
JP3098157B2 (ja) 話者照合方法及び装置
JP2980382B2 (ja) 話者適応音声認識方法および装置
Blomberg et al. Speech recognition based on a text-to-speech synthesis system.
Diaz et al. Spoken-digit recognition using self-organizing maps with perceptual pre-processing
JPS60198598A (ja) 音声認識方式
KR20240060961A (ko) 음성 데이터 생성 방법, 음성 데이터 생성 장치 및 컴퓨터로 판독 가능한 기록 매체
Yuan et al. Improving Speech Decoding from ECoG with Self-Supervised Pretraining
JPS59111699A (ja) 話者認識方式
JP3002200B2 (ja) 音声認識
JPH0534679B2 (ja)