JP2979711B2 - パターン認識方式および標準パターン学習方式 - Google Patents

パターン認識方式および標準パターン学習方式

Info

Publication number
JP2979711B2
JP2979711B2 JP3119086A JP11908691A JP2979711B2 JP 2979711 B2 JP2979711 B2 JP 2979711B2 JP 3119086 A JP3119086 A JP 3119086A JP 11908691 A JP11908691 A JP 11908691A JP 2979711 B2 JP2979711 B2 JP 2979711B2
Authority
JP
Japan
Prior art keywords
pattern
time
state
feature vector
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP3119086A
Other languages
English (en)
Other versions
JPH04324500A (ja
Inventor
健一 磯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP3119086A priority Critical patent/JP2979711B2/ja
Priority to DE69226804T priority patent/DE69226804T2/de
Priority to CA002066952A priority patent/CA2066952C/en
Priority to EP92106933A priority patent/EP0510632B1/en
Publication of JPH04324500A publication Critical patent/JPH04324500A/ja
Priority to US08/270,416 priority patent/US5600753A/en
Application granted granted Critical
Publication of JP2979711B2 publication Critical patent/JP2979711B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声信号などのように
特徴ベクトルの時系列として表されるパターンを認識す
るパターン認識方式、およびその標準パターンを学習デ
ータから自動的に構成する標準パターン学習方式に関す
る。
【0002】
【従来の技術】時系列パターンの予測に基づくパターン
認識方式として「ニューラル予測モデル(以下NPMと
略記する)」が知られている。この方式に関しては特願
平1−344214号明細書(以下文献1と略記す
る)、特願平2−243632号明細書(以下文献2と
略記する)および電子情報通信学会論文誌D−IIのVo
l.J73−D−II,No.8,1315〜1321ペ
ージ(以下文献3と略記する)に詳しく解説されてい
る。NPMにおいては、有限状態遷移網から構成される
標準パターンモデルの第n番目の状態の予測器(多層パ
ーセプトロン)が、入力パターンの時刻t−1以前の複
数の特徴ベクトルと時刻t+1以降の複数の特徴ベクト
ルから、時刻tの特徴ベクトルに対する予測ベクトルを
算出する。この予測ベクトルと入力パターンの時刻tに
おける特徴ベクトルの間の距離を、NPMの標準パター
ンモデルの第n番目の状態と入力パターンの時刻tの特
徴ベクトルとの間の局所距離とする。これまでNPMで
はこの局所距離として、ベクトル間の2乗距離などを用
いていた。
【0003】
【発明が解決しようとする課題】上記のようにNPMで
は入力パターンの時刻tにおける特徴ベクトルと標準パ
ターンモデルの第n番目の状態との間の局所距離とし
て、入力パターンの特徴ベクトルと予測ベクトルの間の
2乗距離などを用いていた。この局所距離は標準パター
ンモデルの第n番目の状態の予測器による予測の誤差を
表す量である。一般にはベクトルの各成分毎に予測の精
度(予測誤差のバラツキ)は異なっているはずである
が、これまでの距離尺度(2乗距離など)ではすべての
成分の予測誤差が距離に同等に反映されるようになって
いる。このため予測誤差のバラツキが大きくて信頼性の
低いベクトルの成分が、局所距離の値に大きく影響を与
えることになり、局所距離全体の精度と信頼性が必ずし
も高くならないことがあった。
【0004】本発明の目的は、入力パターンの特徴ベク
トルと標準パターンモデルの状態の間の局所距離とし
て、予測ベクトルの各成分毎の予測精度の違いを吸収し
て予測精度の低い(バラツキの大きい)成分からの寄与
を相対的に小さくし、信頼性の高い局所距離の定義を与
え、ひいてはニューラル予測モデルの認識精度を向上さ
せることにある。またそのために導入する新しいモデル
パラメータ(共分散行列)を含めて、すべてのモデルパ
ラメータを学習データから自動学習によって定める標準
パターン学習方式を提供することにある。
【0005】
【課題を解決するための手段】第1の発明は、特徴ベク
トルの時系列として表された入力パターンを有限状態遷
移網から構成される標準パターンモデルを用いて認識す
るパターン認識方式において、前記有限状態遷移網の各
状態が入力パターンの時刻t−1以前の複数の特徴ベク
トルと入力パターンの時刻t+1以降の複数の特徴ベク
トルとから時刻tの特徴ベクトルに対する予測ベクトル
を算出する予測器を有し、入力パターンの時刻tにおけ
る特徴ベクトルと前記有限状態遷移網の第n番目の状態
の間の局所距離として、入力パターンの時刻tにおける
特徴ベクトルと、前記状態nの予測器による時刻tの特
徴ベクトルに対する予測ベクトルと、前記状態nに付随
する共分散行列とから定まる予測誤差を用いることを特
徴とする。
【0006】第2の発明は、第1の発明のパターン認識
方式において、特徴ベクトルの時系列として表された入
力パターンと前記有限状態遷移網から構成される標準パ
ターンモデルの間の距離として、前記局所距離の状態遷
移に沿った累積値を最小化するような状態遷移系列を選
出し、その時の累積値を用いることを特徴とする。
【0007】第3の発明は、第1の発明のパターン認識
方式における標準パターンモデルを学習により構成する
標準パターン学習方式で、有限状態遷移網の各状態に付
随した予測器と共分散行列のパラメータの初期値を設定
し、第1の発明の方式でカテゴリ既知の学習パターンと
同カテゴリの標準パターンモデルの間の距離を算出し、
その距離を必ず減少させる方向に各状態の予測器と共分
散行列のパラメータを修正し、距離の算出とパラメータ
の修正を繰り返し行うことにより標準パターンモデルを
作成することを特徴とする。
【0008】
【作用】以下で本発明のパターン認識および標準パター
ン学習方式についてより詳細に説明する。説明では音声
パターンを認識する場合を例に議論することにするが、
本発明はその他の時系列パターンに対しても音声パター
ンの部分をパターンベクトル列に読み変えれば同様に適
用することができる。
【0009】図1は本発明で考察の対象とする予測器を
多層パーセプトロン(Multilayer Perc
eptron、以下MLPと略記する)を用いて構成し
たものである。予測器は他の手法(1次関数,2次関数
などパラメータを含む連続関数)で構成することも可能
であるが、MLPは任意の(非線形)連続関数を任意の
精度で近似することが可能であることが証明されている
ので議論の一般性を保つためにはMLPで構成すること
が必要にして十分である。なおこの証明の詳細な説明を
含む文献はK.Funahashiによる“On th
e Approximate Realization
of Continuous Mappings b
y Neural Networks,”(Neura
l Networks誌,第2巻,183〜192ペー
ジ,1989年,文献4と略記する)を参照のこと。
【0010】図においてMLPへの入力パターンは「前
向き予測」のための特徴ベクトル
【0011】
【数1】
【0012】と「後向き予測」のための特徴ベクトル
【0013】
【数2】
【0014】との2種類に分けられる。前者は時間軸前
向きの予測で、後者は時間軸後ろ向きの相関が強い時系
列パターンの予測精度を向上させる目的で導入された。
たとえば破裂音の破裂部分は、破裂前の閉鎖区間よりも
後続母音への過渡部分との相関の方が強いと考えられ、
後向き予測の効果が期待される。MLPの出力パターン
は時刻tにおける入力音声の特徴ベクトルat に対する
【0015】
【数3】
【0016】である。この予測ベクトルはMLPの入出
力関係を用いて次式のように表すことができる。
【0017】
【数4】
【0018】ここで
【0019】
【数5】
【0020】は、MLPのユニット間の結合係数行列、
【0021】
【数6】
【0022】は、閾値ベクトル、
【0023】
【数7】
【0024】は引数のベクトルの各成分にシグモイド関
数を適用して得られるベクトルを表している。
【0025】MLPによる上記のような予測器を構成す
ることによって、音声の特徴ベクトル時系列における近
接する特徴ベクトルの間の因果的な関係を、MLPの形
成する非線形写像として記述することができる。またそ
の予測の良否は、MLPの出力である
【0026】
【数8】
【0027】と実際の入力音声の特徴ベクトルat の間
の差異を予測誤差として用いることによって評価するこ
とができる。
【0028】単語や音韻など音声認識の基本認識単位の
標準パターンモデルとなるNPMは図2のような有限状
態遷移網で表されており、その各状態は上述のMLPに
よる予測器で構成されている。より大きな単位(文な
ど)を表すNPMは、基本認識単位のNPMを連結する
ことによって構成することができる。
【0029】次にNPMによる認識アルゴリズムについ
て述べる。認識アルゴリズムは基本的には、入力音声と
標準パターンモデルの間のパターンマッチングに基づい
ている。ここで標準パターンモデルは離散認識の場合に
は基本認識単位のNPM、連続認識の場合にはその連結
によって得られるNPMであり、どちらの場合も前節で
述べたMLP予測器の付随した有限状態遷移網である。
以下では表記を簡単にするために一般の有限状態遷移網
ではなく、図2のようなleft−to−right型
の場合について述べる。
【0030】入力音声の時刻tの特徴ベクトルat と、
NPMの第n番目の状態の間の距離(局所距離)d
t (n)を次式で定義する。
【0031】
【数9】
【0032】
【数10】
【0033】は第n番目の状態のMLP予測器による予
測ベクトル、Σn は第n番目の状態の共分散行列であ
る。dt (n)は予測誤差を表しており、式中のΣ
n は、特徴ベクトルの各成分毎の予測誤差のバラツキが
異なることを正規化するために導入された量である。式
3の表式は、状態nにおいて特徴ベクトルat が観測さ
れる事後確率(ベイズ確率)を次式のようなガウス分布
で近似した場合の尤度(確率の対数)として解釈するこ
とができる。
【0034】
【数11】
【0035】共分散行列Σn の非対角項が十分小さく無
視できる場合には、式3は次式で近似される。
【0036】
【数12】
【0037】ここで下付き添字cはC次元特徴ベクトル
の成分を表し、
【0038】
【数13】
【0039】は共分散行列Σn の第c番目の対角項成分
である。さらにここで
【0040】
【数14】
【0041】の場合には、式3は次式に簡単化される。
【0042】
【数15】
【0043】この表式がこれまでNPMで用いられてい
た距離尺度(文献1,2,3)で、ここでは特徴ベクト
ルの各成分毎の予測誤差のバラツキが考慮されていな
い。
【0044】入力音声とNPMの間の距離(大域距離)
Dは、局所距離の累積として次式のように与えられる。
【0045】
【数16】
【0046】ここでnt は入力音声の時刻tの特徴ベク
トルに対する予測を行うNPM(有限状態遷移網)の状
態(MLP予測器)の番号である。式中の最小化は、入
力音声とNPM(left−to−right型有限状
態遷移網)の間の可能な対応づけn1 ,n2 ,…,
t ,…,nT (有限状態遷移網上での可能な状態遷
移)の中で、大域距離(累積予測誤差)Dを最小にする
ものを選ぶことを意味する。NPMとしてスキップなし
のleft−to−right型を用いる場合にはnt
は以下の拘束条件を満足する必要がある。
【0047】
【数17】
【0048】ここでTは入力音声の特徴ベクトル時系列
の長さ、NはNPMの状態数(終状態の状態番号)であ
る。このような拘束条件の下での最小化問題は以下の漸
化式を用いた動的計画法(Dynamic Progr
amming,以下DPと略記する)によって解くこと
ができる。
【0049】
【数18】
【0050】gt (n)は局所距離の部分和で、大域距
離Dは次式で与えられる D=gT (N) また結果をバックトレースすることによって、累積予測
誤差を最小にする最適な
【0051】
【数19】
【0052】を得ることができる。この情報は次節で述
べる学習アルゴリズムにおいて用いられる。また連続音
声認識等の場合にはこの情報から認識結果の単語列が知
れる。図3は以上述べた認識アルゴリズムの概要を示し
たものである。
【0053】次に発生内容が既知の音声データを用い
て、NPMのパラメータ(予測器のパラメータと共分散
行列)を自動的に決定する学習アルゴリズムについて述
べる。学習の目的は、学習用音声データに対する累積予
測誤差を最小にするようなモデルパラメータを見い出す
ことにある。これは全学習用音声データに対する累積予
測誤差の総和Dtotal を評価関数とした最小化問題とし
て、以下のように定式化することができる。
【0054】
【数20】
【0055】ここでMは学習データの総数、D(m)は
第m番目の学習データに対する累積予測誤差である。D
(m)は前節で定式化した動的計画法によるアルゴリズ
ムで計算することができる。評価関数Dtotal の最小化
は、以下に示す動的計画法(DP)と誤差逆伝搬法(B
ackpropagation,以下BPと略記する)
を組み合わせた繰り返しアルゴリズムによって最適に行
うことができる。BPに関しては「PDPモデル」(産
業図書,1989年,文献5と略記する)に詳しい解説
がある。
【0056】
【表1】
【0057】上記アルゴリズムではBPによるパラメー
タの修正はStep10で一括して行われる(決定的最
急降下法)が、Step5で逐次的に行う(確率的最急
降下法)ことも可能である。Step11における収束
条件としては、たとえば評価関数Dtotal の減少量が一
定値以下になった場合に収束したとするなどが考えられ
る。
【0058】局所距離尺度に共分散行列を導入した場合
(式5)には、BPによる逆伝搬誤差量は次のような修
正を必要とする。(なお以下の議論では共分散行列の非
対角項は十分小さいとして無視している。)第n*t番目
の状態のMLP予測器の出力層の第c番目のユニットの
【0059】
【数21】
【0060】は、
【0061】
【数22】
【0062】これは共分散行列を考慮しない場合の逆伝
搬誤差量に比べて、分散の逆数だけ異なっている。
【0063】また共分散行列の推定値は、評価関数D
total を最小化するように決定される。すなわち次の最
適化条件、
【0064】
【数23】
【0065】から、共分散行列の推定式(再評価式、S
tep10で用いる)が導出される。
【0066】
【数24】
【0067】ここでTm は第m番目の学習データのフレ
ーム数、
【0068】
【数25】
【0069】はクロネッカーデルタである。
【0070】
【数26】
【0071】以上の繰り返し学習アルゴリズムの収束性
は、以下のように証明することができる。第k回目の繰
り返しにおけるパラメータ修正前(Step10直前)
の評価関数の値を
【0072】
【数27】
【0073】とする。この量は各学習データ毎にDPに
よって求められた最適な(累積予測誤差を最小にする)
対応づけ{n*t}に基づいて累積された予測誤差の総和
である。Step10におけるパラメータ修正後に同じ
対応づけに従って累積された予測誤差の総和を
【0074】
【数28】
【0075】とする。ここでBPによるパラメータ修正
は各MLP予測器の出力層での2乗誤差を減少させるよ
うに行われるが、NPMの場合にはこの2乗誤差は予測
誤差と一致しているため(式3)、パラメータ修正によ
って累積予測誤差は必ず減少する。(ここでの議論では
共分散行列の再評価はBPに含めて考える。)
【0076】
【数29】
【0077】しかし、BPによって各パラメータが修正
されるとStep3で求められた最適な対応づけの最適
性は失われる。そこで第k+1回目の繰り返しにおいて
改めてDPによって修正されたモデルパラメータに対す
る最適な対応づけが求められる。DPが累積予測誤差を
最小にする最適な対応づけを与えることから、
【0078】
【数30】
【0079】結局式18と式19から繰り返しによって
評価関数は単調に減少することが示される。
【0080】
【数31】
【0081】定性的にはこの繰り返しアルゴリズムが収
束するのは、動的計画法(DP)と誤差逆伝搬法(B
P)が同じ評価関数(累積予測誤差の総和)に対する最
小化法で、それらが逐次連続的に適用されるためと理解
することができる。
【0082】
【実施例】図4〜図6は本発明のパターン認識方式によ
る認識のフローチャートを示すもので、長さTの入力パ
ターン特徴ベクトル時系列a1 ,…,aI 、および標準
パターンモデルのパラメータは外部から与えられている
とする。このフローチャートは作用の中で説明した認識
方式を具体化したものであり、変数などの表記はそこで
与えたものに従うことにする。ただし変数の添字sは認
識対象のカテゴリ(s=1,…,S)を表している。以
下流れに沿って説明する。
【0083】ステップ401では変数の初期化を行う。
詳細は図5に示されている。図5のステップ501〜5
03でカウンターの初期設定を行っている。ステップ5
04は局所距離dst(n)と、累積予測誤差gst(n)
の格納域を初期化している。ステップ505〜510で
カウンターのインクリメントおよび条件判断を行って、
すべてのs,t,nに関してステップ504の初期化を
行っている。ステップ511〜514は各カテゴリsの
累積予測誤差の始端点での値を設定している。
【0084】図4に戻ってステップ402〜404はカ
ウンターの初期設定を行っている。ステップ405は局
所距離を計算する部分で、本発明の請求項1に対応する
部分であり、その詳細は図6に示してある。ステップ6
01ではカテゴリsの第n番目の状態による予測ベクト
ルを算出する。具体的な計算は作用の式1に従って行
う。この場合は予測器を3層構造のパーセプトロンで実
現した場合に対応する。ステップ602では入力音声の
時刻tの特徴ベクトルと、上記予測ベクトルと、共分散
行列から作用の式3に従って局所距離を算出する。
【0085】ふたたび図4に戻る。ステップ406〜4
15はステップ405で与えられた局所距離を用いて、
文献「確率モデルによる音声認識」(電子情報通信学会
編,中川聖一著,1988年,文献6と略記する)に与
えられている動的計画法に基づいて、入力パターンと標
準パターンモデルの間の距離(累積予測誤差)を計算し
ている。ステップ406〜408は動的計画法の漸化式
計算を行っている。ステップ409〜414でカウンタ
ーのインクリメントと条件判断を行って、すべてのフレ
ーム、カテゴリ、状態に関して計算を行っている。ステ
ップ415は終端点での累積予測誤差最小のカテゴリを
【0086】
【数32】
【0087】として選出している。
【0088】図7は本発明の標準パターン学習方式によ
る学習のフローチャートを示すものである。ステップ7
01ではNPMのパラメータ(予測器のパラメータと共
分散行列)の初期値を乱数などを用いて設定する。ステ
ップ702〜703はカウンターの初期設定を行ってい
る。ステップ704では図4の方式と同じ動的計画法を
用いて、カテゴリsのNPMと同じカテゴリの第m番目
の学習データの間の最適な対応づけを算出する。動的計
画法による計算においてバックトレースにより最適な対
応づけを算出する方法は文献6に与えられている。ステ
ップ705〜708では求められた最適対応づけに基づ
いて、標準パターンの第n*t番目状態のMLP予測器の
【0089】
【数33】
【0090】に対して、望ましい出力at を割り当て
て、誤差逆伝搬法(BP)によって各パラメータの修正
量を算出する。ステップ711では作用の式16に従っ
て共分散行列の再評価を行っている。ステップ712は
カテゴリsの学習の収束性を判定し、収束していなけれ
ばステップ703まで戻って、学習の繰り返しを行う。
収束条件としては、たとえば評価関数Dtotal の減少量
が一定値以下になった場合に収束したとするなどが考え
られる。
【0091】
【発明の効果】以上述べたように本発明によれば、ニュ
ーラル予測モデルにおける入力パターンの特徴ベクトル
と標準パターンモデルの状態の間の局所距離として信頼
性の高い定義を与えることができ、ひいては認識精度を
向上させることができるようなパターン認識方式と、そ
のために導入する新しいモデルパラメータ(共分散行
列)を含めて、すべてのモデルパラメータを学習データ
から自動学習によって定めることができる標準パターン
学習方式を提供することができる。
【図面の簡単な説明】
【図1】本発明で考察の対象とする予測器の多層パーセ
プトロンを用いて構成したものを示す図である。
【図2】有限状態遷移網で表現したNPMの標準パター
ンモデルを示す図である。
【図3】本発明のパターン認識方式のアルゴリズムの概
要を示す図である。
【図4】本発明のパターン認識方式において、累積予測
誤差の定義として動的計画法を採用した場合のフローチ
ャートを示す図である。
【図5】図4のフローチャートにおける初期化部のアル
ゴリズムを示すフローチャートである。
【図6】図4のフローチャートにおける局所距離の計算
のフローチャートを示す図である。
【図7】本発明の標準パターン学習方式によって、モデ
ルパラメータを学習するフローチャートを示す図であ
る。
フロントページの続き (56)参考文献 特開 平3−181998(JP,A) 電子情報通信学会誌 D−▲II▼, Vol.J73−D−▲II▼,No. 8,「ニューラル予測モデルを用いた不 特定話者音声認識」,p.1315−1321 (平成2年8月) 電子情報通信学会技術研究報告[音声 ],Vol.89,No.340,SP89− 83,「ニューラルネット駆動型HM M」,p.55〜62(1989/12/14) 電子情報通信学会技術研究報告[音声 ],Vol.89,No.90,SP89− 23,「ニューラルネットによる予測モデ ルを用いた音声認識」,p.81〜87 (1989/6/22) 日本音響学会平成2年度秋季研究発表 会講演論文集 1−8−22「ニューラル ネット予測型HMMによる音声認識」 p.43〜44(平成2年9月19日発表) (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 535 G10L 3/00 539 G10L 9/10 301 G06F 15/18 560 JICSTファイル(JOIS)

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】特徴ベクトルの時系列として表された入力
    パターンを有限状態遷移網から構成される標準パターン
    モデルを用いて認識するパターン認識方式において、前
    記有限状態遷移網の各状態が入力パターンの時刻t−1
    以前の複数の特徴ベクトルと入力パターンの時刻t+1
    以降の複数の特徴ベクトルとから時刻tの特徴ベクトル
    に対する予測ベクトルを算出する予測器を有し、入力パ
    ターンの時刻tにおける特徴ベクトルと前記有限状態遷
    移網の第n番目の状態の間の局所距離として、入力パタ
    ーンの時刻tにおける特徴ベクトルと、前記状態nの予
    測器による時刻tの特徴ベクトルに対する予測ベクトル
    と、前記状態nに付随する共分散行列とから定まる予測
    誤差を用いることを特徴とするパターン認識方式。
  2. 【請求項2】請求項1記載のパターン認識方式におい
    て、特徴ベクトルの時系列として表された入力パターン
    と前記有限状態遷移網から構成される標準パターンモデ
    ルの間の距離として、前記局所距離の状態遷移に沿った
    累積値を最小化するような状態遷移系列を選出し、その
    時の累積値を用いることを特徴とするパターン認識方
    式。
  3. 【請求項3】請求項1記載のパターン認識方式における
    標準パターンモデルを学習により構成する標準パターン
    学習方式であって、有限状態遷移網の各状態に付随した
    予測器と共分散行列のパラメータの初期値を設定し、請
    求項1記載の方式でカテゴリ既知の学習パターンと同カ
    テゴリの標準パターンモデルの間の距離を算出し、その
    距離を必ず減少させる方向に各状態の予測器と共分散行
    列のパラメータを修正し、距離の算出とパラメータの修
    正を繰り返し行うことにより標準パターンモデルを作成
    することを特徴とする標準パターン学習方式。
JP3119086A 1991-04-24 1991-04-24 パターン認識方式および標準パターン学習方式 Expired - Fee Related JP2979711B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP3119086A JP2979711B2 (ja) 1991-04-24 1991-04-24 パターン認識方式および標準パターン学習方式
DE69226804T DE69226804T2 (de) 1991-04-24 1992-04-23 Spracherkennung durch ein zum Bezugmusterlernen angepasstes neuronales Netzwerk
CA002066952A CA2066952C (en) 1991-04-24 1992-04-23 Speech recognition by neural network adapted to reference pattern learning
EP92106933A EP0510632B1 (en) 1991-04-24 1992-04-23 Speech recognition by neural network adapted to reference pattern learning
US08/270,416 US5600753A (en) 1991-04-24 1994-07-05 Speech recognition by neural network adapted to reference pattern learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3119086A JP2979711B2 (ja) 1991-04-24 1991-04-24 パターン認識方式および標準パターン学習方式

Publications (2)

Publication Number Publication Date
JPH04324500A JPH04324500A (ja) 1992-11-13
JP2979711B2 true JP2979711B2 (ja) 1999-11-15

Family

ID=14752548

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3119086A Expired - Fee Related JP2979711B2 (ja) 1991-04-24 1991-04-24 パターン認識方式および標準パターン学習方式

Country Status (5)

Country Link
US (1) US5600753A (ja)
EP (1) EP0510632B1 (ja)
JP (1) JP2979711B2 (ja)
CA (1) CA2066952C (ja)
DE (1) DE69226804T2 (ja)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06333022A (ja) * 1993-05-27 1994-12-02 Hitachi Ltd 連続手話認識装置および入力装置
US5699441A (en) * 1992-03-10 1997-12-16 Hitachi, Ltd. Continuous sign-language recognition apparatus and input apparatus
US5809461A (en) * 1992-03-30 1998-09-15 Seiko Epson Corporation Speech recognition apparatus using neural network and learning method therefor
JP3168779B2 (ja) * 1992-08-06 2001-05-21 セイコーエプソン株式会社 音声認識装置及び方法
JPH0776880B2 (ja) * 1993-01-13 1995-08-16 日本電気株式会社 パターン認識方法および装置
US5581658A (en) * 1993-12-14 1996-12-03 Infobase Systems, Inc. Adaptive system for broadcast program identification and reporting
US6151592A (en) * 1995-06-07 2000-11-21 Seiko Epson Corporation Recognition apparatus using neural network, and learning method therefor
JP3697748B2 (ja) * 1995-08-21 2005-09-21 セイコーエプソン株式会社 端末、音声認識装置
DE19531967C2 (de) * 1995-08-30 1997-09-11 Siemens Ag Verfahren zum Training eines neuronalen Netzes mit dem nicht deterministischen Verhalten eines technischen Systems
US6134537A (en) * 1995-09-29 2000-10-17 Ai Ware, Inc. Visualization and self organization of multidimensional data through equalized orthogonal mapping
US6665639B2 (en) * 1996-12-06 2003-12-16 Sensory, Inc. Speech recognition in consumer electronic products
DE19740565A1 (de) 1997-09-15 1999-03-18 Max Planck Gesellschaft Verfahren zur Erfassung zeitabhängiger Moden dynamischer Systeme
US6012025A (en) * 1998-01-28 2000-01-04 Nokia Mobile Phones Limited Audio coding method and apparatus using backward adaptive prediction
EP1863013B1 (en) * 1998-10-09 2013-01-02 Sony Corporation Normalization of vector codebook data for audio-visual speech recognition.
US6782362B1 (en) * 2000-04-27 2004-08-24 Microsoft Corporation Speech recognition method and apparatus utilizing segment models
US6845357B2 (en) * 2001-07-24 2005-01-18 Honeywell International Inc. Pattern recognition using an observable operator model
DE10145913A1 (de) * 2001-09-18 2003-04-03 Philips Corp Intellectual Pty Verfahren zur Bestimmung von zu Nichtterminalen einer Grammatik gehörigen Sequenzen von Terminalen oder von Terminalen und Platzhaltern
ES2339130T3 (es) * 2005-06-01 2010-05-17 Loquendo S.P.A. Procedimiento de adaptacion de una red neural de un dispositivo automatico de reconocimiento del habla.
JP5004743B2 (ja) * 2007-10-10 2012-08-22 東芝情報システム株式会社 データ処理装置
US8560488B2 (en) * 2008-08-08 2013-10-15 Nec Corporation Pattern determination devices, methods, and programs
ATE449400T1 (de) * 2008-09-03 2009-12-15 Svox Ag Sprachsynthese mit dynamischen einschränkungen
US8972254B2 (en) * 2011-06-28 2015-03-03 Utah State University Turbo processing for speech recognition with local-scale and broad-scale decoders
US9401148B2 (en) 2013-11-04 2016-07-26 Google Inc. Speaker verification using neural networks
US9620145B2 (en) 2013-11-01 2017-04-11 Google Inc. Context-dependent state tying using a neural network
US9514753B2 (en) 2013-11-04 2016-12-06 Google Inc. Speaker identification using hash-based indexing
US9858919B2 (en) 2013-11-27 2018-01-02 International Business Machines Corporation Speaker adaptation of neural network acoustic models using I-vectors
US9520128B2 (en) * 2014-09-23 2016-12-13 Intel Corporation Frame skipping with extrapolation and outputs on demand neural network for automatic speech recognition
US9786270B2 (en) 2015-07-09 2017-10-10 Google Inc. Generating acoustic models
US10229672B1 (en) 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
US10437929B2 (en) * 2016-03-31 2019-10-08 Maluuba Inc. Method and system for processing an input query using a forward and a backward neural network specific to unigrams
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
US10706840B2 (en) 2017-08-18 2020-07-07 Google Llc Encoder-decoder models for sequence to sequence mapping
DE102021212857A1 (de) * 2021-11-16 2023-05-17 Robert Bosch Gesellschaft mit beschränkter Haftung Computerimplementiertes Verfahren, Vorrichtung und Computerprogramm zum Bestimmen von Trajektorien aus einer Menge von Trajektorien für Messungen an einem technischen System

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US4805225A (en) * 1986-11-06 1989-02-14 The Research Foundation Of The State University Of New York Pattern recognition method and apparatus
US4852180A (en) * 1987-04-03 1989-07-25 American Telephone And Telegraph Company, At&T Bell Laboratories Speech recognition by acoustic/phonetic system and technique
US4975961A (en) * 1987-10-28 1990-12-04 Nec Corporation Multi-layer neural network to which dynamic programming techniques are applicable
US4876731A (en) * 1988-02-19 1989-10-24 Nynex Corporation Neural network model in pattern recognition using probabilistic contextual information
JP2545982B2 (ja) * 1989-05-10 1996-10-23 日本電気株式会社 パターン認識方法および標準パターン学習方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
日本音響学会平成2年度秋季研究発表会講演論文集 1−8−22「ニューラルネット予測型HMMによる音声認識」p.43〜44(平成2年9月19日発表)
電子情報通信学会技術研究報告[音声],Vol.89,No.340,SP89−83,「ニューラルネット駆動型HMM」,p.55〜62(1989/12/14)
電子情報通信学会技術研究報告[音声],Vol.89,No.90,SP89−23,「ニューラルネットによる予測モデルを用いた音声認識」,p.81〜87(1989/6/22)
電子情報通信学会誌 D−▲II▼,Vol.J73−D−▲II▼,No.8,「ニューラル予測モデルを用いた不特定話者音声認識」,p.1315−1321(平成2年8月)

Also Published As

Publication number Publication date
EP0510632B1 (en) 1998-09-02
CA2066952C (en) 1997-03-04
DE69226804D1 (de) 1998-10-08
EP0510632A3 (en) 1993-12-15
CA2066952A1 (en) 1992-10-25
EP0510632A2 (en) 1992-10-28
JPH04324500A (ja) 1992-11-13
US5600753A (en) 1997-02-04
DE69226804T2 (de) 1999-01-21

Similar Documents

Publication Publication Date Title
JP2979711B2 (ja) パターン認識方式および標準パターン学習方式
CN107615308B (zh) 循环神经网络的学习方法及用于该学习方法的计算机程序、和声音识别装置
JP2996926B2 (ja) 音素シンボルの事後確率演算装置及び音声認識装置
Graves et al. Framewise phoneme classification with bidirectional LSTM networks
JP3003276B2 (ja) 信号解析装置
JP6222821B2 (ja) 誤り修正モデル学習装置、及びプログラム
CN105845128B (zh) 基于动态剪枝束宽预测的语音识别效率优化方法
EP0705473B1 (en) Speech recognition method using a two-pass search
CN111081230B (zh) 语音识别方法和设备
JP2000099080A (ja) 信頼性尺度の評価を用いる音声認識方法
EP0453649B1 (en) Method and apparatus for modeling words with composite Markov models
US5956676A (en) Pattern adapting apparatus using minimum description length criterion in pattern recognition processing and speech recognition system
JP5060006B2 (ja) 音声認識システムの自動的再学習
Mohamed et al. HMM/ANN hybrid model for continuous Malayalam speech recognition
JP2002358096A (ja) リストからの一パターンの一実現変形例にそれぞれが厳密に関連付けられたパターン認識システムのパラメータを訓練する方法及びシステム
EP0553101B1 (en) A pattern recognition device using an artificial neural network for context dependent modelling
Tang Hybrid Hidden Markov Model and artificial neural network for automatic speech recognition
EP0725383B1 (en) Pattern adaptation system using tree scheme
JP2000298663A (ja) ニューラルネットワークを用いた認識装置およびその学習方法
JP2531227B2 (ja) 音声認識装置
JPH064097A (ja) 話者認識方法
JP2545982B2 (ja) パターン認識方法および標準パターン学習方法
JP2897220B2 (ja) 信号処理装置
JP3000642B2 (ja) パターン認識方式および標準パターン学習方式
JP2996925B2 (ja) 音素境界検出装置及び音声認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees