JPH11212591A - パターン認識方法及びパターン認識装置並びにパターン認識プログラムが記録された記録媒体 - Google Patents

パターン認識方法及びパターン認識装置並びにパターン認識プログラムが記録された記録媒体

Info

Publication number
JPH11212591A
JPH11212591A JP1090198A JP1090198A JPH11212591A JP H11212591 A JPH11212591 A JP H11212591A JP 1090198 A JP1090198 A JP 1090198A JP 1090198 A JP1090198 A JP 1090198A JP H11212591 A JPH11212591 A JP H11212591A
Authority
JP
Japan
Prior art keywords
pattern
probability
standard
matrix
covariance matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1090198A
Other languages
English (en)
Inventor
Ikuo Fujita
育雄 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Corp
Original Assignee
Pioneer Electronic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Electronic Corp filed Critical Pioneer Electronic Corp
Priority to JP1090198A priority Critical patent/JPH11212591A/ja
Priority to DE69924769T priority patent/DE69924769T2/de
Priority to EP99300463A priority patent/EP0932143B1/en
Publication of JPH11212591A publication Critical patent/JPH11212591A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】 認識性能を大きく劣化させることなく、処理
に必要な計算量とメモリ量の削減可能なパターン認識方
法等を提供する。 【解決手段】 マイク1から入力された音声に対し、特
徴抽出部2において特徴ベクトルが抽出され、確率計算
部4において抽出した特徴ベクトルと各標準パターンと
の確率計算に基づく比較が行われる。この際、各標準パ
ターンの共分散行列として共通の平均行列を使用する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置など
のパターン認識装置の技術分野に属し、より詳しくは、
認識パターンの分布を多次元正規分布で表しパターン認
識の計算を行うパターン認識装置の技術分野に属する。
【0002】
【従来の技術】従来から、人間により知覚される各種情
報をコンピュータを利用してパターン認識させる方法が
知られている。特に、人間の発声した音声を認識し、そ
の言語内容を理解させるための音声認識は、ヒューマン
インターフェースの要素技術として重要になっている。
【0003】このような音声認識に代表されるパターン
認識をコンピュータを用いて処理する場合、情報源の統
計的性質に着目して、確率モデルを適用したパターン認
識の手法が一般化している。例えば、音声パターンの時
系列による状態遷移を確率的に表現する隠れマルコフモ
デル(HMM;Hidden Marcov Model)がその代表的な
ものである。このような手法においては、情報源から認
識に必要な特徴ベクトルを抽出し、モデル化された標準
パターンと確率計算に基づく比較を行ってパターンが認
識される。そして、この標準パターンの確率分布は、通
常、多次元正規分布で表され、平均ベクトルと共分散行
列によって記述することができる。ここで、前記特徴ベ
クトルの次元数がNである場合、前記共分散行列はN×
Nの行列となり、確率計算の計算はNの2乗の比例して
計算量が必要となり、また標準パターンの総数がM個で
ある場合、このMに比例して計算量は増えていく。
【0004】
【発明が解決しようとする課題】しかしながら、上記特
徴ベクトルは、例えば符号化に対応させる場合などは、
上記次元数Nを大きくせざるを得ないこともあり、一層
きめの細かい認識処理を行うためには、上記標準パター
ン総数Mを多く必要となることもある。上述したよう
に、確率計算においては、計算量が次元数Nの2乗と、
標準パターン総数Mとに比例して増大していくので、N
とMの値を大きくした場合は、膨大な計算量となること
が考えられる。また、計算量に対応して必要なメモリ量
も同程度の規模で増大することが避けられない。
【0005】一方、音声認識装置等において認識処理を
実行する場合には、リアルタイム処理が要求されること
が多いので、このような計算量及びメモリ量の増大に対
応するために、高速なCPUや大容量のメモリ等の高価
な部品を採用するなど装置の大幅なコスト上昇を招くこ
とも懸念される。すなわち、確率モデルを適用してある
程度の品質を保持しつつ低コストなパターン認識を実現
することが困難であるという問題点があった。
【0006】そこで、本発明は、上記の問題点に鑑みな
されたもので、その課題は、確率計算に際して必要な計
算量とメモリ量を、認識性能を大きく劣化させることな
く低減させることを可能とするパターン認識方法及びパ
ターン認識装置並びにパターン認識プログラムが記録さ
れた記録媒体を提供することにある。
【0007】
【課題を解決するための手段】上記課題を解決するた
め、請求項1に記載の発明は、複数の標準パターンが平
均ベクトルと共分散行列による確率分布として表現され
る確率モデルを用いて、入力されたパターンを認識する
パターン認識方法であって、前記入力されたパターンの
特徴を示す特徴ベクトルを検出する検出工程と、前記検
出した特徴ベクトルと前記複数の標準パターンとの確率
計算に基づく比較を行い、前記計算結果に基づいて前記
入力されたパターンを認識する認識工程とを備え、前記
認識工程において、前記検出した特徴ベクトルと一の前
記標準パターンとの確率計算を行うに際し、前記一の標
準パターンの共分散行列として複数の標準パターンの共
分散行列の平均行列を用いることを特徴とする。
【0008】請求項1に記載の発明によれば、検出工程
においては、入力パターンの特徴ベクトルが検出され
る。一方、認識工程において、前記特徴ベクトルと前記
標準パターンとの比較がなされ、その際、個々の共分散
行列ではなく、前記共分散行列の平均行列を用いて確率
が計算され、全ての標準パターンについて同様の計算を
行って、その結果に基づき最終的に入力パターンが認識
される。
【0009】よって、多様なパターンに対応させるた
め、確率モデルとしての標準パターンの総数を多くとっ
た場合であっても、認識処理に必要な確率計算に際し、
それぞれの標準パターン毎の共分散行列を、その平均行
列により代表させて計算を行うので、必要な計算量が大
幅に減少するとともに、計算に付随して使用するメモリ
の容量も小さくできる。
【0010】請求項2に記載の発明は、請求項1に記載
の発明において、前記複数の標準パターンを所定数のク
ラスに分類するとともに、前記共分散行列の平均行列を
前記クラス毎に設定し、前記検出した特徴ベクトルと一
の前記標準パターンとの確率計算を行うに際し、前記一
の標準パターンの共分散行列として前記一の標準パター
ンが属するクラスに設定された平均行列を用いることを
特徴とする。
【0011】請求項2に記載の発明によれば、複数の標
準パターンは、その総数より少ない所定数のクラスに分
類される。そして、そのクラス毎に共分散行列の平均行
列を求め確率計算が行われる。
【0012】よって、適切なクラスの分類を行うことに
より、各共分散行列とその平均行列との隔たりを相対的
に小さくすることができ、認識処理における確率計算の
精度は一層向上する。
【0013】請求項3に記載の発明は、複数の標準パタ
ーンが平均ベクトルと共分散行列による確率分布として
表現される確率モデルを用いて、入力されたパターンを
認識するパターン認識装置であって、前記入力されたパ
ターンの特徴を示す特徴ベクトルを検出する検出手段
と、前記検出した特徴ベクトルと前記複数の標準パター
ンとの確率計算に基づく比較を行い、前記計算結果に基
づいて前記入力されたパターンを認識する認識手段とを
備え、前記認識手段において前記検出した特徴ベクトル
と一の前記標準パターンとの確率計算を行うに際し、前
記一の標準パターンの共分散行列として複数の標準パタ
ーンの共分散行列の平均行列を用いることを特徴とす
る。
【0014】請求項3に記載の発明によれば、検出手段
により、入力パターンの特徴ベクトルが検出される。一
方、認識手段により、前記特徴ベクトルと前記標準パタ
ーンとの比較がなされ、その際、個々の共分散行列では
なく、前記共分散行列の平均行列を用いて確率が計算さ
れ、全ての標準パターンについて同様の計算を行って、
その結果に基づき最終的に入力パターンが認識される。
【0015】よって、多様なパターンに対応させるた
め、確率モデルとしての標準パターンの総数を多くとっ
た場合であっても、認識処理に必要な確率計算に際し、
それぞれの標準パターン毎の共分散行列を、その平均行
列により代表させて計算を行うので、必要な計算量が大
幅に減少するとともに、計算に付随して使用するメモリ
の容量も小さくでき、パターン認識装置の設計において
低コストな部品の採用を容易にする。
【0016】請求項4に記載の発明は、請求項3に記載
の発明において、前記複数の標準パターンを所定数のク
ラスに分類するとともに、前記共分散行列の平均行列を
前記クラス毎に設定し、前記検出した特徴ベクトルと一
の前記標準パターンとの確率計算を行うに際し、前記一
の標準パターンの共分散行列として前記一の標準パター
ンが属するクラスに設定された平均行列を用いることを
特徴とする。
【0017】請求項4に記載の発明によれば、複数の標
準パターンは、その総数より少ない所定数のクラスに分
類される。そして、そのクラス毎に共分散行列の平均行
列を求め確率計算が行われる。
【0018】よって、適切なクラスの分類を行うことに
より、各共分散行列とその平均行列との隔たりを相対的
に小さくすることができ、パターン認識装置で実行され
る確率計算の精度は一層向上する。
【0019】請求項5に記載の発明は、請求項3又は請
求項4に記載の発明において、前記共分散行列の平均行
列を算出する算出手段をさらに備えることを特徴とす
る。
【0020】請求項5に記載の発明によれば、算出手段
により、複数の標準パターンに対する共分散行列から、
その平均行列を計算して求め、以後の確率計算に際し
て、この平均行列が用いられる。
【0021】よって、予めこの平均行列を計算してメモ
リ等に保持しておかなくても、パターン認識の都度、改
めて平均行列が計算されるので、データの変更等が必要
な場合などにも、パターン認識装置の設計変更をするな
ど柔軟に対処できる。
【0022】請求項6に記載の発明は、コンピュータ
に、複数の標準パターンが平均ベクトルと共分散行列に
よる確率分布として表現される確率モデルを用いて、入
力されたパターンを認識するパターン認識方法を実行さ
せるためのプログラムを記録した記録媒体であって、前
記入力されたパターンの特徴を示す特徴ベクトルを検出
する検出工程と、前記検出した特徴ベクトルと前記複数
の標準パターンとの確率計算に基づく比較を行い、前記
計算結果に基づいて前記入力されたパターンを認識する
認識工程とを備え、前記認識工程において、前記検出し
た特徴ベクトルと一の前記標準パターンとの確率計算を
行うに際し、前記一の標準パターンの共分散行列として
複数の標準パターンの共分散行列の平均行列を用いるこ
とを特徴とする。
【0023】請求項6に記載の発明によれば、検出工程
においては、入力パターンの特徴ベクトルが検出され
る。一方、認識工程において、前記特徴ベクトルと前記
標準パターンとの比較がなされ、その際、個々の共分散
行列ではなく、前記共分散行列の平均行列を用いて確率
が計算され、全ての標準パターンについて同様の計算を
行って、その結果に基づき最終的に入力パターンが認識
される。
【0024】よって、多様なパターンに対応させるた
め、確率モデルとしての標準パターンの総数を多くとっ
た場合であっても、認識処理に必要な確率計算に際し、
それぞれの標準パターン毎の共分散行列を、平均行列に
より代表させて計算を行うので、必要な計算量が大幅に
減少でき、計算に付随して使用するメモリの容量も小さ
くできるパターン認識プログラムとして機能する。
【0025】請求項7に記載の発明は、請求項6に記載
の発明において、前記複数の標準パターンを所定数のク
ラスに分類するとともに、前記共分散行列の平均行列を
前記クラス毎に設定し、前記検出した特徴ベクトルと一
の前記標準パターンとの確率計算を行うに際し、前記一
の標準パターンの共分散行列として前記一の標準パター
ンが属するクラスに設定された平均行列を用いることを
特徴とする。
【0026】請求項7に記載の発明によれば、複数の標
準パターンは、その総数より少ない所定数のクラスに分
類される。そして、そのクラス毎に共分散行列の平均行
列を求め確率計算が行われる。
【0027】よって、適切なクラスの分類を行うことに
より、各共分散行列とその平均行列との隔たりを相対的
に小さくすることができ、パターン認識プログラムで処
理される確率計算の精度は一層向上する。
【0028】請求項8に記載の発明は、請求項6又は請
求項7に記載の発明において、前記共分散行列の平均行
列を算出する算出工程をさらに備えることを特徴とす
る。
【0029】請求項8に記載の発明によれば、算出工程
において、複数の標準パターンに対する共分散行列か
ら、その平均行列を計算して求め、以後の確率計算に際
して、この平均行列が用いられる。
【0030】よって、予めこの平均行列を計算してメモ
リ等に保持しておかなくても、パターン認識の都度、改
めて平均行列が計算されるので、データの変更等が必要
な場合などにも柔軟に対処可能なパターン認識プログラ
ムとして機能する。
【0031】
【発明の実施の形態】以下、本発明の好適な実施形態に
ついて、図面に基づいて説明する。本実施形態は、音声
認識装置に対して本発明を適用した場合の形態である。
【0032】始めに、上記HMMを用いた音声認識につ
いて、図1及び図2を用いて一般的に説明する。
【0033】上記HMMは、状態遷移確率で結びつけら
れた複数個の状態を持ち、ある状態からある状態へ遷移
する際に所定のシンボル系列を出力するように特徴付け
られたマルコフモデルである。なお、一般に音声認識に
おいては、時間が逆行することのないleft-to-right形
式のマルコフモデルが用いられる。
【0034】このHMMを用いた音声認識装置において
は、予め、認識対象とする全ての単語についてHMMを
作成し、辞書に登録しておく。そして、音声認識に際し
ては、辞書中からHMMを順次読み出し、それぞれのH
MMについて入力音声と同じ観測シンボル系列を出力す
る確率(尤度)を計算し、最も大きな確率を与えるHM
Mに対応する単語を認識結果として出力する。
【0035】図1に、HMMの例を示す。このHMM
は、2つのシンボルa、bを出力可能なモデルの例であ
って、内部状態としてS1〜S3の3つの状態を有して
いる。状態はS1からスタ−トし、S3で終了するよう
になっている。各状態S1〜S3を結ぶ矢印線が状態遷
移を表し、各矢印線の側に書かれたaijが状態遷移確
率、cijがそのときのシンボル出力確率を表してい
る。なお、シンボル出力確率cijの〔 〕の中の上側
要素がシンボルaの出力確率、下側要素がシンボルbの
出力確率である。
【0036】いま、一例として入力音声の観測シンボル
系列が(aab)であるとき、図1のHNMがこの観測
シンボル系列(aab)を出力する確率(尤度)を計算
すると、次のようになる(例えば、太河内正明「マルコ
フモデルによる音声認識」電子情報通信学会誌1987
年4月号参照)。
【0037】まず、観測シンボル系列(aab)の音節
の長さは/a/a/b/の3であり、この時点で図1の
HMMにおいて観測シンボル系列(aab)を出力可能
な遷移経路(パス)は、S1→S1→S2→S3、S1
→S2→S2→S3及びS1→S1→S1→S3の3つ
のルートに限定される。
【0038】各遷移経路について観測シンボル系列(a
ab)が出力される確率は、その遷移経路に沿った状態
遷移確率aijとシンボル出力確率cijの全積で表さ
れるので、それぞれ次のような値となる。すなわち、 S1→S1→S2→S3の場合、0.3×0.8×0.5×1.0×
0.6×0.5=0.036 S1→S2→S2→S3の場合、0.5×1.0×0.4×0.3×
0.6×0.5=0.018 S1→S1→S1→S3の場合、0.3×0.8×0.3×0.8×
0.2×1.0=0.01152 観測シンボル系列(aab)を出力する可能性は、上記
3つの遷移径路のいずれにもあるので、これら3つの確
率の和、すなわち、 0.036+0.0l8+0.0ll52=0.065
52 が、図1のHMMにおける観測シンボル系列(aab)
を出力する確率(尤度)となる。なお、簡易的には、上
記計算した3つの確率の中の最も大きな値0.036を
そのHMMの確率として代表させてもよい。
【0039】このような確率計算を辞書中に登録されて
いる全てのHMMについて行ない、得られた確率の中で
最も大きな値を与えるHMMに対応する単語を認識結果
として出力すれば、入力音声を認識することができる。
【0040】なお、HMMには、図2(a)及び(b)
に示すようにシンボル出力確率cijが不連続的に変化
する離散分布型のHMMと、シンボル出力確率cijが
連続的に変化する連続分布型のHMMとがある。このう
ち、離散分布型のHMMは量子化誤差が発生するため、
音声認識では連続分布型のHMMが用いられることが一
般的である。
【0041】図2(b)に示すように、連続分布型のシ
ンボル出力確率cijは、確率分布が正規分布に従い変
化する。そして、シンボルの平均ベクトルμと分散Σに
よってこの分布を規定することができる。従って、連続
分布型のHMMは、状態遷移確率aij(図1参照)、
上記シンボルの平均ベクトルμ及び分散Σの3つのパラ
メ−タによってモデル全体が記述されることになる。
【0042】各登録単語について上記HMMを作成する
には、音声モデルを表す母集団中の多数のサンプルを用
いて学習し、上記3つのパラメ−タを推定すればよい。
この推定方法として具体的には、例えば前向き後向きア
ルゴリズムなど、種々のアルゴリズムが知られている。
【0043】また、図1に例示したようなHMMが所定
の観測シンボル系列(aab)を出力する確率(尤度)
の計算方法についても、前向きアルゴリズム、ビタビ(V
iterbi)アルゴリズムなど、種々のアルゴリズムが知ら
れている。
【0044】次に、本実施形態に係る音声認識装置の構
成について、図3を用いて説明する。
【0045】図3に示すように、本実施形態に係る音声
認識装置は、マイク1と、入力音声を分析して音声の性
質を特徴づけるパラメータのベクトルである特徴ベクト
ルを検出する特徴抽出部2と、各単語についてのHMM
を格納した辞書3と、認識手段としての確率計算部4及
び判定部5とにより構成されている。なお、図3は本発
明の音声認識装置を機能ブロックで表現したものであ
り、実際には、マイクロコンピュータやDSPなどでソ
フトウェア的に実現され、マイク1やその他の部品とと
もに全体が構成される。
【0046】図3において、マイク1に向かって音声を
発声すると、その入力音声信号は、特徴抽出部2におい
て適当な窓長(フレーム長)で切り出され、当該フレー
ム毎に所定の観測シンボル系列(例えば、10次元のメ
ルケプストラム等)に変換され、確率計算部4に送られ
る。
【0047】確率計算部4は、辞書3に登録されている
全てのHMMを順次読み出し、それぞれのHMMについ
て上記観測シンボル系列を生成する確率(尤度)を順次
計算する。
【0048】判定部5は、上記計算された確率値の中か
ら最大となるものに対応するHMMを選択し、入力音声
に対応する認識結果とする。
【0049】ここで、本実施形態において、確率計算部
4と判定部5により行われる認識処理について、より具
体的に説明する。
【0050】特徴部2において検出される特徴ベクトル
は、入力音声の処理単位である1フレーム又は複数フレ
ーム毎にまとめてベクトルとして扱われ、特徴ベクトル
yを構成する。そして、辞書3に格納されるHMMの標
準パターンの分布θiとこの特徴ベクトルyとの比較が
行われる。なお、当該ベクトルの次元数はNとし、辞書
3中の標準パターンの分布θiの個数はM個であるとす
る。
【0051】この標準パターンの分布θiは、一般に多
次元正規分布に従い、各分布のN次元の平均ベクトルμ
iとN×N次元の共分散行列Σiによって表現される。そ
して、各標準パターンの分布θiと特徴ベクトルyとの
比較をするに際し、次式を計算して確率密度関数biを
求める。
【0052】
【数1】 また、上式において、Diは特徴ベクトルと各標準パタ
ーンとの距離を示すものであり、 Di=(y−μi)tΣi-1(y−μi) で与えられる。ただし、tは転置、−1は逆行列を表
す。
【0053】通常、上記計算を元に認識結果を得るため
には、辞書3内の全ての標準パターンについて計算を行
う必要がある。その際、Diを求めるにあたっては、
(y−μi)tと(y−μi)がN次元で、Σi-1がN×
N次元であり、分布θiの個数がM個であることを考慮
すると、M×(N2+N)回程度の乗算回数が必要とな
る。さらに、計算の過程を保持するためのメモリについ
ても、同程度の規模の容量が要求される。そのため、次
元数Nを大きくとると、認識処理のための処理量、メモ
リ量とも飛躍的に大きくなってしまうので、特にリアル
タイム処理が要求される場合などに、支障を来すことと
なる。
【0054】本実施形態においては、この点を解決する
ために以下に説明するような処理によって、認識処理の
ための処理量とメモリ量の削減を図っている。
【0055】まず、共分散行列ΣiのM個の分布θiにつ
いての平均行列Σaを計算する。そして、上記Diの計算
の際、各分布の共分散行列Σiを近似的にΣaで置き換え
る。ここで、Σaの逆行列Σa-1は対称行列であるから、 Σa-1=AtA のように、N次元行列Aの積に分解することができる。
【0056】従って、Diは次の式のように計算でき
る。
【0057】 Di=(y−μi)tΣa-1(y−μi) =(y−μi)AtA(y−μi) =(Ay-Aμi)t(Ay-Aμi) ここで、Aμiの計算は、辞書3における標準パターン
が変更された場合にのみ行えばよく、認識処理時にその
都度計算する必要はない。また、Ayの計算も、M個全
ての分布θiとの比較を行う前に一回行えばよい。
【0058】よって、DIを求めるにあたって必要な乗
算回数は、N2+M×N回程度となり、対応するメモリ
量についても同程度の規模となる。従って、平均行列Σ
aを用いない場合のM×(N2+N)回と比較して、計
算量、メモリ量とも、かなり少なくなることがわかる。
また、標準パターン総数Nと次元数Nが大きくなるほ
ど、計算量とメモリ量の削減の効果も大きくなっていく
ことがわかる。
【0059】このように個々の標準パターンの共分散行
列Σiを平均行列Σaで置き換えて近似的な確率計算を行
う場合は、厳密な確率計算を行う場合と比較して精度は
少し低くなる。しかし、確率モデルにおける共分散行列
は、例えば平均ベクトルμiなどと比べて、相対的に各
分布間の差は少ないため、このような近似計算を行った
としても、通常のパターン認識処理における最終的な認
識結果にはあまり影響を与えることはない。なお、この
点は、実験的にも確認されている。
【0060】なお、この平均行列Σaは、予め計算を行
った上で、算出された値を、ROM等に保持しておき、
認識処理に際して値を読み取って確率計算に用いること
ができる。また、平均行列Σaを予め求めるのではな
く、認識処理に際して計算を行って値を求め、その値を
確率計算に用いるようにすることもできる。前者の方法
では、後者の方法に比べ処理量の点で有利となるが、後
者の方法は前者の方法よりも、標準データの組み合わせ
の変更などに伴い平均行列Σaの値の修正が必要な場合
にも柔軟に対処できる点では有利である。
【0061】次に、上述した計算方法では、辞書3中に
登録されている複数の標準パターンに対して共分散行列
の平均行列を1つだけ求めるものであるが、この平均行
列を複数個求める方法もとることができる。具体的に
は、標準パターンの各分布θiをその特性に応じてK個
(K<M)のクラスに分類し、それぞらのクラス内で共
分散行列の平均行列を求めた上で、距離Diを各クラス
における平均行列を用いて前述のように計算する。この
ようにすると、DIを求めるにあたって必要な乗算回数
は、K×N2+M×N回程度となり、対応するメモリ量
についても同程度の規模となる。従って、計算量とメモ
リ量の削減の効果は1つの平均行列を求める場合と比べ
るとやや小さくなるが、確率計算における精度は向上す
る。よって、高精度が要求される特別なパターン認識を
行う場合には、このような計算方法を採用することが望
ましい。
【0062】なお、本発明は上記音声認識装置に対して
適用される場合に限定されるものではなく、その他のパ
ターン認識装置、パターン認識方法に対して広く適用可
能である。
【0063】また、本発明は上述した本発明に係るパタ
ーン認識装置を機能させるプログラムは、コンピュータ
に読み取り可能なROM、CD−ROM、フロッピーデ
ィスク等の記録媒体に記録させることが可能である。そ
して、当該ROM等を用いてコンピュータにおいて当該
プログラムをインストールし、実行することにより、本
発明のパターン認識装置が実現される。
【0064】
【発明の効果】以上説明したように、請求項1に記載の
発明によれば、認識処理中の確率計算の際、各標準パタ
ーンの共分散行列を、その平均行列で代表させて計算処
理をするようにしたので、必要な計算量が大幅に減少す
るとともに、計算に付随して使用するメモリの容量も小
さくできる。よって、パターン認識に伴う処理負担を軽
減し、コスト低減を可能とする。
【0065】請求項2に記載の発明によれば、複数の標
準パターンをクラスに分類し、クラス毎に共分散行列の
平均行列を求め代表させ確率計算を行うようにしたの
で、各共分散行列とその平均行列との隔たりを相対的に
小さくでき、確率計算の精度を一層高める。よって、良
好なパターン認識性能を保持しつつ、処理負担の軽減と
コスト低減を可能とする。
【0066】請求項3に記載の発明によれば、認識処理
中の確率計算の際、各標準パターンの共分散行列を、そ
の平均行列で代表させて計算処理をするようにしたの
で、必要な計算量が大幅に減少するとともに、計算に付
随して使用するメモリの容量も小さくできる。よって、
パターン認識装置に高価な部品を用いる必要性を減ら
し、コスト低減を可能とする。
【0067】請求項4に記載の発明によれば、複数の標
準パターンをクラスに分類し、クラス毎に共分散行列の
平均行列を求め代表させ確率計算を行うようにしたの
で、各共分散行列とその平均行列との隔たりを相対的に
小さくでき、確率計算の精度を一層高める。よって、良
好なパターン認識性能を保持しつつ、パターン認識装置
のコスト低減を可能とする。
【0068】請求項5に記載の発明によれば、複数の標
準パターンの共分散行列の平均行列を求めて記憶し、こ
の値を用いて以後の確率計算を行うようにしたので、予
めメモリ等に平均行列を保持せず、処理の度に計算すれ
ばよく、データ変更等にも柔軟に対処できる。よって、
より処理の自由度が大きいパターン認識装置が提供され
る。
【0069】請求項6に記載の発明によれば、認識処理
中の確率計算の際、各標準パターンの共分散行列を、そ
の平均行列で代表させて計算処理をするようにしたの
で、必要な計算量が大幅に減少するとともに、計算に付
随して使用するメモリの容量も小さくできる。よって、
パターン認識のための処理を効率的に行い、コスト低減
に有利なソフトウェアを提供できる。
【0070】請求項7に記載の発明によれば、複数の標
準パターンをクラスに分類し、クラス毎に共分散行列の
平均行列を求め代表させ確率計算を行うようにしたの
で、各共分散行列とその平均行列との隔たりを相対的に
小さくでき、確率計算の精度を一層高める。よって、良
好なパターン認識性能を保持しつつ、効率的な処理がで
き、コスト低減に有利なソフトウェアを提供できる。
【0071】請求項8に記載の発明によれば、複数の標
準パターンの共分散行列の平均行列を求めて記憶し、こ
の値を用いて以後の確率計算を行うようにしたので、予
めメモリ等に平均行列を保持せず、処理の度に計算すれ
ばよく、データ変更等にも柔軟に対処できる。よって、
より処理の自由度が大きいソフトウェアを提供できる。
【図面の簡単な説明】
【図1】HMMの概念を示す図である。
【図2】HMMの種類を示す図であり、(a)は離散分
布型のHMMを示す図であり、(b)は連続分布型のH
MMを示す図である。
【図3】本実施形態の音声認識装置の構成を示すブロッ
ク図である。
【符号の説明】
1…マイク 2…特徴抽出部 3…辞書 4…確率計算部 5…判定部

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 複数の標準パターンが平均ベクトルと共
    分散行列による確率分布として表現される確率モデルを
    用いて、入力されたパターンを認識するパターン認識方
    法であって、 前記入力されたパターンの特徴を示す特徴ベクトルを検
    出する検出工程と、 前記検出した特徴ベクトルと前記複数の標準パターンと
    の確率計算に基づく比較を行い、前記計算結果に基づい
    て前記入力されたパターンを認識する認識工程と、を備
    え、 前記認識工程において、前記検出した特徴ベクトルと一
    の前記標準パターンとの確率計算を行うに際し、前記一
    の標準パターンの共分散行列として複数の標準パターン
    の共分散行列の平均行列を用いることを特徴とするパタ
    ーン認識方法。
  2. 【請求項2】 前記複数の標準パターンを所定数のクラ
    スに分類するとともに、前記共分散行列の平均行列を前
    記クラス毎に設定し、前記検出した特徴ベクトルと一の
    前記標準パターンとの確率計算を行うに際し、前記一の
    標準パターンの共分散行列として前記一の標準パターン
    が属するクラスに設定された平均行列を用いることを特
    徴とする請求項1に記載のパターン認識方法。
  3. 【請求項3】 複数の標準パターンが平均ベクトルと共
    分散行列による確率分布として表現される確率モデルを
    用いて、入力されたパターンを認識するパターン認識装
    置であって、 前記入力されたパターンの特徴を示す特徴ベクトルを検
    出する検出手段と、 前記検出した特徴ベクトルと前記複数の標準パターンと
    の確率計算に基づく比較を行い、前記計算結果に基づい
    て前記入力されたパターンを認識する認識手段と、を備
    え、 前記認識手段において前記検出した特徴ベクトルと一の
    前記標準パターンとの確率計算を行うに際し、前記一の
    標準パターンの共分散行列として複数の標準パターンの
    共分散行列の平均行列を用いることを特徴とするパター
    ン認識装置。
  4. 【請求項4】 前記複数の標準パターンを所定数のクラ
    スに分類するとともに、前記共分散行列の平均行列を前
    記クラス毎に設定し、前記検出した特徴ベクトルと一の
    前記標準パターンとの確率計算を行うに際し、前記一の
    標準パターンの共分散行列として前記一の標準パターン
    が属するクラスに設定された平均行列を用いることを特
    徴とする請求項3に記載のパターン認識装置。
  5. 【請求項5】 前記共分散行列の平均行列を算出する算
    出手段をさらに備えることを特徴とする請求項3又は請
    求項4に記載のパターン認識装置。
  6. 【請求項6】 コンピュータに、複数の標準パターンが
    平均ベクトルと共分散行列による確率分布として表現さ
    れる確率モデルを用いて、入力されたパターンを認識す
    るパターン認識方法を実行させるためのプログラムを記
    録した記録媒体であって、 前記入力されたパターンの特徴を示す特徴ベクトルを検
    出する検出工程と、 前記検出した特徴ベクトルと前記複数の標準パターンと
    の確率計算に基づく比較を行い、前記計算結果に基づい
    て前記入力されたパターンを認識する認識工程と、を備
    え、 前記認識工程において、前記検出した特徴ベクトルと一
    の前記標準パターンとの確率計算を行うに際し、前記一
    の標準パターンの共分散行列として複数の標準パターン
    の共分散行列の平均行列を用いることを特徴とするパタ
    ーン認識方法を実行させるためのプログラムを記録した
    記録媒体。
  7. 【請求項7】 前記複数の標準パターンを所定数のクラ
    スに分類するとともに、前記共分散行列の平均行列を前
    記クラス毎に設定し、前記検出した特徴ベクトルと一の
    前記標準パターンとの確率計算を行うに際し、前記一の
    標準パターンの共分散行列として前記一の標準パターン
    が属するクラスに設定された平均行列を用いることを特
    徴とする請求項6に記載のパターン認識方法を実行させ
    るためのプログラムを記録した記録媒体。
  8. 【請求項8】 前記共分散行列の平均行列を算出する算
    出工程をさらに備えることを特徴とする請求項6又は請
    求項7に記載のパターン認識方法を実行させるためのプ
    ログラムを記録した記録媒体。
JP1090198A 1998-01-23 1998-01-23 パターン認識方法及びパターン認識装置並びにパターン認識プログラムが記録された記録媒体 Pending JPH11212591A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP1090198A JPH11212591A (ja) 1998-01-23 1998-01-23 パターン認識方法及びパターン認識装置並びにパターン認識プログラムが記録された記録媒体
DE69924769T DE69924769T2 (de) 1998-01-23 1999-01-22 Sprachmustererkennung unter Verwendung von Durchschnitts-Kovarianzmatrizen
EP99300463A EP0932143B1 (en) 1998-01-23 1999-01-22 Voice pattern recognition using average covariance matrices

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1090198A JPH11212591A (ja) 1998-01-23 1998-01-23 パターン認識方法及びパターン認識装置並びにパターン認識プログラムが記録された記録媒体

Publications (1)

Publication Number Publication Date
JPH11212591A true JPH11212591A (ja) 1999-08-06

Family

ID=11763215

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1090198A Pending JPH11212591A (ja) 1998-01-23 1998-01-23 パターン認識方法及びパターン認識装置並びにパターン認識プログラムが記録された記録媒体

Country Status (3)

Country Link
EP (1) EP0932143B1 (ja)
JP (1) JPH11212591A (ja)
DE (1) DE69924769T2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003001507A1 (en) * 2001-06-22 2003-01-03 Intel Corporation Hidden markov model with frame correlation
KR100408524B1 (ko) * 2001-08-22 2003-12-06 삼성전자주식회사 음성인식방법 및 그 장치

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102651218A (zh) * 2011-02-25 2012-08-29 株式会社东芝 用于创建语音标签的方法以及设备
CN114067834A (zh) * 2020-07-30 2022-02-18 中国移动通信集团有限公司 一种不良前导音识别方法、装置、存储介质和计算机设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58108600A (ja) * 1981-09-14 1983-06-28 リア−・シ−グラ−・インコ−ポレイテツド スピ−チ認識システム
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
US5715367A (en) * 1995-01-23 1998-02-03 Dragon Systems, Inc. Apparatuses and methods for developing and using models for speech recognition

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003001507A1 (en) * 2001-06-22 2003-01-03 Intel Corporation Hidden markov model with frame correlation
KR100408524B1 (ko) * 2001-08-22 2003-12-06 삼성전자주식회사 음성인식방법 및 그 장치

Also Published As

Publication number Publication date
EP0932143A2 (en) 1999-07-28
DE69924769D1 (de) 2005-05-25
EP0932143B1 (en) 2005-04-20
EP0932143A3 (en) 1999-12-29
DE69924769T2 (de) 2006-03-09

Similar Documents

Publication Publication Date Title
JP3581401B2 (ja) 音声認識方法
US5812975A (en) State transition model design method and voice recognition method and apparatus using same
JP5423670B2 (ja) 音響モデル学習装置および音声認識装置
JP4295118B2 (ja) パターン認識
JP3459712B2 (ja) 音声認識方法及び装置及びコンピュータ制御装置
JPS62231996A (ja) 音声認識方法
JP5692493B2 (ja) 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法
CN110853628A (zh) 一种模型训练方法、装置、电子设备及存储介质
JPWO2010128560A1 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
KR100574769B1 (ko) 최우법을 포함한 고유음성에 기초한 화자 및 환경 적응 방법
JP2010139745A (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
JP2009086581A (ja) 音声認識の話者モデルを作成する装置およびプログラム
US6226610B1 (en) DP Pattern matching which determines current path propagation using the amount of path overlap to the subsequent time point
JPS6273391A (ja) パタ−ン認識学習装置
EP0606913A2 (en) Method and system for recognizing pattern
JP6910002B2 (ja) 対話行為推定方法、対話行為推定装置及びプログラム
JPH11212591A (ja) パターン認識方法及びパターン認識装置並びにパターン認識プログラムが記録された記録媒体
KR101229108B1 (ko) 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법
JP6711343B2 (ja) 音声処理装置、音声処理方法及びプログラム
JP3091648B2 (ja) 隠れマルコフモデルの学習方法
JP2000259198A (ja) パターン認識装置および方法、並びに提供媒体
JP5104732B2 (ja) 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム
JP2004101963A (ja) 音声認識結果の訂正方法および音声認識結果の訂正のためのコンピュータプログラム
JPH11212588A (ja) 音声処理装置、音声処理方法、及び音声処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH10282986A (ja) 音声認識方法およびそのモデル設計方法