JP3115016B2

JP3115016B2 - 音声認識方法および装置

Info

Publication number: JP3115016B2
Application number: JP03071187A
Authority: JP
Inventors: 井利幸森; 見昌克星; 勝行二矢田
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 1991-04-03
Filing date: 1991-04-03
Publication date: 2000-12-04
Anticipated expiration: 2015-12-04
Also published as: JPH04305699A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、不特定話者が発声した
単語音声を認識するための方法および装置に関する。

【０００２】

【従来の技術】不特定話者を対象とした従来の音声認識
技術については、たとえば、「ワードスポッティング手
法を用いた不特定話者・少数語向け音声認識装置」（電
子通信情報学会ＳＰ８８−１８）に記載された方法が
一般的である。

【０００３】この方法では、入力された音声をまず音響
分析し、音声の特徴パラメータの時系列に変換する。一
方、あらかじめ認識装置側には、認識する単語毎にその
単語の音声の特徴を示す単語標準パターンが用意されて
いる。そして、話者の発声スピードを考慮して入力の特
徴パラメータ列を時間的に伸縮しながら、ベイズ判定に
基づく統計的距離尺度で単語標準パターンとのマッチン
グを行ない、最も距離が近いとされる単語を認識結果と
する。この単語標準パターンは、その単語の平均的な特
徴パラメータの時系列と、その分散行列によって構成さ
れている。この分散行列によって話者の声の違いを吸収
し、どんな話者の声でも認識することが可能となる。

【０００４】上記の単語標準パターンの作成は以下の手
順で行なう。（１）認識する単語集合（上記文献では１０数字）につ
いて、３３０名が発声した単語音声データを収録し、音
声データベースを作成する。（２）１つ１つの単語音声データに対して、スペクトル
波形などのディスプレイ表示により、人間が目視で音声
区間を検出し、単語の部分のみを切り出す。（３）切り出された区間を音響分析し、特徴パラメータ
（ＬＰＣケプストラム係数）の時系列を求め、さらに時
間的間引きを行ない同じ時間長にする。これを単語パタ
ーンと呼ぶ。（４）得られた単語パターンを各単語毎に集め、各パラ
メータ列の平均と共分散行列とを求める。

【０００５】このベイズ判定に基づく距離計算を行なう
ための標準パターンを作成するためには、上記のような
多次元正規分布を仮定した統計分析が必要である。した
がって、この構成の標準パターンは、数百名程度の多く
の話者の音声を統計処理しなくては得られない。上記文
献の例では、単語標準パターンを作成するために、３３
０名の話者が発声した単語音声データを使用している。
したがって、そのデータ作成には多大な労力が必要とな
る。

【０００６】また、上記以外の不特定話者用音声認識の
既存の方法としては、マルチ標準パターンを用いる方法
が挙げられる。これは、１つの単語の標準パターンを代
表的な単語パターン複数個により構成し、認識時には、
この複数の単語パターンと入力パターンとの照合を行な
うというものである。この方法は、複数のパターンを用
いることによって不特定話者の音声を認識しようとする
ものであるが、この複数のパターンを選択するために
は、上記統計的距離尺度に基づく標準パターン作成時と
同様に、多くの音声データと膨大な作業量とを必要とす
る。

【０００７】

【発明が解決しようとする課題】このように、既存の認
識方法では、認識対象の音声の標準パターン作成に、音
声データ収集や音声区間切り出し等のために多大な作業
量を必要とする。したがって、認識対象の単語や文章を
変更するのは大変困難であり、これは、語彙数が大きく
なればなるほど深刻な問題となる。

【０００８】本発明は、このような従来の問題を解決す
るものであり、１名から数名の少数話者が発声した認識
対象音声を用いて不特定話者の音声認識を可能にすると
ともに、認識対象音声を容易に変更できる音声認識方法
および装置を提供することを目的とする。

【０００９】

【課題を解決するための手段】本発明は、上記目的を達
成するために、入力声を分析して得られる特徴パラメー
タの時系列である特徴ベクトルに対して、あらかじめ多
数の話者で作成したパラメータ符号帳を用いて符号化を
行ない、同様に符号列に変換された少数話者の音声パタ
ーンと符号間確率テーブルの符号間の確率値を用いてマ
ッチングを行なうようにしたものである。

【００１０】

【作用】本発明は、上記構成により、まず入力音声を分
析して得られる特徴ベクトルに対して、多数の話者で作
成したパラメータ符号帳を用いて符号化を行ない、分析
単位時間（以下、フレームと呼ぶ。）毎に求めた符号を
並べて符号列を作成する。そして、１名から数名の少数
話者が発生した音声を同様に符号列に変換したものを基
に作成した標準パターンとのマッチングを行ない、類似
度を計算する。その際に用いられる符号間確率テーブル
に格納された類似度（確率値）は、多数の話者で作成し
た汎用性のある値であるので、個人性の影響を受けにく
い。したがって、この確率値を基に単語の類似度を求め
ることによって不特定話者の音声を認識することができ
る。

【００１１】また、どのような言葉も音素や音節の組合
せで記述できるので、上記のパラメータ符号帳と符号間
確率テーブルは１度作成しておけば十分であり、認識対
象音声を変更しても常に同じものが使用できる。従っ
て、不特定話者用の音声認識を行なうのに必要なもの
は、少数話者が発声した認識対象単語の音声データのみ
である。

【００１２】以上により、簡単な手続で不特定話者用の
音声認識が可能であり、かつ、語彙の変更に対して柔軟
性のある認識装置の実現が可能になる。

【００１３】

【実施例】以下、本発明の実施例について説明するが、
その前に本発明の基本的な考え方の背景について説明す
る。

【００１４】人の声は有声音と無声音の２つに分類され
る。有声音は、声帯の振動として発せられた振動音が、
調音器官と呼ばれる喉頭、咽頭、舌、あご、唇などで形
成される声道を通る間に様々な変調を受けて、口から音
声として出力されるという過程で発声される。すなわ
ち、「あ」、「い」、「う」等の音韻性は声道の形状に
より与えられるのである。また、無声音は、音源が声帯
でない場合もあるが、音韻性は有声音と同様に声道の形
状によって決定される。しかし、声道を形成する喉、
舌、歯、あご、唇等の形状や寸法は人毎に異なっている
し、声帯の大きさも性別や年齢で異なる。このために、
人毎に声の違いが生じることになる。つまり、人の違い
による声の差異は調音器官の違いによるところが大き
い。

【００１５】一方、声が「あ」、「い」、「う」等の音
韻としてでなく、単語や文として発せられるときは、声
道の形は時間的に変化し、その変化によって言葉が形成
される。たとえば、「赤い」（ａｋａｉ）と発声する場
合、声道は、あごが開き舌の後方に狭めのある／ａ／の
発声から、喉頭部の閉鎖と急激な開放を伴う／ｋ／に移
り、更に再び／ａ／の形状に戻ってから徐々に舌を唇側
に移動し、口を閉じた／ｉ／に移る。このような声道の
変化パターンは発声しようとしている言葉によって決る
ものであり、人の違いによる差異は少ないと考えられ
る。このように言葉としての音声を静的な声道の形状の
違いとその時間的な変化に分離して考えると、前者は話
者によってかなり異なるが、後者は比較的小さいと見る
ことが出来る。したがって、静的な声道の違いに基づく
差異を何等かの方法で正規化できれば、不特定話者の音
声認識が可能になる。

【００１６】ところで、声道の形状の違いは、発せられ
た音声信号中では、周波数スペクトルの違いとして表現
される。周波数スペクトルを話者間で正規化する最も単
純な方法は、音素や音節などの短時間の音声標準パター
ンとのマッチングを行なって、発声された音声を音素や
音節などの記号列にしてしまうことである。つまり、不
特定話者用として作成された汎用の音素や音節の標準パ
ターンを用いれば、話者の違いに大きく左右されずに、
各音素や音節のどれに近いかという類似度情報を得るこ
とができるのである。言換えると、周波数スペクトルを
パターンマッチングによって音素や音節の類似度に変換
することによって、話者の静的な声道の違いに基づく差
異を正規化することができるということである。そし
て、この正規化ができれば、声道の時間的変化は話者に
よる差異が少ないのであるから、声道の変化パターン
は、１人ないし数人分の音声データを上記正規化して得
られる類似度の時間パターンにより作成することができ
る。したがって、少数話者の単語や文節の発声により、
不特定話者用の音声標準パターンが得られる。

【００１７】このような考え方に基づき、本発明は次の
ように構成される。すなわち、予め多くの話者が発声し
た音声を分析して、話者が発声する音全体の特徴パラメ
ータの時系列である特徴ベクトルのセントロイド（重
心）の集合を作成し、各セントロイドに番号を付けてパ
ラメータ符号帳とする。また、その音声データに付加さ
れた音素位置のデータ（ラベルデータ）を利用して、上
記パラメータ符号帳内の各セントロイドが各音素である
確率を求めて、さらにその音素数の次元を持つ確率列か
ら各々のセントロイドがお互いに同じ音素である確率を
求めて、符号間確率テーブルを作成する。このテーブル
に書かれた確率値は、話者の静的な声道の違いに基づく
差異を受けにくい値である。標準パターンは、１名から
数名の話者が発声した認識対象音声を分析して得られる
特徴ベクトルを上記パラメータ符号帳を用いて符号化
し、セントロイドの番号の時系列（符号列）に変換する
ことにより得られる。認識時には、入力音声に対して音
響分析を行ない特徴ベクトルに変換した後、上記パラメ
ータ符号帳によって符号化し符号列を求める。そして、
標準パターンとしての符号列と照合を行なう。この際、
符号間の距離は、上記符号間確率テーブルを参照するこ
とにより求められる。

【００１８】以下、本発明の一実施例について図面を参
照して説明する。図１は本発明の一実施例の構成を示す
ものである。図１において、１は音響分析部、２はベク
トル探索部、３はパラメータ符号帳、４は符号列作成
部、５は辞書格納部、６はマッチング部、７は符号間確
率テーブルである。

【００１９】次に本実施例の動作について、最初に１名
の話者の音声を辞書に登録する場合について説明する。
図１において、まず入力音声に対して音響分析部１で１
フレーム（本実施例では１フレーム＝１０ｍｓｅｃ）毎
に線形予測分析（ＬＰＣ分析）を行ない、特徴パラメー
タとしてＬＰＣケプストラム係数（Ｃ0〜Ｃ8 まで９
個、Ｃ0 は正規化残差パワー項で対数変換しておく。）
を求める。

【００２０】次に、ベクトル探索部２において、各フレ
ームを中心とした特徴パラメータの時系列すなわち特徴
ベクトルとパラメータ符号帳３に格納されている各セン
トロイド（重心）とのユークリッド距離の計算を以下の
（数１）を用いて行ない、最も距離の近いセントロイド
の番号を求める。特徴ベクトルは、本実施例では中心フ
レームから前４、後４フレームの計９フレーム分のＬＰ
Ｃケプストラム係数（Ｃ0 〜Ｃ8 ）を１次元に並べたＶ
ｅｃｔｏｒｘ＝（Ｃｏ⁽¹⁾，Ｃ₁ ⁽¹⁾，・・・，Ｃ₈
⁽¹⁾，Ｃ₀ ⁽²⁾，Ｃ₁ ⁽²⁾，・・・，Ｃ₈ ⁽²⁾，・・・
Ｃ₈ ⁽⁹⁾）を意味する。

【００２１】

【数１】

【００２２】図２はこのベクトル探索部２における探索
の様子を示したものである。この図２の場合は、入力音
声の特徴ベクトルに距離ｄが一番近い符号「１」に符号
化される。そして、符号列作成部４において、各フレー
ム毎の番号を並べて符号列を作成する。

【００２３】ここで、ベクトル探索部２において使用さ
れるパラメータ符号帳３の作成方法について説明する。
まず、多くの話者について、音韻バランスのとれた音声
データを収録する。本実施例では多数の単語の音声デー
タを使用している。次に、その音声の音声区間全てにつ
いて上記と同様の音響分析を行ない、各フレームの特徴
ベクトルを求める。そして、それら全ての特徴ベクトル
を集めて特徴ベクトルの母集団を作成し、さらに、この
母集団に対してユークリッド距離に基づくクラスタリン
グを行ない、セントロイドを求めてパラメータ符号帳３
を作成する。このクラスタリングは、母集団に対してサ
ンプルとセントロイド（重心）間のユークリッド距離が
最小になるようなグループ分けを行ない、作成しようと
する符号帳サイズの数のグループにわけて、そのグルー
プのセントロイド（重心）で符号帳を作成する。

【００２４】クラスタリングには幾つかの方法があり、
本実施例に用いたクラスタリング・アルゴリズムは細胞
分裂型のアルゴリズムである。このアルゴリズムを以下
に順に示す。（１）Ｋ＝１（２）Ｋ個のグループのセントロイドを単純平均によ
り求める。そして、それぞれのグループに属する全ての
サンプルとセントロイドとのユークリッド距離を求め、
その最大値をそのグループの歪とする。（３）Ｋ個のグループの中で最も歪の大きいグループ
のセントロイドの附近に２つのセントロイドを作る（細
胞分裂の核になる。）。（４）Ｋ＋１個のセントロイドを基にグループ分けを
行ない、セントロイドを求め直す。（５）空のグループがあればそのセントロイドを抹消
して（３）へ戻る。（６）Ｋ＋１個のグループの歪を（２）と同様に求
め、その総和の変化量があらかじめ設定した微小なしき
い値以下であれば（７）へ進み、しきい値より大きい場
合は（４）へ戻る。（７）Ｋ＋１が目標のグループ数に達していなければ
Ｋ＝Ｋ＋１として（２）へ戻り、達していれば（８）へ
進む。（８）すべてのグループのセントロイドを求め、符号
帳を作成する。

【００２５】なお、上記アルゴリズムにおいて、本実施
例におけるパラメータ符号帳３に格納されたセントロイ
ドの数は全部で９２０個であり、収束検知に用いたしき
い値は０．０００１である。

【００２６】ここで再び図１の実施例の説明に戻る。符
号列作成部４において、各フレーム毎のセントロイドの
番号を並べて符号列を作成した後、マッチング部６にお
いて、辞書格納部５に格納されている音声パターンとし
ての符号列とのマッチングを、符号間確率テーブル７と
ＤＰマッチングを用いて行ない、各音声の類似度を求め
る。そして、各類似度を比較し、最も高いものを認識結
果として出力する。この辞書格納部５、マッチング部
６、符号間確率テーブル７について、以下に説明する。

【００２７】まず、辞書格納部５に格納される音声パタ
ーンの作成手順を述べる。最初に認識対象音声について
１人の話者の音声を収録する。次に、認識時と同様に音
響分析を行ない、特徴ベクトルを求める。さらに、認識
時と同様にパラメータ符号帳を用いて符号化を行ない、
各音声の符号列を求める。そして、この符号列を音声の
パターンとして辞書格納部５に格納する。

【００２８】次に、マッチング部６について述べる。入
力音声１から得られる符号列と辞書格納部５に格納され
ている音声パターンは、一般にその長さが異なってい
る。そこで、このマッチングをＤＰマッチングを用いて
行なう。本実施例で用いた漸化式の例を（数２）に示
す。

【００２９】

【数２】

【００３０】ここで、辞書側のフレーム番号がｊ、入力
のフレーム番号がｉ、第ｉフレームと第ｊフレームの類
似度がｌ（ｉ，ｊ）、累積類似度がｇ（ｉ，ｊ）であ
る。類似度ｌ（ｉ，ｊ）は、辞書側のｊ番目にある符号
と、入力のｉ番目の符号（セントロイドの番号）を基
に、符号間確率テーブル７を参照して求める。

【００３１】符号間確率テーブル７は、図３に示すよう
に、各符号間の類似度（同じである確率で、図３には生
の値を記しているが、実際には対数をとってある。）が
入っており、マッチングの際には、比較する符号を縦横
に見てその間の確率値を類似度として用いる。この値
は、２つのフレームが同じである確率であり、このＤＰ
マッチングの結果得られる累積類似度は、マッチングパ
スにおいて対応する全てのフレームが同じである確率に
なることに注意すべきである。この「２つのフレームが
同じである確率」については、以下の符号間確率テーブ
ル７についての説明の中でその意味を述べる。

【００３２】次に、符号間確率テーブル７について、そ
の考え方と作成法について説明する。ベクトル探索部２
において求められる符号は、特徴ベクトルのベクトル空
間（ユークリッド空間）上における大まかな位置を示す
ものである。また、上記課題を解決するための手段の項
で述べたように、少数の話者の音声データを不特定話者
用の標準パターンに変換するためには、多数話者の音声
データから作成した音素や音節の標準パターンとマッチ
ングを行なう必要がある。そこで、本実施例では音素を
基本単位とした統計分析により、その符号に符号化され
る特徴ベクトルが各音素に属する確率を求める。

【００３３】まず、音素の位置（始端と終端）がラベル
付けされている音声データを上記認識時と同様に音響分
析して、各フレームの特徴ベクトルを求めた後、上記パ
ラメータ符号帳３によって符号化し（最も近いセントロ
イドの番号を求める。）、各フレームの符号（セントロ
イドの番号）を求める。次に、ラベルを参照することに
より、そのフレームが何の音素に属しているかがわかる
ので、各セントロイド毎にその音素数分のエリアを用意
し、そのセントロイド番号になった特徴ベクトルの音素
番号のエリアに加算していく。その結果、図４のよう
に、各セントロイド番号のエリアには、その符号になっ
た特徴ベクトルが各音素であった個数が入っている。た
とえば、図４の符号「３」を例としてみると、多数話者
の全ての音声から得られた多くの特徴ベクトルのうち、
「３」に符号化されたものは全部で１２００個あり、こ
のうち３１個が／ａ／の音素であり、また、４０個が／
ｏ／、９３５個が／ｕ／であったことを示している。そ
こで、この個数を全体で割れば、その番号に符号化され
た特徴ベクトルが各音素になる確率が得られる。これを
確率列と呼ぶ。例えば、この例では、「３」に符号化さ
れた特徴ベクトルが／ａ／である確率は０．０２５８で
あり、／ｕ／である確率は０．７７９である。この値は
いづれも多数話者から求めた汎用性のある確率であるか
ら、音声をこの確率列に変換することによって、話者の
声道の違いに基づく差異を正規化できる。したがって、
入力音声の特徴パラメータとしてこの確率列を用いるこ
とは、個人性に影響されにくいという点で大変有効であ
る。

【００３４】そして、さらにこの確率列を用いて２つの
符号の類似度を求める。符号ｉが音素ｊに属する確率を
Ｐijとすると、符号ｍと符号ｎが同じ音素である確率Ｄ
mnは次の（数３）によって求めることができる。

【００３５】

【数３】

【００３６】最後に、このＤmnをマトリックスに表現し
て図３のような符号間確率テーブルを作成する。このＤ
mnは、人の違いによらず、その符号と符号が音素として
どれだけ似ているかという程度をあらわす値である。し
たがって、上記した辞書格納部５の説明文中における
「同じである確率」とは、この「同じ音素である確率」
に相当する。

【００３７】なお、本実施例における音素とは、／ａ
／，／ｏ／，／ｕ／，／ｉ／，／ｅ／，／ｊ／，／ｗ
／，／ｍ／，／ｎ／，／

【００３８】

【外１】

【００３９】／（語中），／ｂ／，／ｄ／，／ｇ／（語
頭），／ｒ／，／ｚ／，／ｈ／，／ｓ／，／ｃ／，／ｐ
／，／ｔ／，／ｋ／，Ｑ（促音），／＝／（撥音）の２
３音素とした。

【００４０】以上が、本実施例における１人の話者の音
声パターンを標準パターンとする音声認識方法である。
次に、複数の話者で標準パターンをつくる方法は２つあ
る。１つは、一人一人の音声パターンをそのままマルチ
パターンとしてマッチングに用いる方法で、この場合は
認識時の計算量はモデルとする話者数に比例して増加す
るが、より話者に適応した認識を行なうことができ、認
識性能を向上させることができる。２つ目は、それぞれ
の音声パターンの長さをＤＰマッチングを用いて正規化
してから平均化する方法である。この場合、平均化する
段階は、特徴ベクトルの段階と確率列の段階の２種類が
あり、どちらにしても、より安定した標準パターンを得
ることができ、認識性能を向上させることができる。

【００４１】ここで、本発明の有効性を検証するため
に、本実施例を用いて単語認識実験を行なった。単語数
は２１２個である。音素位置のラベル付けがなされた２
０人（男女各１０人）の話者の音声データを用いて、パ
ラメータ符号帳と符号間確率テーブルを作成し、この内
の１人（男性話者）の２１２単語の単語音声を用いて音
声の標準パターンを作成した。認識対象は上記話者以外
の話者２０人（男女各１０人）の２１２単語音声であ
る。実験の結果、平均９０．１％（男性８９．３９％、
女性９０．８１％）という高い単語認識率が得られた。
男性の音声パターンを用いているが、男女の認識率の差
はほとんど無い。したがって、ベクトル探索と符号間確
率による距離計算により、声の個人性が吸収されてお
り、１人の話者でも不特定用の標準パターンが得られる
ことが検証できた。

【００４２】このように、本実施例では、入力音声を音
響分析することによって得られる特徴パラメータの時系
列である特徴ベクトルを用い、そのままその空間上でマ
ッチングするのでなく、その特徴ベクトルを多数話者で
作成したパラメータ符号帳で符号化し、マッチングの際
に符号間確率テーブルを参照して符号間類似度を求める
ことにより、少数話者が発声した音声を登録するだけで
不特定話者の音声を精度良く認識することができるよう
になる。

【００４３】

【発明の効果】以上のように、本発明は、入力声を分析
して得られる特徴パラメータの時系列である特徴ベクト
ルに対して、あらかじめ多数の話者で作成したパラメー
タ符号帳を用いて符号化を行ない、同様に符号列に変換
された少数話者の音声パターンと符号間確率テーブルの
符号間の確率値を用いてマッチングを行なうことによっ
て、１人から数名の少数話者が発声した認識対象単語を
辞書として登録するだけで辞書が更新でき、また、高い
音声認識率を得ることができる。

【００４４】このように、本発明は、不特定話者用音声
認識装置の性能向上および様々な用途に適用するため
に、標準パターンを作成するための労力削減に対して極
めて大きく貢献することができる。

【図面の簡単な説明】

【図１】本発明の一実施例における音声認識装置の構成
を示すブロック図

【図２】同実施例におけるベクトル探索部の機能を説明
するための模式図

【図３】同実施例における符号間確率テーブルの一例を
示す説明図

【図４】同実施例における各セントロイドが各音素であ
った個数を示す説明図

【符号の説明】

１音響分析部２ベクトル探索部３パラメータ符号帳４符号列作成部５辞書格納部６マッチング部７符号間確率テーブル

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開昭61−83598（ＪＰ，Ａ) 特開昭62−232000（ＪＰ，Ａ) 特開平２−141800（ＪＰ，Ａ) 特開昭59−99500（ＪＰ，Ａ) 特開昭62−70898（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/00 - 17/00

Claims

(57)【特許請求の範囲】

【請求項１】予め多数の話者から得られた音声から音
響分析で得られた特徴ベクトルの空間の代表ベクトルを
パラメータ符号帳として格納する工程と、予め音素また
は音節位置のラベリングされた多数の話者の音声から特
徴ベクトルを求め、その特徴ベクトルから前記パラメー
タ符号帳を用いて生成した符号列と前記ラベリング情報
から各符号が各音素または音節に属する確率列を求め、
さらにその確率列を用いて２つの符号が同じ音素または
音節である確率値を符号間確率テーブルとして格納する
工程と、予め少なくとも１名の話者から得られた認識対
象音声に対して音響分析を行ない得られた特徴ベクトル
を前記パラメータ符号帳を用いて符号化し、各音声の符
号列を求め、この符号列を音声の標準パターンとして辞
書に格納する工程と、入力音声に対して音響分析を行な
い、特徴パラメータの時系列である特徴ベクトルと前記
代表ベクトルとの距離を求め最も近い代表ベクトルの符
号を求める工程と、前記代表ベクトルの符号を各フレー
ム毎の番号に並べて符号列を作成する工程と、前記辞書
に格納されている符号列と前記入力音声から得られた符
号列とを前記符号間確率テーブルの符号間の確率値を用
いてマッチングを行なう工程とを具備することを特徴と
する音声認識方法。
【請求項２】予め多数の話者から得られた音声から音
響分析で得られた特徴ベクトルの空間の代表ベクトルを
パラメータ符号帳として格納するパラメータ符号帳記憶
手段と、予め音素または音節位置のラベリングされた多
数の話者の音声から特徴ベクトルを求め、その特徴ベク
トルから前記パラメータ符号帳を用いて生成した符号列
と前記ラベリング情報から各符号が各音素または音節に
属する確率列を求め、さらにその確率列を用いて２つの
符号が同じ音素または音節である確率値を符号間確率テ
ーブルとして格納する符号間確率テーブル格納手段と、
予め少なくとも１名の話者から得られた認識対象音声に
対して音響分析を行ない得られた特徴ベクトルを前記パ
ラメータ符号帳を用いて符号化し、各音声の符号列を求
め、この符号列を音声の標準パターンとして辞書に格納
する辞書格納手段と、入力音声に対して音響分析を行な
い、特徴パラメータの時系列である特徴ベクトルと前記
代表ベクトルとの距離を求め最も近い代表ベクトルの符
号を求めるベクトル探索手段と、前記代表ベクトルの符
号を各フレーム毎の番号に並べて符号列を作成する符号
列作成手段と、前記辞書に格納されている符号列と前記
入力音声から得られた符号列とを前記符号間確率テーブ
ルの符号間の確率値を用いてマッチングを行なうマッチ
ング手段とを具備することを特徴とする音声認識装置。