JPH02238496A

JPH02238496A - 音声認識装置

Info

Publication number: JPH02238496A
Application number: JP1057760A
Authority: JP
Inventors: Masafumi Nishimura; 雅史西村
Original assignee: NIPPON I B M KK; IBM Japan Ltd
Current assignee: NIPPON I B M KK; IBM Japan Ltd
Priority date: 1989-03-13
Filing date: 1989-03-13
Publication date: 1990-09-20
Anticipated expiration: 2009-05-11
Also published as: US5046099A; EP0388067B1; DE69010722T2; DE69010722D1; JPH0636156B2; EP0388067A2; EP0388067A3

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】Ａ．産業上の利用分野この発明はフエノニック・マルコフ・モデルを利用した
音声認識装置に関し、特にベクトル量子化用コードブッ
クの適応化を高精度かつ簡易に行えるようにしたもので
ある。

Ｂ．従来の技術マルコフ・モデルを利用した音声認識は確率的な観点か
ら音声の！！！識を行なおうとするものである。たとえ
ばそのうちの１つの手法では、まず、音声の特徴が一定
周期（フレームと呼ぶ）ごとに周波数分析されたのちに
ベクトル量子化され、ラベル（シンボル）の系列に変換
される。このラベルごとに１つのマルコフ・モデルが設
定される。また、登録用音声のラベル系列に基づいて、
単語ごとにこのマルコフ・モデルの系列（単語ベースフ
ォーム）が与えられる。それぞれのマルコフ・モデルに
は複数の状態と、これら状態間の遷移が規定され、これ
ら遷移にはその遷移の生起確率が割当てられ、また、状
態またはその遷移には、その状態または遷移においてラ
ベルを出力する確率が割当てられる。未知入力音声はラ
ベル系列に変換され、単語ベースフォームによって規定
される単語マルコフ・モデルの各々がこのラベル系列を
生成する確率を、上述の遷移生起確率及びラベル出力確
率（以下これらをパラメータと呼ぶ）に基づいて決定し
、ラベル生成確率が最大となる単語マルコフ・モデルを
求める。そしてこの結果に基づいて認識を行なう。

このようなラベル単位のマルコフ・モデルはフエノニツ
ク・マルコフ・モテ゛ルと呼ばれている。同じラベル名
で対応づけられたモデルは、モデルの訓練および認識時
に共通のモデルとして扱われる。フエノニツク・マルコ
フ・モデルについては以下の論文に詳細が記載されてい
る。

（　１　）　”Ａｃｏｕｓｔｉｃ　Ｍａｒｋｏｖ　Ｍｏ
ｄｅｌｓ　Ｕｓｅｄ　ｉｎＴｈｅ　　Ｔａｎｇｏｒａ　
　Ｓｐｅｅｃｈ　　Ｒｅｃｏｇｎｉｔｉｏｎ　　Ｓｙｓ
ｔｅｍ″（Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ＩＣＡＳＳ
Ｐ’８８．１９８８．４月，Ｓｌｌ−３．Ｌ．Ｒ．Ｂａ
ｈｌ．Ｐ．Ｆ．Ｂｒｏｖｎ，Ｐ．Ｖ．ｄｅ　Ｓｏｕｚａ
，Ｒ．Ｌ．Ｍｅｒｃｅｒ　ａｎｄ　Ｍ．Ａ．Ｐｉｃｈｅ
ｎｙ）ところで、上記のようなマルコフ・モデルを用い
た音声ＥＩＦＡでは、ベクトル量子化のコードブックの
作成と、マルコフ・モデルの推定、さらには単語ベース
フォームの登録用に大量の音声データが必要であり、ま
た、これらの操作を行うのにも多くの時間を必要とする
。しかも所定の話者の音声データで作成したシステムで
は、他の話者の認識精度が十分でない場合が多い。また
、同一話者であっても、学習時と認識時との間にかなり
の時間を置き、そのため環境が異なってしまうと、認識
精度が低下する。さらに環境雑音による認識精度の劣化
も問題となる。文献（１）では、卑語ベースフォームを
所定の話者の発声で作成しておくことで、学習時間を大
幅に削減してはいるが、量子化コードブックおよびマル
コフ・モデルのパラメータは話者ごとに推定しなおして
いるため、また多くの音声データと処理時間を要した。

近年このような課題を解決するために、所定の話者のベ
クトル量子化コードブックとマルコフ・モデルを、話者
や環境に対して適応化させることが提案されている。特
にベクトル量子化コードブックの適応化方法としては、
つぎ０２つの類型に分けて考えることが出来る。

１つは学習用の発声と所定の話者の発声との対応をＤＰ
マッチングによって求め、これを利用してコードブック
を適応化するものである。これについては、（２）”ベクトル量子化による話者適応化゜゜（電子通
４８学会技術研究報告、１９８６、１２月、ＳＰ８６−
６５、ｐｐ．３３−４０、鹿野清宏）に記載がある。しかしながらこの方法では特徴量の分布
が大幅に変化する場合には、正確な対応関係を求めるこ
とはできない。また、距離に基づく対応なので、マルコ
フ・モデル上での評惰とは必ずしも一致しないし、マル
コフ・モデルとは別にＤＰを必要とするため記憶量の面
でも効率が悪い。

２つめは時間軸上の対応関係を使わず、学習音声を元の
コードブックを参照しながらクラスタリングすることで
、適応化されたコードブックを作成するものである。こ
のような方法としては、（３）”スペクトル空間のクラスタ化に基づく教師なし
話者適応化方法゜゛（日本音響学会昭和６３年度春季全
国大会講演論文集、１９８８、３月、２−２−１６、古
井貞おき）（４）　”Ｓｐｅａｋｅｒ　Ａｄａｐｔａｔ
ｉｏｎ　Ｍｅｔｈｏｄ　ｆｏｒＨＭＭ−Ｂａｓｅｄ　Ｓ
ｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔｉｏｎ”、（Ｐｒｏｃｅ
ｅｄｉｎｇｓ　ｏｆ　ＩＣＡＳＳＰ’８８，１９３８．
４月＋３５−７．　Ｍ．Ｈｉｓｈｉａｕｒａ　　ａｎｄ
　　κ．Ｓｕｇａｗａｒａ）に記載がある。これらの方
法は多くの計算量、記憶量を必要とする。また、時間軸
上の対応関係を一切無視していることから、あまり精度
の高い適応化は期待できない。

その他、文献（４）にはマルコフ・モデルのパラメータ
を適応化する方法に関する記載がある。

Ｃ．発明が解決しようとする問題点この発明は以上の事情を考慮してなされたものであり、
ラベル間の対応関係を保持しつつ、大輻な特徴量の変動
にも適応化させることが出来、しかもその適応化を簡易
に行うことが出来る音声認識装置を提供することを目的
としている。

Ｄ．問題点を解決するための手段本発明では、まず適応化学習用の単語発声を一定周期ご
とに周波数分析して特微ベクトルの系列を求める。そし
て、この特徴ベクトル系列をＮ（１！Ｎ）個の区画に時
間軸上で分割（好ましくは等分割）し、所定の話者から
前以て求めておいた単語ベースフォームも同様にＮ個の
区画に分割（好ましくは等分割）することで各部分の対
応関係を得る。

ベースフォーム側もベクトル量子化コードブックを参照
することで特徴ベクトルの系列とみなせるから、各区画
の対応関係に基づき、それぞれの区画内の特徴量の代表
値（好ましくは平均値）の差（特徴量の移動ベクトル）
を求める。一方、各ラベルと各区画との対応の強さを、
ラベルの条件付の各区画の出現確率として求める。そし
て、（式１）に従い、この条件付確率を重みとして区画
ごとに求まる特徴量の移動ベクトルを合成することで、
各ラベルに対応するコードベクトルを適応化するように
している。一連の操作の概要を、適応化学習用単語数が
１、分割された区画数が２、ラベル数も２の場合を例に
とって第１図に示す。ただし、ｉ　　（１≦ｉ≦Ｗ）は
単語番号、ｊ　　（１≦ｊ≦Ｎ）は区画番号、ＳＩＪは
適応化学習用音声の単語１１区画ｊにおける特徴量の平
均ベクトル、Ｂ目は単語べ一スフォームと量子化コード
ブックによって推定される特徴量の平均ベクトル、Ｆｋ
はラベル番号ｋに対応するコードベクトル、Ｆｋ′は適
応化後のコードベクトルである。また、Ｐ（ｉ．ｊｌＬ
ｈ）はＬｍの条件付の単語１１区画ｊの出現確率である
。

ＷＮＦｋ’＝Ｆｈ＋ΣΣＰ　（ｉ．　ｊ　ｌＬｈ）｛Ｓ＋Ｊ
−ＢＢ｝　　　−−−　（式１）なお、ラベルの条件付
の各区画の出現確率Ｐ　（ｉ．　ｊ　ｌＬｍ）は、単語
ベースフォームについて各区画内のラベルの出現頻度Ｐ
　（Ｌｍｌ　ｉｓ　ｊ）を求め、これをベイズの定理に
従って変形すれば求まる。また、各区画内のラベルの出
現頻度としては、（式２）に示すように、単語ベースフ
ォーム中のラベルの出現頻度をフエノニック・マルコフ
・モデルのラベル出力確率を用いて平滑化したものを用
いることも出来る。ここでＭｋはラベルＬｋに対応付け
られたフエノニック・マルコフ・モデルの状態（フェノ
ン）であり、ｐ　（ｔｍｌＭ　Ｉ）はこのモデルのラベ
ル出力確率を表している。

Ｐ　（Ｌｍｌ　ｉ，ｊ）＝ΣＰ（ＬｍｌＭ１）Ｐ　（Ｍ
＋ｌｉ，ｊ）　　−−−（式２）Ｅ．実施例以下、この発明をフエノニック●マルコフ・モデルに基
づく単語音声認識に適用したー実施例について図面を参
照しながら説明しよう。第２図はこの実施例を全体とし
て示すものであり、この第２図において、入力音声デー
タはマイクロホン１および増幅器２を介してアナログ・
デジタル（Ａ／Ｄ）変換器３に供給され、ここでデジタ
ル・データとされる。デジタル化された音声データは特
徴抽出装置４に供給される。この特微抽出装置４におい
ては、まず音声データが離散フーリエ変換された後、聴
覚の特性を反映した２０チャンネル分の臨界帯域フィル
タの出力として取り出される。この出力は８ｍ秒毎に次
段の切り換え装置５に送られ、ベクトル量子化コードブ
ック初期学習装置６、ベクトル量子化コードブック適応
化装置７およびラベル付け装置８のいずれかに送られる
。ベクトル量子化コードブックの初期学習時には切り換
え装置５がコードブック初期学習装置６側に切り替わっ
て、臨界帯域フィルタの出力を初期学習装置６に供給す
る。初期学習装置６はクラスタリングによって１２８個
のコードベクトルからなるベクトル量子化コードブック
９を作成する。コードブックの適応化を行う際には切り
換え装置５が適応化装置７側に切り替わり、適応化装置
７が初期学習時のベクトル量子化コードブック９を初期
値とし、このあと説明する単語ベースフォーム・テーブ
ル１５を参照しながらコードブックの適応化を行う。な
お適応化装置７の詳細についてはのちに第４図を参照し
て説明する。認識を行う際あるいは単語ベースフォーム
の登録、マルコフ・モデルの初期学習、適応化を行う際
には切り換え装置５がラベル付け装置８側に切り替わり
、ラベル付け装置８はベクトル量子化コードブック９を
参照して順次ラベル付けを行ってゆく。たたし、マルコ
フφモデルの初期学習を行う際にはベクトル量子化コー
ドブックは初期学習時のものが用いられる。

なお、ラベル付けはたとえば第３図に示すように行なわ
れる。第３図においてＸは入力の特徴量、ＹＪは第ｊ番
目のラベルの特徴量（コードベクトル）、Ｍはコードベ
クトルの個数（−　１　２８）　、ｄｉｓｔ（Ｘ．　Ｙ
）はＸとＹＪとのユークリッド距離、ｍは各時点までの
ｄｉｓｔ（Ｘ．　Ｙ）の最小値である。なおｍは非常に
大きな値■に最初設定される。図から明らかなように入
力の特黴量Ｘはコードベクトルの各々と順次比較されて
いき、最も似ている、すなわち距離の最も小さいものが
ａｔｑされたラベル（ラベル番号）Ｌとして出力されて
ゆく。

第２図に戻る。ラベル付け装置８からのラベル系列は切
り換え装置１０を介して単語ベースフォーム登録１Ａｆ
ｌｌＬマルコフ・モデル初期学習装置１２、マルコフ・
モデル適応化装置１３および認識装置１４のいずれか１
つに供給される。単語ベースフォーム登録時には、切り
換え装置１０が単語ベースフォーム登録装置１１側に切
り替わって、ラベル系列を単語ベースフォーム登録装置
１１に供給する。単語ベースフォーム登録装置１１はラ
ベル系列を利用して、単語ベースフォーム・テーブル１
５を作成する。マルコフ・モデルの初期学習時には、切
り換え装置１０が初期学習装置１２偏に切り替わってラ
ベル系列を初期学習装置１２に供給する。初期学習装置
１２はラベル系列とベースフォーム・テーブル１５を利
用してモデルの訓練を行ない、パラメータ・テーブル１
６のパラメータ値を決定する。適応化を行う際には切り
換え装置１０が適応化装置１３側に切り替わり、適応化
装置１３が入力ラベル系列と、単語ベースフォーム上の
各フエノニツク・マルコフ・モデルとの対応関係を利用
してパラメータ・テーブル１６のパラメータ値を適応化
する。認識を行う際には切り換え装置１０が認識装置１
４４ｍｌに切り替わり、認識装置１４は入力ラベル系列
と、単語ベースフォームおよびパラメータ・テーブルに
基づいて入力音声の認識を行う。

！！識装置１４の出力はワークステーシコンｌ７に供給
され、たとえばその表示装置に表示される。なお第２図
においてマイクロフォン１、増幅器２、および表示装置
１７を除く全ての装置はワークステーシッン上にソフト
ウエアとして実現されている。なおワークステーシコン
としてはＩＢＭ社の５５７０処理装置、オペレーシリン
・システムとしては日本語ＤＯＳ，言語としてはＣ言語
およびマクロ・アセンプラを用いた。もちろん、八−ド
ウエアとして実現しても良い。

次にベクトル量子化コードブック適応化装置７の動作つ
いて第４図を参照しながら説明する。第４図はコードブ
ック適応化の手順を示すもので、この図においてまず、
ベクトル量子化コードブックから、各ラベルＬｈに対応
するコードベクトルＦｍが読みこまれる（ステップ１８
）。次に適応化学習用単語ｉの音声データが入力される
（ステップ２０）。この音声データを時間軸上でＮ等分
割し、それぞれの区画ｊにおける平均特徴ベクトルＳＮ
を推定する（ステップ２１）。また、単語ベースフォー
ムについても単語番号ｉのベースフォームを読み込む（
ステップ２２）。この単語ベースフォームも時間軸上で
Ｎ等分割し、ステップ１８で読みこんたコードベクトル
を参照することで、各区画ｊにおける平均特徴ベクトル
ＢＩＪを推定する（ステップ２３）。さらに各区画ｊに
おけるラベルＬｍの出現頻度Ｐ　（Ｌｋｌ　ｉｌ　Ｊ　
）もＮ等分割された単語ベースフォームから推定する（
ステップ２４）。ステップ２０〜２４の操作を全ての適
応化学習用語案に対して行なったのち、Ｐ　（Ｌｈｌ　
ｉ．ｊ）を変換し、ラベルの条件付の単語と区画の出現
確率Ｐ　（ｔ，ｊｌＬｍ）を求める（ステップ２７）。

そして式（１）に従って、全てのコードベクトルＦｋを
適応化し、既存のベクトル量子化コードブックをこの適
応化されたコードベクトルで置き換える（ステップ２８
）。

最後に「警報、平方、直線、直前」など類似性の高い１
５０単語を認識対象語索としてこの実施例の評価実験を
行った。この実験ではベクトル量子化コードブックおよ
びマルコフ・モデルの初期学習用の音声データは男性話
者１名の１０回分の１５０単語発声を用い、そして他の
１１名の話者（男性７名、女性４名》で適応化の効果を
みた。適応化は対象語索の一部（１０，２５，５０，１
００および１５０単語：各単語１回の発声）で行ない、
各話者３回分の１５０単語発声を用いて認識実験を行っ
た。第５図に認識実験結果を示す。ここで、横軸は適応
化学習用単語数、縦軸は平均誤認識率である。白丸はマ
ルコフ・モデルだけを適応化した場合の結果を、黒丸は
本発明をマルコフ・モデルの適応化と併用した場合の結
果を示している。なお、４％のところの実線は、初期学
習を行った話者での認識実験結果である。この結果から
、本発明を適用することによって、男性話者間では、初
期学習を行った話者とまったく同じ認識精度が、２５単
語１回の学習で得られている。また、特徴量の大輻な変
動のために、マルコフ・モデルだけの適応化では１５０
単語の学習を行っても１０％近い誤りのあった男女間の
適応化についても、本発明を用いることで、初期学習を
行った話者とほぼ同等の精度が得られることが分る。

なお、本発明は適応化に要する計算量や記憶量も僅かで
、小規模な処理装置上でも容易に実現することが出来る
。

Ｆ．発明の効果以上説明したように、この発明によれば僅かなデータで
簡易に音声認識システムの適応化を行うことが出来る。

しかも、そのための計算量や記憶量も少ない。

【図面の簡単な説明】

第１図はこの発明を説明するための図、第２図はこの発
明の一実施例を示すブロック図、第３図は第２図例のラ
ベル付け装置８を説明するフローチャート、第４図は第
２図例のベクトル量子化コードブック適応化装置７を説
明するフローチャート、第５図は本発明の適用結果の実
験データを示す図である。７・・・ベクトル量子化コードブック適応化装置、９・
・・ベクトル量子化コードブック、１５・・・単語ベー
スフォーム・テーブル、１６・・・パラメータ・テーブ
ル。出願人　日本アイ・ビー・エム株式会社復代理人　弁理
士　澤　田　俊　夫

Claims

【特許請求の範囲】

（１）入力音声を一定周期毎に周波数分析して特徴ベク
トルを得、さらにベクトル量子化コードブックを用いて
対応するラベルの系列を生成し、ラベルに対応するマル
コフ・モデルの連鎖として記述される複数の単語ベース
フォームと、上記ラベルの系列を整合させ、この整合結
果に基づいて入力音声の認識を行う音声認識装置におい
て、複数の単語入力音声をＮ（Ｎは２以上の整数）分割し、各単語入力音声の各セグメントの特徴ベク
トルの代表値を生成する手段と、上記単語入力音声に対
応する単語ベースフォームをＮ分割し、各単語ベースフォームの各セグメ
ントの特徴ベクトルの代表値を上記ベクトル量子化コー
ドブックのプロトタイプ・ベクトルに基づいて生成する
手段と、各単語入力音声の各セグメントの代表値と対応する単語ベースフォームの対応するセグメントの代
表値との間の変位を表示する変位ベクトルを生成する手
段と、上記各単語入力音声の各セグメントとベクトル量子化コードブックのラベル組中の各ラベルとの間
の関連度を記憶する手段と、上記ベクトル量子化コードブックのラベル組中の各ラベルのプロトタイプ・ベクトルを上記各変位
ベクトルにより当該ラベルおよび当該変位ベクトルとの
間の関連度に応じて修正するプロトタイプ適応化手段と
を有することを特徴とする音声認識装置。
（２）上記各単語入力音声の各セグメントの特徴ベクト
ルの代表値を当該セグメント中の特徴ベクトルの平均値
とした特許請求の範囲第１項記載の音声認識装置。
（３）上記各単語ベースフォームの各セグメントの特徴
ベクトルの代表値を当該セグメント中のラベルのプロト
タイプ・ベクトルの平均値とした特許請求の範囲第１項
または第２項記載の音声認識装置。
（４）上記各単語入力音声の各セグメントとベクトル量
子化コードブックのラベル組中の各ラベルとの間の関連
度をＰ（Ｌ＿ｋ｜ｉ、ｊ）＝ΣＰ（Ｌ＿ｋ｜Ｍ＿１）Ｐ（Ｍ
＿１｜ｉ、ｊ）ただし、Ｐ（Ｌ＿ｋ｜ｉ、ｊ）は単語ｉ
の単語入力音声のセグメントｊとベクトル量子化コードブックのラベル組中のラベルＬ＿ｋとの間の関連
度、Ｐ（Ｌ＿ｋ｜Ｍ＿１）はマルコフ・モデルＭ＿１に
おいてラベルＬ＿ｋを出力する確率、Ｐ（Ｍ＿１｜ｉ、
ｊ）は単語ｉのセグメントｊにおいてマルコフ・モデル
Ｍ＿１が生起する確率である。に基づいて求める特許請求の範囲第１項、第２項または
第３項記載の音声認識装置。
（５）上記プロトタイプ適応化手段において上記ベクト
ル量子化コードブックのラベル組中の各ラベルのプロト
タイプ・ベクトルを ▲数式、化学式、表等があります▼ ただしＦ＿ｋはラベルＬ＿ｋの修正前のプロトタイプ・
ベクトル、Ｆ＿ｋ’はラベルＬ＿ｋの修正後のプロトタ
イプ・ベクトル、Ｓ＿ｉ＿ｊは単語ｉの単語入力音声の
セグメントｊの特徴ベクトルの代表値、Ｂ＿ｉ＿ｊは単語ｉの単語ベー
スフォームのセグメントｊの特徴ベクトルの代表値である。に基づいて求める特許請求の範囲第４項記載の音声認識
装置。
（６）入力音声を一定周期毎に周波数分析して特徴ベク
トルを得、さらにベクトル量子化コードブックを用いて
対応するラベルの系列を生成し、ラベルに対応するマル
コフ・モデルの連鎖として記述される複数の単語ベース
フォームと、上記ラベルの系列を整合させ、この整合結
果に基づいて入力音声の認識を行う音声認識装置におい
て、複数の単語入力音声の各々の特徴ベクトルの代表値を生成する手段と、上記単語入力音声に対応する単語ベースフォームの各々の特徴ベクトルの代表値を上記ベクトル
量子化コードブックのプロトタイプ・ベクトルに基づい
て生成する手段と各単語入力音声の代表値と対応する単語ベースフォームの代表値との間の変位を表示する変位ベ
クトルを生成する手段と、上記各単語入力音声とベクトル量子化コードブックのラベル組中の各ラベルとの間の関連度を記憶
する手段と、上記ベクトル量子化コードブックのラベル組中の各ラベルのプロトタイプ・ベクトルを上記各変位
ベクトルにより当該ラベルおよび当該変位ベクトルとの
間の関連度に応じて修正するプロトタイプ適応化手段と
を有することを特徴とする音声認識装置。