JP2003295887A

JP2003295887A - 音声認識方法および装置

Info

Publication number: JP2003295887A
Application number: JP2002096318A
Authority: JP
Inventors: Seiichi Nakagawa; 聖一中川; Nobuhisa Takahashi; 伸寿高橋
Original assignee: Japan Science and Technology Corp
Current assignee: Japan Science and Technology Agency
Priority date: 2002-03-29
Filing date: 2002-03-29
Publication date: 2003-10-15

Abstract

(57)【要約】【課題】従来のＨＭＭを用いた認識手法では不十分で
あった不特定話者の連続音声に対する認識精度について
一層の改善を図ることである。【解決手段】従来のＤＰマッチングやＨＭＭで利用さ
れていない長区間にまたがるフレーム間の相関情報を利
用して、不特定話者の連続音声に対する認識率を向上さ
せる。そのため、複数の状態を持つ隠れマルコフモデル
（ＨＭＭ）の音声認識モデルを用いて、その各状態ごと
に対応する区間の入力音声フレームをフォースアライメ
ントにより切り出し、切り出された各フレームに含まれ
る入力特徴パターンを平均化したものを上記状態数分繋
ぎ合わせ、その結果得られたベクトルを、新たな認識パ
ラメータとして認識を行なうものである。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、不特定話者が連続
的に発声した入力音声を認識するのに好適な高精度の音
声認識方法および装置に関するものであり、特に隠れマ
ルコフモデル（Hidden Markov Model ：以下ＨＭＭ）に
よる音声認識モデルを用いた音声認識において、認識率
を向上させる有用な手段を提供する。

【０００２】

【従来の技術】音声認識の過程は、通常のパターン認識
の過程と同じく、分析・前処理、特徴抽出・セグメンテ
ーション、判定処理という３段階からなる。

【０００３】音声認識の極だった特徴は、時間的なパタ
ーンの伸縮がある時系列（動的）パターンであることで
ある。音韻区間や単語区間が正確に抽出できれば、その
区間内のパターンを線形に伸縮して固定長にすれば通常
の静的パターンの認識手法が使える。そこで、通常は短
区間の音声パターンを静的なパターン認識法で距離や尤
度を求めたり記号化し、その結果の時系列パターンを標
準の時系列パターンと照合するために動的に時間軸を正
規化する方法が使われる。

【０００４】また音声（言語）は、音韻（音素）−音節
−単語−文節（句）−文という階層をなしており、次段
階のパターン認識過程を経ることが必要である。例え
ば、音韻認識した結果（音韻候補系列、音韻ラティスと
いう）から単語を認識しなければならない。最初の認識
単位が単語単位であっても、単語候補系列（単語ラティ
ス）から文を認識しなければならない。

【０００５】音声パターンは、時間標本化された特徴ベ
クトルの時系列として表現される。通常、特徴ベクトル
としてはスペクトル包絡を表現する特徴パラメータ（ケ
プストラム）が用いられる。

【０００６】入力された音声パターンと、認識の対象と
なる単語等の標準パターンを、時間関数の制約のもと
で、あらゆる可能な照合を行い、その中で最小の累積照
合距離を、入力パターンと標準パターンの距離という。
入力音声パターンと、認識の対象となるすべての単語等
の標準パターンとの距離を計算し、その中で最小の距離
を示す単語等が認識結果とされる。この計算は動的計画
法（Dynamic rogramming:DP）を用いると効率よく解く
ことができるため、ＤＰマッチング法と呼ばれている。

【０００７】連続単語音声入力に対して、あらゆる可能
な単語列に対応する単語等の標準パターンの連結で表現
される標準パターンを用いたＤＰマッチング法を適用す
ると、両者の距離を最小とする単語列が得られるととも
に、フォースアライメントによって、入力音声パターン
の中の個別単語単位のセグメント（個別単語に対応する
入力特徴パラメータの組み合わせ）を切り出すことがで
きる。この操作を効率的に計算するアルゴリズムが開発
されている（例えば、中川聖一「確率モデルによる音声
認識」電子情報通信学会、１９８８）。

【０００８】ＤＰマッチングは、時系列パターンの時間
的構造の変動に対しては強力であるが、話者の個人差な
どに起因するスペクトルそのものの変動に対しては弱い
部分がある。パターンマッチングに基づく音声認識の立
場からは、これらの変動成分を統計量によって表現する
方法がある。その枠組みに登場したのが、隠れマルコフ
モデルＨＭＭである。ＨＭＭは、ＤＰマッチングを包含
しており、話者やコンテキストによる音声パターンの変
動を確率統計的にモデル化するものである。この考え方
は、時系列パターンの時間的構造の変動に対しても適用
できる。

【０００９】ＨＭＭでは、時系列の音声パターンのつな
がりを、各状態の初期確率と他の状態につながる可能性
を示す状態遷移確率、および各状態で音声パターンが生
起する出力確率で表現する。あらかじめ各単語に相当す
るＨＭＭを学習により求めておき、入力音声の出力シン
ボルの観測系列（たとえば１０ｍｓごとの音声特徴パラ
メータの変化）と同じ順序でシンボルが出力される確率
を、各単語のＨＭＭについて求め、最大確率を与えるＨ
ＭＭに対応する単語を認識結果とする。実際の音声認識
では、各状態から出力するシンボル（特徴パラメータベ
クトル）の確率は離散的に与えられない場合が多く、連
続的分布に対応する多次元正規分布、あるいは、その混
合で表す混合多次元正規分布で近似される。

【００１０】前述したように、音声パターンを表現する
特徴ベクトルとしては、通常、スペクトル包絡を表現す
る特徴パラメータ（ケプストラム）が用いられるが、従
来は連続する４フレーム分のメルケプトラム係数を１つ
のベクトルとし、このベクトルに対してＫＬ展開を用い
て２０次元に圧縮し入力ベクトルとするセグメント単位
入力ＨＭＭの方法にて音声認識の認識率の向上を図って
いた。しかしながら、このようなモデルにおいては、隣
接するフレーム間の相関は考慮されているが、長区間に
またがるフレーム間の相関は考慮されていないため、不
特定話者の連続音声に対する認識率は、単語で９０％、
音節で７０％程度であり、実用化のレベルには今１歩で
あった。

【００１１】

【発明が解決しようとする課題】本発明の課題とすると
ころは、従来のＨＭＭを用いた認識手法ではなお不十分
であった不特定話者の連続音声に対する認識精度につい
て一層の改善を図ることにある。

【００１２】

【課題を解決するための手段】本発明は、従来のＤＰマ
ッチングやＨＭＭで利用されていない長区間にまたがる
フレーム間の相関情報を利用して、不特定話者の連続音
声に対する認識率を向上させるものである。隣接しない
長区間にまたがるフレームには、文節や単語のような言
語的特徴以外に、発声者の声の質や方言によるアクセン
ト等による特徴が統計的に含まれていると考えられ、本
発明は、この情報を認識に利用可能にする。ここで隣接
しないフレーム間の特徴量を新たな認識パラメータとす
る場合、認識に必要な手順を簡略にするため、改めて時
間軸を正規化することなく認識パラメータを抽出できる
ことが望ましい。また比較するパラメータは、統計的な
特徴を持つと考えられるが、これは各状態の内部でのこ
とであり、隣接しないフレーム間の相関を認識に用いる
場合は、単なるベクトルデータの形で標準パターンとの
比較を行うのが望ましい。そこで本発明では、従来の音
節等を単位とするＨＭＭの中間結果を利用して、長区間
にまたがるフレーム間の特徴パラメータを抽出する。こ
のため、ＨＭＭの各状態ごとに割り当てられる各フレー
ムの特徴量の平均値を求めてこれを１つの入力ベクトル
とする音節セグメントの統計量を用い音声認識を行なう
ようにした。

【００１３】図１は、本発明の原理を例示的方法を用い
て示した概要説明図であり、認識に用いる音節セグメン
トモデルの生成過程を示す。図１（ａ）は、音節ＨＭＭ
の例であり、１音節５状態４出力分布の場合を示す。図
１（ｂ）は、入力フレームの時系列をＨＭＭの状態に対
応させて切り出した状態セグメントを示す。区分された
各入力フレームの特徴ベクトルはメルケプストラム係数
であり、各フレームは、１０次元の特徴ベクトルのボッ
クスで表現されている。図１（ｃ）は、ＨＭＭの各状態
に対応付けられたフレームの特徴ベクトルを状態ごとに
平均化した状態平均セグメントである。平均化された１
０次元の特徴ベクトル４個で合計４０次元のベクトルが
得られる。図１（ｄ）は、これらの平均化された特徴ベ
クトルを状態数分連結して得られる新しい４０次元の特
徴ベクトルの音節セグメントである。音節セグメント
は、さらに次元を圧縮されて、音節セグメントモデルへ
の入力ベクトルとなる。

【００１４】次に、図１（ａ）の音節ＨＭＭを例にし
て、音節セグメントモデルの生成過程についてさらに詳
述する。音節ＨＭＭを用いた音声認識モデルの場合、入
力音声から音節の中の各状態に対応付けられたフレーム
をフォースアライメントにより、切り出すことができ
る。フォースアライメントは、標準パターンや標準モデ
ル（ＨＭＭ）と入力時系列パターンを照合し、その照合
結果を逆に辿ることにより、入力時系列パターンの各フ
レームを標準パターンのフレームや標準モデルの状態に
対応させる手法である。

【００１５】各フレームは、図１（ｂ）のようにＨＭＭ
のいずれかの状態に対応付けられる。各状態には、時間
軸を正規化する前の複数の入力フレームのパターン、た
とえばメルケプストラム係数、が含まれる。これを状態
セグメントと呼ぶ。そこで、各フレームに含まれる入力
パターンを図１（ｃ）のように平均化して状態平均セグ
メントをつくり、さらに図１（ｄ）のように状態数分繋
ぎ合わせることにより得られる新たな入力ベクトルを、
音節セグメントと定義する。この入力ベクトルを混合多
次元正規分布等でモデル化したものを、ここでは音節セ
グメントモデルと呼ぶ。この音節セグメントモデルを用
いて、入力音声パターンに対して上述の方法で得られる
ベクトルを新たな認識パラメータとすることにより、長
区間にまたがるフレーム間の相関を利用した音声認識を
行うことができる。

【００１６】ただし音節セグメントモデルは、ＨＭＭに
よる状態間の遷移確率モデルを利用していないことと、
複数フレームのパターンを平均していることのため、局
所的なフレーム間の相関が失われる。そこで、音節セグ
メントモデルとＨＭＭとを併用することにより、さらに
高い認識率を得ることができる。

【００１７】併用の際、音節セグメントモデルにより求
められる確率は、２０次元のような固定次元の分布によ
り求められるもので、音節のフレーム数に依存しない。
一方、ベースＨＭＭは、フレーム単位の確率をフレーム
数分連乗したものである。この両者を併用する場合、確
率を正規化しておくのが好ましい。

【００１８】

【発明の実施の形態】次に、図２により、本発明の１実
施の形態による音声認識装置について説明する。図２に
おいて、１は音声認識装置、２は入力音声信号、３はＡ
／Ｄ変換部、４は特徴抽出部、５は音節ＨＭＭ部、６は
音節セグメント生成部、７は状態フレーム切り出し部、
８は特徴平均化演算部、９は平均化特徴連結部、１０は
音節セグメントモデル部、１１は認識処理部、１２は認
識出力である。

【００１９】音声認識装置１へ入力音声信号２が入力さ
れると、まず、Ａ／Ｄ変換部３でサンプリングされると
ともにフレーム単位にディジタル信号に変換され、特徴
抽出部４で分析されて、特徴を抽出される。ここで言う
フレームは、一定サンプリング周期の単位入力である。
音声のサンプリング条件は、サンプリング周波数１２ｋ
Ｈｚで、分析窓長は２１．３３ｍｓである。フレーム単
位入力の場合、フレーム周期は８ｍｓｅｃである。各フ
レームは、特徴抽出により、１０次元のＬＰＣメルケプ
ストラム係数の特徴ベクトルで表現される。なお、ベー
スＨＭＭの音節ＨＭＭ部５がセグメント単位入力の場合
は、４入力フレームの４０次元をＫＬ展開で２０次元に
圧縮して用いている。

【００２０】ベースとなるＨＭＭの音節ＨＭＭ部５に
は、連続出力分布型５状態４出力分布全共分散行列４混
合正規分布の音節モデルを用いた。すなわち、各状態に
おける特徴ベクトルの分布は４混合正規分布でモデル化
した。特徴量は１０次元のＬＰＣメルケプストラムの４
フレームを２０次元に圧縮したものにΔケプストラム＋
ΔΔケプストラム＋Δpow ＋ΔΔpow を加えた計４２次
元である。そして音節数は１１４である。

【００２１】なお、ＬＰＣメルケプストラムとは、音声
を線形予測モデルでモデル化した時の線形予測係数から
得られる対数パワースペクトラムの逆フーリエ変換で定
義されるＬＰＣケプストラム係数に対して、スペクトル
の周波数軸をメルスケールに変換したものである。

【００２２】またΔケプストラムとΔΔケプストラムと
は、ケプストラム係数の時間の動的変化の特徴を表すた
めの特徴パラメータで、時間変化パターンを線形回帰曲
線で近似した時の、１次と２次の係数である。

【００２３】またΔpow とΔΔpow とは、音声の強さを
表すパワーの時間変化パターンを線形回帰曲線で近似し
た時の、１次と２次の係数である。

【００２４】特徴抽出部４から連続出力されるフレーム
は、音節ＨＭＭ部５と音節セグメント生成部６に入力さ
れる。音節セグメント生成部６の状態フレーム切り出し
部７は、音節ＨＭＭ部５から得られる各状態ごとの時間
情報に基づいて、入力フレームを状態対応で切り出し、
各フレームをＨＭＭの状態ごとに区分する。

【００２５】特徴平均化演算部８は、ＨＭＭの状態ごと
にその状態に属するフレームの特徴量を平均化する。

【００２６】平均化特徴連結部９は、ＨＭＭの状態ごと
に平均化されたフレームの特徴量を状態数分連結して、
新しい特徴ベクトルとなる音節セグメントを生成し、音
節セグメントモデル部１０へ入力する。

【００２７】音節セグメントモデル部１０は、ＨＭＭの
各状態に対応する区間の特徴量の平均を連結した音節セ
グメントを入力特徴パターンとして音節セグメントモデ
ルの作成とスコアの計算をする。音節セグメントモデル
は、対角共分散行列と全共分散行列で表現される混合多
次元正規分布のそれぞれで作成される。混合数は、全共
分散行列で１混合と４混合、対角共分散行列で１６混合
と３２混合をそれぞれ作成する。また、音節セグメント
の４０次元の特徴量をＫＬ展開し、２０次元に圧縮した
入力ベクトルを用いたモデルもそれぞれ作成される。さ
らに、同様にしてΔケプストラムを併用したモデルも作
成される。

【００２８】認識対象として入力される音声についても
音節セグメントが生成され、認識処理部１１は、音節セ
グメントモデル部１０に作成された音節セグメントモデ
ルに基づきその認識処理を行なう。このとき、認識処理
部１１は、音節ＨＭＭ部５を用いる認識処理も並行して
行ない、両者の認識結果による音節ＨＭＭの音響スコア
と音節セグメントモデルの音響スコアを併用して、音節
認識の精度を向上させることができる。この場合、尤度
の正規化のために音節セグメントの尤度はフレーム数分
倍した後、それぞれの音響スコアを重み付けで加算して
用いる。

【００２９】ここでは、本発明の１実施形態のみを述べ
たが、ベースとなるＨＭＭの単位（たとえば、音素ＨＭ
Ｍ、音節ＨＭＭ、単語ＨＭＭなど）、ＨＭＭの状態数
（たとえば、３、４、５など）、サンプリング周波数
（たとえば、１１．０２５ｋＨｚ、１２ｋＨｚ、１６ｋ
Ｈｚ）やフレーム周期（たとえば、５ｍｓ、８ｍｓ、１
０ｍｓ）、特徴パラメータ（たとえば、ＬＰＣメルケプ
ストラム、ＭＦＣＣ＝メル周波数ケプストラム係数な
ど）、次元圧縮法（たとえばＫＬ展開、ＬＤＣ＝判別関
数、部分空間法など）、など様々な変形が可能であり、
それらはすべて本発明の実施の形態となるものである。

【００３０】

【発明の効果】各条件における認識率の実験結果を表１
と表２に示す。ここで、Ｄ１６とは音節セグメントモデ
ルで対角共分散行列をもつ１６個の混合正規分布を、Ｋ
Ｌは、ＫＬ展開で４０次元を２０次元に圧縮したもの、
Ｆ４は全共分散行列をもつ４個の混合正規分布を表わ
す。また、Δは１次と２次の動的変化特徴を用いること
を表わす。frm とは、フレーム単位で入力パターンがＨ
ＭＭに入力されるもの、seg とは、隣接する４フレーム
をまとめた入力パターンがＨＭＭに入力されるものであ
る。表１のＣＣは、ベースＨＭＭおよび音節セグメント
モデルで正しく認識された数、ＣＳはベースＨＭＭで正
しく認識され音節セグメントモデルで誤認識された数、
ＳＣは、ベースＨＭＭで誤認識され音節セグメントモデ
ルで正しく認識された数、ＳＳはベースＨＭＭおよび音
節セグメントモデルで誤認識された数を表す。

【００３１】ＨＭＭの各状態に割り当てられる特徴ベク
トルを平均し、全状態のベクトルを連結して１つの入力
ベクトルとする音節セグメントモデルを作成し、ベース
のＨＭＭモデルとの両方を併用することにより、音節認
識率が８１．０％から８５．４％に向上した。

【００３２】このように、音節認識率を向上させること
によって、単語認識率の向上ができる。従って音声認識
システムや音声認識装置の性能を高精度化することがで
き、いろいろな分野に応用できる。たとえば、音声ワー
プロ（ディクテーション）の性能を向上できる。辞書に
登録されていない単語などの音声入力の認識の場合は、
音節列として認識結果を出力する。このような場合、音
節認識率が向上すると、全体の性能が向上する。

【００３３】〔表１〕切り出し区間に関する音節セグメントモデルの音節認識率〔％〕及び、ベースモデルとの正解単語傾向の集計モデル COR(％) CC CS SC SS D16 47.7 16516 14125 1520 5675 KL-D16 56.5 19351 11290 1804 5391 KL-D32 55.5 19198 11443 1813 6382 KL-F1 66.8 23227 7414 2046 5149 KL-F4 68.9 23747 6894 2302 4893 KL・F1＋Δ 75.4 25919 4722 2595 4600 KL・F4＋Δ 78.4 26612 4129 3141 4054 〔表２〕ベースモデルと音節モデルの併用による切り出し区間の音節認識モデル音節認識率〔％〕音節セグメントのみ 78.4 frm ・HMM のみ 81.0 frm ・HMM ＋音節セグメントモデル 85.3 seg ・HMM のみ 81.3 seg ・HMM ＋音節セグメントモデル 85.4

【図面の簡単な説明】

【図１】本発明の原理を例示的方法を用いて示した概要
説明図である。

【図２】本発明の１実施の形態による音声認識装置の構
成である。

【符号の説明】

１：音声認識装置２：入力音声信号３：Ａ／Ｄ変換部４：特徴抽出部５：音節ＨＭＭ部６：音節セグメント生成部７：状態フレーム切り出し部８：特徴平均化演算部９：平均化特徴連結部１０：音節セグメントモデル部１１：認識処理部１２：認識出力

Claims

【特許請求の範囲】

【請求項１】複数の状態を持つ隠れマルコフモデル
（ＨＭＭ）の音声認識モデルを用いて、その各状態ごと
に対応する区間の入力音声フレームをフォースアライメ
ントにより切り出し、切り出された各フレームに含まれ
る入力特徴パターンを平均化したものを上記状態数分繋
ぎ合わせ、その結果得られたベクトルを、新たな認識パ
ラメータとして認識を行なうことを特徴とする音声認識
方法。
【請求項２】上記認識パラメータと、フレームを状態
に対応付けるのに用いた隠れマルコフモデル（ＨＭＭ）
の音声認識モデルを併用して認識を行なうことを特徴と
する請求項１に記載の音声認識方法。
【請求項３】複数の状態を持つ隠れマルコフモデル
（ＨＭＭ）の音声認識モデル部と、入力音声フレームを、上記音声認識モデル部における隠
れマルコフモデル（ＨＭＭ）の各状態に対応する区間ご
とにフォースアライメントにより切り出す状態フレーム
切り出し部と、切り出された各フレームに含まれる入力特徴パターンを
上記区間ごとに平均化する特徴平均化演算部と、上記区間ごとの各フレームの入力特徴パターンの平均結
果を上記状態数分繋ぎ合わせて新たな特徴ベクトルを生
成する平均化特徴連結部と、生成された上記新たな特徴ベクトルを認識パラメータと
して認識を行なう認識処理部と、を備えていることを特徴とする音声認識装置。
【請求項４】上記認識処理部は、上記新たな特徴ベク
トルを認識パラメータとして行なう認識処理と、上記隠
れマルコフモデル（ＨＭＭ）の音声認識モデル部を用い
た認識処理とを併用して認識を行なうものであることを
特徴とする請求項３に記載の音声認識装置。