JP3583930B2

JP3583930B2 - 音声認識装置及びその方法

Info

Publication number: JP3583930B2
Application number: JP26416298A
Authority: JP
Inventors: 昭一松永
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1998-09-18
Filing date: 1998-09-18
Publication date: 2004-11-04
Anticipated expiration: 2018-09-18
Also published as: JP2000099071A

Description

【０００１】
【発明の属する技術分野】
この発明は、音響特徴パラメータの軌跡に基づいて音声を認識するセグメントモデルを用いた音声認識装置及び方法に関する。
【０００２】
【従来の技術】
従来、音声認識における認識の基本単位としては、音素単位、副単語（サブワード）単位、単語単位等（以下これらをユニットと呼ぶ）があり、その単位に対して隠れマルコフモデル（ＨＭＭ）が音響モデルとして広く用いられている（例えば、中川聖一著、“確率モデルによる音声認識”、電子情報通信学会、昭和６３年７月発行参照。）。音声認識では音声をある一定時間間隔（ここではこれをフレームと呼ぶ）でパラメータ化する。このＨＭＭに基づく方式では、隣接するフレーム間のパラメータの値は独立であるとして、音声のモデル化、及び認識候補の尤度計算を行っていた。一方、人間の発声機構の制約により、音声の特徴パラメータは隣接するフレームでは独立とは考えられない。その点を補強するモデルとしてユニット内でのパラメータの値の連続性を仮定したセグメントモデルが提案されている（例えば、Ｍ．Ｏｓｔｅｎｄｏｒｆ他“ＦｒｏｍＨＭＭｓｔｏｓｅｇｍｅｎｔｍｏｄｅｌｓ：Ａｕｂｉｆｉｅｄｖｉｅｗｏｆｓｔｏｃｈａｓｔｉｃｍｏｄｅｌｉｎｇｆｏｒｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ”ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃｅｓｓｉｎｇ，ＳＡＰ−４（５），ｐｐ．３６０−３７８（１９９６−９））。
【０００３】
【発明が解決しようとする課題】
従来のＨＭＭではパラメータ値が独立と仮定され、パラメータの軌跡の連続性を十分に扱えなかった。また、これまでのセグメントモデルはユニット内のパラメータの連続性については捉えられていたが、ユニット外（隣接するユニット間）のパラメータ値との連続性については扱っておらず、認識性能はまだ十分ではなかった。この発明の目的は、当該セグメント（ユニット）の中だけではなく、隣接するセグメント（ユニット）とのパラメータ値の連続性を考慮することで上記の問題点を解決し、これを効率よくモデル化する方式を具備した、音声認識装置及び方法を提供することにある。
【０００４】
【課題を解決するための手段】
この発明によれば、入力された音声を音声音響特徴パラメータに分析し、その特徴パラメータの軌跡の情報に基づいて認識をおこなうセグメントモデルを用いた音声認識装置において、認識を行うセグメントの直前のセグメントの末尾の部分を含めた区間、あるいは直後のセグメントの先頭の部分を含めた区間、あるいは直前のセグメントの末尾の部分及び直後のセグメントの先頭の部分を含めた区間、すなわち隣接するセグメントへの遷移部分の特徴パラメータと、認識を行うセグメントの特徴パラメータを含めたセグメント区間の特徴パラメータを併せて、パラメータの軌跡を求め、その軌跡の情報に基づいたセグメントの尤度を用いて音声を認識することを特徴とする。つまり前記遷移部分を含む特徴パラメータの軌跡のそのセグメント情報に対する出現確率をモデルとして予め求めておき、このモデルと入力音声信号の特徴パラメータの軌跡との尤度を求める。
【０００５】
また、請求項２記載の発明では請求項１記載の発明において、上記セグメントの尤度計算において、当該セグメントの前後のセグメントのラベル情報も考慮して、当該セグメントの尤度を計算することを特徴とする。
【０００６】
【発明の実施の形態】
以下、図面を参照してこの発明に係る実施形態について説明する。図１は、この発明の要部である特徴パラメータの軌跡を求める範囲を示す図である。図１に認識対象となるｉ番目のセグメント（具体的には音素、副単語（サブワード）、単語）のラベルをｗｉ、その前のセグメントのラベルをｗｉ−１、後ろのセグメントのラベルをｗｉ＋１とそれぞれする。また、それぞれのセグメントのラベルｗｉ，ｗｉ−１，ｗｉ＋１における各フレームごとに得られる特徴パラメータの軌跡をそれぞれＡｉ，Ａｉ−１，Ａｉ＋１とする。この発明では、前後のセグメントのすべてを用いると、処理量が多くなるばかりでなく、軌跡の推定精度も落ちるため、前後のセグメントの遷移部分、即ち認識を行うセグメントの直前のセグメントに関しては末尾の部分Ｂｉ−１、直後のセグメントに関しては先頭の部分Ｂｉ＋１のみを考慮する。具体的には、セグメントが音素の場合、その長さは通常５０〜１００ミリ秒程度であるが、遷移部分Ｂｉ−１，Ｂｉ＋１は１０〜５０ミリ秒程度とする。
【０００７】
認識を行うセグメントの直前のセグメントの末尾の部分を含めた区間でパラメータの軌跡を求める場合は図１中の区間１となり、その軌跡の出現する確率、つまりラベルｗｉの時に、パラメータ軌跡Ｂｉ−１，Ａｉが生じる確率は、
Ｐ（Ｂｉ−１，Ａｉ｜ｗｉ）
あるいは前のセグメントの出現確率で正規化した確率
Ｐ（Ｂｉ−１，Ａｉ｜ｗｉ）／Ｐ（Ｂｉ−１｜ｗｉ）
で表す。また、直後のセグメントの先頭の部分を含めた区間でパラメータの軌跡を求める場合は区間２となり、その軌跡の出現する確率は、
Ｐ（Ａｉ，Ｂｉ＋１｜ｗｉ）
あるいは後のセグメントの出現確率で正規化した確率
Ｐ（Ａｉ，Ｂｉ＋１｜ｗｉ）／Ｐ（Ｂｉ＋１｜ｗｉ）
で表す。また、直前のセグメントの末尾の部分及び直後のセグメントの先頭の部分を含めた区間でパラメータの軌跡を求める場合は区間３となり、その軌跡の出現する確率は、
Ｐ（Ｂｉ−１，Ａｉ，Ｂｉ＋１｜ｗｉ）で表す。
【０００８】
一方、請求項２のコンテキスト（例えば音素環境）依存の音響セグメントモデルに関しては、認識を行うセグメントの直前のセグメントの末尾の部分を含めた区間でパラメータの軌跡を求める場合は区間１となり、その軌跡の出現する確率は、
Ｐ（Ｂｉ−１，Ａｉ｜ｗｉ−１，ｗｉ，ｗｉ＋１）
あるいは前のセグメントの出現確率で正規化した確率
Ｐ（Ｂｉ−１，Ａｉ｜ｗｉ−１，ｗｉ，ｗｉ＋１）／Ｐ（Ｂｉ−１｜ｗｉ−１，ｗｉ，ｗｉ＋１）
で表す。また、直後のセグメントの先頭の部分を含めた区間でパラメータの軌跡を求める場合は区間２となり、その軌跡の出現する確率は、
Ｐ（Ａｉ，Ｂｉ＋１｜ｗｉ−１，ｗｉ，ｗｉ＋１）
あるいは後のセグメントの出現確率で正規化した確率
Ｐ（Ａｉ，Ｂｉ＋１｜ｗｉ−１，ｗｉ，ｗｉ＋１）／Ｐ（Ｂｉ＋１｜ｗｉ−１，ｗｉ，ｗｉ＋１）
で表す。また、直前のセグメントの末尾の部分及び直後のセグメントの先頭の部分を含めた区間でパラメータの軌跡を求める場合は区間３となり、その軌跡の出現する確率は、
Ｐ（Ｂｉ−１，Ａｉ，Ｂｉ＋１｜ｗｉ−１，ｗｉ，ｗｉ＋１）で表す。
【０００９】
このコンテキスト依存の音響セグメントモデルとしては、認識を行うセグメントのラベル情報と、その直前又は直後のセグメントのラベル情報のみを考慮してもよい。
図２はこの実施例において使用する音響セグメントモデルの作成のブロック図である。入力された学習音声データは、特徴抽出部１２でケプストラム等の特徴パラメータに変換され、軌跡計算部１３で上記軌跡の推定区間に応じて、各パラメータの軌跡を推定する。これらの軌跡の集合と入力学習音声データのラベルデータ（発声内容を記述したもの）を用いてモデル作成部１４で音響セグメントモデルを作成し、メモリ１５に蓄積する。
【００１０】
図３はこの実施例の音声認識システムのブロック図である。入力端子２１より入力された音声は、特徴抽出部２２で、ケプストラム等の特徴パラメータに変換され、上記軌跡の推定区間に応じて、軌跡計算部２３で各パラメータの軌跡を推定する。メモリ２４から、この推定区間の対応する音響セグメントモデルを用いて、単語辞書２５と文法記述２６を用いて生成した認識候補の確からしさ（尤度）を求め、最も確からしさの高い認識候補を認識結果として出力する。
【００１１】
以上、説明したように、この発明によれば前後のセグメントとの関連を考慮した音響セグメントモデルを作成し、それを用いて認識する方法を提供することができる。
【００１２】
【発明の効果】
以上、詳述したように、この発明によれば、音響セグメントの軌跡を基に音声を認識する技術において、前後のセグメントの音響的特徴の関連性を考慮してモデル化することにより、それを用いた音声認識において、従来のＨＭＭに代表される音響モデルより、より優れた認識性能を提供できるという利点がある。
【００１３】
以下に実施例を述べる。
学習用に１５人の男性と、１５人の女性とを用い、試験用に５人の男性と、５人の女性を用いた。音声の２５ミリ秒の窓に対し、１３メルオープドケプストラム係数のベクトルを１０ミリ秒ごとに計算した。ある実験では、この静的係数に、いわゆるデルタ及び加速係数を加算して使用した。発声者の変化を強調するため、単語をパラメータ化した後、平均ベクトルを決定し、各フレームごとのパラメータベクトルから平均ベクトルを差し引いた。この実験では全てのモデルは、コンテキスト依存（三音素）であり、各モデルは３混合であり、ＨＭＭモデルは３状態をもち、セグメントモデルはＨＭＭモデル及びセグメントモデルのパラメータの数は同一である、ＨＭＭは固有のエキスポネンシャル間隔モデルを用い、セグメントモデルはガラシアン間隔モデルを用いた。セグメントモデルは直前のセグメントの末尾の３０ミリ秒だけを考慮した。この値は、全遷移領域を含むように選定したが、離れた音響データの使用を避けた。音素モデルのＨＭＭを使用した場合の誤り率は静的パラメータでは１５．４７％、静的＋△＋△△パラメータでは１３．５７％、となり、ポリノミナルセグメントモデルを用いた場合の誤り率はそれぞれ１１．５３％、１０．１８％となり、この発明のモデルを用いた場合はそれぞれ１０．０５％、９．３１％となった。セグメントモデルの使用によれば、ＨＭＭモデルの使用よりも誤り率が２５％よりなり、この発明によれば誤り率が更に９〜１３％よくなり、この発明が優れていることが理解される。
【図面の簡単な説明】
【図１】この発明に用いる音響モデルにおいて特徴パラメータの軌跡を求める範囲を示す図。
【図２】この発明に用いる音響モデルの生成過程を示すブロック図。
【図３】この発明に係る一実施形態である音声認識装置の機能構成を示すブロック図。

Claims

入力された音声信号を音声音響特徴パラメータに分析し、このパラメータの軌跡と、音素、副単語もしくは単語を単位とするセグメント毎にその軌跡の確率モデルと比較して認識を行う音声認識装置において、
当該セグメントの直前のセグメントの末尾を含めた第１の区間、当該セグメントの直後のセグメントの先頭を含めた第２の区間、あるいは当該セグメントの直前のセグメントの末尾及び直後のセグメントの先頭を含めた第３の区間の少くとも１つの区間について各セグメントのラベルごとに特徴パラメータの軌跡の確率を表わすセグメントモデルを記憶するメモリと、
入力音声信号の音声音響パラメータを算出する手段と、
上記算出した音声音響パラメータの、上記メモリ内のセグメントモデルと対応した上記区間ごとの軌跡を計算する手段と、
その計算された軌跡の、上記メモリ内の各セグメントモデルに対する軌跡の尤度を、当該セグメントの直前のセグメントの末尾、あるいは当該セグメントの直後のセグメントの先頭、あるいは当該セグメントの直前のセグメントの末尾及び直後のセグメントの先頭の出現確率で正規化して正規化尤度を求める手段と、
上記正規化尤度を用いて認識候補を求める手段と
を具備すること特徴とする音声認識装置。
請求項１記載の音声認識装置において、
上記メモリに記憶された上記各セグメントモデルは、その各セグメントモデルのラベルとその直前のセグメントのラベル及び直後のセグメントラベルも考慮したモデルであり、
上記尤度の計算を行う手段において、当該セグメントの直前、直後のセグメントのラベル情報も考慮して軌跡の尤度を求める手段であることを特徴とする音声認識装置。
入力音声信号の音声音響特徴パラメータを分析し、そのパラメータの軌跡に基づいて音素、副単語、もしくは単語を単位とするセグメント毎にその軌跡の確率モデルと比較して認識を行う音声認識方法において、
学習音声から、当該セグメントの直前のセグメントの末尾を含む第１の区間、当該セグメントの直後のセグメントの先頭を含む第２の区間、当該セグメントの直前のセグメントの末尾及び直後のセグメントの先頭を含む第３の区間の少くとも１つの区間について各セグメントのラベルごとに特徴パラメータの軌跡を表わすセグメントモデルを予め作っておき、これをメモに記憶しておき、
音声認識時には、入力音声信号の音声音響パラメータを算出し、
その算出された音声音響パラメータの、上記メモリ内のセグメントモデルと対応した上記区間ごとの軌跡を計算し、
その計算された軌跡の上記メモリ内の各セグメントモデルに対する尤度を、当該セグメントの直前のセグメントの末尾、あるいは当該セグメントの直後のセグメントの先頭、あるいは当該セグメントの直前のセグメントの末尾及び直後のセグメントの先頭の出現確率で正規化して正規化尤度を求め、
その正規化尤度を用いて音声認識を行うことを特徴とする音声認識方法。
請求項３記載の音声認識方法において、
上記セグメントモデルを、そのモデルのラベルとその直前のセグメントのラベル及び直後のセグメントラベルを考慮した軌跡の確率モデルを作成し、
上記尤度の計算において、当該セグメントの直前、直後のセグメントのラベル情報を上記モデルに応じて考慮して尤度計算を行うことを特徴とする音声認識方法。