JPH0619497A

JPH0619497A - 音声認識方法

Info

Publication number: JPH0619497A
Application number: JP3338102A
Authority: JP
Inventors: Akira Ishida; 明石田
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1991-12-20
Filing date: 1991-12-20
Publication date: 1994-01-28
Anticipated expiration: 2010-12-06
Also published as: JPH07113838B2

Abstract

(57)【要約】【目的】モデル音声認識方法において、類似度と回帰
係数の２種類の特徴量を有効なものだけに絞り込む事に
より、高い認識率を保持したままで、計算量と認識単語
辞書の容量とを削減し、ハードウェアを小型化する。【構成】各フレーム毎にｎ種類の音素あるいは音節に
対応する類似度と、ｎ種類の音素あるいは音節に対応す
る類似度の時間変化量から求まる回帰係数とから、それ
ぞれ有効なものだけを選びＮ次元とＭ次元に減少させて
辞書を作成し、認識する。

Description

【発明の詳細な説明】

【産業上の利用分野】本発明は、不特定話者の音声認識
を行うための音声認識方法に関するものである。

【従来の技術】従来から、不特定話者の音声認識を行う
ための標準パターンを作成するには、あらかじめ多くの
話者が認識対象単語をを発声したデータを用い、人間が
目視などで音声区間を切り出して、それらを統計的に処
理してきた。この方法では、不特定話者用の認識単語辞
書を作成するために、実際に数百名の話者の発声した音
声データを使用している。最近は、不特定話者の音声認
識を行うための標準パターンの作成に、一人ないし数名
の話者が認識対象単語を発声したデータを用いて作成で
きるようになってきた。たとえば、「少数話者の発声で
単語音声の動的特徴をモデル化した不特定話者音声認識
法」（電子通信情報学会ＳＰ９１−２０）に記載され
た構成が知られている。図７は、この手法の構成図であ
る。図７において、１は音響分析部、２は特徴パラメー
タ抽出部、３は類似度計算部、４は標準パターン格納
部、５は回帰係数計算部、６はパラメータ系列作成部、
７は認識部、８は辞書格納部である。標準パターン格納
部４は、あらかじめ多くの話者が発声したデータに対し
て、ｎ個の各音素毎に、その音素の特徴を最も良く表現
する時間的位置（特徴フレーム）を求め、この特徴フレ
ームを中心とした特徴パラメータの時間パターンを使用
して作成された音素標準パターンを格納している。時間
パターンとしては、特徴フレームの前後数フレームに対
してＬＰＣケプストラム係数（Ｃ０〜Ｃ８）を計算し、
これらを１次元に並べたパラメータ系列を求め、このパ
ラメータ系列の各要素の平均値ベクトルと要素間の共分
散行列を求め標準パターンとして格納される。辞書格納
部８には、あらかじめ一人あるいは二人以上の話者が発
声した認識対象音声を分析して上記のｎ個の標準パター
ンとフレーム毎に類似度計算を行なった結果得られる類
似度ベクトルの時系列と、フレーム毎に類似度ベクトル
の傾きとして求まるやはりｎ次元の回帰係数ベクトルの
時系列を全て辞書として登録してある。実際に音声が入
力されると音響分析部１で音響分析を行い、特徴パラメ
ータ抽出部２でＬＰＣケプストラム係数を計算し、類似
度計算部３で標準パターン格納部４の標準パターンとの
類似度を計算し、回帰係数計算部５で各フレーム毎の類
似度の変化から回帰係数を計算し、得られた類似度及び
回帰係数をパラメータ系列作成部６のパラメータ系列作
成部で１次元の時系列にし、認識部７で辞書格納部８の
辞書を用いて認識を行う。認識においては、ＤＰマッチ
ングと呼ばれる照合の方法を用いている。ＤＰマッチン
グを行なう漸化式の例を（数１）に示す。ここで、辞書
の長さをＪフレーム、入力の長さをＩフレーム、第ｉフ
レームと、第ｊフレームの距離の関数をl(i,j)、累積類
似度をg(i,j)とする。

【数１】ＤＰマッチングでは、辞書と入力のすべてのフレームに
対して積和計算を行なうので、計算回数が非常に多くな
る。

【発明が解決しようとする課題】このように、上述した
従来の方法では照合のための計算回数が多いので時間が
かかり、また、辞書を格納しておく記憶領域が大きいと
いう課題を有していた。本発明は、上記課題を解決する
ものであり、高認識率を保ったまま認識単語辞書に登録
してあるパラメータ系列の個数を減少させることで、辞
書の記憶領域と認識における演算回数の両方を共に削減
し、高速な認識処理を可能にし、ハードウェア化を容易
にすることを目的とする。

【課題を解決するための手段】この目的を達成するため
に、本発明は、認識対象音声を、１名から数名の少数の
話者が発声し、分析時間（フレーム）毎に得られるｍ個
（ｍは整数）の特徴パラメータと、あらかじめ多数の話
者より作成したｎ種類（ｎは整数）の標準パターンとの
マッチングを行い、ｎ個の類似度をフレーム毎に求め、
このｎ次元の類似度ベクトルで作成した時系列パターン
の中からｎより小さいＮ個（Ｎは整数）を選び単語辞書
として登録し、認識させたい入力音声も同様に分析して
得られるｍ個の特徴パラメータと、ｎ種類の標準パター
ンとのマッチングを行ない、ｎ次元の類似度ベクトルの
時系列を求めて辞書に登録されているＮ次元の類似度ベ
クトルの時系列と照合することによって、認識対象音声
を登録した話者およびその他の入力音声を認識するよう
に構成されている。

【作用】本発明は上記構成により、１名から数名の少数
の話者が発声した音声を分析して得られる特徴パラメー
タに対して多数の話者で作成したｎ種類の音素や音節な
どの標準パターンとの類似度をフレーム毎に求める。こ
のｎ個の類似度からｎより小さい数Ｎに減少させること
で、また、類似度の変化量として求まる回帰係数をｎ個
からｎより小さい数Ｍに減少させることで、認識で最も
時間のかかる照合部分の計算回数がそれだけ減少させる
ことができ、辞書格納部の容量についても類似度がｎ個
からＮ個に、回帰係数も同様にｎ個からＭ個に減少した
分だけ小さくすることができる。

【実施例】以下、本発明の一実施例について説明する
が、その前に本発明の概略について説明する。１名から
数名の話者が発声した認識対象音声を分析して得られる
特徴パラメータと、あらかじめ多数の話者から作成した
ｎ種類の標準パターンと分析時間（１フレーム）毎にマ
ッチングを行ない、得られるｎ次元の類似度ベクトルの
時系列から、さらに、有効な特徴量をＮ個決め、これを
辞書として登録しておく。認識させたい入力音声は、や
はり、ｎ種類の標準パターンとマッチングを行ない、得
られるｎ次元の類似度ベクトルの時系列を求め、求めた
時系列の中から辞書のＮ個の類似度の特徴量のみと照合
を行なう。また、類似度の時間変化量として求まる回帰
係数もｎ個から有効な特徴量Ｍ個を選んで用いる。この
ようにして不特定話者の音声認識を行なうことで、１フ
レーム１単語あたり２×ｎ回あった照合の計算をＮ＋Ｍ
回に減らす事ができる。例えば、「かさ」（ｋａｓａ）
と発声するような場合、／ａ／の部分では、／ａ／や／
ｏ／などの母音部分の類似度は大きくなるが、逆に、／
ｋ／、／ｔ／、／ｓ／などの子音部分の類似度は極端に
小さくなり、／ａ／の類似度に比べて、無視できるくら
い小さい値をとる。つまり、入力音声に対して、フレー
ム毎に多数の話者で作成したｎ種類の音素や音節などの
標準パターンとの類似度を求めたとき、入力とは異なる
音素や音節との類似度は極端に小さい値をとり、実際の
認識には余り貢献していないといえる。従って、類似度
の小さい要素、即ち、認識に関与しない要素を辞書の構
成要素として登録しておく必要がない。このようにする
ことで、認識で一番時間のかかる照合部分の計算回数が
少なくなり、辞書格納部の容量についても類似度および
回帰係数が減少した分だけ小さくなる。以下、本発明の
一実施例を図１と共に説明する。図１において、９は音
響分析部、１０は特徴パラメータ抽出部、１１は類似度
計算部、１２は標準パターン格納部、１３は回帰係数計
算部、１４はパラメータ系列作成部、１５はパラメータ
選別部、１６は認識部、１７は辞書格納部である。ま
た、図２はマッチングの方法を説明する概念図で、１８
はインデックス部、１９は類似度格納部、２０は回帰係
数格納部である。パラメータ選別部１５は、辞書格納部
１７に入れる辞書を作成する際に、有効なものだけを選
別する。本実施例では、後述する２３種類の音素に対応
する類似度の中から、その値の大きいものからＮ個だけ
選別して類似度部１９に格納する。また、回帰係数格納
部２０に格納する辞書についても、２３種類の音素に対
応する回帰係数の中から絶対値の大きいものから順にＭ
個だけを選別して作成する。辞書格納部１７において、
従来は図５および図６に示すように類似度あるいは類似
度と回帰係数のみを辞書に格納していたが、本発明では
図２および図３に示すようにインデックス部１８を新た
に設け、どの音素に対応する類似度あるいは回帰係数を
残し、登録したかを記憶しておく。そして、図２のよう
に、インデックス部１８からどの音素と照合の計算を行
うかを決め、インデックス部１８に登録されている音素
に限って照合計算を行うことにする。そして、類似度格
納部１９の類似度と回帰係数格納部２０の回帰係数とを
用いて照合を行い認識する。回帰係数は類似度の時間変
化量であり、図４に示される直線の傾きで表わされる。
標準パターン格納部１２には、あらかじめ多くの話者が
発声したデータから作成した２３種類の音素標準パター
ンを格納している。本実施例では、／ａ／、／ｏ／、／
ｕ／、／ｉ／、／ｅ／、／ｊ／、／ｊｖ／、／ｊｕ／、
／ｗ／、／ｍ／、／ｎ／、／ｓ／、／ｈｖ／、／ｈｕ
／、／ｐ／、／ｔ／、／ｋ／、／ｃ／、／ｂ／、／ｄ
／、／ｒ／、／

【外１】／、／ｚ／の２３種類の音素標準パターンを使用する。
ただし、音素／ｈｖ／は有声の／ｈ／、音素／ｈｕ／は
無声の／ｈ／、音素／ｊｖ／は有声子音後続の拗音、音
素／ｊｕ／は無声子音後続の拗音であるとする。音素標
準パターンは、各音素の特徴部（その音素の特徴を最も
良く表現する時間的な位置）を目視によって正確に検出
し、この特徴フレームを中心とした特徴パラメータの時
間パターンを使用して作成する。以上、本実施例の構成
を用いて２１２単語を発声した２０名のデータに対して
認識実験を行った。２０名のうちの男女各１名を２１２
単語を発声した辞書として登録し、残りの１８名の発声
した単語を認識する。２３音素の中から類似度の大きい
方から５個だけ残し、また、回帰係数についても絶対値
の大きい方から５個だけ残して作成した辞書を用いて、
認識を行ったところ９５．３５％の認識率が得られた。
まったく削減を行わない２３音素全てを使用して作成し
た辞書を用いた認識の結果が９５．６４％であるから、
わずかに０．３％程度認識率が低下したことになる。こ
れに対して、辞書の記憶容量は、１フレームあたり類似
度、回帰係数ともに、２３音素に対応する２３種類あっ
たのに対し、各々これが５個に減り、インデックスが各
々５個追加されるので、１０／２３になる。そして、認
識に要する時間についても、１フレームあたりの照合回
数が減り半分以下になる。また、類似度、回帰係数とも
５個からさらに４個だけ残して同様の認識実験を行って
も、９５．３０％の高認識率が保持される。但し、本実
施例では、音響的パラメータとしてＬＰＣケプストラム
のＣ０〜Ｃ８を、標準パターンとして２３個の音素を用
いて認識を行ったときの例について説明したが、ＬＰＣ
ケプストラムの次数や音素の個数を変化させても問題は
ない。さらに、標準パターンに音素の代わりに音節やＶ
Ｃ／ＣＶ等の音声片、ＶＣＶ等の半音節を用いることも
可能である。

【発明の効果】以上のように本発明は、１名から数名の
少数の話者が発声した認識単語音声を分析して得られた
特徴パラメータに対して、あらかじめ多くの話者で作成
したｎ種類の標準パターンとの類似度計算を行なって類
似度を求め、ｎ次元の類似度ベクトルのなかのＮ次元と
ｎ次元回帰係数ベクトルのなかのＭ次元を音声認識のた
めの特徴パラメータとして辞書を登録・作成しても、不
特定話者の音声を精度良く認識することが可能となる。
また、これによって辞書は今までの半分以下の記憶容量
で済み、かつ、計算量も極めて少なくなり、そして認識
率の低下はほとんどない。このように本発明は不特定話
者用音声認識装置の実用化技術の向上に対して極めて大
きく貢献する。

【図面の簡単な説明】

【図１】本発明の一実施例における音声認識方法のブロ
ック構成図。

【図２】同実施例におけるマッチングの方法を説明する
概念図。

【図３】同実施例における辞書と入力を説明する概念
図。

【図４】同実施例における回帰係数を説明する特性図。

【図５】従来の音声認識方法における類似度ベクトルの
時系列を説明する概念図。

【図６】従来の音声認識方法における辞書と入力を説明
する概念図。

【図７】従来の音声認識方法を説明するブロック構成
図。

【符号の説明】

９音響分析部１０特徴パラメータ抽出部１１類似度計算部１２標準パターン格納部１３回帰係数計算部１４パラメータ系列作成部１５パラメータ選別部１６認識部１７辞書格納部１８インデックス部１９類似度格納部２０回帰係数格納部

Claims

【特許請求の範囲】

【請求項１】認識対象音声を、１名から数名の少数の
話者が発声し、分析時間（フレーム）毎に得られるｍ個
（ｍは整数）の音響的特徴パラメータと、あらかじめ多
数の話者より作成したｎ種類（ｎは整数）の標準パター
ンとのマッチングを行い、ｎ個の類似度をフレーム毎に
求め、このｎ次元の類似度ベクトルで作成した時系列パ
ターンの中からｎより小さいＮ個（Ｎは整数）を選び単
語辞書として登録し、認識させたい入力音声も同様に分
析して得られるｍ個の特徴パラメータと、前記ｎ種類の
標準パターンとのマッチングを行ない、ｎ次元の類似度
ベクトルの時系列を求めて辞書に登録されているＮ次元
の類似度ベクトルの時系列と照合することによって、認
識対象音声を登録した話者およびその他の入力音声を認
識することを特徴とする音声認識方法。
【請求項２】ｎ種類の各類似度の時系列それぞれに対
して類似度の時間変化量をフレーム毎に求め、この類似
度の時間変化量のｎ次元ベクトルの中からｎより小さい
Ｍ個（Ｍは整数）を選び辞書として登録した単語辞書
と、類似度のＮ次元ベクトルとを併用し認識することを
特徴とする請求項１記載の音声認識方法。
【請求項３】ｎ次元の類似度ベクトルの中からＮ次元
に減らす際に、値の大きい方からＮ個選ぶことを特徴と
する請求項１記載の音声認識方法。
【請求項４】ｎ次元の類似度の時間変化量のベクトル
の中からＭ次元に減らす際に、値の絶対値の大きい方か
らＭ個選ぶ事を特徴とする請求項１乃至２記載の音声認
識方法。