JP2853418B2

JP2853418B2 - 音声認識方法

Info

Publication number: JP2853418B2
Application number: JP3292959A
Authority: JP
Inventors: 和也野村
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1991-11-08
Filing date: 1991-11-08
Publication date: 1999-02-03
Anticipated expiration: 2014-02-03
Also published as: JPH05127696A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、機械に人間の声を認識
させる音声認識方法に関するものである。

【０００２】

【従来の技術】従来から、認識率の向上のみを意図せず
耐雑音性をも重視した音声認識方法が提案されている。
例えば、特開昭６２−１１１２９３号公報に示されてい
るように、耐雑音性を向上させる方法として、次に述べ
るようなものがある。

【０００３】まず、認識すべき音声とその前後の騒音を
含む十分長い区間を入力信号区間とし、この入力信号区
間に、ある時間的な基準点を設ける。この基準点を端点
としてその端点から最短音声区間のＮ₁フレームの区間
から最長音声区間のＮ₂フレームの区間までのＮ₂−Ｎ₁
＋１とおりの音声区間候補のそれぞれに対して、音声区
間長を一定時間長に伸縮しながら認識対象の標準パター
ンとの照合を行なう。

【０００４】この照合により各認識対象の類似度または
距離を求めるという操作を、入力信号の全区間の最初か
ら最後まで基準点を走査して行ない、全ての基準点位置
の全ての音声区間候補に対する類似度を各認識対象につ
いて求める。そして類似度が最大となる認識対象を認識
結果として出力することにより、音声区間の検出を行う
ことなく騒音環境下で発声した音声を、認識対象音声と
その前後に騒音を含んだ十分長い入力の中から切り出
し、認識するというものであった。

【０００５】

【発明が解決しようとする課題】しかしながら、上記従
来技術では、認識対象音声とその前後に雑音を含んだ入
力信号を分析して得られるパラメータ時系列に対して、
あらゆる部分区間について各認識対象音声の標準パター
ンとの照合を行ない、各標準パターンごとに最も類似し
た入力の部分区間を切り出し、類似度の一番高い認識対
象音声を認識結果とするという処理で認識結果を決定し
ていた。

【０００６】この方法では、ある入力に対して正解の標
準パターン（入力に含まれている認識対象音声と一致し
た音声の標準パターン）との照合を行なうときにはほと
んどの場合、図８に示すように、入力「よんじゅうごふ
ん」は、同図に示す標準パターン「よんじゅうごふん」
に対し正しい区間を切り出すことができるが、同図に示
す正解でない標準パターン「じゅうごふん」との照合を
行なう場合には正しい区間を切り出せないことがある。
即ちこのときの類似度が正解の標準パターン「よんじゅ
うごふん」と照合を行なって計算された類似度よりも高
くなることがあり、誤認識してしまう可能性が高かっ
た。

【０００７】特に顕著な例は、図８に示した「じゅうご
ふん」と「よんじゅうごふん」のようにある認識対象単
語に別の認識対象単語を含んでいるような場合である。
この例では「よんじゅうごふん」と発声した入力に対し
て、標準パターンとの照合を行なう際に「よんじゅうご
ふん」の後半の「〜じゅうごふん」の部分区間と「じゅ
うごふん」の標準パターンがよく似ているため、入力の
うち後半の「〜じゅうごふん」の部分区間を切り出し、
なおかつ高い類似度を示してしまう。

【０００８】さらに、この「じゅうごふん」の標準パタ
ーンに対する類似度が「よんじゅうごふん」の標準パタ
ーンに対する類似度を凌ぐことがしばしば起こり、「よ
んじゅうごふん」と発声した入力に対して認識結果が
「じゅうごふん」に誤ることが多かった。実際に計算機
シミュレーションにより（表１）に示した１２種類の単
語を認識させる実験を行なった結果により、９４人が
「よんじゅうごふん」と発声した入力のうち、約７．５
％にあたる７人の認識結果が「じゅうごふん」に誤るこ
とを確かめている。

【０００９】本発明は、以上のような従来の課題を解決
するものであり、従来の方法に比べて音声の認識率を向
上させることができるようにした音声認識方法を提供す
ることを目的とするものである。

【００１０】

【課題を解決するための手段】上記目的を達成するため
の本発明の技術的解決手段は、入力音声信号を分析し、
予め作成しておいた全認識対象の標準パターンとの照合
を行ない、入力中から単語音声を切り出し、結果を類似
度と切り出した音声区間の長さの列として出力する一次
照合部と、この一次照合部が出力する類似度と音声区間
の長さの列を認識のためのパラメータとして扱い、予め
作成しておいた二次照合部用の標準パターンとの照合を
行う二次照合部とから構成され、上記一次照合部から類
似度および単語区間の長さの列として出力される結果を
上記二次照合部において照合するようにしたものであ
る。二次照合部は、認識対象単語に別の認識対象単語を
含むような場合における従来例における認識誤りを補正
し、正しい認識結果を出力する機能を持つ。

【００１１】

【作用】例えば（表１）に示すような単語の認識を行う
場合には「よんじゅうごふん」と「じゅうごふん」の例
のように、認識の誤り方に一定した傾向が観察できる。

【００１２】

【表１】

【００１３】即ち、図８に示すように「よんじゅうごふ
ん」を入力した場合、入力は、図８に示す「よんじゅう
ごふん」の標準パターンとは大変よく似ており高い類似
度を示し、入力のうち正しい区間を切り出すことができ
る。ところが、後半の「〜じゅうごふん」の部分は図８
に示すように「じゅうごふん」の標準パターンとよく似
ており、「じゅうごふん」の標準パターンと照合を行う
と正しくない区間である入力の後半の「〜じゅうごふ
ん」を切り出しなおかつ高い類似度を示す。

【００１４】このような傾向を「じゅうごふん」、「よ
んじゅうごふん」の２単語の相互について調べると（表
２）のようになる。

【００１５】

【表２】

【００１６】すなわち、たとえば「よんじゅうごふん」
はその中に「じゅうごふん」を含んでいるので、「じゅ
うごふん」の標準パターンに対する類似度が高くなる
が、その逆、たとえば「じゅうごふん」はその中に「よ
んじゅうごふん」を含んでいないので「よんじゅうごふ
ん」の標準パターンに対する類似度は高くならない。こ
のような理由により、（表２）のように、ある入力に対
して全認識対象の標準パターンと照合を行って得られる
各認識対象の標準パターンに対する類似度には認識対象
単語ごとに異なった傾向が表れる。これはある入力に対
して標準パターンがスポッティングする単語の音声区間
にも一定の傾向があるためで、（表３）に示すようにそ
の長さにも単語ごとに異なった傾向を示す。

【００１７】

【表３】

【００１８】したがって、一次照合して得られる類似度
とスポッティングして得られる音声区間の長さを特徴パ
ラメータとして扱い、その類似度と音声区間の長さの傾
向を標準パターンとしてパターンマッチングによる音声
の認識に利用することができる。

【００１９】すなわち、一次照合によって、多くの人が
発声した音声を、全認識対象の標準パターンと照合し、
その結果得られる類似度と音声区間の長さの統計的な傾
向を求め、これを二次照合のための標準パターンとし、
この類似度傾向を表現する標準パターンを用いて二次照
合を行なって音声を認識する手段により、一次照合にお
ける認識誤りを修正でき、前記課題を解決することがで
きる。

【００２０】従って本発明によれば、従来の方法を用い
て音声の認識を行えば誤認識してしまうような場合にも
誤認識を防止することができ、従来の音声認識の方法に
比べて認識率を向上させることができる。

【００２１】

【実施例】以下に本発明の実施例を図面を参照しながら
詳細に説明する。図１は本発明の一実施例における音
声認識方法を具現化する機能ブロック図である。

【００２２】本発明は、図１に示したように、一次照合
部１と二次照合部２とに大別される。一次照合部１は従
来例による認識方法に相当する。すなわち、認識すべき
音声とその前後の騒音を含む十分長い区間を入力とし、
一定の基準に基づいたあらゆる音声区間候補に対して各
認識対象の一次照合用の標準パターンとの照合を行な
い、各認識対象ごとの類似度の最大値を求め、入力中か
ら各認識対象単語を切り出し、全単語の標準パターンに
対する最大類似度を要素とした類似度列を結果として出
力するという処理を行なっている。

【００２３】二次照合部２では上記作用で述べた、標準
パターンに対する類似度に認識対象単語ごとに異なった
傾向が表れるという性質を利用し、一次照合で得られた
結果の類似度列（入力中から各認識対象単語を切り出し
たときの類似度を要素とする）を入力とし、この入力の
類似度列を特徴パラメータとして扱い、パターンマッチ
ングによる音声の認識を行ない、一次照合部１における
認識誤りを補正するという処理を行なう。

【００２４】まず、一次照合部についての考え方につい
て図２〜図６を用いて説明する。同じ言葉を発声して
も、発声の時間的な長さ（音声長）は発声方法によって
も異なるし、人の違いによっても異なる。パターンマッ
チングによる音声認識方法では入力音声の長さを標準的
な音声長に正規化した上で類似度計算を行なって音声の
認識を行なう。図２は音声長の正規化の様子を示したも
のである。入力音声の長さの最小長をＮ₁、最大長をＮ₂
とし、音声の標準的な長さ（標準パターン長）をＩとす
ると、図２に示すように、長さＮ（Ｎ₁≦Ｎ≦Ｎ₂）の音
声長を伸縮して長さＩに正規化することになる。図２で
は音声の終端を一致させて伸縮するようになっている。
伸縮には（数１）に示す線形伸縮式を用いる。

【００２５】

【数１】

【００２６】未知入力と標準パターンの類似度を計算す
る場合、未知入力の音声長Ｎを（数１）によって標準パ
ターン長に伸縮することになるが、この様子を図示した
のが図３である。横軸に入力長、縦軸に標準パターン長
をとり、終端を一致させると、入力音声長はＮ₁〜Ｎ₂の
範囲であるから、入力と標準パターンとのマッチングル
ートは、入力軸のＮ₁≦Ｎ≦Ｎ₂内の１点を始点とし、Ｐ
を終端とする直線となる。したがって、類似度計算はす
べて三角形の内側で行なわれることになる。

【００２７】いま、時間長Ｎuの未知入力があり、その
内容が音声ｋであったとする。ただし、未知入力の終端
は既知であるが、始端は未知である（したがって、Ｎu
も未知である）とする。この未知入力と単語ｋの標準パ
ターンＳ_kの照合を行なう場合、ＮをＮ₁からＮ₂まで、
１フレームずつずらせながら、各フレームに対して（数
１）を用いて時間長をＩに伸縮し、未知入力パラメータ
と標準パターンとの類似度を求める。このとき標準パタ
ーンはＳ_kであるので、発声が正確であるならば、Ｎ＝
Ｎuにおいて類似度は最大となるはずである。

【００２８】さて、図３においては終端が既知として説
明を行なったが、両端が未知の場合、すなわち、音声区
間が不明である場合にも、この方法を拡張することがで
きる。図４はその概念図である。図において、終端点の
横軸（入力の時間軸）座標をｊとする。ここで、もしｊ
の位置が入力音声の終端に一致していれば図３の場合と
同じであるが、今度は両端点が未知という仮定であるの
で、必ずしもｊが音声の終端点と一致するとは限らな
い。しかしながら、ｊを音声区間が十分に入る広い範囲
ｊ₁≦ｊ≦ｊ₂でスキャンすれば、ｊが音声の終端と一致
する時点ｊ＝ｊ₀が必ず存在する。その場合、始端点は
ｊ₀−Ｎ₂〜ｊ₀−Ｎ₁の範囲内の点ｊ₀−Ｎuに存在するは
ずである。そして、このようなスキャンした場合におい
ても、発声した言葉と標準パターンが一致していれば、
始端がｊ₀−Ｎu、終端がｊ₀のときの類似度が、他のど
のようなｊおよびＮの組合せよりも大きくなる。しか
も、この類似度は他標準パターンに対する類似度よりも
大きい。

【００２９】このように図４に示した方法は、騒音と音
声が混在した信号から、標準パターンに最も類似した部
分を切り出すことができる。したがって、一般に用いら
れているような複雑な音声区間検出の手続きを必要とし
ない。

【００３０】類似度の計算は以下に述べるように、特徴
パラメータの時系列パターンを用い、統計的距離尺度
（事後確率に基づく距離）によって計算する。

【００３１】１フレームあたりの特徴パラメータの個数
をＤとすると、Ｉフレームの時系列パターンはＤ×Ｉ次
元のベクトルとなる。いま、未知入力の第ｉフレームの
パラメータを

【００３２】

【外１】

【００３３】、単語ｋの標準パターンの第ｉフレームの
成分を

【００３４】

【外２】

【００３５】とすると、それぞれ（数２）、（数３）で
求められる。

【００３６】

【数２】

【００３７】

【数３】

【００３８】時系列パターンをそれぞれ

【００３９】

【外３】

【００４０】とすると、（数４）、（数５）で求められ
る。

【００４１】

【数４】

【００４２】

【数５】

【００４３】単語ｋに対する類似度をＬ_kとすると、次
式で求められる。

【００４４】

【数６】

【００４５】ここで、

【００４６】

【外４】

【００４７】は単語ｋの標準パターンであり、（数
７）、（数８）で示される。

【００４８】

【数７】

【００４９】

【数８】

【００５０】ただし、

【００５１】

【外５】

【００５２】は単語ｋの平均値ベクトル、

【００５３】

【外６】

【００５４】は全ての単語の周囲情報の平均値ベクトル
である。また

【００５５】

【外７】

【００５６】は共分散行列であり、各単語の共分散行列

【００５７】

【外８】

【００５８】と周囲情報の共分散行列

【００５９】

【外９】

【００６０】を用いて（数９）で作成できる。

【００６１】

【数９】

【００６２】

【外１０】

【００６３】は、各単語に属する多くのサンプルを用い
て次のように作成する。図５に示すように、音声とその
周囲の区間に対して、１フレームずつずらせながら複数
の区間（区間長は１フレーム）を設定する。このような
操作を各単語の多くのサンプルに対して行ない、それら
の区間のパラメータの平均値ベクトル

【００６４】

【外１１】

【００６５】と共分散行列

【００６６】

【外１２】

【００６７】を作成する。図１において１０は入力信号
をディジタル信号に変換するＡＤ変換部、１１は音声分
析区間（フレーム）ごとに分析する音響分析部、１２は
特徴パラメータ抽出部であり、低次のＬＰＣケプストラ
ム係数をフレームごとに出力する。特徴パラメータはＬ
ＰＣケプストラム係数の他に、自己相関係数、ＰＡＲＣ
ＯＲ係数、帯域通過フィルタの出力などがある。

【００６８】以下、各ブロックの機能を図６のフローチ
ャートを参照しながら説明する。フレーム同期信号発生
部１３は、１フレームごとに同期信号を発生する。フレ
ーム番号をｊとし、入力音声を含む十分広い区間ｊ₁≦
ｊ≦ｊ₂で類似度の計算を行なうものとする。１フレー
ムの期間で次の操作を行なう。

【００６９】標準パターン選択部１８は、認識対象とす
る音声（ここでは単語）の１つ１つを選択する（単語数
をＫとする）。選択された標準パターンに対して、区間
候補設定部１５では、各単語の最小音声区間長Ｎ₁(k)と
最大音声区間長Ｎ₂(K)を設定する。そして、区間長Ｎ
（Ｎ₁(k)≦Ｎ＜Ｎ₂(k)）に対して、特徴パラメータ抽出
部１２で得られた未知入力パラメータをｊ−Ｎ〜ｊフレ
ームの時間分だけ並べて、入力パラメータの時系列を作
り、時間軸正規化部１４において、時系列パラメータの
時間を（数１）を用いてＩフレームに伸縮し、（数４）
に相当するパラメータ系列を得る。類似度計算部１６は
このパラメータ系列と、標準パターン選択部１８で選ば
れた標準パターン格納部１７中の標準パターン

【００７０】

【外１３】

【００７１】との間で（数６）を用いて類似度Ｌ
_k（Ｎ）を計算する。音声区間長計算部では区間候補設
定部の設定する始端と終端をもとに音声区間長を計算す
る。類似度比較部２０では、Ｌ_k（Ｎ）と１次記憶１９
に蓄積されているこの時点までの単語ｋに対する最大類
似度値maxＬ_kを比較し、Ｌ_k（Ｎ）＞maxＬ_kならばmaxＬ
_kをＬ_k（Ｎ）に、またその時の音声区間長に置きかえて
出力バッファ１９を更新し、Ｌ _k（Ｎ）≦maxＬ_kならば
１次記憶１９の内容は変更しない。

【００７２】このような一連の操作を、１つの標準パタ
ーンに対してＮ₂(k)−Ｎ₁(k)＋１回ずつ、１フレームの
間にＫ個の標準パターンに対して行なう。そして区間長
Ｎ₁(k)と最大音声区間長Ｎ₂(k)を設定する。

【００７３】対象とする入力の全区間（ｊ＝ｊ₁〜ｊ₂）
に対してこのような操作を行うと、ｊ＝ｊ₂フレームを
終了した時点では、全区間ｊ₁〜ｊ₂における各標準パ
ターンに対する類似度の最大値の列

【００７４】

【外１４】

【００７５】と全区間ｊ₁〜ｊ₂における各標準パターン
に対する類似度の最大値を示した時に切りだしている音
声区間の長さの列

【００７６】

【外１５】

【００７７】が求められ、それぞれ（数１０）、（数１
１）のようになる。

【００７８】

【数１０】

【００７９】

【数１１】

【００８０】ここで単語ｋの標準パターンに対する最大
類似度maxＬ_kを改めてＭ_kとし、それぞれの最大類似度
を与えたときの音声区間の長さをＭ_K+kとすると一次処
理部１から出力される結果の類似度の列は（数１２）の
ようになる。

【００８１】

【数１２】

【００８２】また、一次処理の結果得られるパターンマ
ッチングにより切りだされた音声区間の長さの列は（数
１１）に示したとおりである。

【００８３】次に、二次照合部２の考え方を説明する。
一次照合部１は騒音環境下で発声された音声の認識を音
声区間の検出をすることなく行うという従来の方法と同
じ考え方に基づく処理を行っているため、一次照合１の
結果として求められた（数１２）の要素のうち最大値を
与える単語を結果としたのでは前記図２を用いて説明し
たような誤認識が起こるという問題がある。二次照合部
２は、一次照合部１の結果として求められた（数１１）
を入力として、この誤認識を修正する動作を行ってい
る。

【００８４】同じ言葉を発声しても人によって声の質が
違ったり発声速度が異なる。また、同じ人が発声しても
毎回同じ発声ができるとは限らない。このため、二次照
合部２の入力

【００８５】

【外１６】

【００８６】にはバラツキがある。よって二次照合２で
はこのバラツキを吸収するため入力を正規化してから音
声の認識を行う。正規化は入力の類似度列（数１２）に
含まれる要素の最大値を基準に行なう。正規化された値
をＭ'_kとすると、正規化に用いる式は（数１３）に示す
とおりである。

【００８７】

【数１３】

【００８８】（数１３）を用いて（数１１）を正規化し
た類似度列は（数１４）に示すとおりになる。

【００８９】

【数１４】

【００９０】ここで、Ｋは認識対象の個数である。二次
照合部２のもう一つの入力である、一次処理の結果得ら
れるパターンマッチングにより切りだされた音声区間の
長さの列

【００９１】

【外１７】

【００９２】も（数１１）に含まれる要素の最大値を基
準に正規化を行なう。正規化された値をＨ'_kとすると、
音声区間の長さの列の正規化に用いる式は（数１５）に
示すとおりである。

【００９３】

【数１５】

【００９４】（数１５）を用いて正規化された音声区間
の長さの列は（数１６）に示すとおりである。

【００９５】

【数１６】

【００９６】前記図２を用いて説明した一次照合部の認
識誤りを補正するために、前記（表３）を用いて説明し
た一次照合の結果得られる類似度の列に単語ごとに異な
る傾向が表れるという性質を用いて認識を行う。前記
（表３）は「じゅうごふん」、「よんじゅうごふん」の
２単語についてのみこの性質を概念的に表したものであ
るが、この傾向を別の認識単語群の例でであるが、「じ
ゅういち」と発声した場合と「いち」と発声した場合に
ついて「ぜろ」から「じゅうさん」までの１４単語の標
準パターンに対する類似度の傾向を３００人分の音声デ
ータの平均で定量的に表したものを図７に示す。同図か
ら各標準パターンに対する類似度の平均値はそれぞれ異
なる値を示すことがわかる。また同図中には標準偏差の
値は示されていないが、その値は０．００４〜０．１２
２であり分布には強い傾向がある。

【００９７】このことから、一次照合部１の出力であ
る、全単語の標準パターンに対する類似度には強い傾向
があることがわかる。この傾向は認識対象の単語ごとに
固有であり異なる特徴を示す。これは図６に示した「じ
ゅういち」と「いち」の類似度の傾向を比較すると「き
ゅう」から「じゅうさん」の標準パターンに対する類似
度の特徴の違いが表れており、認識対象の単語ごとに類
似傾向が異なることがわかる。この類似傾向を利用して
パターンマッチングにより二次照合を行い音声の認識を
行う。このような処理を行うことにより、前記図８を用
いて説明した一次照合部１の認識誤りを補正することが
できる。

【００９８】二次照合部のマッチングで全ての単語の標
準パターンに対する類似度Ｔと、切りだされた音声区間
の長さを用いるのは、どの単語の標準パターンに対する
類似度も二次照合での音声の認識に有効に作用するため
である。この分布が多次元正規分布に従うものと仮定
し、類似度と音声区間の長さの傾向を統計的な量として
二次照合用の標準パターンに反映させ、統計的距離尺度
を用いて類似度計算することで、統計的な許容範囲にあ
る入力と標準パターンのずれを吸収しながら二次照合を
行なうことができる。ここで、二次照合に用いるパラメ
ータの列は（数１１）と（数１２）をあわせたもので
（数１７）に示す。

【００９９】

【数１７】

【０１００】二次照合部２で用いる統計的距離尺度はベ
イズ判定に基づいた距離尺度を用いており二次照合部２
における単語kに対する距離をＰ_kとすると、（数１８）
のようになる。

【０１０１】

【数１８】

【０１０２】ここで、

【０１０３】

【外１８】

【０１０４】は単語ｋの標準パターンであり、

【０１０５】

【外１９】

【０１０６】は単語ｋの正規化された類似度の平均値ベ
クトル、

【０１０７】

【外２０】

【０１０８】は単語ｋの共分散行列である。実際に計算
に用いる式は（数１８）の両辺の対数をとって定数を除
いて簡略化した式

【０１０９】

【数１９】

【０１１０】を用いる。二次照合部２用の標準パターン
の作成は標準パターン作成用の音声データ（概ね３００
〜１０００人分）すべてに対し、前記一次照合部１の処
理を行ない認識対象ごとに正規化された類似度の平均値
ベクトル

【０１１１】

【外２１】

【０１１２】、共分散行列

【０１１３】

【外２２】

【０１１４】を求めることにより行なわれる。以上述べ
た考え方に基づき、図１を用いて二次照合部の機能ブロ
ックの説明を行なう。入力バッファ３１は一次照合部１
から一次照合の過程で出力される類似度を蓄え、入力正
規化部３２の要求に応じて（数１７）に示した類似度列
を出力する。入力正規化部３２は（数１３）、（数１
５）の正規化の式を用いてそれぞれ（数１１）、（数１
２）を正規化し（数１７）で示した正規化された類似度
と音声区間長の列を求める。類似度計算部３３はこの正
規化された類似度と音声区間長の列（数１７）と、標準
パターン格納部３４に格納された標準パターン全てとの
マッチングを（数１９）を用いて行ない、類似度Ｑ_kを
計算する。類似度比較部３５においてＱ_kを最大にする
単語ｋを認識結果として選択し出力する。

【０１１５】本実施例の方法を用いて、成人の男女計２
００人が発声した表１に示した１２単語を単語セットと
した音声データから作成した標準パターンを用いて、成
人男女計１００人が発声した同じ単語セットについて認
識実験を行い評価した結果、平均認識率は従来の方法
（一次照合部のみ）を用いて認識を行った場合は８５．
９５％であったものが９５．２５％に向上した。これを
平均の誤り率という観点でとらえると１４．０５％であ
ったものが４．７５％へ、誤りが約１／３に減少してい
る。また、前記図２で説明した認識誤りについても（表
４）と（表５）を比較すると顕著な改善が見られる。

【０１１６】

【表４】

【０１１７】

【表５】

【０１１８】（表４）は従来の方法（一次照合部のみ）
を用いて認識を行い得られたコンフュージョンマトリク
ス（入力に対する認識結果の度数を表すマトリクス）、
（表５）は本実施例を用いて認識を行い得られたコンフ
ュージョンマトリクスである。（表４）では「よんじゅ
うごふん」を入力して「じゅうごふん」に誤認識した場
合が９４人のうち７人あったが（表５）では１人と減っ
ている。このように本実施例によれば、前記課題で述べ
た認識誤りの大半を修正し、また、「さんじゅうごふ
ん」、「よんじゅうごふん」という類似単語間の認識誤
りも１７人から４人へと減っている。結果的に全体の認
識誤りを１／３にするという顕著な効果が確認された。

【０１１９】なお、本実施例で述べた一次照合部は、標
準パターンと入力のマッチングを行なう際のマッチング
ルートを線形に伸縮する方法を採っているが、例えば特
開昭６３−１２５９９９号公報に示されているようにマ
ッチングルートが逐次計算により算出される方法を用い
て標準パターンと入力のマッチングを行ない、音声の前
後に騒音を含んだ入力中から音声を切り出すという認識
方法を用いても良い。この場合、一次照合部において
（数１７）に示した、入力と全単語の標準パターンとの
類似度の最大値と切りだした音声区間の長さの列を求め
るようにし、二次照合を行なうことによって同様の効果
を得ることができる。

【０１２０】

【発明の効果】以上説明したように、本発明は、全認識
対象の標準パターンと照合を行って得られる認識対象の
標準パターンに対する類似度の列と、一次処理のマッチ
ングによって切りだされる音声区間の長さの列には認識
対象単語ごとに異なった傾向が表れるという性質を用い
て音声の認識を行うものである。本発明によれば、従来
の方法では多く誤認識してしまうような場合にも誤認識
をほとんど防ぐことができ、このような点で優れた効果
を示しており、従来の方法に比べて認識率を向上させる
ことができる。また、（数１７）に示したように二次照
合部２における入力は単語数の２倍の次元しかないた
め、（数１９）を用いた二次照合部２の計算量は少な
く、従来の方法に比べ計算量の増加も少ないという点で
も効果がある。

【図面の簡単な説明】

【図１】本発明の一実施例における音声認識方法を具現
化する機能ブロック図

【図２】同実施例における音声区間長の伸縮を説明する
第１の概念図

【図３】同実施例における音声区間長の伸縮を説明する
第２の概念図

【図４】同実施例における音声区間長の伸縮を説明する
第３の概念図

【図５】同実施例の標準パターン作成時の周囲情報の標
準パターン作成法を説明する概念図

【図６】同実施例の処理手順を説明するフローチャート

【図７】同実施例における１４単語の標準パターンに対
する類似度の傾向を示す特性図

【図８】従来法における課題を説明するための概念図

【符号の説明】

１一次照合部２二次照合部１０ＡＤ変換部１１音響分析部１２特徴パラメータ抽出部１３フレーム同期信号発生部１４時間軸正規化部１５区間候補設定部１６類似度計算部１７標準パターン格納部１８標準パターン選択部１９出力バッファ２０類似度比較部２１音声区間長計算部３１入力バッファ３２入力正規化部３３類似度計算部３４標準パターン３５類似度比較部

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁶，ＤＢ名) C10L 9/00 301 G10L 3/00 531 G10L 5/06 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】入力音声信号を分析し、予め作成してお
いた全単語の標準パターンとの照合を行ない、結果を類
似度と照合の結果得られる音声区間の長さとの列で出力
する一次照合部と、前記一次照合部が出力する類似度の
列と音声区間の長さとを認識のためのパラメータとして
扱い、予め作成しておいた全認識対象の二次照合部用の
標準パターンとの照合を行なう二次照合部とから構成さ
れ、前記一次照合部から類似度の列と音声区間の長さと
して出力される結果を二次照合部において標準パターン
との照合を行なうことにより最終的な認識結果を得るこ
とを特徴とする音声認識方法。