JP2502880B2 - 音声認識方法 - Google Patents
音声認識方法Info
- Publication number
- JP2502880B2 JP2502880B2 JP5515192A JP5515192A JP2502880B2 JP 2502880 B2 JP2502880 B2 JP 2502880B2 JP 5515192 A JP5515192 A JP 5515192A JP 5515192 A JP5515192 A JP 5515192A JP 2502880 B2 JP2502880 B2 JP 2502880B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- similarity
- recognition
- words
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
【0001】
【産業上の利用分野】本発明は、人間の声を機械に認識
させる音声認識方法に関するものである。
させる音声認識方法に関するものである。
【0002】
【従来の技術】近年、使用者の声を登録することなし
に、誰の声でも認識できる不特定話者用の認識装置が実
用として使われるようになった。不特定話者用の実用的
な方法として、本出願人が、以前に出願した2つの特許
(特開昭61-188599号公報、特開昭62-111293号公報)を
従来例として説明する。特開昭61-188599号公報を第1
の従来例、特開昭62-111293号公報を第2の従来例とす
る。
に、誰の声でも認識できる不特定話者用の認識装置が実
用として使われるようになった。不特定話者用の実用的
な方法として、本出願人が、以前に出願した2つの特許
(特開昭61-188599号公報、特開昭62-111293号公報)を
従来例として説明する。特開昭61-188599号公報を第1
の従来例、特開昭62-111293号公報を第2の従来例とす
る。
【0003】第1の従来例の方法は入力音声の始端、終
端を求めて音声区間を決定し、音声区間を一定時間長に
(Iフレーム)に線形伸縮し、これと単語標準パターン
との類似度を統計的距離尺度を用いてパターンマッチン
グをすることによって求め、単語を認識する方法であ
る。
端を求めて音声区間を決定し、音声区間を一定時間長に
(Iフレーム)に線形伸縮し、これと単語標準パターン
との類似度を統計的距離尺度を用いてパターンマッチン
グをすることによって求め、単語を認識する方法であ
る。
【0004】単語標準パターンは、認識対象単語を多く
の人に発声させて音声サンプルを収集し、すべての音声
サンプルを一定時間長Iフレーム(実施例ではI=1
6)に伸縮し、その後、単語ごとに音声サンプル間の統
計量(平均値ベクトルと共分散行列)を求め、これを加
工することによって作成している。すなわち、すべての
単語標準パターンの時間長は一定(Iフレーム)であ
り、原則として1単語に対し1標準パターンを用意して
いる。
の人に発声させて音声サンプルを収集し、すべての音声
サンプルを一定時間長Iフレーム(実施例ではI=1
6)に伸縮し、その後、単語ごとに音声サンプル間の統
計量(平均値ベクトルと共分散行列)を求め、これを加
工することによって作成している。すなわち、すべての
単語標準パターンの時間長は一定(Iフレーム)であ
り、原則として1単語に対し1標準パターンを用意して
いる。
【0005】第1の従来例では、パターンマッチングの
前に音声区間を検出する必要があるが、第2の従来例は
音声区間検出を必要としない部分が異なっている。パタ
ーンマッチングによって、ノイズを含む信号の中から音
声の部分を抽出して認識する方法(ワードスポッティン
グ法)を可能とする方法である。すなわち、音声を含む
十分長い入力区間内において、入力区間内に部分領域を
設定し、部分領域を伸縮しながら標準パターンとのマッ
チングを行なう。そして、部分領域を入力区間内で単位
時間ずつシフトして、また同様に標準パターンとのマッ
チングを行なうという操作を設定した入力区間内全域で
行ない、すべてのマッチング計算において距離が最小と
なった単語標準パターン名を認識結果とする。ワードス
ポッティング法を可能にするために、パターンマッチン
グの距離尺度として事後確率に基づく統計的距離尺度を
用いている。
前に音声区間を検出する必要があるが、第2の従来例は
音声区間検出を必要としない部分が異なっている。パタ
ーンマッチングによって、ノイズを含む信号の中から音
声の部分を抽出して認識する方法(ワードスポッティン
グ法)を可能とする方法である。すなわち、音声を含む
十分長い入力区間内において、入力区間内に部分領域を
設定し、部分領域を伸縮しながら標準パターンとのマッ
チングを行なう。そして、部分領域を入力区間内で単位
時間ずつシフトして、また同様に標準パターンとのマッ
チングを行なうという操作を設定した入力区間内全域で
行ない、すべてのマッチング計算において距離が最小と
なった単語標準パターン名を認識結果とする。ワードス
ポッティング法を可能にするために、パターンマッチン
グの距離尺度として事後確率に基づく統計的距離尺度を
用いている。
【0006】この方法は小型化が可能な実用的な方法で
あり、特に第2の従来例は、騒音にも強いことから実用
として使われ始めている。しかし、単語固有の時間長お
よび近隣フレーム間の時間的な動きの情報の欠落により
十分な単語認識率が得られないという問題点があった。
そこで、これを改良した音声認識方法が本出願人により
出願されている(特願平3ー147438号)。
あり、特に第2の従来例は、騒音にも強いことから実用
として使われ始めている。しかし、単語固有の時間長お
よび近隣フレーム間の時間的な動きの情報の欠落により
十分な単語認識率が得られないという問題点があった。
そこで、これを改良した音声認識方法が本出願人により
出願されている(特願平3ー147438号)。
【0007】この方法は、入力音声を含む十分広い区間
内を対象として、入力信号と標準パターンのマッチング
を区間全域にわたって単位時間ずつシフトしながら行な
い、距離が最小となる部分区間を切り出す方法である。
この種の方法を一般的にワードスポッティングと呼んで
いる。
内を対象として、入力信号と標準パターンのマッチング
を区間全域にわたって単位時間ずつシフトしながら行な
い、距離が最小となる部分区間を切り出す方法である。
この種の方法を一般的にワードスポッティングと呼んで
いる。
【0008】まず、図6を参照しながら説明する。図6
において、音響分析部8は入力信号をAD変換して取込
み(サンプリング周波数12kHz)、一定時間長(フレ
ームと呼ぶ。本実施例では10ms)ごとに分析する。本実
施例では線形予測分析(LPC分析)を用いる。特徴パ
ラメータ抽出部9では分析結果に基づいて、特徴パラメ
ータを抽出する。本実施例では、LPCケプストラム係
数(C0〜C10)および差分パワー値V0の12個のパラ
メータを用いている。入力の1フレームあたりの特徴パ
ラメータを
において、音響分析部8は入力信号をAD変換して取込
み(サンプリング周波数12kHz)、一定時間長(フレ
ームと呼ぶ。本実施例では10ms)ごとに分析する。本実
施例では線形予測分析(LPC分析)を用いる。特徴パ
ラメータ抽出部9では分析結果に基づいて、特徴パラメ
ータを抽出する。本実施例では、LPCケプストラム係
数(C0〜C10)および差分パワー値V0の12個のパラ
メータを用いている。入力の1フレームあたりの特徴パ
ラメータを
【0009】
【外1】
【0010】と表すことにすると次のようになる。
【0011】
【数1】
【0012】ただし、jは入力のフレーム番号、pはケプ
ストラム係数の次数である(p=10)。複数フレームバ
ッファ10は第jフレームの近隣のフレームの特徴パラ
メータを統合して、パターンマッチング(部分マッチン
グ)に用いる入力ベクトルを形成する部分である。すな
わち、第jフレームに相当する入力ベクトル
ストラム係数の次数である(p=10)。複数フレームバ
ッファ10は第jフレームの近隣のフレームの特徴パラ
メータを統合して、パターンマッチング(部分マッチン
グ)に用いる入力ベクトルを形成する部分である。すな
わち、第jフレームに相当する入力ベクトル
【0013】
【外2】
【0014】は(数2)で表わされる。
【0015】
【数2】
【0016】すなわち、(数2)はmフレームおきにj−
L1〜j+L2フレームの特徴パラメータを統合したベクト
ルである。L1=L2=3,m=1 とすると
L1〜j+L2フレームの特徴パラメータを統合したベクト
ルである。L1=L2=3,m=1 とすると
【0017】
【外3】
【0018】の次元数は (P+2)×(L1+L2+1)=12×7
=84となる。音声サンプルの始端と終端の間において、
代表サンプルとの間でフレ−ム対応を求めて、対応する
フレ−ム毎に平均値と共分散を計算し、部分標準パター
ンを求める。周囲パターンは1フレームずつシフトさせ
ながら平均値と共分散を求める。上記のようにしてあら
かじめ作成されている各単語の部分標準パターンと複数
フレームバッファ10との間の距離(部分距離)を部分
距離計算部11において計算する。
=84となる。音声サンプルの始端と終端の間において、
代表サンプルとの間でフレ−ム対応を求めて、対応する
フレ−ム毎に平均値と共分散を計算し、部分標準パター
ンを求める。周囲パターンは1フレームずつシフトさせ
ながら平均値と共分散を求める。上記のようにしてあら
かじめ作成されている各単語の部分標準パターンと複数
フレームバッファ10との間の距離(部分距離)を部分
距離計算部11において計算する。
【0019】部分距離の計算は(数2)で示す複数フレ
ームの情報を含む入力ベクトルと各単語の部分パターン
との間で、統計的な距離尺度を用いて計算する。単語全
体としての距離は部分パターンとの距離(部分距離と呼
ぶ)を累積して求めることになるので、入力の位置や部
分パターンの違いにかかわらず、距離値が相互に比較で
きる方法で部分距離を計算する必要がある。このために
は、事後確率に基づく距離尺度を用いる必要がある。
(数2)の形式の入力ベクトルを
ームの情報を含む入力ベクトルと各単語の部分パターン
との間で、統計的な距離尺度を用いて計算する。単語全
体としての距離は部分パターンとの距離(部分距離と呼
ぶ)を累積して求めることになるので、入力の位置や部
分パターンの違いにかかわらず、距離値が相互に比較で
きる方法で部分距離を計算する必要がある。このために
は、事後確率に基づく距離尺度を用いる必要がある。
(数2)の形式の入力ベクトルを
【0020】
【外4】
【0021】とする(簡単のため当分の間i,jを除いて
記述する)。単語kの部分パターンωkに対する事後確率
記述する)。単語kの部分パターンωkに対する事後確率
【0022】
【外5】
【0023】はベイズ定理を用いて次のようになる。
【0024】
【数3】
【0025】右辺第1項は、各単語の出現確率を同じと
考え、定数として取扱う。右辺第2項の事前確率は、パ
ラメータの分布を正規分布と考え、(数4)で表わされ
る。
考え、定数として取扱う。右辺第2項の事前確率は、パ
ラメータの分布を正規分布と考え、(数4)で表わされ
る。
【0026】
【数4】
【0027】
【外6】
【0028】は単語とその周辺情報も含めて、生起し得
る全ての入力条件に対する確率の和であり、パラメータ
がLPCケプストラム係数やバンドパスフィルタ出力の
場合は、正規分布に近い分布形状になると考えることが
できる。
る全ての入力条件に対する確率の和であり、パラメータ
がLPCケプストラム係数やバンドパスフィルタ出力の
場合は、正規分布に近い分布形状になると考えることが
できる。
【0029】
【外7】
【0030】が正規分布に従うと仮定し、平均値を
【0031】
【外8】
【0032】、共分散行列を
【0033】
【外9】
【0034】を用いると、(数5)のようになる。
【0035】
【数5】
【0036】(数4)、(数5)を(数3)に代入し、
対数をとって、定数項を省略し、さらに−2倍すると、
次式を得る。
対数をとって、定数項を省略し、さらに−2倍すると、
次式を得る。
【0037】
【数6】
【0038】この式は、ベイズ距離を事後確率化した式
であり、識別能力は高いが計算量が多いという欠点があ
る。この式を次のようにして線形判別式に展開する。全
ての単語に対する全ての部分パターンそして周囲パター
ンも含めて共分散行列が等しいものと仮定する。このよ
うな仮定のもとに共分散行列を共通化し、(数6)の
であり、識別能力は高いが計算量が多いという欠点があ
る。この式を次のようにして線形判別式に展開する。全
ての単語に対する全ての部分パターンそして周囲パター
ンも含めて共分散行列が等しいものと仮定する。このよ
うな仮定のもとに共分散行列を共通化し、(数6)の
【0039】
【外10】
【0040】、
【0041】
【外11】
【0042】のかわりに
【0043】
【外12】
【0044】を代入すると、(数6)は次のように簡単
な一次判別式になる。
な一次判別式になる。
【0045】
【数7】
【0046】ここで、改めて、入力の第jフレーム成分
(数2)と単語kの第iフレーム成分の部分パターンとの
距離として(数7)を書き直すと、次のようになる。
(数2)と単語kの第iフレーム成分の部分パターンとの
距離として(数7)を書き直すと、次のようになる。
【0047】
【数8】
【0048】Lk,i,jは単語kの第i部分パターンと入力
のjフレーム近隣のベクトルの部分類似度である。
のjフレーム近隣のベクトルの部分類似度である。
【0049】図1において距離累積部14は、各単語に
対する部分距離を累積し、単語全体に対する距離を求め
る部分である。この計算はダイナミックプログラミング
の手法(DP法)を用いて効率よく計算できる。入力の
第jフレーム部分と第i番目の部分パターンとの部分距
離Li,jをl(i,j)と表現し、(i,j)フレームまで
の累積距離をg(i,j)と表現することにすると(数
9)のようになる。
対する部分距離を累積し、単語全体に対する距離を求め
る部分である。この計算はダイナミックプログラミング
の手法(DP法)を用いて効率よく計算できる。入力の
第jフレーム部分と第i番目の部分パターンとの部分距
離Li,jをl(i,j)と表現し、(i,j)フレームまで
の累積距離をg(i,j)と表現することにすると(数
9)のようになる。
【0050】
【数9】
【0051】経路判定部14は(数9)における3つに
経路のうち累積距離が最小になる経路を選択する。
経路のうち累積距離が最小になる経路を選択する。
【0052】認識を行う場合は、入力音声の前後のノイ
ズ区間を含む十分長い入力区間において1フレームずつ
シフトしながら、標準パターンとの照合を行なっていく
方法を採る。先ず、パターンマッチングが始る時点(j
=1の時点)が音声の始端よりも前にあり、パターンマ
ッチングが終了する時点(j=Jの時点)が音声の終端
よりも後にある。
ズ区間を含む十分長い入力区間において1フレームずつ
シフトしながら、標準パターンとの照合を行なっていく
方法を採る。先ず、パターンマッチングが始る時点(j
=1の時点)が音声の始端よりも前にあり、パターンマ
ッチングが終了する時点(j=Jの時点)が音声の終端
よりも後にある。
【0053】この方法は、入力信号の中から距離が最小
の部分を切出すことによって単語を認識する方法であ
り、「ワードスポッティング法」の1つである。距離比
較部15は各単語毎に入力の第jフレームまでの最小累
積距離求めこれをを一時記憶16に記憶しておく。パタ
ーンマッチング範囲の終端に達した時、一時記憶に記憶
されている各単語毎の最小累積距離の中で最も累積距離
の小さい単語が認識結果となる。
の部分を切出すことによって単語を認識する方法であ
り、「ワードスポッティング法」の1つである。距離比
較部15は各単語毎に入力の第jフレームまでの最小累
積距離求めこれをを一時記憶16に記憶しておく。パタ
ーンマッチング範囲の終端に達した時、一時記憶に記憶
されている各単語毎の最小累積距離の中で最も累積距離
の小さい単語が認識結果となる。
【0054】
【発明が解決しようとする課題】従来例の方法は音声区
間を検出せずにスポッティングを用いて認識を行うため
騒音に強い。しかし、実際に認識を行うと単語集団に対
する平均認識率はかなり高いが、認識対象単語群のなか
の特定の単語間での間違いが頻繁に起る場合がある。例
えば、「ふじいでら」と「ふじ」の2単語を考えた場
合、「ふじいでら」と発声すると”ふじ”の部分で単語
「ふじ」のスポッティングを行い「ふじいでら」を「ふ
じ」と誤認識しやすくなる。しかし、「ふじ」と発声し
た場合に「ふじいでら」に誤認識されることはほとんど
ない。このように特定の単語間での誤認識が多い場合が
有り、ある限度以上に認識率を向上させることが困難で
ある。
間を検出せずにスポッティングを用いて認識を行うため
騒音に強い。しかし、実際に認識を行うと単語集団に対
する平均認識率はかなり高いが、認識対象単語群のなか
の特定の単語間での間違いが頻繁に起る場合がある。例
えば、「ふじいでら」と「ふじ」の2単語を考えた場
合、「ふじいでら」と発声すると”ふじ”の部分で単語
「ふじ」のスポッティングを行い「ふじいでら」を「ふ
じ」と誤認識しやすくなる。しかし、「ふじ」と発声し
た場合に「ふじいでら」に誤認識されることはほとんど
ない。このように特定の単語間での誤認識が多い場合が
有り、ある限度以上に認識率を向上させることが困難で
ある。
【0055】本発明は上記課題に鑑み、特定の誤認識し
やすい単語の認識率を向上させ、単語認識率をより向上
させる音声認識方法を提供するものである。
やすい単語の認識率を向上させ、単語認識率をより向上
させる音声認識方法を提供するものである。
【0056】
【課題を解決するための手段】本発明では上記課題を解
決するために、あらかじめ単語間の混同確率を認識結果
または単語標準パタ−ン間の類似性から求めておき、入
力音声の類似度計算から得られる上位n位までのn単語
を求め、前記入力音声と前記n単語のそれぞれとの前記
類似度と、前記入力音声と前記n単語のそれぞれとの前
記混同確率との積和を求めて新しく入力単語の類似度と
した後、最も類似度が大きい単語を認識結果とする処理
を設けたものである。
決するために、あらかじめ単語間の混同確率を認識結果
または単語標準パタ−ン間の類似性から求めておき、入
力音声の類似度計算から得られる上位n位までのn単語
を求め、前記入力音声と前記n単語のそれぞれとの前記
類似度と、前記入力音声と前記n単語のそれぞれとの前
記混同確率との積和を求めて新しく入力単語の類似度と
した後、最も類似度が大きい単語を認識結果とする処理
を設けたものである。
【0057】
【作用】本発明は上記構成により、単語間の混同確率を
用いることで、認識率の悪い特定の単語間の認識率を向
上させる事が出来る。
用いることで、認識率の悪い特定の単語間の認識率を向
上させる事が出来る。
【0058】
【実施例】(実施例1) 以下、本発明の第一の実施例について説明する。本実施
例では、単語認識の方法については従来例と同じ認識方
法を用いる。本発明は、単語認識方法によらず単語認識
を行った後の処理になるので認識方法の部分についての
説明は省略する。
例では、単語認識の方法については従来例と同じ認識方
法を用いる。本発明は、単語認識方法によらず単語認識
を行った後の処理になるので認識方法の部分についての
説明は省略する。
【0059】図1に本実施例の構成図を示す。図1にお
いて、1は単語音声認識部、2は第1次認識結果格納
部、3は第2次類似度計算部、4は単語間混同確率格納
部、5は認識結果判定部である。
いて、1は単語音声認識部、2は第1次認識結果格納
部、3は第2次類似度計算部、4は単語間混同確率格納
部、5は認識結果判定部である。
【0060】以上の様な図1の構成において、以下その
動作について説明をする。単語音声認識部1について
は、特徴パラメ−タを抽出し単語標準パタ−ンとマッチ
ングすることにより単語認識を行う。本発明は、認識方
法に左右される発明ではないので、どの様な認識方法を
用いてもよい。本実施例では、従来例と同じ認識方法を
使用する。したがって、認識方法の説明はここでは省略
する。
動作について説明をする。単語音声認識部1について
は、特徴パラメ−タを抽出し単語標準パタ−ンとマッチ
ングすることにより単語認識を行う。本発明は、認識方
法に左右される発明ではないので、どの様な認識方法を
用いてもよい。本実施例では、従来例と同じ認識方法を
使用する。したがって、認識方法の説明はここでは省略
する。
【0061】次に、未知入力音声を認識する前にあらか
じめ用意しておく単語間の混同確率を求める方法につい
て説明を行う。単語間の混同確率を求めるために、あら
かじめ多くの話者の発声したデ−タの認識を行い各単語
が正解した個数と他の単語に誤認識した個数を求める。
例を図2に示す。図2はK個の単語群に対して各単語を
100回認識したときの混同表である。図において縦軸
が入力音声の単語番号を示し、横軸がどの単語に認識さ
れたかの個数を示す。例えば、単語番号1の入力単語が
有った場合、単語番号1に正しく認識した場合が80
個、単語番号2に誤認識した場合が2個、単語番号3に
誤認識した場合が6個、単語番号kに誤認識した場合が
12個で合計100回の認識を行ったことになる。この
様な認識結果を各単語毎に求め、図2のような混同表を
作成する。次に、図2の混同表から確率値に変換する。
図3に確率値に変換した混同確率表を示す。単語番号i
の単語が単語jに誤認識する確率をconf(i,j)とす
る。図3において、単語番号1の単語が1に正しく認識
される確率はconf(1,1)=0.8、単語番号2に誤
認識される確率はconf(1,2)=0.02である。こ
の混同確率表を単語間混同確率格納部4に格納してお
く。
じめ用意しておく単語間の混同確率を求める方法につい
て説明を行う。単語間の混同確率を求めるために、あら
かじめ多くの話者の発声したデ−タの認識を行い各単語
が正解した個数と他の単語に誤認識した個数を求める。
例を図2に示す。図2はK個の単語群に対して各単語を
100回認識したときの混同表である。図において縦軸
が入力音声の単語番号を示し、横軸がどの単語に認識さ
れたかの個数を示す。例えば、単語番号1の入力単語が
有った場合、単語番号1に正しく認識した場合が80
個、単語番号2に誤認識した場合が2個、単語番号3に
誤認識した場合が6個、単語番号kに誤認識した場合が
12個で合計100回の認識を行ったことになる。この
様な認識結果を各単語毎に求め、図2のような混同表を
作成する。次に、図2の混同表から確率値に変換する。
図3に確率値に変換した混同確率表を示す。単語番号i
の単語が単語jに誤認識する確率をconf(i,j)とす
る。図3において、単語番号1の単語が1に正しく認識
される確率はconf(1,1)=0.8、単語番号2に誤
認識される確率はconf(1,2)=0.02である。こ
の混同確率表を単語間混同確率格納部4に格納してお
く。
【0062】未知入力音声を認識する場合は、まず最初
に単語音声認識部1で単語認識を行い各単語の類似度を
求める。この結果を、第1次認識結果格納部2に送り格
納する。第2次類似度計算部3では、各単語の類似度を
確率値に変換し確率値ベクトル
に単語音声認識部1で単語認識を行い各単語の類似度を
求める。この結果を、第1次認識結果格納部2に送り格
納する。第2次類似度計算部3では、各単語の類似度を
確率値に変換し確率値ベクトル
【0063】
【外13】
【0064】を作成する。
【0065】
【数10】
【0066】各単語の類似度を(数3)にもとづいて確
率値に変換する。単語番号kの類似度をlkとすると確
率値qkは次式で表される。
率値に変換する。単語番号kの類似度をlkとすると確
率値qkは次式で表される。
【0067】
【数11】
【0068】ここで和が1になるように正規化を行い、
最終の確率値pkを(数12)により求める。
最終の確率値pkを(数12)により求める。
【0069】
【数12】
【0070】この確率値と単語間混同確率格納部4内の
混同確率をもちいて第2次類似度である確率P(k)を
(数13)によって求める。
混同確率をもちいて第2次類似度である確率P(k)を
(数13)によって求める。
【0071】
【数13】
【0072】この結果得られる、確率P(k)を最大に
する単語kを第2次判定部5で求め単語kを認識結果と
して出力する。(数13)において、すべての単語に対
して混同確率との積和を求めなくても、認識結果の上位
n位までの単語との積和を求めてもよい。(数13)に
ついて簡単な例で説明を行う。例えば、入力音声が「ふ
じいでら」の場合、認識結果の1位が「ふじ」、2位が
「ふじいでら」と誤った時、図3において単語番号1が
「ふじ」、単語番号2が「ふじいでら」で、p1=0.
4、p2=0.3 、上位2位までの認識結果を使用して
第2次類似度を求めると P(1)=p1・CONF(1,1)+p2・CONF(1,2) =0.4×0.8+0.3×0.02=0.326 P(2)=p2・CONF(2,2)+p1・CONF(2,1) =0.3×0.5+0.4×0.45=0.33 となりP(2)の「ふじいでら」の確率がP(1)より
大きくなり結果が修正される。一般的に「ふじいでら」
と発声した場合には、”ふじ”の部分区間で「ふじ」と
誤認識する場合は多いが、逆に「ふじ」と発声して「ふ
じいでら」に誤認識する場合はほとんどない。したがっ
て、CONF(2、1)の値は大きくCONF(1、2)の値は
小さい値となる。(数13)を用いて第2次類似度を求
めればP(1)とP(2)の差が小さい場合は、認識結
果を正しく補正することが出来るようになる。
する単語kを第2次判定部5で求め単語kを認識結果と
して出力する。(数13)において、すべての単語に対
して混同確率との積和を求めなくても、認識結果の上位
n位までの単語との積和を求めてもよい。(数13)に
ついて簡単な例で説明を行う。例えば、入力音声が「ふ
じいでら」の場合、認識結果の1位が「ふじ」、2位が
「ふじいでら」と誤った時、図3において単語番号1が
「ふじ」、単語番号2が「ふじいでら」で、p1=0.
4、p2=0.3 、上位2位までの認識結果を使用して
第2次類似度を求めると P(1)=p1・CONF(1,1)+p2・CONF(1,2) =0.4×0.8+0.3×0.02=0.326 P(2)=p2・CONF(2,2)+p1・CONF(2,1) =0.3×0.5+0.4×0.45=0.33 となりP(2)の「ふじいでら」の確率がP(1)より
大きくなり結果が修正される。一般的に「ふじいでら」
と発声した場合には、”ふじ”の部分区間で「ふじ」と
誤認識する場合は多いが、逆に「ふじ」と発声して「ふ
じいでら」に誤認識する場合はほとんどない。したがっ
て、CONF(2、1)の値は大きくCONF(1、2)の値は
小さい値となる。(数13)を用いて第2次類似度を求
めればP(1)とP(2)の差が小さい場合は、認識結
果を正しく補正することが出来るようになる。
【0073】100地名を発声した50名のデータを用
いて評価を行った。従来の方法だけでは95.5%の単
語認識率が、本実施例を適用すると97.5%まで改善
され、本発明が有効であることが分る。
いて評価を行った。従来の方法だけでは95.5%の単
語認識率が、本実施例を適用すると97.5%まで改善
され、本発明が有効であることが分る。
【0074】(実施例2) 以下、 第2の実施例について説明を行う。図4に第2の
実施例の構成図を示す。第1の実施例との違いは、単語
辞書6を用いて単語間混同確率作成部7で単語間混同確
率を作成し単語間混同確率格納部4に格納する部分であ
る。この部分についてのみ説明を行う。単語辞書6に格
納されている単語標準パタ−ンと単語の特徴パラメ−タ
の平均値の時系列パタ−ンを使用して単語間混同確率を
求める。単語の特徴パラメータの平均値パターンの時系
列の作成は単語標準パターン作成時に行う。単語kの時
系列パターンTkは、単語長をJk、jフレームにおける
平均値ベクトルを
実施例の構成図を示す。第1の実施例との違いは、単語
辞書6を用いて単語間混同確率作成部7で単語間混同確
率を作成し単語間混同確率格納部4に格納する部分であ
る。この部分についてのみ説明を行う。単語辞書6に格
納されている単語標準パタ−ンと単語の特徴パラメ−タ
の平均値の時系列パタ−ンを使用して単語間混同確率を
求める。単語の特徴パラメータの平均値パターンの時系
列の作成は単語標準パターン作成時に行う。単語kの時
系列パターンTkは、単語長をJk、jフレームにおける
平均値ベクトルを
【0075】
【外14】
【0076】とすると、
【0077】
【数14】
【0078】となる。このTkを入力音声データと仮定
して、単語nの単語標準パターンを用いて認識を行い、
入力単語kと単語nとの類似度を求める。この類似度を
第1の実施例で用いた確率に変換する(数11)、(数
12)を適用して確率値r k n に変換する。入力単語kと
各単語nとの類似度を確率値に変換した確率値ベクトル
して、単語nの単語標準パターンを用いて認識を行い、
入力単語kと単語nとの類似度を求める。この類似度を
第1の実施例で用いた確率に変換する(数11)、(数
12)を適用して確率値r k n に変換する。入力単語kと
各単語nとの類似度を確率値に変換した確率値ベクトル
【0079】
【外15】
【0080】を次式により求める。
【0081】
【数15】
【0082】この(数15)を各単語に対して求め、単
語間混同確率表を作成する。図5にこの単語間混同確率
表を示す。この単語間混同確率表を用いて第1の実施例
と同様に第2次類似度計算を行い、第2次類似度が最も
大きい単語を認識結果として出力する。
語間混同確率表を作成する。図5にこの単語間混同確率
表を示す。この単語間混同確率表を用いて第1の実施例
と同様に第2次類似度計算を行い、第2次類似度が最も
大きい単語を認識結果として出力する。
【0083】100地名を発声した50名の評価を行っ
た。従来の方法だけでは95.5%の単語認識率が、本
実施例を適用すると97.2%まで改善され、本発明が
有効であることが分る。本実施例では、実際の認識結果
を使用せずに単語標準パターンがあれば単語間混同確率
を求めることが出来るので、単語集団が変更になっても
容易に単語間混同確率を求めることが出来る。したがっ
て、実際の使用を考慮すると認識実験結果がなくても適
用することが出来る長所がある。
た。従来の方法だけでは95.5%の単語認識率が、本
実施例を適用すると97.2%まで改善され、本発明が
有効であることが分る。本実施例では、実際の認識結果
を使用せずに単語標準パターンがあれば単語間混同確率
を求めることが出来るので、単語集団が変更になっても
容易に単語間混同確率を求めることが出来る。したがっ
て、実際の使用を考慮すると認識実験結果がなくても適
用することが出来る長所がある。
【0084】
【発明の効果】以上の様に本発明は、単語間混同確率を
用いて類似度を求め直すことにより特定の単語間の誤認
識を修正することができ高い認識率を得ることが出来
る。第1の実施例では、実際の認識結果を使用すること
により高い精度で誤認識を修正することが出来る。ま
た、第2の実施例では、実際の認識結果がなくても、単
語標準パターンから単語間混同確率を求め、誤認識を修
正することが出来る。
用いて類似度を求め直すことにより特定の単語間の誤認
識を修正することができ高い認識率を得ることが出来
る。第1の実施例では、実際の認識結果を使用すること
により高い精度で誤認識を修正することが出来る。ま
た、第2の実施例では、実際の認識結果がなくても、単
語標準パターンから単語間混同確率を求め、誤認識を修
正することが出来る。
【0085】このように、本発明は実用上有効な方法で
あり、その効果は大きい。
あり、その効果は大きい。
【図面の簡単な説明】
【図1】本発明の第1の実施例における音声認識方法を
具現化する機能ブロック図
具現化する機能ブロック図
【図2】同実施例における単語間混同表の説明図
【図3】同実施例における単語間混同確率の説明図
【図4】本発明の第2の実施例における音声認識方法を
具現化する機能ブロック図
具現化する機能ブロック図
【図5】同実施例における単語標準パターンを用いて作
成した単語間混同確率の説明図
成した単語間混同確率の説明図
【図6】従来例における音声認識方法を具現化する機能
ブロック図
ブロック図
1 単語音声認識部 2 第1次認識結果格納部 3 第2次類似度計算部 4 単語間混同確率格納部 5 判定部 6 単語辞書 7 単語間混同確率作成部 8 音響分析部 9 特徴パラメータ抽出部 10 複数フレームバッファ 11 部分距離計算部 12 部分標準パターン格納部 13 経路判定部 14 距離累積部 15 距離比較部 16 一時記憶部
Claims (2)
- 【請求項1】 入力音声の特徴抽出を行い、その特徴デ
−タと認識対象単語との類似度計算を行い、その類似度
が最も大きい単語を認識結果として出力する認識装置に
おいて、あらかじめ認識対象単語に対して認識実験を行
い、その結果からある単語が他の単語にどの程度誤認識
するかという単語間の混同確率を求めておき、入力音声
の類似度計算から得られる上位n位までのn単語を求
め、前記入力音声と前記n単語のそれぞれとの前記類似
度と、前記入力音声と前記n単語のそれぞれとの前記混
同確率との積和を求めて新しく入力単語の類似度とした
後、最も類似度が大きい単語を認識結果とする処理を特
徴とする音声認識方法。 - 【請求項2】 入力音声の特徴抽出を行い、その特徴デ
−タと認識対象単語との類似度計算を行い、その類似度
が最も大きい単語を認識結果として出力する認識装置に
おいて、あらかじめ認識対象単語のパラメータの平均値
の時系列に対して単語標準パターンを用いて認識実験を
行い類似度を求め、その結果からある単語が他の単語に
どの程度誤認識するかという単語間の混同確率を求めて
おき、入力音声の類似度計算から得られる上位n位まで
のn単語を求め、前記入力音声と前記n単語のそれぞれ
との前記類似度と、前記入力音声と前記n単語のそれぞ
れとの前記混同確率との積和を求めて新しく入力単語の
類似度とした後、最も類似度が大きい単語を認識結果と
する処理を特徴とする音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5515192A JP2502880B2 (ja) | 1992-03-13 | 1992-03-13 | 音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5515192A JP2502880B2 (ja) | 1992-03-13 | 1992-03-13 | 音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0643893A JPH0643893A (ja) | 1994-02-18 |
JP2502880B2 true JP2502880B2 (ja) | 1996-05-29 |
Family
ID=12990758
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP5515192A Expired - Fee Related JP2502880B2 (ja) | 1992-03-13 | 1992-03-13 | 音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2502880B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3104659B2 (ja) | 1997-10-31 | 2000-10-30 | 日本電気株式会社 | 音声入力装置及びプログラムを記録した機械読み取り可能な記録媒体 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1022724B8 (en) * | 1999-01-20 | 2008-10-15 | Sony Deutschland GmbH | Speaker adaptation for confusable words |
JP4639990B2 (ja) * | 2005-06-27 | 2011-02-23 | 日産自動車株式会社 | 音声対話装置及び音声理解結果生成方法 |
EP2040249A1 (de) * | 2007-09-20 | 2009-03-25 | Siemens Aktiengesellschaft Österreich | Selbstoptimierendes Verfahren zur Spracherkennung |
-
1992
- 1992-03-13 JP JP5515192A patent/JP2502880B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3104659B2 (ja) | 1997-10-31 | 2000-10-30 | 日本電気株式会社 | 音声入力装置及びプログラムを記録した機械読み取り可能な記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
JPH0643893A (ja) | 1994-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2739950B2 (ja) | パターン認識装置 | |
TWI396184B (zh) | 一種語音辨認所有語言及用語音輸入單字的方法 | |
JP6464005B2 (ja) | 雑音抑圧音声認識装置およびそのプログラム | |
JP2870224B2 (ja) | 音声認識方法 | |
JP3298858B2 (ja) | 低複雑性スピーチ認識器の区分ベースの類似性方法 | |
Rabiner et al. | Some performance benchmarks for isolated work speech recognition systems | |
US5487129A (en) | Speech pattern matching in non-white noise | |
US4885791A (en) | Apparatus for speech recognition | |
JP2502880B2 (ja) | 音声認識方法 | |
JP2005148342A (ja) | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 | |
JP3444108B2 (ja) | 音声認識装置 | |
JP2002366192A (ja) | 音声認識方法及び音声認識装置 | |
JP3428058B2 (ja) | 音声認識装置 | |
JP4666129B2 (ja) | 発声速度正規化分析を用いた音声認識装置 | |
JP3493849B2 (ja) | 音声認識装置 | |
JP2853418B2 (ja) | 音声認識方法 | |
JP3091537B2 (ja) | 音声パターン作成方法 | |
JPH0777998A (ja) | 連続単語音声認識装置 | |
JPH0876792A (ja) | 音声認識装置 | |
JP2870268B2 (ja) | 音声認識装置 | |
JP2746803B2 (ja) | 音声認識方法 | |
JPH0451037B2 (ja) | ||
KR910007530B1 (ko) | 음성인식장치 및 그 방법 | |
JP3704080B2 (ja) | 音声認識方法及び音声認識装置並びに音声認識プログラム | |
JPH05150796A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |