JP2000267691A

JP2000267691A - 音声認識システムにおける認識辞書選択方法

Info

Publication number: JP2000267691A
Application number: JP11075426A
Authority: JP
Inventors: Shintaro Murakami; 伸太郎村上
Original assignee: Meidensha Corp; Meidensha Electric Manufacturing Co Ltd
Current assignee: Meidensha Corp; Meidensha Electric Manufacturing Co Ltd
Priority date: 1999-03-19
Filing date: 1999-03-19
Publication date: 2000-09-29

Abstract

(57)【要約】【課題】話者の発声速度に応じて、辞書を適宜選択す
ることによって、音声認識の性能の向上を図ったもので
ある。【解決手段】音声認識システムのマッチング部から認
識結果として出力された単語または単語列を単語または
単語列抽出手段１で抽出する。この抽出手段１で抽出さ
れた単語または単語列について、ワードスポットされた
フレーム数ａと、標準の発声速度に対応した標準辞書内
のフレーム数ｂとが比較判定手段２で比較判定される。
この比較判定手段２での比較判定の結果の出力は、辞書
切替選択手段３に供給される。この辞書切替選択手段３
は、フレーム数ａがフレーム数ｂより一定以上大きい
か、小さいかにより、次段の発声速度の遅い辞書格納手
段４と発声速度の速い辞書格納手段５の中から適切な辞
書を選択する。両辞書格納手段４、５は、それぞれ複数
の辞書から構成され、選択された辞書は音声認識時に使
用される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、音素認識部を前
段に持つ連続単語音声認識システムにおける認識辞書選
択方法に関する。

【０００２】

【従来の技術】音声認識装置の一例として図３に示す離
散単語音声認識システムがある。このシステムは、図３
に示すように、電話やマイクロフォンなどの音声入力装
置１１から音声データが音声入力部１２に入力される。
この音声入力部１２に入力された音声データは、特徴抽
出部１３に供給され、ここで、音声データは周波数分析
される。この周波数分析の結果からスペクトル列を得
て、このスペクトル列が音素認識部１４に入力される。
音素認識部１４は、出力を二重化したニューラルネット
ワーク（図示省略）によって構成されている。

【０００３】上記ニューラルネットワークは入力層、隠
れ層、出力層からなり、入力層に例えば、１時刻毎に５
フレームのスペクトルが入力され、それの中央のスペク
トルに該当する音素がどれであるかを、出力層のユニッ
トの値によって送出する。出力ユニットは、二重化され
ているため、各音素カテゴリ毎にユニットは２個づつ対
応づけられている。それに対して結果は、最大の出力値
を示すものから２つのユニットを選び、それが対応する
音素を第１位、第２位音素候補として得る。

【０００４】その認識された音素候補列と、認識させた
い語彙の音素パターンを持たせた辞書テンプレート１５
との類似度は、DP（Dynamic Programming）法によって
マッチング部１６でマッチングされる。そして、最も類
似する単語又は単語列を認識結果としてマッチング部１
６から出力する。

【０００５】ここで、一般的な連続単語認識アルゴリズ
ムの概要について述べる。いま、単語の接続条件（文
法）が、図４に示す有限状態オートマトンで記述されて
いるとする。これは認識単語数、単語間の接続等を制限
する働きがある。入力パターンを音素認識した結果 T=
{a(1),a(2),a(3),……a(t)}（フレーム数t)の、第ｉフ
レームから第ｊフレーム{ai,……,aj}と、辞書単語テン
プレートn={b(1),b(2),……,bN(n)}とのDPマッチング距
離をdist[n][i][j]と書く（N(n):テンプレートnの長
さ）。dist[n][i][j]はDPマッチングなどにより求めら
れる。この値はワードスポット値とも呼ばれる。また、
ｉをワードスポット始端、ｊをワードスポット終端と呼
ぶことにする。

【０００６】なお、図４は２桁数字を処理するオートマ
トンの例（状態数＝３）である。２桁数字の場合、状態
１に遷移する時に２桁目を状態１から状態２に遷移する
ときに１桁目を出力する。それ以外の遷移（状態０から
状態２など）では２桁数字は出力されない。

【０００７】今、状態数stat numのオートマトン、入力
音素フレーム数len obj（つまり、t=len obj）、辞書単
語数word numの場合を考える。オートマトン状態stat，
入力音素の第kフレームまでのマッチング累積距離frm s
cr[stat][k]を求めたいとすると(0<=stat<last stat,0<
=k<last frm)、それは次の式（１）のようになる。

【０００８】 frm scr[stat][k]=min{frm scr[from stat][m]+dist[n][m+1][k]}…（１）ただし、状態ｐから単語ｎを生成して状態ｑへ遷移でき
ることを f(p,n)=q ……（２）と表すと、from statとnは、0<n<word num，f(from sta
t,n)=statを満たすようなもの、また、0<m<kであり（実
際にはmの範囲は計算量などの関係からさらに制限され
る）、minは、from stat,n,mを、その範囲内で動かした
ときの最小を取ることを示す。

【０００９】上記式（１）、（２）を満たすfrom stat,
n,mをそれぞれ、frm stt[stat][k],frm tpl[stat][k],
frm frm[stat][k]（stt:状態、tpl:テンプレート、frm:
フレーム）とする。このような手順を、0<=k<len obj,0
<=stat<stat numについて求める。実際のプログラムで
は、次のような処理を行うのが一般的である。

【００１０】まず、第ｋフレームにおける累積距離のア
ルゴリズムについて述べる。

【００１１】すべての状態stat(0<=stat<stat num)に
ついて、次の以下を実行すべての辞書単語n(0<=n<word num)について、次の
以下を実行累積距離scr=min{frm scr[from stat][m]+dist[n][m+
1][k]}を求める。ここで、minは、m,from statだけを動
かしたときの最小値を示す。また、from statは、上記
式（２）を満たすものである。

【００１２】frm scr[stat][k]>scrならば、を実行
する。

【００１３】frm scr[stat][k]=scr,frm tpl[stat]
[k]=n,frm frm[stat][k]=(を満たすm),frm stt[stat]
[k]=(を満たすfrom stat) 図５に上記累積距離のアルゴリズム（入力第jフレー
ム）のフローチャートを示す。図５において、ステップ
Ｓ１で上記の処理を実行した後、ステップＳ２の処理
を実行する。ステップＳ２は上記の処理を実行する。
ステップＳ２の処理が実行されたなら、上記の処理を
ステップＳ３で実行する。その後、ステップＳ４で上記
の判断を実行し、「yes」なら上記におけるステッ
プＳ５の処理を実行し、「no」ならステップＳ６の処理
に進む。ステップＳ５の実行が終了したなら、辞書単語
テンプレートｎが、辞書単語数word numより大きいかを
ステップＳ６で判断する。この判断の結果「yes」な
ら、ステップＳ７でオートマトン状態statが状態数stat
numより大きいかを判断し、「yes」なら累積距離計算
を終了する。なお、ステップＳ６、７で「no」ならステ
ップＳ３とステップＳ２の処理に戻る。

【００１４】その後、次のようにしてバックトレースを
行い、認識単語列を得る。なお、バックトレースのアル
ゴリズムは次のように行われる。

【００１５】 k=len obj,stat=stat num(len obj:入
力フレーム数、stat num:有限状態オートマトンの終状
態の番号) frm tpl[stat][k]を認識結果として出力し、その
後、k= frm frm[stat][k] ,stat=frm stt[stat][k]と
する。

【００１６】 k=0なら終了、それ以外なら上記
へ。

【００１７】図６に上記バックトレースのアルゴリズム
のフローチャートを示す。図６において、ステップＳ１
で入力フレーム数と有限状態オートマトンの終状態の番
号を設定した後、ステップＳ２でオートマトン状態sta
t、入力音素の第kフレームまでのテンプレートtplを認
識結果として出力する。その後、ステップＳ３でオート
マトン状態stat、入力音素の第kフレームまでのフレー
ムをｋおよびオートマトン状態stat、入力音素の第kフ
レームまでの状態をstatとする。そして、ステップＳ４
でk=0なら処理を終了し、それ以外ならステップＳ２の
処理に戻る。

【００１８】

【発明が解決しようとする課題】上述した図３に示す離
散単語音声認識システムにおいて、話者の音声を認識す
る際に、話者によっては発声の速度が大きく異なってく
る。このため、辞書テンプレート１５の認識用の辞書を
固定して使用した場合、ある話者によっては、辞書の単
語長が長すぎたり、別の話者によっては、短すぎたりす
ることがある。このとき、ＤＰマッチング計算用のパス
の内、図７（２）に示すような。傾斜制限のあるＤＰパ
スをワードスポット計算時に使用すると、入力音素列と
辞書の音素列の対応が大きくなり、マッチング部１６で
のマッチングがうまく働かなくなって音声認識の性能が
低下する問題がある。

【００１９】この発明は上記の事情に鑑みてなされたも
ので、話者の発声速度に応じて、辞書を適宜選択するこ
とによって、音声認識の性能の向上を図った音声認識シ
ステムにおける認識辞書選択方法を提供することを課題
とする。

【００２０】

【課題を解決するための手段】この発明は、上記の課題
を達成するために、第１発明は、音声入力部に入力され
た音声データを特徴抽出部により周波数分析してスペク
トル列を得、そのスペクトル列を音素認識部に入力し
て、その出力に音素列を得、その音素列をマッチング部
に供給して辞書テンプレートとマッチングさせる際に、
入力音素と辞書テンプレートとのマッチング距離の入力
音素のｎフレームまでの累積距離を求めた後、最も類似
する単語または単語列を認識結果として出力するように
した音声認識システムにおいて、あらかじめ、発声速度
に対応した複数の辞書と標準の発声速度に対応した標準
認識辞書とを用意しておき、前記単語または単語列につ
いて、ワードスポットされたフレーム数と、標準認識辞
書内でのフレーム数とを比較し、その比較の結果に応じ
て、前記複数の辞書から最適な辞書を選択して、音声認
識に使用することを特徴とするものである。

【００２１】第２発明は、前記比較の結果、ワードスポ
ットされたフレーム数が一定以上大きいときには、発声
速度の遅い辞書を、逆のときには、発声速度の速い辞書
を選択することを特徴とするものである。

【００２２】第３発明は、前記発声速度の遅い辞書及び
発声速度の速い辞書は、順次発声速度を遅くまたは速く
した複数の辞書からなることを特徴とするものである。

【００２３】

【発明の実施の形態】以下この発明の実施の形態を図面
に基づいて説明する。図１はこの発明の実施の第１形態
を示す工程説明図で、図１において、１は、図３に示す
音声認識システムのマッチング部１６から認識結果とし
て出力された単語または単語列を抽出する単語または単
語列抽出手段である。この抽出手段１で抽出された単語
または単語列について、ワードスポットされたフレーム
数ａと、標準の発声速度に対応した標準辞書内のフレー
ム数ｂとが比較判定手段２で比較判定される。この比較
判定手段２での比較判定の結果の出力は、辞書切替選択
手段３に供給される。この辞書切替選択手段３は、フレ
ーム数ａがフレーム数ｂより一定以上大きいか、小さい
かにより、次段の発声速度の遅い辞書格納手段４と発声
速度の速い辞書格納手段５の中から適切な辞書を選択す
る機能がある。

【００２４】両辞書格納手段４、５は、それぞれ複数の
辞書から構成され、例えば、発声速度が順次遅くなるよ
うに設定された第１〜第ｎ辞書と、発声速度が順次速く
なるように設定された第１〜第ｎ辞書とから構成されて
いる。選択された辞書は以降の音声認識時に使用され
る。

【００２５】次に、上記第１形態の動作説明を図２に示
すフローチャートにより述べるに、フローチャートに示
した変数を以下のように定義する。その他の変数は前述
したものと同様である。

【００２６】dict len[word]：単語wordの、現在の辞書
における音素フレーム数 parameter big：発声速度の遅さを判定するパラメータ parameter small：発声速度の速さを判定するパラメー
タ cntr big：発声の遅い場合のカウンタ cntr small：発声の速い場合のカウンタ図２はバックトレース時の処理のフローチャートで、図
２において、まず、cntr small=cntr big=0を設定す
る。

【００２７】次に、Ｓ１は、k=len obj、stat=stat num
(len obj:入力フレーム数、stat num:有限状態オートマ
トンの終状態の番号）を設定処理するステップで、入力
フレーム数をｋに、有限状態オートマトンの終状態の番
号をstatにする。その後、ステップＳ２でオートマトン
状態stat、入力音素の第kフレームまでのテンプレートt
plをwordとした処理を行ってそれを認識結果として出力
する。ステップＳ３は、 spot len=k-frm frm[stat]
[k]を計算するステップで、その後、計算の結果をステ
ップＳ４の判断処理に与えてステップＳ４の処理を行
う。判断処理の後、k=frm frm[stat][k]、stat=frm stt
[stat][k]とする。

【００２８】ステップＳ４は、次式が成立するかを判断
する。

【００２９】 spot len＞dict len[word] ×parameter big？この式で「yes」なら発声の遅いカウンタcntr big++処
理を行って発声速度の遅い辞書を選択する。その後、ス
テップＳ６で、k=frm frm[stat][k]、stat=frmstt[sta
t][k]の処理を行って、第ｋフレームがｋ＜＝０である
かをステップＳ７で判断処理する。ステップＳ７で「n
o」ならステップＳ２から再び処理を行い、「yes」なら
処理が進む。

【００３０】ここで、前記ステップＳ４で前記式が成立
しない、すなわち「no」ならステップＳ８の判断処理を
行う。ステップＳ８は、次式の判断処理を行う。

【００３１】 spot len＜dict len[word] ×parameter small？この式で「yes」なら発声の速いカウンタcntr small++
処理を行って発声速度の速い辞書を選択する。その後、
ステップＳ８で「no」である場合の出力とともに、ステ
ップＳ６の処理を行った後に、第ｋフレームがｋ＜＝０
であるかをステップＳ７で判断処理する。ステップＳ７
の処理は上述と同様に行われ、「yes」ならステップＳ
１０で、「cntr big−cntr small＞０」の判断処理を行
って、「yes」なら、さらに１段階発声速度の遅い辞書
を選択するように処理を変更して終了する。

【００３２】ステップＳ１０で「no」ならステップＳ１
１で「cntr small−cntr big＞０」の判断処理を行う。
このステップＳ１１の判断処理で「yes」なら、さらに
１段階発声速度の速い辞書を選択するように処理を変更
して終了する。なお、ステップＳ１１で「no」の場合に
は、辞書の変更を行わないで処理を終了する。

【００３３】上記のように、話者の発声速度に応じて、
辞書を適宜選択することにより、特にＤＰパスに傾斜制
限がある場合に認識性能が著しく向上する。

【００３４】

【発明の効果】以上述べたように、この発明によれば、
話者の発声速度に応じて、辞書を適宜選択することによ
って、音声認識の性能の向上を図ることができる利点が
ある。

【図面の簡単な説明】

【図１】この発明の実施の第１形態を示す工程説明図。

【図２】第１形態のバックトレースアルゴリズムを示す
フローチャート。

【図３】離散単語音声認識システムのブロック構成図。

【図４】有限状態オートマトンの説明図。

【図５】一般的な累積計算部のアルゴリズムを示すフロ
ーチャート。

【図６】バックトレースアルゴリズムを示すフローチャ
ート。

【図７】ＤＰマッチング計算用パスの特性図。

【符号の説明】

１…単語または単語列抽出手段２…比較判定手段３…辞書切替選択手段４…発声速度の遅い辞書格納手段５…発声速度の速い辞書格納手段１１…音声入力装置１２…音声入力部１３…特徴抽出部１４…音素認識部１５…辞書テンプレート１６…マッチング部

Claims

【特許請求の範囲】

【請求項１】音声入力部に入力された音声データを特
徴抽出部により周波数分析してスペクトル列を得、その
スペクトル列を音素認識部に入力して、その出力に音素
列を得、その音素列をマッチング部に供給して辞書テン
プレートとマッチングさせる際に、入力音素と辞書テン
プレートとのマッチング距離の入力音素のｎフレームま
での累積距離を求めた後、最も類似する単語または単語
列を認識結果として出力するようにした音声認識システ
ムにおいて、あらかじめ、発声速度に対応した複数の辞書と標準の発
声速度に対応した標準認識辞書とを用意しておき、前記
単語または単語列について、ワードスポットされたフレ
ーム数と、標準認識辞書内でのフレーム数とを比較し、
その比較の結果に応じて、前記複数の辞書から最適な辞
書を選択して、音声認識に使用することを特徴とする音
声認識システムにおける認識辞書選択方法。
【請求項２】前記比較の結果、ワードスポットされた
フレーム数が一定以上大きいときには、発声速度の遅い
辞書を、逆のときには、発声速度の速い辞書を選択する
ことを特徴とする請求項１記載の音声認識システムにお
ける認識辞書選択方法。
【請求項３】前記発声速度の遅い辞書及び発声速度の
速い辞書は、順次発声速度を遅くまたは速くした複数の
辞書からなることを特徴とする請求項２に記載の音声認
識システムにおける認識辞書選択方法。