JPH05181495A

JPH05181495A - 音声認識装置

Info

Publication number: JPH05181495A
Application number: JP3346317A
Authority: JP
Inventors: Jiro Kiyama; 次郎木山
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1991-12-27
Filing date: 1991-12-27
Publication date: 1993-07-23

Abstract

(57)【要約】【目的】この発明の目的は、認識時におけるセグメン
テーション誤りの回復の程度を話者ごとに高めることが
可能な音声認識装置を提供することである。【構成】この装置は音節認識部１７、音節列修正部１
８、音節連鎖出現確率表格納部１９、誤り音節連鎖確率
表格納部２０およびカテゴリ分類された誤り音節連鎖確
率表格納部２１を有し、格納部２１の確率表は格納部２
０の誤り音節連鎖を予めカテゴリ分類し、各カテゴリご
とに特定話者についての認識誤り頻度をストアする。認
識時、修正部１８は認識部１７から入力する認識音節連
鎖に基づき、高頻度カテゴリの誤り音節連鎖を優先的に
探索し、該当音節連鎖について音節連鎖出現確率表と誤
り音節連鎖確率表とを参照してセグメンテーション誤り
回復を行ない、特定話者に対する認識率を高める。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、音声認識装置に関
し、特に、音節または音韻の認識結果に基づいて入力音
声を認識処理する音声認識装置に関する。

【０００２】

【背景の技術】図５は、この発明の背景を示す音声認識
装置の機能と処理の流れを模式的に示す図である。

【０００３】図６は、この発明の背景を示す音声認識装
置の概略構成図である。図７は、この発明の背景を示す
音声認識装置に備えられる標準パターン辞書の１例を示
す図である。

【０００４】図６において、この発明の背景となる音声
認識装置は、マイクロフォン１、操作盤２、処理本体部
３、プリンタ４およびフレキシブルディスク５を含み、
処理本体部３は、さらに音声分析器３１、マイクロプロ
セッサ３２、入出力プロセッサ３３、メモリ３４および
パターンマッチングプロセッサ３５を含む。

【０００５】マイクロフォン１で集音して得られた音声
信号は、操作盤２を介して処理本体部３に与えられる。
処理本体部３は、与えられる音声信号を、まず音声分析
器３１において、分析および標本化する。マイクロプロ
セッサ３２は、その制御により、メモリ３４に予め音声
の標準パターンを辞書にして記憶する。音声認識時に
は、パターンマッチングプロセッサ３５により、入力音
声信号から得られたパターンとメモリ３４の標準パター
ンとがマッチングされて、その結果がマイクロプロセッ
サ３２に送られる。マイクロプロセッサ３２は、マッチ
ング結果に基づき、認識の結果を判定する。その判定結
果は、入出力プロセッサ３３を介して、プリンタ４また
はフレキシブルディスク５に出力される。

【０００６】上述した標準パターン辞書の構成の一例
が、図７に標準パターン辞書１４１にして示される。

【０００７】図５において、音声認識装置の機能は、標
準パターン辞書１４１をメモリ３４に登録するための登
録モードと、入力音声信号を予め登録された標準パター
ン辞書１４１を用いて認識する認識モードとを備えるよ
うに、特徴抽出部１１、トップダウン音節境界検出部１
２、トップダウン音節区間切出部１３、音節標準パター
ン格納部１４、ボトムアップ音節境界検出部１５、ボト
ムアップ音節区間切出部１６、音節認識部１７、音節列
修正部１８ａ、音節列修正部１８ａにより参照される音
節連鎖出現確率表格納部１９および誤り音節連鎖確率表
格納部２０を含む。

【０００８】特徴抽出部１１は、与えられる音声信号に
ついての特徴パラメータを求める。詳細には、音声信号
のパワースペクトルに基づく、ＬＰＣケプストラム係数
などの特徴パラメータを時系列にして出力する。トップ
ダウン音節境界検出部１２およびボトムアップ音節境界
検出部１５は、与えられる特徴パラメータ時系列中の音
節（母音＋子音の組）の開始点、終了点を検出して出力
する。トップダウン音節区間切出部１３およびボトムア
ップ音節区間切出部１６は、前段で求められた音節の開
始点および終了点を基に、特徴パターン時系列中から音
節区間を切出して出力する。

【０００９】音節標準パターン格納部１４は、登録モー
ド時に、与えられるデータを入力し、図７に示される標
準パターン辞書１４１を作成してたとえばメモリ３４に
ストアする。標準パターン辞書１４１は、登録モード時
に切出された音節のそれぞれについて、音節区間の長さ
を相対的に表わすパターン長とその音節区間内の特徴パ
ターンの時系列とを対応付けてストアする。

【００１０】音節認識部１７は、認識モード時に与えら
れるデータを入力し、音節標準パターン格納部１４に格
納された標準パターン辞書１４１を用いてパターンマッ
チングを図り音節認識する。音節認識部１７は、標準パ
ターン辞書１４１に格納された標準パターンのそれぞれ
と入力音声信号による特徴パターンとのマッチングを図
り、一致したとき、認識したことになる。入力音声信号
が標準パターン辞書１４１内の標準パターンに一致すれ
ばよいが、完全一致しない場合は、入力音声の特徴パラ
メータと標準パターン辞書１４１内の各特徴パラメータ
との類似度（マッチング距離）が計算される。簡単なマ
ッチング距離としては、たとえばユークリッド距離が用
いられる。

【００１１】音節列修正部１８ａは、与えられる音節認
識結果を、音節連鎖出現確率表格納部１９および誤り音
節連鎖確率表格納部２０に格納された音節連鎖出現確率
表および誤り音節連鎖確率表を参照して最適となるよう
に誤り修正して認識文節として出力する。音節列修正部
１８における、音節列修正処理の詳細については後述す
る。

【００１２】図５に示された機能構成を有する音声認識
装置は、音節認識結果に基づいて入力音声を認識するも
のであり、登録モード時にはトップダウン的に音節境界
を求める一方、認識モード時にはボトムアップ的に音節
境界を求めるのである。

【００１３】登録モード時においては、特徴抽出部１１
で抽出された入力音声信号の特徴パラメータに基づい
て、トップダウン音節境界検出部１２においてトップダ
ウン的に音節境界位置が検出される。次に、トップダウ
ン音節区間切出部１３によって、トップダウン音節境界
検出部１２によって検出された音節境界位置における特
徴パラメータの時系列が切出される。こうして切出され
た音節区間に相当する特徴パラメータの時系列が、標準
パターン辞書１４１にして音節標準パターン格納部１４
に格納される。

【００１４】一方、認識モード時においては、特徴抽出
部１１で抽出された入力音声の特徴パラメータに基づい
て、ボトムアップ音節境界検出部１５においてボトムア
ップ的に音節境界位置が検出される。次に、ボトムアッ
プ音節区間切出部１６によって、ボトムアップ音声境界
検出部１５によって検出された音節境界位置における特
徴パラメータの時系列が切出される。こうして切出され
た特徴パラメータの時系列が音節認識部１７に入力され
る。音節認識部１７では、入力された特徴パラメータの
時系列と、登録モード時に音節標準パターン格納部１４
に格納された標準パターン辞書１４１の音節標準パター
ンとのマッチングが行なわれる。その結果、マッチング
距離の最も小さい音節標準パターンが音節認識結果とし
て出力される。

【００１５】ここで、トップダウン音節境界検出部１２
によって実施されるトップダウン的な音節境界位置検出
について説明する。

【００１６】たとえば、登録モード時に、登録の対象と
なる音声が発声されると同時に、この発声のローマ字表
記が、図６の操作盤２を介して入力される。そうする
と、入力されたローマ字表記から入力音声に含まれる音
節数が既知となるので、音節区間長を音節数で割ること
によって推定平均音節長が求められる。次に、音声信号
のスペクトル変化およびパワー変化などにより検出され
る音節境界位置候補の中から前述した推定平均音節長に
基づいて、最も信頼度の高い音節境界位置候補を音節境
界として決定する。

【００１７】このように、トップダウン的な音節境界位
置検出では、音節境界位置候補中において音節境界とし
て最も信頼度の高い音節境界位置候補を音節境界として
決定できる。

【００１８】しかしながら、上述した音声認識装置の音
節認識部１７までの処理においては、次のような課題が
残る。すなわち、上述したように、登録モード時には、
トップダウン的に音節境界位置を検出することができる
ので、得られる音節標準パターンの信頼度は非常に高い
ものである。すなわち、標準パターン辞書１４１の信頼
度は非常に高い。ところが、認識モード時においては、
予め発声のローマ字表記を入力することはできないので
ボトムアップ的に音節境界位置を求めなければならな
い。したがって、認識モード時においては、音節境界位
置検出の誤り（音節境界の誤挿入＝分離誤り、音節境界
の脱落＝併合誤り、ずれ＝ずれ誤り）が発生しやすいの
である。このように認識モード時において生じる音節境
界位置検出（セグメンテーション）誤りは、認識処理に
おいて致命的な課題となる。

【００１９】そこで、上述した認識モード時において生
じる音節境界位置検出誤りをある程度回復するために、
音節連鎖出現確率表格納部１９および誤り音節連鎖確率
表格納部２０を参照して音節列の修正を行なう音節列修
正部１８ａが設けられる。

【００２０】音節列修正部１８ａは、音節認識部１７の
パターンマッチングにおいてマッチング距離が最小であ
ると判断された音節標準パターンに対応付けられた音節
を入力する。入力される認識結果の音節列は、音節列Ｘ
（１）、Ｘ（２）、…、Ｘ（ｎ）、…、Ｘ（Ｎ）として
与えられる。

【００２１】音節列修正部１８ａは、格納部１９に格納
された音節連鎖出現確率表と格納部２０に格納された誤
り音節連鎖確率表とを用いて、音節認識部１７における
セグメンテーションの誤りを補正して正しい音節列を出
力することにより、認識結果を修正するように作用す
る。

【００２２】次に、格納部１９および格納部２０にそれ
ぞれ格納される、音節連鎖出現確率表と誤り音節連鎖確
率表とについて説明する。なお、説明を簡単にするため
に、音声認識装置は文節単位で発声された音声を認識す
る装置であり、音節認識部１７におけるセグメンテーシ
ョンの誤りを検出／補正する際の音節連鎖の単位は３音
節連鎖であると想定する。

【００２３】音節連鎖出現確率表は、大量の文章から求
められた種々の音節連鎖の出現確率を、それぞれ音節連
鎖の文節中における位置情報である音節連鎖位置を加味
して次のように表現している。たとえば、対象となる３
音節連鎖を構成する３個の音節のうち、先行音節を
“ａ”，中間音節を“ｂ”および最終音節を“ｃ”と
し、対象となる３音節連鎖“ａｂｃ”の音節連鎖位置を
“ｉ”とすると、大量の文章から求められた３音節連鎖
“ａｂｃ”の出現確率を、音節連鎖位置を加味して“Ｐ
（ｉ，ａｂｃ）”と表現する。この出現確率における音
節連鎖位置ｉは、３音節連鎖“ａｂｃ”が文節の先頭に
ある場合には“０”となり、文節の中にある場合には
“１”となり、文節の末尾にある場合には“２”とな
る。たとえば、文節「わたしのお」における３音節連鎖
「わたし」は、文節の先頭にあるので音節連鎖位置ｉは
“０”であり、３音節連鎖「しのお」は文節の末尾にあ
るので音節連鎖位置ｉは“２”である。

【００２４】一方、格納部２０に格納される誤り音節連
鎖確率表は、たとえば、上述した大量の文章を発声した
際の音声を、音節認識部１７によって認識した場合に、
誤認識された音節連鎖の出現確率（すなわち誤認識確
率）を、それぞれの音節連鎖の音節連鎖位置ｉおよび誤
認識の内容情報を加味して次のように表現する。すなわ
ち、セグメンテーションの誤り（ずれ誤り）または音節
認識部１７におけるマッチング誤りによって３音節連鎖
“ｄｅｆ”が３音節連鎖“ａｂｃ”と誤認識された場合
の出現確率を“Ｅ（ｉ，ａｂｃ←ｄｅｆ）”と表現す
る。また、１音節ｃに先行する１音節ｇがセグメンテー
ションの誤り（分離誤り）によって２音節連鎖ａｂとし
て誤認識された場合の出現確率を“Ｅ（ｉ，ａｂｃ←ｇ
ｃ）”と表現する。

【００２５】このように、誤認識確率“Ｅ（ｉ，ａｂｃ
←ｄｅｆ）”または“Ｅ（ｉ，ａｂｃ←ｇｃ）”には、
誤認識の内容情報“（ａｂｃ←ｄｅｆ）”あるいは
“（ａｂｃ←ｇｃ）”を加味して表現する。

【００２６】図５に戻って、音節列修正部１８ａは、音
節認識部１７から入力される音節列Ｘ（１）、Ｘ
（２）、…、Ｘ（ｎ）、…Ｘ（Ｎ）に基づいて、次に述
べるようにして音節境界位置検出の誤りを補正して、正
しい音節列を出力する。

【００２７】音節列修正部１８は、入力された音節列Ｘ
（１）、Ｘ（２）、…、Ｘ（ｎ）、…Ｘ（Ｎ）を構成す
る各３音節連鎖Ｘ（ｎ−１）Ｘ（ｎ）Ｘ（ｎ＋１）の音
節列中における音節連鎖位置ｉに基づいて、音節連鎖出
現確率表および誤り音節連鎖確率表を参照し、各音節連
鎖Ｘ（ｎ−１）Ｘ（ｎ）Ｘ（ｎ＋１）の出現確率と誤認
識確率とを求める。そして、求められた出現確率と誤認
識確率に基づいて、次のルールおよびに従って正し
いと判定された音節連鎖を出力する。

【００２８】仮に、Ｐ（ｉ，Ｘ（ｎ−１）Ｘ（ｎ）Ｘ
（ｎ＋１））×Ｔ＜Ｅ（ｉ，Ｘ（ｎ−１）Ｘ（ｎ）Ｘ
（ｎ＋１）←Ｙ（ｘ）Ｙ（ｙ）Ｙ（ｚ）） …… ならば、音節連鎖Ｘ（ｎ−１）Ｘ（ｎ）Ｘ（ｎ＋１）の
代わりに音節連鎖Ｙ（ｘ）Ｙ（ｙ）Ｙ（ｚ）を出力す
る。一方、仮に、Ｐ（ｉ，Ｘ（ｎ−１）Ｘ（ｎ）Ｘ（ｎ＋１））
×Ｔ≧Ｅ（ｉ，Ｘ（ｎ−１）Ｘ（ｎ）Ｘ（ｎ＋１）←Ｙ
（ｘ）Ｙ（ｙ）Ｙ（ｚ）） …… ならば、音節連鎖Ｘ（ｎ−１）Ｘ（ｎ）Ｘ（ｎ＋１）を
出力する。

【００２９】ただし、Ｔは１以上の定数であり、Ｙ
（ｘ）、Ｙ（ｙ）、Ｙ（ｚ）は任意の音節である。

【００３０】上述したルールを適用した具体例を示す
と、たとえば、Ｐ（０，しあし）×２＜Ｅ（０，しあし←しまし）ならば、認識音節連鎖「しあし」を棄却して、正しい音
節連鎖「しまし」を出力する。

【００３１】一方、Ｐ（０，しあし）×２≧Ｅ（０，しあし←しまし）なら
ば、認識音節連鎖「しあし」を正しい音節連鎖として出
力する。

【００３２】また、Ｐ（２，たのお）×２＜Ｅ（２，たのお←たの）ならば、認識音節連鎖「たのお」を棄却して、正しい音
節連鎖「たの」を出力する。

【００３３】一方、Ｐ（２，たのお）×２≧Ｅ（２，たのお←たの）ならば、認識音節連鎖「たのお」を正しい音節連鎖とし
て出力する。

【００３４】このように、このルールを適用すれば、音
節連鎖出現確率表に基づく認識対象音節連Ｘ（ｎ−１）
Ｘ（ｎ）Ｘ（ｎ＋１）の出現確率の値が誤り音節連鎖確
率表に基づく誤認識確率の値より十分に小さい場合に、
当該音節連鎖Ｘ（ｎ−１）Ｘ（ｎ）Ｘ（ｎ＋１）は誤認
識された音節連鎖であると判定される。さらに、誤り音
節連鎖確率表に従って、当該音節連鎖Ｘ（ｎ−１）Ｘ
（ｎ）Ｘ（ｎ＋１）に係る誤認識確率に加味された誤認
識の内容情報“（Ｘ（ｎ−１）Ｘ（ｎ）Ｘ（ｎ＋１）←
Ｙ（ｘ）Ｙ（ｙ）Ｙ（ｚ））”に従って、当該音節連鎖
Ｘ（ｎ−１）Ｘ（ｎ）Ｘ（ｎ＋１）を正しい音節連鎖Ｙ
（ｘ）Ｙ（ｙ）Ｙ（ｚ）に変更する。

【００３５】したがって、認識モード時において、ボト
ムアップ的に音節を切出す際にセグメンテーション誤り
が発生しても、誤認識された音節連鎖が音節列修正部１
８ａによって正しい音節連鎖に修正されるので認識モー
ド時におけるセグメンテーション誤りは音声認識の致命
的な問題とはならない。

【００３６】ここで、３音節連鎖“ａｂｃ”に関する出
現確率“Ｐ（ｉ，ａｂｃ）”あるいは誤認識確率“Ｅ
（ｉ，ａｂｃ←ｄｅｆ）”，“Ｅ（ｉ，ａｂｃ←ｇ
ｃ）”に音節連鎖位置“ｉ”を加味するのは、次のよう
な理由による。音節連鎖を構成する音節数が増加するに
従って、その音節連鎖が文節中において出現する位置
や、その位置における出現確率の傾向がおのずと定まっ
てくる。このことは、同じ音節連鎖であっても出現する
位置によって出現確率が異なることを意味する。同様
に、同じ音節連鎖であっても出現する位置によって誤認
識の内容や誤認識確率が異なることを意味する。

【００３７】したがって、同じ音節連鎖にかかる出現確
率や誤認識確率を音節連鎖位置ｉ別に設定することによ
って、上述したルールに基づく正しい音節連鎖の判定を
より精度よく実施できるのである。

【００３８】上述の音節列修正部１８ａの判定の結果、
当該音節連鎖が正しい音節列であると判定された場合に
は、当該音節連鎖をそのまま出力するが、当該音節連鎖
が誤認識された音節連鎖であると判定された場合には、
誤認識音節連鎖の出現確率に係る誤認識の内容情報に基
づいて当該音節連鎖を正しい音節連鎖に変更して出力す
る。

【００３９】したがって、認識モード時において、ボト
ムアップ音節境界検出部１５によってボトムアップ的に
検出された音節区間におけるセグメンテーション誤り
を、後段の音節列修正部１８ａによって回復できる可能
性があることから、このセグメンテーション誤りは、該
装置の音声認識における致命的な問題とはならない。ま
た、セグメンテーション誤りを減少できる。

【００４０】

【発明が解決しようとする課題】上述した音声認識装置
における、音節連鎖出現確率表および誤り音節連鎖確率
表の用い方はすべての話者（発声して音声信号を入力す
る人）に対して共通している、すなわち不特定多数の話
者を対象に想定した表であるので、認識誤りを回復して
その認識率を不特定多数の話者に対して高めることは可
能となる。しかしながら、特定少数の話者を対象に想定
して適用した場合には、前述した不特定多数の話者を対
象に想定した場合よりも、その認識率は相対的に低くな
るという問題があった。これは、前述した認識誤り回復
の方法では、話者ごとの最適化を図ることができない、
言い換えれば音節連鎖出現確率表および誤り音節連鎖確
率表に話者ごとの発声のくせ（傾向）を反映していない
ということに起因する。

【００４１】それゆえに、この発明の目的は、認識時に
おけるボトムアップ的な音節境界位置検出（または音韻
境界位置検出）によって発生するセグメンテーション誤
りの回復の程度を話者ごとに高めることが可能な、音声
認識装置を提供することである。

【００４２】

【課題を解決するための手段】この発明に係る音声認識
装置は、入力された音声から音節区間または音韻区間を
切出して入力音声を認識する認識部を有する音声認識装
置であり、第１記憶部と、第２記憶部と、第３記憶部
と、認識結果修正部とを備える。

【００４３】第１記憶部は、種々の音節連鎖の出現確率
をそれぞれの音節連鎖の音節列中における位置情報を加
味して表わす音節連鎖出現確率表、または種々の音韻連
鎖の出現確率をそれぞれの音韻連鎖の音韻列中における
位置情報を加味して表わす音韻連鎖出現確率表を格納す
る。

【００４４】第２記憶部は、音声を認識した際に誤認識
された種々の音節連鎖の出現確率を、それぞれの音節連
鎖の位置情報および誤認識の内容情報を加味して表わす
誤り音節連鎖確率表、または誤認識された種々の音韻連
鎖の出現確率を、それぞれの音韻連鎖の位置情報および
誤認識の内容情報を加味して表わす誤り音韻連鎖確率表
を格納する。

【００４５】第３記憶部は、特定話者が発声する複数の
音声を認識部で認識し、誤認識された種々の音節連鎖の
誤認識内容情報を、音声学的に予め複数のグループに分
類し、その誤認識の頻度情報を各グループごとに表わす
グループ化された誤り音節連鎖確率表、または誤認識さ
れた種々の音韻連鎖の誤認識の内容情報を、音声学的に
予め複数のグループに分類し、その誤認識の頻度情報を
各グループごとに表わすグループ化された誤り音韻連鎖
確率表を格納する。

【００４６】認識結果修正部は、さらに、特定話者が発
声して与える音声の認識モード時、抽出手段と、判定手
段と、第１および第２出力手段とを備える。

【００４７】抽出手段は、認識部から認識結果として出
力された音節列または音韻列を構成する音節連鎖または
音韻連鎖に基づいて、グループ化された誤り音節連鎖確
率表、またはグループ化された誤り音韻連鎖確率表の頻
度情報が高いグループを優先して探索し、該当する誤認
識の内容情報を抽出する。

【００４８】判定手段は、抽出手段において抽出された
誤認識の内容情報および、認識部から認識結果として出
力された音節列または音韻列を構成する音節連鎖または
音韻連鎖の位置情報に基づいて、音節連鎖出現確率表ま
たは音韻連鎖出現確率表と誤り音節連鎖確率表または誤
り音韻連鎖確率表とを参照し、当該音節連鎖または当該
音韻連鎖が正しい音節連鎖または音韻連鎖であるか、誤
認識された音節連鎖または音韻連鎖であるかを所定のル
ールに従って判定する。

【００４９】第１出力手段は、判定手段の判定結果に基
づき、正しい音節連鎖または音韻連鎖であると判定した
場合には、認識部からの当該音節連鎖または当該音韻連
鎖を出力する。

【００５０】第２出力手段は、判定手段の判定結果に基
づき、誤認識された音節連鎖または音韻連鎖であると判
定した場合には、抽出された誤認識の内容情報に誤認識
された音節連鎖の出現確率または誤認識された音韻連鎖
の出現確率を加味して、当該音節連鎖の正しい音節連鎖
または当該音韻連鎖の正しい音韻連鎖を出力する。

【００５１】

【作用】大量の文章に基づき、種々の音節連鎖の出現確
率を、それぞれの音節連鎖の音節列中における位置情報
を加味して表わす音節連鎖出現確率表（または種々の音
韻連鎖の出現確率をそれぞれの音韻連鎖の音韻列中にお
ける位置情報を加味して表わす音韻連鎖出現確率表）が
作成されて第１記憶部に格納される。

【００５２】また、大量の文章に基づいて発声された音
声を認識した際に、誤認識された種々の音節連鎖の出現
確率を、それぞれの音節連鎖の位置情報および誤認識の
内容情報を加味して表わす誤り音節連鎖確率表（または
誤認識された種々の音韻連鎖の出現確率をそれぞれの音
韻連鎖の位置情報および誤認識の内容情報を加味して表
わす音韻連鎖確率表）が作成されて第２記憶部に格納さ
れる。

【００５３】特定話者が発声する複数の音声を認識部で
認識し、誤認識された種々の音節連鎖の誤認識の内容情
報を、音声学的に予め複数のグループに分類し、その誤
認識の頻度情報を各グループごとに表わすグループ化さ
れた誤り音節連鎖確率表（誤認識された種々の音韻連鎖
の誤認識の内容情報を音声学的に予め複数のグループに
分類し、その誤認識の頻度情報を各グループごとに表わ
すグループ化された誤り音韻連鎖確率表）が作成され、
第３記憶部に格納される。

【００５４】特定話者が発声して与える音声を認識する
認識モード時には、まず、認識結果修正部により、認識
部から入力音声の認識結果として出力された音節列（ま
たは音韻列）を構成する音節連鎖（または音韻連鎖）に
基づいて、第３記憶部のグループ化された誤り音節連鎖
確率表（またはグループ化された誤り音韻連鎖確率表）
の頻度情報が高いグループを優先して探索し、該当する
誤認識の内容情報を抽出する。判定手段は、抽出された
誤認識の内容情報および、認識部から認識結果として出
力された音節列（または音韻列）を構成する音節連鎖
（または音韻連鎖）の位置情報に基づいて、音節連鎖出
現確率表（または音韻連鎖出現確率表）と誤り音節連鎖
確率表（または誤り音韻連鎖確率表）とを参照して、当
該音節連鎖（または当該音韻連鎖）が正しい音節連鎖
（または音韻連鎖）であるか誤認識された音節連鎖（ま
たは音韻連鎖）であるかを所定のルールに従って判定す
る。

【００５５】第１出力手段は、判定手段が認識部から出
力された音節連鎖（または音韻連鎖）を正しいと判定し
た場合には、認識部からの当該音節連鎖（または当該音
韻連鎖）を出力し、第２出力手段は、判定手段が認識部
から出力された音節連鎖（または音韻連鎖）を誤認識さ
れたと判定した場合には、抽出された誤認識の内容情報
に誤認識された音節連鎖の出現確率（または誤認識され
た音韻連鎖の出現確率）を加味して、当該音節連鎖を正
しい音節連鎖（または当該音韻連鎖の正しい音韻連鎖）
に補正して出力する。

【００５６】第３記憶部のグループ化された誤り音節連
鎖確率表（または誤り音韻連鎖確率表）は、特定話者の
音声を認識する際に、その音声が誤認識される傾向、言
い換えれば特定話者の発声のくせが頻度情報というデー
タにして表されている。したがって、特定話者が発声し
た音声を認識する際には、認識部によるボトムアップ的
切出に際してセグメンテーション誤りが発生した場合で
も、認識結果修正部は高頻度情報を有するグループ、す
なわち特定話者が最も陥りやすい誤認識の内容情報を含
むグループを優先的に探索して、探索結果得られた該当
の誤認識の内容情報について、判定手段、第１および第
２出力手段によるセグメンテーション誤り回復が行なわ
れるので、特定話者に対してのセグメンテーション誤り
回復処理の最適化が図られる。

【００５７】

【実施例】以下、この発明の一実施例について、図面を
参照して詳細に説明する。

【００５８】図１は、本発明の一実施例による音声認識
装置の機能構成を模式的に示す図である。

【００５９】図２は、本発明の一実施例による音声認識
装置に備えられるカテゴリ分類された誤り音節連鎖確率
表を示す図である。

【００６０】本実施例による音声認識装置の構成およ
び、そこに備えられるパターンマッチングのための標準
パターン辞書は、図６および図７に示されたものと同様
であるので、それらに関する詳細な説明は省略する。

【００６１】図１において、本発明の一実施例による音
声認識装置の機能は、前述した図５に示された装置と同
様に、音声認識の音声登録モードと認識モードとを有す
るように特徴抽出部１１、トップダウン音節境界検出部
１２、トップダウン音節区間切出部１３、音節標準パタ
ーン格納部１４、ボトムアップ音節境界検出部１５、ボ
トムアップ音節区間切出部１６および音節認識部１７を
含む。これら、特徴抽出部１１ないし音節認識部１７の
動作は、図５に示されたものと同様なので、それらに関
する詳細な説明は省略する。

【００６２】図１に示された音声認識装置は、特定話者
に対しても、その音声認識率を高めるように、音節連鎖
出現確率表格納部１９、誤り音節連鎖確率表格納部２０
およびカテゴリ分類された誤り音節連鎖確率表格納部２
１、さらに音節認識モード時に、格納部１９ないし２１
を参照して、音節認識部１７による音節認識結果に含ま
れるセグメンテーション誤りを回復するための音節列修
正部１８を設ける。

【００６３】カテゴリ分類された誤り音節連鎖確率表格
納部２１には、図２に示されるカテゴリ分類された誤り
音節連鎖確率表２０１が認識モードに先立って予め作成
されて、メモリ３４に格納される。確率表２０１は、該
音声認識装置における音声登録時の認識誤りおよび認識
候補確定時の誤り連鎖適用状況を調べることで、誤り連
鎖の適用に対して、各話者についての認識誤りの傾向が
反映される。この詳細については後述する。

【００６４】図２において、カテゴリ分類された誤り音
節連鎖確率表２０１は、音韻連鎖が似ているなどの音声
学的知識により、誤り音節連鎖確率表格納部２０に格納
されていた誤り音節連鎖確率表中の誤り連鎖を複数個の
カテゴリに分類して格納する記憶エリアを含む。分類さ
れたカテゴリには、カテゴリ番号Ｃｉ（ｉ＝１、２、
…、ｎ、…）がそれぞれ付される。たとえば、図２のカ
テゴリ番号Ｃｉ＝１の場合、［子音＋ＡＮＯＯ←子音＋
ＡＮＯ］と音韻連鎖が類似した誤り音節連鎖どうしが格
納されていることがわかる。

【００６５】さらに、確率表２０１の各カテゴリには、
カウント値ＣＴｊ（ｊ＝１、２、…、ｎ、…）を格納す
るエリアがカテゴリ番号Ｃｉごとに設けられる。カウン
ト値ＣＴｎは、カテゴリ番号Ｃｎのカウント値を示す。
このカウント値の詳細については後述する。

【００６６】図３は、カテゴリ分類された誤り音節連鎖
確率表２０１の作成手順を示す処理フロー図である。

【００６７】図３を参照して、カテゴリ分類された誤り
音節連鎖確率表２０１の作成手順について説明する。

【００６８】音声認識装置において確率表２０１の作成
は、特定話者に対しての音声登録モードにおいて行なわ
れる。この作成時、確率表２０１は、予め前述した音声
学的知識により格納部２０の誤り音節連鎖確率表を元に
誤り音節連鎖を複数個のカテゴリに分類して格納し、各
カテゴリにカテゴリ番号Ｃｉを付していると想定する。

【００６９】図３を参照して、図６のマイクロプロセッ
サ３２は音節列修正部１８を介してメモリ３４にストア
された確率表２０１の各カテゴリのカウンタをリセット
処理する。言い換えれば、確率表２０１のカウント値Ｃ
Ｔｊの格納エリアすべてに、データ０を書込む（ステッ
プ１）。

【００７０】次に、マイクロプロセッサ３２は操作盤２
からの入力データに基づいて、現在、該装置が音声登録
モードに設定されているか否かを判定する。この判定結
果、登録モードになければ、一連の処理は終了するが、
登録モードにあればステップ３以降の処理が実行される
（ステップ２）。

【００７１】音声登録モードにあると判定されると、マ
イクロプロセッサ３２およびパターンマッチングプロセ
ッサ３５により特徴抽出部１１〜音節認識部１７を介し
て前述した音声登録モード時の発声内容既知のトップダ
ウン的な認識と同時に、ボトムアップ的な認識が行なわ
れる（ステップ３）。ステップ３における同一発声内容
に関するトップダウン認識とボトムアップ認識との認識
結果の違いは、該装置における特定話者の発声内容に対
する認識誤りを示す。次に、マイクロプロセッサ３２を
介して音節列修正部１８が認識の誤りがあるか否かを判
定する（ステップ４）。ステップ４の判定処理におい
て、トップダウン認識とボトムアップ認識との認識結果
が一致し、認識誤りがないと判定されれば、処理は前述
のステップ２に戻り、以下同様にして次の音声について
処理が繰返し行なわれる。

【００７２】逆に、認識結果が異なり、認識誤りがあれ
ば、マイクロプロセッサ３２は音節列修正部１８を介し
て誤認識された音節連鎖が含まれる確率表２０１のカテ
ゴリＣｉを特定し（ステップ５）、そのカウント値ＣＴ
ｊを１つだけインクリメントする（ステップ６）。たと
えば、ボトムアップ認識によってトップダウン認識結果
による音節連鎖“ａｂｃ”を“ａｄｃ”に誤認識した場
合には、音節列修正部１８は格納部２１に格納された確
率表２０１を探索し、“（ａｂｃ←ａｄｃ）”の誤りが
属するカテゴリを特定する。この特定結果、確率表２０
１に該当のカテゴリがあれば、それに対応のカウント値
ＣＴｊを１つだけインクリメント処理する。一方、確率
表２０１に該当のカテゴリがなければ、今回の誤り音声
連鎖を確率表２０１に新たなカテゴリ番号Ｃｉにして追
加登録する。このとき、対応のカウント値ＣＴｊには１
がセットされる。

【００７３】このようにして、特定話者の１つの発声音
声に対してカテゴリ分類された誤り音節連鎖確率表２０
１の作成（データ更新）が行なわれると、次の発声音声
に対しての処理に移行する（ステップ７）ように、前述
のステップ２に戻り、以下同様にして次の発声音声に対
して確率表２０１の作成が行なわれる。

【００７４】なお、カテゴリ分類された誤り音節連鎖確
率表２０１を図３に示す処理フローに基づいて作成し続
ければ、カウント値ＣＴｊのそれぞれは、その作成処理
により初期値“０”のままのものもあるが、最大値とし
ては定数Ｔ２を有することになる。この最大値Ｔ２の大
きさは、確率表２０１作成時に登録される音声の数に依
存（比例）する。

【００７５】また、この確率表２０１の作成は、特定話
者であるユーザが該装置の使い方を練習（トレーニン
グ）するのに並行して行なうようにしてもよい。

【００７６】上述のようにして、初期作成されたカテゴ
リ分類された誤り音節連鎖確率表２０１は、特定話者に
ついての該装置における音声認識誤りの傾向、すなわち
特定話者の発声のくせを表わすデータを格納することに
なる。

【００７７】図４は、音声認識処理に伴う音節連鎖誤り
を回復する場合に、カテゴリ分類された誤り音節連鎖確
率表２０１をデータ更新する手順を示す処理フロー図で
ある。

【００７８】次に、図４を参照しながら、作成されたカ
テゴリ分類された誤り音節連鎖確率表２０１を用いて音
声認識する処理について説明する。

【００７９】特定話者が、操作盤２を介して該装置を認
識モードに設定した後、マイクロフォン１を介して発声
し、音声信号を該装置に入力する。入力された音声信号
は、前述したボトムアップ的にその音節境界位置が検出
されて、音節認識部１７により標準パターン辞書１４１
を参照した音節認識結果が出力される。

【００８０】音節列修正部１８は、音節認識部１７が出
力する音節認識結果を入力する。そして、音節列修正部
１８は確率表２０１のカウント値ＣＴｊの多いカテゴリ
の誤り音節連鎖を優先的に参照した認識誤り回復の処理
を、以下の（Ａ）および（Ｂ）の２段階の手順を踏んで
行なう。

【００８１】（Ａ）音節列修正部１８は、確率表２０１
を参照して、定数Ｔ１＜カウント値ＣＴｊを満たすカテゴリに属する認識誤り音節列を探索して、
この中から音節認識部１７が出力した認識音節連鎖を含
む認識誤り音節列を特定する。そして、音節列修正部１
８は、特定された認識誤り音節列に対して、音節連鎖出
現確率表および誤り音節連鎖確率表を参照して、連鎖修
正し、正しい音節連鎖を導出する（この正しい音節連鎖
導出の手順は、図５で説明したものと同様なので説明は
省略する）。ただし、［０＜Ｔ１＜Ｔ２，ａｎｄ，Ｔ２
＝ＭＡＸ（確率表２０１中のカウント値ＣＴｊの最大
値）］上述したＡの処理において、音節列修正部１８に
より音節連鎖出現確率表および誤り音節連鎖確率表を適
用した前述のルールおよびに従う連鎖修正処理が行
なわれなかった場合には、次のＢの処理が行なわれる。

【００８２】（Ｂ）音節列修正部１８は、上述のＡの処
理において、連鎖修正の処理が行なわれなかったことに
応じて、確率表２０１を参照して、定数値Ｔ１≧カウント値ＣＴｊを満たすような、カテゴリ番号Ｃｉを有するカテゴリに
属する認識誤りを参照し、この中から、音節認識部１７
から導出された認識音節連鎖を含む認識誤り音節列につ
いて、前述と同様に音節連鎖出現確率表および誤り音節
連鎖確率表に基づく連鎖修正をして、正しい音節連鎖を
導出する。

【００８３】上述のＡまたはＢの連鎖修正の手順を経て
得られた少なくとも１個以上の正しい音節連鎖（以下、
認識候補と呼ぶ）が、たとえばプリンタ４を介して外部
出力される。特定話者は、プリント出力された認識候補
を見て、その中の１つを正解音節連鎖と特定すれば、操
作盤２を介して特定された音節連鎖を指示するデータ
を、マイクロプロセッサ３２に与える。

【００８４】以上のＡおよびＢの手順を音節列修正部１
８が備えることにより、誤り音節連鎖をいくつかのカテ
ゴリに分類し、それぞれのカテゴリに使用頻度、すなわ
ち特定話者の発声のくせを表わすカウンタを設け、音節
認識部１７における認識誤りを回復する場合に、このカ
ウント値の高いカテゴリに含まれる誤り連鎖を優先的に
用いて認識誤りを回復しているので、認識時には特定話
者の誤りの傾向を反映した誤り回復が行なわれて、特定
話者に対しての認識率を高めることができる。

【００８５】音節列修正部１８は、特定話者により操作
盤２を介して認識候補の中から正解音節連鎖が特定され
た旨のデータを入力すると、以下の処理を行なう。

【００８６】音節列修正部１８は、図４に示されるよう
に、誤り連鎖修正のための確率表２０１の適用状況を、
常に確率表２０１に反映させるようにしている。

【００８７】音節列修正部１８は、正解として特定され
た認識候補に基づいて、確率表２０１を探索し、この正
解認識候補が属するカテゴリのカテゴリ番号Ｃｉを特定
する（ステップ１０）。次に、正解に寄与した誤り連鎖
の属するカテゴリのカテゴリ番号Ｃｉを全て特定するた
めに、変数ｋに値１を初期設定する（ステップ１１）。

【００８８】音節列修正部１８は、変数ｋが確率表２０
１に登録されるカテゴリ数を越えると、一連の処理を終
了するが、変数ｋがカテゴリ数を越えない間は、以降の
処理が繰返し実行される（ステップ１２）。

【００８９】そして、正解に寄与した誤り連鎖の属する
カテゴリ番号Ｃｉのカウント値ＣＴｊのみを１だけイン
クリメントし、このインクリメント結果、カウント値Ｃ
Ｔｊが定数Ｔ２を越えるときのみカウント値ＣＴｊを定
数Ｔ２で置き換えるように処理する（ステップ１４ａ，
１５ａ，１６ａ）。そして、それ以外のカテゴリのカウ
ント値ＣＴｊを１つだけデクリメントする。このデクリ
メント後の値が０未満となるような場合は、カウント値
ＣＴｊに０を設定する（ステップ１４ｂ、１５ｂ、およ
び１６ｂ）。上述したような、カテゴリのカウント値Ｃ
Ｔｊのデクリメント処理とインクリメント処理が、変数
ｋを１つずつカウントアップしながら（ステップ１７）
変数ｋがカテゴリ数を越えない間、すなわち確率表２０
１に含まれるすべてのカテゴリに対して行なわれる。

【００９０】以上のように、認識モード時においても、
誤り修正のための確率表２０１の適用状況を常に確率表
２０１に反映させることで、話者の慣れによる誤り傾向
の変化が確率表２０１において顕著となるようにカウント値ＣＴｊ←［（ＣＴｊ＋１，ｆｏｒｊ＝
ｉ），ａｎｄ，（ＣＴｊ−１，ｆｏｒｊ≠ｉ）］で示されるように確率表２０１のカウント値ＣＴｊのデ
ータ更新を推進する。

【００９１】以上は、音節についての誤り回復を述べた
が、同様に音韻についても適用可能である。

【００９２】また、本実施例では、特定話者（１人）を
想定した音声認識装置の動作を挙げたが、メモリ３４の
容量の許容範囲内であれば、２人以上の話者のそれぞれ
について、同様にしてそのカテゴリ分類された誤り音節
連鎖確率表２０１を準備し、各話者ごとに確率表２０１
を選択的に適用し、認識モード時の誤り回復を図るよう
にしてもよい。

【００９３】また、本実施例における音声認識装置を、
別の特定話者に対して適用する場合は、カテゴリ分類さ
れた誤り音節連鎖確率表２０１の作成から行なうことが
望ましい。さらに、本実施例では、複数の認識候補から
正解の音節連鎖を確定する場合には、認識候補をプリン
タ４を介して外部出力するようにしていたが、ディスプ
レイ装置などの他の出力媒体を介してこれらの認識候補
を出力するようにしてもよい。

【００９４】本実施例では、特定話者が発声して与える
音声を認識する場合における、セグメンテーション誤り
回復を伴う認識動作について説明したが、該装置におい
て操作盤２を介して特定話者を対象にした認識モードと
不特定多数の話者を対象にした認識モードのいずれか一
方のモードを選択的に指定し、この指定されたモードに
応じて該装置が、前述した音節連鎖出現確率表格納部１
９および誤り音節連鎖確率表格納部２０をアクセスして
セグメンテーション誤りを減少させるような認識処理お
よび格納部１９、格納部２０およびカテゴリ分類された
誤り音節連鎖確率表格納部２１をアクセスしてセグメン
テーション誤りを減少させた認識処理のいずれか一方を
選択的に行なうようにしてもよい。

【００９５】上述の実施例においては３音節連鎖につい
て説明しているが、２音節連鎖や４音節連鎖以上の音節
連鎖の誤認識音節連鎖修正に拡張しても差支えない。

【００９６】

【発明の効果】以上のようにこの発明によれば、特定話
者が発声する複数の音声を認識部で認識し、誤認識され
た種々の音節連鎖の誤認識の内容情報を、音声学的に予
め複数のグループに分類し、その誤認識の頻度情報を各
グループごとに表わすグループ化された誤り音節連鎖確
率表（または誤認識された種々の音韻連鎖の誤認識の内
容情報を、音声学的に予め複数のグループに分類し、そ
の誤認識の頻度情報を各グループごとに表わすグループ
化された誤り音韻連鎖確率表）を格納する第３記憶部を
有する。さらに、認識結果修正部は、特定話者が発声し
て与える音声の認識モード時に、認識部から認識結果と
して出力された音節列（または音韻列）を構成する音節
連鎖（または音韻連鎖）に基づいて、グループ化された
誤り音節連鎖確率表（またはグループ化された誤り音韻
連鎖確率表）の頻度情報が高いグループを優先して探索
し、該当の誤認識の内容情報を抽出し、抽出された情報
を用いて認識部からの認識結果が正しいか否かを判定
し、その判定結果に従って第１および第２出力手段のい
ずれか一方を能動化するので、認識部の認識結果の正誤
のいかんにかかわらず特定話者の発声する音声に対する
誤認識の傾向を考慮したセグメンテーション誤り回復を
行なうことが可能となり、特定話者に対して、その誤り
回復処理の最適化が図られて音声認識率が向上するとい
う効果がある。

【図面の簡単な説明】

【図１】本発明の一実施例による音声認識装置の機能構
成を模式的に示す図である。

【図２】本発明の一実施例による音声認識装置に備えら
れるカテゴリ分類された誤り音節連鎖確率表を示す図で
ある。

【図３】カテゴリ分類された誤り音節連鎖確率表の作成
手順を示す処理フロー図である。

【図４】音声認識に伴う音節連鎖誤り回復時に、カテゴ
リ分類された誤り音節連鎖確率表をデータ更新する手順
を示す処理フロー図である。

【図５】この発明の背景を示す音声認識装置の機能と処
理の流れを模式的に示す図である。

【図６】この発明の背景を示す音声認識装置の概略構成
図である。

【図７】この発明の背景を示す音声認識装置に備えられ
る標準パターン辞書の１例を示す図である。

【符号の説明】

１１特徴抽出部１２トップダウン音節境界検出部１３トップダウン音節区間切出部１４音節標準パターン格納部１５ボトムアップ音節境界検出部１６ボトムアップ音節区間切出部１７音節認識部１８音節列修正部１９音節連鎖出現確率表格納部２０誤り音節連鎖確率表格納部２１カテゴリ分類された誤り音節連鎖確率表格納部１４１標準パターン辞書２０１カテゴリ分類された誤り音節連鎖確率表Ｃｉカテゴリ番号ＣＴｊカウント値なお、各図中、同一符号は同一または相当部分を示す。

Claims

【特許請求の範囲】

【請求項１】入力された音声から音節区間または音韻
区間を切出して入力音声を認識する認識部を有する音声
認識装置において、種々の音節連鎖の出現確率をそれぞれの音節連鎖の音節
列中における位置情報を加味して表わす音節連鎖出現確
率表、または種々の音韻連鎖の出現確率をそれぞれの音
韻連鎖の音韻列中における位置情報を加味して表わす音
韻連鎖出現確率表を格納する第１記憶部と、音声を認識した際に誤認識された種々の音節連鎖の出現
確率をそれぞれの音節連鎖の位置情報および誤認識の内
容情報を加味して表わす誤り音節連鎖確率表、または誤
認識された種々の音韻連鎖の出現確率をそれぞれの音韻
連鎖の位置情報および誤認識の内容情報を加味して表わ
す誤り音韻連鎖確率表を格納する第２記憶部と、特定話者が発声する複数の音声を前記認識部で認識し、
誤認識された種々の前記音節連鎖の前記誤認識の内容情
報を、音声学的に予め複数のグループに分類し、前記各
グループごとにその誤認識の頻度情報を表わすグループ
化された誤り音節連鎖確率表、または誤認識された種々
の前記音韻連鎖の前記誤認識の内容情報を、音声学的に
予め複数のグループに分類し、前記各グループごとにそ
の誤認識の頻度情報を表わすグループ化された誤り音韻
連鎖確率表を格納する第３記憶部と、認識結果修正部とを備え、前記認識結果修正部は、前記特定話者が発声して与える
音声の認識モード時、前記認識部から認識結果として出力された音節列または
音韻列を構成する音節連鎖または音韻連鎖に基づいて、
前記グループ化された誤り音節連鎖確率表、またはグル
ープ化された誤り音韻連鎖確率表の前記頻度情報が高い
グループを優先して探索し、該当する前記誤認識の内容
情報を抽出する抽出手段と、前記抽出手段において抽出された誤認識の内容情報およ
び、前記認識部から認識結果として出力された音節列ま
たは音韻列を構成する音節連鎖または音韻連鎖の位置情
報に基づいて、前記音節連鎖出現確率表または音韻連鎖
出現確率表と前記誤り音節連鎖確率表または誤り音韻連
鎖確率表とを参照し、当該音節連鎖または当該音韻連鎖
が正しい音節連鎖または音韻連鎖であるか、誤認識され
た音節連鎖または音韻連鎖であるかを、所定のルールに
従って判定する判定手段と、前記判定手段の判定結果に基づき、正しい音節連鎖また
は音韻連鎖であると判定された場合には、前記認識部か
らの当該音節連鎖または当該音韻連鎖を出力する第１出
力手段と、前記判定手段の判定結果に基づき、誤認識された音節連
鎖または音韻連鎖であると判定された場合には、前記抽
出された誤認識の内容情報に、前記誤認識された音節連
鎖の出現確率または前記誤認識された音韻連鎖の出現確
率を加味して、当該音節連鎖の正しい音節連鎖または当
該音韻連鎖の正しい音韻連鎖を出力する第２出力手段と
を備える、音声認識装置。