JPH05181495A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH05181495A
JPH05181495A JP3346317A JP34631791A JPH05181495A JP H05181495 A JPH05181495 A JP H05181495A JP 3346317 A JP3346317 A JP 3346317A JP 34631791 A JP34631791 A JP 34631791A JP H05181495 A JPH05181495 A JP H05181495A
Authority
JP
Japan
Prior art keywords
syllable
chain
recognition
probability table
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP3346317A
Other languages
English (en)
Inventor
Jiro Kiyama
次郎 木山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP3346317A priority Critical patent/JPH05181495A/ja
Publication of JPH05181495A publication Critical patent/JPH05181495A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 この発明の目的は、認識時におけるセグメン
テーション誤りの回復の程度を話者ごとに高めることが
可能な音声認識装置を提供することである。 【構成】 この装置は音節認識部17、音節列修正部1
8、音節連鎖出現確率表格納部19、誤り音節連鎖確率
表格納部20およびカテゴリ分類された誤り音節連鎖確
率表格納部21を有し、格納部21の確率表は格納部2
0の誤り音節連鎖を予めカテゴリ分類し、各カテゴリご
とに特定話者についての認識誤り頻度をストアする。認
識時、修正部18は認識部17から入力する認識音節連
鎖に基づき、高頻度カテゴリの誤り音節連鎖を優先的に
探索し、該当音節連鎖について音節連鎖出現確率表と誤
り音節連鎖確率表とを参照してセグメンテーション誤り
回復を行ない、特定話者に対する認識率を高める。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、音声認識装置に関
し、特に、音節または音韻の認識結果に基づいて入力音
声を認識処理する音声認識装置に関する。
【0002】
【背景の技術】図5は、この発明の背景を示す音声認識
装置の機能と処理の流れを模式的に示す図である。
【0003】図6は、この発明の背景を示す音声認識装
置の概略構成図である。図7は、この発明の背景を示す
音声認識装置に備えられる標準パターン辞書の1例を示
す図である。
【0004】図6において、この発明の背景となる音声
認識装置は、マイクロフォン1、操作盤2、処理本体部
3、プリンタ4およびフレキシブルディスク5を含み、
処理本体部3は、さらに音声分析器31、マイクロプロ
セッサ32、入出力プロセッサ33、メモリ34および
パターンマッチングプロセッサ35を含む。
【0005】マイクロフォン1で集音して得られた音声
信号は、操作盤2を介して処理本体部3に与えられる。
処理本体部3は、与えられる音声信号を、まず音声分析
器31において、分析および標本化する。マイクロプロ
セッサ32は、その制御により、メモリ34に予め音声
の標準パターンを辞書にして記憶する。音声認識時に
は、パターンマッチングプロセッサ35により、入力音
声信号から得られたパターンとメモリ34の標準パター
ンとがマッチングされて、その結果がマイクロプロセッ
サ32に送られる。マイクロプロセッサ32は、マッチ
ング結果に基づき、認識の結果を判定する。その判定結
果は、入出力プロセッサ33を介して、プリンタ4また
はフレキシブルディスク5に出力される。
【0006】上述した標準パターン辞書の構成の一例
が、図7に標準パターン辞書141にして示される。
【0007】図5において、音声認識装置の機能は、標
準パターン辞書141をメモリ34に登録するための登
録モードと、入力音声信号を予め登録された標準パター
ン辞書141を用いて認識する認識モードとを備えるよ
うに、特徴抽出部11、トップダウン音節境界検出部1
2、トップダウン音節区間切出部13、音節標準パター
ン格納部14、ボトムアップ音節境界検出部15、ボト
ムアップ音節区間切出部16、音節認識部17、音節列
修正部18a、音節列修正部18aにより参照される音
節連鎖出現確率表格納部19および誤り音節連鎖確率表
格納部20を含む。
【0008】特徴抽出部11は、与えられる音声信号に
ついての特徴パラメータを求める。詳細には、音声信号
のパワースペクトルに基づく、LPCケプストラム係数
などの特徴パラメータを時系列にして出力する。トップ
ダウン音節境界検出部12およびボトムアップ音節境界
検出部15は、与えられる特徴パラメータ時系列中の音
節(母音+子音の組)の開始点、終了点を検出して出力
する。トップダウン音節区間切出部13およびボトムア
ップ音節区間切出部16は、前段で求められた音節の開
始点および終了点を基に、特徴パターン時系列中から音
節区間を切出して出力する。
【0009】音節標準パターン格納部14は、登録モー
ド時に、与えられるデータを入力し、図7に示される標
準パターン辞書141を作成してたとえばメモリ34に
ストアする。標準パターン辞書141は、登録モード時
に切出された音節のそれぞれについて、音節区間の長さ
を相対的に表わすパターン長とその音節区間内の特徴パ
ターンの時系列とを対応付けてストアする。
【0010】音節認識部17は、認識モード時に与えら
れるデータを入力し、音節標準パターン格納部14に格
納された標準パターン辞書141を用いてパターンマッ
チングを図り音節認識する。音節認識部17は、標準パ
ターン辞書141に格納された標準パターンのそれぞれ
と入力音声信号による特徴パターンとのマッチングを図
り、一致したとき、認識したことになる。入力音声信号
が標準パターン辞書141内の標準パターンに一致すれ
ばよいが、完全一致しない場合は、入力音声の特徴パラ
メータと標準パターン辞書141内の各特徴パラメータ
との類似度(マッチング距離)が計算される。簡単なマ
ッチング距離としては、たとえばユークリッド距離が用
いられる。
【0011】音節列修正部18aは、与えられる音節認
識結果を、音節連鎖出現確率表格納部19および誤り音
節連鎖確率表格納部20に格納された音節連鎖出現確率
表および誤り音節連鎖確率表を参照して最適となるよう
に誤り修正して認識文節として出力する。音節列修正部
18における、音節列修正処理の詳細については後述す
る。
【0012】図5に示された機能構成を有する音声認識
装置は、音節認識結果に基づいて入力音声を認識するも
のであり、登録モード時にはトップダウン的に音節境界
を求める一方、認識モード時にはボトムアップ的に音節
境界を求めるのである。
【0013】登録モード時においては、特徴抽出部11
で抽出された入力音声信号の特徴パラメータに基づい
て、トップダウン音節境界検出部12においてトップダ
ウン的に音節境界位置が検出される。次に、トップダウ
ン音節区間切出部13によって、トップダウン音節境界
検出部12によって検出された音節境界位置における特
徴パラメータの時系列が切出される。こうして切出され
た音節区間に相当する特徴パラメータの時系列が、標準
パターン辞書141にして音節標準パターン格納部14
に格納される。
【0014】一方、認識モード時においては、特徴抽出
部11で抽出された入力音声の特徴パラメータに基づい
て、ボトムアップ音節境界検出部15においてボトムア
ップ的に音節境界位置が検出される。次に、ボトムアッ
プ音節区間切出部16によって、ボトムアップ音声境界
検出部15によって検出された音節境界位置における特
徴パラメータの時系列が切出される。こうして切出され
た特徴パラメータの時系列が音節認識部17に入力され
る。音節認識部17では、入力された特徴パラメータの
時系列と、登録モード時に音節標準パターン格納部14
に格納された標準パターン辞書141の音節標準パター
ンとのマッチングが行なわれる。その結果、マッチング
距離の最も小さい音節標準パターンが音節認識結果とし
て出力される。
【0015】ここで、トップダウン音節境界検出部12
によって実施されるトップダウン的な音節境界位置検出
について説明する。
【0016】たとえば、登録モード時に、登録の対象と
なる音声が発声されると同時に、この発声のローマ字表
記が、図6の操作盤2を介して入力される。そうする
と、入力されたローマ字表記から入力音声に含まれる音
節数が既知となるので、音節区間長を音節数で割ること
によって推定平均音節長が求められる。次に、音声信号
のスペクトル変化およびパワー変化などにより検出され
る音節境界位置候補の中から前述した推定平均音節長に
基づいて、最も信頼度の高い音節境界位置候補を音節境
界として決定する。
【0017】このように、トップダウン的な音節境界位
置検出では、音節境界位置候補中において音節境界とし
て最も信頼度の高い音節境界位置候補を音節境界として
決定できる。
【0018】しかしながら、上述した音声認識装置の音
節認識部17までの処理においては、次のような課題が
残る。すなわち、上述したように、登録モード時には、
トップダウン的に音節境界位置を検出することができる
ので、得られる音節標準パターンの信頼度は非常に高い
ものである。すなわち、標準パターン辞書141の信頼
度は非常に高い。ところが、認識モード時においては、
予め発声のローマ字表記を入力することはできないので
ボトムアップ的に音節境界位置を求めなければならな
い。したがって、認識モード時においては、音節境界位
置検出の誤り(音節境界の誤挿入=分離誤り、音節境界
の脱落=併合誤り、ずれ=ずれ誤り)が発生しやすいの
である。このように認識モード時において生じる音節境
界位置検出(セグメンテーション)誤りは、認識処理に
おいて致命的な課題となる。
【0019】そこで、上述した認識モード時において生
じる音節境界位置検出誤りをある程度回復するために、
音節連鎖出現確率表格納部19および誤り音節連鎖確率
表格納部20を参照して音節列の修正を行なう音節列修
正部18aが設けられる。
【0020】音節列修正部18aは、音節認識部17の
パターンマッチングにおいてマッチング距離が最小であ
ると判断された音節標準パターンに対応付けられた音節
を入力する。入力される認識結果の音節列は、音節列X
(1)、X(2)、…、X(n)、…、X(N)として
与えられる。
【0021】音節列修正部18aは、格納部19に格納
された音節連鎖出現確率表と格納部20に格納された誤
り音節連鎖確率表とを用いて、音節認識部17における
セグメンテーションの誤りを補正して正しい音節列を出
力することにより、認識結果を修正するように作用す
る。
【0022】次に、格納部19および格納部20にそれ
ぞれ格納される、音節連鎖出現確率表と誤り音節連鎖確
率表とについて説明する。なお、説明を簡単にするため
に、音声認識装置は文節単位で発声された音声を認識す
る装置であり、音節認識部17におけるセグメンテーシ
ョンの誤りを検出/補正する際の音節連鎖の単位は3音
節連鎖であると想定する。
【0023】音節連鎖出現確率表は、大量の文章から求
められた種々の音節連鎖の出現確率を、それぞれ音節連
鎖の文節中における位置情報である音節連鎖位置を加味
して次のように表現している。たとえば、対象となる3
音節連鎖を構成する3個の音節のうち、先行音節を
“a”,中間音節を“b”および最終音節を“c”と
し、対象となる3音節連鎖“abc”の音節連鎖位置を
“i”とすると、大量の文章から求められた3音節連鎖
“abc”の出現確率を、音節連鎖位置を加味して“P
(i,abc)”と表現する。この出現確率における音
節連鎖位置iは、3音節連鎖“abc”が文節の先頭に
ある場合には“0”となり、文節の中にある場合には
“1”となり、文節の末尾にある場合には“2”とな
る。たとえば、文節「わたしのお」における3音節連鎖
「わたし」は、文節の先頭にあるので音節連鎖位置iは
“0”であり、3音節連鎖「しのお」は文節の末尾にあ
るので音節連鎖位置iは“2”である。
【0024】一方、格納部20に格納される誤り音節連
鎖確率表は、たとえば、上述した大量の文章を発声した
際の音声を、音節認識部17によって認識した場合に、
誤認識された音節連鎖の出現確率(すなわち誤認識確
率)を、それぞれの音節連鎖の音節連鎖位置iおよび誤
認識の内容情報を加味して次のように表現する。すなわ
ち、セグメンテーションの誤り(ずれ誤り)または音節
認識部17におけるマッチング誤りによって3音節連鎖
“def”が3音節連鎖“abc”と誤認識された場合
の出現確率を“E(i,abc←def)”と表現す
る。また、1音節cに先行する1音節gがセグメンテー
ションの誤り(分離誤り)によって2音節連鎖abとし
て誤認識された場合の出現確率を“E(i,abc←g
c)”と表現する。
【0025】このように、誤認識確率“E(i,abc
←def)”または“E(i,abc←gc)”には、
誤認識の内容情報“(abc←def)”あるいは
“(abc←gc)”を加味して表現する。
【0026】図5に戻って、音節列修正部18aは、音
節認識部17から入力される音節列X(1)、X
(2)、…、X(n)、…X(N)に基づいて、次に述
べるようにして音節境界位置検出の誤りを補正して、正
しい音節列を出力する。
【0027】音節列修正部18は、入力された音節列X
(1)、X(2)、…、X(n)、…X(N)を構成す
る各3音節連鎖X(n−1)X(n)X(n+1)の音
節列中における音節連鎖位置iに基づいて、音節連鎖出
現確率表および誤り音節連鎖確率表を参照し、各音節連
鎖X(n−1)X(n)X(n+1)の出現確率と誤認
識確率とを求める。そして、求められた出現確率と誤認
識確率に基づいて、次のルールおよびに従って正し
いと判定された音節連鎖を出力する。
【0028】仮に、 P(i,X(n−1)X(n)X
(n+1))×T<E(i,X(n−1)X(n)X
(n+1)←Y(x)Y(y)Y(z)) …… ならば、音節連鎖X(n−1)X(n)X(n+1)の
代わりに音節連鎖Y(x)Y(y)Y(z)を出力す
る。一方、 仮に、 P(i,X(n−1)X(n)X(n+1))
×T≧E(i,X(n−1)X(n)X(n+1)←Y
(x)Y(y)Y(z)) …… ならば、音節連鎖X(n−1)X(n)X(n+1)を
出力する。
【0029】ただし、Tは1以上の定数であり、Y
(x)、Y(y)、Y(z)は任意の音節である。
【0030】上述したルールを適用した具体例を示す
と、たとえば、 P(0,しあし)×2<E(0,しあし←しまし) ならば、認識音節連鎖「しあし」を棄却して、正しい音
節連鎖「しまし」を出力する。
【0031】一方、 P(0,しあし)×2≧E(0,しあし←しまし)なら
ば、認識音節連鎖「しあし」を正しい音節連鎖として出
力する。
【0032】また、 P(2,たのお)×2<E(2,たのお←たの) ならば、認識音節連鎖「たのお」を棄却して、正しい音
節連鎖「たの」を出力する。
【0033】一方、 P(2,たのお)×2≧E(2,たのお←たの) ならば、認識音節連鎖「たのお」を正しい音節連鎖とし
て出力する。
【0034】このように、このルールを適用すれば、音
節連鎖出現確率表に基づく認識対象音節連X(n−1)
X(n)X(n+1)の出現確率の値が誤り音節連鎖確
率表に基づく誤認識確率の値より十分に小さい場合に、
当該音節連鎖X(n−1)X(n)X(n+1)は誤認
識された音節連鎖であると判定される。さらに、誤り音
節連鎖確率表に従って、当該音節連鎖X(n−1)X
(n)X(n+1)に係る誤認識確率に加味された誤認
識の内容情報“(X(n−1)X(n)X(n+1)←
Y(x)Y(y)Y(z))”に従って、当該音節連鎖
X(n−1)X(n)X(n+1)を正しい音節連鎖Y
(x)Y(y)Y(z)に変更する。
【0035】したがって、認識モード時において、ボト
ムアップ的に音節を切出す際にセグメンテーション誤り
が発生しても、誤認識された音節連鎖が音節列修正部1
8aによって正しい音節連鎖に修正されるので認識モー
ド時におけるセグメンテーション誤りは音声認識の致命
的な問題とはならない。
【0036】ここで、3音節連鎖“abc”に関する出
現確率“P(i,abc)”あるいは誤認識確率“E
(i,abc←def)”,“E(i,abc←g
c)”に音節連鎖位置“i”を加味するのは、次のよう
な理由による。音節連鎖を構成する音節数が増加するに
従って、その音節連鎖が文節中において出現する位置
や、その位置における出現確率の傾向がおのずと定まっ
てくる。このことは、同じ音節連鎖であっても出現する
位置によって出現確率が異なることを意味する。同様
に、同じ音節連鎖であっても出現する位置によって誤認
識の内容や誤認識確率が異なることを意味する。
【0037】したがって、同じ音節連鎖にかかる出現確
率や誤認識確率を音節連鎖位置i別に設定することによ
って、上述したルールに基づく正しい音節連鎖の判定を
より精度よく実施できるのである。
【0038】上述の音節列修正部18aの判定の結果、
当該音節連鎖が正しい音節列であると判定された場合に
は、当該音節連鎖をそのまま出力するが、当該音節連鎖
が誤認識された音節連鎖であると判定された場合には、
誤認識音節連鎖の出現確率に係る誤認識の内容情報に基
づいて当該音節連鎖を正しい音節連鎖に変更して出力す
る。
【0039】したがって、認識モード時において、ボト
ムアップ音節境界検出部15によってボトムアップ的に
検出された音節区間におけるセグメンテーション誤り
を、後段の音節列修正部18aによって回復できる可能
性があることから、このセグメンテーション誤りは、該
装置の音声認識における致命的な問題とはならない。ま
た、セグメンテーション誤りを減少できる。
【0040】
【発明が解決しようとする課題】上述した音声認識装置
における、音節連鎖出現確率表および誤り音節連鎖確率
表の用い方はすべての話者(発声して音声信号を入力す
る人)に対して共通している、すなわち不特定多数の話
者を対象に想定した表であるので、認識誤りを回復して
その認識率を不特定多数の話者に対して高めることは可
能となる。しかしながら、特定少数の話者を対象に想定
して適用した場合には、前述した不特定多数の話者を対
象に想定した場合よりも、その認識率は相対的に低くな
るという問題があった。これは、前述した認識誤り回復
の方法では、話者ごとの最適化を図ることができない、
言い換えれば音節連鎖出現確率表および誤り音節連鎖確
率表に話者ごとの発声のくせ(傾向)を反映していない
ということに起因する。
【0041】それゆえに、この発明の目的は、認識時に
おけるボトムアップ的な音節境界位置検出(または音韻
境界位置検出)によって発生するセグメンテーション誤
りの回復の程度を話者ごとに高めることが可能な、音声
認識装置を提供することである。
【0042】
【課題を解決するための手段】この発明に係る音声認識
装置は、入力された音声から音節区間または音韻区間を
切出して入力音声を認識する認識部を有する音声認識装
置であり、第1記憶部と、第2記憶部と、第3記憶部
と、認識結果修正部とを備える。
【0043】第1記憶部は、種々の音節連鎖の出現確率
をそれぞれの音節連鎖の音節列中における位置情報を加
味して表わす音節連鎖出現確率表、または種々の音韻連
鎖の出現確率をそれぞれの音韻連鎖の音韻列中における
位置情報を加味して表わす音韻連鎖出現確率表を格納す
る。
【0044】第2記憶部は、音声を認識した際に誤認識
された種々の音節連鎖の出現確率を、それぞれの音節連
鎖の位置情報および誤認識の内容情報を加味して表わす
誤り音節連鎖確率表、または誤認識された種々の音韻連
鎖の出現確率を、それぞれの音韻連鎖の位置情報および
誤認識の内容情報を加味して表わす誤り音韻連鎖確率表
を格納する。
【0045】第3記憶部は、特定話者が発声する複数の
音声を認識部で認識し、誤認識された種々の音節連鎖の
誤認識内容情報を、音声学的に予め複数のグループに分
類し、その誤認識の頻度情報を各グループごとに表わす
グループ化された誤り音節連鎖確率表、または誤認識さ
れた種々の音韻連鎖の誤認識の内容情報を、音声学的に
予め複数のグループに分類し、その誤認識の頻度情報を
各グループごとに表わすグループ化された誤り音韻連鎖
確率表を格納する。
【0046】認識結果修正部は、さらに、特定話者が発
声して与える音声の認識モード時、抽出手段と、判定手
段と、第1および第2出力手段とを備える。
【0047】抽出手段は、認識部から認識結果として出
力された音節列または音韻列を構成する音節連鎖または
音韻連鎖に基づいて、グループ化された誤り音節連鎖確
率表、またはグループ化された誤り音韻連鎖確率表の頻
度情報が高いグループを優先して探索し、該当する誤認
識の内容情報を抽出する。
【0048】判定手段は、抽出手段において抽出された
誤認識の内容情報および、認識部から認識結果として出
力された音節列または音韻列を構成する音節連鎖または
音韻連鎖の位置情報に基づいて、音節連鎖出現確率表ま
たは音韻連鎖出現確率表と誤り音節連鎖確率表または誤
り音韻連鎖確率表とを参照し、当該音節連鎖または当該
音韻連鎖が正しい音節連鎖または音韻連鎖であるか、誤
認識された音節連鎖または音韻連鎖であるかを所定のル
ールに従って判定する。
【0049】第1出力手段は、判定手段の判定結果に基
づき、正しい音節連鎖または音韻連鎖であると判定した
場合には、認識部からの当該音節連鎖または当該音韻連
鎖を出力する。
【0050】第2出力手段は、判定手段の判定結果に基
づき、誤認識された音節連鎖または音韻連鎖であると判
定した場合には、抽出された誤認識の内容情報に誤認識
された音節連鎖の出現確率または誤認識された音韻連鎖
の出現確率を加味して、当該音節連鎖の正しい音節連鎖
または当該音韻連鎖の正しい音韻連鎖を出力する。
【0051】
【作用】大量の文章に基づき、種々の音節連鎖の出現確
率を、それぞれの音節連鎖の音節列中における位置情報
を加味して表わす音節連鎖出現確率表(または種々の音
韻連鎖の出現確率をそれぞれの音韻連鎖の音韻列中にお
ける位置情報を加味して表わす音韻連鎖出現確率表)が
作成されて第1記憶部に格納される。
【0052】また、大量の文章に基づいて発声された音
声を認識した際に、誤認識された種々の音節連鎖の出現
確率を、それぞれの音節連鎖の位置情報および誤認識の
内容情報を加味して表わす誤り音節連鎖確率表(または
誤認識された種々の音韻連鎖の出現確率をそれぞれの音
韻連鎖の位置情報および誤認識の内容情報を加味して表
わす音韻連鎖確率表)が作成されて第2記憶部に格納さ
れる。
【0053】特定話者が発声する複数の音声を認識部で
認識し、誤認識された種々の音節連鎖の誤認識の内容情
報を、音声学的に予め複数のグループに分類し、その誤
認識の頻度情報を各グループごとに表わすグループ化さ
れた誤り音節連鎖確率表(誤認識された種々の音韻連鎖
の誤認識の内容情報を音声学的に予め複数のグループに
分類し、その誤認識の頻度情報を各グループごとに表わ
すグループ化された誤り音韻連鎖確率表)が作成され、
第3記憶部に格納される。
【0054】特定話者が発声して与える音声を認識する
認識モード時には、まず、認識結果修正部により、認識
部から入力音声の認識結果として出力された音節列(ま
たは音韻列)を構成する音節連鎖(または音韻連鎖)に
基づいて、第3記憶部のグループ化された誤り音節連鎖
確率表(またはグループ化された誤り音韻連鎖確率表)
の頻度情報が高いグループを優先して探索し、該当する
誤認識の内容情報を抽出する。判定手段は、抽出された
誤認識の内容情報および、認識部から認識結果として出
力された音節列(または音韻列)を構成する音節連鎖
(または音韻連鎖)の位置情報に基づいて、音節連鎖出
現確率表(または音韻連鎖出現確率表)と誤り音節連鎖
確率表(または誤り音韻連鎖確率表)とを参照して、当
該音節連鎖(または当該音韻連鎖)が正しい音節連鎖
(または音韻連鎖)であるか誤認識された音節連鎖(ま
たは音韻連鎖)であるかを所定のルールに従って判定す
る。
【0055】第1出力手段は、判定手段が認識部から出
力された音節連鎖(または音韻連鎖)を正しいと判定し
た場合には、認識部からの当該音節連鎖(または当該音
韻連鎖)を出力し、第2出力手段は、判定手段が認識部
から出力された音節連鎖(または音韻連鎖)を誤認識さ
れたと判定した場合には、抽出された誤認識の内容情報
に誤認識された音節連鎖の出現確率(または誤認識され
た音韻連鎖の出現確率)を加味して、当該音節連鎖を正
しい音節連鎖(または当該音韻連鎖の正しい音韻連鎖)
に補正して出力する。
【0056】第3記憶部のグループ化された誤り音節連
鎖確率表(または誤り音韻連鎖確率表)は、特定話者の
音声を認識する際に、その音声が誤認識される傾向、言
い換えれば特定話者の発声のくせが頻度情報というデー
タにして表されている。したがって、特定話者が発声し
た音声を認識する際には、認識部によるボトムアップ的
切出に際してセグメンテーション誤りが発生した場合で
も、認識結果修正部は高頻度情報を有するグループ、す
なわち特定話者が最も陥りやすい誤認識の内容情報を含
むグループを優先的に探索して、探索結果得られた該当
の誤認識の内容情報について、判定手段、第1および第
2出力手段によるセグメンテーション誤り回復が行なわ
れるので、特定話者に対してのセグメンテーション誤り
回復処理の最適化が図られる。
【0057】
【実施例】以下、この発明の一実施例について、図面を
参照して詳細に説明する。
【0058】図1は、本発明の一実施例による音声認識
装置の機能構成を模式的に示す図である。
【0059】図2は、本発明の一実施例による音声認識
装置に備えられるカテゴリ分類された誤り音節連鎖確率
表を示す図である。
【0060】本実施例による音声認識装置の構成およ
び、そこに備えられるパターンマッチングのための標準
パターン辞書は、図6および図7に示されたものと同様
であるので、それらに関する詳細な説明は省略する。
【0061】図1において、本発明の一実施例による音
声認識装置の機能は、前述した図5に示された装置と同
様に、音声認識の音声登録モードと認識モードとを有す
るように特徴抽出部11、トップダウン音節境界検出部
12、トップダウン音節区間切出部13、音節標準パタ
ーン格納部14、ボトムアップ音節境界検出部15、ボ
トムアップ音節区間切出部16および音節認識部17を
含む。これら、特徴抽出部11ないし音節認識部17の
動作は、図5に示されたものと同様なので、それらに関
する詳細な説明は省略する。
【0062】図1に示された音声認識装置は、特定話者
に対しても、その音声認識率を高めるように、音節連鎖
出現確率表格納部19、誤り音節連鎖確率表格納部20
およびカテゴリ分類された誤り音節連鎖確率表格納部2
1、さらに音節認識モード時に、格納部19ないし21
を参照して、音節認識部17による音節認識結果に含ま
れるセグメンテーション誤りを回復するための音節列修
正部18を設ける。
【0063】カテゴリ分類された誤り音節連鎖確率表格
納部21には、図2に示されるカテゴリ分類された誤り
音節連鎖確率表201が認識モードに先立って予め作成
されて、メモリ34に格納される。確率表201は、該
音声認識装置における音声登録時の認識誤りおよび認識
候補確定時の誤り連鎖適用状況を調べることで、誤り連
鎖の適用に対して、各話者についての認識誤りの傾向が
反映される。この詳細については後述する。
【0064】図2において、カテゴリ分類された誤り音
節連鎖確率表201は、音韻連鎖が似ているなどの音声
学的知識により、誤り音節連鎖確率表格納部20に格納
されていた誤り音節連鎖確率表中の誤り連鎖を複数個の
カテゴリに分類して格納する記憶エリアを含む。分類さ
れたカテゴリには、カテゴリ番号Ci(i=1、2、
…、n、…)がそれぞれ付される。たとえば、図2のカ
テゴリ番号Ci=1の場合、[子音+ANOO←子音+
ANO]と音韻連鎖が類似した誤り音節連鎖どうしが格
納されていることがわかる。
【0065】さらに、確率表201の各カテゴリには、
カウント値CTj(j=1、2、…、n、…)を格納す
るエリアがカテゴリ番号Ciごとに設けられる。カウン
ト値CTnは、カテゴリ番号Cnのカウント値を示す。
このカウント値の詳細については後述する。
【0066】図3は、カテゴリ分類された誤り音節連鎖
確率表201の作成手順を示す処理フロー図である。
【0067】図3を参照して、カテゴリ分類された誤り
音節連鎖確率表201の作成手順について説明する。
【0068】音声認識装置において確率表201の作成
は、特定話者に対しての音声登録モードにおいて行なわ
れる。この作成時、確率表201は、予め前述した音声
学的知識により格納部20の誤り音節連鎖確率表を元に
誤り音節連鎖を複数個のカテゴリに分類して格納し、各
カテゴリにカテゴリ番号Ciを付していると想定する。
【0069】図3を参照して、図6のマイクロプロセッ
サ32は音節列修正部18を介してメモリ34にストア
された確率表201の各カテゴリのカウンタをリセット
処理する。言い換えれば、確率表201のカウント値C
Tjの格納エリアすべてに、データ0を書込む(ステッ
プ1)。
【0070】次に、マイクロプロセッサ32は操作盤2
からの入力データに基づいて、現在、該装置が音声登録
モードに設定されているか否かを判定する。この判定結
果、登録モードになければ、一連の処理は終了するが、
登録モードにあればステップ3以降の処理が実行される
(ステップ2)。
【0071】音声登録モードにあると判定されると、マ
イクロプロセッサ32およびパターンマッチングプロセ
ッサ35により特徴抽出部11〜音節認識部17を介し
て前述した音声登録モード時の発声内容既知のトップダ
ウン的な認識と同時に、ボトムアップ的な認識が行なわ
れる(ステップ3)。ステップ3における同一発声内容
に関するトップダウン認識とボトムアップ認識との認識
結果の違いは、該装置における特定話者の発声内容に対
する認識誤りを示す。次に、マイクロプロセッサ32を
介して音節列修正部18が認識の誤りがあるか否かを判
定する(ステップ4)。ステップ4の判定処理におい
て、トップダウン認識とボトムアップ認識との認識結果
が一致し、認識誤りがないと判定されれば、処理は前述
のステップ2に戻り、以下同様にして次の音声について
処理が繰返し行なわれる。
【0072】逆に、認識結果が異なり、認識誤りがあれ
ば、マイクロプロセッサ32は音節列修正部18を介し
て誤認識された音節連鎖が含まれる確率表201のカテ
ゴリCiを特定し(ステップ5)、そのカウント値CT
jを1つだけインクリメントする(ステップ6)。たと
えば、ボトムアップ認識によってトップダウン認識結果
による音節連鎖“abc”を“adc”に誤認識した場
合には、音節列修正部18は格納部21に格納された確
率表201を探索し、“(abc←adc)”の誤りが
属するカテゴリを特定する。この特定結果、確率表20
1に該当のカテゴリがあれば、それに対応のカウント値
CTjを1つだけインクリメント処理する。一方、確率
表201に該当のカテゴリがなければ、今回の誤り音声
連鎖を確率表201に新たなカテゴリ番号Ciにして追
加登録する。このとき、対応のカウント値CTjには1
がセットされる。
【0073】このようにして、特定話者の1つの発声音
声に対してカテゴリ分類された誤り音節連鎖確率表20
1の作成(データ更新)が行なわれると、次の発声音声
に対しての処理に移行する(ステップ7)ように、前述
のステップ2に戻り、以下同様にして次の発声音声に対
して確率表201の作成が行なわれる。
【0074】なお、カテゴリ分類された誤り音節連鎖確
率表201を図3に示す処理フローに基づいて作成し続
ければ、カウント値CTjのそれぞれは、その作成処理
により初期値“0”のままのものもあるが、最大値とし
ては定数T2を有することになる。この最大値T2の大
きさは、確率表201作成時に登録される音声の数に依
存(比例)する。
【0075】また、この確率表201の作成は、特定話
者であるユーザが該装置の使い方を練習(トレーニン
グ)するのに並行して行なうようにしてもよい。
【0076】上述のようにして、初期作成されたカテゴ
リ分類された誤り音節連鎖確率表201は、特定話者に
ついての該装置における音声認識誤りの傾向、すなわち
特定話者の発声のくせを表わすデータを格納することに
なる。
【0077】図4は、音声認識処理に伴う音節連鎖誤り
を回復する場合に、カテゴリ分類された誤り音節連鎖確
率表201をデータ更新する手順を示す処理フロー図で
ある。
【0078】次に、図4を参照しながら、作成されたカ
テゴリ分類された誤り音節連鎖確率表201を用いて音
声認識する処理について説明する。
【0079】特定話者が、操作盤2を介して該装置を認
識モードに設定した後、マイクロフォン1を介して発声
し、音声信号を該装置に入力する。入力された音声信号
は、前述したボトムアップ的にその音節境界位置が検出
されて、音節認識部17により標準パターン辞書141
を参照した音節認識結果が出力される。
【0080】音節列修正部18は、音節認識部17が出
力する音節認識結果を入力する。そして、音節列修正部
18は確率表201のカウント値CTjの多いカテゴリ
の誤り音節連鎖を優先的に参照した認識誤り回復の処理
を、以下の(A)および(B)の2段階の手順を踏んで
行なう。
【0081】(A)音節列修正部18は、確率表201
を参照して、 定数T1<カウント値CTj を満たすカテゴリに属する認識誤り音節列を探索して、
この中から音節認識部17が出力した認識音節連鎖を含
む認識誤り音節列を特定する。そして、音節列修正部1
8は、特定された認識誤り音節列に対して、音節連鎖出
現確率表および誤り音節連鎖確率表を参照して、連鎖修
正し、正しい音節連鎖を導出する(この正しい音節連鎖
導出の手順は、図5で説明したものと同様なので説明は
省略する)。ただし、[0<T1<T2,and,T2
=MAX(確率表201中のカウント値CTjの最大
値)]上述したAの処理において、音節列修正部18に
より音節連鎖出現確率表および誤り音節連鎖確率表を適
用した前述のルールおよびに従う連鎖修正処理が行
なわれなかった場合には、次のBの処理が行なわれる。
【0082】(B)音節列修正部18は、上述のAの処
理において、連鎖修正の処理が行なわれなかったことに
応じて、確率表201を参照して、 定数値T1≧カウント値CTj を満たすような、カテゴリ番号Ciを有するカテゴリに
属する認識誤りを参照し、この中から、音節認識部17
から導出された認識音節連鎖を含む認識誤り音節列につ
いて、前述と同様に音節連鎖出現確率表および誤り音節
連鎖確率表に基づく連鎖修正をして、正しい音節連鎖を
導出する。
【0083】上述のAまたはBの連鎖修正の手順を経て
得られた少なくとも1個以上の正しい音節連鎖(以下、
認識候補と呼ぶ)が、たとえばプリンタ4を介して外部
出力される。特定話者は、プリント出力された認識候補
を見て、その中の1つを正解音節連鎖と特定すれば、操
作盤2を介して特定された音節連鎖を指示するデータ
を、マイクロプロセッサ32に与える。
【0084】以上のAおよびBの手順を音節列修正部1
8が備えることにより、誤り音節連鎖をいくつかのカテ
ゴリに分類し、それぞれのカテゴリに使用頻度、すなわ
ち特定話者の発声のくせを表わすカウンタを設け、音節
認識部17における認識誤りを回復する場合に、このカ
ウント値の高いカテゴリに含まれる誤り連鎖を優先的に
用いて認識誤りを回復しているので、認識時には特定話
者の誤りの傾向を反映した誤り回復が行なわれて、特定
話者に対しての認識率を高めることができる。
【0085】音節列修正部18は、特定話者により操作
盤2を介して認識候補の中から正解音節連鎖が特定され
た旨のデータを入力すると、以下の処理を行なう。
【0086】音節列修正部18は、図4に示されるよう
に、誤り連鎖修正のための確率表201の適用状況を、
常に確率表201に反映させるようにしている。
【0087】音節列修正部18は、正解として特定され
た認識候補に基づいて、確率表201を探索し、この正
解認識候補が属するカテゴリのカテゴリ番号Ciを特定
する(ステップ10)。次に、正解に寄与した誤り連鎖
の属するカテゴリのカテゴリ番号Ciを全て特定するた
めに、変数kに値1を初期設定する(ステップ11)。
【0088】音節列修正部18は、変数kが確率表20
1に登録されるカテゴリ数を越えると、一連の処理を終
了するが、変数kがカテゴリ数を越えない間は、以降の
処理が繰返し実行される(ステップ12)。
【0089】そして、正解に寄与した誤り連鎖の属する
カテゴリ番号Ciのカウント値CTjのみを1だけイン
クリメントし、このインクリメント結果、カウント値C
Tjが定数T2を越えるときのみカウント値CTjを定
数T2で置き換えるように処理する(ステップ14a,
15a,16a)。そして、それ以外のカテゴリのカウ
ント値CTjを1つだけデクリメントする。このデクリ
メント後の値が0未満となるような場合は、カウント値
CTjに0を設定する(ステップ14b、15b、およ
び16b)。上述したような、カテゴリのカウント値C
Tjのデクリメント処理とインクリメント処理が、変数
kを1つずつカウントアップしながら(ステップ17)
変数kがカテゴリ数を越えない間、すなわち確率表20
1に含まれるすべてのカテゴリに対して行なわれる。
【0090】以上のように、認識モード時においても、
誤り修正のための確率表201の適用状況を常に確率表
201に反映させることで、話者の慣れによる誤り傾向
の変化が確率表201において顕著となるように カウント値CTj←[(CTj+1, forj=
i),and,(CTj−1, forj≠i)] で示されるように確率表201のカウント値CTjのデ
ータ更新を推進する。
【0091】以上は、音節についての誤り回復を述べた
が、同様に音韻についても適用可能である。
【0092】また、本実施例では、特定話者(1人)を
想定した音声認識装置の動作を挙げたが、メモリ34の
容量の許容範囲内であれば、2人以上の話者のそれぞれ
について、同様にしてそのカテゴリ分類された誤り音節
連鎖確率表201を準備し、各話者ごとに確率表201
を選択的に適用し、認識モード時の誤り回復を図るよう
にしてもよい。
【0093】また、本実施例における音声認識装置を、
別の特定話者に対して適用する場合は、カテゴリ分類さ
れた誤り音節連鎖確率表201の作成から行なうことが
望ましい。さらに、本実施例では、複数の認識候補から
正解の音節連鎖を確定する場合には、認識候補をプリン
タ4を介して外部出力するようにしていたが、ディスプ
レイ装置などの他の出力媒体を介してこれらの認識候補
を出力するようにしてもよい。
【0094】本実施例では、特定話者が発声して与える
音声を認識する場合における、セグメンテーション誤り
回復を伴う認識動作について説明したが、該装置におい
て操作盤2を介して特定話者を対象にした認識モードと
不特定多数の話者を対象にした認識モードのいずれか一
方のモードを選択的に指定し、この指定されたモードに
応じて該装置が、前述した音節連鎖出現確率表格納部1
9および誤り音節連鎖確率表格納部20をアクセスして
セグメンテーション誤りを減少させるような認識処理お
よび格納部19、格納部20およびカテゴリ分類された
誤り音節連鎖確率表格納部21をアクセスしてセグメン
テーション誤りを減少させた認識処理のいずれか一方を
選択的に行なうようにしてもよい。
【0095】上述の実施例においては3音節連鎖につい
て説明しているが、2音節連鎖や4音節連鎖以上の音節
連鎖の誤認識音節連鎖修正に拡張しても差支えない。
【0096】
【発明の効果】以上のようにこの発明によれば、特定話
者が発声する複数の音声を認識部で認識し、誤認識され
た種々の音節連鎖の誤認識の内容情報を、音声学的に予
め複数のグループに分類し、その誤認識の頻度情報を各
グループごとに表わすグループ化された誤り音節連鎖確
率表(または誤認識された種々の音韻連鎖の誤認識の内
容情報を、音声学的に予め複数のグループに分類し、そ
の誤認識の頻度情報を各グループごとに表わすグループ
化された誤り音韻連鎖確率表)を格納する第3記憶部を
有する。さらに、認識結果修正部は、特定話者が発声し
て与える音声の認識モード時に、認識部から認識結果と
して出力された音節列(または音韻列)を構成する音節
連鎖(または音韻連鎖)に基づいて、グループ化された
誤り音節連鎖確率表(またはグループ化された誤り音韻
連鎖確率表)の頻度情報が高いグループを優先して探索
し、該当の誤認識の内容情報を抽出し、抽出された情報
を用いて認識部からの認識結果が正しいか否かを判定
し、その判定結果に従って第1および第2出力手段のい
ずれか一方を能動化するので、認識部の認識結果の正誤
のいかんにかかわらず特定話者の発声する音声に対する
誤認識の傾向を考慮したセグメンテーション誤り回復を
行なうことが可能となり、特定話者に対して、その誤り
回復処理の最適化が図られて音声認識率が向上するとい
う効果がある。
【図面の簡単な説明】
【図1】本発明の一実施例による音声認識装置の機能構
成を模式的に示す図である。
【図2】本発明の一実施例による音声認識装置に備えら
れるカテゴリ分類された誤り音節連鎖確率表を示す図で
ある。
【図3】カテゴリ分類された誤り音節連鎖確率表の作成
手順を示す処理フロー図である。
【図4】音声認識に伴う音節連鎖誤り回復時に、カテゴ
リ分類された誤り音節連鎖確率表をデータ更新する手順
を示す処理フロー図である。
【図5】この発明の背景を示す音声認識装置の機能と処
理の流れを模式的に示す図である。
【図6】この発明の背景を示す音声認識装置の概略構成
図である。
【図7】この発明の背景を示す音声認識装置に備えられ
る標準パターン辞書の1例を示す図である。
【符号の説明】
11 特徴抽出部 12 トップダウン音節境界検出部 13 トップダウン音節区間切出部 14 音節標準パターン格納部 15 ボトムアップ音節境界検出部 16 ボトムアップ音節区間切出部 17 音節認識部 18 音節列修正部 19 音節連鎖出現確率表格納部 20 誤り音節連鎖確率表格納部 21 カテゴリ分類された誤り音節連鎖確率表格納部 141 標準パターン辞書 201 カテゴリ分類された誤り音節連鎖確率表 Ci カテゴリ番号 CTj カウント値 なお、各図中、同一符号は同一または相当部分を示す。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 入力された音声から音節区間または音韻
    区間を切出して入力音声を認識する認識部を有する音声
    認識装置において、 種々の音節連鎖の出現確率をそれぞれの音節連鎖の音節
    列中における位置情報を加味して表わす音節連鎖出現確
    率表、または種々の音韻連鎖の出現確率をそれぞれの音
    韻連鎖の音韻列中における位置情報を加味して表わす音
    韻連鎖出現確率表を格納する第1記憶部と、 音声を認識した際に誤認識された種々の音節連鎖の出現
    確率をそれぞれの音節連鎖の位置情報および誤認識の内
    容情報を加味して表わす誤り音節連鎖確率表、または誤
    認識された種々の音韻連鎖の出現確率をそれぞれの音韻
    連鎖の位置情報および誤認識の内容情報を加味して表わ
    す誤り音韻連鎖確率表を格納する第2記憶部と、 特定話者が発声する複数の音声を前記認識部で認識し、
    誤認識された種々の前記音節連鎖の前記誤認識の内容情
    報を、音声学的に予め複数のグループに分類し、前記各
    グループごとにその誤認識の頻度情報を表わすグループ
    化された誤り音節連鎖確率表、または誤認識された種々
    の前記音韻連鎖の前記誤認識の内容情報を、音声学的に
    予め複数のグループに分類し、前記各グループごとにそ
    の誤認識の頻度情報を表わすグループ化された誤り音韻
    連鎖確率表を格納する第3記憶部と、 認識結果修正部とを備え、 前記認識結果修正部は、前記特定話者が発声して与える
    音声の認識モード時、 前記認識部から認識結果として出力された音節列または
    音韻列を構成する音節連鎖または音韻連鎖に基づいて、
    前記グループ化された誤り音節連鎖確率表、またはグル
    ープ化された誤り音韻連鎖確率表の前記頻度情報が高い
    グループを優先して探索し、該当する前記誤認識の内容
    情報を抽出する抽出手段と、 前記抽出手段において抽出された誤認識の内容情報およ
    び、前記認識部から認識結果として出力された音節列ま
    たは音韻列を構成する音節連鎖または音韻連鎖の位置情
    報に基づいて、前記音節連鎖出現確率表または音韻連鎖
    出現確率表と前記誤り音節連鎖確率表または誤り音韻連
    鎖確率表とを参照し、当該音節連鎖または当該音韻連鎖
    が正しい音節連鎖または音韻連鎖であるか、誤認識され
    た音節連鎖または音韻連鎖であるかを、所定のルールに
    従って判定する判定手段と、 前記判定手段の判定結果に基づき、正しい音節連鎖また
    は音韻連鎖であると判定された場合には、前記認識部か
    らの当該音節連鎖または当該音韻連鎖を出力する第1出
    力手段と、 前記判定手段の判定結果に基づき、誤認識された音節連
    鎖または音韻連鎖であると判定された場合には、前記抽
    出された誤認識の内容情報に、前記誤認識された音節連
    鎖の出現確率または前記誤認識された音韻連鎖の出現確
    率を加味して、当該音節連鎖の正しい音節連鎖または当
    該音韻連鎖の正しい音韻連鎖を出力する第2出力手段と
    を備える、音声認識装置。
JP3346317A 1991-12-27 1991-12-27 音声認識装置 Withdrawn JPH05181495A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3346317A JPH05181495A (ja) 1991-12-27 1991-12-27 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3346317A JPH05181495A (ja) 1991-12-27 1991-12-27 音声認識装置

Publications (1)

Publication Number Publication Date
JPH05181495A true JPH05181495A (ja) 1993-07-23

Family

ID=18382589

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3346317A Withdrawn JPH05181495A (ja) 1991-12-27 1991-12-27 音声認識装置

Country Status (1)

Country Link
JP (1) JPH05181495A (ja)

Similar Documents

Publication Publication Date Title
EP2048655B1 (en) Context sensitive multi-stage speech recognition
US6487532B1 (en) Apparatus and method for distinguishing similar-sounding utterances speech recognition
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US7529665B2 (en) Two stage utterance verification device and method thereof in speech recognition system
US7251600B2 (en) Disambiguation language model
US7996218B2 (en) User adaptive speech recognition method and apparatus
US5712957A (en) Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists
US4618984A (en) Adaptive automatic discrete utterance recognition
US6553342B1 (en) Tone based speech recognition
Witt et al. Language learning based on non-native speech recognition.
EP1139332A9 (en) Spelling speech recognition apparatus
US20070136062A1 (en) Method and apparatus for labelling speech
CN112397091A (zh) 中文语音综合评分及诊断系统和方法
Lin et al. OOV detection by joint word/phone lattice alignment
WO2013163494A1 (en) Negative example (anti-word) based performance improvement for speech recognition
CN1957397A (zh) 声音识别装置和声音识别方法
Këpuska Wake-up-word speech recognition
KR101122591B1 (ko) 핵심어 인식에 의한 음성 인식 장치 및 방법
JP3444108B2 (ja) 音声認識装置
JP2000056795A (ja) 音声認識装置
JPH05181495A (ja) 音声認識装置
EP0987681B1 (en) Speech recognition method and apparatus
JP2975542B2 (ja) 音声認識装置
Vereecken et al. Improving the phonetic annotation by means of prosodic phrasing
Kumar et al. Robust detection of vowel onset and end points

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19990311