JPH0736481A - 補完音声認識装置 - Google Patents

補完音声認識装置

Info

Publication number
JPH0736481A
JPH0736481A JP17781893A JP17781893A JPH0736481A JP H0736481 A JPH0736481 A JP H0736481A JP 17781893 A JP17781893 A JP 17781893A JP 17781893 A JP17781893 A JP 17781893A JP H0736481 A JPH0736481 A JP H0736481A
Authority
JP
Japan
Prior art keywords
phoneme
symbol
symbols
recognition
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP17781893A
Other languages
English (en)
Inventor
Hiroshi Kurokawa
寛 黒川
Kyoko Yamada
恭子 山田
Hideki Yamamoto
秀樹 山本
Yoshie Seto
美枝 瀬戸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Osaka Gas Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Osaka Gas Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd, Osaka Gas Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP17781893A priority Critical patent/JPH0736481A/ja
Publication of JPH0736481A publication Critical patent/JPH0736481A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 話者の発話に対して誤りの少ない候補を出力
でき、認識誤りによる候補なしを防止できる補完音声認
識装置を提供すること。 【構成】 音声信号1をデジタル信号に変換するA/D
変換回路2と、そのデジタル信号から音韻(列)記号4
を抽出する音韻(列)抽出手段3と、各種音韻記号に対
して、所定のグループの人が意図した可能性がある音韻
記号を対応づけた誤りモデルテーブル10と、抽出され
た音韻(列)記号と誤りモデルテーブル10の各種音韻
記号とを比較し、一致する音韻記号に対応する、誤り確
率が基準以上の音韻記号を出力する誤り推測手段5とを
備える。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、発音された音声の音声
認識処理を補完する補完音声認識装置に関するものであ
る。
【0002】
【従来の技術】従来、音声や画像の認識に当たっては、
最終認識結果を正確なものとするために、認識対象につ
いて複数個の認識候補を得て(認識候補群)、その中か
ら最終認識結果を決定することが多い。この際、各認識
候補は、一般に、認識結果と認識評価点とが対にされた
形で出力される。そして、認識候補群の中の認識評価点
が最も高い認識候補の認識評価点を、予め設定された閾
値と比較し、その認識評価点が閾値より高い場合、その
認識候補は認識目的について有意性があるとされその認
識結果が最終認識結果とされる。ここで、閾値比較の
際、認識評価点が閾値より低い場合、その認識候補は有
意でない旨の判断がなされ、最終認識結果はなし(音声
認識の場合はNull(無効文字列))とされる。
【0003】
【発明が解決しようとする課題】しかしながら、以上の
ような従来の音声認識の場合、例えば話者の発話が曖昧
であったり誤っていたときには、話者の意図と全く違う
候補が出力されたり、あるいは全く認識されずに認識誤
りとして処理されて、候補が得られないという課題があ
る。例えば、ネイティブスピーカが話す英語を正確に認
識できる装置においては、英語の初心者である日本人が
話すと、大概の場合、話者の意図と全く違う候補が出力
されたり、あるいは全く認識されずに認識誤りとして処
理される。
【0004】本発明は、従来の音声認識装置のこのよう
な課題を考慮し、話者の発話に対して、その意図どうり
に、誤りの少ない候補を出力でき、認識誤りによる候補
なしを防止できる補完音声認識装置を提供することを目
的とするものである。
【0005】
【課題を解決するための手段】本発明は、発音された音
韻信号を入力する音韻信号入力手段と、その入力された
音韻信号を認識する音韻認識手段と、各種音韻記号に対
して、所定のグループの人が意図した可能性がある音韻
記号を対応づけたテーブルと、認識された音韻記号とテ
ーブルの各種音韻記号とを比較し、一致する音韻記号を
見つけ、所定の基準に基づいて、その見つけられた音韻
記号に対応する意図した可能性がある音韻記号の一部又
は全部を出力する比較出力手段とを備えた補完音声認識
装置である。
【0006】
【作用】本発明は、音韻信号入力手段が発音された音韻
信号を入力し、音韻認識手段が入力された音韻信号を音
韻記号として認識し、比較出力手段が、認識された音韻
記号とテーブルの各種音韻記号とを比較し、一致する音
韻記号を見つけ、所定の基準に基づいて、その見つけら
れた音韻記号に対応する意図した可能性がある音韻記号
の一部又は全部を出力する。
【0007】
【実施例】以下に、本発明をその実施例を示す図面に基
づいて説明する。
【0008】図1は、本発明にかかる一実施例の補完音
声認識装置の構成図である。図1において、補完音声認
識装置には、例えば不特定話者の連続音声認識システム
を用いる場合、話者が発音した音声の音声信号1を入力
し、その入力された音声信号1をアナログ信号からディ
ジタル信号に変換するA/D変換回路2が設けられ、そ
のA/D変換回路2には、変換されたディジタル信号か
ら音韻(列)記号4を認識して抽出する音韻(列)抽出
手段3が接続されている。その音韻(列)抽出手段3に
は、誤り推測手段5が接続されており、その誤り推測手
段5は、誤りモデルテーブル10に格納された誤りモデ
ル及び認識した音韻(列)記号4に基づいて誤りを推測
するものである。
【0009】その誤りモデルテーブル10には、入力音
声の音韻列中に含まれる音韻(又は音韻列)の誤りの確
率が誤りモデルとして格納されている。例えば、この誤
りモデルテーブル10の誤りモデルとしては、図3に示
すように、行の欄に、全ての各種音韻記号[r]、
[l]、[a]、[i]、[s]、・・・が配置され、列
の欄にも、色々な全ての音韻記号[r]、[l]、
[a]、[A]、[i]、[s]、[θ]、・・・が配置
されている。行の音韻記号は、認識された音韻記号であ
って、例えば、行の音韻記号[r]が認識された場合、
その[r]が、その話者が意図する本当の音韻記号であ
る確率を、列の色々な音韻記号[r]、[l]、
[a]、[A]、[i]、[s]、[θ]、・・・につい
て、設定している。すなわち、図3の場合、関西地方の
成人の人のグループを対象として、その人たちが、発音
し、音声認識した音韻記号が、その話者が意図した本当
の音韻記号である確率を設定している。例えば、認識さ
れた音韻記号がrの場合、話者が意図した本当の音韻記
号である確率は、[r]が65%、[l]が20%、
[a]が5%、[A]が4%、[i]が1%、[s]が
0.1%、[θ]が0.1%である。これらの数値は、そ
れらグループの人々に実際に発音させ、データをとり設
定したものである。通常は、認識した音韻記号と同じ音
韻記号に高い確率が付される。音韻記号としては標準国
際音声記号(国際音声学協会)で表記している。また、
このモデルは一通りではなく、図4及び図5に示すよう
に、例えば話者の居住地域や年齢など発音に影響を与え
るであろうと考えられる要因を考慮して誤り確率を書き
出したモデルや、本システムの使用目的(教育対象か認
識対象か等)に応じたモデルなど、複数のモデルが用意
される。
【0010】上述の誤り推測手段5には音韻列置換手段
6が接続され、その音韻列置換手段6は、認識された音
韻記号に対して、誤り確率の高い音韻(又は音韻列)で
置換を行い、その結果として置換後音韻(列)7を出力
する。更に、音韻列置換手段6には認識候補出力手段8
が接続され、その認識候補出力手段8は、置換後音韻列
7と認識候補ファイル11に予め格納された認識候補と
を用いて候補文字列9を出力するものである。
【0011】その、認識候補ファイル11には、図6に
示すように、右列には、予め用意された認識候補文字列
が、また、左の列には、それに対応する認識候補音韻と
が格納されている。
【0012】上述のA/D変換回路2が音韻信号入力手
段を構成し、音韻(列)抽出手段3が音韻認識手段を構
成し、誤りモデルテーブル10がテーブルを構成し、誤
り推測手段5及び音韻列置換手段6が比較出力手段を構
成している。
【0013】次に、上記実施例の補完音声認識装置の動
作について図面を参照しながら説明する。
【0014】まず、話者がマイクロフォンなどから音声
信号1(例えば"rice(米)"という単語:本来のこの単語
の音韻記号は[rais]である)を入力する(ステッ
プS1)。入力された音声信号1はA/D変換回路2に
よりアナログ/ディジタル変換され(ステップS2)、
次に音韻(列)抽出手段3によって、その音響的特徴よ
り音韻(列)記号4が認識抽出される(ステップS
3)。もし話者が"rice"の発音に含まれる[r]音を正
しく発音しなかった場合、ここで抽出される音韻列は例
えば[lais]になる。
【0015】次に、抽出された音韻(列)記号4から順
に音韻が取り出され(ステップS4)(この場合は
[l][a][i][s]である)、誤りモデルテーブ
ル10から、取り出された音韻に対応する音韻の誤り確
率が一つ一つ順に読みだされる(ステップS5)。ここ
で、話者がどの音韻を発音しようとした可能性があるか
が判断されるが、もし入力された音声から抽出された音
韻に対して、取り出された誤り確率の全てに対して基準
以上の誤り確率が得られなかったと判断された場合(ス
テップS6)、入力された音声から抽出された音韻のみ
が保存される。
【0016】一方、参照された誤り確率中に、誤り確率
が基準より高い確率の音韻があると判断された場合は
(ステップS6)、入力された音声から抽出された音韻
と誤り確率の高い音韻の両方を保持する(比較音素とそ
の誤り確率を保存する)(ステップS7)。例えば図3
の誤りモデルによると、[lais]の場合、話者が音
韻[l]を入力したと認識され、話者が入力しようと意
図していた音韻が[r]である確率と[l]である確率
は、共に30%である。その他の確率は低い。その結
果、話者が意図した音韻記号は[r]30%または
[l]30%であると判断される。次の音韻の[a]
は、同様に調べると、[a]である確率が60%であ
り、それに比べると他の音韻の確率はかなり低いので学
習者が意図した音韻は[a]60%であると判断する。
同様にして、[i]と[s]は、それぞれ[i]、
[s]・[θ]であると判断され、それぞれが保存され
る(これを置換音韻と呼ぶ)。このように、取り出され
た1個の音韻に対して、それに対応した誤りモデルの全
データ終了までステップS5からステップS7までその
確率が調べられる。これをループ2で示す。又、ステッ
プS4からステップS7までの処理が、抽出された音韻
記号列の終わりまで繰り返される。これをループ1で示
す。
【0017】次に、抽出された音韻列の全ての音韻記号
について誤りモデルが参照された後(すなわち、ループ
1が終了した後)、一時保存されたそれらの、置換音韻
の候補([l]・[r]・[a]・[i]・[s]・
[θ])と入力音韻列4とが置換される(ステップS
8)。すなわち、[l]については[l]と[r]に、
[a]と[i]はそのままで、[s]については[s]
と[θ]とに置き換えられる。これにより、置換後音韻
列7は[lais]・[rais]・[laiθ]・
[raiθ]の4種類の候補がもとまる。
【0018】その後、認識候補出力手段8によって認識
候補ファイル11からデータが読み込まれ(ステップS
9)、入力された各置換後音韻列7と読み込まれた認識
候補音韻との突き合わせ処理が行われる(ステップS1
0)。突合せの結果音韻記号が一致した場合、その音韻
記号列に対応する認識候補文字列9が出力される(ステ
ップS11)。一致しなかった場合はループ3の処理を
終了する。例えば、[lais]については、”lic
e”が見つかり、[rais]については”rice”
が見つかり、[laiθ]と[raiθ]については、
認識候補文字列は見つからない。従って、この場合の認
識候補文字列は、”rice”と”lice”の2通り
となり、話者がもともと誤った発音で入力した音韻列か
ら生成される文字列”lice”と、話者が発音しよう
と意図した正しい音韻列から生成される文字列”ric
e”が出力されたことになる。
【0019】以上のように、入力された音声信号から抽
出された音韻列中の音韻(又は音韻列)を、予め設定さ
れた誤りモデルの誤り確率の高い音韻(又は音韻列)に
より置換することによって、誤った音韻列データをその
まま候補文字列を検索するデータとして用いることを防
ぎ、話者が発話の際、イメージしていた音声に近い音韻
列を用いて認識候補を出力することができる。その結
果、話者の誤発音による誤ったままの認識候補の出力を
抑制することができ、また、認識誤りとして認識候補が
得られないといったことが防止できる。
【0020】なお、上記実施例では、単に誤り確率の高
い音韻を含む候補単語をすべて出力する音声認識装置を
例に説明したが、この原理を適用して、例えば構文解析
などの手法を用いて、出力される候補単語の中から最適
な単語を選択できる構成として、より高い認識率を実現
できる音声認識装置としてもよい。
【0021】あるいは又、誤発音であっても、それに近
い候補単語が出力されることを利用して、会話シミュレ
ーション等に適用してもよい。この場合、従来のような
誤発音による会話の中断をなくすことができ、会話にお
けるスピード、リズム感等がくずれることを防止でき
る。
【0022】更にまた、発音指導システムに適用するこ
とももちろん可能であり、例えば誤りやすい単語などを
同時に表示することができる。
【0023】また、上記実施例では、音韻の誤り確率が
非常に小さくても誤りモデルに格納したが、これに限ら
ず、実用上必要な値以上の誤り確率のみを格納するよう
にしてもよい。
【0024】また、上記実施例では、誤りモデルとして
3つの例を示したが、誤りモデルはこれに限定されるも
のではないことは言うまでもない。
【0025】また、前述の誤り確率の高低の判断基準は
場合によって自由に変更可能としてもよい。
【0026】また、認識手段で認識する音韻記号は、上
記のような標準国際音声記号以外に、他の発音記号、あ
るいは単語単位等であってもよい。
【0027】また、各種音韻記号に対して、所定のグル
ープの人が意図した可能性がある音韻記号を対応づけた
テーブルの対応付けの仕方は、上記実施例のものに限ら
ず、他の方法で対応付けておいてもかまわない。
【0028】また、上記実施例では、各処理手段を専用
のハードウェアにより構成したが、これに代えて、同様
の機能をコンピュータを用いてソフトウェア的に実現し
てもよい。
【0029】
【発明の効果】以上述べたところから明らかなように本
発明は、各種音韻記号に対して、所定のグループの人が
意図した可能性がある音韻記号を対応づけたテーブル
と、認識された音韻記号とテーブルの各種音韻記号とを
比較し、一致する音韻記号を見つけ、所定の基準に基づ
いて、その見つけられた音韻記号に対応する意図した可
能性がある音韻記号の一部又は全部を出力する比較出力
手段とを備えているので、話者の発話に対して誤りの少
ない候補を出力でき、また、認識誤りによる候補なしが
防止できるという長所を有する。
【図面の簡単な説明】
【図1】本発明にかかる一実施例の補完音声認識装置の
構成図である。
【図2】同実施例の動作を説明する流れ図である。
【図3】同実施例における音韻記号のテーブルの一例を
示す図である。
【図4】同実施例における音韻記号のテーブルの別の一
例を示す図である。
【図5】同実施例における音韻記号のテーブルの別の一
例を示す図である。
【図6】同実施例における認識候補ファイルの一例を示
す図である。
【符号の説明】
3 音韻(列)抽出手段 5 誤り推測手段 6 音韻列置換手段 8 認識候補出力手段 10 誤りモデルテーブル 11 認識候補ファイル
───────────────────────────────────────────────────── フロントページの続き (72)発明者 山本 秀樹 東京都港区虎ノ門1丁目7番12号 沖電気 工業株式会社内 (72)発明者 瀬戸 美枝 愛知県名古屋市千種区内山三丁目8番10号 株式会社沖テクノシステムズラボラトリ 内

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 発音された音韻信号を入力する音韻信号
    入力手段と、その入力された音韻信号を認識する音韻認
    識手段と、各種音韻記号に対して、所定のグループの人
    が意図した可能性がある音韻記号を対応づけたテーブル
    と、前記認識された音韻記号と前記テーブルの各種音韻
    記号とを比較し、一致する音韻記号を見つけ、所定の基
    準に基づいて、その見つけられた音韻記号に対応する前
    記意図した可能性がある音韻記号の一部又は全部を出力
    する比較出力手段とを備えたことを特徴とする補完音声
    認識装置。
  2. 【請求項2】 前記テーブルの音韻記号は、誤り確率に
    より対応づけられたものであり、前記所定の基準は予め
    決められた所定の誤り確率以上であることを特徴とする
    請求項1記載の補完音声認識装置。
  3. 【請求項3】 前記音韻記号は、発音記号であることを
    特徴とする請求項1記載の補完音声認識装置。
JP17781893A 1993-07-19 1993-07-19 補完音声認識装置 Pending JPH0736481A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP17781893A JPH0736481A (ja) 1993-07-19 1993-07-19 補完音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP17781893A JPH0736481A (ja) 1993-07-19 1993-07-19 補完音声認識装置

Publications (1)

Publication Number Publication Date
JPH0736481A true JPH0736481A (ja) 1995-02-07

Family

ID=16037640

Family Applications (1)

Application Number Title Priority Date Filing Date
JP17781893A Pending JPH0736481A (ja) 1993-07-19 1993-07-19 補完音声認識装置

Country Status (1)

Country Link
JP (1) JPH0736481A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08171396A (ja) * 1994-12-20 1996-07-02 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声認識装置
GB2373088A (en) * 2000-11-17 2002-09-11 Canon Kk Speech recognition apparatus
JP2013109061A (ja) * 2011-11-18 2013-06-06 Hitachi Ltd 音声データ検索システムおよびそのためのプログラム
US9232831B2 (en) 2011-06-01 2016-01-12 Mizuno Corporation Heel counter structure for a shoe

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08171396A (ja) * 1994-12-20 1996-07-02 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声認識装置
GB2373088A (en) * 2000-11-17 2002-09-11 Canon Kk Speech recognition apparatus
US9232831B2 (en) 2011-06-01 2016-01-12 Mizuno Corporation Heel counter structure for a shoe
JP2013109061A (ja) * 2011-11-18 2013-06-06 Hitachi Ltd 音声データ検索システムおよびそのためのプログラム

Similar Documents

Publication Publication Date Title
US5787230A (en) System and method of intelligent Mandarin speech input for Chinese computers
US5333275A (en) System and method for time aligning speech
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US6085160A (en) Language independent speech recognition
US20060224384A1 (en) System and method for automatic speech recognition
US7653541B2 (en) Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech
US7295979B2 (en) Language context dependent data labeling
JP4950024B2 (ja) 会話システムおよび会話ソフトウェア
EP1398758B1 (en) Method and apparatus for generating decision tree questions for speech processing
US20180012602A1 (en) System and methods for pronunciation analysis-based speaker verification
JPH06110494A (ja) 発音学習装置
JPH0736481A (ja) 補完音声認識装置
KR102299269B1 (ko) 음성 및 스크립트를 정렬하여 음성 데이터베이스를 구축하는 방법 및 장치
JP4220151B2 (ja) 音声対話装置
JP2975542B2 (ja) 音声認識装置
JP2001188556A (ja) 音声認識方法及び装置
JP3039453B2 (ja) 音声認識装置
JPH08314490A (ja) ワードスポッティング型音声認識方法と装置
JP3259734B2 (ja) 音声認識装置
JP2000276189A (ja) 日本語ディクテーションシステム
Kalinli et al. Continuous speech recognition using attention shift decoding with soft decision.
JP2001013983A (ja) 音声合成を用いた音声認識装置および音声認識方法
JPH0713587A (ja) 隠れマルコフモデル連結学習方法
JPS6180298A (ja) 音声認識装置
JPH0827640B2 (ja) 音声認識装置