JPH0556515B2 - - Google Patents

Info

Publication number
JPH0556515B2
JPH0556515B2 JP61078822A JP7882286A JPH0556515B2 JP H0556515 B2 JPH0556515 B2 JP H0556515B2 JP 61078822 A JP61078822 A JP 61078822A JP 7882286 A JP7882286 A JP 7882286A JP H0556515 B2 JPH0556515 B2 JP H0556515B2
Authority
JP
Japan
Prior art keywords
syllable
recognition
input
learning
entire
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP61078822A
Other languages
English (en)
Other versions
JPS62235991A (ja
Inventor
Fumio Togawa
Mitsuhiro Toya
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP61078822A priority Critical patent/JPS62235991A/ja
Priority to US07/034,060 priority patent/US4908864A/en
Publication of JPS62235991A publication Critical patent/JPS62235991A/ja
Publication of JPH0556515B2 publication Critical patent/JPH0556515B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】
産業上の利用分野 本発明は、入力された音声を音節単位に認識す
る日本語音声入力装置などに有利に用いられる音
声認識方式に関する。 背景技術 入力された音声を音節単位に認識する日本語音
声入力装置などに用いられる従来からの音声認識
方式では、連続音声を音節に分解して切り出され
た音節を主としてパターンマツチングによつて認
識する場合、発音のばらつきや調音結合と呼ばれ
る前後の音の影響による変形などによる音節認識
率の低下を、各音節に複数個の特徴標準パターン
を持たせることで防いでいる。また、それらの特
徴標準パターンを入力された新しいパターンで更
新することにより認識率を向上させている。 発明が解決しようとする問題点 上記先行技術では、入力環境の急変、話者の生
理的要因に基づく音質の変化、音声ピツクアツプ
系の設定の変化などに起因して音声信号波形の変
化により同一カテゴリの特徴パターンの不整合が
起つた場合に対処することができず、急激に音声
認識率が低下する。 本発明の目的は、上述の技術的課題を解決し、
同一カテゴリの特徴パターンの不整合が起つた場
合でも常時安定して高い認識率を維持できるよう
にした音声認識方式を提供することである。 問題点を解決するための手段 本発明は、入力された音声を予め登録された複
数種類の音節の特徴標準パターンとの類似度計算
によつて音節単位に認識し、その結果を辞書との
照合もしくはキーボードなどの外部指示操作によ
つて修正して最終的な入力を得るようにした音声
認識方式において、 認識基本単位である音節について音節別に入力
毎の正解あるいは誤りの時系列を第1バツフアに
記憶し、 音節全体の正解あるいは誤りの時系列を第2バ
ツフアに記憶し、 入力時に入力された音節を用いて特徴標準パタ
ーンを自動的に更新する場合、第1および第2バ
ツフアの内容を読み取つて入力時点からさかのぼ
つた最近の各音節の認識情況と音節全体の認識情
況を求め、 各音節の認識情況と音節全体の認識情況とを用
いて音節の学習の促進/抑制の制御を段階的に行
うようにした音声認識方式である。 作 用 本発明に従えば、たとえば111種の各音節につ
いての認識情況に加えて音節全体の認識情況を求
めて、音節全体の認識率が低下してきたときは学
習を促進し、認識率が高くなつたときは学習を抑
制するように音節の学習を段階的に抑制する。こ
れによつて、入力環境の急変、話者の生理的要因
に基づく音質の変化、音声ピツクアツプ系の設定
の変化などに起因した急激な音声認識率の低下な
どの音節認識情況の変化を、音節全体と各音節に
ついて検知して学習を制御して、この種の変動に
対して比較的認識率の回復を早めることができ、
かつ認識率が高い場合には学習を抑制して安定し
て高い認識率を維持できる。 実施例 先ず本発明の概要について説明する。本発明で
は、音節別に入力毎の正解あるいは誤りの時系列
を記憶する第1のリングバツフアLと、音節全体
の正解あるいは誤りの時系列を記憶する第2のリ
ングバツフアliとを設ける。これらのリングバツ
フアL,liは、メモリが当間隔に分割されて各部
分が一つの認識結果を記憶し、時系列に沿つてリ
ング状に連なつて構成されたもので、その部分数
がn個あれば過去n個の認識結果の時系列を記憶
できることになる。これらは入力が確定される毎
に更新される。 これらの2種類のリングバツフアL,liの内容
に基づき、リングバツフアLから最近の音節全体
の認識率Rを、またリングバツフアliから最近の
音節iの認識率riを算出する。次に音節全体の認
識率Rを複数のランクに別けて、各ランク毎に各
音節の認識率liに応じた学習条件を設定する。 音節全体の認識率Rは第1式で示され、各音節
(音節i)の認識率は第2式で示される。 R(n)=ne/n …(1) ただし、n=ne+ncである。ここでnは過去
n回の入力回数を示し、neは誤り数を示し、nc
は正解数を示す。 ri(m)=me/m …(2) ただし、m=me+mcである。ここでmは過去
m回の音節iの入力回数を示し、meは音節iの
誤り数を示し、mcは音節iの正解数を示す。 例えば、誤り率については、第3式、第4式お
よび第5式のように段階的に設定する。これらの
条件が満たされたとき、その入力音節は学習され
る。 R(10)<0.2のとき1≦ri(1) …(3) 0.2≦R(10)<0.3のとき1/2≦ri(2) …(4) 0.3≦R(10)のとき1/3≦ri(3) …(5) たとえばリングバツフアLにおける音節全体の
認識結果の時系列が第1表に示されるものであ
り、リングバツフアliにおける音節毎の認識結果
の時系列が第2表に示されるものであるとき、第
3表に示される学習処理が行なわれる。
【表】
【表】
【表】
【表】
【表】 ここで第1の学習方式は上記第3式〜第5式に
基づく音節全体の認識情況と個々の音節の認識情
況を用いたものであり、第2の学習方式は1/2
<r(2)に基づく個々の音節の認識情況だけを用い
た場合である。第3表から明らかなように第1の
方式は、認識率の変動に良く追従している。 第1図は本発明の一実施例の日本語音声入力装
置1の構成を示すブロツク図であり、第2図は日
本語音声入力装置1における自動学習の処理系を
示す図である。この日本語音声入力装置1は、連
続的に発声された音声を音節単位に認識し、この
認識結果を辞書によつて修正した後、単語などの
単位で外部装置に転送する機能を有している。 発声され入力された音声は、マイクロホン2を
介してアナログ入力部3に入力され、このアナロ
グ入力部3内の増幅器4によつて増幅された後、
アナログ/デジタル変換器5によつてデジタル信
号に変換され、そのデジタル信号が音声分析部6
および音節セグメンテーシヨン部7に入力され
る。 次に音響処理および音節の切り出し処理T1が
行なわれる。すなわち音声分析部6では、入力音
声を16ms程度のフレームに分けスペクトル分析
を行ない、8ms程度の間隔で音節セグメンテーシ
ヨン部7に音節のセグメンテーシヨンに必要な特
徴パラメータを転送する。音節セグメンテーシヨ
ン部7では、音声分析部6からの種々の特徴パラ
メータをリング状の特徴パターンバツフア8に一
時記憶しながら音節を切出して各音節の特徴をパ
ターン化して特徴パターンメモリ9に記憶する。
特徴パターンバツフア8は複数の音節を記憶する
ことができるように構成されている。音節セグメ
ンテーシヨン部7の処理は、中央処理装置(以下
CPUと言う)10からの命令により開始・停止
が制御されるように構成されている。 次に音節の認識処理T2が行なわれ、処理T3
で認識結果が選ばれる。すなわち、音節認識部1
1では、各音節の特徴パターンと、特徴標準パタ
ーンメモリ12に予め標準として記憶されている
すべての特徴標準パターンとのパターン距離計算
を行ない、類似頻度の高い順に候補を出す。同種
の音節名を持つ候補を統合し音節認識結果として
認識結果メモリ13に記憶する。 次に処理T4で音節認識結果の誤りを修正処理
し、処理T5で音節認識結果を導き出す。すなわ
ち音節認識部11内の修正処理部11aでは、言
語処理用辞書メモリ14に記憶した辞書を用いて
音節認識結果の誤りを自動的に修正する。あるい
は操作者自身がキーボード15によつて、入力音
声に対する認識候補から正しい候補を選択した
り、また誤り箇所を直接修正する場合もある。こ
のようにして確定された正しい結果は、処理T6
で漢字に変換されて文字列として出力される。 次に処理T7で自動学習処理が行なわれる。す
なわち音節認識部11内の学習処理制御部11b
では、確定文字列により認識結果を分析して更新
される学習情報(処理T8)を用いて、入力され
た各音節の特徴パターンを学習(特徴パターンを
用いて特徴標準パターンを更新することを言う)
するか否かを次のように判定して学習の制御を行
なう。 学習情報としては、音節正誤リングバツフア
16に記憶された音節毎の最近(たとえば過去3
回の入力に対しての)正/誤の時系列と、音節
全体正誤リングバツフア17に記憶された最近
(たとえば過去128回の音節の入力に対して)の
正/誤の時系列とが用いられる。 次に認識情況に基づく制御が行なわれる。すな
わち最近の正解音節平均認識率Rに応じて、
〔S1〕,〔S2〕,〔S3〕の3段階的に条件を設定し、
条件が満たされた場合学習される。 第1段階〔S1〕は、R(128)<80%のとき過去
3回(現在の結果も含む)の入力に対し1回以上
誤りがある音節の場合(誤り率ri(3)≧1/3)で
ある。 第2段階〔S2〕は、80%≦R(128)<85%のと
き、過去3回の入力に対し1回以上誤りがある場
合(誤り率ri(2)≧1/2)である。 第3段階〔S3〕は、R(128)≧85%のとき、現
在誤つた場合のみ(誤り率ri(1)≧1)である。 このような条件の下で、学習処理の更新部11
cでは、学習すると判定された音節について特徴
標準パターン12の中で最も悪いパターンすなわ
ち認識貢献度が最も低いパターンを検索し(処理
T10)を、その音節の特徴パターンで置換する
かその特徴パターンを用いて平均化の操作を行つ
てその特徴標準パターンの更新(処理T9)を終
了する。 なお、音声分析部6以外は、総てCPU10で
制御されている。 第3図は、11種の文章(1文章は平均650音節
からなる)を入力したとき、各文章毎の音節の平
均認識率と、学習された入力音節の個数の推移を
示したグラフである。ここでは2名の話者A,B
について測定した。ライン1は話者Aに関する
音節の認識率を示し、ライン2は話者Bに関す
る音節の認識率を示している。またライン3は
話者Bに関するパターン学習回数を示し、ライン
4は話者Aに関するパターン学習回数を示して
いる。認識率がAに比べて低いBの場合は、学習
した音節の個数が多い。文章を多く入力していく
と平均認識率が高くなつて学習音節数も減つてお
り学習の効果が現れている。また、第4文章を入
力したときの平均認識が非常に高いが学習は抑制
され、第5文章のときは平均認識率が低下して学
習が促進されている様子が分かる。このように学
習を抑制して入力の情況に追従して高認識率を維
持していることが理解される。 効 果 以上のように本発明によれば、入力環境の急
変、話者の生理的要因に基づく音質の変化、音声
ピツクアツプ系の設定の変化などに起因して音声
信号波形の変化により同一カテゴリの特徴パター
ンの不整合が起こり、急激に音声認識率が低下す
る場合があつても、このような音節認識情況の変
化を音節全体と各音節について検知して学習を制
御するため、この種の変動に対して比較的認識率
の回復が早く、一方十分認識率が高い場合には学
習を抑制するため、安定して高い認識率を維持で
きる。
【図面の簡単な説明】
第1図は本発明の一実施例の日本語音声入力装
置1の構成を示すブロツク図、第2図は日本語音
声入力装置1における自動学習の処理系を示す
図、第3図は11種の文章(1文章は平均650音節
からなる)を入力したとき、各文章毎の音節の平
均認識率と、学習された入力音節の個数の推移を
示したグラフである。 1……日本語音声入力装置、2……マイクロホ
ン、6……音声分析部、7……音節セグメンテー
シヨン部、8……特徴パターンバツフア、9……
特徴パターンメモリ、10……CPU、11……
音声認識部、11a……修正処理部、11b……
学習制御部、11c……更新部、12……特徴標
準パターンメモリ、13……認識結果メモリ、1
4……言語処理用辞書メモリ、15……キーボー
ド、16……音節正誤リングバツフア、17……
音節全体正誤リングバツフア。

Claims (1)

  1. 【特許請求の範囲】 1 入力された音声を予め登録された複数種類の
    音節の特徴標準パターンとの類似度計算によつて
    音節単位に認識し、その結果を辞書との照合もし
    くはキーボードなどの外部指示操作によつて修正
    して最終的な入力を得るようにした音声認識方式
    において、 認識基本単位である音節について音節別に入力
    毎の正解あるいは誤りの時系列を第1バツフアに
    記憶し、 音節全体の正解あるいは誤りの時系列を第2バ
    ツフアに記憶し、 入力時に入力された音節を用いて特徴標準パタ
    ーンを自動的に更新する場合、第1および第2バ
    ツフアの内容を読み取つて入力時点からさかのぼ
    つた最近の各音節の認識情況と音節全体の認識情
    況を求め、 各音節の認識情況と音節全体の認識情況とを用
    いて音節の学習の促進/抑制の制御を段階的に行
    うようにした音声認識方式。
JP61078822A 1986-04-05 1986-04-05 音声認識方式 Granted JPS62235991A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP61078822A JPS62235991A (ja) 1986-04-05 1986-04-05 音声認識方式
US07/034,060 US4908864A (en) 1986-04-05 1987-04-02 Voice recognition method and apparatus by updating reference patterns

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61078822A JPS62235991A (ja) 1986-04-05 1986-04-05 音声認識方式

Publications (2)

Publication Number Publication Date
JPS62235991A JPS62235991A (ja) 1987-10-16
JPH0556515B2 true JPH0556515B2 (ja) 1993-08-19

Family

ID=13672521

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61078822A Granted JPS62235991A (ja) 1986-04-05 1986-04-05 音声認識方式

Country Status (1)

Country Link
JP (1) JPS62235991A (ja)

Also Published As

Publication number Publication date
JPS62235991A (ja) 1987-10-16

Similar Documents

Publication Publication Date Title
US6735565B2 (en) Select a recognition error by comparing the phonetic
US7593849B2 (en) Normalization of speech accent
EP2308042B1 (en) Method and device for generating vocabulary entries from acoustic data
DE3778579D1 (de) Ausbildung von in einem spracherkennungssystem verwandten markov-modellen.
JP2005208643A (ja) ユーザ訂正を用いた自動音声認識学習のためのシステムおよび方法
JPS62239231A (ja) 口唇画像入力による音声認識方法
JPH04362699A (ja) 音声認識方法及び装置
JPH06110494A (ja) 発音学習装置
JPWO2017159207A1 (ja) 処理実行装置、処理実行装置の制御方法、および制御プログラム
JPH0556515B2 (ja)
JPH03208099A (ja) 音声認識装置及び方法
JP3112037B2 (ja) 音声認識装置
JP3353334B2 (ja) 音声認識装置
JP6991409B2 (ja) 情報処理装置、プログラム及び情報処理方法
JP3090204B2 (ja) 音声モデル学習装置及び音声認識装置
JP3400474B2 (ja) 音声認識装置および音声認識方法
JP2001005482A (ja) 音声認識方法及び装置
JP2005227555A (ja) 音声認識装置
JP2655902B2 (ja) 音声の特徴抽出装置
JPH0736481A (ja) 補完音声認識装置
JPH0119596B2 (ja)
JP2003022093A (ja) 音声認識方法および音声認識装置ならびに音声認識プログラム
JPH067349B2 (ja) 音声認識方式
JPH0434499A (ja) 発声法指示装置
JPH0573094A (ja) 連続音声認識方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees