JPH0160159B2 - - Google Patents

Info

Publication number
JPH0160159B2
JPH0160159B2 JP58031550A JP3155083A JPH0160159B2 JP H0160159 B2 JPH0160159 B2 JP H0160159B2 JP 58031550 A JP58031550 A JP 58031550A JP 3155083 A JP3155083 A JP 3155083A JP H0160159 B2 JPH0160159 B2 JP H0160159B2
Authority
JP
Japan
Prior art keywords
syllable
identification
rate
syllables
memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP58031550A
Other languages
English (en)
Other versions
JPS59157699A (ja
Inventor
Atsuo Tanaka
Tooru Ueda
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Basic Technology Research Association Corp
Original Assignee
Computer Basic Technology Research Association Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Basic Technology Research Association Corp filed Critical Computer Basic Technology Research Association Corp
Priority to JP58031550A priority Critical patent/JPS59157699A/ja
Publication of JPS59157699A publication Critical patent/JPS59157699A/ja
Publication of JPH0160159B2 publication Critical patent/JPH0160159B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 <技術分野> 本発明は音声入力装置における音声登録方法の
改良に関するものである。
<背景技術> 一般に大語彙の音声認識を行なう場合、従来の
ように単語単位で音声を発声して、その音声を登
録していたのでは膨大な音声を全て発声しなけれ
ばならず、その労力も相当なものになる。また語
彙数の増大による単語間の誤りも顕著になり実用
的でなくなつて来る問題点がある。
従つて、大語彙の音声認識を考えた場合、音声
を詳細に分析し、できる限り音声の特徴を引き出
す必要がある。そこで音声を単語単位でなく、音
素や音節といつたより微少時間の単位に分割し
て、その単位で識別を行なうことが提案されてい
る。
また、音素や音節は数十から高々数百の種類で
あるので、少ない音声の登録で大語彙の音声認識
ができ、有効であると考えられる。
しかしながら、各音素や音節は発声毎にばらつ
き、発声の仕方の違い、前後の音声の影響等のた
めに多種多様な変形を受けるため、音声の登録も
それらの影響を予め考慮しておく必要がある。
そのため、ある一つの音素や音節に対して、予
め変形を受けた多数の音声を登録しなくてはなら
なくなる。このことは処理量の増大を招き、登録
すべき音声の数も増大してしまうため、音素や音
節単位で識別を行なう利点が失なわれる。
一方、各音素や音節は全て同じ出現頻度で現わ
れることがなく、また識別率も全て同じではな
い。出現頻度が高く識別率の低い音素や音節に対
してはより注意深く取り扱う必要があるが、出現
頻度の極めて少ないものに対してはより多くの処
理を行なわなくてもよい。
音素や音節の出現頻度や識別率を考慮して音素
や音節の登録または再登録を行なうことにより、
全体としての性能を維持したままで、より少ない
処理量で識別を行なえる可能性がある。
<目 的> 本発明は上記のような観点でなされたものであ
り、より少ない数の音声の登録で、高い認識性能
を維持することが可能な音声登録方法を提供する
ことを目的とするものである。
<実施例> 以下、図面を参照して本発明を詳細に説明す
る。
第1図は本発明の音声登録方法を実施した音声
入力装置の一例を示すブロツク構成図である。
第1図において、1は音節音声識別部であり、
該音節音声識別部1では区切つて発声された単音
節や連続音声から抽出された音節部の認識を行な
い、その音節の識別結果を出力して、判定結果処
理部2へ送る。上記音節音声識別部1は音節の標
準パターンを格納するメモリ11を有し、入力さ
れ検出された音節音声から作成された入力パター
ンと標準パターンとのパターンマツチングを基本
として音節識別を行なう。
判定結果処理部2は上記音節音声識別部1から
送られて来る識別結果を記憶する識別結果記憶メ
モリ21を有し、該メモリ21に記憶された内容
にもとずいて、一旦、音節、単語、文節、文章等
の単位で音節符号を表示部3へ送る。上記表示部
3では適当なフオーマツトでこれらの文字列を表
示することになる。
オペレータは表示部3に表示された識別結果を
見て、どの音節の識別結果が誤つたかを見つけ、
誤識別結果指示手段4を構成している手動スイツ
チ、キーボードあるいはライトペン等の手動の入
力操作によつて、判定結果処理部2に識別の誤つ
た音節を指定するコードや番号を入力する。
一方、上記判定結果処理部2内に設けられた音
節出現回数計数手段22及び誤り回数計数手段2
3によつて識別されてメモリ21に記憶された各
音節の出現回数のカウント数がインクリメントさ
れると共に、誤識別結果指示手段4によつて指示
された音節の誤り回数のカウント数がインクリメ
ントされ、その結果が各音節毎の出現回数記憶メ
モリ24及び誤り回数記憶メモリ25に記憶され
る。
また判定結果処理部2は該処理部2内の変換手
段26によつて上記メモリ24及び25に記憶さ
れた各音節毎の出現回数計数値及び誤り回数計数
値から各音節の出現率と識別率を求めて音節出現
率表記憶メモリ51及び音節識別率表記憶メモリ
52の内容を修正する。
具体的には、例えばメモリ24に記憶された各
音節の出現回数のカウント数の総和を求めてか
ら、この総和で各音節の出現回数のカウント数を
割つた値を各音節の出現率ai(iは音節の種類を
表わす番号)とし既に音節出現率表記憶メモリ5
1に記憶されている音節iの出現率biと例えば
(kbi+ai)/(k+1)なる演算(kは適当な
値、例えば1〜10のある値)によつて得られる値
をbiと置き換えてメモリ51に記憶させるように
変換手段26が構成されている。同様に誤り回数
に対しても、同様の処理が実行され、音節出現回
数の総和で各音節の誤り回数のカウント数を割つ
た値を各音節の誤り率diとし、既に音節識別率表
記憶メモリ52に記憶されている音節iの誤り率
eiと例えば(hei+di)/(h+1)なる演算(h
は適当な値)によつて得られる値をeiと置き換え
てメモリ52に記憶させる。
このようにして、最近の頻度情報(出現、誤
り)を音節出現率表及び音節識別率表に盛り込ん
でいくことになる。
以上のようにして各音節の出現率及び誤り率を
頻度や度数の形で判定結果処理部2内に記憶して
おいて適宜(例えば入力音節数がある回数になつ
た時)出現率と識別率に変換し、処理部2内の頻
度や度数はリセツトされる。
なお、メモリ51及び52内の記憶内容の修正
を各音節の処理が終る毎に行なうようにしてもよ
い。
6は登録判定部であり、該登録判定部6は上記
メモリ51及び52に記憶されている出現率表及
び識別率表にもとずいてメモリ11に登録されて
いる標準パターンの内の変更を要するものを判定
して、その結果を判定結果処理部2へ入力して、
表示部3に再登録すべき音節を表示すると共にメ
モリ11内の所望の音節に対する標準パターンの
書き換えを可能な状態にする。
上記登録判定部6の判定動作は各音節に対する
誤り率eiがある閾値Eを越えたことを判断して行
なわれ、この結果として表示部3に音節iの文字
を表示する。
なお、上記閾値Eは出現率biの値に応じて複数
個設定されることが望ましく、例えば出現率B1
B2、B3(B1>B2>B3)とした場合、bi>B1の音
節に対してはei>E1、B1>bi>B2の音節に対して
はei>E2、B2>bi>B3の音節に対してはei>E3
(E1<E2<E3)の場合に再登録を指示するように
成せば、出現率のより高い音節についてはより低
い誤り率の場合にも再登録指示が成されることに
なる。
オペレータは表示部3に表示される音節文字を
確認して登録のやり直しをするか否かを判断する
ことになる。
なお、初期の登録の際には、予め別の話者か標
準的なものとして得られている出現率表や識別率
表に基いて各音節の標準パターンの個数を算定す
ることになる。
また連続音声でも文の初めや単語の語頭では音
節音声の先端部は無音区間の後に続いて現われ
る。従つて、同じ音節でも発声状況によつて標準
パターンが大変異なつたものとなり、音節の標準
パターンとしては音声区間中から抽出したもの
と、無音区間の後から抽出したものが必要とな
る。その他の調音結合による効果も考えれば、一
つの音節に対して多種の標準パターンが必要であ
る。
再登録の際には、一つの音節のどの発声条件で
の音声の登録が必要であるかの情報も含めて登録
判定部6より再登録すべき音節情報を判定結果処
理部2に送る。
ある音節の出現率が高くてしかも識別率が悪い
場合には再登録が急がれる。このような場合、判
定結果処理部2はこの音節の文字を表示部3で区
別表示させるように指示してもよい。例えばデイ
スプレイではその片隅にその文字を点滅させた
り、異なる色で表示させたりするように成せば良
い。
以上に述べた実施例は音節単位に識別の誤りを
指定できる装置に適用した場合であるが、音節単
位の識別で単語や文節等を認識する場合、音節の
誤りを指定できないことがある。
例えば、単語認識の場合、単語の認識結果をひ
らがなやカタカナの文字列で表示するよりも漢字
で表示した方が分かりやすい。従つて、音節単位
で誤りを指定するよりも単語単位で誤りを指定し
た方が全体の処理効率が高くなることが起こる。
このような場合の処理方法の一例を以下に示
す。
今、「たまがわ」と発声した音声入力の識別結
果として第2図aで示すように音節「た」に対し
て音節候補「か」、「ぱ」、「た」が得られたとす
る。
なお、音節文字の下に示されている数値はその
候補の信頼性に関する量を表わしたものである。
この値は信頼性を表わす量と尤度、類似度、距
離、第1候補に対する距離比等を用いることがで
きる。ここでは、入力音節のパターンと音節標準
パターンとのユークリツド距離を例に示す。各音
節候補の信頼度は距離が大きくなるに従つて下が
る。
単語候補に対する距離を各音節候補の距離の和
で表わし、信頼度の高い順に並べると第2図bの
ようになる。入力される単語を地名に限り、単語
辞書(後述)に「かまがわ」や「ぱまがわ」がな
ければ地名単語として第2図cのようなものが候
補として残ることになる。
音節単位の識別で単語を認識する場合には、第
3図に示すような音節列候補作成部27、単語辞
書28及び辞書照合部29の機能手段を判定結果
処理部2は備えている必要がある。ここで音節音
声識別部1からは第2図aのように信頼度に関す
る量と同時に音節候補が出力される。音節列候補
作成部27は第2図bのように信頼度の順に音節
列候補を作成して辞書照合部29へ送る。辞書照
合部29は音節列候補が単語辞書28に有るかど
うかを検出し、なければ除外して、単語辞書に有
つた単語候補を表示部3へ送る。
文章や文節の認識の場合にも、辞書や照合のみ
ならず複雑な処理を必要とするが、いずれにして
も音節候補から文節候補、文章候補を表示部3に
出力することになる。
第2図cに示すように「たまがわ」と発声した
にもかかわらず表示された第1単語候補は「神奈
川」となつたとすると、この場合第2、第3候補
まで表示させて、正しい単語は「玉川」であるこ
とを指定すべく手動操作で判定結果処理部2に情
報を送れば音節候補(第2図aから「た」を
「か」に誤つたということが分かり識別の正誤の
計数が誤り回数計数手段23で行なわれる。
しかし、実用的見地から、第1単語候補が誤つ
た場合には、すみやかに発声し直した方がよい事
がある。この場合、「神奈川」が誤りであること
は分かるが、「か」「な」「が」「わ」のどの音節が
誤つたかは分からない。これらの各音節の頻度や
正誤の度数を計数からはぶくことが妥当な場合も
あるが、計数を要する場合には問題である。この
ような場合、誤つた音節列(今の場合「かまが
わ」)を一旦記憶しておき、発声し直して正しい
と判定された音節列(今の場合「たまがわ」)と
比較すれば、「た」を「か」と誤つたことが分か
り頻度や正誤の度数に加算することができる。
連続音声から音節部を検出して音節毎に識別す
る方法よりも、区切つて発声された音節の識別の
方が一般に識別率が高いと考えられる。従つて、
連続音声から音節部を検出して音節毎に識別して
いく方法で、識別を誤つた音節を表示部のカーソ
ルを移動して、例えばカナ文字列の相当する位置
にもつていつて、その音節のみを発声して識別さ
せることによつて修正を行うことも考えられる。
このとき音声は区切り発声の音節音声になつてい
るので識別は比較的容易である。この場合、同じ
音節を再び同じ音節と誤れば、自動的に別の音節
候補に修正することによつて、一つのカナ文字を
修正するのに数多くの発声は避けられる。
これらの動作を行うための装置の構成例を第4
図に示す。
この第4図に示した装置の構成動作を前述の第
2図に示した例を用いて説明する。
表示部3には最初の認識結果「神奈川」が表示
されているが、誤りであることをキーボード41
で指定して、「金沢」と表示し直し、更に誤りを
指定した後「玉川」と表示される。このときの単
語項目の辞書はメモリ28に格納されている。音
節識別結果の文字列「か」「ま」「が」「わ」はメ
モリ71に記憶されている。
メモリ72は各音節に対して出現回数と誤つた
回数を格納している。第2図の例の場合、正回答
が「玉川」であると分つた後(次の発声を行うと
同時に正しい回答であると判断することもでき
る)、音節照合部20の照合結果によりメモリ7
2の中の「ま」「が」「わ」の各音節の出現回数の
カウント数をインクリメントし、「か」の音節の
誤り回数のカウントをインクリメントする。
このようにしてメモリ72は各単語の認識毎に
更新されていく。話者が適当な時期にキーボード
から指定すればメモリ72の内容を変換手段26
によつて処理した後にメモリ31及び32に記憶
された音節出現率表及び音節識別率表をこの処理
された内容を用いて更新することができる(この
処理を表の更新と呼ぶ)。
この処理の方法としては例えば、一旦、各音節
の出現回数のカウント数の総和を求めてからこの
総和で各音節の出現回数のカウント数を割つた値
を各音節の出現率ai(iは音節を表わす番号)と
し、既に音節出現率表にある音節iの値biと例え
ば(kbi+ai)/(k+1)なる演算(kは適当
な値、例えば、1〜10)によつて得られる値をbi
と置き換える。これによつて、最新の頻度情報を
音節出現率表にもり込んでいくことができる。同
様に誤り回数に対しても、このような処理を行う
ことができる。各音節に対する誤り率(音節識別
率表に格納されている)をeiとする。
このeiがある閾値を越えたことを登録判定部6
が判定すると、判定結果処理部2を介して表示部
3に音節iの文字を表示する。従つて、登録のや
り直しをするかどうかを話者(使用者)が判断で
きるようになる。
各音節の出現率は必ずしも一つにする必要はな
く、音節当り標準パターンを5個持つような場合
には各標準パターンについてカウンタやメモリを
もつように成せばよい。
各音節標準パターンは同様の発声状態で得られ
たものとは限らず、例えば5個の標準パターンの
内2個は区切り発声の音節音声から作られてい
て、残りの3個は単語音声中の音節部から作られ
ていることもある。この場合、音節出現率表、音
節識別率表及びメモリ72は各音節毎に値を記憶
するのではなくて、各標準パターン毎に値を記憶
している。
第2図の例で、第1音節「た」の音声は「か」
の3番目の標準パターンとの類似度が最も大きか
つて誤つたとするとき「た」の出現回数をインク
リメントして「か」の3番目の標準パターンに対
応する誤り数のカウントをインクリメントする。
表の更新の結果「か」の3番目の標準パターンに
対応する音節識別率表の値eiがある閾値を越えた
場合にはこの「か」の3番目の標準パターンが作
成された音声と同じ発声状態で再登録する必要が
ある。例えばその音声が「いか」という音声の
「か」の部分から作成されたものであれば、表示
部に例えば「いか:再登録要」と表示することが
できる。この場合、音節音声識別部内の標準パタ
ーンの各パターン作成状態を記憶するメモリをメ
モリ72に付け加えておく必要がある。
以上のようにして再登録の必要性のある音節が
音節の出現頻度及び誤り度数にもとずいて表示出
力されることになる。
<効 果> 以上の如く、本発明によれば、音声入力実行時
に得られた音節の識別結果の正誤を指示し、この
音節の識別結果及び正誤の指示にもとずいて各音
節の出現頻度及び誤り度数を求め、この求められ
た各音節の出現頻度及び誤り度数に関連して登録
あるいは再登録すべき音節を決定するように成し
ているため、全体としての性能を維持したまま
で、より少ない処理量で再登録を必要とする音節
を効率よく見出して、再登録処理することが可能
となる。
【図面の簡単な説明】
第1図は本発明を実施した音声入力装置の一例
を示すブロツク図、第2図は音声認識例の説明に
供する図、第3図は判定結果処理部2の一例を示
すブロツク図、第4図は本発明を実施した装置の
他の一例を示すブロツク図である。 1……音節音声識別部、2……判定結果処理
部、22……出現回数計数手段、23……誤り回
数計数手段、24……出現回数記憶メモリ、25
……誤り回数記憶メモリ、3……表示部、4……
誤識別結果指示手段、51……音節出現率表記憶
メモリ、52……音節識別率表記憶メモリ、6…
…登録判定部。

Claims (1)

  1. 【特許請求の範囲】 1 音声入力実行時に得られた音節の識別結果の
    正誤を指示し、前記音節の識別結果及び正誤の指
    示に基づいて各音節毎に出現率と誤り率とを求
    め、 一方、予め前記出現率の大きさに対応させて前
    記誤り率のしきい値を夫々設定しておき、 前記音節の誤り率が当該音節の出現率に対応す
    る前記誤り率のしきい値より大きいと判定されれ
    ば当該音節の再登録を促すように成したことを特
    徴とする音声登録方法。
JP58031550A 1983-02-25 1983-02-25 音声登録方法 Granted JPS59157699A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58031550A JPS59157699A (ja) 1983-02-25 1983-02-25 音声登録方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58031550A JPS59157699A (ja) 1983-02-25 1983-02-25 音声登録方法

Publications (2)

Publication Number Publication Date
JPS59157699A JPS59157699A (ja) 1984-09-07
JPH0160159B2 true JPH0160159B2 (ja) 1989-12-21

Family

ID=12334293

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58031550A Granted JPS59157699A (ja) 1983-02-25 1983-02-25 音声登録方法

Country Status (1)

Country Link
JP (1) JPS59157699A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004037998A (ja) 2002-07-05 2004-02-05 Denso Corp 音声制御装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57105798A (en) * 1980-12-23 1982-07-01 Sanyo Electric Co Device for identifying sound

Also Published As

Publication number Publication date
JPS59157699A (ja) 1984-09-07

Similar Documents

Publication Publication Date Title
US5787230A (en) System and method of intelligent Mandarin speech input for Chinese computers
US7974843B2 (en) Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
US6067520A (en) System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models
US5712957A (en) Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists
US5220639A (en) Mandarin speech input method for Chinese computers and a mandarin speech recognition machine
CN101432801B (zh) 语音识别词典制作支持系统、语音识别词典制作支持方法
US8219386B2 (en) Arabic poetry meter identification system and method
JPH0261700A (ja) 音声認識装置
JP2004177551A (ja) 音声認識用未知発話検出装置及び音声認識装置
KR20220036239A (ko) 딥러닝 기반의 발음 평가 시스템
JPH0160159B2 (ja)
EP0987681B1 (en) Speech recognition method and apparatus
JP5596869B2 (ja) 音声認識装置
JP2975542B2 (ja) 音声認識装置
KR100404852B1 (ko) 언어모델적응기능을가진음성인식장치및그제어방법
JP2000276189A (ja) 日本語ディクテーションシステム
JPH08248979A (ja) 音声認識装置
Watanabe Syllable recognition for continuous Japanese speech recognition
JPH07295584A (ja) 発声機能を有する手書き文字認識装置
JPH0736481A (ja) 補完音声認識装置
JPH0415960B2 (ja)
JP2008249761A (ja) 統計的言語モデル生成装置及び方法、及びこれを用いた音声認識装置
JPH0627985A (ja) 音声認識方法
JPS6180298A (ja) 音声認識装置
JPS61139828A (ja) 言語入力装置