JP2664785B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2664785B2
JP2664785B2 JP1289610A JP28961089A JP2664785B2 JP 2664785 B2 JP2664785 B2 JP 2664785B2 JP 1289610 A JP1289610 A JP 1289610A JP 28961089 A JP28961089 A JP 28961089A JP 2664785 B2 JP2664785 B2 JP 2664785B2
Authority
JP
Japan
Prior art keywords
sound
syllable
long
unit
prompting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP1289610A
Other languages
English (en)
Other versions
JPH03149598A (ja
Inventor
伸 神谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP1289610A priority Critical patent/JP2664785B2/ja
Publication of JPH03149598A publication Critical patent/JPH03149598A/ja
Application granted granted Critical
Publication of JP2664785B2 publication Critical patent/JP2664785B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 <産業上の利用分野> この発明は、音韻認識や音節認識に基づく音声認識装
置の改良に関する。
<従来の技術> 従来、音節認識に基づく特定話者用の音声認識装置と
して、第3図に示すようなものがある。この音声認識装
置において、特徴抽出部1に入力された音声信号は、A/
D変換されてパワーおよびケプストラム係数等の特徴パ
ラメータが計算される。そしてさらに、この特徴パラメ
ータからパワー変化やスペクトル変化が算出される。そ
うすると、音節切出部2ではパワー変化やスペクトル変
換の変化点に基づいて音節境界候補を求める。音声の登
録時においては、特徴抽出部1によって算出された音節
切出部2によって音節毎に切り出された特徴パラメータ
の時系列が、音節登録部3によって音節標準パターン・
メモリ4に標準パターンとして登録される。一方、音声
の認識時においては、音節切出部2によって音節毎に切
り出された入力音声の特徴パラメータの時系列(特徴パ
ターン)と、音節標準パターン・メモリ4に登録された
標準パターンとのマッチングを音節認識部5によって実
施し、音節認識部5はマッチングの結果得られた音節ラ
チスを出力する。
長音・促音判定部6では、音節切出部2で切り出され
た音節区間や無音区間の長さを平均音声長と比較して、
音節認識部5によって認識された音節や無音が長音や促
音であるか否かの判定を行う。言語処理部7は、長音や
促音が挿入された音節ラチスと単語辞書メモリ8内の単
語辞書とを照合して、文法的に意味のある単語候補や文
節候補を生成する。そして、この生成された候補の中か
ら結果選択部10によって選択された候補が表示部11に表
示される。その際に、ユーザは表示部11に表示された候
補を見てその表示候補が正しいか否かを判断し、表示候
補を認識結果として受け入れるか、あるいは次の候補を
表示部11に表示させるか、あるいは表示候補を取り消し
て言い直すか等の指示をキーボード部9から入力する。
そうすると、このキーボード部9からの指示に従って、
長音・促音判定部6の判定結果を変更したり、結果選択
部10によって次の表示候補が選択されたりする。
<発明が解決しようとする課題> しかしながら、上記従来の音声認識装置においては、
次に説明するように言い直しの際に対処できないという
問題がある。
すなわち、第4図は通常の発声速度で「あたま」と発
声された場合における音節区間と無音区間との一例を示
す。このような音声が入力された場合には、音節切出部
2によって切り出された各区間長は平均音節長と比較し
て長くないので、長音・促音判定部6において長音や促
音は検出されない。ここで、例えば音節切出部2におけ
る音節切り出しの誤りや音節認識部5におけるマッチン
グ誤り等によって正しい認識結果が得られなかったとす
る。その場合、ユーザはキーボード部9の“取消”キー
を押して認識結果を消去し、「あたま」と再発声する。
そして、何度言い直しても正しい認識結果が得られない
場合には、ユーザは一音節ずつ区切って発声することが
多い。
第5図は一音節毎に区切って「あ・た・ま」とゆっく
り発声された場合(以下、このような発声を音節区切り
発声という)における音節区間と無音区間との一例を示
す。このように音節区切り発声によってゆっくり発声さ
れた場合には、音節切出部2による音節の切り出しは正
しく行われる。しかしながら、各区間長さが平均音節長
より十分長くなるので、長音・促音判定部6によって多
くの長音や促音が検出されてしまい、音節認識部5によ
る認識結果は例えば「ああったあっまあ」となる。
すなわち、何度も音節区切り発声によってゆっくり言
い直しても正しく認識されないという問題がある。
そこで、この発明の目的は、極めて認識が困難な単語
や文節を入力する最に、音節区切り発声によって入力す
ることが可能な音声認識装置を提供することにある。
<課題を解決するための手段> 上記目的を達成するため、請求項1に係る発明の音声
認識装置は、入力された音声信号の特徴パターンと標準
パターン・メモリに格納された標準パターンとに基づい
て音声を認識する際に,長音・促音判定部で長音および
促音を判定する音声認識装置において、上記長音・促音
判定部による判定結果を無効にすることを指示する指示
手段と、上記指示手段からの指示を受けて,上記長音・
促音判定部による長音および促音の判定結果の時系列が
「長音」−「促音」−「長音」である場合に,上記判定
結果を無効にする長音・促音判定無効手段を備えたこと
を特徴としている。
<作用> 音声信号が入力されると、この入力された音声信号の
特徴パターンと標準パターン・メモリに格納された標準
パターンとに基づいて入力音声が認識される。さらに、
長音・促音判定部によって長音および促音が判定され
る。そして、指示手段によって、上記長音・促音判定部
による判定結果を無効にすることが指示された場合に
は、この指示を受けた長音・促音判定無効手段によっ
て、上記長音・促音判定部による長音および促音の判定
結果の時系列が「長音」−「促音」−「長音」でいるか
否かが判定される。そして、上記時系列であると判定さ
れた場合には、上記判定結果が無効にされる。
したがって、音節区切り発声によって言い直しを行う
際に、予め上記指示手段によって長音・促音判定部の判
定結果を無効にすることを指示しておけば、音節区切り
発声に起因する長音・促音判定部の判定結果が無効にさ
れて、長音・促音判定部による誤判定が避けられる。
<実施例> 以下、この発明を図示の実施例により詳細に説明す
る。
第1図はこの発明の音声認識装置のブロック図であ
る。この音声認識装置における各部の動作は、第3図に
示した従来の音声認識装置と同じである。すなわち、入
力された音声信号は特徴抽出部21によって特徴パラメー
タが求められ、この特徴パラメータに基づいて音節切出
部22によって音節境界候補が求められて音節に切り出さ
れる。そして、この入力音声の音節毎の特徴パターンと
登録時に音節標準パターン・メモリ24に登録された音節
毎の標準パターンとのマッチングが音節認識部25によっ
て実施され、認識結果の音節ラチスに対する言語処理が
言語処理部27によって行われて単語候補あるいは文節候
補が得られる。そして、キーボード部29からの指示に従
って結果選択部30によって選択された候補が表示部31に
表示される。
その際に、長音・促音判定部26によって長音や促音が
判定されるのであるが、その際に実行される長音・促音
判定処理動作について詳細に説明する。
第2図は、上記長音・促音判定部26によって実行され
る長音・促音判定処理動作のフローチャートである。
ここで、 I:切出区間の数 S(i):i番目の切出区間の種類(“音節”と“無音”
の2種類) L(i):i番目の切出区間の長さ(フレーム数) LM:平均音節長(フレーム数) CS(i):i番目の切出区間が長音または促音ならば“1"
でありそれ以外は“0"である数 key:最後に押されたキーの種類(“正解",“次候補”お
よび“取消”の3種類 a,b:定数 ステップS1で、iが“1"にセットされる。
ステップS2で、CS(i)が“0"にセットされる。
ステップS3で、i番目の切出区間が“音節”であるか
否かが判別される。その結果“音節”であればステップ
S4に進み、そうでなければステップS6に進む。
ステップS4で、L(i)>a×LMであるか否かが判別
される。その結果L(i)>a×4LMであればステップS
5に進み、そうでなければステップS5をスキップしてス
テップS8に進む。
ステップS5で、CS(i)に“1"がセットされる。
すなわち、切出区間が音節であって、その切出区間長
が平均音節長に基づく所定フレーム数より長い場合に
は、音節認識部25によって認識された音節は長音である
と判定するのである。
ステップS6で、L(i)>b×LMであるか否かが判別
される。その結果L(i)>b×4LMであればステップS
7に進み、そうでなければステップ7をスキップする。
ステップS7で、CS(i)に“1"がセットされる。
すなわち、切出区間が無音であって、その切出区間長
が平均音節長に基づく所定フレーム数より長い場合に
は、音節認識部25によって認識された無音は促音である
と判定するのである。
ステップS8で、i=Iであるか否かが判別される。そ
の結果i=IであればステップS10に進み、そうでなけ
ればステップS9に進む。
ステップS9で、iをインクリメントしてステップS2に
戻り、次の切出区間に対する処理を実行する。
上記ステップS9までは、従来の音声認識装置における
長音・促音判定処理動作と同じである。ステップS10以
降はこの発明に係る処理であり、指示手段からの指示に
基づいて、上述のようにして得られた長音あるいは促音
の判定結果を無効にする長音・促音判定無効処理であ
る。
ステップS10で、キーボード部29において最後に押さ
れたキーの種類が“取消”キーであるか否かが判別され
る。その結果“取消”キーであればステップS11に進
み、そうでなければ長音・促音判定処理動作を終了す
る。
すなわち、長音・促音判定部26に対して判定結果を無
効にすることを指示するための指示手段を“取消”キー
で構成するのである。
ステップS11で、S(1)が“音節”であり、かつCS
(1)=1であるか否かが判別される。その結果S
(1)が“音節”でありCS(1)=1であればステップ
S12に進み、そうでなければ長音・促音判定処理動作を
終了する。
ステップS12で、S(2)が“無音”であり、かつCS
(2)=1であるか否かが判別される。その結果S
(2)が“無音”でありCS(2)=1であればステップ
S13に進み、そうでなければ長音・促音判定処理動作を
終了する。
ステップS13で、S(3)が“音節”であり、かつCS
(3)=1であるか否かが判別される。その結果S
(3)が“音節”でありCS(3)=1であればステップ
S14に進み、そうでなければ長音・促音判定処理動作を
終了する。
ステップS14で、iに“1"がセットされる。
ステップS15で、CS(i)に“0"がセットされる。
ステップS16で、i=Iであるか否かが判別される。
その結果i=IでなければステップS17に進み、そうで
なければ長音・促音判定処理動作を終了する。
ステップS17で、iがインクリメントされてステップS
15に戻る。
こうして、“取消”キーが押された後に入力された音
声の認識結果から長音および促音が取り除かれるのであ
る。
すなわち、この発明にかかる長音・促音判定処理動作
においては、キーボード部29の“取消”キーを押すこと
によって、それ移行に入力された音声の認識結果の時系
列における1番目の切出区間〜3番目の切出区間が「長
音」−「促音」−「長音」の時系列である場合(すなわ
ち、音節区切り発声であると見なされる場合)には長音
・促音フラグCS(i)をリセットするのである。こうす
ることによって、“取消”キーを押してから入力された
音節区切り発声による音声に対しては、長音・促音判定
結果を無効にするのである。
以下、音節区切り発声によって「あ・た・ま」が入力
された場合を例に、上述の長音・促音判定処理動作を具
体的に説明する。キーボード部29における“取消”キー
が押された後、音節区切り発声によって「あ・た・ま」
と発声される。そうすると、音節切出部22によって第5
図に示すような切出区間1〜切出区間5の5個の切出区
間に切り出され、音節認識部25によって各切出区間に対
する認識処理が実行される。その結果、切出区間1は音
節「あ(音節1)」と認識され、切出区間2は無音(無
音1)と認識され、切出区間3は音節「た(音節2)」
と認識され、切出区間4は無音(無音2)と認識され、
切出区間5は音節「ま(音節3)」と認識される。そし
て、長音・促音判定部26による長音・促音判定処理動作
に入る。
初期設定(ステップS1,ステップS2)した後、切出区
間1は“音節”であって所定時間長(平均音節長LM×
a)より長い(音節区切り発声によってゆっくり発声さ
れた)ので長音であると判定される(ステップS3および
ステップS4)。そして、長音・促音フラグCS(1)に
“1"がセットされる(ステップS5)。次に、切出区間2
には“無音”であって所定時間長(平均音節長LM×b)
より長いので促音であると判定される(ステップS3およ
びステップS6)。そして、長音・促音フラグCS(2)に
“1"がセットされる(ステップS7)。以下同様にして、
切出区間3および切出区間5は長音であると判定されて
長音・促音フラグCS(3)およびCS(5)に“1"がセッ
トされる。また、切出区間4は促音であると判定されて
長音・促音フラグCS(4)“1"がセットされる。この結
果、切出区間1の認識候補は「ああ」、切出区間2の認
識候補は「っ」、切出区間3の認識候補は「たあ」、切
出区間4の認識候補は「っ」、切出区間5の認識候補は
「まあ」となるのである。
ここで、キーボード部29の“取消”キーが押されてい
るので(ステップS10)、切出区間1,切出区間2および
切出区間3の内容が調べられる。その結果、音節区間1
〜音節区間3は「長音(ああ)」−「促音(っ)」−
「長音(たあ)」の時系列になっているので(ステップ
S11,ステップS12およびステップS13)、総ての切出区間
(切出区間1〜切出区間5)の長音・促音フラグCS
(i)に“0"をセットする。この結果、切出区間1の認
識候補は「あ」、切出区間2の認識候補は「無音」、切
出区間3の認識候補は「た」、切出区間4の認識候補は
「無音」、切出区間5の認識候補は「ま」と修正される
のである。
したがって、当初の認識候補「ああったあっまあ」の
長音と促音とが自動的に取り除かれて、認識候補は「あ
たま」に変更されるのである。この場合、「あたま」は
音節区切り発声によってゆっくり発声されているので音
節切出部22によって正しく音節が切り出され、入力音声
が正しく認識されるのである。
その際に、例えば「ぴったり」のように2音節目に促
音を含む単語や文節を音節区切り発声すると必要な促音
も自動的に取り除かれて、認識候補は「ぴたり」となっ
てしまう。そこで、このような場合には「ぴ・つ・た・
り」と音節区切り発声すればよい。そうすることによっ
て認識候補「ぴったり」が得られが、後に言語処理部27
における言語処理によって認識候補「ぴつたり」を「ぴ
ったり」に変換するようにすれば良いのである。
上述のように、本実施例においては、単語や文節を音
声入力した際に音節認識部25によって正しい認識結果が
得られない場合には、キーボード部29の“取消”キーを
押す。そうした後、音節区切り発声によって上記単語あ
るいは文節を再度入力する。そうすると、長音・促音判
定部26は、音節区切り発声における認識候補に含まれる
長音あるいは促音を所定の手順によって自動的に除去す
るようにしている。したがって、音節区切り発声による
認識結果に不必要な長音や促音が含まれることがなく、
音節区切り発声によってゆっくり発声された単語や文節
が正しく認識されるのである。
上記実施例においては、音節認識部25による音節認識
結果に基づいて音声を認識するようにしているが、この
発明は音韻認識結果に基づいて音声を認識する音声認識
装置に用いてもよい。
この発明における長音・促音判定部26による長音・促
音判定処理のアルゴリズムは本実施例に限定されるもの
ではない。
<発明の効果> 以上より明らかなように、請求項1に係る発明の音声
認識装置は、長音・促音判定部,指示手段および長音・
促音判定無効手段を備えて、上記指示手段による指示を
受けて、上記長音・促音判定無効手段によって、上記長
音・促音判定部による長音および促音の判定結果の時系
列が「長音」−「促音」−「長音」である場合に上記判
定結果を無効にするようにしたので、言い直しを行う場
合には、予め上記指示手段によって上記長音・促音判定
部による長音あるいは促音の判定結果を無効にするよう
に指示しておけば、音節区切り発声によってゆっくり発
声しても不必要な長音および促音が付加されず、音節区
切り発声により言い直しにも対処できるのである。
したがって、この発明によれば、極めて認識が困難な
単語や文節を入力する際に、音節区切り発声によって言
い直しを行って音韻あるいは音節の切り出しを確実にし
て、正しく発声を認識することができる。
【図面の簡単な説明】
第1図はこの発明の音声認識装置における一実施例のブ
ロック図、第2図は第1図における長音・促音判定部に
よる長音・促音判定処理動作のフローチャート、第3図
は従来の音声認識装置のブロック図、第4図は通常に発
声された場合の切出区間の一例を示す図、第5図は音節
区切り発声された場合の切出区間の一例を示す図であ
る。 21……特徴抽出部、22……音節切出部、 23……音節登録部、 24……音節標準パターン・メモリ、 25……音節認識部、26……長音・促音判定部、 27……言語処理部、28……単語辞書メモリ、 29……キーボード部、30……結果選択部、 31……表示部。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】入力された音声信号の特徴パターンと標準
    パターン・メモリに格納された標準パターンとに基づい
    て音声を認識する際に、長音・促音判定部で長音および
    促音を判定する音声認識装置において、 上記長音・促音判定部による判定結果を無効にすること
    を指示する指示手段と、 上記指示手段からの指示を受けて、上記長音・促音判定
    部による長音および促音の判定結果の時系列が「長音」
    −「促音」−「長音」である場合に、上記判定結果を無
    効にする長音・促音判定無効手段を備えたことを特徴と
    する音声認識装置。
JP1289610A 1989-11-07 1989-11-07 音声認識装置 Expired - Fee Related JP2664785B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1289610A JP2664785B2 (ja) 1989-11-07 1989-11-07 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1289610A JP2664785B2 (ja) 1989-11-07 1989-11-07 音声認識装置

Publications (2)

Publication Number Publication Date
JPH03149598A JPH03149598A (ja) 1991-06-26
JP2664785B2 true JP2664785B2 (ja) 1997-10-22

Family

ID=17745470

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1289610A Expired - Fee Related JP2664785B2 (ja) 1989-11-07 1989-11-07 音声認識装置

Country Status (1)

Country Link
JP (1) JP2664785B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4322785B2 (ja) 2004-11-24 2009-09-02 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
JP5895501B2 (ja) * 2011-12-14 2016-03-30 三菱電機株式会社 音声認識装置および音声認識方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58195900A (ja) * 1982-05-11 1983-11-15 電子計算機基本技術研究組合 音声入力式日本語文書処理装置
JPS60149098A (ja) * 1984-01-13 1985-08-06 三洋電機株式会社 音声入力装置
JPS6370298A (ja) * 1986-09-11 1988-03-30 株式会社東芝 促音認識装置

Also Published As

Publication number Publication date
JPH03149598A (ja) 1991-06-26

Similar Documents

Publication Publication Date Title
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
US7062439B2 (en) Speech synthesis apparatus and method
US6725199B2 (en) Speech synthesis apparatus and selection method
JP3180655B2 (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
US7062440B2 (en) Monitoring text to speech output to effect control of barge-in
EP2048655B1 (en) Context sensitive multi-stage speech recognition
US7191132B2 (en) Speech synthesis apparatus and method
US6553342B1 (en) Tone based speech recognition
JP2002511154A (ja) ユーザにオーディオ・フィードバックを与える拡張可能音声認識システム
WO2013002674A1 (ru) Система и способ распознавания речи
JPH05165486A (ja) テキスト音声変換装置
JP2955297B2 (ja) 音声認識システム
JP2664785B2 (ja) 音声認識装置
JPH11202895A (ja) 音声認識システムと方法およびそのプログラムを記録した記録媒体
JP2000244609A (ja) 話者状況適応型音声対話装置及び発券装置
JP2798919B2 (ja) 音声区間検出方式
JPH06202689A (ja) 音声認識方法および装置
JPH07248792A (ja) 音声認識装置
JP2000276189A (ja) 日本語ディクテーションシステム
JP3110025B2 (ja) 発声変形検出装置
JP3357752B2 (ja) パターンマッチング装置
KR19980013825A (ko) 언어모델 적응기능을 가진 음성인식장치 및 그 제어방법
JPH06337700A (ja) 音声合成装置
JPS6027433B2 (ja) 日本語情報入力装置
JP2001013983A (ja) 音声合成を用いた音声認識装置および音声認識方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees