JP3360978B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP3360978B2
JP3360978B2 JP18391695A JP18391695A JP3360978B2 JP 3360978 B2 JP3360978 B2 JP 3360978B2 JP 18391695 A JP18391695 A JP 18391695A JP 18391695 A JP18391695 A JP 18391695A JP 3360978 B2 JP3360978 B2 JP 3360978B2
Authority
JP
Japan
Prior art keywords
similarity
time
voice
output
standard pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP18391695A
Other languages
English (en)
Other versions
JPH0934484A (ja
Inventor
章次 栗木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP18391695A priority Critical patent/JP3360978B2/ja
Publication of JPH0934484A publication Critical patent/JPH0934484A/ja
Application granted granted Critical
Publication of JP3360978B2 publication Critical patent/JP3360978B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置に関
する。
【0002】
【従来の技術】従来の音声認識装置ではマイクロフォン
や電話からの音声を認識するために、パワー情報などを
使用して認識すべき有音区間の始端と終端とを決定し、
この有音区間に対してパターン認識等を行い、最大の類
似度を得た標準パターンの単語番号や属性のデータが認
識結果として出力される認識処理を行っていた。有音区
間の終端を検出する方法として、音声中の破裂性の子音
の前の無音や、促音の無音と発生終了後の無音とを区別
するために、例えば特開昭59−119397号公報に
開示されるように、無音時間が一定の時間長以上継続す
る場合に音声入力が終了したと判定していた。一方、例
えば特開平5−127696号公報には、有音区間に依
存せずに音声認識を行う認識方法としてワードスポッテ
ィング法が開示されている。さらに又、特開平6−43
895号公報には、有音区間の終端を検出するため、一
定時間以上の継続時間の経過待ちを必要としない方法と
して、有音区間終了時の類似度と閾値とを比較して有音
区間の終了を判定する方法が開示されている。
【0003】
【発明が解決しようとする課題】上記特開昭59−11
9397号公報に開示される技術では、無音が一定時
間、継続することにより音声入力の終了を判定する。上
記継続時間は認識する言語によるが、例えば日本語の場
合、促音の途中で音声終了と判定しないためには350
ms以上の上記継続時間が必要となる。よってこの方法
では音声入力が終了しても一定時間が経過するまで認識
結果が出力できない。即ち、促音にも十分考慮を払って
上述の無音継続時間を選択すると、音声入力が終了して
も認識結果がなかなか出力されず、反応が遅いシステム
となる。この反応を早くするため上記無音継続時間を短
くすると、音声入力が終了する前に音声の途中の促音の
段階で認識結果が出力されてしまい、その結果、誤認識
となる欠点があった。
【0004】又、特開平5−127696号公報に開示
される技術では、ワードスポッティング法を使用してい
るため有音区間を検出して音声の終了を決める必要はな
い。しかし認識すべき音声とその前後の騒音を含む十分
長い区間とを入力信号区間とするため、結果的に音声終
了後十分長い区間が必要であり、認識結果が早く出力さ
れないという欠点がある。
【0005】又、特開平6−43895号公報に開示さ
れる技術では、一定時間の無音継続時間を必要としない
方法が示されている。しかし、標準パターンに入力の一
部と類似したパターンが存在する場合、上記方法は良好
な動作を期待できない。例えば標準パターンに「ゴ」と
「コップ」が登録されている場合、入力音声の「コッ
プ」の「コ」の有音区間の終端では標準パターン「ゴ」
の類似度が高くなり、終了判定を行うための閾値の設定
が困難である。又、この技術では「コップ」に対して例
えば「コ」を予め部分パターンとしておき、音声として
「コップ」が入力されたとき、上記部分パターンである
「コ」を認識結果として出力しないようにしている。し
かしこのような部分パターンは、入力音声が予め分かっ
ている、不特定話者方式に採用可能であり、又、上記部
分パターンの作成は不特定話者方式では標準パターン作
成時に行う必要がある。よって、この技術は、入力音声
が特定できない特定話者方式には採用できないという問
題点がある。本発明はこのような問題点を解決するため
になされたもので、入力される音声に促音等が含まれ、
途中に長い無音区間がある場合でも正しく音声認識を行
うことができ、しかも音声入力が終了した時点ですみや
かに認識結果を出力することが可能であり、さらにま
た、音声登録が可能な、即ち特定話者方式も可能な音声
認識装置を提供することを目的とする。
【0006】
【課題を解決するための手段及び作用】本発明は、入力
音声中の有音区間及び無音区間を検出する音声区間検出
手段と、上記音声区間検出手段にて検出された上記無音
区間の開始時における上記入力音声の特徴量と予め登録
されている標準パターンとの類似度である無音開始時類
似度、及び上記無音区間の開始時から上記無音区間終了
時までの時間値内にて任意に選択した時間分にて上記無
音区間の開始時から計時される判定時間の経過時点にお
ける上記入力音声の特徴量と上記標準パターンとの類似
度である経過後類似度を計算する計算手段と、上記有音
区間及び上記無音区間において上記計算手段にて計算さ
れた上記入力音声と上記標準パターンとの類似度の内最
大の類似度を有する標準パターンに対応する認識結果を
外部へ出力する出力手段と、上記計算手段にて計算され
た上記無音開始時類似度と上記経過後類似度との大小関
係を判断し上記経過後類似度が上記無音開始時類似度を
越える場合には上記出力手段からの上記認識結果の外部
への出力を上記判定時間よりも長い保留時間にて保留さ
せた後認識結果を外部へ出力させ、上記経過後類似度が
上記無音開始時類似度以下の場合には上記判定時間経過
時に上記出力手段から上記認識結果を出力させる出力制
御手段と、を備えたことを特徴とする。
【0007】計算手段は、無音区間の開始時点におい
て、入力音声と標準パターンとの類似度である無音開始
時類似度を計算し、又、上記無音区間の開始時点から判
定時間経過した時点において、入力音声と標準パターン
との類似度である経過後類似度を計算する。出力制御手
段は、上記経過後類似度が上記無音開始時類似度以下の
場合には、有音区間から上記判定時間経過時点までに得
られた中で最大の類似度を有する標準パターンに対応す
る認識結果を上記判定時間経過時点にて外部へ出力す
る。一方、上記入力音声における上記経過後類似度が上
記無音開始時類似度を越える場合には、上記有音区間か
ら上記判定時間経過時点までに得られた認識結果の外部
への出力を保留時間にて保留する。もし、上記保留時間
の間にさらに大きい類似度を有する標準パターンが出現
した場合には、この音声について再び経過後類似度と無
音開始時類似度との大小関係が判断され経過後類似度が
無音開始時類似度以下のときには上記さらに大きい類似
度を有する標準パターンに対応する認識結果を上記判定
時間経過時点にて出力し、未だ経過後類似度が無音開始
時類似度を越えるときには再度上記保留時間にて認識結
果の出力を保留する。このように判定時間及び保留時間
を設け、より類似度の高い認識結果を出力するようにし
たことで、入力される音声に促音等が含まれ、途中に長
い無音区間がある場合でも正しく音声認識を行うことが
できるように作用する。さらに、経過後類似度と無音開
始時類似度とを比較し経過後類似度が無音開始時類似度
以下の場合には、保留時間よりも短い判定時間の経過時
点にて認識結果を出力するようにしたことより、音声入
力が終了した時点ですみやかに認識結果を出力すること
ができるように作用する。
【0008】又、上記計算手段は、入力音声における上
記無音開始時類似度が第1閾値以下の場合には該入力音
声の上記経過後類似度を計算しないように構成すること
もできる。
【0009】又、上記計算手段は、入力音声における上
記経過後類似度が第2閾値以下の場合には該入力音声に
ついて上記保留を行わないように構成することもでき
る。
【0010】
【発明の実施の形態】本発明の一実施形態である音声認
識装置について図を参照しながら以下に説明する。尚、
計算手段の機能を果たす一実施形態として類似度計算手
段4が相当し、出力手段の機能を果たす一実施形態とし
て最大値記憶部6及び出力部10が相当し、出力制御手
段の機能を果たす一実施形態として類似度比較手段7、
T時間検出手段8、類似度差検出手段9及び終了判定手
段11が相当する。上記音声認識装置は図1に示すよう
な構成をとる。即ち、音声入力はAD変換手段1に供給
されAD変換手段1にてデジタイズされ、デジタルデー
タに変換される。該デジタルデータはAD変換手段1か
ら特徴抽出手段2及び音声区間検出手段3に供給され
る。特徴抽出手段2では、供給されたデジタルデータか
ら上記音声の特徴量を抽出する。又、音声区間検出手段
3では、上記音声入力のパワーなどを検出して有音、無
音区間を示す音声区間信号を作成する。上記特徴量は特
徴抽出手段2から類似度計算手段4へ供給される。類似
度計算手段4は、上記特徴量と、一方、標準パターン格
納手段5から供給される一もしくは複数の標準パターン
との類似度をフレーム周期毎に計算し、算出した類似度
を最大値記憶手段6、並びに類似度比較手段7及び類似
度差検出手段9に送出する。尚、類似度計算手段4は最
大値記憶手段6に対しては標準パターンをも送出する。
最大値記憶手段6は、類似度計算手段4から供給される
類似度の内、最大値と、該最大値を有する標準パターン
信号とを記憶する。尚、最大値記憶手段6には、上記音
声入力に対する認識結果、即ち上記最大値を有する標準
パターンに対応する認識結果を送出する出力部10が接
続される。尚、上記認識結果としては、例えば最大の類
似度を有する標準パターンを表す番号や、該標準パター
ンに対応する音声を示す情報等が含まれる。
【0011】T時間検出手段8には音声区間検出手段3
から上記音声区間信号が供給され、T時間検出手段8は
上記音声区間信号に基づき無音区間の開始時点からT時
間の計時を行い、該T時間経過時点にて信号を類似度比
較手段7及び類似度差検出手段9に送出する。上記類似
度比較手段7及び上記類似度差検出手段9、並びに類似
度比較手段7及び類似度差検出手段9から信号が供給さ
れる後述の終了判定手段11は、入力音声が終了したか
否か、換言すると、有音区間終了時点、即ち無音区間開
始時点において最大の類似度を有する標準パターンに対
応する認識結果を当該音声認識装置の外部へ送出するか
否かを判断するためのものである。上記T時間は、入力
音声が終了したか否か、即ち、上記認識結果を外部へ送
出するか否かを判定するための判定時間に該当するもの
であり、例えば約50msの値に設定される。尚、上記
T時間は、促音と、子音の内、p,t,kの前の無音と
の違いを検出可能とするために、上記無音による時間で
ある、20〜30msより長くする必要がある。又、上
記T時間は、無音区間の開始から無音区間の終了までの
時間、例えば音声「コップ」を例にとると「コ」の有音
区間の終了から「プ」の有音区間が開始するまでの時間
の値内で任意に選択できる時間値であり、上記無音区間
の開始時点から上記選択された時間値にて計時される時
間である。
【0012】類似度比較手段7には、入力音声と一又は
複数の標準パターンとによって得られる、一又は複数の
類似度が類似度計算手段4から順次供給され、又、音声
区間検出手段3から上記音声区間信号が供給され、さら
にT時間検出手段8から上記T時間の経過が供給され
る。類似度比較手段7には、類似度計算手段4から供給
される上記類似度の内、上記無音区間開始時点における
一又は複数の類似度S1が所定の値を越えるか否かを判
断するための閾値Aと、上記T時間経過時点における一
又は複数の類似度S2が所定の値を越えるか否かを判断
するための閾値Bとが予め設定されている。尚、複数の
標準パターンが記憶されている場合、上述したような類
似度S1,S2は、それぞれの標準パターンにおける上
記無音区間開始時点での類似度、並びに上記T時間経過
時点における類似度の総称である。これらの閾値A,B
は、上記類似度S1が閾値A以下である場合、又は上記
類似度S2が閾値B以下である場合に、このような値の
類似度S1又はS2を有する標準パターンについて以後
の音声認識動作を行わないことを決定するために使用さ
れる。類似度比較手段7は、上記各時点における類似度
S1,S2と各閾値A,Bとの比較を行い、類似度計算
手段4から送出され上記無音区間開始時点における類似
度S1が上記閾値A以下の場合、又は、類似度計算手段
4から送出され上記T時間経過時点における類似度S2
が上記閾値B以下の場合には、それぞれその旨の信号を
終了判定手段11に送出する。
【0013】類似度差検出手段9には、類似度計算手段
4から上記類似度が供給され、又、音声区間検出手段3
から上記音声区間信号が供給され、さらにT時間検出手
段8から上記T時間の経過が供給される。これらの情報
を元に、類似度差検出手段9は、類似度計算手段4から
送出され上記無音区間開始時点における一又は複数の類
似度S1と、類似度計算手段4から送出され上記T時間
経過時点における一又は複数の類似度S2との大小関係
を、例えば類似度S2から類似度S1を減算することで
判断し、その旨の信号を終了判定手段11へ送出する。
尚、上述した類似度S2から類似度S1を減算する動作
は、類似度S1,S2に含まれるそれぞれの類似度にお
いて、同一の標準パターン同士で行われる。即ち、例え
ば標準パターンAにおいて類似度S1に対応する類似度
が「a」であり類似度S2に対応する類似度が「b」で
あるとした場合、上記減算動作はb−aを行うものであ
る。
【0014】終了判定手段11は、類似度比較手段7又
は類似度差検出手段9から供給される信号に基づき、出
力部10に対して認識結果を外部へ送出させるか否かの
信号を送出するものである。即ち、終了判定手段11
は、類似度比較手段7から、上記類似度S1が上記閾値
A以下の場合、若しくは上記類似度S2が上記閾値B以
下の場合にその旨の信号が供給された場合、又は、類似
度差検出手段9から、上記類似度S2が上記類似度S1
以下である旨の信号が供給された場合には、音声入力が
終了したものと判断し、最大値記憶手段6に記憶されて
いる、最大の類似度を有する標準パターンに対応した認
識結果を直ちに外部へ送出するように出力部10へ信号
を送出する。尚、類似度S1,S2のそれぞれに複数の
標準パターンに対する類似度が含まれる場合、上述の
「上記類似度S2が上記類似度S1以下である」という
条件は、すべての標準パターンがこのような条件を満た
す必要がある。逆に、類似度比較手段7から、上記類似
度S1が上記閾値Aを越え、かつ上記類似度S2が上記
閾値Bを越える場合にその旨の信号が供給された場合、
及び類似度差検出手段9から、上記類似度S2が上記類
似度S1を越える旨の信号が供給された場合には、音声
入力が終了していない、即ちまだ続きの音声があると判
断し所定の保留時間の経過を待って認識結果を外部へ送
出するように信号を出力部10へ送出する。尚、類似度
S1,S2のそれぞれに複数の標準パターンに対する類
似度が含まれる場合、上述した「上記類似度S2が上記
類似度S1を越える」という条件は、このような条件を
満たす標準パターンが一つでも存在すれば足りるもので
ある。又、本実施の形態では類似度比較手段7を設けた
が、類似度比較手段7を設けない構成としてもよく、こ
の場合には類似度差検出手段9からの信号に基づき終了
判定手段11は認識結果の送出、送出保留を判断するこ
とになる。
【0015】このように構成される音声認識装置の動作
を以下に説明する。尚、以下の説明では、音声入力とし
て「コップ」を入力し、該音声入力に対応する標準パタ
ーンとして、「ゴ」及び「コップ」の2つが格納されて
いるものとする。入力音声として「コップ」が入力され
ると、特徴抽出手段2にて特徴量が抽出され類似度計算
手段4ではフレーム周期毎に上記特徴量と各標準パター
ンとの類似度が計算される。よって、図2に示すよう
に、入力音声が「コ」の部分では標準パターン「ゴ」の
類似度が最大値となり、有音区間「コ」の終了付近で標
準パターン「ゴ」の類似度が最大値として認識される。
尚、音声区間検出手段3が送出する音声区間信号は音声
の終了を判定するために用いられ、音声区間信号の状態
にかかわらず音声認識はワードスポッティング法により
行われる。一方、標準パターン「コップ」については、
「コップ」における「コ」の段階では「コップ」の一部
分の「コ」の音声のみが類似度算出の対照となることか
ら、図2に点線で示すようにその類似度は、「ゴ」の類
似度に比べ大きくない。標準パターン「ゴ」の類似度
と、標準パターン「コップ」の類似度との大小を比較す
ると、この時点では、標準パターン「ゴ」の類似度が標
準パターン「コップ」の類似度より大きいことから、有
音区間が開始しこの時点までにおいて最大値記憶手段6
には、最大類似度と該最大類似度を有する標準パターン
「ゴ」が記憶される。尚、上述の「有音区間「コ」の終
了付近」は、ほぼ後述の「無音区間開始時点T0」の近
辺となり、上記「最大類似度」は後述の類似度G1にほ
ぼ等しいものである。
【0016】次に入力音声の「コップ」における促音の
部分では、標準パターン「ゴ」については対象となるも
のが存在しないので、その類似度は小さくなる。一方、
標準パターン「コップ」においては、標準パターン「コ
ップ」の促音の部分と入力音声の促音の部分つまり無音
区間とのマッチングにより、図2に示すように類似度は
増加する。T時間検出手段8により無音区間が開始した
時点T0からT時間が計時され、T時間経過時T1に類
似度比較手段7及び類似度差検出手段9へT時間検出手
段8から信号が送出される。尚、このT時間は、本実施
形態では50msに設定している。
【0017】上述したように、類似度比較手段7、類似
度差検出手段9及び終了判定手段11にて、入力音声が
終了したか否かが判断される。即ち、類似度比較手段7
は、有音区間の終了時点、即ち無音区間開始時点T0に
おける標準パターン「ゴ」の類似度G1及び標準パター
ン「コップ」の類似度K1が閾値Aを越えているか否
か、並びに上記T時間経過時点T1における標準パター
ン「ゴ」の類似度G2及び標準パターン「コップ」の類
似度K2が閾値Bを越えているか否かを判断する。この
場合、図2に点線で示すように、上記類似度G1及び類
似度K1は、共に閾値Aを越えているが、上記類似度G
2は閾値B以下となっている。よって、類似度比較手段
7は、標準パターン「ゴ」及び標準パターン「コップ」
についてそれぞれその旨の信号を終了判定手段11へ送
出する。尚、上記類似度S1に対応する類似度が上記
「G1」及び「K1」であり、上記類似度S2に対応す
る類似度が上記「G2」及び「K2」である。
【0018】又、類似度差検出手段9は、標準パターン
「ゴ」について、上記無音区間開始時点T0における類
似度G1と、上記T時間経過時点T1における類似度G
2との大小関係、並びに標準パターン「コップ」につい
て、上記無音区間開始時点T0における類似度K1と、
上記T時間経過時点T1における類似度K2との大小関
係をそれぞれ判断する。この場合、図2に示すように、
標準パターン「コップ」については類似度K2が類似度
K1を越えているが、標準パターン「ゴ」については類
似度G2は類似度G1以下となっている。類似度差検出
手段9は、標準パターン「ゴ」及び標準パターン「コッ
プ」についてそれぞれその旨の信号を終了判定手段11
へ送出する。
【0019】類似度比較手段7及び類似度差検出手段9
から供給される信号に基づき終了判定手段11は以下の
ように動作する。即ち、類似度比較手段7から標準パタ
ーン「ゴ」の類似度G2が閾値B以下である信号が供給
されたことから、類似度差検出手段11は、標準パター
ン「ゴ」については以後の認識動作を行わないことを決
定し、さらに、類似度差検出手段9から類似度K2が類
似度K1を越えていることの信号が終了判定手段11に
供給されたことから、類似度差検出手段11は、上記T
時間の経過時点で最大値記憶手段6に記憶されている認
識結果である標準パターンを外部へ送出することを所定
の保留時間、停止することを決定する。上記保留時間
は、本実施形態では上記T時間よりも長い、300〜5
00msに設定している。尚、もし類似度K2も類似度
K1以下であるような場合には、上記T時間が経過した
時点で出力部10から最大値記憶手段6に記憶されてい
る認識結果が外部へ送出される。
【0020】又、上記保留時間内に次の有音区間が出現
した場合には、上述した「コップ」の「コ」における音
声認識動作と同じ処理が実行される。もし、有音区間が
出現しない場合には、保留時間経過時点にて、最大値記
憶手段6に記憶されている認識結果、即ち最大値の類似
度を有する標準パターンに対応する認識結果が出力部1
0から外部へ送出させる。この例では、上記保留時間内
に、「コップ」の「プ」の音声が出現するので、「プ」
について「コ」の場合と同じ処理が以下のようになされ
る。尚、上述したように標準パターン「ゴ」については
処理がなされないことから、以下の説明では標準パター
ン「コップ」についてのみ説明し、又、特記すべき点の
みを説明する。尚、類似度比較手段7を設けない構成を
採る場合には、標準パターン「ゴ」についても上述した
音声「コ」の場合と同じ処理がなされる。「プ」の有音
区間の終了、即ち無音区間開始時点T2における標準パ
ターン「コップ」は、入力音声に一致することから、そ
の類似度K3は上記類似度G1を越える。よってこの時
点で最大値記憶手段6には、類似度G1に代わり類似度
K3が記憶され、又、標準パターン「ゴ」に代わり標準
パターン「コップ」が記憶される。上記無音区間開始時
点T2からT時間経過した時刻T3までにおいて、標準
パターンに促音の無音は含まれているが、一方、単語の
後の無音は含まれていないため、標準パターン「コッ
プ」と入力音声「プ」の後の無音とはマッチングしない
ことから、標準パターン「コップ」の類似度は減少す
る。よって、時刻T3における標準パターン「コップ」
の類似度K4は、類似度K3以下となる。したがって終
了判定手段11は、無音区間開始時点T2から判定時間
であるT時間が経過した時刻T3において認識結果を外
部へ送出するように、信号を出力部10へ送出する。し
たがって、出力部10は、最大値記憶手段6に記憶され
ている認識結果である標準パターン「コップ」に対応す
る認識結果を、判定時間Tの経過時点T3にて外部へ送
出する。尚、この例では「プ」の後には入力音声がない
ことから「コップ」について認識動作を終了するが、さ
らに音声が続く場合には上述した「コ」,「プ」の場合
と同様の認識動作が続行される。
【0021】以上説明したように本実施形態による音声
認識装置によれば、例えば促音が含まれるか否かを判断
する判定時間Tを設け、引き続き入力音声が有ると判断
したときには所定の保留時間経過後に認識結果を出力
し、一方、入力音声終了を判断したときには上記判定時
間Tの経過時点で速やかに認識結果を出力するようにし
た。よって、入力される音声に促音等が含まれ、途中に
長い無音区間がある場合でも正しく音声認識を行うこと
ができ、又、上記のような無音区間がない入力音声の場
合には認識結果の速やかな出力が可能となる。又、上述
したように、特定話者方式では、登録される単語や文章
が特定できないことから正確な部分パターンを作成する
ことは困難であるが、本音声認識装置では上述したよう
に閾値A,Bを設けたことで部分パターンを作成した場
合と同様の効果を得ることができるので、本音声認識装
置は特定話者方式にも対応することができる。
【0022】尚、上述の実施形態では、類似度差検出手
段9において類似度S1と類似度S2との大小関係を判
断するようにしたが、より確実な認識動作を行うため、
さらに閾値Cを設け、類似度S2から類似度S1を減算
した値が閾値Cを越えるか否かを判断し、越える場合に
外部への認識結果の出力を上記保留時間経過時に行うよ
うにしてもよい。
【0023】
【発明の効果】以上詳述したように本発明によれば、無
音区間の開始時における入力音声の特徴量と予め登録さ
れている標準パターンとの類似度である無音開始時類似
度と、上記無音区間の開始時から判定時間経過後におけ
る上記入力音声の特徴量と上記標準パターンとの類似度
である経過後類似度とを計算し、上記経過後類似度が上
記無音開始時類似度を越える場合には認識結果の外部へ
の出力を上記判定時間よりも長い保留時間にて保留す
る。一方、上記経過後類似度が上記無音開始時類似度以
下の場合には上記判定時間経過時に上記認識結果を出力
する。よって、例えば促音が含まれるような入力音声の
場合には、上記経過後類似度が上記無音開始時類似度を
越えるようになり、認識結果は上記保留時間経過後に出
力されることより、上記促音をも含んだ標準パターンに
おいて音声認識を行うことができ、正しい音声認識結果
を出力することができる。一方、例えば促音等の無音区
間を有しない入力音声の場合には、上記判定時間経過時
にて音声認識結果を出力することから、速やかに音声認
識結果を出力することができる。
【図面の簡単な説明】
【図1】 本発明の一実施の形態である音声認識装置の
構成を示すブロック図である。
【図2】 図1に示す音声認識装置の動作を説明するた
めの図である。
【符号の説明】
2…特徴抽出手段、3…音声区間検出手段、4…類似度
計算手段、6…最大値記憶手段、7…類似度比較手段、
8…T時間検出手段、9…類似度差検出手段、10…出
力部、11…終了判定手段。
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G10L 15/10

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力音声中の有音区間及び無音区間を検
    出する音声区間検出手段と、 上記音声区間検出手段にて検出された上記無音区間の開
    始時における上記入力音声の特徴量と予め登録されてい
    る標準パターンとの類似度である無音開始時類似度、及
    び上記無音区間の開始時から上記無音区間終了時までの
    時間値内にて任意に選択した時間分にて上記無音区間の
    開始時から計時される判定時間の経過時点における上記
    入力音声の特徴量と上記標準パターンとの類似度である
    経過後類似度を計算する計算手段と、 上記有音区間及び上記無音区間において上記計算手段に
    て計算された上記入力音声と上記標準パターンとの類似
    度の内最大の類似度を有する標準パターンに対応する認
    識結果を外部へ出力する出力手段と、 上記計算手段にて計算された上記無音開始時類似度と上
    記経過後類似度との大小関係を判断し上記経過後類似度
    が上記無音開始時類似度を越える場合には上記出力手段
    からの上記認識結果の外部への出力を上記判定時間より
    も長い保留時間にて保留させた後認識結果を外部へ出力
    させ、上記経過後類似度が上記無音開始時類似度以下の
    場合には上記判定時間経過時に上記出力手段から上記認
    識結果を出力させる出力制御手段と、を備えたことを特
    徴とする音声認識装置。
  2. 【請求項2】 上記計算手段は、入力音声における上記
    無音開始時類似度が第1閾値以下の場合には該入力音声
    の上記経過後類似度を計算しない、請求項1記載の音声
    認識装置。
  3. 【請求項3】 上記計算手段は、入力音声における上記
    経過後類似度が第2閾値以下の場合には該入力音声につ
    いて上記保留を行わない、請求項1記載の音声認識装
    置。
  4. 【請求項4】 上記計算手段は、上記無音開始時類似度
    と上記経過後類似度との大小関係の判断に代えて、上記
    経過後類似度から上記無音開始時類似度を減算した値が
    第3閾値を越えるか否かを判断し、上記減算値が上記第
    3閾値を越える場合には上記保留をさせた後上記認識結
    果を外部へ出力させ、上記減算値が上記第3閾値以下の
    場合には上記判定時間経過時に上記出力手段から上記認
    識結果を出力させる、請求項1記載の音声認識装置。
JP18391695A 1995-07-20 1995-07-20 音声認識装置 Expired - Fee Related JP3360978B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP18391695A JP3360978B2 (ja) 1995-07-20 1995-07-20 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP18391695A JP3360978B2 (ja) 1995-07-20 1995-07-20 音声認識装置

Publications (2)

Publication Number Publication Date
JPH0934484A JPH0934484A (ja) 1997-02-07
JP3360978B2 true JP3360978B2 (ja) 2003-01-07

Family

ID=16144063

Family Applications (1)

Application Number Title Priority Date Filing Date
JP18391695A Expired - Fee Related JP3360978B2 (ja) 1995-07-20 1995-07-20 音声認識装置

Country Status (1)

Country Link
JP (1) JP3360978B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006133284A (ja) * 2004-11-02 2006-05-25 Kddi Corp 音声情報抽出装置
KR101959080B1 (ko) * 2017-10-13 2019-07-04 주식회사 하얀마인드 어학 따라말하기의 묵음구간 기반의 어학 퍼포먼스 평가 장치 및 방법
JP7096707B2 (ja) * 2018-05-29 2022-07-06 シャープ株式会社 電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法

Also Published As

Publication number Publication date
JPH0934484A (ja) 1997-02-07

Similar Documents

Publication Publication Date Title
CN110428810B (zh) 一种语音唤醒的识别方法、装置及电子设备
JP3691511B2 (ja) 休止検出を行う音声認識
EP0077194B1 (en) Speech recognition system
JP3674990B2 (ja) 音声認識対話装置および音声認識対話処理方法
JP3284832B2 (ja) 音声認識対話処理方法および音声認識対話装置
JPH10511196A (ja) 情報処理システム
KR20170073113A (ko) 음성의 톤, 템포 정보를 이용한 감정인식 방법 및 그 장치
JP3069531B2 (ja) 音声認識方法
JP5375423B2 (ja) 音声認識システム、音声認識方法および音声認識プログラム
JP3360978B2 (ja) 音声認識装置
JP2996019B2 (ja) 音声認識装置
JP3523382B2 (ja) 音声認識装置及び音声認識方法
JP2006039382A (ja) 音声認識装置
JPH10274993A (ja) 音声認識装置および音声認識方法
JP2975772B2 (ja) 音声認識装置
JP3031081B2 (ja) 音声認識装置
JP3008593B2 (ja) 音声認識装置
JPS645320B2 (ja)
JP2737109B2 (ja) 音声区間検出方式
JP3519852B2 (ja) 文音声変換方法ならびに文音声変換装置における息継ぎ位置決定方法
JPH02103599A (ja) 音声認識装置
JPS60104999A (ja) 音声認識装置
JP3125928B2 (ja) 音声認識装置
JP2002132293A (ja) 音声認識装置
JPS61292199A (ja) 音声認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071018

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081018

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081018

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091018

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101018

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111018

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees