JP2966852B2 - 音声処理方法及び装置 - Google Patents

音声処理方法及び装置

Info

Publication number
JP2966852B2
JP2966852B2 JP1013096A JP1309689A JP2966852B2 JP 2966852 B2 JP2966852 B2 JP 2966852B2 JP 1013096 A JP1013096 A JP 1013096A JP 1309689 A JP1309689 A JP 1309689A JP 2966852 B2 JP2966852 B2 JP 2966852B2
Authority
JP
Japan
Prior art keywords
similarity
candidate
recognition
voice
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP1013096A
Other languages
English (en)
Other versions
JPH02195398A (ja
Inventor
穆 櫻井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP1013096A priority Critical patent/JP2966852B2/ja
Publication of JPH02195398A publication Critical patent/JPH02195398A/ja
Application granted granted Critical
Publication of JP2966852B2 publication Critical patent/JP2966852B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、入力音声から複数の認識候補を選択して出
力する音声処理方法及び装置に関する。
[従来の技術] 従来、入力音声の認識結果に対して使用者に確認を求
める際に、まず、入力した音声信号から抽出した特徴パ
ラメータ時系列と、認識すべき単語毎に用意されている
標準パターンとの類似度を計算する。次に、この計算に
より得られた類似度の中で最大のものが、予め設定され
ている閾値より大であれば、対応する単語を候補として
使用者に提示し、その認識した単語の確認を求めてい
る。そして、使用者からの応答が「正」であれば、初め
てこれを認識結果とするが、応答が「否」であれば認識
不可能として使用者に音声の再入力を求めるように構成
されている。
[発明が解決しようとしている課題] しかしながら、上記従来例では、明瞭に発生された入
力音に対し、認識すべき単語セツトの中に目的の単語の
他に類似単語が存在しない場合、第2図(a)で示すよ
うに第1候補として極めて大きな類似度を持つので、使
用者に確認を求めず直ちに第1候補を認識結果として決
定することが出来る。しかし、従来のこの種の装置で
は、このような場合でも、第2図(b)で示す最大の類
似度がさほど大きくない場合と全く同等に扱われ、必ず
使用者に確認が行われるので、極めて操作性が悪かつ
た。
また、認識すべき単語セツトの中に類似単語がいくつ
か存在する場合には、入力音声がその単語の中の1つで
あれば、類似度計算の結果、第2図(c)の黒丸で示す
ように類似度の値が第1候補に近い第2候補や第3候補
として認識されることが多い。しかし、従来のこの種の
装置では、第1候補だけを使用者に確認させ、その応答
が「否」であれば再入力を要求しているので、使用者
は、類似度計算の結果、目的の単語が第1候補になるま
で音声入力を繰り返さなければならず、使用者に多大の
負担を与えていた。
本発明は、上述の課題を解決するためになされたもの
で、第一位及び第二位の類似度の状態に応じて、更に出
力する候補を選択すべきか否かを適切に判断すること
で、出力する候補を選択する処理を効率的かつ効果的に
行える音声処理方法及び装置を提供することを目的とす
る。
[課題を解決するための手段] 上記目的を達成するために、本発明の音声処理方法
は、入力音声と音声辞書とを比較して、複数の認識候補
と各認識候補の類似度とを判定し、前記複数の認識候補
の類似度の中の、第一位の類似度と第二位の類似度と
を、絶対しきい値及び相対しきい値と比較して、出力す
る候補の選択の要否を判定し、前記候補の選択が要と判
定された場合に、前記複数の認識候補の中から、類似度
が所定のしきい値を満たす認識候補を選択し、前記選択
された認識候補を出力することを特徴とする。
また、上記目的を達成するために、本発明の音声処理
装置は、入力音声と音声辞書とを比較して、複数の認識
候補と各認識候補の類似度とを判定する類似度判定手段
と、前記複数の認識候補の類似度の中の、第一位の類似
度と第二位の類似度とを、絶対しきい値及び相対しきい
値と比較して、出力する候補の選択の要否を判定する選
択処理要否判定手段と、前記候補の選択が要と判定され
た場合に、前記複数の認識候補の中から、類似度が所定
のしきい値を満たす認識候補を選択する認識候補選択手
段と、前記選択された認識候補を出力する出力手段とを
有することを特徴とする。
[実施例] 以下、添付図面を参照して本発明に係る好適な一実施
例を詳細に説明する。
<構成の説明 (第1図)> 第1図は、本実施例における音声認識装置の構成を示
すブロツク図である。図において、1は音声信号を入力
する入力端子、2は入力端子1より入力されたアナログ
音声信号をデジタル化するA/D変換部、3はA/D変換部2
でデジタル化された音声信号から音声の特徴を表わす特
徴パラメータを抽出する特徴抽出部である。4は一連の
制御を司どるCPUであり、後述するCPU4の処理手順を格
納するROM、及びCPU4が作業領域として使用するRAMを含
む。5は特徴パラメータ化された入力音声を収納する第
1記憶部、6は登録されている単語音声の標準パターン
が特徴パラメータの形で収納されている音声辞書、7は
第1記憶部5に収納されている特徴パラメータの時系列
と音声辞書6に収納されている標準パターンの1つとの
類似度を計算する類似度計算部である。そして、8は類
似度計算部7により計算された類似度を収納する補助記
憶部である。
9は認識結果を出力する出力端子、10は使用者に対す
るメッセージを音声化する音声合成部、そして、11は音
声合成部10よりの合成音声を出力する音声出力端子であ
る。
<認識処理の説明 (第3図)> 上記構成において、入力端子1より入力された音声信
号は、A/D変換部2によりデジタル化され、次に特徴抽
出部3によつて特徴パラメータの時系列に変換される。
そして、CPU4が特徴抽出部3より送られてくる特徴パラ
メータの時系列から単語の始端と終端とを検出して、始
端から終端までの特徴パラメータの時系列を第1記憶部
5に収納する。なお、音声辞書6には、第3図に示す
「ゼロ」から「イイエ」までの16個の単語に相当する音
声の標準パターンが特徴パラメータの時系列の形として
収納されているので、CPU4は、まず「ゼロ」に対応する
特徴パラメータの時系列の先頭番地を類似度計算部7に
送り類似度計算を開始させる。そして、類似度計算部7
がCPU4より送られて来た番地情報を手がかりとして音声
辞書6に収納されている単語音声の標準パターンと、第
1記憶部5に収納されている入力音声の特徴パラメータ
時系列とから類似度計算を行う。その後、類似度の計算
が終了すると、その計算結果はCPU4に送られて、補助記
憶部8に収納される。
同様にして、音声辞書6の中の2番目の単語「レイ」
から14番目の単語「ク」までの各標準パターンと、第1
記憶部5の中の入力音声の特徴パラメータ時系列との類
似度が逐次計算されて、補助記憶部8に収納される。ま
た、音声辞書6の中の「ハイ」と「イイエ」に対応する
残りの標準パターンは、後述する使用者に対する確認作
業に使用される。
以上の処理が終了すると、次に、CPU4は、補助記憶部
8に収納されている14個の類似度を手がかりとして、入
力音声に対して、以下に示す処理の何れかを行う。
a)無条件に正答として認識結果を出力する。
b)使用者に対し、結果の確認を求めた上で認識結果を
出力する。
c)認識不可能として使用者に再入力を求める。
<判断処理の説明 (第4図〜第6図)> 次に、上述の各処理a)〜c)を判断する処理を第4
図のフローチヤートに従つて、以下に説明する。
まず、ステツプS1において、補助記憶部8の中の第1
位の類似度C1を第1の閾値T1と比較し、閾値T1より大き
ければステツプS2へ処理を進める。しかし、それ以外の
場合は、ステツプS5へ処理を進める。ここで、第1の閾
値T1は第5図(a)で示すように類似度のかなり大きな
レベルに設定されており、第1位の類似度C1が閾値T1
り大ならば、対応する標準パターンが正答である可能性
は非常に高く、使用者に認識結果の確認を求める必要は
ない。但し、音声辞書6の中に互いに似かよつた単語が
含まれている場合には、第5図(b)に示すように類似
度の第1位と第2位が共に大きな値を示し、単純に第1
位を正答と判断できない事が考えられる。
そこで、ステツプS2において、第1位の類似度C1と第
2位の類似度C2との比C1/C2が閾値R1より大きいかを比
かを判断し、大きければ、第1位類似度を得た単語は、
十分な信頼度を持つ唯一の候補と判断できるので、これ
を正答とし、対応する単語番号を出力端子9に出力す
る。一方、C1/C2が閾値R1以下である場合は、第2位の
類似度も第1位の類似度に匹敵する大きさを持つので、
使用者に対して確認を要求するためにステツプS3に処理
を進める。
次に、ステツプS3では、第i位の類似度をCiとして、
次式を満たす類似度Ciを持つ全ての単語について第1位
候補から順に使用者に確認を求める。
ここでの確認は、以下の手順で行われる。
1)CPU4が、第i位候補に対応する単語番号と、音声
「デスカ?」に対応する単語番号“0"(図示せず)とを
音声合成部10に送出する。音声合成部10では、この送ら
れて来た単語番号に対応する音声を合成して音声出力端
子11より出力する。例えば送られて来た単語番号が“6"
と“0"であれば、合成音声「サンデスカ?」が音声出力
端子11より出力される。
2)ここで、使用者が合成音声による確認要求に対し
て、「ハイ」か「イイエ」で対応する。
3)使用者からの応答があると、類似度計算部7を用い
て、その入力音声を音声辞書6の中の単語「ハイ」及び
「イイエ」に対応する標準パターンとの類似度を計算
し、「ハイ」に対する類似度が大きい場合には、第i位
候補が正答であると判断する。しかし、「イイエ」に対
する類似度が大きい場合には、式(1)を満たす類似度
Ciを持つ候補がなくなるまで上記処理を繰り返す。
ステツプS3での処理が終了後、ステツプS4で上述の確
認の結果を判断し、正答があれば対応する単語番号を出
力端子9に出力する。しかし、式(1)を満たす類似度
Ciを持つ候補の中に正答がなければ、確認不可能と判断
し、使用者に再入力を要求する。
一方、ステツプS1での条件を満たしていない場合に
は、ステツプS5で第1位の類似度C1を第2の閾値T2と比
較し、閾値T2より大きければステツプS6において、使用
者に確認結果の確認を求める。しかし、それ以外の場合
は、確認不可能と判断して使用者に再入力を求める。こ
れは第5図(C)で示す場合である。ここで、第2の閾
値T2は、第5図で示すように第1の閾値T1より小さい
が、確認可否は決定できる程度の類似度の値に設定され
ている。また、第1位の類似度C1が閾値T2を越えていて
も、音声辞書6の中に互いに似かよつた単語が含まれて
いる場合は、第5図(d)で示すように第2位以下の類
似度がC1に極めて近い事が起こり得る。
そこで、次のステツプS6においては、第i位の類似度
をCiとして、次式を満たす類似度Ciを持つ全ての単語に
ついて第1位から順に使用者に確認を求める。
なお、この確認の手順はステツプS3における処理と全
く同一であり、説明は省略する。また、ステツプS7での
結果判断もステツプS4と同じである。そして、ステツプ
S6では、ステツプS3での式(1)式を、式(2)に置き
換えて処理を行うものである。
以上の処理を、T1=200,T2=100,R1=1.10,R2=1.15
として、第3図に示す14個の単語の認識に適用した例を
以下に説明する。
なお、第3図では、14個の単語について各々の音韻表
記と、音韻の時間的な順序関係を損なわない範囲で他の
単語と一致する最大個数piと、単音節の個数が一致し、
かつ同一の位置に同一の単音節が現われる場合に“1"、
その他に“0"を値として持つ単音節のレベルmi、及び表
記上の最大類似度2・pi+miとを示している。
例えば、単語「イチ」「シチ」「ハチ」は、共に2単
音節から成り、かつ同一の単音節「チ」を同一の場所に
持つので、mi=1である。表記上の最大類似度は、音韻
レベルの類似度Piに重み2を掛けて、単音節レベルの類
似度miに加えたものである。これから知られるように、
この辞書内で確認の容易な単語は「ゼロ」「レイ」など
であり、認識の難しい単語は「イチ」「シチ」などであ
る。
今、明瞭に発生された音声「ゼロ」が入力端子1より
入力されると、音声辞書6との類似度計算の結果、3位
までの類似度として第6図(a)で示す値を得た。そこ
で、第4図のフローチヤートに基づき処理を進めると、
ステツプS1において第1位の類似度C1は225点であり、
閾値T1=200を越えている。そこで、ステツプS2に処理
を進め、第2位との類似度の比を求めると、C1/C2=1.9
9と成り、R1=1.10よりも大きい値である。その結果、C
PU4は、第1位の類似度を持つ単語「ゼロ」を正答と
し、その単語番号“1"を出力端子9より出力する。
即ち、入力音声に対する第1位候補が十分な類似度を
持ち、かつ他に類似単語が見当らない場合には、使用者
に対する確認処理を行わない。
次に、明瞭に発生された音声「イチ」が入力端子1よ
り入力されると、音声辞書6との類似度計算の結果、3
位までの類似度として第6(b)で示す値を得た。第1
位の類似度は、C1=218でやはり閾値T1を越えている。
そこで、処理をステツプS2に進め、第2位との類似度の
比を求めると、C1/C2=1.09と成り、閾値R1=1.10を越
えない。その結果、CPU4は、ステツプS3に処理を進め、
C1/CiR1である全ての単語について使用者による結果
の確認を行う。まず、第1位の単語について、単語番号
“4"と音声「デスカ?」に相当する番号“0"が音声合成
部10に送出され、音声出力端子11より音声「イチデスカ
?」が出力される。これに対して使用者は、この結果が
正答であるので音声「ハイ」で応答する。この音声が入
力端子1より入力され、CPU4は「正」と確認してステツ
プS4での判断の結果、「正答」の確認を得た単語番号
“4"を出力端子9より出力する。
即ち、類似度計算の結果、第1位候補が十分大きな類
似度を得ても、第2位以下に近い類似度を持つ候補があ
れば、処理結果を使用者に確認することにより確認を防
止できる。
また、音声「イチ」が不明瞭に発生されて入力された
場合、音声辞書6との類似度計算の結果として、第6図
(c)で示す値を得た。この場合、第1位候補の類似度
はC1=129と成り、第1の閾値T1を越えないので、CPU4
は、処理をステツプS5に進め、第2の閾値T2=100との
比較を行う。その結果、C1>T2が成立し、処理をステツ
プS6に進め、C1/CiR2を満たす全ての単語について、
使用者の確認を求める。まず,第1位候補の単語番号
“11"と番号“0"が音声合成部10に送出され、音声出力
端子11より音声「シチデスカ?」が出力される。これに
対して使用者は、結果が誤答であるので、音声「イイ
エ」で応答する。この音声を入力端子1より入力し、CP
U4は、応答を「否」と確認する。
次に、第2位候補について、C1/CiR2が成立するか
どうかを調べる。その結果、第6図(c)で示すよう
に、C1/C2=1.07で、R2=1.15を越えないので、単語番
号“4"と番号“0"を音声合成部10に送出する。そして、
音声出力端子11より音声「イチデスカ?」が出力され
る。これに対して、使用者の応答は、「ハイ」であるか
ら、CPU4は処理をステツプS7に進め、第2位候補の単語
番号“4"を出力端子9より出力して処理を終了する。
即ち、類似度計算の結果、第1位候補が十分な類似度
を持たず、使用者による確認の結果「否」となつても、
第2位以下の近い類似度を持つ候補に対して確認処理を
行うことで、音声の再入力を行わずに正答を得ることが
できる。
以上説明したように、入力音声と音声辞書との類似度
に対する閾値を大小2種類設け、更に、第1位候補と第
2位以下の候補との類似度の比にする閾値を設けること
により、以下に述べるような効果がある。
(1)第1位候補が十分な大きさの類似度を持つ入力音
声に対しては、使用者による確認作業を必要としない。
(2)第1位候補が十分な大きさの類似度を持つ入力音
声でも、第2位以下の候補が第1位候補に匹敵する類似
度を持つ場合、確認処理を行うことにより、類似単語に
よる誤認識を回避できる。
(3)第1位候補が使用者による確認処理の結果正答で
なくても、目的の単語が第2位以下の候補として第1位
候補に匹敵する類似度を持つ場合、再入力せずに正答を
得ることができる。
[発明の効果] 以上説明したように、本発明によれば、第一位及び第
二位の類似度の状態に応じて、更に出力する候補を選択
すべきか否かを適切に判断することができ、よって、出
力する候補を選択する処理が効率的かつ効果的に行える
ようになる。
【図面の簡単な説明】
第1図は本実施例における音声確認装置の構成を示すブ
ロツク図、 第2図(a)〜(c)は従来例での確認処理を説明する
図、 第3図は認識対象単語の種類と音韻表記を示す図、 第4図は本実施例の確認処理手順を示すフローチヤー
ト、 第5図(a)〜(d)は本実施例の確認処理の原理を示
す図、 第6図(a)〜(c)は実際の音声入力に対する類似度
計算の結果を示す図である。 図中、1……音声入力端子、2……A/D変換部、3……
特徴抽出部、4……CPU、5……第1記憶部、6……音
声辞書、7……類似度計算部、8……補助記憶部、9…
…出力端子、10……音声合成部、11……音声出力端子で
ある。
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 561

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】入力音声と音声辞書とを比較して、複数の
    認識候補と各認識候補の類似度とを判定し、 前記複数の認識候補の類似度の中の、第一位の類似度と
    第二位の類似度とを、絶対しきい値及び相対しきい値と
    比較して、出力する候補の選択の要否を判定し、 前記候補の選択が要と判定された場合に、前記複数の認
    識候補の中から、類似度が所定のしきい値を満たす認識
    候補を選択し、 前記選択された認識候補を出力することを特徴とする音
    声処理方法。
  2. 【請求項2】前記認識候補を音声合成により出力して前
    記認識候補の確認をオペレータに促すことを特徴とする
    請求項1に記載の音声処理方法。
  3. 【請求項3】複数の絶対しきい値を予め保持し、 前記第一位の類似度と第二位の類似度とを、それらの複
    数の絶対しきい値と比較することを特徴とする請求項1
    に記載の音声処理方法。
  4. 【請求項4】入力音声と音声辞書とを比較して、複数の
    認識候補と各認識候補の類似度とを判定する類似度判定
    手段と、 前記複数の認識候補の類似度の中の、第一位の類似度と
    第二位の類似度とを、絶対しきい値及び相対しきい値と
    比較して、出力する候補の選択の要否を判定する選択処
    理要否判定手段と、 前記候補の選択が要と判定された場合に、前記複数の認
    識候補の中から、類似度が所定のしきい値を満たす認識
    候補を選択する認識候補選択手段と、 前記選択された認識候補を出力する出力手段とを有する
    ことを特徴とする音声処理装置。
  5. 【請求項5】前記認識候補を音声合成により出力して前
    記認識候補の確認をオペレータに促すことを特徴とする
    請求項4に記載の音声処理装置。
  6. 【請求項6】更に、複数の絶対しきい値を予め保持する
    保持手段を有し、 前記選択処理要否判定手段は、前記第一位の類似度と第
    二位の類似度とを、それらの複数の絶対しきい値と比較
    することを特徴とする請求項4に記載の音声処理装置。
JP1013096A 1989-01-24 1989-01-24 音声処理方法及び装置 Expired - Fee Related JP2966852B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1013096A JP2966852B2 (ja) 1989-01-24 1989-01-24 音声処理方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1013096A JP2966852B2 (ja) 1989-01-24 1989-01-24 音声処理方法及び装置

Publications (2)

Publication Number Publication Date
JPH02195398A JPH02195398A (ja) 1990-08-01
JP2966852B2 true JP2966852B2 (ja) 1999-10-25

Family

ID=11823622

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1013096A Expired - Fee Related JP2966852B2 (ja) 1989-01-24 1989-01-24 音声処理方法及び装置

Country Status (1)

Country Link
JP (1) JP2966852B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1022724B8 (en) * 1999-01-20 2008-10-15 Sony Deutschland GmbH Speaker adaptation for confusable words
US6574596B2 (en) * 1999-02-08 2003-06-03 Qualcomm Incorporated Voice recognition rejection scheme
JP2008241933A (ja) * 2007-03-26 2008-10-09 Kenwood Corp データ処理装置及びデータ処理方法

Also Published As

Publication number Publication date
JPH02195398A (ja) 1990-08-01

Similar Documents

Publication Publication Date Title
US6192337B1 (en) Apparatus and methods for rejecting confusible words during training associated with a speech recognition system
US7974843B2 (en) Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
US6185530B1 (en) Apparatus and methods for identifying potential acoustic confusibility among words in a speech recognition system
US5797116A (en) Method and apparatus for recognizing previously unrecognized speech by requesting a predicted-category-related domain-dictionary-linking word
EP1205908B1 (en) Pronunciation of new input words for speech processing
US8352273B2 (en) Device, method, and program for performing interaction between user and machine
JPH07181994A (ja) 信頼性評価を用いた自動音声言語認識処理
WO1996036042A1 (en) Improving the reliability of word recognizers
US5832429A (en) Method and system for enrolling addresses in a speech recognition database
JP2007124686A (ja) 音声認識データベースにアドレスを登録する方法とシステム
JP2966852B2 (ja) 音声処理方法及び装置
US5220609A (en) Method of speech recognition
US4790017A (en) Speech processing feature generation arrangement
JP2853418B2 (ja) 音声認識方法
JP2646080B2 (ja) 音声認識方法
JP2002297179A (ja) 自動応答対話システム
JP2543584B2 (ja) 音声標準パタン登録方式
JP3465334B2 (ja) 音声対話装置及び音声対話方法
JP4622106B2 (ja) 人物特定システム
JPS58130394A (ja) 音声認識装置
JP5181578B2 (ja) 音声合成装置、音声合成方法及びコンピュータプログラム
JP2755792B2 (ja) 音声認識装置
EP1758351B1 (en) Method and system for enrolling addresses in a speech recognition database
JP2006133296A (ja) 音声対話装置
JPH0351898A (ja) 音声認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070813

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080813

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees