JP2966852B2

JP2966852B2 - 音声処理方法及び装置

Info

Publication number: JP2966852B2
Application number: JP1013096A
Authority: JP
Inventors: 穆櫻井
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1989-01-24
Filing date: 1989-01-24
Publication date: 1999-10-25
Anticipated expiration: 2014-10-25
Also published as: JPH02195398A

Description

【発明の詳細な説明】［産業上の利用分野］本発明は、入力音声から複数の認識候補を選択して出
力する音声処理方法及び装置に関する。

［従来の技術］従来、入力音声の認識結果に対して使用者に確認を求
める際に、まず、入力した音声信号から抽出した特徴パ
ラメータ時系列と、認識すべき単語毎に用意されている
標準パターンとの類似度を計算する。次に、この計算に
より得られた類似度の中で最大のものが、予め設定され
ている閾値より大であれば、対応する単語を候補として
使用者に提示し、その認識した単語の確認を求めてい
る。そして、使用者からの応答が「正」であれば、初め
てこれを認識結果とするが、応答が「否」であれば認識
不可能として使用者に音声の再入力を求めるように構成
されている。

［発明が解決しようとしている課題］しかしながら、上記従来例では、明瞭に発生された入
力音に対し、認識すべき単語セツトの中に目的の単語の
他に類似単語が存在しない場合、第２図（ａ）で示すよ
うに第１候補として極めて大きな類似度を持つので、使
用者に確認を求めず直ちに第１候補を認識結果として決
定することが出来る。しかし、従来のこの種の装置で
は、このような場合でも、第２図（ｂ）で示す最大の類
似度がさほど大きくない場合と全く同等に扱われ、必ず
使用者に確認が行われるので、極めて操作性が悪かつ
た。

また、認識すべき単語セツトの中に類似単語がいくつ
か存在する場合には、入力音声がその単語の中の１つで
あれば、類似度計算の結果、第２図（ｃ）の黒丸で示す
ように類似度の値が第１候補に近い第２候補や第３候補
として認識されることが多い。しかし、従来のこの種の
装置では、第１候補だけを使用者に確認させ、その応答
が「否」であれば再入力を要求しているので、使用者
は、類似度計算の結果、目的の単語が第１候補になるま
で音声入力を繰り返さなければならず、使用者に多大の
負担を与えていた。

本発明は、上述の課題を解決するためになされたもの
で、第一位及び第二位の類似度の状態に応じて、更に出
力する候補を選択すべきか否かを適切に判断すること
で、出力する候補を選択する処理を効率的かつ効果的に
行える音声処理方法及び装置を提供することを目的とす
る。

［課題を解決するための手段］上記目的を達成するために、本発明の音声処理方法
は、入力音声と音声辞書とを比較して、複数の認識候補
と各認識候補の類似度とを判定し、前記複数の認識候補
の類似度の中の、第一位の類似度と第二位の類似度と
を、絶対しきい値及び相対しきい値と比較して、出力す
る候補の選択の要否を判定し、前記候補の選択が要と判
定された場合に、前記複数の認識候補の中から、類似度
が所定のしきい値を満たす認識候補を選択し、前記選択
された認識候補を出力することを特徴とする。

また、上記目的を達成するために、本発明の音声処理
装置は、入力音声と音声辞書とを比較して、複数の認識
候補と各認識候補の類似度とを判定する類似度判定手段
と、前記複数の認識候補の類似度の中の、第一位の類似
度と第二位の類似度とを、絶対しきい値及び相対しきい
値と比較して、出力する候補の選択の要否を判定する選
択処理要否判定手段と、前記候補の選択が要と判定され
た場合に、前記複数の認識候補の中から、類似度が所定
のしきい値を満たす認識候補を選択する認識候補選択手
段と、前記選択された認識候補を出力する出力手段とを
有することを特徴とする。

［実施例］以下、添付図面を参照して本発明に係る好適な一実施
例を詳細に説明する。

＜構成の説明（第１図）＞第１図は、本実施例における音声認識装置の構成を示
すブロツク図である。図において、１は音声信号を入力
する入力端子、２は入力端子１より入力されたアナログ
音声信号をデジタル化するA/D変換部、３はA/D変換部２
でデジタル化された音声信号から音声の特徴を表わす特
徴パラメータを抽出する特徴抽出部である。４は一連の
制御を司どるCPUであり、後述するCPU4の処理手順を格
納するROM、及びCPU4が作業領域として使用するRAMを含
む。５は特徴パラメータ化された入力音声を収納する第
１記憶部、６は登録されている単語音声の標準パターン
が特徴パラメータの形で収納されている音声辞書、７は
第１記憶部５に収納されている特徴パラメータの時系列
と音声辞書６に収納されている標準パターンの１つとの
類似度を計算する類似度計算部である。そして、８は類
似度計算部７により計算された類似度を収納する補助記
憶部である。

９は認識結果を出力する出力端子、10は使用者に対す
るメッセージを音声化する音声合成部、そして、11は音
声合成部10よりの合成音声を出力する音声出力端子であ
る。

＜認識処理の説明（第３図）＞上記構成において、入力端子１より入力された音声信
号は、A/D変換部２によりデジタル化され、次に特徴抽
出部３によつて特徴パラメータの時系列に変換される。
そして、CPU4が特徴抽出部３より送られてくる特徴パラ
メータの時系列から単語の始端と終端とを検出して、始
端から終端までの特徴パラメータの時系列を第１記憶部
５に収納する。なお、音声辞書６には、第３図に示す
「ゼロ」から「イイエ」までの16個の単語に相当する音
声の標準パターンが特徴パラメータの時系列の形として
収納されているので、CPU4は、まず「ゼロ」に対応する
特徴パラメータの時系列の先頭番地を類似度計算部７に
送り類似度計算を開始させる。そして、類似度計算部７
がCPU4より送られて来た番地情報を手がかりとして音声
辞書６に収納されている単語音声の標準パターンと、第
１記憶部５に収納されている入力音声の特徴パラメータ
時系列とから類似度計算を行う。その後、類似度の計算
が終了すると、その計算結果はCPU4に送られて、補助記
憶部８に収納される。

同様にして、音声辞書６の中の２番目の単語「レイ」
から14番目の単語「ク」までの各標準パターンと、第１
記憶部５の中の入力音声の特徴パラメータ時系列との類
似度が逐次計算されて、補助記憶部８に収納される。ま
た、音声辞書６の中の「ハイ」と「イイエ」に対応する
残りの標準パターンは、後述する使用者に対する確認作
業に使用される。

以上の処理が終了すると、次に、CPU4は、補助記憶部
８に収納されている14個の類似度を手がかりとして、入
力音声に対して、以下に示す処理の何れかを行う。

ａ）無条件に正答として認識結果を出力する。

ｂ）使用者に対し、結果の確認を求めた上で認識結果を
出力する。

ｃ）認識不可能として使用者に再入力を求める。

＜判断処理の説明（第４図〜第６図）＞次に、上述の各処理ａ）〜ｃ）を判断する処理を第４
図のフローチヤートに従つて、以下に説明する。

まず、ステツプS1において、補助記憶部８の中の第１
位の類似度C₁を第１の閾値T₁と比較し、閾値T₁より大き
ければステツプS2へ処理を進める。しかし、それ以外の
場合は、ステツプS5へ処理を進める。ここで、第１の閾
値T₁は第５図（ａ）で示すように類似度のかなり大きな
レベルに設定されており、第１位の類似度C₁が閾値T₁よ
り大ならば、対応する標準パターンが正答である可能性
は非常に高く、使用者に認識結果の確認を求める必要は
ない。但し、音声辞書６の中に互いに似かよつた単語が
含まれている場合には、第５図（ｂ）に示すように類似
度の第１位と第２位が共に大きな値を示し、単純に第１
位を正答と判断できない事が考えられる。

そこで、ステツプS2において、第１位の類似度C₁と第
２位の類似度C₂との比C₁/C₂が閾値R₁より大きいかを比
かを判断し、大きければ、第１位類似度を得た単語は、
十分な信頼度を持つ唯一の候補と判断できるので、これ
を正答とし、対応する単語番号を出力端子９に出力す
る。一方、C₁/C₂が閾値R₁以下である場合は、第２位の
類似度も第１位の類似度に匹敵する大きさを持つので、
使用者に対して確認を要求するためにステツプS3に処理
を進める。

次に、ステツプS3では、第ｉ位の類似度をC_iとして、
次式を満たす類似度C_iを持つ全ての単語について第１位
候補から順に使用者に確認を求める。

ここでの確認は、以下の手順で行われる。

１）CPU4が、第ｉ位候補に対応する単語番号と、音声
「デスカ？」に対応する単語番号“0"（図示せず）とを
音声合成部10に送出する。音声合成部10では、この送ら
れて来た単語番号に対応する音声を合成して音声出力端
子11より出力する。例えば送られて来た単語番号が“6"
と“0"であれば、合成音声「サンデスカ？」が音声出力
端子11より出力される。

２）ここで、使用者が合成音声による確認要求に対し
て、「ハイ」か「イイエ」で対応する。

３）使用者からの応答があると、類似度計算部７を用い
て、その入力音声を音声辞書６の中の単語「ハイ」及び
「イイエ」に対応する標準パターンとの類似度を計算
し、「ハイ」に対する類似度が大きい場合には、第ｉ位
候補が正答であると判断する。しかし、「イイエ」に対
する類似度が大きい場合には、式（１）を満たす類似度
C_iを持つ候補がなくなるまで上記処理を繰り返す。

ステツプS3での処理が終了後、ステツプS4で上述の確
認の結果を判断し、正答があれば対応する単語番号を出
力端子９に出力する。しかし、式（１）を満たす類似度
C_iを持つ候補の中に正答がなければ、確認不可能と判断
し、使用者に再入力を要求する。

一方、ステツプS1での条件を満たしていない場合に
は、ステツプS5で第１位の類似度C₁を第２の閾値T₂と比
較し、閾値T₂より大きければステツプS6において、使用
者に確認結果の確認を求める。しかし、それ以外の場合
は、確認不可能と判断して使用者に再入力を求める。こ
れは第５図（Ｃ）で示す場合である。ここで、第２の閾
値T₂は、第５図で示すように第１の閾値T₁より小さい
が、確認可否は決定できる程度の類似度の値に設定され
ている。また、第１位の類似度C₁が閾値T₂を越えていて
も、音声辞書６の中に互いに似かよつた単語が含まれて
いる場合は、第５図（ｄ）で示すように第２位以下の類
似度がC₁に極めて近い事が起こり得る。

そこで、次のステツプS6においては、第ｉ位の類似度
をC_iとして、次式を満たす類似度C_iを持つ全ての単語に
ついて第１位から順に使用者に確認を求める。

なお、この確認の手順はステツプS3における処理と全
く同一であり、説明は省略する。また、ステツプS7での
結果判断もステツプS4と同じである。そして、ステツプ
S6では、ステツプS3での式（１）式を、式（２）に置き
換えて処理を行うものである。

以上の処理を、T₁＝200,T₂＝100,R₁＝1.10,R₂＝1.15
として、第３図に示す14個の単語の認識に適用した例を
以下に説明する。

なお、第３図では、14個の単語について各々の音韻表
記と、音韻の時間的な順序関係を損なわない範囲で他の
単語と一致する最大個数p_iと、単音節の個数が一致し、
かつ同一の位置に同一の単音節が現われる場合に“1"、
その他に“0"を値として持つ単音節のレベルm_i、及び表
記上の最大類似度２・p_i＋m_iとを示している。

例えば、単語「イチ」「シチ」「ハチ」は、共に２単
音節から成り、かつ同一の単音節「チ」を同一の場所に
持つので、m_i＝１である。表記上の最大類似度は、音韻
レベルの類似度P_iに重み２を掛けて、単音節レベルの類
似度m_iに加えたものである。これから知られるように、
この辞書内で確認の容易な単語は「ゼロ」「レイ」など
であり、認識の難しい単語は「イチ」「シチ」などであ
る。

今、明瞭に発生された音声「ゼロ」が入力端子１より
入力されると、音声辞書６との類似度計算の結果、３位
までの類似度として第６図（ａ）で示す値を得た。そこ
で、第４図のフローチヤートに基づき処理を進めると、
ステツプS1において第１位の類似度C₁は225点であり、
閾値T₁＝200を越えている。そこで、ステツプS2に処理
を進め、第２位との類似度の比を求めると、C₁/C₂＝1.9
9と成り、R₁＝1.10よりも大きい値である。その結果、C
PU4は、第１位の類似度を持つ単語「ゼロ」を正答と
し、その単語番号“1"を出力端子９より出力する。

即ち、入力音声に対する第１位候補が十分な類似度を
持ち、かつ他に類似単語が見当らない場合には、使用者
に対する確認処理を行わない。

次に、明瞭に発生された音声「イチ」が入力端子１よ
り入力されると、音声辞書６との類似度計算の結果、３
位までの類似度として第６（ｂ）で示す値を得た。第１
位の類似度は、C₁＝218でやはり閾値T₁を越えている。
そこで、処理をステツプS2に進め、第２位との類似度の
比を求めると、C₁/C₂＝1.09と成り、閾値R₁＝1.10を越
えない。その結果、CPU4は、ステツプS3に処理を進め、
C₁/C_iR₁である全ての単語について使用者による結果
の確認を行う。まず、第１位の単語について、単語番号
“4"と音声「デスカ？」に相当する番号“0"が音声合成
部10に送出され、音声出力端子11より音声「イチデスカ
？」が出力される。これに対して使用者は、この結果が
正答であるので音声「ハイ」で応答する。この音声が入
力端子１より入力され、CPU4は「正」と確認してステツ
プS4での判断の結果、「正答」の確認を得た単語番号
“4"を出力端子９より出力する。

即ち、類似度計算の結果、第１位候補が十分大きな類
似度を得ても、第２位以下に近い類似度を持つ候補があ
れば、処理結果を使用者に確認することにより確認を防
止できる。

また、音声「イチ」が不明瞭に発生されて入力された
場合、音声辞書６との類似度計算の結果として、第６図
（ｃ）で示す値を得た。この場合、第１位候補の類似度
はC₁＝129と成り、第１の閾値T₁を越えないので、CPU4
は、処理をステツプS5に進め、第２の閾値T₂＝100との
比較を行う。その結果、C₁＞T₂が成立し、処理をステツ
プS6に進め、C₁/C_iR₂を満たす全ての単語について、
使用者の確認を求める。まず，第１位候補の単語番号
“11"と番号“0"が音声合成部10に送出され、音声出力
端子11より音声「シチデスカ？」が出力される。これに
対して使用者は、結果が誤答であるので、音声「イイ
エ」で応答する。この音声を入力端子１より入力し、CP
U4は、応答を「否」と確認する。

次に、第２位候補について、C₁/C_iR₂が成立するか
どうかを調べる。その結果、第６図（ｃ）で示すよう
に、C₁/C₂＝1.07で、R₂＝1.15を越えないので、単語番
号“4"と番号“0"を音声合成部10に送出する。そして、
音声出力端子11より音声「イチデスカ？」が出力され
る。これに対して、使用者の応答は、「ハイ」であるか
ら、CPU4は処理をステツプS7に進め、第２位候補の単語
番号“4"を出力端子９より出力して処理を終了する。

即ち、類似度計算の結果、第１位候補が十分な類似度
を持たず、使用者による確認の結果「否」となつても、
第２位以下の近い類似度を持つ候補に対して確認処理を
行うことで、音声の再入力を行わずに正答を得ることが
できる。

以上説明したように、入力音声と音声辞書との類似度
に対する閾値を大小２種類設け、更に、第１位候補と第
２位以下の候補との類似度の比にする閾値を設けること
により、以下に述べるような効果がある。

（１）第１位候補が十分な大きさの類似度を持つ入力音
声に対しては、使用者による確認作業を必要としない。

（２）第１位候補が十分な大きさの類似度を持つ入力音
声でも、第２位以下の候補が第１位候補に匹敵する類似
度を持つ場合、確認処理を行うことにより、類似単語に
よる誤認識を回避できる。

（３）第１位候補が使用者による確認処理の結果正答で
なくても、目的の単語が第２位以下の候補として第１位
候補に匹敵する類似度を持つ場合、再入力せずに正答を
得ることができる。

［発明の効果］以上説明したように、本発明によれば、第一位及び第
二位の類似度の状態に応じて、更に出力する候補を選択
すべきか否かを適切に判断することができ、よって、出
力する候補を選択する処理が効率的かつ効果的に行える
ようになる。

【図面の簡単な説明】

第１図は本実施例における音声確認装置の構成を示すブ
ロツク図、第２図（ａ）〜（ｃ）は従来例での確認処理を説明する
図、第３図は認識対象単語の種類と音韻表記を示す図、第４図は本実施例の確認処理手順を示すフローチヤー
ト、第５図（ａ）〜（ｄ）は本実施例の確認処理の原理を示
す図、第６図（ａ）〜（ｃ）は実際の音声入力に対する類似度
計算の結果を示す図である。図中、１……音声入力端子、２……A/D変換部、３……
特徴抽出部、４……CPU、５……第１記憶部、６……音
声辞書、７……類似度計算部、８……補助記憶部、９…
…出力端子、10……音声合成部、11……音声出力端子で
ある。

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁶，ＤＢ名) G10L 3/00 561

Claims

(57)【特許請求の範囲】

【請求項１】入力音声と音声辞書とを比較して、複数の
認識候補と各認識候補の類似度とを判定し、前記複数の認識候補の類似度の中の、第一位の類似度と
第二位の類似度とを、絶対しきい値及び相対しきい値と
比較して、出力する候補の選択の要否を判定し、前記候補の選択が要と判定された場合に、前記複数の認
識候補の中から、類似度が所定のしきい値を満たす認識
候補を選択し、前記選択された認識候補を出力することを特徴とする音
声処理方法。
【請求項２】前記認識候補を音声合成により出力して前
記認識候補の確認をオペレータに促すことを特徴とする
請求項１に記載の音声処理方法。
【請求項３】複数の絶対しきい値を予め保持し、前記第一位の類似度と第二位の類似度とを、それらの複
数の絶対しきい値と比較することを特徴とする請求項１
に記載の音声処理方法。
【請求項４】入力音声と音声辞書とを比較して、複数の
認識候補と各認識候補の類似度とを判定する類似度判定
手段と、前記複数の認識候補の類似度の中の、第一位の類似度と
第二位の類似度とを、絶対しきい値及び相対しきい値と
比較して、出力する候補の選択の要否を判定する選択処
理要否判定手段と、前記候補の選択が要と判定された場合に、前記複数の認
識候補の中から、類似度が所定のしきい値を満たす認識
候補を選択する認識候補選択手段と、前記選択された認識候補を出力する出力手段とを有する
ことを特徴とする音声処理装置。
【請求項５】前記認識候補を音声合成により出力して前
記認識候補の確認をオペレータに促すことを特徴とする
請求項４に記載の音声処理装置。
【請求項６】更に、複数の絶対しきい値を予め保持する
保持手段を有し、前記選択処理要否判定手段は、前記第一位の類似度と第
二位の類似度とを、それらの複数の絶対しきい値と比較
することを特徴とする請求項４に記載の音声処理装置。