JPH02195398A - 音声処理方法及び装置 - Google Patents

音声処理方法及び装置

Info

Publication number
JPH02195398A
JPH02195398A JP1013096A JP1309689A JPH02195398A JP H02195398 A JPH02195398 A JP H02195398A JP 1013096 A JP1013096 A JP 1013096A JP 1309689 A JP1309689 A JP 1309689A JP H02195398 A JPH02195398 A JP H02195398A
Authority
JP
Japan
Prior art keywords
similarity
result
speech
user
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1013096A
Other languages
English (en)
Other versions
JP2966852B2 (ja
Inventor
Atsushi Sakurai
櫻井 穆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP1013096A priority Critical patent/JP2966852B2/ja
Publication of JPH02195398A publication Critical patent/JPH02195398A/ja
Application granted granted Critical
Publication of JP2966852B2 publication Critical patent/JP2966852B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は音声認識装置に関し、特に、認識結果に対して
使用者に確認を求める確認機能を有する音声認識装置に
関するものである。
[従来の技術] 従来、この種の装置では、まず、入力した音声信号から
抽出した特徴パラメータ時系列と、認識すべき単語毎に
用意されている標準パターンとの類似度を計算する。次
に、この計算により得られた類似度の中で最大のものが
、予め設定されている閾値より大であれば、対応する単
語を候補として使用者に提示し、その認識した単語の確
認を求めている。そして、使用者からの応答が「正」で
あれば、初めてこれを認識結果とするが、応答が「否」
であれば認識不可能として使用者に音声の再入力を求め
るように構成されている。
[発明が解決しようとしている課題] しかしながら、上記従来例では、明瞭に発声された入力
音声に対し、認識すべき単語セットの中に目的の単語の
他に類似単語が存在しない場合、第2図(a)で示すよ
うに第1候補として極めて大きな類似度を持つので、使
用者に確認を求めず直ちに第1候補を認識結果として決
定することが出来る。しかし、従来のこの種の装置では
、このような場合でも、第2図(b)で示す最大の類似
度がさほど大きくない場合と全く同等に扱われ、必ず使
用者に確認が行われるので、極めて操作性が悪かった。
また、認識すべき単語セットの中に類似単語がいくつか
存在する場合には、入力音声がその単語の中の1つであ
れば、類似度計算の結果、第2図(C)の黒丸で示すよ
うに類似度の値が第1候補に近い第2候補や第3候補と
して認識されることが多い。しかし、従来のこの種の装
置では、第1候補だけを使用者に確認させ、その応答が
「否」であれば再入力を要求しているので、使用者は、
類似度計算の結果、目的の単語が第1候補になるまで音
声入力を繰り返さなければならず、使用者に多大の負担
を与えていた。
本発明は、上述従来例の欠点を除去すべく成されたもの
で、認識不可能による再入力回数を大幅に減少させ、使
用者の負担を軽減させるとともに操作性を向上させた音
声認識装置を提供することを目的とする。
[課題を解決するための手段] 上記目的を達成するために、本発明の音声認識装置は、
以下の構成を備える。即ち、 入力音声を特徴パラメータの時系列に変換する特徴抽出
手段と、変換された特徴パラメータの時系列を収納する
第1記憶手段と、認識すべき単語セットの各単語毎の標
準パターンを収納する第2記憶手段と、前記第1記憶手
段に収納された特徴パラメータの時系列と第2記憶手段
に収納された標準パターンとの類似度を計算する類似度
計算手段とを備える音声認識装置において、前記類似度
計算手段よりの類似度と所定閾値とを比較する比較手段
と、該比較手段での比較結果に応じて前記入力音声の認
識結果を特定する特定手段と、該特定手段での特定結果
に対し前記認識結果を出力して確認を求める確認手段と
を備える。
また好ましくは、前記確認手段は、前記認識結果を音声
合成により出力して確認することを特徴とする特 [作用] 以上の構成において、入力音声を特徴パラメータの時系
列に変換し、第1記憶手段に収納する。
そして、その収納された特徴パラメータの時系列と、第
2記憶手段に収納された標準パターンとの類似度を計算
し、その類似度と所定閾値とを比較して、その比較結果
に応じて入力音声の認識結果を特定する。次に、その特
定結果に対し認識結果を出力して確認を求めるように動
作する。
また好ましくは、認識結果を音声合成により出力して確
認するように動作する。
[実施例] 以下、添付図面を参照して本発明に係る好適な一実施例
を詳細に説明する。
く構成の説明 (第1図)〉 第1図は、本実施例における音声認識装置の構成を示す
ブロック図である8図において、1は音声信号を入力す
る入力端子、2は入力端子1より入力されたアナログ音
声信号をデジタル化するA/D変換部、3はA/D変換
部2でデジタル化された音声信号から音声の特徴を表わ
す特徴パラメータを抽出する特徴抽出部である。4は一
連の制御を司どるCPUであり、後述するCPU4の処
理手順を格納するROM、及びCPU4が作業領域とし
て使用するRAMを含む。5は特徴パラメータ化された
入力音声を収納する第1記憶部、6は登録されている単
語音声の標準パターンが特徴パラメータの形で収納され
ている音声辞書、7は第1記憶部5に収納されている特
徴パラメータの時系列と音声辞書6に収納されている標
準パターンの1つとの類似度を計算する類似度計算部で
ある。そして、8は類似度計算部7により計算された類
似度を収納する補助記憶部である。
9は認識結果を出力する出力端子、10は使用者に対す
るメツセージを音声化する音声合成部、そして、11は
音声合成部10よりの合成音声を出力する音声出力端子
である。
く認識処理の説明 (第3図)〉 上記構成において、入力端子1より入力された音声信号
は、A/D変換部2によりデジタル化され、次に特徴抽
出部3によって特徴パラメータの時系列に変換される。
そして、CPU4が特徴抽出部3より送られてくる特徴
パラメータの時系列から単語の始端と終端とを検出して
、始端から終端までの特徴パラメータの時系列を第1記
憶部5に収納する。なお、音声辞書6には、第3図に示
す「ゼロ」から「イイエ」までの16個の単語に相当す
る音声の標準パターンが特徴パラメータの時系列の形と
して収納されているでの、CPU4は、まず「ゼロ」に
対応する特徴パラメータの時系列の先頭番地を類似度計
算部7に送り類似度計算を開始させる。そして、類似度
計算部7がCPU4より送られて来た番地情報を手がか
りとして音声辞書6に収納されている単語音声の標準パ
ターンと、第1記憶部5に収納されている入力音声の特
徴パラメータ時系列とから類似度計算を行う、その後、
類似度の計算が終了すると、その計算結果はCPU4に
送られて、補助記憶部8に収納される。
同様にして、音声辞書6の中の2番目の単語「レイ」か
ら14番目の単語「り」までの各標準パターンと、第1
記憶部5の中の入力音声の特徴パラメータ時系列との類
似度が逐次計算されて、補助記憶部8に収納される。ま
た、音声辞書6の中の「ハイ」と「イイエ」に対応する
残りの標準パターンは、後述する使用者に対する確認作
業に使用される。
以上の処理が終了すると、次に、CPU4は、補助記憶
部8に収納されている14個の類似度を手がかりとして
、入力音声に対して、以下に示す処理の何れかを行う。
a)無条件に正答として認識結果を出力する。
b)使用者に対し、結果の確認を求めた上で認識結果を
出力する。
C)認識不可能として使用者に再入力を求める。
く判断処理の説明 (第4図〜第6図)〉次に、上述の
各処理a)〜C)を判断する処理を第4図のフローチャ
ートに従って、以下に説明する。
まず、ステップS1において、補助記憶部8の中の第1
位の類似度CIを第1の閾値Tlと比較し、閾値T1よ
り大きければステップS2へ処理を進める。しかし、そ
れ以外の場合は、ステップS5へ処理を進める。ここで
、第1の閾値T1は第5図(a)で示すように類似度の
かなり大きなレベルに設定されており、第1位の類似度
C1が閾値Tlより大ならば、対応する標準パターンが
正答である可能性は非常に高く、使用者に認識結果の確
認を求める必要はない。但し、音声辞書6の中に互いに
似かよった単語が含まれている場合には、第5図(b)
で示すように類似度の第1位と第2位が共に大きな値を
示し、単純に第1位を正答と判断できない事が考えられ
る。
そこで、ステップS2において、第1位の類似度C1と
第2位の類似度C2との比CI / C2が閾値R+よ
り大きいかを否かを判断し、太きければ、第1位類似度
を得た単語は、十分な信頼度を持つ唯一の候補と判断で
きるので、これを正答とし、対応する単語番号を出力端
子9に出力する。
一方、C,/C,が閾値R1以下である場合は、第2位
の類似度も第1位の類似度に匹敵する大きさを持つので
、使用者に対して確認を要求するためにステップS3に
処理を進める。
次に、ステップS3では、第1位の類似度をCIとして
、次式を満たす類似度CIを持つ全ての単語について第
1位候補から順に使用者に確認を求める。
ここでの確認は、以下の手順で行われる。
1)CPU4が、第1位候補に対応する単語番号と、音
声「デス力?」に対応する単語番号“○“(図示せず)
とを音声合成部10に送出する。
音声合成部10では、この送られて来た単語番号に対応
する音声を合成して音声出力端子11より出力する。例
えば送られて来た単語番号が“6”と“0”であれば、
合成音声「サンデス力?」が音声出力端子11より出力
される。
2)ここで、使用者が合成音声による確認要求に対して
、「ハイ」か「イイエ」で応対する。
3)使用者からの応答があると、類似度計算部7を用い
て、その入力音声を音声辞書6の中の単語「ハイ」及び
「イイエ」に対応する標準パターンとの類似度を計算し
、「ハイ」に対する類似度が大きい場合には、第1位候
補が正答であると判断する。しかし、「イイエ」に対す
る類似度が大きい場合には、式(1)を満たす類似度C
Iを持つ候補がなくなるまで上記処理を繰り返す。
ステップS3での処理が終了後、ステップS4で上述の
確認の結果を判断し、正答があれば対応する単語番号を
出力端子9に出力する。しかし、式(1)を満たす類似
度C1を持つ候補の中に正答がなければ、確認不可能と
判断し、使用者に再入力を要求する。
一方、ステップS1での条件を満たしていない場合には
、ステップS5で第1位の類似度CIを第2の閾値T2
と比較し、閾値T2より大きければステップS6におい
て、使用者に確認結果の確認を求める。しかし、それ以
外の場合は、確認不可能と判断して使用者に再入力を求
める。これは第5図(C)で示す場合である。ここで、
第2の閾値下、は、第5図で示すように第1の閾値T1
より小さいが、認識可否は決定できる程度の類似度の値
に設定されている。また、第1位の類似度C3が閾値T
2を越えていても、音声辞書6の中に互いに似かよった
単語が含まれている場合は、第5図(d)で示すように
第2位以下の類似度が01に極めて近い事が起こり得る
そこで、次のステップS6においては、第1位の類似度
をCIとして、次式を満たす類似度CIを持つ全ての単
語について第1位から順に使用者に確認を求める。
なお、この確認の手順はステップS3における処理と全
く同一であり、説明は省略する。また、ステップS7で
の結果判断もステップS4と同じである。そして、ステ
ップS6では、ステップS3での式(1)を、式(2)
に置き換えて処理を行うものである。
以上の処理を、T+ =200.Tt =100゜R1
=1.10.Ra =1.15として、第3図に示す1
4個の単語の認識に適用した例を以下に説明する。
なお、第3図では、14個の単語について各々の音韻表
記と、音韻の時間的な順序関係を損なわない範囲で他の
単語と一致する最大個数pt と、単音節の個数が一致
し、かつ同一の位置に同一の単音節が現われる場合に“
1”、その他に“0”を値として持つ単音節のレベルm
+、及び表記上の最大類似度2・p++m+とを示して
いる。
例えば、単語「イチ」 「シチ」 「ハチ」は、共に2
単音節から成り、かつ同一の単音節「チ」を同一の場所
に持つので、m I= 1である0表記上の最大類似度
は、音韻レベルの類似度P1に重み2を掛けて、単音節
レベルの類似度mIに加えたものである。これから知ら
れるように、この辞書内で確認の容易な単語は「ゼロ」
 「レイ」などであり、認識の難しい単語は「イチ」 
「シチ」などである。
今、明瞭に発声された音声「ゼロ」が入力端子1より入
力されると、音声辞書6との類似度計算の結果、3位ま
での類似度として第6図(a)で示す値を得た。そこで
、第4図のフローチャートに基づき処理を進めると、ス
テップS1において第1位の類似度C1は225点であ
り、閾値T+=200を越えている。そこで、ステップ
S2に処理を進め、第2位との類似度の比を求めると、
C+ /Cz =1.99と成り、R,=1.10より
も大きい値である。その結果、CPU4は、第1位の類
似度を持つ単語「ゼロ」を正答とし、その単語番号“1
”を出力端子9より出力する。
即ち、入力音声に対する第1位候補が十分な類似度を持
ち、かつ他に類似単語が見当らない場合には、使用者に
対する確認処理を行わない。
次に、明瞭に発声された音声「イチ」が入力端子1・よ
り入力されると、音声辞書6との類似度計算の結果、3
位までの類似度として第6(b)で示す値を得た。第1
位の類似度は、C,=218でやはり閾値Ttを越えて
いる。そこで、処理をステップS2に進め、第2位との
類似度の比を求めると、C1/Cx =1.09と成り
、閾値R8=1.10を越えない。その結果、CPU4
は、ステップS3に処理を進め、CI / CI≦R+
である全ての単語について使用者による結果の確認を行
う。まず、第1位の単語について、単語番号“4”と音
声「デス力?」に相当する番号“O”が音声合成部10
に送出され、音声出力端子11より音声「イチデス力?
」が出力される。これに対して使用者は、この結果が正
答であるので音声「ハイ」で応答する。この音声が入力
端子1より入力され、CPU4は「正」と確認してステ
ップS4での判断の結果、「正答」の確認を得た単語番
号“4”を出力端子9より出力する。
即ち、類似度計算の結果、第1位候補が十分大きな類似
度を得ても、第2位以下に近い類似度を持つ候補があれ
ば、処理結果を使用者に確認することにより誤認を防止
できる。
また、音声「イチ」が不明瞭に発声されて入力された場
合、音声辞書6との類似度計算の結果として、第6図(
c)で示す値を得た。この場合、第1位候補の類似度は
C,=129と成り、第1の閾値T、を越えないので、
CPU4は、処理をステップS5に進め、第2の閾値T
z=lOOとの比較を行う、その結果、CI > T 
2が成立し、処理をステップS6に進め、CI/ Cr
≦R2を満たす全ての単語について、使用者の確認を求
める。まず、第1位候補の単語番号“11”と番号”0
”が音声合成部10に送出され、音声出力端子11より
音声「シチデス力?」が出力される。
これに対して使用者は、結果が誤答であるので、音声「
イイエ」で応答する。この音声を入力端子1より入力し
、CPU4は、応答を「否」と確認する。
次に、第2位候補について、CI /c+ <Rffi
が成立するかどうかを調べる。その結果、第6図(c)
 で示すよウニ、CI /Ca =1.071?、R2
=1.15を越えないので、単語番号“4”と番号“O
”を音声合成部1oに送出する。そして、音声出力端子
11より音声「イチデスヵ?」が出力される。これに対
して、使用者の応答は、「ハイ」であるから、CPU4
は処理をステップS7に進め、第2位候補の単語番号“
4”を出力端子9より出力して処理を終了する。
即ち、類似度計算の結果、第1位候補が十分な類似度を
持たず、使用者による確認の結果「否」となっても、第
2位以下の近い類似度を持つ候補に対して確認処理を行
うことで、音声の再入力を行わずに正答を得ることがで
きる。
以上説明したように、入力音声と音声辞書との類似度に
対する閾値を大小2種類設け、更に、第1位候補と第2
位以下の候補との類似度の比に対する閾値な設けること
により、以下に述べるような効果がある。
(1)第1位候補が十分な大きさの類似度を持つ入力音
声に対しては、使用者による確認作業を必要としない。
(2)第1位候補が十分な大きさの類似度を持つ入力音
声でも、第2位以下の候補が第1位候補に匹敵する類似
度を持つ場合、確認処理を行うことにより、類似単語に
よる誤認識を回避できる。
(3)第1位候補が使用者による確認処理の結果正答で
なくても、目的の単語が第2位以下の候補として第1位
候補に匹敵する類似度を持つ場合、再入力せずに正答を
得ることができる。
[発明の効果] 以上説明したように本発明によれば、認識不可能による
再入力回数を大幅に減少させ、使用者の負担を軽減させ
るとともに、操作性を向上させることができる。
【図面の簡単な説明】
第1図は本実施例における音声認識装置の構成を示すブ
ロック図、 第2図(a)〜(C)は従来例での認識処理を説明する
図、 第3図は認識対象単語の種類と音韻表記を示す図、 第4図は本実施例の確認処理手順を示すフローチャート
、 第5図(a)〜(d)は本実施例の確認処理の原理を示
す図、 第6図(a)〜(C)は実際の音声入力に対する類似度
計算の結果を示す図である。 図中、1・・・音声入力端子、2・・・A/D変換部、
3・・・特徴抽出部、4・・・CPU、5・・・第1記
憶部、6・・・音声辞書、7・・・類似度計算部、8・
・・補助記憶部、9・・・出力端子、10・・・音声合
成部、11・・・音声出力端子である。 (C) (b) 第3図 (触似厚) (和rtlt) (瞭侭お (lI似1)

Claims (2)

    【特許請求の範囲】
  1. (1)入力音声を特徴パラメータの時系列に変換する特
    徴抽出手段と、変換された特徴パラメータの時系列を収
    納する第1記憶手段と、認識すべき単語セットの各単語
    毎の標準パターンを収納する第2記憶手段と、前記第1
    記憶手段に収納された特徴パラメータの時系列と第2記
    憶手段に収納された標準パターンとの類似度を計算する
    類似度計算手段とを備える音声認識装置において、 前記類似度計算手段よりの類似度と所定閾値とを比較す
    る比較手段と、該比較手段での比較結果に応じて前記入
    力音声の認識結果を特定する特定手段と、該特定手段で
    の特定結果に対し前記認識結果を出力して確認を求める
    確認手段とを備えることを特徴とする音声認識装置。
  2. (2)前記確認手段は、前記認識結果を音声合成により
    出力して確認することを特徴とする請求項第1項に記載
    の音声認識装置。
JP1013096A 1989-01-24 1989-01-24 音声処理方法及び装置 Expired - Fee Related JP2966852B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1013096A JP2966852B2 (ja) 1989-01-24 1989-01-24 音声処理方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1013096A JP2966852B2 (ja) 1989-01-24 1989-01-24 音声処理方法及び装置

Publications (2)

Publication Number Publication Date
JPH02195398A true JPH02195398A (ja) 1990-08-01
JP2966852B2 JP2966852B2 (ja) 1999-10-25

Family

ID=11823622

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1013096A Expired - Fee Related JP2966852B2 (ja) 1989-01-24 1989-01-24 音声処理方法及び装置

Country Status (1)

Country Link
JP (1) JP2966852B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000214879A (ja) * 1999-01-20 2000-08-04 Sony Internatl Europ Gmbh 音声認識装置の適応化方法
JP2002536691A (ja) * 1999-02-08 2002-10-29 クゥアルコム・インコーポレイテッド 音声認識除去方式
JP2008241933A (ja) * 2007-03-26 2008-10-09 Kenwood Corp データ処理装置及びデータ処理方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000214879A (ja) * 1999-01-20 2000-08-04 Sony Internatl Europ Gmbh 音声認識装置の適応化方法
JP2002536691A (ja) * 1999-02-08 2002-10-29 クゥアルコム・インコーポレイテッド 音声認識除去方式
JP2008241933A (ja) * 2007-03-26 2008-10-09 Kenwood Corp データ処理装置及びデータ処理方法

Also Published As

Publication number Publication date
JP2966852B2 (ja) 1999-10-25

Similar Documents

Publication Publication Date Title
JP2642055B2 (ja) 音声認識装置及び方法
US5912949A (en) Voice-dialing system using both spoken names and initials in recognition
JP4867804B2 (ja) 音声認識装置及び会議システム
US7974843B2 (en) Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
US20040148161A1 (en) Normalization of speech accent
WO1996036042A1 (en) Improving the reliability of word recognizers
KR100531549B1 (ko) 음성 인식 입력 음성의 음정 정규화 장치
JP2955297B2 (ja) 音声認識システム
US6230126B1 (en) Word-spotting speech recognition device and system
JPH02195398A (ja) 音声処理方法及び装置
US5751898A (en) Speech recognition method and apparatus for use therein
US4790017A (en) Speech processing feature generation arrangement
JPH0743599B2 (ja) 音声認識用コンピュータ・システム
JP2980382B2 (ja) 話者適応音声認識方法および装置
JP4622106B2 (ja) 人物特定システム
JP3465334B2 (ja) 音声対話装置及び音声対話方法
JPH11212587A (ja) 音声認識における雑音適応方法
EP1422691B1 (en) Method for adapting a speech recognition system
US8688452B2 (en) Automatic generation of distractors for special-purpose speech recognition grammars
JPS5855993A (ja) 音声デ−タ入力装置
JPH09160592A (ja) 音声認識方法及び音声認識装置
JPH11184492A (ja) 話者認識装置及びその方法
JPS62226196A (ja) 標準パタン逐次学習方式
JPH05197397A (ja) 音声認識方法及びその装置
JPH0449719B2 (ja)

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070813

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080813

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees