JP2001175279A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JP2001175279A
JP2001175279A JP35674899A JP35674899A JP2001175279A JP 2001175279 A JP2001175279 A JP 2001175279A JP 35674899 A JP35674899 A JP 35674899A JP 35674899 A JP35674899 A JP 35674899A JP 2001175279 A JP2001175279 A JP 2001175279A
Authority
JP
Japan
Prior art keywords
phrase
likelihood
speech
word
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP35674899A
Other languages
English (en)
Inventor
Tatsuya Kyomitsu
達哉 京光
Koichi Kojima
康一 小島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP35674899A priority Critical patent/JP2001175279A/ja
Publication of JP2001175279A publication Critical patent/JP2001175279A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Navigation (AREA)

Abstract

(57)【要約】 【課題】 話者に煩わしさを与えず、かつ対話時間の短
縮及び認識結果の正解率の向上を達成する音声認識方法
を提供すること。 【解決手段】 音声入力V1の後に認識すべき語句との
尤度L1・L2により音声認識を行う音声認識方法にお
いて、入力された音声aに対して尤度が最も大きくなる
語句a1を正しい認識結果である可能性が最も大きい第
1位の語句として定め、この第1位の語句a1よりも尤
度が小さい第2位以下の語句b1・c1…と第1位の語
句a1との尤度差をそれぞれ求め、第1位の語句a1と
の尤度差が所定値以下となる第2位以下の語句b1・c
1…及び前記第1位の語句a1を候補語句W1として特
定し、この特定された候補語句W1をまとめて音声出力
M1した後に再度入力された音声a0に基づいて最終認
識結果たる認識語句Wを特定する構成とした。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、話者に対して復唱
確認を実施することにより最終認識結果たる認識語句を
特定する音声認識方法に関するものである。
【0002】
【従来の技術】近年、音声認識に関する研究が盛んに行
われている。音声認識は、一般的には入力された音声を
分析して得られる音声の特徴を表すパラメータからなる
入力パターンをデータ処理し、この未知の入力パターン
と予め複数の音声についてデータベース化された登録パ
ターン(辞書データ)とをパターンマッチングによって
比較し、距離の小さい(すなわち、尤度の大きい)辞書
データの登録パターンを認識結果として出力する方法が
とられる。ここで尤度(距離)は、音声認識結果の候補
の尤もらしさを表すパラメータであり、音声のスペクト
ル的な揺らぎと時間的な揺らぎを多数の学習サンプルに
よって統計的にモデル化する隠れマルコフモデル(Hidd
en Markov Model)などにより求められる。
【0003】具体的な音声認識としては、例えば、特公
昭64−11960号公報に、未知入力単音節音声と登
録済単音節音声とを照合した後、その照合結果に基づき
複数の再照合候補単音節を登録済単音節音声より選出
し、再照合を行う単音節音声認識方式が開示されてい
る。この単音節音声認識方式では、未知入力単音節音声
と登録済単音節音声との距離を所定の定義の下に算出
し、この距離の小さい順に音声認識順位を定めるように
ている。しかし、この単音節音声認識方式では、距離に
よってのみ候補を定めるので、認識結果の出力の中にま
ったく見当違いの候補がノイズとして入り込みやすいと
いう問題がある。
【0004】これに対して、特開平10−207486
号公報に記載の対話型音声認識方法は、先ず、隠れマル
コフモデルなどにより尤度を求め、次に、1位の音声認
識結果の尤度と2位以下の各音声認識結果の尤度との差
である尤度差を求める。そして、予め定めてある尤度差
閾値に基づいて、音声認識が適正に実施されたものと認
識されたもののみを認識結果の正解の候補として定め、
復唱確認の操作を実施する。この対話型音声認識方法
は、尤度に加えて尤度差閾値に基づいて認識結果の正解
の候補を特定し復唱確認するので、前記したようなノイ
ズが排除され、音声対話時間の短縮及び認識精度の向上
を図ることができる。
【0005】
【発明が解決しようとする課題】ところで、この対話型
音声認識方法における復唱認識は、尤度差が尤度差閾値
以下となるn個の認識結果(1位の認識結果を含む)が
存在する場合、つまり、どれが正解かわからない語句が
n個ある場合、次のように行われる。先ず、1位の認識
結果を復唱確認ガイダンスして利用者(話者)に復唱さ
せて確認語の認識処理を行い、次に2位の認識結果を復
唱確認ガイダンスして利用者に復唱させ確認語の認識処
理を行い、・・最後にn位の認識結果を復唱ガイダンス
して利用者に復唱させ確認語の認識処理を行う。なお、
途中で認識結果が確定したらそこで処理を中止する。
【0006】つまり、この対話型音声認識方法では、認
識結果が確定しない場合は、尤度差閾値以下という条件
で選択されたn個の認識結果を、n回ガイダンスしなけ
ればならないと共に、利用者がn回復唱した音声をn回
認識しなければならない。一方、話者たる利用者は、n
回ガイダンスを聞いてn回復唱確認させられることにな
る。また、1位と2位の2個の認識結果しかない場合で
も、2位の認識結果が正しいときやいずれの認識結果も
正しくないときは、話者は2度ガイダンスを聞かされ2
度復唱させられることになる。従って、話者はユーザイ
ンターフェイス上、極めて煩わしい操作を強いられると
いう問題がある。また、結果として、音声対話時間の短
縮及び話者から見た認識結果の正解率の向上になってい
ないという問題がある。そこで、本発明は、話者に煩わ
しさを与えず、かつ対話時間の短縮及び認識結果の正解
率の向上を達成する音声認識方法を提供することを主た
る目的とする。
【0007】
【課題を解決するための手段】本発明者らは、復唱確認
を行う音声認識方法において、話者に多大な煩いを与
え、かつ最も時間を要するのが、話者の確認を得るステ
ップにあることを見い出し、このステップにおける話者
の煩いや処理時間を大幅に削減すべく鋭意研究を行い、
本発明を完成するに至った。すなわち、上記課題を解決
した本発明は、音声入力の後に認識すべき語句との尤度
により音声認識を行う音声認識方法において、入力され
た音声に対して尤度が最も大きくなる語句を正しい認識
結果である可能性が最も大きい第1位の語句として定め
る。次に、第1候補の語句よりも尤度が小さい第2位以
下の語句と前記第1位の語句との尤度差をそれぞれ求
め、前記第1位の語句との尤度差が所定値以下となる前
記第2位以下の語句及び前記第1位の語句を候補語句と
して特定する。そして、この特定された候補語句をまと
めて音声出力した後に再度入力された音声に基づいて最
終認識結果たる認識語句を特定することを特徴とする。
【0008】この構成によれば、第1位の語句との尤度
差が所定値以下となる第2位以下の語句及び第1位の語
句が、正解の候補たる候補語句として特定されるが、こ
の候補語句はまとめて音声出力される。音声入力を行う
話者は、このまとめて音声出力された候補語句を踏まえ
て再度音声の入力(実施の形態でいう「確認音声の入
力」)を行い、正解の語句を特定する。従って、話者
は、何度も応答する必要がなく、認識語句を特定する際
の煩わしさが解消される。同時に、処理時間(対話時
間)の短縮及び話者から見た認識結果の正解率の向上が
達成される。この構成において、(1)再度入力された
音声に対して尤度が最も大きくなる第1位の語句(実施
の形態における「第1位の確認語句」)と同第2位以下
の語句の尤度を比較し、尤度差が所定値以上ある場合
は、再度入力された音声に対して尤度がもっとも大きく
なる第1位の語句を最終結果たる認識語句として特定す
るのが好ましい。候補語句が音声出力された後に再度入
力された音声は、的が絞られており正解の可能性が高い
からである。また、この構成において、(2)再度音声
入力された音声に対して尤度が最も大きくなる第1位の
語句と同第2位以下の語句の尤度差が所定値以下となる
第2位以下の語句が存在する場合は、最初に音声入力し
た音声(実施の形態でいう「入力音声」)に対して特定
された候補語句の尤度(順位)及び語句の対応関係に基
づいて最終認識結果たる認識語句を特定するのが好まし
い。
【0009】なお、請求項の用語「まとめて」とは、例
えば、特定された候補語句が4つあるとした場合、こ
れを1回で全て音声出力する場合、最初に2つの候補
語句を音声出力し、この後に残りの2つの候補語句を音
声出力する場合、最初に3つの候補語句を音声出力
し、この後に残りの1つの候補語句を音声出力する場合
(その逆)などを含む。また、請求項の用語「所定値」
は、この値を大きく設定すると復唱確認を行うべき候補
語句の数が多くなりすぎ、話者に煩いを与えてしまう。
また、見当違いの誤った語句がノイズとして候補語句の
中に多く含まれることになる。一方、所定値を小さく設
定すると、正しい語句が候補語句の中に含まれなくな
る。従って、所定値は、これら利益・不利益を比較考量
して定められる。なお、所定値は、単語(連語)ごとに
定めることができる。
【0010】
【発明の実施の形態】以下、本発明に係る実施の形態の
音声認識方法を、図面を参照して詳細に説明する。図1
は、本実施形態の音声認識方法が適用される音声認識装
置の機能ブロック図である。図2は、本実施形態の音声
認識方法を示すフローチャートである。図3は、図2の
フローチャートに具体的な入力音声などを当てはめたも
のである。
【0011】〔音声認識装置の構成〕先ず、本実施形態
の音声認識方法が適用される音声認識装置を、図1を参
照して説明する。音声認識装置Eは、マイクロフォン
1、音声入力部2、音声分析部3、尤度付与部4、音声
辞書記憶部5、候補語句特定部6、確認語句特定部7、
尤度差閾値記憶部8、認識語句特定部9、メッセージ作
成部10、音声合成出力部11及びスピーカ12を含ん
で構成される。
【0012】マイクロフォン1は、話者が発した音声を
電気信号に変換して音声認識装置Eに入力する。音声入
力部2は、アナログ信号をデジタル信号に変換するA/
Dコンバータである。ここで、話者が発する音声は2種
類ある。1つは音声認識装置Eに認識させたい入力音声
V1、もう1つは音声認識装置Eの復唱確認の要求に応
じて入力する確認のための確認音声V2である。
【0013】音声認識処理部E’は、音声分析部3、尤
度付与部4及び音声辞書記憶部5を含んで構成される。
音声分析部3は、単語(連語を含む)ごとに入力音声V
1及び確認音声V2の特徴量を抽出する。入力音声V1
を例にすると、尤度付与部4は、音声分析部3からのデ
ータに基づいて、多数の単語(連語を含む)の特徴量が
記憶された音声辞書記憶部5を検索して尤度L1を付与
すると共に、尤度L1が大きい順に文字列からなる語句
(単語)W1’を音声辞書記憶部5から所定数を選出す
る。尤度L1は語句W1’ごとに付与されるが、特徴量
の抽出を含む尤度付与の方法としては、前記した隠れマ
ルコフモデルなどがある。
【0014】ちなみに、この音声認識処理部E’で選出
されて尤度L1が付与される語句W1’の数は、次の、
候補語句特定部6で特定される候補語句W1の数よりも
少なくなることはない。この音声認識処理部E’は、入
力音声V1に対しては、語句W1’及び尤度L1が対に
なったデータD1’を候補語句特定部6に出力する。一
方、確認音声V2に対しては、語句W2’及び尤度L2
が対になったデータD2’を確認語句特定部7に出力す
る。なお、確認音声V2に対して音声辞書記憶部5を検
索する際は、既に出力された語句W1’などに基づい
て、音声辞書記憶部5における検索範囲を限定してもよ
い。これにより、語句W2’の選出時間を短縮すること
ができる。ここで、符号V、W及びLなどに付加される
「1」及び「2」は、「1」が話者が最初に入力する入
力音声に対するもの、「2」が話者が2度目に入力する
確認音声に対するものであることを示す識別子である。
【0015】次に、候補語句特定部6は、復唱確認の候
補となる候補語句W1を特定してリストアップする。こ
の候補語句特定部6は、音声認識処理部E’から出力さ
れたデータD1’の中から、入力音声V1に対して尤度
L1が最も大きい第1位の語句W1’を先ず候補語句W
1として特定する。次に、候補語句特定部6は、尤度差
閾値記憶部8に記憶された尤度差閾値Lth(特許請求の
範囲における「所定値」)を、第1位の語句W1’をキ
ーとして検索して読み込む。ちなみに、尤度差閾値Lth
は、単語ごとに設置されている。そして、第2位以下の
語句W1’と第1位の語句W1’の尤度差を順次求め、
この尤度差が尤度差閾値Lthよりも小さくなる語句W
1’を候補語句W1として順次特定する。通常候補語句
W1の数は1〜5程度である。このように特定した候補
語句W1は、データD1として、認識語句特定部9及び
メッセージ作成部10に出力される。
【0016】確認語句特定部7は、話者の復唱確認に対
して確認語句W2を特定してリストアップする。先ず、
この確認語句特定部7は、音声認識処理部E’から出力
されたデータD2’の中から、確認音声V2に対して尤
度L2が最も大きい第1位の語句W2’を確認語句W2
として特定する。次に、確認語句特定部7は、尤度差閾
値記憶部8に記憶された尤度差閾値Lthを、第1位の語
句W2’をキーとして検索して読み込む。そして、第2
位以下の語句W2’と第1の語句W2’の尤度差を順次
求め、この尤度差が尤度差閾値Lthよりも小さくなる語
句W2’を確認語句W2として順次特定する。このよう
に特定した確認語句W2は、データD2として、認識語
句特定部9に出力される。
【0017】認識語句特定部9は、候補語句W1及び/
又は確認語句W2に基づいて、候補語句W1の中から最
終認識結果たる認識語句Wを特定する。認識語句の特定
は、以下のような基準に基づいて行われる。 候補語句W1が1つしか特定されない場合は、1つし
か特定されなかった候補語句W1を認識語句Wとする。
つまり、候補語句特定部6において、第1位と第2位の
語句W1’の尤度差が尤度差閾値Lth以上あり、第1位
の候補語句W1が正解である可能性が極めて高い場合で
ある。 確認語句W2が1つしか特定されない場合は(候補語
句W1は複数)、1つしか特定されなかった確認語句W
2に対応する候補語句W1を認識語句Wとする(1つだ
け)。なお、確認語句W2を認識語句Wとしてもよい。 確認語句W2が複数ある場合は(候補語句W1も複
数)、候補語句W1の第1位の語句(尤度L1が最も大
きいもの)と確認語句W2の第1の語句(尤度L2が最
も大きいもの)が対応するものであれば、候補語句W1
の第1位の語句(あるいは確認語句W2の第1位の語
句)を最終認識結果たる認識語句Wとする(1つだ
け)。 前記〜以外の場合は確認語句Wを特定しない。こ
のようにして特定した認識語句Wは、データDとしてメ
ッセージ作成部10に出力される。なお、認識語句Wが
特定できない場合は、データDにはエラーデータが入
る。ちなみに、のように候補語句Wが1つしか特定さ
れない場合でも、話者に復唱確認させることで認識語句
Wを特定してもよい。
【0018】メッセージ作成部10は、候補語句特定部
6から送信されるデータD1に基づいて、確認語入力の
ため(復唱確認を行わせるため)のメッセージM1を作
成し、音声合成出力部11に送信する。メッセージM1
は、候補語句W1が複数ある場合は、これをまとめて音
声出力するように作成される。まとめて音声出力するこ
とにより、話者は、何度も候補語句W1を聞いてその都
度応答しなければならないという煩わしさから解消され
る。同時に、音声認識までの処理時間の短縮及び実質的
な認識率の向上を達成することができる。但し、候補語
句W1が1つしか特定されないときで、これを認識語句
Wとする場合は、メッセージM1の作成を行わない。ま
た、メッセージ作成部10は、認識語句特定部7から送
信されるデータDに基づいて、最終認識結果を出力する
ためのメッセージM2を作成し、音声合成出力部11に
送信する。
【0019】音声合成出力部11は、メッセージ作成部
10からのメッセージM1,M2に基づいて音声を合成
し、スピーカ12に出力する。スピーカ12は、音声を
出力する。
【0020】なお、他システム20は、認識語句特定部
9が特定した認識語句Wに基づいて動作するカーナビゲ
ーションシステムであったり、空調システムであったり
などする。
【0021】〔音声認識方法〕次に、本実施形態の音声
認識方法を、前記した音声認識装置E及び図2のフロー
チャートを例にして説明する。 (I)認識させたい音声の入力〜候補語句の出力まで;
話者が音声入力装置Eのマイクロフォン1に、認識させ
たい音声を入力する。すると音声入力部2でデジタル信
号の入力音声V1に変換され、音声認識処理部E’に入
力される(S1)。ちなみに、認識させたい音声の入力
値を「a」とする。
【0022】音声認識処理部E’では、隠れマルコフモ
デルなどに基づいてデータ処理を行い、入力音声V1に
対応して尤度L1が大きい順に文字列からなる語句W
1’を所定数選出する。そして、この語句W1’と尤度
L1が対になったデータD1’を候補語句特定部6に出
力する(S2)。ここでの語句W1’の内容は「a1,
b1,c1,d1・・」であり、尤度L1の内容は「L
1a,L1b,L1c,L1d・・」であるとする。な
お、L1a>=L1b>=L1c>=L1d・・であ
る。
【0023】候補語句特定部6では、先ず、語句W1’
のうち尤度L1が最も大きい「a1」を候補語句W1と
して特定する。次に、この「a1」をキーとして尤度差
閾値記憶部8から尤度差閾値Lthを読み込む。そして、
それぞれの尤度差を求めると共に、尤度差閾値Lthと比
較し、尤度差が尤度差閾値Lthよりも小さくなる語句W
1’を候補語句W1として順次特定する(S3,S
4)。ここでは、候補語句W1の内容は、「a1」と
「b1」とする。なお、尤度差が尤度差閾値Lthよりも
小さくなる語句W1’がない場合は、「a1」が認識語
句特定部9において、認識語句Wとして特定される(S
5)。
【0024】候補語句W1が複数特定されると、話者に
復唱確認を促すメッセージM1がメッセージ作成部10
で作成され、音声合成出力部11を経てスピーカ12か
ら出力される(S6)。メッセージM1の内容は、例え
ば、「a1ですか?、b1ですか?、復唱確認してくだ
さい!」などである。あるいは、「1番『a1』ですか
?、2番『b1』ですか?、番号で復唱確認してくださ
い!」とのメッセージM1を出力して、話者に番号を入
力させるようにしてもよい。候補語句W1が特定できる
ものであれば、番号でも符号でも何でもよい。いずれの
メッセージM1でも、候補語句W1がまとめて出力され
る。出力する順序は問わない。
【0025】(II)復唱確認のための音声入力〜最後ま
で;話者は、この音声に促されて、マイクロフォン1に
復唱確認すべく意図する確認音声を入力する。すると音
声入力部2でデジタル信号の確認音声V2に変換され、
音声認識処理部E’に入力される(S7)。ちなみに、
復唱確認する音声の入力値を「a0」とする。なお、正
解がない場合は、別に定めた正解がない旨の確認音声を
入力してもよい。このようにまとめて候補語句W1を出
力することで、候補語句W1に正解がある場合でも正解
がない場合でも、迅速に音声認識処理を行うことができ
る。
【0026】確認音声V2が入力された音声認識処理部
E’では、入力音声V1のときと同様に処理を行い、確
認音声V2に対応して尤度L2が大きい順に文字列から
なる語句W2’を所定数選出する。そして、この語句W
2’と尤度L2が対になったデータD2’を認識語句特
定部7に出力する(S8)。ここでの語句W2’の内容
は「a2,b2,c2,d2・・」であり、尤度L2の
内容は「L2a,L2b,L2c,L2d・・」である
とする。なお、L2a>=L2b>=L2c>=L2d
・・である。
【0027】確認語句特定部7では、語句W2’のうち
尤度L2が最も大きい語句「a2」をまず特定する。次
に、この「a2」をキーとして尤度差閾値記憶部8から
尤度差閾値Lthを読み込む。そして、それぞれの尤度差
を求めると共に、尤度差閾値Lthと比較し、尤度差が尤
度差閾値Lthよりも小さくなる語句を確認語句W2とし
て順次特定する(S9)。
【0028】ここで、最終結果である認識語句Wは、次
のように特定される。 候補語句W1が複数特定され、確認語句W2が1つし
か特定されない場合は、確認語句W2の内容である「a
2」に対応する候補語句W1、つまり「a1」が認識語
句Wになる(S10)。なお、「a2」を認識語句Wと
してもよい。確認語句W2は、ガイダンスを受けた後に
入力される確認音声V2に基づいているため、より的が
絞られており、正解の確率が高いからである。 確認語句W2も複数特定された場合は、入力音声V1
に対して尤度L1が最も大きくなる候補語句W1と、確
認音声V2に対して尤度L2が最も大きくなる確認語句
W2(第1位同士が)が対応するか否かを判断し(S1
1)、対応しない場合は音声認識を行うことができなか
ったとする(S12)。例えば、前者の語句W1が「a
1」であり、後者の語句が「b2」の場合である(a1
とa2が対応し、b1とb2が対応するとした場合)。 前記ステップS11において、入力音声V1に対して
尤度が最も大きくなる語句W1と、確認音声V2に対し
て尤度L2が最も大きくなる語句が対応する場合(第1
位同士が対応する場合)は、確認音声V2に対して尤度
L2が最も大きくなる語句「a2」に対応する候補語句
W1、つまり「a1」が認識語句Wになる(S13)。
なお、前記と同様の理由で、「a2」をそのまま認識
語句Wとしてもよい。
【0029】そして、最終認識結果たる認識語句Wが特
定されると、これを話者に知らせるメッセージM2がメ
ッセージ作成部10で作成され、音声合成出力部11を
経てスピーカ12から出力される(S14)。メッセー
ジM2の内容は、例えば、「認識結果はa1(又はa
2)です。了解しました!」などである。このように音
声認識処理を行うことで、例え候補語句W1が多数あり
(例えばa1,b1,c1,d1)かつ第1位の候補語
句W以外のもの(例えばd1)が正解の場合でも、ある
いは、候補語句W1の中に正解がない場合でも、話者は
煩いを受けることがなく、また音声認識処理の時間も大
幅に短縮することができるなどの顕著な利益が得られ
る。
【0030】前記した一連の動作を、図3のフローチャ
ートを用いてさらに具体的に説明する。先ず、話者が
「オカヤマケンオカヤマシ」と音声入力を行う(S2
1)。これを受けて音声認識処理により、第1位の語句
W1’としてa1「ワカヤマケンワカヤマシ」が尤度L
1aで、第2位の語句W1’としてb1「オカヤマケン
オカヤマシ」が尤度L1bで2つ選出される(S2
2)。
【0031】次に、第1位と第2位の語句W1’の尤度
差が尤度差閾値Lth以下であるか否かが比較判断される
(S23)。ここでは、尤度差が尤度差閾値Lth以下で
あるので、候補語句W1として「ワカヤマケンワカヤマ
シ」及び「オカヤマケンオカヤマシ」の2つが特定され
る(S24)。
【0032】すると、候補語句W1がスピーカ12から
まとめてガイダンス(出力)される(S25)。その内
容は「『ワカヤマシ』ですか?『オカヤマシ』ですか?
復唱下さい!」などである。このようにまとめて候補語
句をガイダンスして話者に知らせることにより、音声認
識処理を迅速に行うことができる。殊に、意図する語句
の候補語句Wとしての順位が低くい場合や存在しない場
合などは、話者は不要な応答操作を何度も行う必要がな
く、煩わしさから開放される。なお、この図3のフロー
チャートでは、話者はガイダンスに促されて「オカヤマ
シ」との確認音声を音声入力する(S26)。
【0033】話者による確認音声の音声入力を受けて、
音声認識処理を行い、第1位の語句W2’としてa2
「オカヤマシ」が尤度L2aで、第2位の語句W2’と
してb2「ワカヤマシ」が尤度L2bで選出される(S
27)。
【0034】この図3のフローチャートでは、尤度L2
aと尤度L2bの尤度差が尤度差閾値Lthよりも大きい
ので、「オカヤマシ」が確認語句W2として特定される
(S28,S29)。そして、「オカヤマシ」に対応し
た候補語句W1「オカヤマケンオカヤマシ」が認識語句
Wとしてスピーカ12から出力される(S30)。な
お、「オカヤマシ」を出力してもよい。
【0035】ところで、尤度L2aと尤度L2bとの尤
度差が尤度差閾値Lth以下の場合は、一点鎖線のステッ
プS31に示すように(また、既に説明したように)、
第1回目の音声入力(入力音声V1)のときの第1位
の候補語句W1と、第2回目の音声入力(確認音声V
2)のときの第1位の確認語句W2の対応関係を比較判
断して、認識語句Wを特定する。
【0036】このように、本実施形態の音声認識方法に
よれば、候補語句が複数ある場合は、まとめて出力して
話者にガイダンスするので、話者は復唱確認(応答操
作)を何度もしなければならないという煩いから開放さ
れる。また、音声認識の処理時間も短縮されるなどの大
きな利益が得られる。
【0037】以上説明した本実施形態は、前記した発明
の実施の形態に限定されることなく、幅広く変形実施す
ることができる。例えば、尤度(距離)の算出も隠れマ
ルコフモデルに限定されるものではない。また、候補語
句が2以上ある場合に、意図する候補語句がガイダンス
(出力)された時点で、話者が音声を発生することによ
り割り込み処理が行えるようにする構成とすることもで
きる。このようにすることで、話者は、ガイダンスを最
後まで聞く必要がなくなり、音声認識の処理時間をさら
に短縮することができる。また、例えば、音声認識方法
が実施される音声認識装置は、ハードウェア的に構成す
ることもソフトウェア的に構成することもできる。ちな
みに、ハードウェア的に構成した場合は、処理速度を速
めることが可能となる。なお、この音声認識方法は、例
えば、自動車などの移動体に搭載されるナビゲーション
装置、エアコン装置やAV装置など、あるいは、今後普
及するETC(自動料金収受システム)やVICS(道
路交通情報通信システム)などITS(次世代交通シス
テム)に関連した機器などを音声命令により制御する際
のユーザインターフェイスとして好適に使用することが
できる。
【0038】
【発明の効果】以上説明したように、本発明に係る音声
認識方法によれば、候補語句をまとめて音声出力するの
で、ユーザインターフェイス上、話者に不必要な煩いを
与えることがない。また、音声認識処理の時間及び話者
から見た認識率の向上を達成することができる。つま
り、本発明に係る音声認識方法は、音声認識処理におい
て最も煩わしく時間を要する部分を、大幅に改善するも
のである。従って、音声認識により作動する装置のユー
ザインターフェイスとして、好適に使用することができ
る。
【図面の簡単な説明】
【図1】 本発明に係る実施形態の音声認識方法が適
用される音声認識装置の機能ブロック図である。
【図2】 本発明に係る実施形態の音声認識方法を示
すフローチャートである。
【図3】 図2のフローチャートに具体的な入力音声
などを当てはめたものである。
【符号の説明】
W 認識語句 W1’ 語句(入力音声に対して選出される) W1 候補語句(W1’の中から特定される) W2’ 語句(確認音声に対して選出される) W2 確認語句(W2’の中から特定される) L1 尤度 L2 尤度 Lth 尤度差閾値 V1 入力音声 V2 確認音声

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 音声入力の後に認識すべき語句との尤
    度により音声認識を行う音声認識方法において、 入力された音声に対して尤度が最も大きくなる語句を正
    しい認識結果である可能性が最も大きい第1位の語句と
    して定め、 この第1位の語句よりも尤度が小さい第2位以下の語句
    と前記第1位の語句との尤度差をそれぞれ求め、前記第
    1位の語句との尤度差が所定値以下となる前記第2位以
    下の語句及び前記第1位の語句を候補語句として特定
    し、 この特定された候補語句をまとめて音声出力した後に再
    度入力された音声に基づいて最終認識結果たる認識語句
    を特定すること、を特徴とする音声認識方法。
JP35674899A 1999-12-16 1999-12-16 音声認識方法 Pending JP2001175279A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP35674899A JP2001175279A (ja) 1999-12-16 1999-12-16 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP35674899A JP2001175279A (ja) 1999-12-16 1999-12-16 音声認識方法

Publications (1)

Publication Number Publication Date
JP2001175279A true JP2001175279A (ja) 2001-06-29

Family

ID=18450583

Family Applications (1)

Application Number Title Priority Date Filing Date
JP35674899A Pending JP2001175279A (ja) 1999-12-16 1999-12-16 音声認識方法

Country Status (1)

Country Link
JP (1) JP2001175279A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006184669A (ja) * 2004-12-28 2006-07-13 Nissan Motor Co Ltd 音声認識装置、方法、およびシステム
JP2008046570A (ja) * 2006-08-21 2008-02-28 Aioi Kiso Kenkyusho:Kk 音声入力システム
JP2016157019A (ja) * 2015-02-25 2016-09-01 日本電信電話株式会社 単語選択装置、方法、及びプログラム
US11052694B2 (en) 2016-11-09 2021-07-06 Nippon Paper Papylia Co., Ltd Water-dispersible sheet

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006184669A (ja) * 2004-12-28 2006-07-13 Nissan Motor Co Ltd 音声認識装置、方法、およびシステム
JP2008046570A (ja) * 2006-08-21 2008-02-28 Aioi Kiso Kenkyusho:Kk 音声入力システム
JP2016157019A (ja) * 2015-02-25 2016-09-01 日本電信電話株式会社 単語選択装置、方法、及びプログラム
US11052694B2 (en) 2016-11-09 2021-07-06 Nippon Paper Papylia Co., Ltd Water-dispersible sheet

Similar Documents

Publication Publication Date Title
US20220115016A1 (en) Speech-processing system
CN101071564B (zh) 把词表外语音与词表内语音区别开的方法
US5797116A (en) Method and apparatus for recognizing previously unrecognized speech by requesting a predicted-category-related domain-dictionary-linking word
US11830485B2 (en) Multiple speech processing system with synthesized speech styles
US7228275B1 (en) Speech recognition system having multiple speech recognizers
US8639508B2 (en) User-specific confidence thresholds for speech recognition
US6836758B2 (en) System and method for hybrid voice recognition
US6975986B2 (en) Voice spelling in an audio-only interface
JPS603699A (ja) 適応性自動離散音声認識方法
JPH0883091A (ja) 音声認識装置
JP2006251800A (ja) ユーザ適応型の音声認識方法及び音声認識装置
CN102693725A (zh) 依赖于文本信息语境的语音识别
JP2000122691A (ja) 綴り字読み式音声発話の自動認識方法
US8374868B2 (en) Method of recognizing speech
JP2008009153A (ja) 音声対話システム
WO2006083020A1 (ja) 抽出された音声データを用いて応答音声を生成する音声認識システム
US20240029732A1 (en) Speech-processing system
US20240071385A1 (en) Speech-processing system
US6721702B2 (en) Speech recognition method and device
JP2001175279A (ja) 音声認識方法
JPH06110835A (ja) 音声対話システムおよびその対話進行制御方法
US11564194B1 (en) Device communication
US11735178B1 (en) Speech-processing system
JPH1083195A (ja) 入力言語認識装置及び入力言語認識方法
JP3285704B2 (ja) 音声対話のための音声認識方法及び装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Effective date: 20040922

Free format text: JAPANESE INTERMEDIATE CODE: A971007

A131 Notification of reasons for refusal

Effective date: 20040929

Free format text: JAPANESE INTERMEDIATE CODE: A131

A521 Written amendment

Effective date: 20041129

Free format text: JAPANESE INTERMEDIATE CODE: A523

A02 Decision of refusal

Effective date: 20050601

Free format text: JAPANESE INTERMEDIATE CODE: A02