JP2006058390A - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JP2006058390A JP2006058390A JP2004237487A JP2004237487A JP2006058390A JP 2006058390 A JP2006058390 A JP 2006058390A JP 2004237487 A JP2004237487 A JP 2004237487A JP 2004237487 A JP2004237487 A JP 2004237487A JP 2006058390 A JP2006058390 A JP 2006058390A
- Authority
- JP
- Japan
- Prior art keywords
- area code
- language model
- voice
- input
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
【課題】 電話番号入力時の音声認識率を向上させること。
【解決手段】 使用者によってマイク101を介して入力された発話内容の音声信号とメモリ1034bに読み込んだ言語モデルに含まれている各待受け単語との一致度演算を行って音声認識を行い、音声認識結果をスピーカー102を介して出力する。音声認識結果に誤認識が発生しており、使用者によって訂正スイッチ104bが押下された場合には、メモリ1034bに読み込まれている言語モデルの種類に基づいた訂正時用のガイダンス音声をスピーカー102を介して出力する。
【選択図】 図1
【解決手段】 使用者によってマイク101を介して入力された発話内容の音声信号とメモリ1034bに読み込んだ言語モデルに含まれている各待受け単語との一致度演算を行って音声認識を行い、音声認識結果をスピーカー102を介して出力する。音声認識結果に誤認識が発生しており、使用者によって訂正スイッチ104bが押下された場合には、メモリ1034bに読み込まれている言語モデルの種類に基づいた訂正時用のガイダンス音声をスピーカー102を介して出力する。
【選択図】 図1
Description
本発明は、使用者によって発話された音声を認識する音声認識装置に関する。
電話番号の音声入力途中に直前までの音声認識結果を確認することができる音声ダイアル機能付き電話機が特許文献1によって知られている。
しかしながら、従来の装置においては、音声認識結果を確認した結果、誤認識が発生していた場合には、発話者は再発話を行って発話内容を訂正する必要があるが、口調を変えずに再発話した場合には、再度誤認識される可能性があった。
本発明は、音声入力手段を介して入力された「数字」、「地名」、または「市区町村名と市外局番とを連結した文字列」を音声認識して、市外局番を特定する音声認識装置において、第1の言語モデルである「数字」と、第2の言語モデルである「地名」および第3の言語モデルである「市区町村名と市外局番とを連結した文字列」のうち少なくともいずれか一方とを音声認識時の待ち受け単語として格納する待ち受け単語格納手段と、「地名」と市外局番とを対応付けて記憶する記憶手段と、音声認識手段を介して入力された音声信号と、格納手段に格納された待ち受け単語とをマッチング処理して音声認識する音声認識手段とを備え、音声入力手段を介して前記第1の言語モデルである「数字」で市外局番が入力された場合には、音声認識手段による音声認識結果に基づいて市外局番を特定し、音声入力手段を介して第2の言語モデルである「地名」が入力された場合には、音声認識手段で音声認識した「地名」に対応する市外局番を記憶手段から抽出して市外局番を特定し、音声入力手段を介して第3の言語モデルである「市区町村名と市外局番とを連結した文字列」が入力された場合には、音声認識手段で音声認識した「市区町村名と市外局番とを連結した文字列」の市外局番部を抽出して市外局番を特定することを特徴とする。
本発明はまた、音声入力手段を介して入力された「数字」、「地名」、または「市区町村名と市外局番とを連結した文字列」を音声認識して、市外局番を特定する音声認識装置において、第1の言語モデルである「数字」、第2の言語モデルである「地名」、および第3の言語モデルである「市区町村名と市外局番とを連結した文字列」のうちいずれか一つを音声認識時の待ち受け単語として切り替えて格納する待ち受け単語格納手段と、「地名」と市外局番とを対応付けて記憶する記憶手段と、音声認識手段を介して入力された音声信号と、格納手段に格納された待ち受け単語とをマッチング処理して音声認識する音声認識手段と、音声認識手段による音声認識結果に誤認識が生じた場合に、使用者が直前の発話内容の訂正を指示する訂正指示手段とを備え、待ち受け単語格納手段には、訂正指示手段によって直前の発話内容の訂正が指示されるまでは前記第1の言語モデルである「数字」のみを格納し、訂正指示手段によって直前の発話内容の訂正が指示された後は、第2の言語モデルである「地名」、および第3の言語モデルである「市区町村名と市外局番とを連結した文字列」のうち、あらかじめ設定されたいずれか一方を格納し、音声入力手段を介して第1の言語モデルである「数字」で市外局番が入力された場合には、音声認識手段による音声認識結果に基づいて市外局番を特定し、音声入力手段を介して第2の言語モデルである「地名」が入力された場合には、音声認識手段で音声認識した「地名」に対応する市外局番を記憶手段から抽出して市外局番を特定し、音声入力手段を介して第3の言語モデルである「市区町村名と市外局番とを連結した文字列」が入力された場合には、音声認識手段で音声認識した「市区町村名と市外局番とを連結した文字列」の市外局番部を抽出して市外局番を特定することを特徴とする。
本発明はまた、音声入力手段を介して入力された「数字」、「地名」、または「市区町村名と市外局番とを連結した文字列」を音声認識して、市外局番を特定する音声認識装置において、第1の言語モデルである「数字」、第2の言語モデルである「地名」、および第3の言語モデルである「市区町村名と市外局番とを連結した文字列」のうちいずれか一つを音声認識時の待ち受け単語として切り替えて格納する待ち受け単語格納手段と、「地名」と市外局番とを対応付けて記憶する記憶手段と、音声認識手段を介して入力された音声信号と、格納手段に格納された待ち受け単語とをマッチング処理して音声認識する音声認識手段と、音声認識手段による音声認識結果に誤認識が生じた場合に、使用者が直前の発話内容の訂正を指示する訂正指示手段とを備え、待ち受け単語格納手段には、訂正指示手段によって直前の発話内容の訂正が指示されるまでは前記第1の言語モデルである「数字」のみを格納し、訂正指示手段によって直前の発話内容の訂正が指示された後は、第2の言語モデルである「地名」、および第3の言語モデルである「市区町村名と市外局番とを連結した文字列」のうち、あらかじめ設定されたいずれか一方を格納し、音声入力手段を介して第1の言語モデルである「数字」で市外局番が入力された場合には、音声認識手段による音声認識結果に基づいて市外局番を特定し、音声入力手段を介して第2の言語モデルである「地名」が入力された場合には、音声認識手段で音声認識した「地名」に対応する市外局番を記憶手段から抽出して市外局番を特定し、音声入力手段を介して第3の言語モデルである「市区町村名と市外局番とを連結した文字列」が入力された場合には、音声認識手段で音声認識した「市区町村名と市外局番とを連結した文字列」の市外局番部を抽出して市外局番を特定することを特徴とする。
本発明によれば、「数字」、「地名」、または「市区町村名と市外局番とを連結した文字列」によって発信先の市外局番を音声入力できるようにしたので、1回目の音声入力時に誤認識が発生した場合には、再発話時に異なる入力方法で市外局番を入力することができ、再発話時に誤認識が発生する可能性を低下させることができる。
―第1の実施の形態―
第1の実施の形態においては、本発明による音声認識装置をハンズフリー電話システムに搭載し、使用者の発話を音声認識した結果に基づいて発信先の電話番号を認識して、認識した電話番号へ発呼するよう携帯電話を制御する。このとき、使用者による市外局番の指定方法としては、(1)市外局番をそのまま発話する方法、例えば「ゼロヨンゴ」と発話する方法、(2)都道府県名と市区町村名を連結した文字列、または市区町村名(以下、「地名」)を発話する方法、例えば「神奈川県横浜市」や「横浜市」と発話する方法、(3)市区町村名と市外局番の連接を発話する方法、例えば「横浜ゼロヨンゴ」と発話する方法の3つの方法がある。
第1の実施の形態においては、本発明による音声認識装置をハンズフリー電話システムに搭載し、使用者の発話を音声認識した結果に基づいて発信先の電話番号を認識して、認識した電話番号へ発呼するよう携帯電話を制御する。このとき、使用者による市外局番の指定方法としては、(1)市外局番をそのまま発話する方法、例えば「ゼロヨンゴ」と発話する方法、(2)都道府県名と市区町村名を連結した文字列、または市区町村名(以下、「地名」)を発話する方法、例えば「神奈川県横浜市」や「横浜市」と発話する方法、(3)市区町村名と市外局番の連接を発話する方法、例えば「横浜ゼロヨンゴ」と発話する方法の3つの方法がある。
図1は、本実施の形態における音声認識装置をハンズフリー電話システムへ搭載した場合の一実施の形態の構成例を示すブロック図である。ハンズフリー電話システム1は、音声認識装置100と携帯電話200とが接続されて構成されている。音声認識装置100は、使用者の発話音声を入力するマイク101と、音声を出力するスピーカー102と、制御装置103と、使用者によって操作される入力装置104と、メッセージや音声認識結果を表示するディスプレイ105とを備えている。
制御装置103は、図2により後述する信号処理ユニット103aを備えており、マイク101を介して入力された発話内容を音声認識する。入力装置104は、使用者が音声入力の開始を指示するための発話スイッチ104aと、後述する音声認識処理の結果、誤認識が発生した場合に直前の発話を訂正するために押下される訂正スイッチ104bとを備えている。携帯電話200は、音声認識装置100による音声認識結果に基づいて制御される。
図2は、信号処理ユニット103aの構成例を示すブロック図である。信号処理ユニット103aは、A/Dコンバータ1031と、D/Aコンバータ1032と、出力アンプ1033と、信号処理装置1034と、外部記憶装置1035とを有している。信号処理装置1034は、CPU1034a、およびメモリ1034bを有している。外部記憶装置1035には、使用者に対して出力するガイダンス音声データ、音声認識時の待ち受け単語、および地名と各地名に対応する市外局番との対が格納されている。
使用者によって発話スイッチ104aが押下されて発話開始が指示されると、信号処理装置1034は、音声入力を促すメッセージを使用者に知らせる為に、外部記憶装置1035からガイダンス音声データを読み込んで、D/Aコンバータ1032でアナログ信号に変換し、出力アンプ1033、およびスピーカー102を介して出力する。
また、同時に外部記憶装置1035に格納されている音声認識時の待ち受け単語を、あらかじめ設定された言語モデル単位にメモリ1034bに読み込む。言語モデルとは、発話内容を音声認識するための待ち受け単語をその種類ごとにグループ化したものであり、第1の実施の形態における音声認識装置100においては、以下に示す第1〜第3の3種類の言語モデルを有している。
(1)第1の言語モデル
第1の言語モデルは、図3にその模式図を示すように、ゼロ(0)〜キュー(9)までの連続数字で構成される連続数字言語モデルであり、各数字を再帰的に参照することが可能な言語モデルである。この第1の言語モデルをメモリ1034bに読み込んで音声待ち受け単語とすることで、使用者によって発話された数字を音声認識することが可能となる。
第1の言語モデルは、図3にその模式図を示すように、ゼロ(0)〜キュー(9)までの連続数字で構成される連続数字言語モデルであり、各数字を再帰的に参照することが可能な言語モデルである。この第1の言語モデルをメモリ1034bに読み込んで音声待ち受け単語とすることで、使用者によって発話された数字を音声認識することが可能となる。
(2)第2の言語モデル
第2の言語モデルは、図4にその模式図を示すように、地名、すなわち都道府県名と市区町村名の連接、あるいは市区町村名のみで構成される地名言語モデルである。この第2の言語モデルをメモリ1034bに読み込んで音声待ち受け単語とすることで、使用者によって発話された地名を音声認識することが可能となる。
第2の言語モデルは、図4にその模式図を示すように、地名、すなわち都道府県名と市区町村名の連接、あるいは市区町村名のみで構成される地名言語モデルである。この第2の言語モデルをメモリ1034bに読み込んで音声待ち受け単語とすることで、使用者によって発話された地名を音声認識することが可能となる。
(3)第3の言語モデル
第3の言語モデルは、図5にその模式図を示すように、市区町村名と対応する市外局番とを連結して構成される連結言語モデルである。この第3の言語モデルをメモリ1034bに読み込んで音声待ち受け単語とすることで、使用者によって発話された市区町村名と市外局番の連接を音声認識することが可能となる。
第3の言語モデルは、図5にその模式図を示すように、市区町村名と対応する市外局番とを連結して構成される連結言語モデルである。この第3の言語モデルをメモリ1034bに読み込んで音声待ち受け単語とすることで、使用者によって発話された市区町村名と市外局番の連接を音声認識することが可能となる。
上述した第1〜第3の言語モデルのうち少なくとも1つの言語モデルをメモリ1034bに読み込む。第1の実施の形態においては、第1の言語モデルは常に読み込むように設定されており、第2の言語モデル、および第3の言語モデルは、使用者によって読み込むように設定された少なくともいずれか一方をメモリ1034bに読み込む。
上述した言語モデルをメモリ1034bに読み込んだ後、使用者によって音声が入力されると、信号処理装置1034は次のように音声を検出する。すなわち、マイク101から入力された音声信号はA/Dコンバータ1031でデジタル信号に変換され信号処理装置1034に入力される。信号処理装置1034は発話スイッチ104aの操作がなされるまでは、A/Dコンバータ1031から入力されるデジタル信号の平均パワーを演算している。そして、発話スイッチ104aが操作されると音声待ち受け状態となる。その後、入力されるデジタル信号の瞬間パワーが平均パワーより所定値以上大きくなった時、使用者が発話したと判断して音声の取り込みを開始する。その後、デジタル信号の瞬間パワーが所定値以下の状態が所定時間以上継続した場合に、音声入力は終了したと判断する。
続いて信号処理装置1034は、入力された音声信号とメモリ1034bに読み込んだ言語モデルに含まれている各待受け単語とをマッチング処理して音声認識する。すなわち、入力された音声信号とメモリ1034bに読み込んだ言語モデルに含まれている各待受け単語との一致度を演算する。そして、一致度演算の結果、その一致度の大きさを示すスコアを待受け単語ごとに算出し、スコアが最も高い待ち受け単語、すなわち最も一致度の高い待ち受け単語を音声認識結果として決定する。
例えば、音声認識時の待ち受け単語として第1の言語モデルに加えて第2の言語モデルをメモリ1034bに読み込むように設定されているときに、使用者が市外局番を「ゼロヨンゴ」と発話した場合には、以下のように音声認識される。入力された音声信号は、上述したように信号処理装置1034で音声認識される。このとき、メモリ1034bに読み込まれている待受け単語、すなわち第1および第2の言語モデルの待ち受け単語と、入力された音声信号との一致度が演算される。
この結果、第1の言語モデルに含まれている待ち受け単語から「ゼロ」、「ヨン」、および「ゴ」が最も一致度が高いものとして音声認識され、「ゼロヨンゴ」の市外局番が認識されることになる。その後、認識結果をスピーカー102を介して出力して、使用者に認識結果を通知する。このとき、使用者は、発話内容が正常認識されていることを確認した場合には、電話番号の続きを音声入力する。そして、発信先の電話番号の全ての桁が正常認識されたことを確認した後に、入力した電話番号を発信先の電話番号として確定するコマンド、例えば「決定」を発話する。制御装置103は、信号処理装置1034によって入力した電話番号を発信先の電話番号として確定するコマンドが音声認識された場合、認識した発信先の電話番号へ発呼するよう、携帯電話200を制御する。
一方、使用者が市外局番を「ゼロヨンゴ」と発話したにも関わらず、スピーカ102を介して出力された認識結果が「ゼロヨンロク」であった場合には、使用者は訂正スイッチ104bを押下して、市外局番の再発話を行う。このとき、使用者に対して直前に音声認識した結果を訂正する旨のガイダンス音声(訂正時用のガイダンス音声)を出力する。この場合、「ゼロヨンロクを訂正します」というガイダンス音声を出力した場合には、使用者は再発話時も市外局番を発話する可能性が高い。しかし、使用者は直前の発話で「ゼロヨンゴ」と発話したにも関わらず誤認識が発生したことから、使用者が「ゼロヨンゴ」と再発話しても、その口調が同じ場合には、再度誤認識が発生する可能性が高い。
したがって、この場合には、待ち受け可能なもう一方の市外局番の指定方法、すなわちメモリ1034bに読み込んだ第2の言語モデルに含まれる地名での発話を促すために、「厚木市、伊勢原市、横須賀市を訂正します」という地名を含むガイダンス音声を使用者に対して出力する。これによって、使用者は再発話時に直前の発話と同様な「ゼロヨンゴ」ではなく、地名、すなわち「横浜市」と発話すれば良いことを知ることができ、このように誤認識発生時とは異なる内容の発話をすることで、再度誤認識が発生する可能性を低下させることができる。
また、使用者は「ゼロヨンゴ」と発話するよりも「横浜市」と発話した方が誤認識が発生しにくいことを知ることができ、次回発話時には、より誤認識が発生する可能性が少ない「横浜市」を最初から発話するようになり、音声認識の認識率を向上することができる。なお、使用者が「横浜市」と発話して、正常に音声認識された場合には、外部記憶装置1035に格納されている地名と各地名に対応する市外局番との対を参照して、該当する市外局番を抽出することによって発信先の市外局番を特定する。
また、音声認識時の待ち受け単語として第1の言語モデルに加えて第3の言語モデルをメモリ1034bに読み込むように設定されているときに、上述したように使用者が発話した「ゼロヨンゴ」の市外局番が「ゼロヨンロク」と誤認識された場合には、以下のように処理する。この場合も、使用者が訂正スイッチ104bを押下して、市外局番の再発話を行う場合に、使用者に対して「ゼロヨンロクを訂正します」というガイダンス音声を出力した場合には、使用者は再発話時も市外局番を発話する可能性が高く、再度誤認識が発生する可能性が高い。
したがって、この場合には、待ち受け可能なもう一方の市外局番の指定方法、すなわちメモリ1034bに読み込んだ第3の言語モデルに含まれる市区町村名と市外局番の連接による発話を促すために、「厚木、伊勢原、横須賀ゼロヨンロクを訂正します」という市区町村名と市外局番とを連結した文字列を含んだ訂正時用のガイダンス音声を使用者に対して出力する。これによって、使用者は再発話時に直前の発話と同様な「ゼロヨンゴ」ではなく、市区町村名と市外局番とを連結した文字列、すなわち「横浜ゼロヨンゴ」と発話すれば良いことを知ることができ、このように誤認識発生時とは異なる内容の発話をすることで、再度誤認識が発生する可能性を低下させることができる。
また、使用者は「ゼロヨンゴ」と発話するよりも「横浜ゼロヨンゴ」と発話した方が誤認識が発生しにくいことを知ることができ、次回発話時には、より誤認識が発生する可能性が少ない「横浜ゼロヨンゴ」を最初から発話するようになり、音声認識の認識率を向上することができる。なお、使用者が「横浜ゼロヨンゴ」と発話して、正常に音声認識された場合には、認識家閣下の市外局番部、すなわち「ゼロヨンゴ」のみ抽出して発信先の市外局番を特定する。
図6は、第1の実施の形態における音声認識装置100の動作を示すフローチャートである。図6に示す処理は、発話スイッチ104aが押下されると起動するプログラムとして制御装置103により実行される。ステップS10において、第1〜第3の言語モデルのうち、使用者によってあらかじめ読み込み対象として設定されている言語モデルを外部記憶装置1035からメモリ1034bに読み込む。ステップS20では、音声入力を促すガイダンス音声をスピーカー102を介して出力する。
ステップS30では、使用者によってマイク101を介して音声入力がなされたか否かを判断する。使用者によって音声入力がなされたと判断した場合には、ステップS40へ進む。ステップS40では、使用者によって入力された発話内容の音声信号とメモリ1034bに読み込んだ言語モデルに含まれている各待受け単語との一致度演算を行って、音声認識を行う。その後、ステップS50へ進み、音声認識結果をスピーカー102を介して出力して、ステップS60へ進む。
ステップS60では、使用者によって訂正スイッチ104bが押下されたか否かが判断される。使用者によって訂正スイッチ104bが押下されたと判断した場合には、ステップS70へ進む。ステップS70では、上述したようにメモリ1034bに読み込まれている言語モデルの種類に基づいた訂正時用のガイダンス音声を出力する。その後、ステップS30に戻り、上述した処理を繰り返す。
一方、使用者によって訂正スイッチ104bが押下されないと判断した場合には、ステップS80へ進む。ステップS80では、音声入力が完了したか、すなわち電話番号の全桁の入力が完了したか否かを判断する。音声入力が完了していないと判断した場合には、ステップS20へ戻り、音声入力が完了するまで処理を繰り返す。音声入力が完了したと判断した場合には、ステップS90へ進み、音声認識した電話番号へ発信するよう携帯電話200を制御し、処理を終了する。
以上説明した第1の実施の形態によれば、以下のような作用効果を得ることができる。
(1)使用者は、第1言語モデルと、第2および第3の言語モデルのうち使用者によって設定された少なくともいずれか一方を待ち受け単語として使用し、待ち受け単語とした言語モデルに応じた方法で市外局番を指定できるようにした。これによって、使用者の市外局番の指定方法に自由度を持たせることができ、使用者にとって利便性の高い装置とすることができる。
(2)市外局番の音声認識結果に誤認識が発生した場合には、メモリ1034bに読み込まれている言語モデルに基づいて、誤認識が発生したときの市外局番の指定方法とは異なる指定方法での再発話を促すように、訂正の可否を確認するガイダンス音声、すなわち訂正時用のガイダンス音声を出力することとした。これによって、誤認識発生時とは異なる内容で再発話をすることで、再度誤認識が発生する可能性を低下させることができる。
(3)また、使用者は誤認識発生時の指定方法よりも、再発話時の指定方法の方が誤認識が発生する可能性が少ないことを知ることができるため、次回以降の発話時には、最初から再発話時の指定方法で発話するようになり、音声認識の認識率を向上することができる。
(1)使用者は、第1言語モデルと、第2および第3の言語モデルのうち使用者によって設定された少なくともいずれか一方を待ち受け単語として使用し、待ち受け単語とした言語モデルに応じた方法で市外局番を指定できるようにした。これによって、使用者の市外局番の指定方法に自由度を持たせることができ、使用者にとって利便性の高い装置とすることができる。
(2)市外局番の音声認識結果に誤認識が発生した場合には、メモリ1034bに読み込まれている言語モデルに基づいて、誤認識が発生したときの市外局番の指定方法とは異なる指定方法での再発話を促すように、訂正の可否を確認するガイダンス音声、すなわち訂正時用のガイダンス音声を出力することとした。これによって、誤認識発生時とは異なる内容で再発話をすることで、再度誤認識が発生する可能性を低下させることができる。
(3)また、使用者は誤認識発生時の指定方法よりも、再発話時の指定方法の方が誤認識が発生する可能性が少ないことを知ることができるため、次回以降の発話時には、最初から再発話時の指定方法で発話するようになり、音声認識の認識率を向上することができる。
―第2の実施の形態―
第1の実施の形態においては、上述した第1〜第3の言語モデルのうち、第1の言語モデルは常にメモリ1034bに読み込むように設定されており、その他の2つ、すなわち第2の言語モデル、および第3の言語モデルは、使用者によって読み込むか否かがあらかじめ設定される。これに対して第2の実施の形態では、音声認識開始時は第1の言語モデルのみがメモリ1034bに読み込まれている。そして、誤認識発生時、すなわち使用者によって訂正スイッチ104bが押下された場合に、第1の言語モデルから第2および第3の言語モデルのうち、使用者によってあらかじめ設定された一方の言語モデルへの切り替えを行う。なお、図1、および図2に示すブロック図、および図3〜図5に示す各言語モデルの具体例を示す図については、第1の実施の形態と同様のため、説明を省略する。
第1の実施の形態においては、上述した第1〜第3の言語モデルのうち、第1の言語モデルは常にメモリ1034bに読み込むように設定されており、その他の2つ、すなわち第2の言語モデル、および第3の言語モデルは、使用者によって読み込むか否かがあらかじめ設定される。これに対して第2の実施の形態では、音声認識開始時は第1の言語モデルのみがメモリ1034bに読み込まれている。そして、誤認識発生時、すなわち使用者によって訂正スイッチ104bが押下された場合に、第1の言語モデルから第2および第3の言語モデルのうち、使用者によってあらかじめ設定された一方の言語モデルへの切り替えを行う。なお、図1、および図2に示すブロック図、および図3〜図5に示す各言語モデルの具体例を示す図については、第1の実施の形態と同様のため、説明を省略する。
図7は、第2の実施の形態における音声認識装置100の動作を示すフローチャートである。図7に示す処理は、発話スイッチ104aが押下されると起動するプログラムとして制御装置103により実行される。なお、図5に示した第1の実施の形態における処理と同様の処理については、同じステップ番号を付与し、相違点を中心に説明する。ステップS11において、第1の言語モデルを外部記憶装置1035からメモリ1034bに読み込む。
ステップS60で使用者によって訂正スイッチ104bが押下されたと判断した場合には、ステップS61へ進み、メモリ1034b内の言語モデルを第1の言語モデルから使用者によってあらかじめ設定された第2または第3の言語モデルに切り替える。その後、ステップS70へ進み、切り替えた言語モデルに応じた訂正時用ガイダンス音声をスピーカー102を介して出力する。例えば、第2の言語モデルに切り替えられた場合には、「厚木市、伊勢原市、横須賀市を訂正します」という地名を含む訂正時用ガイダンス音声を出力し、第3の言語モデルに切り替えられた場合には、「厚木、伊勢原、横須賀ゼロヨンロクを訂正します」という市区町村名と市外局番とを連結した文字列を含む訂正時用ガイダンス音声を出力する。
ステップS80において、音声入力が完了していないと判断した場合には、ステップS81へ進む。ステップS81では、現在メモリ1034b読み込まれている言語モデルが第1の言語モデルであるか否かを判断する。現在メモリ1034b読み込まれている言語モデルが第1の言語モデルでないと判断した場合には、ステップS82へ進み、メモリ1034b内の言語モデルを音声認識開始時の言語モデルである第1の言語モデルに切り替えた後、ステップS20へ戻る。一方、現在メモリ1034b読み込まれている言語モデルが第1の言語モデルであると判断した場合には、そのままステップS20へ戻る。
以上説明した第2の実施の形態によれば、第1の実施の形態における効果に加えて、以下のような作用効果を得ることができる。音声認識開始時は第1の言語モデルのみが読み込まれており、誤認識発生時に、第1の言語モデルから、第2および第3の言語モデルのうち使用者によってあらかじめ設定された一方の言語モデルへの切り替えを行うこととした。これによって、誤認識が発生するまでは、入力された音声と必要最低限(第1の言語モデル)の待ち受け単語との一致度を算出して音声認識することで、音声認識速度を向上することができ、誤認識発生時にのみ第2または第3の言語モデルに切り替えて、再発話時に再度誤認識が発生する可能性を低下することができる。
なお、以下のように変形することもできる。
(1)上述した第1の実施の形態では、第1の言語モデルは常に読み込むように設定されており、第2の言語モデル、および第3の言語モデルは、使用者によって読み込むように設定された少なくともいずれか一方をメモリ1034bに読み込むこととした。しかし、常に第1〜第3の全ての言語モデルをメモリ1034bに読み込むように設定してもよい。
(1)上述した第1の実施の形態では、第1の言語モデルは常に読み込むように設定されており、第2の言語モデル、および第3の言語モデルは、使用者によって読み込むように設定された少なくともいずれか一方をメモリ1034bに読み込むこととした。しかし、常に第1〜第3の全ての言語モデルをメモリ1034bに読み込むように設定してもよい。
(2)上述した第2の実施の形態では、音声認識開始時は第1の言語モデルのみが読み込まれており、誤認識発生時に、第1の言語モデルから第2および第3の言語モデルのうち、使用者によってあらかじめ設定された一方の言語モデルへの切り替えを行うこととした。しかし、誤認識発生時の使用者の再発話回数をカウントし、再発話回数が所定回数以上、例えば3回以上となった時点で、第1の言語モデルから第2または第3の言語モデルに切り替えることとしてもよい。これによって、第1の言語モデルを待ち受け単語とした場合に、どうしても入力された発話内容を正常認識できない場合にのみ、すなわち必要な場合にのみ他の言語モデルに切り替えることができる。
(3)上述した第1および第2の実施の形態では、本発明による音声認識装置をハンズフリー電話システムに搭載する例を示したが、これに限定されず、例えば電話番号によって特定される施設を目的地として設定可能なナビゲーション装置に搭載してもよい。また、その他の電話番号を音声認識して利用する装置に搭載してもよい。
(4)上述した第1および第2の実施の形態では、第1〜第3の言語モデルの3つの言語モデルを待ち受け単語として設定可能な例について説明したが、第1および第2の言語モデルの2つの言語モデル、または第1および第3の言語モデルのようにいずれか2つの言語モデルを待ち受け単語として設定可能としてもよい。
(5)上述した第1および第2の実施の形態では、使用者に対して発話を促すガイダンス音声をスピーカー102を介して出力することとしたが、これに限定されず、発話を促すガイダンスメッセージをディスプレイ105に表示して使用者に提示してもよい。
(6)上述した第1および第2の実施の形態では、訂正時用ガイダンス音声として、例えば「厚木市、伊勢原市、横須賀市を訂正します」、および「厚木、伊勢原、横須賀ゼロヨンロクを訂正します」という訂正の可否を確認するためのガイダンスを出力することとした。しかしこれに限定されず、例えば、「厚木市、伊勢原市、横須賀市のように入力することもできます」、および「厚木、伊勢原、横須賀ゼロヨンロクのように入力することもできます」のように、地名や市区町村と市外局番を連結した文字列によって音声入力できることを通知するためのガイダンスを出力してもよい。
特許請求の範囲の構成要素と実施の形態との対応関係について説明する。マイク101は音声入力手段に、スピーカー102、およびディスプレイ105は出力手段に相当する。メモリ1034bは待ち受け単語格納手段、および記憶手段に、信号処理装置1034は音声認識手段に、訂正スイッチ104bは訂正指示手段に相当する。なお、本発明の特徴的な機能を損なわない限り、本発明は、上述した実施の形態における構成に何ら限定されない。
1 ハンズフリー電話システム
100 音声認識装置
101 マイク
102 スピーカー
103 制御装置
103a 信号処理ユニット
1031 A/Dコンバータ
1032 D/Aコンバータ
1033 出力アンプ
1034 信号処理装置
1034a CPU
1034b メモリ
1035 外部記憶装置
104 入力装置
104a 発話スイッチ
104b 訂正スイッチ
105 ディスプレイ
200 携帯電話
100 音声認識装置
101 マイク
102 スピーカー
103 制御装置
103a 信号処理ユニット
1031 A/Dコンバータ
1032 D/Aコンバータ
1033 出力アンプ
1034 信号処理装置
1034a CPU
1034b メモリ
1035 外部記憶装置
104 入力装置
104a 発話スイッチ
104b 訂正スイッチ
105 ディスプレイ
200 携帯電話
Claims (7)
- 音声入力手段を介して入力された「数字」、「地名」、または「市区町村名と市外局番とを連結した文字列」を音声認識して、市外局番を特定する音声認識装置において、
第1の言語モデルである「数字」と、第2の言語モデルである「地名」および第3の言語モデルである「市区町村名と市外局番とを連結した文字列」のうち少なくともいずれか一方とを音声認識時の待ち受け単語として格納する待ち受け単語格納手段と、
前記「地名」と市外局番とを対応付けて記憶する記憶手段と、
前記音声認識手段を介して入力された音声信号と、前記格納手段に格納された待ち受け単語とをマッチング処理して音声認識する音声認識手段とを備え、
前記音声入力手段を介して前記第1の言語モデルである「数字」で市外局番が入力された場合には、前記音声認識手段による音声認識結果に基づいて市外局番を特定し、
前記音声入力手段を介して前記第2の言語モデルである「地名」が入力された場合には、前記音声認識手段で音声認識した「地名」に対応する市外局番を前記記憶手段から抽出して市外局番を特定し、
前記音声入力手段を介して前記第3の言語モデルである「市区町村名と市外局番とを連結した文字列」が入力された場合には、前記音声認識手段で音声認識した「市区町村名と市外局番とを連結した文字列」の市外局番部を抽出して市外局番を特定することを特徴とする音声認識装置。 - 請求項1に記載の音声認識装置において、
前記音声認識手段による音声認識結果に誤認識が生じた場合に、使用者が直前の発話内容の訂正を指示する訂正指示手段をさらに有することを特徴とする音声認識装置。 - 音声入力手段を介して入力された「数字」、「地名」、または「市区町村名と市外局番とを連結した文字列」を音声認識して、市外局番を特定する音声認識装置において、
第1の言語モデルである「数字」、第2の言語モデルである「地名」、および第3の言語モデルである「市区町村名と市外局番とを連結した文字列」のうちいずれか一つを音声認識時の待ち受け単語として切り替えて格納する待ち受け単語格納手段と、
前記「地名」と市外局番とを対応付けて記憶する記憶手段と、
前記音声認識手段を介して入力された音声信号と、前記格納手段に格納された待ち受け単語とをマッチング処理して音声認識する音声認識手段と、
前記音声認識手段による音声認識結果に誤認識が生じた場合に、使用者が直前の発話内容の訂正を指示する訂正指示手段とを備え、
前記待ち受け単語格納手段には、前記訂正指示手段によって直前の発話内容の訂正が指示されるまでは前記第1の言語モデルである「数字」のみを格納し、前記訂正指示手段によって直前の発話内容の訂正が指示された後は、前記第2の言語モデルである「地名」、および前記第3の言語モデルである「市区町村名と市外局番とを連結した文字列」のうち、あらかじめ設定されたいずれか一方を格納し、
前記音声入力手段を介して前記第1の言語モデルである「数字」で市外局番が入力された場合には、前記音声認識手段による音声認識結果に基づいて市外局番を特定し、
前記音声入力手段を介して前記第2の言語モデルである「地名」が入力された場合には、前記音声認識手段で音声認識した「地名」に対応する市外局番を前記記憶手段から抽出して市外局番を特定し、
前記音声入力手段を介して前記第3の言語モデルである「市区町村名と市外局番とを連結した文字列」が入力された場合には、前記音声認識手段で音声認識した「市区町村名と市外局番とを連結した文字列」の市外局番部を抽出して市外局番を特定することを特徴とする音声認識装置。 - 請求項2または3に記載の音声認識装置において、
使用者に対して音声認識を促すためのガイダンスを出力する出力手段をさらに有し、
前記音声入力手段を介して前記第1の言語モデルである「数字」で市外局番が入力された後、前記訂正指示手段によって直前の発話内容の訂正が指示された場合で、かつ前記待ち受け単語格納手段に前記第2の言語モデルである「地名」が格納されている場合には、
前記出力手段は、使用者に対して訂正の可否を確認するガイダンスを前記第2の言語モデルである「地名」を含んで出力することを特徴とする音声認識装置。 - 請求項2または3に記載の音声認識装置において、
使用者に対して音声認識を促すためのガイダンスを出力する出力手段をさらに有し、
前記音声入力手段を介して前記第1の言語モデルである「数字」で市外局番入力された後、前記訂正指示手段によって直前の発話内容の訂正が指示された場合で、かつ前記待ち受け単語格納手段に前記第3の言語モデルである「市区町村名と市外局番とを連結した文字列」が格納されている場合には、
前記出力手段は、使用者に対して訂正の可否を確認するガイダンスを前記第3の言語モデルである「市区町村名と市外局番とを連結した文字列」を含んで出力することを特徴とする音声認識装置。 - 請求項2または3に記載の音声認識装置において、
使用者に対して音声認識を促すためのガイダンスを出力する出力手段をさらに有し、
前記音声入力手段を介して前記第1の言語モデルである「数字」で市外局番入力された後、前記訂正指示手段によって直前の発話内容の訂正が指示された場合で、かつ前記待ち受け単語格納手段に前記第2の言語モデルである「地名」が格納されている場合には、
前記出力手段は、使用者に対して前記第2の言語モデルである「地名」によっても音声入力が可能であることを通知するためのガイダンスを出力することを特徴とする音声認識装置。 - 請求項2または3に記載の音声認識装置において、
使用者に対して音声認識を促すためのガイダンスを出力する出力手段をさらに有し、
前記音声入力手段を介して前記第1の言語モデルである「数字」で市外局番入力された後、前記訂正指示手段によって直前の発話内容の訂正が指示された場合で、かつ前記待ち受け単語格納手段に前記第3の言語モデルである「市区町村名と市外局番とを連結した文字列」が格納されている場合には、
前記出力手段は、使用者に対し前記第3の言語モデルである「市区町村名と市外局番とを連結した文字列」によっても音声入力が可能であることを通知するためのガイダンスを出力することを特徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004237487A JP2006058390A (ja) | 2004-08-17 | 2004-08-17 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004237487A JP2006058390A (ja) | 2004-08-17 | 2004-08-17 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006058390A true JP2006058390A (ja) | 2006-03-02 |
Family
ID=36105924
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004237487A Pending JP2006058390A (ja) | 2004-08-17 | 2004-08-17 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006058390A (ja) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008062733A (ja) * | 2006-09-06 | 2008-03-21 | Railway Technical Res Inst | 鉄道設備保守検査支援システム及びプログラム |
JP2009532742A (ja) * | 2006-04-03 | 2009-09-10 | ヴォコレクト・インコーポレーテッド | 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム |
JP2010210756A (ja) * | 2009-03-09 | 2010-09-24 | Toyota Motor Corp | 音声認識装置 |
US8145487B2 (en) | 2007-02-16 | 2012-03-27 | Denso Corporation | Voice recognition apparatus and navigation apparatus |
US8374870B2 (en) | 2005-02-04 | 2013-02-12 | Vocollect, Inc. | Methods and systems for assessing and improving the performance of a speech recognition system |
US8612235B2 (en) | 2005-02-04 | 2013-12-17 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US8756059B2 (en) | 2005-02-04 | 2014-06-17 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US8868421B2 (en) | 2005-02-04 | 2014-10-21 | Vocollect, Inc. | Methods and systems for identifying errors in a speech recognition system |
US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US9978395B2 (en) | 2013-03-15 | 2018-05-22 | Vocollect, Inc. | Method and system for mitigating delay in receiving audio stream during production of sound from audio stream |
CN111986651A (zh) * | 2020-09-02 | 2020-11-24 | 上海优扬新媒信息技术有限公司 | 一种人机交互方法、装置及智能交互终端 |
US11837253B2 (en) | 2016-07-27 | 2023-12-05 | Vocollect, Inc. | Distinguishing user speech from background speech in speech-dense environments |
-
2004
- 2004-08-17 JP JP2004237487A patent/JP2006058390A/ja active Pending
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9928829B2 (en) | 2005-02-04 | 2018-03-27 | Vocollect, Inc. | Methods and systems for identifying errors in a speech recognition system |
US8374870B2 (en) | 2005-02-04 | 2013-02-12 | Vocollect, Inc. | Methods and systems for assessing and improving the performance of a speech recognition system |
US8612235B2 (en) | 2005-02-04 | 2013-12-17 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US8756059B2 (en) | 2005-02-04 | 2014-06-17 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US8868421B2 (en) | 2005-02-04 | 2014-10-21 | Vocollect, Inc. | Methods and systems for identifying errors in a speech recognition system |
US10068566B2 (en) | 2005-02-04 | 2018-09-04 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US9202458B2 (en) | 2005-02-04 | 2015-12-01 | Vocollect, Inc. | Methods and systems for adapting a model for a speech recognition system |
JP2009532742A (ja) * | 2006-04-03 | 2009-09-10 | ヴォコレクト・インコーポレーテッド | 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム |
JP2008062733A (ja) * | 2006-09-06 | 2008-03-21 | Railway Technical Res Inst | 鉄道設備保守検査支援システム及びプログラム |
US8145487B2 (en) | 2007-02-16 | 2012-03-27 | Denso Corporation | Voice recognition apparatus and navigation apparatus |
JP2010210756A (ja) * | 2009-03-09 | 2010-09-24 | Toyota Motor Corp | 音声認識装置 |
US9697818B2 (en) | 2011-05-20 | 2017-07-04 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US10685643B2 (en) | 2011-05-20 | 2020-06-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US11810545B2 (en) | 2011-05-20 | 2023-11-07 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US11817078B2 (en) | 2011-05-20 | 2023-11-14 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US9978395B2 (en) | 2013-03-15 | 2018-05-22 | Vocollect, Inc. | Method and system for mitigating delay in receiving audio stream during production of sound from audio stream |
US11837253B2 (en) | 2016-07-27 | 2023-12-05 | Vocollect, Inc. | Distinguishing user speech from background speech in speech-dense environments |
CN111986651A (zh) * | 2020-09-02 | 2020-11-24 | 上海优扬新媒信息技术有限公司 | 一种人机交互方法、装置及智能交互终端 |
CN111986651B (zh) * | 2020-09-02 | 2023-09-29 | 度小满科技(北京)有限公司 | 一种人机交互方法、装置及智能交互终端 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6839670B1 (en) | Process for automatic control of one or more devices by voice commands or by real-time voice dialog and apparatus for carrying out this process | |
US9177545B2 (en) | Recognition dictionary creating device, voice recognition device, and voice synthesizer | |
US20020091518A1 (en) | Voice control system with multiple voice recognition engines | |
US20060215821A1 (en) | Voice nametag audio feedback for dialing a telephone call | |
JP2005509905A (ja) | 辞書データの圧縮方法 | |
JP2007233412A (ja) | ユーザが定義したフレーズの話者に依存しない認識方法及びシステム | |
JP2006058390A (ja) | 音声認識装置 | |
EP1743325A2 (en) | System and method for speech-to-text conversion using constrained dictation in a speak-and-spell mode | |
JP2004053742A (ja) | 音声認識装置 | |
KR20010079734A (ko) | 음성 다이얼링을 위한 방법 및 시스템 | |
US20070129945A1 (en) | Voice quality control for high quality speech reconstruction | |
JP4056711B2 (ja) | 音声認識装置 | |
JP2015215503A (ja) | 音声認識方法、音声認識装置および音声認識プログラム | |
JP2009104047A (ja) | 情報処理方法及び情報処理装置 | |
JP4525376B2 (ja) | 音声−数字変換装置および音声−数字変換プログラム | |
JP2007127896A (ja) | 音声認識装置及び音声認識方法 | |
JP2006058641A (ja) | 音声認識装置 | |
JP4951422B2 (ja) | 音声認識装置、および音声認識方法 | |
JP2005283797A (ja) | 音声認識装置および音声認識方法 | |
JP6811865B2 (ja) | 音声認識装置および音声認識方法 | |
JP2007183516A (ja) | 音声対話装置及び音声認識方法 | |
JP2004007634A (ja) | スピード音声ダイアル装置および方法 | |
CA2597826C (en) | Method, software and device for uniquely identifying a desired contact in a contacts database based on a single utterance | |
JPH06133039A (ja) | 気象情報自動案内装置 | |
KR101042499B1 (ko) | 음성인식 성능의 향상을 위한 음성인식 처리 장치 및 그 방법 |