JP2005157166A - 音声認識装置、音声認識方法及びプログラム - Google Patents

音声認識装置、音声認識方法及びプログラム Download PDF

Info

Publication number
JP2005157166A
JP2005157166A JP2003398592A JP2003398592A JP2005157166A JP 2005157166 A JP2005157166 A JP 2005157166A JP 2003398592 A JP2003398592 A JP 2003398592A JP 2003398592 A JP2003398592 A JP 2003398592A JP 2005157166 A JP2005157166 A JP 2005157166A
Authority
JP
Japan
Prior art keywords
recognition
syllable
reliability
speech
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003398592A
Other languages
English (en)
Inventor
Toshihiro Wakita
敏裕 脇田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Central R&D Labs Inc
Original Assignee
Toyota Central R&D Labs Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Central R&D Labs Inc filed Critical Toyota Central R&D Labs Inc
Priority to JP2003398592A priority Critical patent/JP2005157166A/ja
Publication of JP2005157166A publication Critical patent/JP2005157166A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 ユーザに発話の煩わしさを感じさせることなく、高精度に音声を認識する。
【解決手段】 信頼度判定部50は、音声認識結果の地名(例えば、中区)の信頼度が高く、店名の信頼度が低いと判定した場合、[中区、*]という認識リストを作成する。確認応答生成部90は、ユーザに店名の再発話を促すような確認応答文を生成し、スピーカ120を介して音声出力する。音節認識部40は、ユーザが発話した各々の音節を認識して、認識した単語(例えば、尾張屋)を検索部100に供給する。認識リストに含まれている“*”を、音節認識部40で認識された「尾張屋」に置き換えて、中区にある尾張屋を検索する。
【選択図】 図1

Description

本発明は、音声認識装置、音声認識方法及びプログラムに係り、特に、連続発声認識及び単音節発声認識を行う音声認識装置、音声認識方法及びプログラムに関する。
従来、ソフトウェア又はハードウェアで構成された音声認識装置が提案されている。音声認識装置は、一般に、ユーザが自然に(連続的に)発声した音声を用いて音声認識を行い、認識結果を出力するものである。
一般に、音声認識装置は、連続音声については誤認識することが多かった。特に、認識辞書中の認識語彙数が増大するにともなって、誤認識率が高くなっていた。
たとえば、日本全国の施設名(「××ランド」「○○大学」「△△王将」など1000万件以上が存在する)のような大語彙を認識すると、誤認識が多くなってしまうので、実用的でないという問題があった。よって、音声認識装置を実用的に用いることができるのは、少ない語彙を認識する場合に限られていた。
一方、孤立音節発声(「な、ご、や」のような単音節で区切った発声)は、発声における音節と音節との境界(例:「な」と「ご」の境界)を検出することが容易であるため、高い認識率を得られる可能性がある。そこで、単音節発声を利用した方法が提案されてきた(例えば、特許文献1及び特許文献2を参照。)。
特許文献1に記載された音声認識装置は、音節に区切って発声された音声を認識し、この認識結果を用いて連続発声された音声を認識することにより、高精度に認識するものである。
特許文献2に記載された音声認識装置は、ユーザの単音節発声に基づいて音節単位のディジタルデータを記憶する。そして、上記音声認識装置は、音節単位のディジタルデータを用いてユーザの連続発声を認識することで、音節区切り判定を容易にして、次音節との混同を防いでいる。
特開平10−340096号公報 特開平11−219194号公報
しかし、特許文献1に記載された音声認識装置では、ユーザは、単音節発声をした後に、必ず連続発声もしなければならないため、非常に煩わしいとう問題があった。
特許文献2に記載された音声認識装置では、ユーザは、前処理として、すべての音節について発声しなければならない。単音節発声は、ユーザにとって不自然であり、また発声が難しい。このため、ユーザは、非常に多くの単音節を発声しなければならないため、非常に煩わしい問題があった。
本発明は、上述した課題を解決するために提案されたものであり、ユーザに発話の煩わしさを感じさせることなく、高精度に音声を認識することができる音声認識装置、音声認識方法及びプログラムを提供することを目的とする。
上述した課題を解決するために、本発明に係る音声認識装置は、連続発声された音声を認識する連続音声認識手段と、前記連続音声認識手段により認識された音声の信頼度を算出する信頼度算出手段と、前記信頼度が低いときに音節発声された音声を認識する音節認識手段と、前記信頼度が高いときは前記連続音声認識手段により認識された音声を認識結果として出力し、前記信頼度が低いときは前記音節認識手段により認識された音声を認識結果として出力する認識結果出力手段と、を備えている。
本発明に係る音声認識方法は、連続発声された音声を認識する連続音声認識工程と、前記連続音声認識工程で認識された音声の信頼度を算出する信頼度算出工程と、前記信頼度が高いときに、前記連続音声認識工程により認識された音声を認識結果として出力する認識結果出力工程と、前記信頼度が低いときに、音節発声された音声を認識して認識結果として出力する音節認識工程と、を備えている。
本発明に係る音声認識プログラムは、コンピュータを、連続発声された音声を認識する連続音声認識手段と、前記連続音声認識手段により認識された音声の信頼度を算出する信頼度算出手段と、前記信頼度が低いときに音節発声された音声を認識する音節認識手段と、前記信頼度が高いときは前記連続音声認識手段により認識された音声を認識結果として出力し、前記信頼度が低いときは前記音節認識手段により認識された音声を認識結果として出力する認識結果出力手段と、して機能させる。
連続音声認識手段は、話者によって連続的に発声された音声、例えば、会話文、定型文などの音声を認識する。そして、信頼度算出手段は、連続音声認識手段により認識された音声の信頼度を算出する。
一方、音節認識手段は、連続音声認識手段で認識された音声の信頼度が低いときに、話者によって音節発声された音声を認識する。したがって、音節認識手段は、その信頼度が高いときは、音声認識処理を行わない。
認識結果出力手段は、連続音声認識手段で認識された音声の信頼度が高い場合、その認識された音声を認識結果としてそのまま出力する。一方、連続音声認識手段で認識された音声の信頼度が低い場合、連続音声認識手段で認識された音声には誤りが含まれている可能性が高いので、認識結果出力手段は、音節認識手段により認識された音声を認識結果として出力する。
したがって、上記発明によれば、連続音声認識手段により認識された音声の信頼度が高いときはその認識された音声を認識結果として出力し、その信頼度が低いときは音節認識手段により認識された音声を認識結果として出力することにより、話者の音節発話の負担を低減し、かつ認識率を向上することができる。
ここで、前記音声認識装置は、前記信頼度が低いときに話者に音節発声を指示する音節発声指示手段を更に備え、前記音節認識手段は、前記音節発声指示手段により音節発声が指示された後に、音節発声された音声を認識してもよい。
また、前記音声認識方法は、前記信頼度が低いときに話者に音節発声を指示する音節発声指示工程を更に備え、前記音節認識工程では、前記音節発声指示工程で音節発声が指示された後に、音節発声された音声を認識してもよい。
さらに、前記音声認識プログラムは、前記コンピュータを、前記信頼度が低いときに話者に音節発声を指示する音節発声指示手段として更に機能させ、前記音節認識手段は、前記音節発声指示手段により音節発声が指示された後に、音節発声された音声を認識してもよい。
音節発声指示手段は、連続音声認識手段により認識された音声の信頼度が低いときに話者に音節発声を指示することができれば特に限定されず、音声、画像、これら両方を用いてもよい。また、話者は、認識された音声の信頼度が低いときだけ、音節発声をすればよいので、発声の煩わしさが必要最小限で済む。
音節認識手段は、音節発声指示手段により音節発声が指示された後に、話者が指示された内容に沿って音節発声された音声を認識する。よって、音節認識手段は、「えーっと、」、「…でお願いします」などの不要語が含まれていない音声を認識するので、認識率を高く維持できる。
したがって、上記発明によれば、認識された音声の信頼度が低いときに話者に音節発声を指示し、音節発声が指示された後に、音節発声された音声を認識することにより、話者の発話の煩わしさを最小限に抑制しつつ、高精度に音声を認識することができる。
さらに、上記音声認識装置において、前記連続音声認識手段は、複数の単語を含んだ文字列の音声を認識し、前記信頼度算出手段は、前記連続音声認識手段により認識された文字列に含まれた単語毎に信頼度を算出し、前記音節発声指示手段は、前記文字列に含まれた複数の単語のうち信頼度が低い単語について、話者に音節発声を指示し、前記認識結果出力手段は、前記連続音声認識手段により認識された信頼度が高い単語と、前記音節認識手段により認識された単語とに基づいて、前記文字列の認識結果を出力してもよい。
本発明に係る音声認識方法は、複数の単語を含んだ文字列の音声を認識する連続音声認識工程と、前記連続音声認識工程で認識された文字列に含まれた単語毎に信頼度を算出する信頼度算出工程と、前記文字列に含まれた複数の単語のうち信頼度が低い単語について、話者に音節発声を指示する音節発声指示工程と、前記音節発声指示工程で音節発声が指示された後に、音節発声された音声を認識する音節認識工程と、前記連続音声認識工程により認識された信頼度が高い単語と、前記音節認識工程により認識された単語とに基づいて、前記文字列の認識結果を出力する認識結果出力工程と、を備えている。
また、上記音声認識プログラムにおいて、前記連続音声認識手段は、複数の単語を含んだ文字列の音声を認識し、前記信頼度算出手段は、前記連続音声認識手段により認識された文字列に含まれた単語毎に信頼度を算出し、前記音節発声指示手段は、前記文字列に含まれた複数の単語のうち信頼度が低い単語について、話者に音節発声を指示し、前記認識結果出力手段は、前記連続音声認識手段により認識された信頼度が高い単語と、前記音節認識手段により認識された単語とに基づいて、前記文字列の認識結果を出力してもよい。
連続音声認識手段は、複数の単語を含んだ文字列の音声を認識する。この文字列は、定型文であってもよいし、複数の単語を単に並べただけものであってもよい。信頼度算出手段は、連続音声認識手段により認識された文字列に含まれた単語毎に信頼度を算出する。
音節発声指示手段は、前記文字列に含まれた複数の単語のうち信頼度が低い単語について、話者に音節発声を指示する。したがって、音節発声指示手段は、連続音声認識手段により認識された単語の信頼度が低いときは、その単語が誤って認識された可能性が高いため、その単語について音節発声を指示する。
認識結果出力手段は、連続音声認識手段により認識された信頼度が高い単語と、音節認識手段により認識された単語とに基づいて、話者が最初に発話した文字列の認識結果を出力する。つまり、認識結果出力手段は、2つの認識手段で得られた認識結果のうち信頼度の高い認識結果を組み合わせて出力する。
したがって、上記発明によれば、連続音声認識により認識された複数の単語を含んだ文字列について、その中に含まれた単語毎に信頼度を算出し、信頼度が低い単語について話者に音節発声を指示し、連続音声認識により認識された信頼度が高い単語と音節認識により認識された単語とに基づいて、文字列の認識結果を出力することにより、話者の音節発話の負担を低減し、かつ認識率を向上することができる。
本発明に係る音声認識装置、音声認識方法及びプログラムは、連続音声認識により認識された音声の信頼度が高いときはその認識された音声を認識結果として出力し、その信頼度が低いときは音節認識により認識された音声を認識結果として出力することにより、話者の音節発話の負担を低減し、かつ認識率を向上することができる。
以下、本発明を実施するための最良の形態について、図面を参照しながら詳細に説明する。
図1は、本発明の実施形態に係るナビゲーション装置を示すブロック構成図である。図2乃至図5は、ナビゲーション装置の動作中のブロックを示す図である。
ナビゲーション装置は、音声で入力される地名及び店名に該当する店舗を検索し、その店舗を目的地として設定するものである。
ナビゲーション装置は、ユーザの発声に応じた音圧波形信号を生成するマイクロフォン10と、音圧波形信号の出力先を切り替える切替スイッチ20と、文発声(連続発声)を認識する文発声認識部30と、音節発声を認識する音節認識部40と、文発声の認識結果の信頼度(認識信頼度)を判定する信頼度判定部50と、文発声に含まれた単語を認識する単語音声認識部60と、店名辞書データベース70と、地名辞書データベース80と、ユーザに再発声を促すための応答文を生成する確認応答生成部90と、店舗を検索する検索部100と、店名及びそれに対応する緯度経度情報を記憶したデータベース110と、合成音声を出力するスピーカ120と、経路探索処理を行うナビゲーション部130とを備えている。
マイクロフォン10は、ユーザの発話に応じて音圧波形信号を生成し、この音圧波形信号を切替スイッチ20に供給する。
切替スイッチ20は、端子a又は端子bに切替可能に構成され、信頼度判定部50によってその切替が制御されている。切替スイッチ20は、端子aに切り替えられているときはマイクロフォン10で生成された音圧波形信号を文発声認識部30に供給し、端子bに切り替えられているときは音圧波形信号を音節認識部40に供給する。なお、切替スイッチ20は、初期状態では端子aに切り替えられている。
文発声認識部30は、音圧波形信号に基づいて文発声を認識する。文発声を認識する代表的手法として、文法認識方式とn−gram認識方式が広く知られている。本実施形態では、文発声認識部30は文法認識方式を用いている例を説明するが、n−gram認識方式を用いることができるのは勿論である。なお、文法認識方式とは、あらかじめ決められた文法の範囲で文発声を認識する文法的言語モデルをいう。n−gram認識方式とは、単語の生起確率が直前の(n−1)個の単語のみに依存するとした統計的言語モデルをいう。
文発声認識部30は、入力された文発声の音圧波形信号をテキスト文字列に変換する。そして、文発声認識部30は、このテキスト文字列と、当該テキスト文字列が入力音声波形のどの部分に対応するかを表す情報とを、信頼度判定部50に供給する。
なお、文発声をテキストに変換する音声認識技術は、ディクテーション技術として広く知られている技術である(例えば、鹿野清宏他「音声認識システム」オーム社(2001)を参照。)。また、ディクテーション技術を用いることにより、入力された音圧波形信号のどの部分がどのテキスト文字(又はテキスト文字列)に対応するかを知ることができる。
一方、音節認識部40は、ユーザが音節毎に発声した単語を認識する。具体的には、音節認識部40は、マイクロフォン10から入力された音節発声(たとえば「あ」「い」…)の音声波形信号をテキスト文字列に変換し、このテキスト文字列を検索部100に供給する。なお、「あ」「い」などの単独で発声された音声を認識し文字列を出力する技術は「孤立単語認識技術」として広く知られている。
信頼度判定部50は、店名のテキスト文字列と、音圧波形のうち店名に相当する部分の音圧波形信号とを、単語音声認識部60に供給する。さらに、信頼度判定部50は、地名のテキスト文字列と、音圧波形のうち地名に相当する部分の音圧波形信号とを、単語音声認識部60に供給する。
また、信頼度判定部50は、単語音声認識部60によって得られた店名及び地名の認識結果とそれらの信頼度とに基づいて、地名及び店名を含んだ認識リストを作成する。認識リストは、信頼度の高い認識結果を用いて構成され、例えば[(地名)、(店名)]となる。なお、信頼度の低い認識結果がある場合、その認識結果の代わりに“*”を用いる。
ここで、信頼度が高いとは、信頼度がある閾値以上のことをいい、認識結果が正しいと考えられる。信頼度が低いとは、信頼度がある閾値未満のことをいい、認識結果は誤りを含んでいる可能性が高い、又は認識不可であったと考えられる。
例えば、地名の認識信頼度が低く、店名の認識信頼度が高いときは、認識リストは[*,(店名)]となる。逆に、地名の認識信頼度が高く、店名の認識信頼度が低いときは、認識リストは[(地名),*]となる。地名及び店名の認識信頼度が共に低いときは、認識リストは[*,*]となる。
信頼度判定部50は、このような認識リストを検索部100に供給する。また、信頼度判定部50は、認識リストに認識信頼度の低い単語が含まれているとき(“*”が含まれているとき)は、その認識リストを確認応答生成部90に供給する。信頼度判定部50は、認識リストに“*”が含まれているときは、切替スイッチ20を端子bに切り替えるように制御する。
単語音声認識部60は、店名辞書データベース70を用いて、入力された部分音圧波形の音声認識を行い、店名を認識すると共にその認識信頼度を計算する。同様に、単語音声認識部60は、地名辞書データベース80を用いて、入力された部分音圧波形の音声認識を行い、地名を認識すると共にその認識信頼度を計算する。そして、単語音声認識部60は、認識結果及びその信頼度を信頼度判定部50に供給する。
なお、単語音声認識部60において信頼度を計算する方法は、公知の技術を用いることができる(例えば、R.A.Shukkar and C.H.Lee. "Vocabulary independent discriminative utterance verification for nonkeyword rejection in subword based speech recognition", IEEE Trans., on Speech and Audio Processing, Vol.4, No.6,pp.420-429, (1996)を参照。)。
確認応答生成部90は、認識信頼度の低い(又は認識されなかった)単語“*”の発話を促すような確認応答文を生成する。具体的には、信頼度判定部50から供給された“*”のカテゴリ及びその数により以下のような動作を行う。
確認応答生成部90は、“*”が店名の場合(例えば[(地名)、*]の場合)、「(地名)の何と言うお店でしょうか? 『あ い ち』のように区切ってもう一度お願いします」という確認応答文を生成して、スピーカ120を介して出力する。
確認応答生成部90は、“*”が地名の場合(例えば[*、(店名)]の場合)、「どこの(店名)でしょうか? 『あ い ち』のように区切ってもう一度お願いします」という確認応答文を生成して、スピーカ120を介して出力する。
確認応答生成部90は、*が店名及び地名のそれぞれに対応する場合(例えば[*、*]の場合)、「もう一度お話ください」という確認応答文を生成して、スピーカ120を介して出力する。
検索部100は、データベース110の中から認識リストに対応する店舗を検索する。そして、認識リストに対応する店舗の緯度経度情報をデータベース110から読み出して、ナビゲーション部130に供給する。ただし、検索部100は、認識リストに“*”が含まれる場合は、その“*”を音節認識部40で認識された文字列に置き換えて、店舗を検索する。
ナビゲーション部130は、店舗の緯度経度情報を用いて、現在位置から店舗位置までの経路を探索して、図示しないモニタにその経路を表示する。
以上のように構成されたナビゲーション装置は、ユーザの発話を以下の手順に従って認識する。本実施形態では、ユーザは、「中区の尾張屋」を目的地として設定したいものとする。
最初に、ユーザは、マイクロフォン10に向かって、「えーっと、中区の尾張屋です」という文を発話したとする。このとき、マイクロフォン10は、ユーザの発話に応じた音圧波形信号を、切替スイッチ20を介して文発声認識部30に供給する。なお、ユーザが発話する文は、上記の例に限らず、キーワードの配置が決められた定型文、キーワードを順に並べただけのもの、その他、自由文などであってもよい。
文発声認識部30は、マイクロフォン10から供給された文発声の音圧波形信号をテキスト文字列に変換する。文発声認識部30は、このテキスト文字列と、当該テキスト文字列に対応する音圧波形信号とを、信頼度判定部50を介して単語音声認識部60に供給する。
単語音声認識部60は、テキスト文字列、これに対応する音圧波形信号、店名辞書データベース70又は地名辞書データベース80を用いて、店名又は地名を認識すると共に、その認識信頼度を演算する。そして、これらの結果を信頼度判定部50に供給する。
ここで、文発声認識部30の音声認識率は必ずしも100%ではないため、認識結果(テキスト文字列)に誤りが含まれている可能性がある。このため、単語音声認識部60で認識された単語の中に、認識信頼度が低いものがある。そこで、信頼度判定部50は、認識信頼度の高い単語のみを用いて、以下に説明するように認識リストを作成する。
(地名及び店名の認識信頼度が高い場合)
信頼度判定部50は、地名と店名の両方の認識信頼度が高いと判定した場合、認識リスト[中区、尾張屋]を作成し、図2に示すように、この認識リスト[中区、尾張屋]を検索部100に供給する。検索部100は、認識リスト[中区、尾張屋]に基づいて、中区にある尾張屋を検索し、この尾張屋の緯度経度情報(例えば、北緯35度00分00秒、東経138度12分、34秒)をナビゲーション部130に供給する。
(地名の認識信頼度が高く、店名の認識信頼度が低い場合)
信頼度判定部50は、地名の信頼度が高く、店名の信頼度が低いと判定した場合、[中区、*]という認識リストを作成する。そして、この認識リストを確認応答生成部90及び検索部100に供給する。
確認応答生成部90は、ユーザに店名の再発話を促すような確認応答文(音声ガイダンス)、例えば「中区のなんというお店でしょうか? 『あ い ち』のように区切ってもう一度お願いします」を生成し、図3に示すように、スピーカ120を介して音声出力する。これと同時に、信頼度判定部50は、切替スイッチ20を端子bに切り替える。
これにより、「えーっと」、「…をお願いします」などの音声認識処理に不要な語(不要語)を排除して、再認識処理に必要な単語(文発声認識部30で認識されなかった単語のみ)の発声を促すことができる。
ユーザは、音声ガイダンスに従い「お わ り や」のように発話する。マイクロフォン10は、ユーザの音節毎の発話に応じた音圧波形信号を、切替スイッチ20を介して音節認識部40に供給する。
音節認識部40は、マイクロフォン10から切替スイッチ20を介して供給された音圧波形信号に基づいて、ユーザが発話した各々の音節を認識する。このとき、音節認識部40は、不要語のない、音節毎の音圧波形信号を認識するので、高い認識率を得ることができる。なお、ここでは音節認識部40は、「尾張屋」を認識したものとする。
検索部100は、図4に示すように、信頼度判定部50で作成された認識リスト[中区、*]に含まれている“*”を、音節認識部40で認識された「尾張屋」に置き換えて、新たな認識リスト[中区、尾張屋]を生成する。そして、検索部100は、認識リスト[中区、尾張屋]に基づいて、中区にある尾張屋を検索し、この尾張屋の緯度経度情報をナビゲーション部130に供給する。
(地名及び店名の認識信頼度が低い場合)
信頼度判定部50は、地名と店名の両方の認識信頼度が低いと判定した場合、認識リスト[*、*]を作成して、確認応答生成部90に供給する。確認応答生成部90は、地名と店名の再発話を促すような音声ガイダンス、例えば「もう一度お話ください」を生成し、図5に示すように、スピーカ120を介して、音声出力する。これにより、ユーザは、再び連続発話を行う。
なお、信頼度判定部50は、認識リスト[*、*]を作成すると同時に、切替スイッチ20を端子bに切り替えることもできる。このとき、確認応答生成部90は、音節毎に再発話を促すような音声ガイダンス、例えば「『あ い ち』のように区切ってもう一度お願いします」を生成してもよい。
これらの処理を経た後、ナビゲーション部130は、現在の自車両位置から、検索部100で検索された緯度経度情報で表され店舗位置までの経路を探索して、図示しないモニタにその経路を表示する。
以上のように、本発明の実施形態に係るナビゲーション装置は、連続発声の音声認識を行い、その認識結果の信頼度が高い場合には、その認識結果をそのまま使用する。一方、その認識結果の中に認識信頼度の低い単語が含まれているときは、ユーザにその単語の音節発声を促して単音節認識を行い、連続発声認識及び音節認識を組み合わせることで、連続発声を認識する。
したがって、上記ナビゲーション装置は、ユーザにとって使い易いが認識率が低い連続音声認識処理と、ユーザにとってあまり使い易くないが認識率が高い音節認識処理とを組み合わせることにより、ユーザの使い易さを担保しつつ、認識率の向上を図ることができる。
特に、上記ナビゲーション装置は、連続音声認識の信頼度の低い単語について、ユーザに音節発声を促した後音節毎に認識することにより、音節認識に不要な単語をユーザに発話させないようにするので、音声認識率を向上することができる。また、上記ナビゲーション装置は、連続音声認識されなかった単語のみ音節発声をユーザに促すので、ユーザに対しては、慣れ親しんだ対話形式のユーザインタフェースを提供することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、特許請求の範囲に記載された範囲内で設計上変更されたものにも適用可能である。例えば、本発明は次のようなものにも適用できる。
上記の実施形態では、本発明の一例として店舗を検索するナビゲーション装置を例に挙げて説明したが、本発明はこれに限定されるものではない。検索対象としては、上記の例に限らず、例えば、音楽曲名、人物、会社名などであってもよい。
また、本発明は、音声認識結果を使用するものであれば適用可能であり、例えば図1に示した検索部100は必須ではない。
ナビゲーション装置は、「もう一度お話ください」などの音声ガイダンスを行ったが、ユーザに再発話を促すことができれば、音声に限定されるものではない。例えば、ナビゲーション装置は、ユーザに再発話を促す確認応答文をモニタに表示してもよい。さらに、音声及び画像の両方で確認応答文を出力してもよい。
また、文発声認識部30は、文法認識方式の代わりに、n−gram認識方式を用いてもよい。これにより、不要語などを許容した自然な音声対話システムを構築することができる。
また、連続音声認識で使用される連続音声認識辞書(店名辞書データベース70及び地名辞書データベース80)と、音節認識部40で使用される図示しない単音節認識辞書とは、同じである必要はない。例えば全国施設名を音声入力する場合においては、次のようにすればよい。
連続音声認識辞書の語彙については、例えば5000語程度の頻出単語(例えば、「名古屋駅」、「○○博物館」など)とする。単音節認識辞書の語彙については、例えば1150万語のすべての地名を網羅した頻出単語以外の単語(例えば、「ヘアクリニック ワキタ」など)とする。
図6は、上記のように語彙数の異なる認識辞書を用いたときの音声認識処理の内容を示す図である。ユーザが頻出単語を発話した場合は、連続音声認識処理で認識された単語がそのまま認識結果として使用される。一方、ユーザが頻出単語以外の単語を発話した場合は、連続音声認識処理から単音節認識処理に移行し、単音節認識処理で認識された単語が認識結果として使用される。よって、ユーザが頻出単語を発話した場合は、音声認識処理が短時間で終了する、という効果が得られる。
また、上述した音声認識処理を実行する音声認識プログラムをコンピュータにインストールして、そのコンピュータに切替スイッチ20、文発声認識部30、音節認識部40、信頼度判定部50、単語音声認識部60、店名辞書データベース70、地名辞書データベース80、確認応答生成部90の機能を実行させてもよい。
なお、上記コンピュータは、通信回線を介して伝送された音声認識プログラムをインストールしてもよいし、光ディスク、磁気ディスク、半導体メモリなどの記録媒体に記録された音声認識プログラムをインストールしてもよい。
本発明の実施形態に係るナビゲーション装置を示すブロック構成図である。 ナビゲーション装置の動作中のブロックを示す図である。 ナビゲーション装置の動作中のブロックを示す図である。 ナビゲーション装置の動作中のブロックを示す図である。 ナビゲーション装置の動作中のブロックを示す図である。 語彙数の異なる認識辞書を用いたときの音声認識処理の内容を示す図である。
符号の説明
10 マイクロフォン
20 切替スイッチ
30 文発声認識部
40 音節認識部
50 信頼度判定部
60 単語音声認識部
70 店名辞書データベース
80 地名辞書データベース
90 確認応答生成部
100 検索部
110 データベース
120 スピーカ
130 ナビゲーション部

Claims (9)

  1. 連続発声された音声を認識する連続音声認識手段と、
    前記連続音声認識手段により認識された音声の信頼度を算出する信頼度算出手段と、
    前記信頼度が低いときに音節発声された音声を認識する音節認識手段と、
    前記信頼度が高いときは前記連続音声認識手段により認識された音声を認識結果として出力し、前記信頼度が低いときは前記音節認識手段により認識された音声を認識結果として出力する認識結果出力手段と、
    を備えた音声認識装置。
  2. 前記信頼度が低いときに話者に音節発声を指示する音節発声指示手段を更に備え、
    前記音節認識手段は、前記音節発声指示手段により音節発声が指示された後に、音節発声された音声を認識する
    請求項1に記載の音声認識装置。
  3. 前記連続音声認識手段は、複数の単語を含んだ文字列の音声を認識し、
    前記信頼度算出手段は、前記連続音声認識手段により認識された文字列に含まれた単語毎に信頼度を算出し、
    前記音節発声指示手段は、前記文字列に含まれた複数の単語のうち信頼度が低い単語について、話者に音節発声を指示し、
    前記認識結果出力手段は、前記連続音声認識手段により認識された信頼度が高い単語と、前記音節認識手段により認識された単語とに基づいて、前記文字列の認識結果を出力する
    請求項2に記載の音声認識装置。
  4. 連続発声された音声を認識する連続音声認識工程と、
    前記連続音声認識工程で認識された音声の信頼度を算出する信頼度算出工程と、
    前記信頼度が高いときに、前記連続音声認識工程により認識された音声を認識結果として出力する認識結果出力工程と、
    前記信頼度が低いときに、音節発声された音声を認識して認識結果として出力する音節認識工程と、
    を備えた音声認識方法。
  5. 前記信頼度が低いときに話者に音節発声を指示する音節発声指示工程を更に備え、
    前記音節認識工程では、前記音節発声指示工程で音節発声が指示された後に、音節発声された音声を認識する
    請求項4に記載の音声認識方法。
  6. 複数の単語を含んだ文字列の音声を認識する連続音声認識工程と、
    前記連続音声認識工程で認識された文字列に含まれた単語毎に信頼度を算出する信頼度算出工程と、
    前記文字列に含まれた複数の単語のうち信頼度が低い単語について、話者に音節発声を指示する音節発声指示工程と、
    前記音節発声指示工程で音節発声が指示された後に、音節発声された音声を認識する音節認識工程と、
    前記連続音声認識工程により認識された信頼度が高い単語と、前記音節認識工程により認識された単語とに基づいて、前記文字列の認識結果を出力する認識結果出力工程と
    を備えた音声認識方法。
  7. コンピュータを、
    連続発声された音声を認識する連続音声認識手段と、
    前記連続音声認識手段により認識された音声の信頼度を算出する信頼度算出手段と、
    前記信頼度が低いときに音節発声された音声を認識する音節認識手段と、
    前記信頼度が高いときは前記連続音声認識手段により認識された音声を認識結果として出力し、前記信頼度が低いときは前記音節認識手段により認識された音声を認識結果として出力する認識結果出力手段と、
    して機能させる音声認識プログラム。
  8. 前記コンピュータを、
    前記信頼度が低いときに話者に音節発声を指示する音節発声指示手段として更に機能させ、
    前記音節認識手段は、前記音節発声指示手段により音節発声が指示された後に、音節発声された音声を認識する
    請求項7に記載の音声認識プログラム。
  9. 前記連続音声認識手段は、複数の単語を含んだ文字列の音声を認識し、
    前記信頼度算出手段は、前記連続音声認識手段により認識された文字列に含まれた単語毎に信頼度を算出し、
    前記音節発声指示手段は、前記文字列に含まれた複数の単語のうち信頼度が低い単語について、話者に音節発声を指示し、
    前記認識結果出力手段は、前記連続音声認識手段により認識された信頼度が高い単語と、前記音節認識手段により認識された単語とに基づいて、前記文字列の認識結果を出力する
    請求項8に記載の音声認識プログラム。
JP2003398592A 2003-11-28 2003-11-28 音声認識装置、音声認識方法及びプログラム Pending JP2005157166A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003398592A JP2005157166A (ja) 2003-11-28 2003-11-28 音声認識装置、音声認識方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003398592A JP2005157166A (ja) 2003-11-28 2003-11-28 音声認識装置、音声認識方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2005157166A true JP2005157166A (ja) 2005-06-16

Family

ID=34723399

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003398592A Pending JP2005157166A (ja) 2003-11-28 2003-11-28 音声認識装置、音声認識方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2005157166A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008052178A (ja) * 2006-08-28 2008-03-06 Toyota Motor Corp 音声認識装置と音声認識方法
WO2008111217A1 (ja) * 2007-03-15 2008-09-18 Olympus Medical Systems Corp. 手術システム制御装置及び手術システム制御方法
DE112008001763T5 (de) 2007-07-09 2010-04-29 Mitsubishi Electric Corporation Spracherkennungsvorrichtung und Navigationssystem
US8010368B2 (en) 2005-12-28 2011-08-30 Olympus Medical Systems Corp. Surgical system controlling apparatus and surgical system controlling method
WO2018043139A1 (ja) * 2016-08-31 2018-03-08 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
US11030418B2 (en) 2016-09-23 2021-06-08 Panasonic Intellectual Property Management Co., Ltd. Translation device and system with utterance reinput request notification

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8010368B2 (en) 2005-12-28 2011-08-30 Olympus Medical Systems Corp. Surgical system controlling apparatus and surgical system controlling method
JP2008052178A (ja) * 2006-08-28 2008-03-06 Toyota Motor Corp 音声認識装置と音声認識方法
WO2008111217A1 (ja) * 2007-03-15 2008-09-18 Olympus Medical Systems Corp. 手術システム制御装置及び手術システム制御方法
EP2124222A4 (en) * 2007-03-15 2015-03-18 Olympus Medical Systems Corp OPERATING SYSTEM CONTROL DEVICE AND OPERATING SYSTEM CONTROL METHOD
DE112008001763T5 (de) 2007-07-09 2010-04-29 Mitsubishi Electric Corporation Spracherkennungsvorrichtung und Navigationssystem
WO2018043139A1 (ja) * 2016-08-31 2018-03-08 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
CN109643547A (zh) * 2016-08-31 2019-04-16 索尼公司 信息处理装置、处理信息的方法和程序
US11030418B2 (en) 2016-09-23 2021-06-08 Panasonic Intellectual Property Management Co., Ltd. Translation device and system with utterance reinput request notification

Similar Documents

Publication Publication Date Title
US10140973B1 (en) Text-to-speech processing using previously speech processed data
JP4542974B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
US8275621B2 (en) Determining text to speech pronunciation based on an utterance from a user
US5865626A (en) Multi-dialect speech recognition method and apparatus
JP5118280B2 (ja) 自然言語インターフェースコントロールシステム
US10163436B1 (en) Training a speech processing system using spoken utterances
US7415411B2 (en) Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers
EP0965979A1 (en) Position manipulation in speech recognition
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
JP2002520664A (ja) 言語に依存しない音声認識
JP2007133033A (ja) 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム
JP2004526197A (ja) 入力された音声のトランスクリプションおよび表示
US20030154080A1 (en) Method and apparatus for modification of audio input to a data processing system
JP2001188781A (ja) 会話処理装置および方法、並びに記録媒体
JP4704254B2 (ja) 読み修正装置
JP2008243080A (ja) 音声を翻訳する装置、方法およびプログラム
EP0562138A1 (en) Method and apparatus for the automatic generation of Markov models of new words to be added to a speech recognition vocabulary
JP2010197644A (ja) 音声認識システム
JP2005157166A (ja) 音声認識装置、音声認識方法及びプログラム
JP3776391B2 (ja) 多言語音声認識方法、装置、プログラム
JP2005031150A (ja) 音声処理装置および方法
JP3277579B2 (ja) 音声認識方法および装置
Syadida et al. Sphinx4 for indonesian continuous speech recognition system
JP4930014B2 (ja) 音声認識装置、および音声認識方法
US11176930B1 (en) Storing audio commands for time-delayed execution

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050713

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080226

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080708