JP2011027905A

JP2011027905A - 音声認識装置およびそれを用いたナビゲーション装置

Info

Publication number: JP2011027905A
Application number: JP2009172112A
Authority: JP
Inventors: Yuya Hattori; 佑哉服部; Manabu Otsuka; まなぶ大塚; Ichiro Akahori; 一郎赤堀
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2009-07-23
Filing date: 2009-07-23
Publication date: 2011-02-10

Abstract

【課題】ユーザが発話する認識単位を誤認識することなく高精度に認識する音声認識装置およびそれを用いたナビゲーション装置を提供する。
【解決手段】音声認識装置は、次にマイクから入力される音声信号を格納するために音声バッファを空にし（Ｓ４００）、一定時間間隔でスピーカからテンポ音を発生させるテンポ信号が出力されるまで（Ｓ４０４：Ｙｅｓ）、マイクから入力される音声信号を音声バッファに格納する（Ｓ４０２）。音声バッファにユーザの発話が入っている場合（Ｓ４０６：Ｙｅｓ）、音声認識装置は、予め指定されたユーザが発話する認識単位、例えば１桁の数字または１モーラに基づいて、音声バッファに入っている音声信号と標準音声パターンとを比較し、認識単位毎に音声信号を認識する（Ｓ４０８）。音声認識装置は、一つの認識単位で音声信号を認識すると、Ｓ４００に処理を移行し、次のテンポ信号まで音声信号を音声バッファに格納する。
【選択図】図３

Description

本発明は、ユーザが発話する音声を認識する音声認識装置およびそれを用いたナビゲーション装置に関する。

従来、ユーザが発話する音声を入力し、入力された音声を数字または文字として認識する音声認識装置が広く知られている。このような音声認識装置を用いたユーザインターフェースは、ユーザがハンズフリーで各種操作を実行することを可能にする。例えば、車両の運転中においては運転者によるスイッチ操作が困難であるから、車両に搭載されるナビゲーション装置等に音声認識装置を組み込んで、音声により目的地等を入力できることが望ましい。

音声認識装置は一般に、入力された音声信号から得られる特徴量の時系列と、予め登録された標準音声パターンとを比較することにより、両者の類似の度合いを示す類似度を算出する。そして、音声認識装置は、類似度が最も高い標準音声パターンに対応する数字または文字を、ユーザが発話した数字または文字であると認識する。

ところで、ユーザが発話する任意の並びの数字列または任意の並びの文字列の音声を１桁の数字または１拍（モーラ：mora）の認識単位毎に認識しようとする場合、ユーザが発話していない認識単位が挿入される「挿入誤り」が生じたり、ユーザが発話した認識単位が認識されずに削除される「削除誤り」が生じたりすることがある。

尚、１桁の数字を認識単位とする場合、数字の「３」を発話する音声である「さん」は一つの認識単位である。これに対し、１モーラを認識単位とする場合、「さん」と発話する音声において、「さ」、「ん」はそれぞれ一つの認識単位である。

ここで、挿入誤りとして、「３１」という数字列を「さんいち」とユーザが発話した場合を考えてみる。「３１」の発音を音素列（ローマ字）で表記すると「ｓａＮｉｃｈｉ」となる。ユーザが「ｓａＮｉｃｈｉ」と発話した場合に、［ｓａＮ］の「Ｎ」と「ｉｃｈｉ」の「ｉ」とが結びついて「ｎｉ」となり、「２」が挿入されて「３２１」の数字列として認識されることがある。

他の挿入誤りとして、「６７」という数字列を「ろくしち」とユーザが発話した場合を考えてみる。「６７」の発音を音素列で表記すると「ｒｏｋｕｓｈｉｃｈｉ」となる。ユーザが「ｒｏｋｕｓｈｉｃｈｉ」と発話した場合に、［ｒｏ］を「ｇｏ」に、「ｓｈｉｃｈｉ」の「ｃｈｉ」を「ｓｈｉ」に誤認識し、「ｇｏｋｕｓｈｉｓｈｉ」と認識されることがある。この場合、「６７（ろくしち）」という２桁の数字列は「５９４４（ごくしし）」の４桁の数字列として認識されるおそれがある。

また他の挿入誤りとして、「あに」という文字列をユーザが発話した場合を考えてみる。「あに」の発音を音素列で表記すると「ａｎｉ」となる。ユーザが「ａｎｉ」と発話した場合に、［ｎ］を「Ｎ」と認識し、「ａｎｉ」を「ａＮｉ」と認識されることがある。この場合、「あに」という２モーラの文字列は「あんい」という３モーラの文字列として認識されることになる。

また、削除誤りとして、「あんい」という３モーラの文字列の発音を音素列で表記すると「ａＮｉ」となる。ユーザが「ａＮｉ」と発話した場合に、「Ｎ」と「ｉ」とが結びついて「ｎｉ」となり、「あんい」の「んい」が「に」に置換されて「あに」という２モーラの文字列として認識されることがある。

他の削除誤りとして、前述した挿入誤りとは逆に、「５９４４」の４桁の数字列を「ごくしし」とユーザが発話した場合に、「ｇｏｋｕｓｈｉｓｈｉ」を「ｒｏｋｕｓｈｉｃｈｉ」と認識し、「６７」の２桁の数字列と誤認識することがある。

そこで、特許文献１では、ユーザが発話した数字列の音声に対して数字列の候補を認識し、数字列の候補に対して桁単位に照合長を求める。そして、各桁の照合長の平均値よりも短い照合長の数字は挿入誤りにより生じたと判断し候補から削除している。

例えば、ユーザが「３１」という数字列を「ｓａＮｉｃｈｉ」と発話した場合に、［ｓａＮ］の「Ｎ」と「ｉｃｈｉ」の「ｉ」とが結びついて「ｎｉ」となり、「２」が挿入されて「３２１」の数字列が候補となる場合、「Ｎ」と「ｉｃｈｉ」の「ｉ」とが結びついた「ｎｉ」の照合長が短い場合には、「２」を候補から削除し、「３１」と認識する。

特開２０００−２２１９９２号公報

しかしながら、特許文献１では、ユーザが「３２１」の「２」を「３」と「１」よりも実際に短く発話した場合にも、「２」の照合長が短いと判断して「２」を削除する可能性がある。これ以外にも、特許文献１では、如何なる削除誤りも防止することができないという問題がある。

また、前述した「６７」と発話された音声の候補として「５９４４」と認識される場合、「５９４４」の各数字の照合長がほぼ等しい場合には平均よりも短い照合長の数字が存在しないので、「５９４４」と誤認識した数字列の候補を「６７」と訂正できないという問題がある。

本発明は、上記問題を解決するためになされたものであり、ユーザが発話する認識単位を誤認識することなく高精度に認識する音声認識装置およびそれを用いたナビゲーション装置を提供することを目的とする。

請求項１から１３に記載の発明によると、テンポ提示手段はテンポ生成手段が生成するテンポをユーザに提示し、認識手段はテンポにしたがってユーザが発話するユーザ音声を認識単位毎に認識する。

このように、ユーザが自らのテンポで発話するのではなく、テンポ生成手段が生成しテンポ提示手段が提示するテンポにしたがって発話するので、ユーザがテンポにしたがってテンポ毎に発話するユーザ音声を一つの認識単位として認識できる。これにより、ユーザが実際には発話していない認識単位を認識単位と認識単位との間に誤って挿入して認識する「挿入誤り」、ならびにユーザが発話した複数の認識単位から、実際に発話された認識単位を誤って削除する「削除誤り」が生じることを防止できる。

請求項２に記載の発明によると、テンポ提示手段は、テンポ生成手段が生成するテンポにしたがって所定のテンポ音を発する。
これにより、ユーザは、聴覚を働かせるだけでテンポ音にしたがって発話することができる。その結果、他の感覚、例えば視覚、触覚を発話以外の他の目的に使用できる。

請求項３に記載の発明によると、テンポ音除去手段は入力手段から入力されたユーザ音声とテンポ音とからテンポ音をキャンセルし、認識手段は、テンポ音除去手段がテンポ音を除去したユーザ音声を認識単位毎に認識する。

これにより、テンポ提示手段が発するテンポ音を除去した状態で、ユーザ音声を認識単位毎に認識できる。その結果、テンポ音に妨げられることなくユーザ音声を高精度に認識できる。

請求項４に記載の発明によると、テンポ提示手段は、ユーザに視覚的にテンポを提示する。
これにより、ユーザは、視覚を働かせるだけで、例えば光の点滅により発生するテンポにしたがって発話することができる。その結果、他の感覚、例えば聴覚、触覚を発話以外の他の目的に使用できる。

請求項５に記載の発明によると、テンポ提示手段は、ユーザに触覚的にテンポを提示する。
これにより、ユーザは、触覚を働かせるだけで、例えば振動の有無により発生するテンポにしたがって発話することができる。その結果、他の感覚、例えば視覚、聴覚を発話以外の他の目的に使用できる。

請求項６に記載の発明によると、テンポ提示手段は、テンポにしたがいガイダンス発話をユーザに提示する。
これにより、ユーザは、聴覚を働かせるだけでテンポにしたがって発話することができる。その結果、他の感覚、例えば視覚、触覚を発話以外の他の目的に使用できる。また、ガイダンス発話によるテンポ提示はユーザ発話の前にだけ行われるため、ユーザは発話中には聴覚も働かせる必要がない。これにより、認知負荷が高まることを避けることができるので、例えば運転など他の作業中に音声認識を用いる場合に適する。

請求項７から１０に記載の発明によると、テンポ生成手段は、ユーザ音声に対する復唱を認識単位毎にテンポにしたがって一定時間遅延させてテンポ提示手段から発生させる。
これにより、ユーザは、聴覚を働かせるだけでテンポにしたがって発話することができる。その結果、他の感覚、例えば視覚、触覚を発話以外の他の目的に使用できる。また、人同士の対話でも用いられる復唱という自然な形式でテンポを提示できるため、人が機械のテンポに合わせられていると感じるストレスを軽減することができる。

また、ユーザ音声が復唱されるので、例えば、ユーザ自身が発話したと認識している認識単位と、復唱されたユーザ音声の認識単位とが異なっている場合に、ユーザが不一致に気付くことができる。これにより、発話をやり直すことができる。

請求項８に記載の発明によると、合成音声生成手段は、認識手段が認識する認識単位毎にユーザが発話する音声の合成音声を生成し、テンポ生成手段は、合成音声生成手段が生成する合成音声をテンポにしたがって認識単位毎にテンポ提示手段から復唱させる。

これにより、音声認識された認識単位に対応する合成音声以外の音が復唱されないので、復唱された合成音声を聞くことにより、ユーザは自身が発話した音声を正確に認識することができる。その結果、数字や文字を間違って発話したことをユーザが気付くことができる。これにより、発話をやり直すことができる。

また、認識手段が認識する認識単位毎に合成音声が生成され復唱されるので、ユーザ音声が誤認識されて合成音声が生成された場合に、誤認識されたことをユーザが気付くことができる。これにより、発話をやり直すことができる。

請求項９に記載の発明によると、録音手段は認識手段が認識する認識単位毎にユーザ音声を録音し、テンポ生成手段は、録音手段が録音しているユーザ音声をテンポにしたがって認識単位毎にテンポ提示手段から復唱させる。

これにより、ユーザ音声がそのまま復唱されるので、例えば、数字や文字を間違って発話したことをユーザが気付くことができる。これにより、発話をやり直すことができる。また、合成音声を用いる場合に比べ、ユーザの発話をそのまま用いるので、ユーザ音声を復唱するときの遅延時間がばらつく恐れが少ない。

請求項１０に記載の発明によると、声質変化手段は録音手段が録音している音声の声質を変化させ、テンポ生成手段は、声質変化手段が変化させた音声をテンポにしたがって認識単位毎にテンポ提示手段から復唱させる。

これにより、ユーザ音声がそのまま復唱されないので、自身が発話した音声が復唱されて聞こえるという違和感をユーザが感じることを防止できる。
請求項１３に記載の発明によると、ナビゲーション装置は、請求項１から１２のいずれか一項に記載の音声認識装置と、認識手段が認識するユーザ音声に基づいてナビゲーション処理を実行する制御手段とを備える。

請求項１から１２のような音声認識装置を備えるナビゲーション装置では、ユーザがハンズフリーで各種操作を実行することを可能にする。したがって、例えばナビゲーション装置が車両に搭載されている場合には、ステアリングを操作しながら目的地を発話し、目的地までの経路を案内させることができる。

尚、本発明に備わる複数の手段の各機能は、構成自体で機能が特定されるハードウェア資源、プログラムにより機能が特定されるハードウェア資源、またはそれらの組み合わせにより実現される。また、これら複数の手段の各機能は、各々が物理的に互いに独立したハードウェア資源で実現されるものに限定されない。

第１実施形態の音声認識装置の構成を示すブロック図。テンポ音にしたがった発話の音声認識を示すタイムチャート。テンポ音にしたがった発話の音声認識ルーチン１を示すフローチャート。第２実施形態の音声認識装置の構成を示すブロック図。テンポ音を除去する音声認識ルーチン２を示すフローチャート。第３実施形態の音声認識装置の構成を示すブロック図。光が示すテンポにしたがった発話の音声認識を示すタイムチャート。第４実施形態によるガイダンス発話のテンポにしたがった発話の音声認識を示すタイムチャート。第５実施形態の音声認識装置の構成を示すブロック図。合成音声による復唱テンポにしたがった発話の音声認識を示すタイムチャート。合成音声による復唱テンポにしたがった発話の音声認識ルーチン３を示すフローチャート。第６実施形態の音声認識装置の構成を示すブロック図。第７実施形態の音声認識装置の構成を示すブロック図。復唱テンポにしたがった発話の音声認識ルーチン４を示すフローチャート。

以下、本発明の実施の形態を図に基づいて説明する。
［第１実施形態］
（ナビゲーション装置１０）
本発明の第１実施形態による音声認識装置を備えるナビゲーション装置を図１に示す。ナビゲーション装置１０は、例えば車両に搭載される装置である。

ナビゲーション装置１０のＧＰＳ(Global Positioning System）処理部１２は、測位衛星としてＧＰＳ衛星から受信する測位信号、ジャイロスコープおよび距離センサに基づいて自車の現在位置を検出する。

制御部１４は、ＣＰＵ、ＲＡＭ、ＲＯＭ、フラッシュメモリ等からなるマイクロコンピュータにより主に構成されている。制御部１４は、ＧＰＳ処理部１２が検出する自車の現在位置、ならびにパネルスイッチ、操作キー、またはユーザによりマイク４０から入力される音声信号に基づいて各種ナビゲーション処理を実行する。制御部１４が実行するナビゲーション処理しては、目的地までの経路探索・案内や、周辺施設案内、図示しないモニタに表示する道路地図の地域・スケール変更など、周知のナビゲーション装置が実行する処理が挙げられる。

ユーザによりマイク４０から入力される音声信号は、音声認識装置２０により、例えば目的地の郵便番号、電話番号、地名、店名として認識される。制御部１４は、音声認識装置２０により認識された音声信号の情報に基づいて、前述したナビゲーション処理を実行する。

（音声認識装置２０）
音声認識装置２０は、ＣＰＵ、ＲＡＭ、ＲＯＭ、フラッシュメモリ等からなるマイクロコンピュータと音響装置等から構成されており、マイク４０、音声認識部４２、認識単位指定部４４、テンポ生成部５０、およびスピーカ５２等を備えている。

マイク４０は、ユーザが発話するユーザ音声を電気的な音声信号として出力する。音声認識部４２は、マイク４０から入力されたユーザ音声の音声信号を音声認識部４２の図示しない音声バッファに格納し、認識単位指定部４４が指定する認識単位に基づいて１桁の数字、１モーラ等の認識単位毎に音声バッファに格納したユーザ音声を認識する。

音声認識部４２の図示しないＲＯＭ等の記憶装置には、マイク４０を介して入力した音声信号を音声認識する際に使用される標準音声パターンが認識単位毎に音声認識辞書として記憶されている。音声認識部４２により認識された１桁の数字または１モーラに該当する文字は、ＲＡＭ等の記憶装置に認識結果として順次記憶される。正常に音声入力が終了した場合、音声認識部４２において記憶されている認識結果は、制御部１４により地名、店名、電話番号等の入力情報として処理される。

認識単位指定手段としての認識単位指定部４４は、ナビゲーション装置１０のパネルスイッチ、操作キー等から指定される入力情報の種類、例えば地名、店名、郵便番号、電話番号等に基づいて、ユーザが発話するユーザ音声の認識単位を決定し音声認識部４２に指定する。

テンポ生成部５０は、ユーザが認識単位毎に発話するテンポを、パルス信号または所定音の音声信号を一定時間間隔で出力することにより生成する。
スピーカ５２は、テンポ生成部５０が一定時間間隔で出力するパルス信号にしたがってスピーカ５２側で音声信号を生成して所定のテンポ音を発生するか、あるいは、テンポ生成部５０が一定時間間隔で出力する音声信号により所定のテンポ音を発生する。

（音声認識）
音声認識装置２０は、ＲＯＭまたはフラッシュメモリに記憶されている制御プログラムを実行することにより、次に説明する音声認識処理を実行する。

第１実施形態では、ユーザは、スピーカ５２から聞こえるテンポ音にしたがって、ナビゲーション装置１０のパネルスイッチ、操作キー等から予め指定した入力情報として、地名、店名、郵便番号、電話番号等に応じた認識単位毎に発話する。

例えば、ナビゲーション装置１０において、音声入力される店の電話番号に基づいて該当する店までの経路を案内する場合、音声認識装置２０は、ユーザが発話するユーザ音声に基づいて電話番号を認識する。この場合、パネルスイッチ、操作キー等により音声入力情報として電話番号が指定されると、テンポ生成部５０が生成するテンポにしたがって、一定時間間隔で「ピッ」というテンポ音がスピーカ５２から発生する。

するとユーザは、図２に示すように、一定時間間隔でスピーカ５２から発生する「ピッ」というテンポ音にしたがって、例えば「３１６２」という電話番号を、「３（さん）」、「１（いち）」、「６（ろく）」、「２（に）」という１桁の数字毎に発話する。この場合、１桁の数字が認識単位に相当する。例えば電話番号を音声入力する場合、スピーカ５２から「ピッ」というテンポ音を発生させる前に、「テンポ音に合わせて電話番号を１桁ずつ入力して下さい。」という案内音声をスピーカ５２から流してもよい。

音声認識部４２は、マイク４０から入力される音声信号をテンポ音毎に分割する。つまり、音声認識部４２は、上記のようにユーザがテンポ音にしたがって発話してマイク４０から入力される「３１２６」という音声信号を、テンポ音にしたがって分割する。音声は、テンポ音にしたがって発生されるので、「３（さん）」、「１（いち）」、「６（ろく）」、「２（に）」という認識単位毎に分割される。

音声認識部４２は、分割された音声信号の認識単位は１桁の数字であると認識単位指定部４４から指定されているので、例えば「さん」という音声信号をさらに「さ」、「ん」とは分割せず、一つの認識単位として認識する。１桁の数字に分割された音声信号は、音声認識辞書に格納された標準音声パターンと照合され、入力された音声信号と１桁の数字の標準音声パターンとの類似度が算出される。音声認識部４２は、類似度が最も高い標準音声パターンに対応する数字を、ユーザが発話した数字であると特定する。例えば、「さん」という音声信号は１桁の「３」という数字として認識される。

このように、音声信号の認識単位が１桁の数字の場合に、テンポ音にしたがって発話されたユーザ音声を認識単位である１桁の数字として認識するので、例えば、ユーザが「３（さん）」、「１（いち）」と発話する場合に、「さん（ｓａＮ）」の「Ｎ」と「いち（ｉｃｈｉ）」の「ｉ」とが結びついて「に（ｎｉ）」となり、「２」が挿入されて「３」、「２」、「１」の数字列として認識されることを防止できる。

また、ユーザが「６（ろく）」と発話する場合に、「ろく（ｒｏｋｕ）」を［ろ（ｒｏ）］と「く（ｋｕ）」とに分割し、さらに「ろ（ｒｏ）」を「ご（ｇｏ）」に誤認識し、「５９（ごく）」の数字列として認識されることを防止できる。

また、テンポ音にしたがって「３」、「１」、「６」、「２」とユーザが発話する場合に、何れかの数字の発話時間が他の数字の発話時間に比べて短い場合にも、テンポ音にしたがって認識単位毎に発話されるので、所定レベル以上の音圧で発話されるのであれば発話された数字を認識しない削除誤りが生じることを防止できる。

図２では、スピーカからのテンポ音の発生タイミングと音声分割のタイミングが完全に一致しているが、これを一定時間ずらしてもよい。すなわち、「ピッ」というテンポ音と同時にユーザが「３（さん）」の「さ」を発声しようとした場合、「さ」の先頭部がテンポ音より前に発声されていることがある。この場合、テンポ音と完全に一致するタイミングで音声を分割すると、この部分が正しく音声認識部４２に渡されない。そこで、例えば各テンポ音が提示されるタイミングの０．１秒前を各音声分割のタイミングとしてもよい。この場合も音声分割の間隔はテンポ生成部５０の生成するテンポ音の間隔に一致しており、テンポに従って認識するという構成に変わりはない。

尚、数字に代えて、認識単位として１モーラ毎に発話するユーザ音声を音声認識部４２が認識してもよい。例えば、地名として「兼六園（けんろくえん）」を音声入力する場合、ユーザは、スピーカ５２から発生するテンポ音にしたがって「け」、「ん」、「ろ」、「く」、「え」、「ん」と１モーラ毎に発話する。そして、音声認識部４２は、ユーザが発話する認識単位毎に、「けんろくえん」の各モーラを、「挿入誤り」および「削除誤り」することなく対応する文字として認識できる。

また、地名として「京都（きょうと）」を音声入力する場合、ユーザは、スピーカ５２から発生するテンポ音にしたがって「きょ」、「う」、「と」と１モーラ毎に発話する。
また、地名として「札幌（さっぽろ）」を音声入力する場合、「さっぽろ」は４モーラであるから、例えばユーザは、促音である「っ」を「つ」として「さ」、「つ」、「ぽ」、「ろ」と発話するか、「っ」を無音にして「さ」、「（無音）」、「ぽ」、「ろ」と発話するかのいずれかの方式で発話する。いずれの方式でユーザが促音を発話するかは、ナビゲーション装置１０の音声入力に関する取扱説明書等で予め指定しておく。

促音である「っ」を「つ」として発話する場合には、地名として認識単位毎に「さ」、「つ」、「ぽ」、「ろ」と音声認識された結果に対して、例えばナビゲーション装置１０のディスプレイ上でユーザが「つ」を「っ」と変換するか、あるいは、ナビゲーション装置１０が「さつぽろ」を「さっぽろ」と推定するかのいずれでもよい。

また、「っ」を「（無音）」としてユーザが発話する方式では、音声認識装置２０が、前後の有声モーラの間の「（無音）」を自動的に「っ」に置換することが考えられる。
（音声認識ルーチン１）
図３に、音声認識ルーチン１を表すフローチャートを示す。図３のルーチンは、ナビゲーション装置１０の操作キー等により音声入力が指示されると実行される。図３において「Ｓ」はステップを表している。

音声認識部４２は、次にマイク４０から入力される音声信号を格納するために、Ｓ４００において音声バッファを空にし、Ｓ４０２においてマイク４０から入力される音声信号を音声バッファに格納する。

Ｓ４０４において音声認識部４２は、スピーカ５２からテンポ音を発生するためにテンポ生成部５０が一定時間間隔で生成するテンポ信号が出力されたか否かを判定する。音声認識部４２は、テンポ生成部５０から次のテンポ信号が出力されるまで、マイク４０から入力される音声信号を音声バッファに格納する。

テンポ信号が出力されると（Ｓ４０４：Ｙｅｓ）、Ｓ４０６において音声認識部４２は、音声バッファに発話が入っているか否かを判定する。この判定は、所定レベル以上の音圧の音声信号が音声バッファに入っているか否かによって行われる。

音声バッファに発話が入っている場合（Ｓ４０６：Ｙｅｓ）、Ｓ４０８において音声認識部４２は、認識単位に基づいて音声バッファに入っている音声信号と標準音声パターンとを比較し、認識単位毎に音声信号を認識する。認識結果は、ＲＡＭ等の記憶装置に順次記憶される。そして、音声認識部４２は、次の音声信号を認識するためにＳ４００に処理を移行する。

テンポ生成部５０からテンポ信号が出力されテンポ音がスピーカ５２から発生したのにも関わらず音声バッファに発話が入っていない場合（Ｓ４０６：Ｎｏ）、Ｓ４１０において音声認識部４２は、認識結果が一つ以上記憶されているか否かを判定する。認識結果が一つ以上記憶されている場合（Ｓ４１０：Ｙｅｓ）、音声認識部４２は、ユーザによる発話が終了したと判断し、本ルーチンを終了する。すると、ＲＡＭに記憶されている認識結果に基づいて、制御部１４は適切なナビゲーション処理を実行する。

尚、前述したように地名として「札幌（さっぽろ）」を音声入力する場合に促音「っ」を「（無音）」の１モーラとして発話する方式の場合は、Ｓ４０６において、テンポ生成部５０からテンポ信号が出力されテンポ音がスピーカ５２から発生したのにも関わらず音声バッファに発話が入っていない状態が２回続けて発生したかを判定する。そして、この状態が２回続けて発生し、認識結果が一つ以上記憶されている場合（Ｓ４１０：Ｙｅｓ）、音声認識部４２は、ユーザによる発話が終了したと判断し、本ルーチンを終了する。

テンポ音がスピーカ５２から発生したのにも関わらず音声バッファに発話が入っておらず（Ｓ４０６：Ｎｏ）、認識結果が記憶されていない場合（Ｓ４１０：Ｎｏ）、音声認識部４２は、ユーザの発話がまだ開始されていないと判断し、音声信号を認識するためにＳ４００に処理を移行する。

以上説明した第１実施形態では、一定時間間隔でスピーカ５２からテンポ音を発生するので、ユーザはテンポ音にしたがって認識単位毎に発話できる。これにより、音声認識部４２は、マイク４０から入力された音声信号を認識単位毎に認識できる。その結果、認識単位毎に発話された音声信号に他の認識単位の音声信号が結合して挿入誤りが生じることを防止できるとともに、認識単位毎に発話された音声信号の信号長が短いために認識されずに削除される削除誤りが生じることを防止できる。

また、スピーカ５２から発生するテンポ音にしたがってユーザが発話するので、ユーザは主に聴覚を働かせるだけでよい。その結果、他の感覚、例えば視覚、触覚を発話以外の他の目的に使用できる。

尚、第１実施形態において、制御部１４は本発明の制御手段に相当し、マイク４０は本発明の音声入力手段に相当し、音声認識部４２は本発明の音声認識手段に相当し、テンポ生成部５０は本発明のテンポ生成手段に相当し、スピーカ５２は本発明のテンポ提示手段に相当する。そして、音声認識装置２０は、テンポ生成手段、テンポ提示手段、音声入力手段として機能する。また、図３のＳ４００〜Ｓ４１０における処理は音声認識部４２が実行する機能に相当する。

（第２実施形態）
本発明の第２実施形態を図４および図５に基づいて説明する。第１実施形態と実質的に同一部分には同一符号を付す。尚、第２実施形態以降においては、ナビゲーション装置１０における音声認識装置だけを図示する。

第２実施形態の音声認識装置２２では、マイク４０から入力される音声信号から、スピーカ５２から発生するテンポ音の音声信号をオーディオキャンセラ４６が除去する。これにより、音声認識部４２がマイク４０から入力される音声信号を認識する場合に、ユーザ音声の音声信号に含まれるテンポ音の音声信号を除外できるので、テンポ音に妨げられることなくユーザ音声を高精度に認識できる。

（音声認識ルーチン２）
図５に第２実施形態による音声認識ルーチン２を表すフローチャートを示す。図５のＳ４２０、Ｓ４２２、Ｓ４２６、Ｓ４３０〜Ｓ４３４は、図３のＳ４００〜Ｓ４１０とそれぞれ対応し、実質的に同一処理を実行する。

図５のＳ４２４において音声認識装置２０のオーディオキャンセラ４６は、テンポ生成部５０が生成するテンポ音の音声信号をマイク４０からではなくテンポ生成部５０から直接入力し、マイク４０から入力される音声信号を格納する音声バッファとは異なるテンポバッファに格納する。そして、テンポ生成部５０からテンポ信号が出力されると（Ｓ４２６：Ｙｅｓ）、Ｓ４２８においてオーディオキャンセラ４６は、テンポバッファに格納されている音声信号に該当するテンポ音の音声信号を音声バッファから除去する。

テンポ音の音声信号を除去した音声バッファにユーザの発話が入っている場合（Ｓ４３０：Ｙｅｓ）、Ｓ４３２において音声認識部４２は、認識単位に基づいて音声バッファに入っている音声信号と標準音声パターンとを比較し、認識単位毎に音声信号を認識する。

テンポ音の音声信号を除去した音声バッファに発話が入っていない場合（Ｓ４３０：Ｎｏ）、Ｓ４３４において音声認識部４２は、認識結果が一つ以上記憶されているか否かを判定する。認識結果が一つ以上記憶されている場合（Ｓ４３４：Ｙｅｓ）、音声認識部４２は、ユーザによる発話が終了したと判断し、本ルーチンを終了する。

音声バッファに発話が入っておらず（Ｓ４３０：Ｎｏ）、認識結果が記憶されていない場合（Ｓ４３４：Ｎｏ）、音声認識部４２は、ユーザの発話がまだ開始されていないと判断し、音声信号を認識するためにＳ４２０に処理を移行する。

第２実施形態において、オーディオキャンセラ４６は本発明のテンポ音除去手段に相当する。また、図５のＳ４２０、Ｓ４２２、Ｓ４２６、Ｓ４３０〜Ｓ４３４における処理は音声認識部４２が実行する機能に相当し、Ｓ４２４およびＳ４２８における処理はオーディオキャンセラ４６が実行する機能に相当する。

（第３実施形態）
本発明の第３実施形態を図６および図７に基づいて説明する。第１実施形態と実質的に同一部分には同一符号を付す。

図６に示す第３実施形態の音声認識装置２４では、スピーカ５２からテンポ音を発生して聴覚によりユーザにテンポを提示するのではなく、図７に示すように、テンポ生成手段が一定時間間隔で生成するテンポにしたがってＬＥＤ５４を一定時間間隔で点灯して視覚によりユーザにテンポを提示する。そして、ユーザは、ＬＥＤ５４が発光すると認識単位毎に発話する。

これにより、ユーザは、テンポにしたがって発話するために、主に視覚を働かせるだけでよい。その結果、他の感覚、例えば聴覚、触覚を発話以外の他の目的に使用できる。
第３実施形態において、ＬＥＤ５４は本発明のテンポ提示手段に相当する。

（第４実施形態）
本発明の第４実施形態を図８に基づいて説明する。第４実施形態では、テンポ生成部５０がテンポ音ではなく、ガイダンス音声によってテンポを生成する点が第１実施形態と異なっている。それ以外の第４実施形態による音声認識装置の構成は、第１実施形態の音声認識装置２０と実質的に同一である。

第４実施形態のテンポ生成部５０は、一定時間間隔のテンポでガイダンス音声の音声信号、例えば、「では」、「いち」、「にの」、「さん」、「ハイ」をスピーカ５２に出力する。ユーザは、スピーカ５２が発生する上記ガイダンス音声に引き続いて、ガイダンス音声が提示するテンポにしたがって認識単位毎に発話する。

これにより、ユーザは、テンポにしたがって発話するために、主に聴覚を働かせるだけでよい。その結果、他の感覚、例えば視覚、触覚を発話以外の他の目的に使用できる。また、ガイダンス音声によるテンポ提示はユーザ発話の前にだけ行なわれるため、ユーザは発話中には聴覚も働かせる必要がない。これにより、認知負荷が高くなることを避けることができる。

（第５実施形態）
本発明の第５実施形態を図９〜図１１に基づいて説明する。第１実施形態と実質的に同一部分には同一符号を付す。

第５実施形態の音声認識装置２６では、合成音声生成部６０は、音声認識部４２が認識したユーザ音声の認識単位毎に合成音声を生成する。そして、テンポ生成部５０は、合成音声生成部６０が生成した合成音声の音声信号を所定の時間遅延させてスピーカ５２に出力する。

つまり、図１０に示すように、ユーザが認識単位毎に発話した音声が認識単位毎に合成音声として一定時間遅延して復唱される。そして、ユーザは、自分が発話を開始してから一定時間遅延して復唱される合成音声のンポにしたがって発話する。そして、ユーザの発話が終了するまで、ユーザによる認識単位毎の発話と、合成音声による復唱とが繰り返される。

（音声認識ルーチン３）
図１１に第５実施形態による音声認識ルーチン３を表すフローチャートを示す。図１１のＳ４４２、Ｓ４４６、Ｓ４５０、Ｓ４５２は、図３のＳ４００、Ｓ４０２、Ｓ４０６、Ｓ４０８とそれぞれ対応し、実質的に同一処理を実行する。

図１１のＳ４４０において音声認識装置２０の音声認識部４２は、ユーザの発話が開始された否かを判定する。この判定は、例えばマイク４０から入力される音声信号の音圧レベルが所定圧以上になるか否かにより判定される。音声認識部４２は、音圧レベルが所定圧以上になると、ユーザの発話が開始されたと判定する。

ユーザの発話が開始されると（Ｓ４４０：Ｙｅｓ）、音声認識部４２は音声バッファを空にし（Ｓ４４２）、テンポ生成部５０は復唱テンポを生成するタイマをリセットし（Ｓ４４４）、音声認識部４２はスピーカ５２から入力される音声信号を音声バッファに格納する（Ｓ４４６）。

タイマが一定時間（ｄ秒）経過すると（Ｓ４４８：Ｙｅｓ）、Ｓ４５０において音声認識部４２音は音声バッファに発話が入っているか否かを判定する。音声バッファに発話が入っていない場合（Ｓ４５０：Ｎｏ）、音声認識部４２は、ユーザの発話が終了したと判断し、本ルーチンを終了する。

音声バッファに発話が入っている場合（Ｓ４５０：Ｙｅｓ）、Ｓ４５２において音声認識部４２は音声バッファに格納されている音声信号を認識単位で認識する。そして合成音声生成部６０は、Ｓ４５４において、音声認識部４２が認識した音声に基づいて音声信号を合成する。そして、タイマが時間（ｄ秒）をカウントしている間に、合成音声の音声信号をテンポ生成部５０がスピーカ５２に出力することにより、ユーザの発話が認識単位で復唱される。すなわち、ユーザ発話から復唱までの遅延時間、および、復唱の行なわれる時間であるｄ秒ごとの間隔がテンポとしての役割を果たす。

第５実施形態において、図１１のＳ４４０、Ｓ４４２、Ｓ４４６、Ｓ４５０およびＳ４５２における処理は音声認識部４２が実行する機能に相当し、Ｓ４４４、Ｓ４４８およびＳ４５４における処理はテンポ生成部５０が実行する機能に相当し、Ｓ４５４における処理はテンポ生成部５０とともに合成音声生成部６０が実行する機能に相当する。

第５実施形態では、音声認識部４２が認識した音声を合成して復唱するので、雑音を含まない明瞭な音声でユーザの発話を復唱できる。したがって、ユーザは自分が発話した音声が正しいか誤っているかを正確に判断できる。これにより、誤った発話を行った場合には、速やかに発話を中止し、音声入力をやり直すことができる。

また、ユーザ音声が誤認識されて合成音声が生成された場合に、誤認識されたことをユーザが気付くことができる。これにより、速やかに発話を中止しやり直すことができる。
さらに、人同士の対話でも用いられる復唱という自然な形態でテンポを提示できるため、人が機械のテンポに合わさせられていると感じるストレスを軽減することができる。

（第６、第７実施形態）
本発明の第６、第７実施形態を図１２、図１３に基づいて説明する。第１実施形態と実質的に同一部分には同一符号を付す。

図１２に示す第６実施形態の音声認識装置２８では、マイク４０から入力されたユーザの発話を録音部６２で録音し、第５実施形態の合成音声に代えて、録音部６２で録音した音声をテンポ生成部５０が一定時間遅延させてスピーカ５２からそのまま復唱させる。

これにより、ユーザが発話した音声信号と同一波形の音声信号で復唱されるので、一定の遅延時間でユーザの発話を認識単位毎に復唱できる。これに対し、第５実施形態のように合成音声で復唱する場合、ユーザが発話した音声信号と合成音声の音声信号との波形が異なるので、テンポ生成部５０が一定時間（ｄ秒）分を遅延させて合成音声をスピーカ５２から復唱させても、ユーザが実際に耳で聞く場合の遅延時間がばらつく恐れがある。

また、人により認識単位の伸ばし方の違い、例えば「１」に対して「いち」、「いーち」、「いちー」などがあるが、この実施形態では同じ伸ばし方で復唱されるため、この点からもテンポをとりやすい。

第６実施形態では、図１１のＳ４５４において合成音声が認識単位で復唱されることに代えて、録音されたユーザ音声が認識単位で復唱される。
第６実施形態では、録音部６２が本発明の録音手段に相当する。

図１３に示す第７実施形態の音声認識装置３０では、録音部６２が録音したユーザの発話をそのまま復唱させるのではなく、音圧はそのままにして声質変換部６４で周波数を変換することにより、声質を変換して復唱させる。これにより、第６実施形態と同様にユーザが耳で聞く遅延時間のばらつきを抑制しつつ、自分の声がそのまま復唱されて聞こえることによりユーザが違和感を感じることを防止できる。

第７実施形態では、図１１のＳ４５４において合成音声が認識単位で復唱されることに代えて、録音されたユーザ音声の声質を変換した音声が認識単位で復唱される。
第７実施形態では、声質変換部６４が本発明の声質変換手段に相当する。

（第８実施形態）
図１４に、本発明の第８実施形態による音声認識ルーチン４を表すフローチャートを示す。図１４のＳ４６２〜Ｓ４７２、Ｓ４７６は、図１１のＳ４４０〜Ｓ４５０、Ｓ４５２とそれぞれ対応し、実質的に同一処理を実行する。

前述した第５〜第７実施形態においては、合成音声生成部６０、録音部６２、声質変換部６４を音声認識の処理中に随時起動してその機能を実行していた。これに対し、第８実施形態では、図１４の音声認識ルーチン４に示すように、ナビゲーション装置１０の操作キー等により音声入力が指定されると、Ｓ４６０において、合成音声生成部６０、録音部６２、声質変換部６４が実行する機能が起動される。そして、Ｓ４６０以降の音声認識ルーチン４において、必要な場合に随時各機能が実行される。

例えば、ユーザ音声の合成音を復唱する場合、Ｓ４７４においてタイマがリセットされ、Ｓ４７８においてタイマが一定時間（ｄ秒）をカウントしている間に、合成音声生成部６０は、Ｓ４７６で音声認識部４２が認識単位で認識したユーザ音声の合成音を生成する。そして、合成音声生成部６０が合成した合成音は、Ｓ４７８においてタイマが一定時間（ｄ秒）をカウントしている間に、テンポ生成部５０が一定時間遅延させてスピーカ５２に出力することにより、スピーカ５２から復唱される。

これに対し、録音されたユーザ音声を復唱する場合、Ｓ４６８において音声認識部４２がマイク４０から入力するユーザ音声の音声信号を音声バッファに格納している間に、録音部６２はユーザ音声の音声信号を録音する。

そして、Ｓ４７４においてタイマがリセットされ、Ｓ４７８においてタイマが一定時間（ｄ秒）をカウントしている間に、録音部６２が録音したユーザ音声は、テンポ生成部５０が一定時間遅延させてスピーカ５２に出力することにより、スピーカ５２から復唱される。

また、録音されたユーザ音声の声質を変換して復唱する場合、Ｓ４７４においてタイマがリセットされ、Ｓ４７８においてタイマが一定時間（ｄ秒）をカウントしている間に、録音部６２が録音したユーザ音声の音声信号を声質変換部６４が変換する。そして、変換されたユーザ音声の音声信号は、テンポ生成部５０が一定時間遅延させてスピーカ５２に出力することにより、スピーカ５２から復唱される。

第８実施形態において、図１４のＳ４７４、Ｓ４７８の処理はテンポ生成部５０が実行する機能に相当する。
以上説明した上記複数の実施形態では、テンポ生成部５０が生成するテンポにしたがってテンポ音、ガイダンス音声、またはユーザ音声の復唱がスピーカ５２から発生されるか、ＬＥＤ５４から発光されるかによって提示されるテンポにしたがってユーザが１桁の数字または１モーラを認識単位として発話する。これにより、音声認識部４２は、マイク４０から入力された音声信号を認識単位毎に認識できる。その結果、「挿入誤り」および「削除誤り」が生じることを防止できるので、ユーザが発話するユーザ音声を誤認識することなく認識単位毎に高精度に認識できる。

［他の実施形態］
上記実施形態では、テンポ音、ガイダンス音声、復唱音声、または光によりユーザにテンポを提示した。これ以外にも、例えばテンポ提示手段として振動装置を一定時間間隔で振動させることにより、ユーザに触覚的にテンポを提示してもよい。

また、上記実施形態では、ナビゲーション装置１０に本発明の音声認識装置を用いた例について説明した。これに以外にも、ユーザが発話するユーザ音声を認識単位毎に音声認識するのであれば、例えばユーザが発話する音声を印字するタイプライター等に本発明の音声認識装置を適用してもよい。

このように、本発明は、上記実施形態に限定されるものではなく、その要旨を逸脱しない範囲で種々の実施形態に適用可能である。

１０：ナビゲーション装置、１４：制御部（制御手段）、２０、２２、２４、２６、２８、３０：音声認識装置、４０：マイク（音声入力手段）、４２：音声認識部（音声認識手段）、４６：オーディオキャンセラ（テンポ音除去手段）、５０：テンポ生成部（テンポ生成手段）、５２：スピーカ（テンポ提示手段）、５４：ＬＥＤ（テンポ提示手段）、６０：合成音声生成部（合成音声生成手段）、６２：録音部（録音手段）、６４：声質変換部（声質変換手段）

Claims

ユーザが発話するテンポを生成するテンポ生成手段と、
前記テンポ生成手段が生成する前記テンポをユーザに提示するテンポ提示手段と、
前記テンポ提示手段が提示する前記テンポにしたがってユーザが発話するユーザ音声を入力する音声入力手段と、
前記音声入力手段から入力された前記ユーザ音声を前記テンポにしたがって認識単位毎に認識する認識手段と、
を備えることを特徴とする音声認識装置。
前記テンポ提示手段は、前記テンポにしたがって所定のテンポ音を発生することを特徴とする請求項１に記載の音声認識装置。
前記音声入力手段から入力された前記ユーザ音声と前記テンポ音とから前記テンポ音を除去するテンポ音除去手段を備え、
前記認識手段は、前記テンポ音除去手段が前記テンポ音を除去した前記ユーザ音声を前記認識単位毎に認識する、
ことを特徴とする請求項２に記載の音声認識装置。
前記テンポ提示手段は、ユーザに視覚的に前記テンポを提示することを特徴とする請求項１に記載の音声認識装置。
前記テンポ提示手段は、ユーザに触覚的に前記テンポを提示することを特徴とする請求項１に記載の音声認識装置。
前記テンポ提示手段は、前記テンポにしたがいガイダンス発話をユーザに提示することを特徴とする請求項１に記載の音声認識装置。
前記テンポ生成手段は、前記ユーザ音声を前記認識単位毎に前記テンポにしたがって一定時間遅延させて前記テンポ提示手段から復唱させることを特徴とする請求項１に記載の音声認識装置。
前記認識手段が認識する前記認識単位毎に前記ユーザ音声の合成音声を生成する合成音声生成手段を備え、
前記テンポ生成手段は、前記合成音声生成手段が生成する前記合成音声を前記テンポにしたがって前記認識単位毎に前記テンポ提示手段から復唱させる、
ことを特徴とする請求項７に記載の音声認識装置。
前記認識手段が認識する前記認識単位毎に前記ユーザ音声を録音する録音手段を備え、
前記テンポ生成手段は、前記録音手段が録音している前記ユーザ音声を前記テンポにしたがって前記認識単位毎に前記テンポ提示手段から復唱させる、
ことを特徴とする請求項７に記載の音声認識装置。
前記録音手段が録音している前記ユーザ音声の声質を変化させる声質変化手段を備え、
前記テンポ生成手段は、前記声質変化手段が変化させた前記ユーザ音声を前記テンポにしたがって前記認識単位毎に前記テンポ提示手段から復唱させる、
ことを特徴とする請求項９に記載の音声認識装置。
前記認識手段は、１桁の数字を前記認識単位として前記ユーザ音声を認識することを特徴とする請求項１から１０のいずれか一項に記載の音声認識装置。
前記認識手段は、１モーラを前記認識単位として前記ユーザ音声を認識することを特徴とする請求項１から１０のいずれか一項に記載の音声認識装置。
請求項１から１２のいずれか一項に記載の音声認識装置と、
前記認識手段が認識する前記ユーザ音声に基づいてナビゲーション処理を実行する制御手段と、
を備えることを特徴とするナビゲーション装置。