JP2011027905A - 音声認識装置およびそれを用いたナビゲーション装置 - Google Patents
音声認識装置およびそれを用いたナビゲーション装置 Download PDFInfo
- Publication number
- JP2011027905A JP2011027905A JP2009172112A JP2009172112A JP2011027905A JP 2011027905 A JP2011027905 A JP 2011027905A JP 2009172112 A JP2009172112 A JP 2009172112A JP 2009172112 A JP2009172112 A JP 2009172112A JP 2011027905 A JP2011027905 A JP 2011027905A
- Authority
- JP
- Japan
- Prior art keywords
- tempo
- user
- speech
- voice
- recognition unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】ユーザが発話する認識単位を誤認識することなく高精度に認識する音声認識装置およびそれを用いたナビゲーション装置を提供する。
【解決手段】音声認識装置は、次にマイクから入力される音声信号を格納するために音声バッファを空にし(S400)、一定時間間隔でスピーカからテンポ音を発生させるテンポ信号が出力されるまで(S404:Yes)、マイクから入力される音声信号を音声バッファに格納する(S402)。音声バッファにユーザの発話が入っている場合(S406:Yes)、音声認識装置は、予め指定されたユーザが発話する認識単位、例えば1桁の数字または1モーラに基づいて、音声バッファに入っている音声信号と標準音声パターンとを比較し、認識単位毎に音声信号を認識する(S408)。音声認識装置は、一つの認識単位で音声信号を認識すると、S400に処理を移行し、次のテンポ信号まで音声信号を音声バッファに格納する。
【選択図】図3
【解決手段】音声認識装置は、次にマイクから入力される音声信号を格納するために音声バッファを空にし(S400)、一定時間間隔でスピーカからテンポ音を発生させるテンポ信号が出力されるまで(S404:Yes)、マイクから入力される音声信号を音声バッファに格納する(S402)。音声バッファにユーザの発話が入っている場合(S406:Yes)、音声認識装置は、予め指定されたユーザが発話する認識単位、例えば1桁の数字または1モーラに基づいて、音声バッファに入っている音声信号と標準音声パターンとを比較し、認識単位毎に音声信号を認識する(S408)。音声認識装置は、一つの認識単位で音声信号を認識すると、S400に処理を移行し、次のテンポ信号まで音声信号を音声バッファに格納する。
【選択図】図3
Description
本発明は、ユーザが発話する音声を認識する音声認識装置およびそれを用いたナビゲーション装置に関する。
従来、ユーザが発話する音声を入力し、入力された音声を数字または文字として認識する音声認識装置が広く知られている。このような音声認識装置を用いたユーザインターフェースは、ユーザがハンズフリーで各種操作を実行することを可能にする。例えば、車両の運転中においては運転者によるスイッチ操作が困難であるから、車両に搭載されるナビゲーション装置等に音声認識装置を組み込んで、音声により目的地等を入力できることが望ましい。
音声認識装置は一般に、入力された音声信号から得られる特徴量の時系列と、予め登録された標準音声パターンとを比較することにより、両者の類似の度合いを示す類似度を算出する。そして、音声認識装置は、類似度が最も高い標準音声パターンに対応する数字または文字を、ユーザが発話した数字または文字であると認識する。
ところで、ユーザが発話する任意の並びの数字列または任意の並びの文字列の音声を1桁の数字または1拍(モーラ:mora)の認識単位毎に認識しようとする場合、ユーザが発話していない認識単位が挿入される「挿入誤り」が生じたり、ユーザが発話した認識単位が認識されずに削除される「削除誤り」が生じたりすることがある。
尚、1桁の数字を認識単位とする場合、数字の「3」を発話する音声である「さん」は一つの認識単位である。これに対し、1モーラを認識単位とする場合、「さん」と発話する音声において、「さ」、「ん」はそれぞれ一つの認識単位である。
ここで、挿入誤りとして、「31」という数字列を「さんいち」とユーザが発話した場合を考えてみる。「31」の発音を音素列(ローマ字)で表記すると「saNichi」となる。ユーザが「saNichi」と発話した場合に、[saN]の「N」と「ichi」の「i」とが結びついて「ni」となり、「2」が挿入されて「321」の数字列として認識されることがある。
他の挿入誤りとして、「67」という数字列を「ろくしち」とユーザが発話した場合を考えてみる。「67」の発音を音素列で表記すると「rokushichi」となる。ユーザが「rokushichi」と発話した場合に、[ro]を「go」に、「shichi」の「chi」を「shi」に誤認識し、「gokushishi」と認識されることがある。この場合、「67(ろくしち)」という2桁の数字列は「5944(ごくしし)」の4桁の数字列として認識されるおそれがある。
また他の挿入誤りとして、「あに」という文字列をユーザが発話した場合を考えてみる。「あに」の発音を音素列で表記すると「ani」となる。ユーザが「ani」と発話した場合に、[n]を「N」と認識し、「ani」を「aNi」と認識されることがある。この場合、「あに」という2モーラの文字列は「あんい」という3モーラの文字列として認識されることになる。
また、削除誤りとして、「あんい」という3モーラの文字列の発音を音素列で表記すると「aNi」となる。ユーザが「aNi」と発話した場合に、「N」と「i」とが結びついて「ni」となり、「あんい」の「んい」が「に」に置換されて「あに」という2モーラの文字列として認識されることがある。
他の削除誤りとして、前述した挿入誤りとは逆に、「5944」の4桁の数字列を「ごくしし」とユーザが発話した場合に、「gokushishi」を「rokushichi」と認識し、「67」の2桁の数字列と誤認識することがある。
そこで、特許文献1では、ユーザが発話した数字列の音声に対して数字列の候補を認識し、数字列の候補に対して桁単位に照合長を求める。そして、各桁の照合長の平均値よりも短い照合長の数字は挿入誤りにより生じたと判断し候補から削除している。
例えば、ユーザが「31」という数字列を「saNichi」と発話した場合に、[saN]の「N」と「ichi」の「i」とが結びついて「ni」となり、「2」が挿入されて「321」の数字列が候補となる場合、「N」と「ichi」の「i」とが結びついた「ni」の照合長が短い場合には、「2」を候補から削除し、「31」と認識する。
しかしながら、特許文献1では、ユーザが「321」の「2」を「3」と「1」よりも実際に短く発話した場合にも、「2」の照合長が短いと判断して「2」を削除する可能性がある。これ以外にも、特許文献1では、如何なる削除誤りも防止することができないという問題がある。
また、前述した「67」と発話された音声の候補として「5944」と認識される場合、「5944」の各数字の照合長がほぼ等しい場合には平均よりも短い照合長の数字が存在しないので、「5944」と誤認識した数字列の候補を「67」と訂正できないという問題がある。
本発明は、上記問題を解決するためになされたものであり、ユーザが発話する認識単位を誤認識することなく高精度に認識する音声認識装置およびそれを用いたナビゲーション装置を提供することを目的とする。
請求項1から13に記載の発明によると、テンポ提示手段はテンポ生成手段が生成するテンポをユーザに提示し、認識手段はテンポにしたがってユーザが発話するユーザ音声を認識単位毎に認識する。
このように、ユーザが自らのテンポで発話するのではなく、テンポ生成手段が生成しテンポ提示手段が提示するテンポにしたがって発話するので、ユーザがテンポにしたがってテンポ毎に発話するユーザ音声を一つの認識単位として認識できる。これにより、ユーザが実際には発話していない認識単位を認識単位と認識単位との間に誤って挿入して認識する「挿入誤り」、ならびにユーザが発話した複数の認識単位から、実際に発話された認識単位を誤って削除する「削除誤り」が生じることを防止できる。
請求項2に記載の発明によると、テンポ提示手段は、テンポ生成手段が生成するテンポにしたがって所定のテンポ音を発する。
これにより、ユーザは、聴覚を働かせるだけでテンポ音にしたがって発話することができる。その結果、他の感覚、例えば視覚、触覚を発話以外の他の目的に使用できる。
これにより、ユーザは、聴覚を働かせるだけでテンポ音にしたがって発話することができる。その結果、他の感覚、例えば視覚、触覚を発話以外の他の目的に使用できる。
請求項3に記載の発明によると、テンポ音除去手段は入力手段から入力されたユーザ音声とテンポ音とからテンポ音をキャンセルし、認識手段は、テンポ音除去手段がテンポ音を除去したユーザ音声を認識単位毎に認識する。
これにより、テンポ提示手段が発するテンポ音を除去した状態で、ユーザ音声を認識単位毎に認識できる。その結果、テンポ音に妨げられることなくユーザ音声を高精度に認識できる。
請求項4に記載の発明によると、テンポ提示手段は、ユーザに視覚的にテンポを提示する。
これにより、ユーザは、視覚を働かせるだけで、例えば光の点滅により発生するテンポにしたがって発話することができる。その結果、他の感覚、例えば聴覚、触覚を発話以外の他の目的に使用できる。
これにより、ユーザは、視覚を働かせるだけで、例えば光の点滅により発生するテンポにしたがって発話することができる。その結果、他の感覚、例えば聴覚、触覚を発話以外の他の目的に使用できる。
請求項5に記載の発明によると、テンポ提示手段は、ユーザに触覚的にテンポを提示する。
これにより、ユーザは、触覚を働かせるだけで、例えば振動の有無により発生するテンポにしたがって発話することができる。その結果、他の感覚、例えば視覚、聴覚を発話以外の他の目的に使用できる。
これにより、ユーザは、触覚を働かせるだけで、例えば振動の有無により発生するテンポにしたがって発話することができる。その結果、他の感覚、例えば視覚、聴覚を発話以外の他の目的に使用できる。
請求項6に記載の発明によると、テンポ提示手段は、テンポにしたがいガイダンス発話をユーザに提示する。
これにより、ユーザは、聴覚を働かせるだけでテンポにしたがって発話することができる。その結果、他の感覚、例えば視覚、触覚を発話以外の他の目的に使用できる。また、ガイダンス発話によるテンポ提示はユーザ発話の前にだけ行われるため、ユーザは発話中には聴覚も働かせる必要がない。これにより、認知負荷が高まることを避けることができるので、例えば運転など他の作業中に音声認識を用いる場合に適する。
これにより、ユーザは、聴覚を働かせるだけでテンポにしたがって発話することができる。その結果、他の感覚、例えば視覚、触覚を発話以外の他の目的に使用できる。また、ガイダンス発話によるテンポ提示はユーザ発話の前にだけ行われるため、ユーザは発話中には聴覚も働かせる必要がない。これにより、認知負荷が高まることを避けることができるので、例えば運転など他の作業中に音声認識を用いる場合に適する。
請求項7から10に記載の発明によると、テンポ生成手段は、ユーザ音声に対する復唱を認識単位毎にテンポにしたがって一定時間遅延させてテンポ提示手段から発生させる。
これにより、ユーザは、聴覚を働かせるだけでテンポにしたがって発話することができる。その結果、他の感覚、例えば視覚、触覚を発話以外の他の目的に使用できる。また、人同士の対話でも用いられる復唱という自然な形式でテンポを提示できるため、人が機械のテンポに合わせられていると感じるストレスを軽減することができる。
これにより、ユーザは、聴覚を働かせるだけでテンポにしたがって発話することができる。その結果、他の感覚、例えば視覚、触覚を発話以外の他の目的に使用できる。また、人同士の対話でも用いられる復唱という自然な形式でテンポを提示できるため、人が機械のテンポに合わせられていると感じるストレスを軽減することができる。
また、ユーザ音声が復唱されるので、例えば、ユーザ自身が発話したと認識している認識単位と、復唱されたユーザ音声の認識単位とが異なっている場合に、ユーザが不一致に気付くことができる。これにより、発話をやり直すことができる。
請求項8に記載の発明によると、合成音声生成手段は、認識手段が認識する認識単位毎にユーザが発話する音声の合成音声を生成し、テンポ生成手段は、合成音声生成手段が生成する合成音声をテンポにしたがって認識単位毎にテンポ提示手段から復唱させる。
これにより、音声認識された認識単位に対応する合成音声以外の音が復唱されないので、復唱された合成音声を聞くことにより、ユーザは自身が発話した音声を正確に認識することができる。その結果、数字や文字を間違って発話したことをユーザが気付くことができる。これにより、発話をやり直すことができる。
また、認識手段が認識する認識単位毎に合成音声が生成され復唱されるので、ユーザ音声が誤認識されて合成音声が生成された場合に、誤認識されたことをユーザが気付くことができる。これにより、発話をやり直すことができる。
請求項9に記載の発明によると、録音手段は認識手段が認識する認識単位毎にユーザ音声を録音し、テンポ生成手段は、録音手段が録音しているユーザ音声をテンポにしたがって認識単位毎にテンポ提示手段から復唱させる。
これにより、ユーザ音声がそのまま復唱されるので、例えば、数字や文字を間違って発話したことをユーザが気付くことができる。これにより、発話をやり直すことができる。また、合成音声を用いる場合に比べ、ユーザの発話をそのまま用いるので、ユーザ音声を復唱するときの遅延時間がばらつく恐れが少ない。
請求項10に記載の発明によると、声質変化手段は録音手段が録音している音声の声質を変化させ、テンポ生成手段は、声質変化手段が変化させた音声をテンポにしたがって認識単位毎にテンポ提示手段から復唱させる。
これにより、ユーザ音声がそのまま復唱されないので、自身が発話した音声が復唱されて聞こえるという違和感をユーザが感じることを防止できる。
請求項13に記載の発明によると、ナビゲーション装置は、請求項1から12のいずれか一項に記載の音声認識装置と、認識手段が認識するユーザ音声に基づいてナビゲーション処理を実行する制御手段とを備える。
請求項13に記載の発明によると、ナビゲーション装置は、請求項1から12のいずれか一項に記載の音声認識装置と、認識手段が認識するユーザ音声に基づいてナビゲーション処理を実行する制御手段とを備える。
請求項1から12のような音声認識装置を備えるナビゲーション装置では、ユーザがハンズフリーで各種操作を実行することを可能にする。したがって、例えばナビゲーション装置が車両に搭載されている場合には、ステアリングを操作しながら目的地を発話し、目的地までの経路を案内させることができる。
尚、本発明に備わる複数の手段の各機能は、構成自体で機能が特定されるハードウェア資源、プログラムにより機能が特定されるハードウェア資源、またはそれらの組み合わせにより実現される。また、これら複数の手段の各機能は、各々が物理的に互いに独立したハードウェア資源で実現されるものに限定されない。
以下、本発明の実施の形態を図に基づいて説明する。
[第1実施形態]
(ナビゲーション装置10)
本発明の第1実施形態による音声認識装置を備えるナビゲーション装置を図1に示す。ナビゲーション装置10は、例えば車両に搭載される装置である。
[第1実施形態]
(ナビゲーション装置10)
本発明の第1実施形態による音声認識装置を備えるナビゲーション装置を図1に示す。ナビゲーション装置10は、例えば車両に搭載される装置である。
ナビゲーション装置10のGPS(Global Positioning System)処理部12は、測位衛星としてGPS衛星から受信する測位信号、ジャイロスコープおよび距離センサに基づいて自車の現在位置を検出する。
制御部14は、CPU、RAM、ROM、フラッシュメモリ等からなるマイクロコンピュータにより主に構成されている。制御部14は、GPS処理部12が検出する自車の現在位置、ならびにパネルスイッチ、操作キー、またはユーザによりマイク40から入力される音声信号に基づいて各種ナビゲーション処理を実行する。制御部14が実行するナビゲーション処理しては、目的地までの経路探索・案内や、周辺施設案内、図示しないモニタに表示する道路地図の地域・スケール変更など、周知のナビゲーション装置が実行する処理が挙げられる。
ユーザによりマイク40から入力される音声信号は、音声認識装置20により、例えば目的地の郵便番号、電話番号、地名、店名として認識される。制御部14は、音声認識装置20により認識された音声信号の情報に基づいて、前述したナビゲーション処理を実行する。
(音声認識装置20)
音声認識装置20は、CPU、RAM、ROM、フラッシュメモリ等からなるマイクロコンピュータと音響装置等から構成されており、マイク40、音声認識部42、認識単位指定部44、テンポ生成部50、およびスピーカ52等を備えている。
音声認識装置20は、CPU、RAM、ROM、フラッシュメモリ等からなるマイクロコンピュータと音響装置等から構成されており、マイク40、音声認識部42、認識単位指定部44、テンポ生成部50、およびスピーカ52等を備えている。
マイク40は、ユーザが発話するユーザ音声を電気的な音声信号として出力する。音声認識部42は、マイク40から入力されたユーザ音声の音声信号を音声認識部42の図示しない音声バッファに格納し、認識単位指定部44が指定する認識単位に基づいて1桁の数字、1モーラ等の認識単位毎に音声バッファに格納したユーザ音声を認識する。
音声認識部42の図示しないROM等の記憶装置には、マイク40を介して入力した音声信号を音声認識する際に使用される標準音声パターンが認識単位毎に音声認識辞書として記憶されている。音声認識部42により認識された1桁の数字または1モーラに該当する文字は、RAM等の記憶装置に認識結果として順次記憶される。正常に音声入力が終了した場合、音声認識部42において記憶されている認識結果は、制御部14により地名、店名、電話番号等の入力情報として処理される。
認識単位指定手段としての認識単位指定部44は、ナビゲーション装置10のパネルスイッチ、操作キー等から指定される入力情報の種類、例えば地名、店名、郵便番号、電話番号等に基づいて、ユーザが発話するユーザ音声の認識単位を決定し音声認識部42に指定する。
テンポ生成部50は、ユーザが認識単位毎に発話するテンポを、パルス信号または所定音の音声信号を一定時間間隔で出力することにより生成する。
スピーカ52は、テンポ生成部50が一定時間間隔で出力するパルス信号にしたがってスピーカ52側で音声信号を生成して所定のテンポ音を発生するか、あるいは、テンポ生成部50が一定時間間隔で出力する音声信号により所定のテンポ音を発生する。
スピーカ52は、テンポ生成部50が一定時間間隔で出力するパルス信号にしたがってスピーカ52側で音声信号を生成して所定のテンポ音を発生するか、あるいは、テンポ生成部50が一定時間間隔で出力する音声信号により所定のテンポ音を発生する。
(音声認識)
音声認識装置20は、ROMまたはフラッシュメモリに記憶されている制御プログラムを実行することにより、次に説明する音声認識処理を実行する。
音声認識装置20は、ROMまたはフラッシュメモリに記憶されている制御プログラムを実行することにより、次に説明する音声認識処理を実行する。
第1実施形態では、ユーザは、スピーカ52から聞こえるテンポ音にしたがって、ナビゲーション装置10のパネルスイッチ、操作キー等から予め指定した入力情報として、地名、店名、郵便番号、電話番号等に応じた認識単位毎に発話する。
例えば、ナビゲーション装置10において、音声入力される店の電話番号に基づいて該当する店までの経路を案内する場合、音声認識装置20は、ユーザが発話するユーザ音声に基づいて電話番号を認識する。この場合、パネルスイッチ、操作キー等により音声入力情報として電話番号が指定されると、テンポ生成部50が生成するテンポにしたがって、一定時間間隔で「ピッ」というテンポ音がスピーカ52から発生する。
するとユーザは、図2に示すように、一定時間間隔でスピーカ52から発生する「ピッ」というテンポ音にしたがって、例えば「3162」という電話番号を、「3(さん)」、「1(いち)」、「6(ろく)」、「2(に)」という1桁の数字毎に発話する。この場合、1桁の数字が認識単位に相当する。例えば電話番号を音声入力する場合、スピーカ52から「ピッ」というテンポ音を発生させる前に、「テンポ音に合わせて電話番号を1桁ずつ入力して下さい。」という案内音声をスピーカ52から流してもよい。
音声認識部42は、マイク40から入力される音声信号をテンポ音毎に分割する。つまり、音声認識部42は、上記のようにユーザがテンポ音にしたがって発話してマイク40から入力される「3126」という音声信号を、テンポ音にしたがって分割する。音声は、テンポ音にしたがって発生されるので、「3(さん)」、「1(いち)」、「6(ろく)」、「2(に)」という認識単位毎に分割される。
音声認識部42は、分割された音声信号の認識単位は1桁の数字であると認識単位指定部44から指定されているので、例えば「さん」という音声信号をさらに「さ」、「ん」とは分割せず、一つの認識単位として認識する。1桁の数字に分割された音声信号は、音声認識辞書に格納された標準音声パターンと照合され、入力された音声信号と1桁の数字の標準音声パターンとの類似度が算出される。音声認識部42は、類似度が最も高い標準音声パターンに対応する数字を、ユーザが発話した数字であると特定する。例えば、「さん」という音声信号は1桁の「3」という数字として認識される。
このように、音声信号の認識単位が1桁の数字の場合に、テンポ音にしたがって発話されたユーザ音声を認識単位である1桁の数字として認識するので、例えば、ユーザが「3(さん)」、「1(いち)」と発話する場合に、「さん(saN)」の「N」と「いち(ichi)」の「i」とが結びついて「に(ni)」となり、「2」が挿入されて「3」、「2」、「1」の数字列として認識されることを防止できる。
また、ユーザが「6(ろく)」と発話する場合に、「ろく(roku)」を[ろ(ro)]と「く(ku)」とに分割し、さらに「ろ(ro)」を「ご(go)」に誤認識し、「59(ごく)」の数字列として認識されることを防止できる。
また、テンポ音にしたがって「3」、「1」、「6」、「2」とユーザが発話する場合に、何れかの数字の発話時間が他の数字の発話時間に比べて短い場合にも、テンポ音にしたがって認識単位毎に発話されるので、所定レベル以上の音圧で発話されるのであれば発話された数字を認識しない削除誤りが生じることを防止できる。
図2では、スピーカからのテンポ音の発生タイミングと音声分割のタイミングが完全に一致しているが、これを一定時間ずらしてもよい。すなわち、「ピッ」というテンポ音と同時にユーザが「3(さん)」の「さ」を発声しようとした場合、「さ」の先頭部がテンポ音より前に発声されていることがある。この場合、テンポ音と完全に一致するタイミングで音声を分割すると、この部分が正しく音声認識部42に渡されない。そこで、例えば各テンポ音が提示されるタイミングの0.1秒前を各音声分割のタイミングとしてもよい。この場合も音声分割の間隔はテンポ生成部50の生成するテンポ音の間隔に一致しており、テンポに従って認識するという構成に変わりはない。
尚、数字に代えて、認識単位として1モーラ毎に発話するユーザ音声を音声認識部42が認識してもよい。例えば、地名として「兼六園(けんろくえん)」を音声入力する場合、ユーザは、スピーカ52から発生するテンポ音にしたがって「け」、「ん」、「ろ」、「く」、「え」、「ん」と1モーラ毎に発話する。そして、音声認識部42は、ユーザが発話する認識単位毎に、「けんろくえん」の各モーラを、「挿入誤り」および「削除誤り」することなく対応する文字として認識できる。
また、地名として「京都(きょうと)」を音声入力する場合、ユーザは、スピーカ52から発生するテンポ音にしたがって「きょ」、「う」、「と」と1モーラ毎に発話する。
また、地名として「札幌(さっぽろ)」を音声入力する場合、「さっぽろ」は4モーラであるから、例えばユーザは、促音である「っ」を「つ」として「さ」、「つ」、「ぽ」、「ろ」と発話するか、「っ」を無音にして「さ」、「(無音)」、「ぽ」、「ろ」と発話するかのいずれかの方式で発話する。いずれの方式でユーザが促音を発話するかは、ナビゲーション装置10の音声入力に関する取扱説明書等で予め指定しておく。
また、地名として「札幌(さっぽろ)」を音声入力する場合、「さっぽろ」は4モーラであるから、例えばユーザは、促音である「っ」を「つ」として「さ」、「つ」、「ぽ」、「ろ」と発話するか、「っ」を無音にして「さ」、「(無音)」、「ぽ」、「ろ」と発話するかのいずれかの方式で発話する。いずれの方式でユーザが促音を発話するかは、ナビゲーション装置10の音声入力に関する取扱説明書等で予め指定しておく。
促音である「っ」を「つ」として発話する場合には、地名として認識単位毎に「さ」、「つ」、「ぽ」、「ろ」と音声認識された結果に対して、例えばナビゲーション装置10のディスプレイ上でユーザが「つ」を「っ」と変換するか、あるいは、ナビゲーション装置10が「さつぽろ」を「さっぽろ」と推定するかのいずれでもよい。
また、「っ」を「(無音)」としてユーザが発話する方式では、音声認識装置20が、前後の有声モーラの間の「(無音)」を自動的に「っ」に置換することが考えられる。
(音声認識ルーチン1)
図3に、音声認識ルーチン1を表すフローチャートを示す。図3のルーチンは、ナビゲーション装置10の操作キー等により音声入力が指示されると実行される。図3において「S」はステップを表している。
(音声認識ルーチン1)
図3に、音声認識ルーチン1を表すフローチャートを示す。図3のルーチンは、ナビゲーション装置10の操作キー等により音声入力が指示されると実行される。図3において「S」はステップを表している。
音声認識部42は、次にマイク40から入力される音声信号を格納するために、S400において音声バッファを空にし、S402においてマイク40から入力される音声信号を音声バッファに格納する。
S404において音声認識部42は、スピーカ52からテンポ音を発生するためにテンポ生成部50が一定時間間隔で生成するテンポ信号が出力されたか否かを判定する。音声認識部42は、テンポ生成部50から次のテンポ信号が出力されるまで、マイク40から入力される音声信号を音声バッファに格納する。
テンポ信号が出力されると(S404:Yes)、S406において音声認識部42は、音声バッファに発話が入っているか否かを判定する。この判定は、所定レベル以上の音圧の音声信号が音声バッファに入っているか否かによって行われる。
音声バッファに発話が入っている場合(S406:Yes)、S408において音声認識部42は、認識単位に基づいて音声バッファに入っている音声信号と標準音声パターンとを比較し、認識単位毎に音声信号を認識する。認識結果は、RAM等の記憶装置に順次記憶される。そして、音声認識部42は、次の音声信号を認識するためにS400に処理を移行する。
テンポ生成部50からテンポ信号が出力されテンポ音がスピーカ52から発生したのにも関わらず音声バッファに発話が入っていない場合(S406:No)、S410において音声認識部42は、認識結果が一つ以上記憶されているか否かを判定する。認識結果が一つ以上記憶されている場合(S410:Yes)、音声認識部42は、ユーザによる発話が終了したと判断し、本ルーチンを終了する。すると、RAMに記憶されている認識結果に基づいて、制御部14は適切なナビゲーション処理を実行する。
尚、前述したように地名として「札幌(さっぽろ)」を音声入力する場合に促音「っ」を「(無音)」の1モーラとして発話する方式の場合は、S406において、テンポ生成部50からテンポ信号が出力されテンポ音がスピーカ52から発生したのにも関わらず音声バッファに発話が入っていない状態が2回続けて発生したかを判定する。そして、この状態が2回続けて発生し、認識結果が一つ以上記憶されている場合(S410:Yes)、音声認識部42は、ユーザによる発話が終了したと判断し、本ルーチンを終了する。
テンポ音がスピーカ52から発生したのにも関わらず音声バッファに発話が入っておらず(S406:No)、認識結果が記憶されていない場合(S410:No)、音声認識部42は、ユーザの発話がまだ開始されていないと判断し、音声信号を認識するためにS400に処理を移行する。
以上説明した第1実施形態では、一定時間間隔でスピーカ52からテンポ音を発生するので、ユーザはテンポ音にしたがって認識単位毎に発話できる。これにより、音声認識部42は、マイク40から入力された音声信号を認識単位毎に認識できる。その結果、認識単位毎に発話された音声信号に他の認識単位の音声信号が結合して挿入誤りが生じることを防止できるとともに、認識単位毎に発話された音声信号の信号長が短いために認識されずに削除される削除誤りが生じることを防止できる。
また、スピーカ52から発生するテンポ音にしたがってユーザが発話するので、ユーザは主に聴覚を働かせるだけでよい。その結果、他の感覚、例えば視覚、触覚を発話以外の他の目的に使用できる。
尚、第1実施形態において、制御部14は本発明の制御手段に相当し、マイク40は本発明の音声入力手段に相当し、音声認識部42は本発明の音声認識手段に相当し、テンポ生成部50は本発明のテンポ生成手段に相当し、スピーカ52は本発明のテンポ提示手段に相当する。そして、音声認識装置20は、テンポ生成手段、テンポ提示手段、音声入力手段として機能する。また、図3のS400〜S410における処理は音声認識部42が実行する機能に相当する。
(第2実施形態)
本発明の第2実施形態を図4および図5に基づいて説明する。第1実施形態と実質的に同一部分には同一符号を付す。尚、第2実施形態以降においては、ナビゲーション装置10における音声認識装置だけを図示する。
本発明の第2実施形態を図4および図5に基づいて説明する。第1実施形態と実質的に同一部分には同一符号を付す。尚、第2実施形態以降においては、ナビゲーション装置10における音声認識装置だけを図示する。
第2実施形態の音声認識装置22では、マイク40から入力される音声信号から、スピーカ52から発生するテンポ音の音声信号をオーディオキャンセラ46が除去する。これにより、音声認識部42がマイク40から入力される音声信号を認識する場合に、ユーザ音声の音声信号に含まれるテンポ音の音声信号を除外できるので、テンポ音に妨げられることなくユーザ音声を高精度に認識できる。
(音声認識ルーチン2)
図5に第2実施形態による音声認識ルーチン2を表すフローチャートを示す。図5のS420、S422、S426、S430〜S434は、図3のS400〜S410とそれぞれ対応し、実質的に同一処理を実行する。
図5に第2実施形態による音声認識ルーチン2を表すフローチャートを示す。図5のS420、S422、S426、S430〜S434は、図3のS400〜S410とそれぞれ対応し、実質的に同一処理を実行する。
図5のS424において音声認識装置20のオーディオキャンセラ46は、テンポ生成部50が生成するテンポ音の音声信号をマイク40からではなくテンポ生成部50から直接入力し、マイク40から入力される音声信号を格納する音声バッファとは異なるテンポバッファに格納する。そして、テンポ生成部50からテンポ信号が出力されると(S426:Yes)、S428においてオーディオキャンセラ46は、テンポバッファに格納されている音声信号に該当するテンポ音の音声信号を音声バッファから除去する。
テンポ音の音声信号を除去した音声バッファにユーザの発話が入っている場合(S430:Yes)、S432において音声認識部42は、認識単位に基づいて音声バッファに入っている音声信号と標準音声パターンとを比較し、認識単位毎に音声信号を認識する。
テンポ音の音声信号を除去した音声バッファに発話が入っていない場合(S430:No)、S434において音声認識部42は、認識結果が一つ以上記憶されているか否かを判定する。認識結果が一つ以上記憶されている場合(S434:Yes)、音声認識部42は、ユーザによる発話が終了したと判断し、本ルーチンを終了する。
音声バッファに発話が入っておらず(S430:No)、認識結果が記憶されていない場合(S434:No)、音声認識部42は、ユーザの発話がまだ開始されていないと判断し、音声信号を認識するためにS420に処理を移行する。
第2実施形態において、オーディオキャンセラ46は本発明のテンポ音除去手段に相当する。また、図5のS420、S422、S426、S430〜S434における処理は音声認識部42が実行する機能に相当し、S424およびS428における処理はオーディオキャンセラ46が実行する機能に相当する。
(第3実施形態)
本発明の第3実施形態を図6および図7に基づいて説明する。第1実施形態と実質的に同一部分には同一符号を付す。
本発明の第3実施形態を図6および図7に基づいて説明する。第1実施形態と実質的に同一部分には同一符号を付す。
図6に示す第3実施形態の音声認識装置24では、スピーカ52からテンポ音を発生して聴覚によりユーザにテンポを提示するのではなく、図7に示すように、テンポ生成手段が一定時間間隔で生成するテンポにしたがってLED54を一定時間間隔で点灯して視覚によりユーザにテンポを提示する。そして、ユーザは、LED54が発光すると認識単位毎に発話する。
これにより、ユーザは、テンポにしたがって発話するために、主に視覚を働かせるだけでよい。その結果、他の感覚、例えば聴覚、触覚を発話以外の他の目的に使用できる。
第3実施形態において、LED54は本発明のテンポ提示手段に相当する。
第3実施形態において、LED54は本発明のテンポ提示手段に相当する。
(第4実施形態)
本発明の第4実施形態を図8に基づいて説明する。第4実施形態では、テンポ生成部50がテンポ音ではなく、ガイダンス音声によってテンポを生成する点が第1実施形態と異なっている。それ以外の第4実施形態による音声認識装置の構成は、第1実施形態の音声認識装置20と実質的に同一である。
本発明の第4実施形態を図8に基づいて説明する。第4実施形態では、テンポ生成部50がテンポ音ではなく、ガイダンス音声によってテンポを生成する点が第1実施形態と異なっている。それ以外の第4実施形態による音声認識装置の構成は、第1実施形態の音声認識装置20と実質的に同一である。
第4実施形態のテンポ生成部50は、一定時間間隔のテンポでガイダンス音声の音声信号、例えば、「では」、「いち」、「にの」、「さん」、「ハイ」をスピーカ52に出力する。ユーザは、スピーカ52が発生する上記ガイダンス音声に引き続いて、ガイダンス音声が提示するテンポにしたがって認識単位毎に発話する。
これにより、ユーザは、テンポにしたがって発話するために、主に聴覚を働かせるだけでよい。その結果、他の感覚、例えば視覚、触覚を発話以外の他の目的に使用できる。また、ガイダンス音声によるテンポ提示はユーザ発話の前にだけ行なわれるため、ユーザは発話中には聴覚も働かせる必要がない。これにより、認知負荷が高くなることを避けることができる。
(第5実施形態)
本発明の第5実施形態を図9〜図11に基づいて説明する。第1実施形態と実質的に同一部分には同一符号を付す。
本発明の第5実施形態を図9〜図11に基づいて説明する。第1実施形態と実質的に同一部分には同一符号を付す。
第5実施形態の音声認識装置26では、合成音声生成部60は、音声認識部42が認識したユーザ音声の認識単位毎に合成音声を生成する。そして、テンポ生成部50は、合成音声生成部60が生成した合成音声の音声信号を所定の時間遅延させてスピーカ52に出力する。
つまり、図10に示すように、ユーザが認識単位毎に発話した音声が認識単位毎に合成音声として一定時間遅延して復唱される。そして、ユーザは、自分が発話を開始してから一定時間遅延して復唱される合成音声のンポにしたがって発話する。そして、ユーザの発話が終了するまで、ユーザによる認識単位毎の発話と、合成音声による復唱とが繰り返される。
(音声認識ルーチン3)
図11に第5実施形態による音声認識ルーチン3を表すフローチャートを示す。図11のS442、S446、S450、S452は、図3のS400、S402、S406、S408とそれぞれ対応し、実質的に同一処理を実行する。
図11に第5実施形態による音声認識ルーチン3を表すフローチャートを示す。図11のS442、S446、S450、S452は、図3のS400、S402、S406、S408とそれぞれ対応し、実質的に同一処理を実行する。
図11のS440において音声認識装置20の音声認識部42は、ユーザの発話が開始された否かを判定する。この判定は、例えばマイク40から入力される音声信号の音圧レベルが所定圧以上になるか否かにより判定される。音声認識部42は、音圧レベルが所定圧以上になると、ユーザの発話が開始されたと判定する。
ユーザの発話が開始されると(S440:Yes)、音声認識部42は音声バッファを空にし(S442)、テンポ生成部50は復唱テンポを生成するタイマをリセットし(S444)、音声認識部42はスピーカ52から入力される音声信号を音声バッファに格納する(S446)。
タイマが一定時間(d秒)経過すると(S448:Yes)、S450において音声認識部42音は音声バッファに発話が入っているか否かを判定する。音声バッファに発話が入っていない場合(S450:No)、音声認識部42は、ユーザの発話が終了したと判断し、本ルーチンを終了する。
音声バッファに発話が入っている場合(S450:Yes)、S452において音声認識部42は音声バッファに格納されている音声信号を認識単位で認識する。そして合成音声生成部60は、S454において、音声認識部42が認識した音声に基づいて音声信号を合成する。そして、タイマが時間(d秒)をカウントしている間に、合成音声の音声信号をテンポ生成部50がスピーカ52に出力することにより、ユーザの発話が認識単位で復唱される。すなわち、ユーザ発話から復唱までの遅延時間、および、復唱の行なわれる時間であるd秒ごとの間隔がテンポとしての役割を果たす。
第5実施形態において、図11のS440、S442、S446、S450およびS452における処理は音声認識部42が実行する機能に相当し、S444、S448およびS454における処理はテンポ生成部50が実行する機能に相当し、S454における処理はテンポ生成部50とともに合成音声生成部60が実行する機能に相当する。
第5実施形態では、音声認識部42が認識した音声を合成して復唱するので、雑音を含まない明瞭な音声でユーザの発話を復唱できる。したがって、ユーザは自分が発話した音声が正しいか誤っているかを正確に判断できる。これにより、誤った発話を行った場合には、速やかに発話を中止し、音声入力をやり直すことができる。
また、ユーザ音声が誤認識されて合成音声が生成された場合に、誤認識されたことをユーザが気付くことができる。これにより、速やかに発話を中止しやり直すことができる。
さらに、人同士の対話でも用いられる復唱という自然な形態でテンポを提示できるため、人が機械のテンポに合わさせられていると感じるストレスを軽減することができる。
さらに、人同士の対話でも用いられる復唱という自然な形態でテンポを提示できるため、人が機械のテンポに合わさせられていると感じるストレスを軽減することができる。
(第6、第7実施形態)
本発明の第6、第7実施形態を図12、図13に基づいて説明する。第1実施形態と実質的に同一部分には同一符号を付す。
本発明の第6、第7実施形態を図12、図13に基づいて説明する。第1実施形態と実質的に同一部分には同一符号を付す。
図12に示す第6実施形態の音声認識装置28では、マイク40から入力されたユーザの発話を録音部62で録音し、第5実施形態の合成音声に代えて、録音部62で録音した音声をテンポ生成部50が一定時間遅延させてスピーカ52からそのまま復唱させる。
これにより、ユーザが発話した音声信号と同一波形の音声信号で復唱されるので、一定の遅延時間でユーザの発話を認識単位毎に復唱できる。これに対し、第5実施形態のように合成音声で復唱する場合、ユーザが発話した音声信号と合成音声の音声信号との波形が異なるので、テンポ生成部50が一定時間(d秒)分を遅延させて合成音声をスピーカ52から復唱させても、ユーザが実際に耳で聞く場合の遅延時間がばらつく恐れがある。
また、人により認識単位の伸ばし方の違い、例えば「1」に対して「いち」、「いーち」、「いちー」などがあるが、この実施形態では同じ伸ばし方で復唱されるため、この点からもテンポをとりやすい。
第6実施形態では、図11のS454において合成音声が認識単位で復唱されることに代えて、録音されたユーザ音声が認識単位で復唱される。
第6実施形態では、録音部62が本発明の録音手段に相当する。
第6実施形態では、録音部62が本発明の録音手段に相当する。
図13に示す第7実施形態の音声認識装置30では、録音部62が録音したユーザの発話をそのまま復唱させるのではなく、音圧はそのままにして声質変換部64で周波数を変換することにより、声質を変換して復唱させる。これにより、第6実施形態と同様にユーザが耳で聞く遅延時間のばらつきを抑制しつつ、自分の声がそのまま復唱されて聞こえることによりユーザが違和感を感じることを防止できる。
第7実施形態では、図11のS454において合成音声が認識単位で復唱されることに代えて、録音されたユーザ音声の声質を変換した音声が認識単位で復唱される。
第7実施形態では、声質変換部64が本発明の声質変換手段に相当する。
第7実施形態では、声質変換部64が本発明の声質変換手段に相当する。
(第8実施形態)
図14に、本発明の第8実施形態による音声認識ルーチン4を表すフローチャートを示す。図14のS462〜S472、S476は、図11のS440〜S450、S452とそれぞれ対応し、実質的に同一処理を実行する。
図14に、本発明の第8実施形態による音声認識ルーチン4を表すフローチャートを示す。図14のS462〜S472、S476は、図11のS440〜S450、S452とそれぞれ対応し、実質的に同一処理を実行する。
前述した第5〜第7実施形態においては、合成音声生成部60、録音部62、声質変換部64を音声認識の処理中に随時起動してその機能を実行していた。これに対し、第8実施形態では、図14の音声認識ルーチン4に示すように、ナビゲーション装置10の操作キー等により音声入力が指定されると、S460において、合成音声生成部60、録音部62、声質変換部64が実行する機能が起動される。そして、S460以降の音声認識ルーチン4において、必要な場合に随時各機能が実行される。
例えば、ユーザ音声の合成音を復唱する場合、S474においてタイマがリセットされ、S478においてタイマが一定時間(d秒)をカウントしている間に、合成音声生成部60は、S476で音声認識部42が認識単位で認識したユーザ音声の合成音を生成する。そして、合成音声生成部60が合成した合成音は、S478においてタイマが一定時間(d秒)をカウントしている間に、テンポ生成部50が一定時間遅延させてスピーカ52に出力することにより、スピーカ52から復唱される。
これに対し、録音されたユーザ音声を復唱する場合、S468において音声認識部42がマイク40から入力するユーザ音声の音声信号を音声バッファに格納している間に、録音部62はユーザ音声の音声信号を録音する。
そして、S474においてタイマがリセットされ、S478においてタイマが一定時間(d秒)をカウントしている間に、録音部62が録音したユーザ音声は、テンポ生成部50が一定時間遅延させてスピーカ52に出力することにより、スピーカ52から復唱される。
また、録音されたユーザ音声の声質を変換して復唱する場合、S474においてタイマがリセットされ、S478においてタイマが一定時間(d秒)をカウントしている間に、録音部62が録音したユーザ音声の音声信号を声質変換部64が変換する。そして、変換されたユーザ音声の音声信号は、テンポ生成部50が一定時間遅延させてスピーカ52に出力することにより、スピーカ52から復唱される。
第8実施形態において、図14のS474、S478の処理はテンポ生成部50が実行する機能に相当する。
以上説明した上記複数の実施形態では、テンポ生成部50が生成するテンポにしたがってテンポ音、ガイダンス音声、またはユーザ音声の復唱がスピーカ52から発生されるか、LED54から発光されるかによって提示されるテンポにしたがってユーザが1桁の数字または1モーラを認識単位として発話する。これにより、音声認識部42は、マイク40から入力された音声信号を認識単位毎に認識できる。その結果、「挿入誤り」および「削除誤り」が生じることを防止できるので、ユーザが発話するユーザ音声を誤認識することなく認識単位毎に高精度に認識できる。
以上説明した上記複数の実施形態では、テンポ生成部50が生成するテンポにしたがってテンポ音、ガイダンス音声、またはユーザ音声の復唱がスピーカ52から発生されるか、LED54から発光されるかによって提示されるテンポにしたがってユーザが1桁の数字または1モーラを認識単位として発話する。これにより、音声認識部42は、マイク40から入力された音声信号を認識単位毎に認識できる。その結果、「挿入誤り」および「削除誤り」が生じることを防止できるので、ユーザが発話するユーザ音声を誤認識することなく認識単位毎に高精度に認識できる。
[他の実施形態]
上記実施形態では、テンポ音、ガイダンス音声、復唱音声、または光によりユーザにテンポを提示した。これ以外にも、例えばテンポ提示手段として振動装置を一定時間間隔で振動させることにより、ユーザに触覚的にテンポを提示してもよい。
上記実施形態では、テンポ音、ガイダンス音声、復唱音声、または光によりユーザにテンポを提示した。これ以外にも、例えばテンポ提示手段として振動装置を一定時間間隔で振動させることにより、ユーザに触覚的にテンポを提示してもよい。
また、上記実施形態では、ナビゲーション装置10に本発明の音声認識装置を用いた例について説明した。これに以外にも、ユーザが発話するユーザ音声を認識単位毎に音声認識するのであれば、例えばユーザが発話する音声を印字するタイプライター等に本発明の音声認識装置を適用してもよい。
このように、本発明は、上記実施形態に限定されるものではなく、その要旨を逸脱しない範囲で種々の実施形態に適用可能である。
10:ナビゲーション装置、14:制御部(制御手段)、20、22、24、26、28、30:音声認識装置、40:マイク(音声入力手段)、42:音声認識部(音声認識手段)、46:オーディオキャンセラ(テンポ音除去手段)、50:テンポ生成部(テンポ生成手段)、52:スピーカ(テンポ提示手段)、54:LED(テンポ提示手段)、60:合成音声生成部(合成音声生成手段)、62:録音部(録音手段)、64:声質変換部(声質変換手段)
Claims (13)
- ユーザが発話するテンポを生成するテンポ生成手段と、
前記テンポ生成手段が生成する前記テンポをユーザに提示するテンポ提示手段と、
前記テンポ提示手段が提示する前記テンポにしたがってユーザが発話するユーザ音声を入力する音声入力手段と、
前記音声入力手段から入力された前記ユーザ音声を前記テンポにしたがって認識単位毎に認識する認識手段と、
を備えることを特徴とする音声認識装置。 - 前記テンポ提示手段は、前記テンポにしたがって所定のテンポ音を発生することを特徴とする請求項1に記載の音声認識装置。
- 前記音声入力手段から入力された前記ユーザ音声と前記テンポ音とから前記テンポ音を除去するテンポ音除去手段を備え、
前記認識手段は、前記テンポ音除去手段が前記テンポ音を除去した前記ユーザ音声を前記認識単位毎に認識する、
ことを特徴とする請求項2に記載の音声認識装置。 - 前記テンポ提示手段は、ユーザに視覚的に前記テンポを提示することを特徴とする請求項1に記載の音声認識装置。
- 前記テンポ提示手段は、ユーザに触覚的に前記テンポを提示することを特徴とする請求項1に記載の音声認識装置。
- 前記テンポ提示手段は、前記テンポにしたがいガイダンス発話をユーザに提示することを特徴とする請求項1に記載の音声認識装置。
- 前記テンポ生成手段は、前記ユーザ音声を前記認識単位毎に前記テンポにしたがって一定時間遅延させて前記テンポ提示手段から復唱させることを特徴とする請求項1に記載の音声認識装置。
- 前記認識手段が認識する前記認識単位毎に前記ユーザ音声の合成音声を生成する合成音声生成手段を備え、
前記テンポ生成手段は、前記合成音声生成手段が生成する前記合成音声を前記テンポにしたがって前記認識単位毎に前記テンポ提示手段から復唱させる、
ことを特徴とする請求項7に記載の音声認識装置。 - 前記認識手段が認識する前記認識単位毎に前記ユーザ音声を録音する録音手段を備え、
前記テンポ生成手段は、前記録音手段が録音している前記ユーザ音声を前記テンポにしたがって前記認識単位毎に前記テンポ提示手段から復唱させる、
ことを特徴とする請求項7に記載の音声認識装置。 - 前記録音手段が録音している前記ユーザ音声の声質を変化させる声質変化手段を備え、
前記テンポ生成手段は、前記声質変化手段が変化させた前記ユーザ音声を前記テンポにしたがって前記認識単位毎に前記テンポ提示手段から復唱させる、
ことを特徴とする請求項9に記載の音声認識装置。 - 前記認識手段は、1桁の数字を前記認識単位として前記ユーザ音声を認識することを特徴とする請求項1から10のいずれか一項に記載の音声認識装置。
- 前記認識手段は、1モーラを前記認識単位として前記ユーザ音声を認識することを特徴とする請求項1から10のいずれか一項に記載の音声認識装置。
- 請求項1から12のいずれか一項に記載の音声認識装置と、
前記認識手段が認識する前記ユーザ音声に基づいてナビゲーション処理を実行する制御手段と、
を備えることを特徴とするナビゲーション装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009172112A JP2011027905A (ja) | 2009-07-23 | 2009-07-23 | 音声認識装置およびそれを用いたナビゲーション装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009172112A JP2011027905A (ja) | 2009-07-23 | 2009-07-23 | 音声認識装置およびそれを用いたナビゲーション装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011027905A true JP2011027905A (ja) | 2011-02-10 |
Family
ID=43636745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009172112A Pending JP2011027905A (ja) | 2009-07-23 | 2009-07-23 | 音声認識装置およびそれを用いたナビゲーション装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011027905A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103811014A (zh) * | 2012-11-15 | 2014-05-21 | 纬创资通股份有限公司 | 语音干扰的滤除方法和语音干扰的滤除系统 |
CN104123942A (zh) * | 2014-07-30 | 2014-10-29 | 腾讯科技(深圳)有限公司 | 一种语音识别方法及系统 |
CN106601238A (zh) * | 2015-10-14 | 2017-04-26 | 阿里巴巴集团控股有限公司 | 一种应用操作的处理方法和装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59172691A (ja) * | 1983-03-22 | 1984-09-29 | 株式会社リコー | 音声認識方式 |
JPS6136799A (ja) * | 1984-07-30 | 1986-02-21 | 富士通株式会社 | 音節音声入力方式 |
JPS61276019A (ja) * | 1985-05-31 | 1986-12-06 | Canon Inc | 音声入力制御装置 |
JPS62200281A (ja) * | 1986-02-27 | 1987-09-03 | Seiko Instr & Electronics Ltd | 振動刺激式電子メトロノ−ム |
JPH02149900A (ja) * | 1988-11-30 | 1990-06-08 | Oki Electric Ind Co Ltd | 音声認識応答装置 |
JPH03188500A (ja) * | 1989-12-18 | 1991-08-16 | Nec Corp | 音声認識装置 |
JPH11143489A (ja) * | 1997-11-10 | 1999-05-28 | Sony Corp | 音声操作機能付き電子機器、電子機器における音声操作方法、及び音声操作機能付き電子機器を備える自動車 |
JPH11194790A (ja) * | 1997-12-29 | 1999-07-21 | Kyocera Corp | 音声認識作動装置 |
JP2003036096A (ja) * | 2001-07-23 | 2003-02-07 | Mitsubishi Electric Corp | 音声認識装置 |
-
2009
- 2009-07-23 JP JP2009172112A patent/JP2011027905A/ja active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59172691A (ja) * | 1983-03-22 | 1984-09-29 | 株式会社リコー | 音声認識方式 |
JPS6136799A (ja) * | 1984-07-30 | 1986-02-21 | 富士通株式会社 | 音節音声入力方式 |
JPS61276019A (ja) * | 1985-05-31 | 1986-12-06 | Canon Inc | 音声入力制御装置 |
JPS62200281A (ja) * | 1986-02-27 | 1987-09-03 | Seiko Instr & Electronics Ltd | 振動刺激式電子メトロノ−ム |
JPH02149900A (ja) * | 1988-11-30 | 1990-06-08 | Oki Electric Ind Co Ltd | 音声認識応答装置 |
JPH03188500A (ja) * | 1989-12-18 | 1991-08-16 | Nec Corp | 音声認識装置 |
JPH11143489A (ja) * | 1997-11-10 | 1999-05-28 | Sony Corp | 音声操作機能付き電子機器、電子機器における音声操作方法、及び音声操作機能付き電子機器を備える自動車 |
JPH11194790A (ja) * | 1997-12-29 | 1999-07-21 | Kyocera Corp | 音声認識作動装置 |
JP2003036096A (ja) * | 2001-07-23 | 2003-02-07 | Mitsubishi Electric Corp | 音声認識装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103811014A (zh) * | 2012-11-15 | 2014-05-21 | 纬创资通股份有限公司 | 语音干扰的滤除方法和语音干扰的滤除系统 |
CN104123942A (zh) * | 2014-07-30 | 2014-10-29 | 腾讯科技(深圳)有限公司 | 一种语音识别方法及系统 |
CN106601238A (zh) * | 2015-10-14 | 2017-04-26 | 阿里巴巴集团控股有限公司 | 一种应用操作的处理方法和装置 |
JP2018536889A (ja) * | 2015-10-14 | 2018-12-13 | アリババ グループ ホウルディング リミテッド | 音声データを使用して操作を開始するための方法および装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0965978B1 (en) | Non-interactive enrollment in speech recognition | |
JP4812029B2 (ja) | 音声認識システム、および、音声認識プログラム | |
EP1430474B1 (en) | Correcting a text recognized by speech recognition through comparison of phonetic sequences in the recognized text with a phonetic transcription of a manually input correction word | |
JP2009169139A (ja) | 音声認識装置 | |
US6996528B2 (en) | Method for efficient, safe and reliable data entry by voice under adverse conditions | |
JP2008058409A (ja) | 音声認識方法及び音声認識装置 | |
JP2003022087A (ja) | 音声認識方法 | |
US9123327B2 (en) | Voice recognition apparatus for recognizing a command portion and a data portion of a voice input | |
JP2002511154A (ja) | ユーザにオーディオ・フィードバックを与える拡張可能音声認識システム | |
JP5787780B2 (ja) | 書き起こし支援システムおよび書き起こし支援方法 | |
JP2002091466A (ja) | 音声認識装置 | |
JP2008309856A (ja) | 音声認識装置及び会議システム | |
US20090220926A1 (en) | System and Method for Correcting Speech | |
KR20160122542A (ko) | 발음 유사도 측정 방법 및 장치 | |
JP2007047412A (ja) | 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置 | |
WO2006083020A1 (ja) | 抽出された音声データを用いて応答音声を生成する音声認識システム | |
JP2011027905A (ja) | 音声認識装置およびそれを用いたナビゲーション装置 | |
JP4296290B2 (ja) | 音声認識装置、音声認識方法及びプログラム | |
JP2009031328A (ja) | 音声認識装置 | |
JP5596869B2 (ja) | 音声認識装置 | |
JP2011180416A (ja) | 音声合成装置、音声合成方法およびカーナビゲーションシステム | |
JP4877112B2 (ja) | 音声処理装置およびプログラム | |
JP2005157166A (ja) | 音声認識装置、音声認識方法及びプログラム | |
JP6991409B2 (ja) | 情報処理装置、プログラム及び情報処理方法 | |
KR100777569B1 (ko) | 멀티모달을 이용한 음성 인식 방법 및 그 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110914 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120720 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120821 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20121218 |