JP2006184670A

JP2006184670A - 音声認識装置、方法、およびシステム

Info

Publication number: JP2006184670A
Application number: JP2004379195A
Authority: JP
Inventors: Kengo Suzuki; 堅悟鈴木; Hiroshi Saito; 浩斎藤
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2004-12-28
Filing date: 2004-12-28
Publication date: 2006-07-13
Anticipated expiration: 2024-12-28
Also published as: JP4661216B2

Abstract

【課題】発話者による発話内容を高速に音声認識すること。
【解決手段】制御装置１０７は、マイク１０１を介して入力された発話内容を、音声認識用辞書１０３に階層構造のデータ形式で格納された上位階層に属する待ち受け単語と照合処理して音声認識し、上位階層から派生する最下位階層に属する待ち受け単語の絞込みを行う。この絞込み結果に基づいて、最下位階層に属する待ち受け単語の絞込みがさらに必要であるか否かを判定し、必要である場合には、中間階層に属する待ち受け単語と、発話内容とを照合処理して音声認識し、当該階層から派生する最下位階層に属する待ち受け単語の絞込みを行って音声認識する。
【選択図】図１

Description

本発明は、入力された音声を認識する音声認識装置、方法、およびシステムに関する。

次のような音声認識方法が特許文献１によって知られている。この音声認識方法では、音声待ち受け用の単語をカテゴリごとに分類して、それぞれの音声認識辞書に記憶しておき、使用者による発話音声を各カテゴリごとの音声認識辞書と照合して音声を認識する。

特開２００１−１０９４９２号公報

しかしながら、従来の音声認識方法では、入力された発話音声と、複数準備した各カテゴリごとの音声認識辞書のそれぞれとの照合処理が必要となるため、音声認識処理に時間がかかるという問題が生じていた。

本発明は、複数の階層からなる音声認識実行時の待ち受け単語を格納し、入力された発話者の発話音声と、格納された上位階層に属する待ち受け単語とを照合処理して音声認識し、音声認識結果から派生する最下位階層の待ち受け単語を抽出し、抽出結果に基づいて、最下位階層に属する待ち受け単語の絞り込みが必要であるか否かを判定し、最下位階層に属する待ち受け単語の絞り込みが必要であると判定した場合には、絞り込みに必要な情報の音声入力を発話者に促して、その結果入力された発話内容と、上位階層と最下位階層の間に存在する中間階層に属する待ち受け単語とを照合処理して音声認識し、音声認識結果から派生する最下位階層の待ち受け単語を抽出し、抽出した上位階層に属する待ち受け単語から派生する最下位の階層に属する待ち受け単語、および中間階層から派生する最下位の階層に属する待ち受け単語のいずれか一方の待ち受け単語と、発話者の発話内容とを照合処理して音声認識することを特徴とする。

本発明によれば、複数の階層からなる音声認識実行時の待ち受け単語を格納しておき、入力された発話者の発話内容と、上位階層に属する待ち受け単語とを照合処理して音声認識し、上位階層から派生する最下位階層に属する待ち受け単語の抽出を行う。この抽出結果に基づいて、最下位階層に属する待ち受け単語の絞込みが必要であると判定された場合には、発話者の発話内容と、中間階層に属する待ち受け単語とを照合処理して音声認識し、中間階層から派生する最下位階層に属する待ち受け単語の抽出を行う。そして、抽出した上位階層から派生する最下位階層に属する待ち受け単語、および中間階層から派生する最下位階層に属する待ち受け単語のいずれか一方の待ち受け単語によって音声認識するようにした。これによって、待ち受け単語を上位階層から下位階層に向けて、徐々に絞り込みながら音声認識をおこなうため、徐々に待ち受け単語の数を減らすことができ、音声認識処理にかかる時間を短縮することができる。

―第１の実施の形態―
図１は、第１の実施の形態における音声認識装置を車両に搭載したナビゲーション装置に適用した場合の一実施の形態の構成を示すブロック図である。運転者（発話者）が発話したナビゲーション装置２００を操作するための各種操作コマンドの音声データは、音声認識装置１００で音声認識が実行され、ナビゲーション装置２００へ出力される。ナビゲーション装置２００は、音声認識装置１００から出力された音声データを操作コマンドに変換して処理を実行する。

音声認識装置１００は、発話者の発話を入力するマイク１０１と、音声入力の開始、中断、再開、およびキャンセルを指示するための音声入力操作スイッチ１０２と、音声認識装置１００が待ち受けて音声認識可能なすべての待ち受け単語が記憶されている音声認識用情報データベース１０３ａと、音声認識用情報データベース１０３ａから音声認識実行時の待ち受け単語を読み込んで格納する音声認識用辞書１０３と、発話者に音声入力を促すガイダンス音声やビープ音を出力するスピーカー１０４と、発話者に音声入力を促すガイダンス画像や音声認識結果を表示するモニタ１０５と、後述するように発話者によって音声入力された最初の発話内容を保持するためのメモリ１０６と、後述する音声認識処理を実行する制御装置１０７とを備えている。

音声認識用情報データベース１０３ａには、音声認識実行時の待ち受け単語が、図２に示すような階層構造で表されるデータ形式でカテゴリ単位に格納される。すなわち、最上位の階層として「カテゴリ名称」２ａが設定され、そこから下位に派生する中間階層としての「サブカテゴリ名称」２ｂ、およびさらにその下位に派生する最下位の階層としての「詳細名称」２ｃとが設定されている。これによって、上位の階層から下位の階層に向けて情報の絞込みを行うことができ、最終的に「詳細名称」２ｃに属する待ち受け単語を特定することができる。

図２に示す例においては、最上位の階層である「カテゴリ名称」２ａには鉄道会社名が格納され、中間階層としての「サブカテゴリ名称」２ｂには各鉄道会社に属する路線名が格納されている。さらに最下位の階層である「詳細名称」２ｃには、各路線に属する駅名が格納されている。したがって、この待ち受け単語によって、発話者の発話内容を鉄道会社名→路線名→駅名の順に、情報を絞り込んで最終的な駅名を特定することが可能となる。

なお、「サブカテゴリ名称」２ｂは省略可能であり、各「カテゴリ名称」２ａの下位に属する「詳細名称」２ｃの待ち受け単語の候補が所定数以上存在するか否かによって、「カテゴリ名称」２ａと「詳細名称」２ｃの中間階層として「サブカテゴリ名称」２ｂを設定するか否かを判定する。すなわち、最上位の階層に相当する「カテゴリ名称」２ａを音声認識した結果、その最下位の階層に相当する「詳細名称」２ｃ内に含まれる待ち受け単語が多数存在する場合には、大量の待ち受け単語と発話者の発話内容を照合処理する必要が生じ、音声認識処理に時間がかかる上に、誤認識が発生しやすくなる。このため、「カテゴリ名称」２ａの下位に「詳細名称」２ｃの候補が所定数以上存在する場合には、「詳細名称」２ｃの候補が所定数未満となるように複数の「サブカテゴリ名称」２ｂを「カテゴリ名称」２ａと「詳細名称」２ｃの中間階層として設定する。

これによって、発話者の発話内容を「サブカテゴリ名称」２ｂに含まれる待ち受け単語でさらに絞り込んで、「詳細名称」２ｃで待ち受ける待ち受け単語の数を減らすことができ、音声認識処理時間の短縮、および誤認識率の低下を実現することができる。例えば、図２における「カテゴリ名称」２ａが「ＪＲ線」については、「ＪＲ線」に属する駅名は非常に多いことから、中間階層として「サブカテゴリ名称」２ｂを設け、路線名で駅名を絞り込むようにする。

一方、「カテゴリ名称」２ａを認識することによって、「詳細名称」２ｃの候補が所定数以下に絞込み可能な場合には、「サブカテゴリ名称」２ｂを設定せずに、「カテゴリ名称」２ａから直接「詳細名称」２ｃを認識できるようにする。例えば、図２においては、「カテゴリ名称」２ａが「小田急線」や「相鉄線」の場合が該当する。これらの場合には鉄道会社を認識するだけで、候補となる駅を限定して絞り込めることから、発話者に「サブカテゴリ名称」２ｂを発話させることなく、少ない発話回数で駅名を特定することが可能となる。

第１の実施の形態における音声認識装置１００においては、例えば、図２に示した階層構造のデータを待ち受け単語として、以下のように音声認識を実行する。発話者によって音声入力操作スイッチ１０２が操作されると、「カテゴリ名称」２ａに属する待ち受け単語を音声認識用情報データベース１０３ａから抽出して音声認識辞書１０３に格納する。そして、制御装置１０７発話を促すガイダンス音声「ご用件をどうぞ」をスピーカー１０４を介して出力する。これに対して、発話者が「ＪＲの渋谷駅まで行きたいんだけど」と発話した場合には、当該発話内容と音声認識辞書１０３に格納した「カテゴリ名称」２ａに属する待ち受け単語とを照合処理して、最も一致度の高い「ＪＲ線」を認識する。同時に、発話者による発話内容をメモリ１０６に記憶して保持しておく。

「カテゴリ名称」２ａの認識結果が「ＪＲ線」である場合には、上述したように下位の「詳細名称」２ｃに含まれている駅名の候補が所定数以上存在することから、候補となる駅名を絞り込むために発話者に「サブカテゴリ名称」２ｂの発話を促す必要がある。このため、音声認識用情報データベース１０３ａから「サブカテゴリ名称」２ｂに属する待ち受け単語のうち、「カテゴリ名称」２ａの「ＪＲ線」から派生する待ち受け単語を抽出して、音声認識用辞書１０３へ格納する。そして、「サブカテゴリ名称」２ｂの発話を促すガイダンス音声、例えば「その駅名はＪＲの何線でしょうか？」を出力する。その結果、発話者によって「うーんと、山手線です」のような発話が入力された場合には、当該発話内容と音声認識用辞書１０３に格納した「カテゴリ名称」２ａの「ＪＲ線」から派生する「サブカテゴリ名称」２ｂに属する待ち受け単語とを照合処理して、最も一致度の高い「山手線」を認識する。

これによって、路線名が特定され、駅名の候補を絞り込むことができたので、「サブカテゴリ名称」２ｂにおける路線名が「山手線」から派生する「詳細名称」２ｃに属する待ち受け単語を音声認識用情報データベース１０３ａから抽出して音声認識用辞書１０３へ格納する。そして、メモリ１０６に記憶しておいた発話者による最初の発話内容、すなわち「ＪＲの渋谷駅まで行きたいんだけど」と、「詳細名称」２ｃに属する待ち受け単語とを照合処理して、最も一致度の高い「渋谷駅」を認識する。このように認識した発話者による発話内容を、ナビゲーション装置２００へ音声データを出力する。同時に発話者に対して「ＪＲ山手線渋谷駅までのルートを探索します」のようなガイダンス音声をスピーカー１０４を介して出力する。

次に、例えば、発話者が「相鉄線の横浜駅まで行きたいんだけど」と発話した場合について説明する。この場合には、当該発話内容と音声認識用辞書１０３に格納した「カテゴリ名称」２ａに属する待ち受け単語とを照合処理して、最も一致度の高い「相鉄線」を認識する。同時に、発話者による発話内容をメモリ１０６に記憶して保持しておく。

「カテゴリ名称」２ａの認識結果が「相鉄線」である場合には、上述したように下位の「詳細名称」２ｃに含まれている駅名の候補が所定数未満であることから、この時点で候補となる駅名を絞り込むことができる。したがって、「詳細名称」２ｃに属する待ち受け単語のうち、「カテゴリ名称」２ａの「相鉄線」から派生する待ち受け単語を音声認識用情報データベース１０３ａから抽出して音声認識用辞書１０３へ格納し、当該待ち受け単語と、メモリ１０６に記憶しておいた発話者による最初の発話内容、すなわち「相鉄線の横浜駅まで行きたいんだけど」とを照合処理して、最も一致度の高い「横浜駅」を認識する。

そして、このように認識した発話者による発話内容を、ナビゲーション装置２００へ音声データを出力し、同時に発話者に対して「相鉄線横浜駅までのルートを探索します」のようなガイダンス音声をスピーカー１０４を介して出力する。

図３は、第１の実施の形態における音声認識装置１００の処理を示すフローチャートである。図３に示す処理は音声認識装置１００を搭載した車両のイグニションスイッチがオンされることによって音声認識装置１００の電源がオンされると、制御装置１０７によって実行される。

ステップＳ１０において、発話者によって音声入力操作スイッチ１０２が操作され、発話開始が指示されたか否かが判断される。発話開始が指示されたと判断した場合には、ステップＳ２０へ進む。ステップＳ２０では、「カテゴリ名称」２ａに属する待ち受け単語を音声認識用情報データベース１０３ａから抽出して音声認識用辞書１０３へ格納し、ステップＳ３０へ進む。ステップＳ３０では、発話者に対して発話を促すガイダンス音声、例えば「ご用件をどうぞ」をスピーカー１０４を介して出力する。その後、ステップＳ４０へ進む。

ステップＳ４０では、発話者によってマイク１０１を介して音声が入力されたか否かを判断する。発話者によって音声が入力されたと判断した場合には、ステップＳ５０へ進む。ステップＳ５０では、発話者によって入力された発話内容と、音声認識用辞書１０３に格納した「カテゴリ名称」２ａに属する待ち受け単語とを照合処理して、最も一致度の高い待ち受け単語を音声認識結果として決定する。その後、ステップＳ６０へ進み、発話者による発話内容をメモリ１０６に記憶して保持して、ステップＳ７０へ進む。

ステップＳ７０では、音声認識した「カテゴリ名称」２ａの下位に派生する「詳細名称」２ｃの待ち受け単語が所定数以上存在するか否かを判断する。「詳細名称」２ｃの待ち受け単語が所定数未満であると判断した場合には、後述するステップＳ１２０へ進む。一方、「詳細名称」２ｃの待ち受け単語が所定数以上存在すると判断した場合には、ステップＳ８０へ進む。ステップＳ８０では、音声認識した「カテゴリ名称」２ａの下位に派生する「サブカテゴリ名称」２ｂに属する待ち受け単語を音声認識用情報データベース１０３ａから抽出して音声認識用辞書１０３へ格納して、ステップＳ９０へ進む。

ステップＳ９０では、発話者に「サブカテゴリ名称」２ｂに属する待ち受け単語の発話を促すガイダンス音声をスピーカー１０４を介して出力する。その後、ステップＳ１００へ進み、発話者によってマイク１０１を介して音声が入力されたか否かを判断する。発話者によって音声が入力されたと判断した場合には、ステップＳ１１０へ進む。ステップＳ１１０では、発話者によって入力された発話内容と、音声認識用辞書１０３に格納した「サブカテゴリ名称」２ｂに属する待ち受け単語とを照合処理して、最も一致度の高い待ち受け単語を音声認識結果として決定する。その後、ステップＳ１２０へ進む。

ステップＳ１２０では、音声認識した「カテゴリ名称」２ａ、または「サブカテゴリ名称」２ｂの下位に派生する「詳細名称」２ｃに属する待ち受け単語を音声認識用情報データベース１０３ａから抽出して音声認識用辞書１０３へ格納する。その後、ステップＳ１３０へ進み、メモリ１０６に保持しておいた発話者による最初の発話内容と、音声認識用辞書１０３に格納した「詳細名称」２ｃに属する待ち受け単語とを照合処理して、最も一致度の高い待ち受け単語を音声認識結果として決定する。その後、ステップＳ１４０へ進み、上述した処理で音声認識した認識結果をナビゲーション装置２００へ出力する。その後、ステップＳ１５０へ進む。

ステップＳ１５０では、音声認識装置１００を搭載した車両のイグニションスイッチがオフされたか否かを判断し、オフされないと判断した場合には、ステップＳ１０へ戻って処理を繰り返す。一方、音声認識装置１００を搭載した車両のイグニションスイッチがオフされたと判断した場合には、処理を終了する。

以上説明した第１の実施の形態によれば、以下のような作用効果を得ることができる。
（１）「カテゴリ名称」２ａに属する待ち受け単語に基づいて音声認識した結果、下位に派生する「詳細名称」２ｃに属する待ち受け単語の候補が所定数以上存在する場合には、中間階層である「サブカテゴリ名称」２ｂを待ち受け単語とした音声認識を行って、下位に派生する「詳細名称」２ｃに属する待ち受け単語の候補数を絞り込むようにした。これによって、「詳細名称」２ｃで待ち受ける待ち受け単語の数を減らすことができ、音声認識処理時間の短縮、および誤認識率の低下を実現することができる。

（２）「カテゴリ名称」２ａに属する待ち受け単語に基づいて音声認識した結果、下位に派生する「詳細名称」２ｃに属する待ち受け単語の候補が所定数未満である場合には、
「サブカテゴリ名称」２ｂを待ち受け単語とした音声認識を行わず、「詳細名称」２ｃに属する待ち受け単語で音声認識するようにした。これによって、「カテゴリ名称」２ａが決定すれば、候補となる「詳細名称」２ｃを限定して絞り込めることを加味して、発話者に「サブカテゴリ名称」２ｂを発話させることなく、少ない発話回数で音声認識を完了することが可能となる。

（３）発話者によって音声入力が行われた場合には、発話者による最初の発話内容をメモリ１０６に記憶して保持しておき、「詳細名称」２ｃに属する待ち受け単語との照合処理において、保持しておいた発話者による最初の発話内容と照合処理するようにした。これによって、「詳細名称」２ｃに属する待ち受け単語を音声認識する際に、再度「詳細名称」２ｃに属する待ち受け単語を含むような発話を発話者に要求する必要がなくなり、少ない発話回数で音声認識を完了することができる。

―第２の実施の形態―
第２の実施の形態では、第１の実施の形態で上述した音声認識装置を搭載したナビゲーション装置において、音声入力により自車両周辺の施設を検索する場合について説明する。なお、図１に示した音声認識装置１００のブロック図については、第１の実施の形態と同様のため、説明を省略する。

第２の実施の形態における音声認識用情報データベース１０３ａには、自車両周辺の施設を検索するために使用する待ち受け単語が図４に示すような階層構造でカテゴリ単位に格納されている。すなわち、「カテゴリ名称」２ａには周辺施設の検索時に発話者が発話する可能性が高い単語、例えば「近く」が、「サブカテゴリ名称」２ｂには施設分類が、「詳細名称」２ｃには施設名称が格納されている。このとき、発話者によって周辺検索を行うためのコマンドとして、例えば「近くのＤＤＤ銀行まで」が発話された場合には、以下のように処理する。

まず、制御装置１０７は、「カテゴリ名称」２ａに属する待ち受け単語を音声認識用情報データベース１０３ａから抽出して音声認識用辞書１０３へ格納し、当該待ち受け単語と、発話者による発話内容とを照合処理して、最も一致度の高い「近く」を認識する。同時に、発話者による発話内容をメモリ１０６に記憶して保持しておく。そして、ナビゲーション装置２００に対して、周辺施設の検索が指示されたことを通知して、ナビゲーション装置２００から自車両の現在位置周辺に存在する施設の施設分類、施設名称、および各施設の支店名称を取得する。

取得した施設名称の数が所定数量未満であれば、第１の実施の形態と同様に、直接、施設名称の絞込みが可能であると判断して、「詳細名称」２ｃに属する待ち受け単語のうち、ナビゲーション装置２００から取得した施設名称と一致する単語を音声認識用情報データベース１０３ａから抽出して音声認識用辞書１０３へ格納する。そして、音声認識用辞書１０３に格納した待ち受け単語と、メモリ１０６に保持しておいた発話者による発話内容とを照合処理して、最も一致度の高い施設名称、すなわち「ＤＤＤ銀行」を認識する。その後、ナビゲーション装置２００へ探索対象が「ＤＤＤ銀行」である旨を通知し、同時に発話者に対して「ＤＤＤ銀行厚木支店までご案内します」のように、認識した施設名称にナビゲーション装置２００から取得した支店名称を付加したガイダンス音声を出力する。

これに対して、ナビゲーション装置２００から取得した施設名称の数が所定数量以上であれば、第１の実施の形態と同様に、「サブカテゴリ名称」２ｂによる「詳細名称」２ｃに属する待ち受け単語の絞込みを行う。すなわち、「サブカテゴリ名称」２ｂに属する待ち受け単語のうち、ナビゲーション装置２００から取得した自車両の現在位置周辺に存在する施設の施設分類と一致する単語を音声認識用情報データベース１０３ａから抽出して音声認識用辞書１０３へ格納する。そして、発話者に対して、施設分類の入力を促すガイダンス、例えば「施設のジャンルは何でしょうか？」を出力する。

使用者によって「うーんと、銀行です」のような発話がなされると、音声認識用辞書１０３に格納した待ち受け単語と、メモリ１０６に保持しておいた発話者による発話内容とを照合処理して、最も一致度の高い施設名称、すなわち「銀行」を認識する。そして、「サブカテゴリ名称」２ｂの待ち受け単語が「銀行」から派生する「詳細名称」２ｃに属する待ち受け単語を音声認識用情報データベース１０３ａから抽出して音声認識用辞書１０３へ格納する。そして、メモリ１０６に記憶しておいた発話者による最初の発話内容、すなわち「近くのＤＤＤ銀行まで」と、音声認識用辞書１０３に格納した「詳細名称」２ｃに属する待ち受け単語とを照合処理して、最も一致度の高い「ＤＤＤ銀行」を認識する。

図５は、第２の実施の形態における音声認識装置１００の処理を示すフローチャートである。図５に示す処理は音声認識装置１００を搭載した車両のイグニションスイッチがオンされることによって音声認識装置１００の電源がオンされると、制御装置１０７によって実行される。なお、第１の実施の形態における図３と共通する処理については同じステップ番号を付与し、相違点を中心に説明する。

ステップＳ６１において、自車両の現在位置周辺に存在する施設の詳細名称、すなわち施設名称を取得する。また、同時に施設分類、および各施設の支店名称も取得しておく。その後、ステップＳ７０へ進み、取得した詳細名称の候補が所定数以上であるか否かを判断する。詳細名称の候補が所定数以上であると判断した場合には、ステップＳ８１へ進む。ステップＳ８１では、「サブカテゴリ名称」２ｂに属する待ち受け単語のうち、取得した施設分類と一致する単語のみを音声認識用情報データベース１０３ａから抽出して音声認識用辞書１０３へ格納する。そして、ステップＳ９０へ進む。

一方、詳細名称の候補が所定数未満であると判断した場合には、ステップＳ１２１へ進む。ステップＳ１２１では、「詳細名称」２ｃに属する待ち受け単語のうち、取得した施設名称と一致する単語のみを音声認識用情報データベース１０３ａから抽出して音声認識用辞書１０３へ格納する。そして、ステップＳ１３０へ進む。

以上説明した第２の実施の形態によれば、以下のような作用効果を得ることができる。
（１）発話者によって周辺施設の検索が指示された場合には、ナビゲーション装置２００から取得した詳細名称の候補が所定数以上であるか否かを判断して、詳細名称の候補が所定数以上であると判断した場合には、「サブカテゴリ名称」２ｂに属する待ち受け単語のうち、ナビゲーション装置２００から取得した施設分類と一致する単語のみを音声認識用情報データベース１０３ａから抽出して音声認識用辞書１０３へ格納するようにした。これによって、自車両の現在位置周辺に実際に存在する施設の数が多い場合には、発話者の発話内容を「サブカテゴリ名称」２ｂに含まれる待ち受け単語でさらに絞り込んで、「詳細名称」２ｃで待ち受ける待ち受け単語の数を減らすことができ、音声認識処理時間の短縮、および誤認識率の低下を実現することができる。

（２）また、ナビゲーション装置２００から取得した詳細名称の候補が所定数未満であると判断した場合には、「詳細名称」２ｃに属する待ち受け単語のうち、ナビゲーション装置２００から取得した施設名称と一致する単語のみを音声認識用情報データベース１０３ａから抽出して音声認識用辞書１０３へ格納するようにした。これによって、自車両の現在位置周辺に実際に存在する施設の数が少ない場合には、候補となる「詳細名称」２ｃを限定できることを加味して、発話者に「サブカテゴリ名称」２ｂを発話させることなく、少ない発話回数で音声認識を完了することが可能となる。

―変形例―
なお、上述した実施の形態の音声認識装置は、以下のように変形することもできる。
（１）上述した第１および第２の実施の形態では、音声認識用情報データベース１０３ａに格納する待ち受け単語を、「カテゴリ名称」２ａ、「サブカテゴリ名称」２ｂ、および「詳細名称」２ｃの３階層とする例について説明したが、これに限定されず、「カテゴリ名称」２ａに相当する最上位のカテゴリと、「詳細名称」２ｃに相当する最下位のカテゴリとを備え、さらに「サブカテゴリ名称」２ｂに相当する中間階層のカテゴリを複数備える４階層以上としてもよい。

（２）上述した第１および第２の実施の形態では、発話者による最初の発話内容をメモリ１０６に記憶して保持しておき、「詳細名称」２ｃに属する待ち受け単語との照合処理において、保持しておいた発話者による最初の発話内容と照合処理する例について説明した。しかし、変形例（１）で上述したように、音声認識用情報データベース１０３ａに格納する待ち受け単語を４階層以上にした場合には、その階層の数に応じて、発話者に過去に発話した内容を再度発話させることが無いように、発話者による最初の発話内容だけでなく、２番目以降の発話内容も保持するようにしてもよい。

（３）上述した第１および第２の実施の形態では、音声認識装置１００を車両に搭載したナビゲーション装置に適用した例について説明したが、これに限定されず、その他の各種情報機器に適用することもできる。

なお、本発明の特徴的な機能を損なわない限り、本発明は、上述した実施の形態における構成に何ら限定されない。

特許請求の範囲の構成要素と実施の形態との対応関係について説明する。マイク１０１は音声入力手段に、音声認識用辞書１０３は格納手段に、メモリ１０６は発話内容保持手段に相当する。制御装置１０７は上位階層音声認識手段、判定手段、中間階層音声認識手段、および決定手段に相当する。なお、この対応は一例であり、実施の形態の構成によって対応関係は異なるものである。

音声認識装置を車両に搭載したナビゲーション装置に適用した場合の一実施の形態の構成を示すブロック図である。第１の実施の形態における音声認識用辞書１０３に格納される待ち受け単語の階層構造を示す図である。第１の実施の形態における音声認識装置１００の処理を示すフローチャート図である。第２の実施の形態における音声認識用辞書１０３に格納される待ち受け単語の階層構造を示す図である。第２の実施の形態における音声認識装置１００の処理を示すフローチャート図である。

符号の説明

１００音声認識装置
１０１マイク
１０２音声入力操作スイッチ
１０３音声認識用辞書
１０３ａ音声認識用情報データベース
１０４スピーカー
１０５モニタ
１０６メモリ
１０７制御装置

Claims

発話者の発話音声を入力する音声入力手段と、
複数の階層からなる音声認識実行時の待ち受け単語を格納する格納手段と、
前記音声入力手段を介して入力された発話者の発話音声と、前記格納手段に格納された上位階層に属する待ち受け単語とを照合処理して音声認識し、音声認識結果から派生する最下位階層の待ち受け単語を抽出する第１の抽出手段と、
前記第１の抽出手段による抽出結果に基づいて、前記最下位階層に属する待ち受け単語の絞り込みが必要であるか否かを判定する判定手段と、
前記判定手段によって前記最下位階層に属する待ち受け単語の絞り込みが必要であると判定した場合には、絞り込みに必要な情報の音声入力を発話者に促して、その結果入力された発話内容と、前記上位階層と前記最下位階層の間に存在する中間階層に属する待ち受け単語とを照合処理して音声認識し、音声認識結果から派生する最下位階層の待ち受け単語を抽出する第２の抽出手段と、
前記第１の抽出手段で抽出した前記上位階層に属する待ち受け単語から派生する最下位の階層に属する待ち受け単語、および前記第２の抽出手段で抽出した前記中間階層から派生する最下位の階層に属する待ち受け単語のいずれか一方の待ち受け単語と、発話者の発話内容とを照合処理して音声認識する発話音声認識手段とを備えることを特徴とする音声認識装置。
請求項１に記載の音声認識装置において、
前記音声入力手段を介して入力された最初の発話者の発話内容を記憶して保持する発話内容保持手段をさらに備え、
前記発話音声認識手段は、前記第１の抽出手段で抽出した前記上位階層に属する待ち受け単語から派生する最下位の階層に属する待ち受け単語、または前記第２の抽出手段で抽出した前記中間階層から派生する最下位の階層に属する待ち受け単語と、前記発話内容保持手段に保持した前記最初の発話者の発話内容とを照合処理して音声認識することを特徴とする音声認識装置。
請求項１または２に記載の音声認識装置において、
前記判定手段は、前記第１の抽出手段で抽出した前記上位階層に属する待ち受け単語から派生する最下位の階層に属する待ち受け単語の数に基づいて、前記最下位階層に属する待ち受け単語の絞り込みが必要であるか否かを判定することを特徴とする音声認識装置。
複数の階層からなる音声認識実行時の待ち受け単語を格納し、
入力された発話者の発話音声と、格納された上位階層に属する待ち受け単語とを照合処理して音声認識し、音声認識結果から派生する最下位階層の待ち受け単語を抽出し、
抽出結果に基づいて、前記最下位階層に属する待ち受け単語の絞り込みが必要であるか否かを判定し、
前記最下位階層に属する待ち受け単語の絞り込みが必要であると判定した場合には、絞り込みに必要な情報の音声入力を発話者に促して、その結果入力された発話内容と、前記上位階層と前記最下位階層の間に存在する中間階層に属する待ち受け単語とを照合処理して音声認識し、音声認識結果から派生する最下位階層の待ち受け単語を抽出し、
抽出した前記上位階層に属する待ち受け単語から派生する最下位の階層に属する待ち受け単語、および前記中間階層から派生する最下位の階層に属する待ち受け単語のいずれか一方の待ち受け単語と、発話者の発話内容とを照合処理して音声認識することを特徴とする音声認識方法。
請求項１〜３に記載の音声認識装置と、前記音声認識装置によって操作される情報機器とを備える音声認識システムであって、
前記音声認識装置は、発話者の発話内容の音声認識結果を前記情報機器へ出力し、
前記情報機器は、前記音声認識装置から出力された音声認識結果に基づいて、処理を実行することを特徴とする音声認識システム。