JP4661216B2 - 音声認識装置、方法、およびシステム - Google Patents

音声認識装置、方法、およびシステム Download PDF

Info

Publication number
JP4661216B2
JP4661216B2 JP2004379195A JP2004379195A JP4661216B2 JP 4661216 B2 JP4661216 B2 JP 4661216B2 JP 2004379195 A JP2004379195 A JP 2004379195A JP 2004379195 A JP2004379195 A JP 2004379195A JP 4661216 B2 JP4661216 B2 JP 4661216B2
Authority
JP
Japan
Prior art keywords
standby
speech recognition
hierarchy
belonging
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004379195A
Other languages
English (en)
Other versions
JP2006184670A (ja
Inventor
堅悟 鈴木
浩 斎藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Priority to JP2004379195A priority Critical patent/JP4661216B2/ja
Publication of JP2006184670A publication Critical patent/JP2006184670A/ja
Application granted granted Critical
Publication of JP4661216B2 publication Critical patent/JP4661216B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、入力された音声を認識する音声認識装置、方法、およびシステムに関する。
次のような音声認識方法が特許文献1によって知られている。この音声認識方法では、音声待ち受け用の単語をカテゴリごとに分類して、それぞれの音声認識辞書に記憶しておき、使用者による発話音声を各カテゴリごとの音声認識辞書と照合して音声を認識する。
特開2001−109492号公報
しかしながら、従来の音声認識方法では、入力された発話音声と、複数準備した各カテゴリごとの音声認識辞書のそれぞれとの照合処理が必要となるため、音声認識処理に時間がかかるという問題が生じていた。
本発明は、複数の階層からなる音声認識実行時の待ち受け単語を格納し、入力された発話者の発話音声と、格納された上位階層に属する待ち受け単語とを照合処理して音声認識し、音声認識結果から派生する最下位階層の待ち受け単語を抽出し、抽出される最下位階層の待ち受け単語の数が所定数以上である場合に、最下位階層に属する待ち受け単語の絞り込みが必要である判定し、最下位階層に属する待ち受け単語の絞り込みが必要であると判定した場合には、絞り込みに必要な情報の音声入力を発話者に促して、その結果入力された発話内容と、上位階層と最下位階層の間に存在する中間階層に属する待ち受け単語とを照合処理して音声認識し、音声認識結果から派生する最下位階層の待ち受け単語を抽出し、抽出した上位階層に属する待ち受け単語から派生する最下位の階層に属する待ち受け単語、および中間階層から派生する最下位の階層に属する待ち受け単語のいずれか一方の待ち受け単語と、発話者の発話内容とを照合処理して音声認識することを特徴とする。
本発明によれば、複数の階層からなる音声認識実行時の待ち受け単語を格納しておき、入力された発話者の発話内容と、上位階層に属する待ち受け単語とを照合処理して音声認識し、上位階層から派生する最下位階層に属する待ち受け単語の抽出を行う。この抽出結果に基づいて、最下位階層に属する待ち受け単語の絞込みが必要であると判定された場合には、発話者の発話内容と、中間階層に属する待ち受け単語とを照合処理して音声認識し、中間階層から派生する最下位階層に属する待ち受け単語の抽出を行う。そして、抽出した上位階層から派生する最下位階層に属する待ち受け単語、および中間階層から派生する最下位階層に属する待ち受け単語のいずれか一方の待ち受け単語によって音声認識するようにした。これによって、待ち受け単語を上位階層から下位階層に向けて、徐々に絞り込みながら音声認識をおこなうため、徐々に待ち受け単語の数を減らすことができ、音声認識処理にかかる時間を短縮することができる。
―第1の実施の形態―
図1は、第1の実施の形態における音声認識装置を車両に搭載したナビゲーション装置に適用した場合の一実施の形態の構成を示すブロック図である。運転者(発話者)が発話したナビゲーション装置200を操作するための各種操作コマンドの音声データは、音声認識装置100で音声認識が実行され、ナビゲーション装置200へ出力される。ナビゲーション装置200は、音声認識装置100から出力された音声データを操作コマンドに変換して処理を実行する。
音声認識装置100は、発話者の発話を入力するマイク101と、音声入力の開始、中断、再開、およびキャンセルを指示するための音声入力操作スイッチ102と、音声認識装置100が待ち受けて音声認識可能なすべての待ち受け単語が記憶されている音声認識用情報データベース103aと、音声認識用情報データベース103aから音声認識実行時の待ち受け単語を読み込んで格納する音声認識用辞書103と、発話者に音声入力を促すガイダンス音声やビープ音を出力するスピーカー104と、発話者に音声入力を促すガイダンス画像や音声認識結果を表示するモニタ105と、後述するように発話者によって音声入力された最初の発話内容を保持するためのメモリ106と、後述する音声認識処理を実行する制御装置107とを備えている。
音声認識用情報データベース103aには、音声認識実行時の待ち受け単語が、図2に示すような階層構造で表されるデータ形式でカテゴリ単位に格納される。すなわち、最上位の階層として「カテゴリ名称」2aが設定され、そこから下位に派生する中間階層としての「サブカテゴリ名称」2b、およびさらにその下位に派生する最下位の階層としての「詳細名称」2cとが設定されている。これによって、上位の階層から下位の階層に向けて情報の絞込みを行うことができ、最終的に「詳細名称」2cに属する待ち受け単語を特定することができる。
図2に示す例においては、最上位の階層である「カテゴリ名称」2aには鉄道会社名が格納され、中間階層としての「サブカテゴリ名称」2bには各鉄道会社に属する路線名が格納されている。さらに最下位の階層である「詳細名称」2cには、各路線に属する駅名が格納されている。したがって、この待ち受け単語によって、発話者の発話内容を鉄道会社名→路線名→駅名の順に、情報を絞り込んで最終的な駅名を特定することが可能となる。
なお、「サブカテゴリ名称」2bは省略可能であり、各「カテゴリ名称」2aの下位に属する「詳細名称」2cの待ち受け単語の候補が所定数以上存在するか否かによって、「カテゴリ名称」2aと「詳細名称」2cの中間階層として「サブカテゴリ名称」2bを設定するか否かを判定する。すなわち、最上位の階層に相当する「カテゴリ名称」2aを音声認識した結果、その最下位の階層に相当する「詳細名称」2c内に含まれる待ち受け単語が多数存在する場合には、大量の待ち受け単語と発話者の発話内容を照合処理する必要が生じ、音声認識処理に時間がかかる上に、誤認識が発生しやすくなる。このため、「カテゴリ名称」2aの下位に「詳細名称」2cの候補が所定数以上存在する場合には、「詳細名称」2cの候補が所定数未満となるように複数の「サブカテゴリ名称」2bを「カテゴリ名称」2aと「詳細名称」2cの中間階層として設定する。
これによって、発話者の発話内容を「サブカテゴリ名称」2bに含まれる待ち受け単語でさらに絞り込んで、「詳細名称」2cで待ち受ける待ち受け単語の数を減らすことができ、音声認識処理時間の短縮、および誤認識率の低下を実現することができる。例えば、図2における「カテゴリ名称」2aが「JR線」については、「JR線」に属する駅名は非常に多いことから、中間階層として「サブカテゴリ名称」2bを設け、路線名で駅名を絞り込むようにする。
一方、「カテゴリ名称」2aを認識することによって、「詳細名称」2cの候補が所定数以下に絞込み可能な場合には、「サブカテゴリ名称」2bを設定せずに、「カテゴリ名称」2aから直接「詳細名称」2cを認識できるようにする。例えば、図2においては、「カテゴリ名称」2aが「小田急線」や「相鉄線」の場合が該当する。これらの場合には鉄道会社を認識するだけで、候補となる駅を限定して絞り込めることから、発話者に「サブカテゴリ名称」2bを発話させることなく、少ない発話回数で駅名を特定することが可能となる。
第1の実施の形態における音声認識装置100においては、例えば、図2に示した階層構造のデータを待ち受け単語として、以下のように音声認識を実行する。発話者によって音声入力操作スイッチ102が操作されると、「カテゴリ名称」2aに属する待ち受け単語を音声認識用情報データベース103aから抽出して音声認識辞書103に格納する。そして、制御装置107発話を促すガイダンス音声「ご用件をどうぞ」をスピーカー104を介して出力する。これに対して、発話者が「JRの渋谷駅まで行きたいんだけど」と発話した場合には、当該発話内容と音声認識辞書103に格納した「カテゴリ名称」2aに属する待ち受け単語とを照合処理して、最も一致度の高い「JR線」を認識する。同時に、発話者による発話内容をメモリ106に記憶して保持しておく。
「カテゴリ名称」2aの認識結果が「JR線」である場合には、上述したように下位の「詳細名称」2cに含まれている駅名の候補が所定数以上存在することから、候補となる駅名を絞り込むために発話者に「サブカテゴリ名称」2bの発話を促す必要がある。このため、音声認識用情報データベース103aから「サブカテゴリ名称」2bに属する待ち受け単語のうち、「カテゴリ名称」2aの「JR線」から派生する待ち受け単語を抽出して、音声認識用辞書103へ格納する。そして、「サブカテゴリ名称」2bの発話を促すガイダンス音声、例えば「その駅名はJRの何線でしょうか?」を出力する。その結果、発話者によって「うーんと、山手線です」のような発話が入力された場合には、当該発話内容と音声認識用辞書103に格納した「カテゴリ名称」2aの「JR線」から派生する「サブカテゴリ名称」2bに属する待ち受け単語とを照合処理して、最も一致度の高い「山手線」を認識する。
これによって、路線名が特定され、駅名の候補を絞り込むことができたので、「サブカテゴリ名称」2bにおける路線名が「山手線」から派生する「詳細名称」2cに属する待ち受け単語を音声認識用情報データベース103aから抽出して音声認識用辞書103へ格納する。そして、メモリ106に記憶しておいた発話者による最初の発話内容、すなわち「JRの渋谷駅まで行きたいんだけど」と、「詳細名称」2cに属する待ち受け単語とを照合処理して、最も一致度の高い「渋谷駅」を認識する。このように認識した発話者による発話内容を、ナビゲーション装置200へ音声データを出力する。同時に発話者に対して「JR山手線渋谷駅までのルートを探索します」のようなガイダンス音声をスピーカー104を介して出力する。
次に、例えば、発話者が「相鉄線の横浜駅まで行きたいんだけど」と発話した場合について説明する。この場合には、当該発話内容と音声認識用辞書103に格納した「カテゴリ名称」2aに属する待ち受け単語とを照合処理して、最も一致度の高い「相鉄線」を認識する。同時に、発話者による発話内容をメモリ106に記憶して保持しておく。
「カテゴリ名称」2aの認識結果が「相鉄線」である場合には、上述したように下位の「詳細名称」2cに含まれている駅名の候補が所定数未満であることから、この時点で候補となる駅名を絞り込むことができる。したがって、「詳細名称」2cに属する待ち受け単語のうち、「カテゴリ名称」2aの「相鉄線」から派生する待ち受け単語を音声認識用情報データベース103aから抽出して音声認識用辞書103へ格納し、当該待ち受け単語と、メモリ106に記憶しておいた発話者による最初の発話内容、すなわち「相鉄線の横浜駅まで行きたいんだけど」とを照合処理して、最も一致度の高い「横浜駅」を認識する。
そして、このように認識した発話者による発話内容を、ナビゲーション装置200へ音声データを出力し、同時に発話者に対して「相鉄線横浜駅までのルートを探索します」のようなガイダンス音声をスピーカー104を介して出力する。
図3は、第1の実施の形態における音声認識装置100の処理を示すフローチャートである。図3に示す処理は音声認識装置100を搭載した車両のイグニションスイッチがオンされることによって音声認識装置100の電源がオンされると、制御装置107によって実行される。
ステップS10において、発話者によって音声入力操作スイッチ102が操作され、発話開始が指示されたか否かが判断される。発話開始が指示されたと判断した場合には、ステップS20へ進む。ステップS20では、「カテゴリ名称」2aに属する待ち受け単語を音声認識用情報データベース103aから抽出して音声認識用辞書103へ格納し、ステップS30へ進む。ステップS30では、発話者に対して発話を促すガイダンス音声、例えば「ご用件をどうぞ」をスピーカー104を介して出力する。その後、ステップS40へ進む。
ステップS40では、発話者によってマイク101を介して音声が入力されたか否かを判断する。発話者によって音声が入力されたと判断した場合には、ステップS50へ進む。ステップS50では、発話者によって入力された発話内容と、音声認識用辞書103に格納した「カテゴリ名称」2aに属する待ち受け単語とを照合処理して、最も一致度の高い待ち受け単語を音声認識結果として決定する。その後、ステップS60へ進み、発話者による発話内容をメモリ106に記憶して保持して、ステップS70へ進む。
ステップS70では、音声認識した「カテゴリ名称」2aの下位に派生する「詳細名称」2cの待ち受け単語が所定数以上存在するか否かを判断する。「詳細名称」2cの待ち受け単語が所定数未満であると判断した場合には、後述するステップS120へ進む。一方、「詳細名称」2cの待ち受け単語が所定数以上存在すると判断した場合には、ステップS80へ進む。ステップS80では、音声認識した「カテゴリ名称」2aの下位に派生する「サブカテゴリ名称」2bに属する待ち受け単語を音声認識用情報データベース103aから抽出して音声認識用辞書103へ格納して、ステップS90へ進む。
ステップS90では、発話者に「サブカテゴリ名称」2bに属する待ち受け単語の発話を促すガイダンス音声をスピーカー104を介して出力する。その後、ステップS100へ進み、発話者によってマイク101を介して音声が入力されたか否かを判断する。発話者によって音声が入力されたと判断した場合には、ステップS110へ進む。ステップS110では、発話者によって入力された発話内容と、音声認識用辞書103に格納した「サブカテゴリ名称」2bに属する待ち受け単語とを照合処理して、最も一致度の高い待ち受け単語を音声認識結果として決定する。その後、ステップS120へ進む。
ステップS120では、音声認識した「カテゴリ名称」2a、または「サブカテゴリ名称」2bの下位に派生する「詳細名称」2cに属する待ち受け単語を音声認識用情報データベース103aから抽出して音声認識用辞書103へ格納する。その後、ステップS130へ進み、メモリ106に保持しておいた発話者による最初の発話内容と、音声認識用辞書103に格納した「詳細名称」2cに属する待ち受け単語とを照合処理して、最も一致度の高い待ち受け単語を音声認識結果として決定する。その後、ステップS140へ進み、上述した処理で音声認識した認識結果をナビゲーション装置200へ出力する。その後、ステップS150へ進む。
ステップS150では、音声認識装置100を搭載した車両のイグニションスイッチがオフされたか否かを判断し、オフされないと判断した場合には、ステップS10へ戻って処理を繰り返す。一方、音声認識装置100を搭載した車両のイグニションスイッチがオフされたと判断した場合には、処理を終了する。
以上説明した第1の実施の形態によれば、以下のような作用効果を得ることができる。
(1)「カテゴリ名称」2aに属する待ち受け単語に基づいて音声認識した結果、下位に派生する「詳細名称」2cに属する待ち受け単語の候補が所定数以上存在する場合には、中間階層である「サブカテゴリ名称」2bを待ち受け単語とした音声認識を行って、下位に派生する「詳細名称」2cに属する待ち受け単語の候補数を絞り込むようにした。これによって、「詳細名称」2cで待ち受ける待ち受け単語の数を減らすことができ、音声認識処理時間の短縮、および誤認識率の低下を実現することができる。
(2)「カテゴリ名称」2aに属する待ち受け単語に基づいて音声認識した結果、下位に派生する「詳細名称」2cに属する待ち受け単語の候補が所定数未満である場合には、
「サブカテゴリ名称」2bを待ち受け単語とした音声認識を行わず、「詳細名称」2cに属する待ち受け単語で音声認識するようにした。これによって、「カテゴリ名称」2aが決定すれば、候補となる「詳細名称」2cを限定して絞り込めることを加味して、発話者に「サブカテゴリ名称」2bを発話させることなく、少ない発話回数で音声認識を完了することが可能となる。
(3)発話者によって音声入力が行われた場合には、発話者による最初の発話内容をメモリ106に記憶して保持しておき、「詳細名称」2cに属する待ち受け単語との照合処理において、保持しておいた発話者による最初の発話内容と照合処理するようにした。これによって、「詳細名称」2cに属する待ち受け単語を音声認識する際に、再度「詳細名称」2cに属する待ち受け単語を含むような発話を発話者に要求する必要がなくなり、少ない発話回数で音声認識を完了することができる。
―第2の実施の形態―
第2の実施の形態では、第1の実施の形態で上述した音声認識装置を搭載したナビゲーション装置において、音声入力により自車両周辺の施設を検索する場合について説明する。なお、図1に示した音声認識装置100のブロック図については、第1の実施の形態と同様のため、説明を省略する。
第2の実施の形態における音声認識用情報データベース103aには、自車両周辺の施設を検索するために使用する待ち受け単語が図4に示すような階層構造でカテゴリ単位に格納されている。すなわち、「カテゴリ名称」2aには周辺施設の検索時に発話者が発話する可能性が高い単語、例えば「近く」が、「サブカテゴリ名称」2bには施設分類が、「詳細名称」2cには施設名称が格納されている。このとき、発話者によって周辺検索を行うためのコマンドとして、例えば「近くのDDD銀行まで」が発話された場合には、以下のように処理する。
まず、制御装置107は、「カテゴリ名称」2aに属する待ち受け単語を音声認識用情報データベース103aから抽出して音声認識用辞書103へ格納し、当該待ち受け単語と、発話者による発話内容とを照合処理して、最も一致度の高い「近く」を認識する。同時に、発話者による発話内容をメモリ106に記憶して保持しておく。そして、ナビゲーション装置200に対して、周辺施設の検索が指示されたことを通知して、ナビゲーション装置200から自車両の現在位置周辺に存在する施設の施設分類、施設名称、および各施設の支店名称を取得する。
取得した施設名称の数が所定数量未満であれば、第1の実施の形態と同様に、直接、施設名称の絞込みが可能であると判断して、「詳細名称」2cに属する待ち受け単語のうち、ナビゲーション装置200から取得した施設名称と一致する単語を音声認識用情報データベース103aから抽出して音声認識用辞書103へ格納する。そして、音声認識用辞書103に格納した待ち受け単語と、メモリ106に保持しておいた発話者による発話内容とを照合処理して、最も一致度の高い施設名称、すなわち「DDD銀行」を認識する。その後、ナビゲーション装置200へ探索対象が「DDD銀行」である旨を通知し、同時に発話者に対して「DDD銀行厚木支店までご案内します」のように、認識した施設名称にナビゲーション装置200から取得した支店名称を付加したガイダンス音声を出力する。
これに対して、ナビゲーション装置200から取得した施設名称の数が所定数量以上であれば、第1の実施の形態と同様に、「サブカテゴリ名称」2bによる「詳細名称」2cに属する待ち受け単語の絞込みを行う。すなわち、「サブカテゴリ名称」2bに属する待ち受け単語のうち、ナビゲーション装置200から取得した自車両の現在位置周辺に存在する施設の施設分類と一致する単語を音声認識用情報データベース103aから抽出して音声認識用辞書103へ格納する。そして、発話者に対して、施設分類の入力を促すガイダンス、例えば「施設のジャンルは何でしょうか?」を出力する。
使用者によって「うーんと、銀行です」のような発話がなされると、音声認識用辞書103に格納した待ち受け単語と、メモリ106に保持しておいた発話者による発話内容とを照合処理して、最も一致度の高い施設名称、すなわち「銀行」を認識する。そして、「サブカテゴリ名称」2bの待ち受け単語が「銀行」から派生する「詳細名称」2cに属する待ち受け単語を音声認識用情報データベース103aから抽出して音声認識用辞書103へ格納する。そして、メモリ106に記憶しておいた発話者による最初の発話内容、すなわち「近くのDDD銀行まで」と、音声認識用辞書103に格納した「詳細名称」2cに属する待ち受け単語とを照合処理して、最も一致度の高い「DDD銀行」を認識する。
図5は、第2の実施の形態における音声認識装置100の処理を示すフローチャートである。図5に示す処理は音声認識装置100を搭載した車両のイグニションスイッチがオンされることによって音声認識装置100の電源がオンされると、制御装置107によって実行される。なお、第1の実施の形態における図3と共通する処理については同じステップ番号を付与し、相違点を中心に説明する。
ステップS61において、自車両の現在位置周辺に存在する施設の詳細名称、すなわち施設名称を取得する。また、同時に施設分類、および各施設の支店名称も取得しておく。その後、ステップS70へ進み、取得した詳細名称の候補が所定数以上であるか否かを判断する。詳細名称の候補が所定数以上であると判断した場合には、ステップS81へ進む。ステップS81では、「サブカテゴリ名称」2bに属する待ち受け単語のうち、取得した施設分類と一致する単語のみを音声認識用情報データベース103aから抽出して音声認識用辞書103へ格納する。そして、ステップS90へ進む。
一方、詳細名称の候補が所定数未満であると判断した場合には、ステップS121へ進む。ステップS121では、「詳細名称」2cに属する待ち受け単語のうち、取得した施設名称と一致する単語のみを音声認識用情報データベース103aから抽出して音声認識用辞書103へ格納する。そして、ステップS130へ進む。
以上説明した第2の実施の形態によれば、以下のような作用効果を得ることができる。
(1)発話者によって周辺施設の検索が指示された場合には、ナビゲーション装置200から取得した詳細名称の候補が所定数以上であるか否かを判断して、詳細名称の候補が所定数以上であると判断した場合には、「サブカテゴリ名称」2bに属する待ち受け単語のうち、ナビゲーション装置200から取得した施設分類と一致する単語のみを音声認識用情報データベース103aから抽出して音声認識用辞書103へ格納するようにした。これによって、自車両の現在位置周辺に実際に存在する施設の数が多い場合には、発話者の発話内容を「サブカテゴリ名称」2bに含まれる待ち受け単語でさらに絞り込んで、「詳細名称」2cで待ち受ける待ち受け単語の数を減らすことができ、音声認識処理時間の短縮、および誤認識率の低下を実現することができる。
(2)また、ナビゲーション装置200から取得した詳細名称の候補が所定数未満であると判断した場合には、「詳細名称」2cに属する待ち受け単語のうち、ナビゲーション装置200から取得した施設名称と一致する単語のみを音声認識用情報データベース103aから抽出して音声認識用辞書103へ格納するようにした。これによって、自車両の現在位置周辺に実際に存在する施設の数が少ない場合には、候補となる「詳細名称」2cを限定できることを加味して、発話者に「サブカテゴリ名称」2bを発話させることなく、少ない発話回数で音声認識を完了することが可能となる。
―変形例―
なお、上述した実施の形態の音声認識装置は、以下のように変形することもできる。
(1)上述した第1および第2の実施の形態では、音声認識用情報データベース103aに格納する待ち受け単語を、「カテゴリ名称」2a、「サブカテゴリ名称」2b、および「詳細名称」2cの3階層とする例について説明したが、これに限定されず、「カテゴリ名称」2aに相当する最上位のカテゴリと、「詳細名称」2cに相当する最下位のカテゴリとを備え、さらに「サブカテゴリ名称」2bに相当する中間階層のカテゴリを複数備える4階層以上としてもよい。
(2)上述した第1および第2の実施の形態では、発話者による最初の発話内容をメモリ106に記憶して保持しておき、「詳細名称」2cに属する待ち受け単語との照合処理において、保持しておいた発話者による最初の発話内容と照合処理する例について説明した。しかし、変形例(1)で上述したように、音声認識用情報データベース103aに格納する待ち受け単語を4階層以上にした場合には、その階層の数に応じて、発話者に過去に発話した内容を再度発話させることが無いように、発話者による最初の発話内容だけでなく、2番目以降の発話内容も保持するようにしてもよい。
(3)上述した第1および第2の実施の形態では、音声認識装置100を車両に搭載したナビゲーション装置に適用した例について説明したが、これに限定されず、その他の各種情報機器に適用することもできる。
なお、本発明の特徴的な機能を損なわない限り、本発明は、上述した実施の形態における構成に何ら限定されない。
特許請求の範囲の構成要素と実施の形態との対応関係について説明する。マイク101は音声入力手段に、音声認識用辞書103は格納手段に、メモリ106は発話内容保持手段に相当する。制御装置107は上位階層音声認識手段、判定手段、中間階層音声認識手段、および決定手段に相当する。なお、この対応は一例であり、実施の形態の構成によって対応関係は異なるものである。
音声認識装置を車両に搭載したナビゲーション装置に適用した場合の一実施の形態の構成を示すブロック図である。 第1の実施の形態における音声認識用辞書103に格納される待ち受け単語の階層構造を示す図である。 第1の実施の形態における音声認識装置100の処理を示すフローチャート図である。 第2の実施の形態における音声認識用辞書103に格納される待ち受け単語の階層構造を示す図である。 第2の実施の形態における音声認識装置100の処理を示すフローチャート図である。
符号の説明
100 音声認識装置
101 マイク
102 音声入力操作スイッチ
103 音声認識用辞書
103a 音声認識用情報データベース
104 スピーカー
105 モニタ
106 メモリ
107 制御装置

Claims (4)

  1. 発話者の発話音声を入力する音声入力手段と、
    複数の階層からなる音声認識実行時の待ち受け単語を格納する格納手段と、
    前記音声入力手段を介して入力された発話者の発話音声と、前記格納手段に格納された上位階層に属する待ち受け単語とを照合処理して音声認識し、音声認識結果から派生する最下位階層の待ち受け単語を抽出する第1の抽出手段と、
    前記第1の抽出手段によって抽出される前記最下位階層の待ち受け単語の数が所定数以上である場合に、前記最下位階層に属する待ち受け単語の絞り込みが必要である判定する判定手段と、
    前記判定手段によって前記最下位階層に属する待ち受け単語の絞り込みが必要であると判定した場合には、絞り込みに必要な情報の音声入力を発話者に促して、その結果入力された発話内容と、前記上位階層と前記最下位階層の間に存在する中間階層に属する待ち受け単語とを照合処理して音声認識し、音声認識結果から派生する最下位階層の待ち受け単語を抽出する第2の抽出手段と、
    前記第1の抽出手段で抽出した前記上位階層に属する待ち受け単語から派生する最下位の階層に属する待ち受け単語、および前記第2の抽出手段で抽出した前記中間階層から派生する最下位の階層に属する待ち受け単語のいずれか一方の待ち受け単語と、発話者の発話内容とを照合処理して音声認識する発話音声認識手段とを備えることを特徴とする音声認識装置。
  2. 請求項1に記載の音声認識装置において、
    前記音声入力手段を介して入力された最初の発話者の発話内容を記憶して保持する発話内容保持手段をさらに備え、
    前記発話音声認識手段は、前記第1の抽出手段で抽出した前記上位階層に属する待ち受け単語から派生する最下位の階層に属する待ち受け単語、または前記第2の抽出手段で抽出した前記中間階層から派生する最下位の階層に属する待ち受け単語と、前記発話内容保持手段に保持した前記最初の発話者の発話内容とを照合処理して音声認識することを特徴とする音声認識装置。
  3. 複数の階層からなる音声認識実行時の待ち受け単語を格納し、
    入力された発話者の発話音声と、格納された上位階層に属する待ち受け単語とを照合処理して音声認識し、音声認識結果から派生する最下位階層の待ち受け単語を抽出し、
    抽出される前記最下位階層の待ち受け単語の数が所定数以上である場合に、前記最下位階層に属する待ち受け単語の絞り込みが必要であると判定し、
    前記最下位階層に属する待ち受け単語の絞り込みが必要であると判定した場合には、絞り込みに必要な情報の音声入力を発話者に促して、その結果入力された発話内容と、前記上位階層と前記最下位階層の間に存在する中間階層に属する待ち受け単語とを照合処理して音声認識し、音声認識結果から派生する最下位階層の待ち受け単語を抽出し、
    抽出した前記上位階層に属する待ち受け単語から派生する最下位の階層に属する待ち受け単語、および前記中間階層から派生する最下位の階層に属する待ち受け単語のいずれか一方の待ち受け単語と、発話者の発話内容とを照合処理して音声認識することを特徴とする音声認識方法。
  4. 請求項1または2に記載の音声認識装置と、前記音声認識装置によって操作される情報機器とを備える音声認識システムであって、
    前記音声認識装置は、発話者の発話内容の音声認識結果を前記情報機器へ出力し、
    前記情報機器は、前記音声認識装置から出力された音声認識結果に基づいて、処理を実行することを特徴とする音声認識システム。
JP2004379195A 2004-12-28 2004-12-28 音声認識装置、方法、およびシステム Expired - Fee Related JP4661216B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004379195A JP4661216B2 (ja) 2004-12-28 2004-12-28 音声認識装置、方法、およびシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004379195A JP4661216B2 (ja) 2004-12-28 2004-12-28 音声認識装置、方法、およびシステム

Publications (2)

Publication Number Publication Date
JP2006184670A JP2006184670A (ja) 2006-07-13
JP4661216B2 true JP4661216B2 (ja) 2011-03-30

Family

ID=36737820

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004379195A Expired - Fee Related JP4661216B2 (ja) 2004-12-28 2004-12-28 音声認識装置、方法、およびシステム

Country Status (1)

Country Link
JP (1) JP4661216B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4930014B2 (ja) * 2006-11-29 2012-05-09 日産自動車株式会社 音声認識装置、および音声認識方法
JP4867622B2 (ja) * 2006-11-29 2012-02-01 日産自動車株式会社 音声認識装置、および音声認識方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000315096A (ja) * 1999-05-03 2000-11-14 Pioneer Electronic Corp 音声認識装置を備えたマンマシンシステム
JP2001109492A (ja) * 1999-10-07 2001-04-20 Alpine Electronics Inc 音声認識方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000315096A (ja) * 1999-05-03 2000-11-14 Pioneer Electronic Corp 音声認識装置を備えたマンマシンシステム
JP2001109492A (ja) * 1999-10-07 2001-04-20 Alpine Electronics Inc 音声認識方法

Also Published As

Publication number Publication date
JP2006184670A (ja) 2006-07-13

Similar Documents

Publication Publication Date Title
US7974843B2 (en) Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
JP4709663B2 (ja) ユーザ適応型の音声認識方法及び音声認識装置
JP5334178B2 (ja) 音声認識装置およびデータ更新方法
EP1936606B1 (en) Multi-stage speech recognition
JP2008009153A (ja) 音声対話システム
US5712957A (en) Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists
JP4116233B2 (ja) 音声認識装置ならびにその方法
JP2000122691A (ja) 綴り字読み式音声発話の自動認識方法
JP4283984B2 (ja) 音声認識装置ならびに方法
US20110288867A1 (en) Nametag confusability determination
JP2001005488A (ja) 音声対話システム
JPH11506845A (ja) 実時間作動での音声対話又は音声命令による1つ又は複数の機器の自動制御方法及びこの方法を実施する装置
EP2221806A1 (en) Speech recognition of a list entry
JP3803029B2 (ja) 音声認識装置
JPH04182000A (ja) 連続音声認識装置
US11450320B2 (en) Dialogue system, dialogue processing method and electronic apparatus
US20170270923A1 (en) Voice processing device and voice processing method
JP4661216B2 (ja) 音声認識装置、方法、およびシステム
JP4639990B2 (ja) 音声対話装置及び音声理解結果生成方法
KR101063159B1 (ko) 명령횟수를 줄일 수 있는 음성 인식을 이용한 주소 검색 방법
JP2871557B2 (ja) 音声認識装置
JP5201973B2 (ja) 音声検索装置
JP2006184669A (ja) 音声認識装置、方法、およびシステム
JP2009003205A (ja) 音声認識装置、および音声認識方法
JP4930014B2 (ja) 音声認識装置、および音声認識方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071128

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100702

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100727

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100922

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101207

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101220

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140114

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees