JP4093394B2

JP4093394B2 - 音声認識装置

Info

Publication number: JP4093394B2
Application number: JP2001343091A
Authority: JP
Inventors: 英彦川上
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2001-11-08
Filing date: 2001-11-08
Publication date: 2008-06-04
Anticipated expiration: 2021-11-08
Also published as: JP2003150192A

Description

【０００１】
【発明の属する技術分野】
本発明は、例えばナビゲーションシステムに組み込むのに好適する装置であって、ナビゲーションシステムにコマンドや目的地等を入力する場合に音声による入力を可能にする音声認識装置に関する。
【０００２】
【従来の技術】
この種の音声認識装置においては、ユーザーが発声した音声を入力し、この入力した音声と、認識辞書に記憶されている複数の比較対象パターン候補とを比較（照合）して、一致度が高いものを認識結果として出力するように構成されている。このような構成の音声認識装置をナビゲーションシステムに組み込むと、ナビゲーションシステムにコマンドや目的地等を入力する場合に、音声による入力が可能となる。これにより、ナビゲーションシステムを音声によって操作可能となるので、運転中のユーザーにとっても利用し易い装置となる。
【０００３】
【発明が解決しようとする課題】
ところで、上記した構成の音声認識装置の場合、ユーザーがある１つの言葉を発声する場合に、発声の仕方（即ち、発声パターン）を変えると、認識率が変動する場合がある。
【０００４】
このため、ユーザーは、音声認識装置を実際に使用するときに、試行錯誤的に発声パターンをいろいろ変えて、例えば、高い声にしたり、低い声にしたり、早口で発声したり、ゆっくり発声したりして、認識率が高くなる発声パターンを探ることがある。しかし、このような試行錯誤的な方法では、認識率が高くなる発声パターンを探り出すのに効率が悪かった。
【０００５】
そこで、本発明の目的は、認識率が高くなる発声パターンを比較的容易に探し出すことができる音声認識装置を提供することにある。
【０００６】
【課題を解決するための手段】
請求項１の発明によれば、音声認識させたい１つの語彙について、ユーザーが複数の発声パターンで発声したときに、これら複数の発声パターンの音声を各々入力すると共に音声認識する手段と、これら複数の音声認識結果を前記発声された複数の音声パターンの発声順序に対応させて前記ユーザーに一覧表示する報知手段を有する発声パターン確認メニューを備えたので、このメニューを実行することにより、ユーザーは、認識率が高くなる発声パターンを比較的容易に探し出すことができる。
【０００７】
請求項２の発明によれば、ユーザーが複数の発声パターンで発声する場合、連呼させると共に、無音部を前記複数の発声パターンの区切りとするように構成したので、複数の発声パターンの音声を連続的に入力して音声認識させることができ、使い勝手が良くなる。
【０００８】
また、請求項３の発明のように、ユーザーが複数の発声パターンで発声する場合に、操作スイッチを押すことにより、前記複数の発声パターンの区切りとするように構成することが好ましい。
【０００９】
請求項４の発明によれば、前記報知手段を、前記複数の音声認識結果を表示するディスプレイで構成したので、ユーザーは、ディスプレイに表示された複数の音声認識結果を視認することにより、認識率が高くなる発声パターンを探し出すことができる。
【００１０】
【発明の実施の形態】
以下、本発明をカーナビゲーションシステムに適用した一実施例について図面を参照しながら説明する。まず、図１はカーナビゲーションシステム１の全体構成を概略的に示すブロック図である。この図１に示すように、カーナビゲーションシステム１は、音声認識装置２とナビゲーション装置３とを備えて構成されている。上記音声認識装置２には、マイク４とＰＴＴ（Push-To-Talk）スイッチ５とスピーカ６とが接続されている。
【００１１】
また、ナビゲーション装置３の具体的構成を、図２に示す。この図２において、ナビゲーション装置３の制御回路７は、マイクロコンピュータを含んで構成されており、ナビゲーション装置３の運転全般を制御する機能を有している。この制御回路７には、位置検出器８、地図データ入力器９、操作スイッチ群１０、外部メモリ１１、表示装置（ディスプレイ）１２、リモコンセンサ１３、送受信機１４が接続されている。更に、制御回路７には、上記音声入力装置２（の制御部１５（図４参照））が接続されている。
【００１２】
ここで、位置検出器８は、地磁気センサ１６、ジャイロスコープ１７、距離センサ１８、ＧＰＳ受信機１９を組み合わせたもので構成されている。尚、位置検出器８を、地磁気センサ１６、ジャイロスコープ１７、距離センサ１８、ＧＰＳ受信機１９の一部で構成しても良い。また、ステアリングの回転センサや転動輪の回転センサ（いずれも図示しない）等を組み合せるように構成しても良い。上記位置検出器８は、本実施例のカーナビゲーションシステム１を搭載した車両の現在位置を検出して現在位置検出信号を出力するように構成されている。
【００１３】
また、地図データ入力器９は、地図データやマップマッチングデータ等を入力するための装置である。上記地図データ等のデータは、例えばＣＤ−ＲＯＭやＤＶＤ−ＲＯＭなどからなる記録媒体に記録されている。尚、ハードディスクやメモリカード等に記録するように構成しても良い。
【００１４】
表示装置（報知手段）１２は、例えば液晶ディスプレイ等で構成されており、カラー表示が可能で地図等を明確に表示できると共に、現在位置マークや誘導経路付加データ等を地図上に重ねて表示できるものである。操作スイッチ群１０は、上記表示装置１２の画面の上面に設けられたタッチスイッチ（タッチパネル）と、上記画面の周辺部に設けられたメカニカルなプッシュスイッチ等から構成されている。
【００１５】
また、リモコンセンサ１３は、ユーザーにより操作されるリモコン１３ａから送信された送信信号を受信する受信機である。送受信機１４は、道路に設置されたＶＩＣＳセンサ２０との間でデータを送受信する機能を有していると共に、自動車電話網や携帯電話網等を介してインターネットにアクセスする機能等も有している。
【００１６】
そして、制御回路７は、ユーザーが操作スイッチ群１０やリモコン１３ａを操作することにより目的地を設定したときに、現在位置からその目的地までの最適経路を自動的に選択設定する機能や、現在位置を地図上に位置付けるマップマッチング処理を実行する機能等を有している。
【００１７】
また、上記目的地等を設定する場合に、ユーザーは、操作スイッチ群１０やリモコン１３ａを操作する代わりに、音声認識装置２を用いて音声で入力することが可能なように構成されている。以下、上記音声認識装置２について、図３を参照して説明する。
【００１８】
図３に示すように、音声認識装置２は、制御部１５、音声入力部２１、音声認識部２２及び音声合成部２３から構成されている。ここで、制御部１５は、音声認識装置２の動作全般を制御する機能を有している。上記制御部１５は、上記ナビゲーション装置３の制御回路７に接続されており、これにより、制御回路７との間でデータの授受を行うように構成されている。
【００１９】
また、音声入力部２１は、ユーザーが発した音声をマイク４を介して入力し、音声データ（例えばデジタルデータ）を音声認識部２２へ出力するように構成されている。この場合、音声入力部２１は、ユーザーが例えばＰＴＴスイッチ５を押し下げ操作すると、音声データを音声認識部２２へ出力するように構成されている。これにより、ユーザーが発した音声の音声認識処理が実行されるように構成されている。
【００２０】
音声認識部２２は、上記音声入力部２１から与えられた音声データ（入力した音声）を制御部１５からの指示に従って音声認識処理を行い、その音声認識結果を制御部１５へ出力するように構成されている。上記音声認識部２２は、具体的には、図４に示すように、照合部２４及び辞書部２５から構成されている。上記辞書部２５には、認識対象語彙（即ち、比較対象パターン候補のデータ）及びこの認識対象語彙のツリー構造（周知のデータ構造）から構成された辞書データが記憶されている。
【００２１】
また、照合部２４は、音声入力部２１から与えられた音声データに対して、上記辞書部２５に記憶されている辞書データを用いて照合（認識）を行うように構成されている。この場合、まず、音声データと辞書データ内の複数の比較対象パターン候補とを比較して類似度（即ち、両者の一致度合いを計算した値）を計算する。尚、この類似度を計算する処理は、既に知られている照合処理用の制御プログラム（アルゴリズム）を使用して実行されるようになっている。そして、照合部２４は、類似度が最も高い比較対象パターン候補（認識対象語彙）を、認識結果として制御部１５へ出力するように構成されている。尚、類似度の値を、優先認識情報例えば現在位置（前記位置検出器８により検出された現在位置）の情報や、制御部１５内に設けられた記憶部２６（図４参照）に記憶されている所定の調整ルールに基づいて適宜増減するように構成しても良い。
【００２２】
また、音声合成部２３は、発声させたい音声を表わすデータ（例えば仮名文字等から構成されたテキストデータ）を制御部１５から受けると、この音声データから音声を合成するように構成されている。そして、音声合成部２３は、上記合成した音声をスピーカ６から出力して発声させるように構成されている。
【００２３】
次に、上記構成の作用、具体的には、認識率が高くなる発声パターンをユーザーが探し出す場合の動作（即ち、発声パターン確認メニューの動作）について、図５及び図６も参照して説明する。図５のフローチャートは、音声認識装置２を動作させる制御プログラムのうちの、発声パターン確認メニュー（発声パターン確認モードと呼んでも良い）の音声認識処理を実行する制御部分の内容を示している。
【００２４】
まず、ユーザーは、表示装置１２にメニュー選択画面（図示しない）を表示させると共に、このメニュー選択画面において上記発声パターン確認メニューを選択する。そして、この発声パターン確認メニューが選択されて実行された状態で、ユーザーがＰＴＴスイッチ５を押すと、図５のステップＳ１にて「ＹＥＳ」へ進み、音声認識装置２は、ユーザーが発声する音声を受け付け可能な状態となり、例えば「ピッ」というようなｂｅｅｐ音を発生してユーザーに報知する。これにより、ユーザーは、音声入力可能な状態になったことがわかる。
【００２５】
そこで、ユーザーは、マイク４に向かって、音声認識させたい１つの語彙（言葉）について、複数の発声パターンで発声する。このとき、ユーザーは、複数の発声パターンの各間に若干の長さの時間の無音部（例えばブレスまたは息継ぎ等）をおいて連呼する。即ち、無音部が複数の発声パターンの区切りとなっている。この場合、例えば、図６に示すように、「とうきょうとちょう」という１つの語彙を、複数の発声パターン、例えば、「普通の声で」、「ややゆっくり」、「低く太い声」、「高い声」、「早口」、「やさしい声」で発声する。尚、発声パターンとしては、上記各例に限られるものではなく、例えば、「男性っぽく」、「女性っぽく」、「柔らかく」、「堅く」、「太く」、「細く」、「だみ声」、「泣き声」、「しゃがれ声」、「すんだ声」などでも良く、更に他の発声パターンでも良い。
【００２６】
そして、ユーザーが発したこれら複数の音声パターンの音声は、マイク４を介して入力され、音声データが音声認識部２２へ出力される。これにより、音声認識装置２内に音声入力が取得されていく。そして、予め決められた所定時間以上の無音部（上記区切りの無音部よりも長い時間の無音部）を検出すると、音声認識装置２は、ユーザーからの入力が完了したものと判定し、音声認識処理を実行する。
【００２７】
具体的には、まず、図５のステップＳ２において、音声データを入力（入力語を獲得）すると共に、この音声データを無音部を区切りとして複数の音声データ（即ち、複数の発声パターン）に切り出す。続いて、ステップＳ３へ進み、この切り出された複数の音声データに対して、１つずつ順に、音声認識処理を実行する。そして、ステップＳ４へ進み、音声認識結果を表示装置１２に表示する。
【００２８】
次に、ステップＳ５へ進み、切り出された音声データ（入力された音声データ）の中で音声認識されていないものが残っているか否かを判断する。ここで、残っている場合には、「ＹＥＳ」へ進み、ステップＳ３へ進み、音声認識処理を繰り返し実行する。これにより、切り出された音声データが全て音声認識されて、音声認識結果が表示されるまで、音声認識処理が繰り返し実行されるように構成されている。
【００２９】
この結果、図６の右側部分に示すように、ユーザーが発声した複数の発声パターンの音声認識結果の一覧表が、表示装置１２に表示される。この場合、音声認識結果の表示順序（左端の数字）が、ユーザーの発声パターンの発声順序に対応している。尚、発声パターン（音声認識結果）の個数が多くて、表示装置１２に１度に全て表示できないときには、画面スクロール操作等を行うことにより、表示できるように構成されている。
【００３０】
このような構成の本実施例によれば、ユーザーは、表示装置１２に表示された複数の発声パターンの音声認識結果を見ることにより、認識率が高くなる発声パターンを容易に探し出すことができる。
【００３１】
尚、上記実施例では、複数の発声パターンの音声認識結果を表示装置１２に表示するように構成したが、これに代えて、音声認識結果をトークバック（合成音声）でユーザーに報知するように構成しても良い。この場合、音声出力手段が報知手段を構成している。また、上記実施例では、１つの発声パターンに対して１つの音声認識結果を出力して報知するように構成したが、１つの発声パターンに対して複数の音声認識結果を出力して報知するように構成しても良い。
【００３２】
一方、上記実施例においては、ユーザーが複数の発声パターンを発声する場合に、複数の発声パターンの区切りを無音部で指定するように構成したが、これに限られるものではなく、ＰＴＴスイッチを押すことにより、複数の発声パターンの区切りを指定するように構成しても良い。即ち、この構成の場合、複数の発声パターンの区切りの部分で、ユーザーは、ＰＴＴスイッチを押すように操作すれば良い。尚、ＰＴＴスイッチの代わりに、他の操作スイッチ（専用スイッチでも良い）を押すことにより、複数の発声パターンの区切りを指定するように構成しても良い。
【００３３】
また、上記実施例では、ユーザーが発声した複数の発声パターンを、全て音声認識した後、全ての音声認識結果を表示装置１２に表示するように構成したが、これに代えて、ユーザーが発声した複数の発声パターンについて、切り出した音声データを１つずつ音声認識するたびに、その音声認識結果を表示装置１２に表示する、即ち、音声データを切り出すたびに、その都度、音声認識を実行すると共にその音声認識結果を表示装置１２に表示するように構成しても良い。
【００３４】
更に、上記実施例においては、ユーザーからの音声入力を受け付け開始してから、所定時間以上の無音部（区切りの無音部よりも長い時間の無音部）を検出したときに、ユーザーからの音声入力が完了したと判断するように構成したが、これに限られるものではなく、例えば、ユーザーがＰＴＴスイッチ５を押して、ユーザーからの音声入力を受け付け開始した後、ユーザーがＰＴＴスイッチ５を再び押したときに、ユーザーからの音声入力が完了したと判断するように構成しても良い。
【００３５】
また、ユーザーがＰＴＴスイッチ５を押し続けた状態のときだけ、ユーザーからの音声入力を受け付けるように構成し、ユーザーがＰＴＴスイッチ５を押すことを止めたら、ユーザーからの音声入力が完了したと判断するように構成しても良い。この構成の場合、複数の発声パターンの区切りは、上記実施例と同様にして、無音部で実現するように構成することが好ましい。
【００３６】
更に、上記実施例では、カーナビゲーションシステム１に組み込まれた音声認識装置２に適用したが、これに限られるものではなく、携帯型ナビゲーションシステムやその他の電気機器等に組み込まれた音声認識装置に適用しても良い。
【図面の簡単な説明】
【図１】本発明の一実施例を示すカーナビゲーションシステムのブロック図
【図２】ナビゲーション装置のブロック図
【図３】音声認識装置のブロック図
【図４】音声認識部及び制御部のブロック図
【図５】フローチャート
【図６】ユーザーが複数の発声パターンで発声する様子と、音声認識結果を表示装置に表示した様子とを示す図
【符号の説明】
１はカーナビゲーションシステム、２は音声認識装置、３はナビゲーション装置、４はマイク、５はＰＴＴスイッチ、７は制御回路、１２は表示装置（報知手段）、１５は制御部、２１は音声入力部、２２は音声認識部、２３は音声合成部、２４は照合部、２５は辞書部を示す。

Claims

ユーザーが発声した音声を入力し、この入力した音声と、記憶されている複数の比較対象パターン候補とを比較して一致度が高いものを認識結果とするように構成された音声認識装置において、
音声認識させたい１つの語彙について、ユーザーが複数の発声パターンで発声したときに、これら複数の発声パターンの音声を各々入力すると共に音声認識する手段と、
これら複数の音声認識結果を前記発声された複数の音声パターンの発声順序に対応させて前記ユーザーに一覧表示する報知手段を有する発声パターン確認メニューを備えたことを特徴とする音声認識装置。
前記ユーザーが複数の発声パターンで発声する場合、連呼させると共に、無音部を前記複数の発声パターンの区切りとするように構成したことを特徴とする請求項１記載の音声認識装置。
前記ユーザーが複数の発声パターンで発声する場合、操作スイッチを押すことにより、前記複数の発声パターンの区切りとするように構成したことを特徴とする請求項１記載の音声認識装置。
前記報知手段は、前記複数の音声認識結果を表示するディスプレイであることを特徴とする請求項１ないし３のいずれかに記載の音声認識装置。