JP4093394B2 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP4093394B2
JP4093394B2 JP2001343091A JP2001343091A JP4093394B2 JP 4093394 B2 JP4093394 B2 JP 4093394B2 JP 2001343091 A JP2001343091 A JP 2001343091A JP 2001343091 A JP2001343091 A JP 2001343091A JP 4093394 B2 JP4093394 B2 JP 4093394B2
Authority
JP
Japan
Prior art keywords
voice
utterance
user
patterns
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001343091A
Other languages
English (en)
Other versions
JP2003150192A (ja
Inventor
英彦 川上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP2001343091A priority Critical patent/JP4093394B2/ja
Publication of JP2003150192A publication Critical patent/JP2003150192A/ja
Application granted granted Critical
Publication of JP4093394B2 publication Critical patent/JP4093394B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Traffic Control Systems (AREA)
  • Instructional Devices (AREA)
  • Navigation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、例えばナビゲーションシステムに組み込むのに好適する装置であって、ナビゲーションシステムにコマンドや目的地等を入力する場合に音声による入力を可能にする音声認識装置に関する。
【0002】
【従来の技術】
この種の音声認識装置においては、ユーザーが発声した音声を入力し、この入力した音声と、認識辞書に記憶されている複数の比較対象パターン候補とを比較(照合)して、一致度が高いものを認識結果として出力するように構成されている。このような構成の音声認識装置をナビゲーションシステムに組み込むと、ナビゲーションシステムにコマンドや目的地等を入力する場合に、音声による入力が可能となる。これにより、ナビゲーションシステムを音声によって操作可能となるので、運転中のユーザーにとっても利用し易い装置となる。
【0003】
【発明が解決しようとする課題】
ところで、上記した構成の音声認識装置の場合、ユーザーがある1つの言葉を発声する場合に、発声の仕方(即ち、発声パターン)を変えると、認識率が変動する場合がある。
【0004】
このため、ユーザーは、音声認識装置を実際に使用するときに、試行錯誤的に発声パターンをいろいろ変えて、例えば、高い声にしたり、低い声にしたり、早口で発声したり、ゆっくり発声したりして、認識率が高くなる発声パターンを探ることがある。しかし、このような試行錯誤的な方法では、認識率が高くなる発声パターンを探り出すのに効率が悪かった。
【0005】
そこで、本発明の目的は、認識率が高くなる発声パターンを比較的容易に探し出すことができる音声認識装置を提供することにある。
【0006】
【課題を解決するための手段】
請求項1の発明によれば、音声認識させたい1つの語彙について、ユーザーが複数の発声パターンで発声したときに、これら複数の発声パターンの音声を各々入力すると共に音声認識する手段と、これら複数の音声認識結果を前記発声された複数の音声パターンの発声順序に対応させて前記ユーザーに一覧表示する報知手段を有する発声パターン確認メニューを備えたので、このメニューを実行することにより、ユーザーは、認識率が高くなる発声パターンを比較的容易に探し出すことができる。
【0007】
請求項2の発明によれば、ユーザーが複数の発声パターンで発声する場合、連呼させると共に、無音部を前記複数の発声パターンの区切りとするように構成したので、複数の発声パターンの音声を連続的に入力して音声認識させることができ、使い勝手が良くなる。
【0008】
また、請求項3の発明のように、ユーザーが複数の発声パターンで発声する場合に、操作スイッチを押すことにより、前記複数の発声パターンの区切りとするように構成することが好ましい。
【0009】
請求項4の発明によれば、前記報知手段を、前記複数の音声認識結果を表示するディスプレイで構成したので、ユーザーは、ディスプレイに表示された複数の音声認識結果を視認することにより、認識率が高くなる発声パターンを探し出すことができる。
【0010】
【発明の実施の形態】
以下、本発明をカーナビゲーションシステムに適用した一実施例について図面を参照しながら説明する。まず、図1はカーナビゲーションシステム1の全体構成を概略的に示すブロック図である。この図1に示すように、カーナビゲーションシステム1は、音声認識装置2とナビゲーション装置3とを備えて構成されている。上記音声認識装置2には、マイク4とPTT(Push-To-Talk)スイッチ5とスピーカ6とが接続されている。
【0011】
また、ナビゲーション装置3の具体的構成を、図2に示す。この図2において、ナビゲーション装置3の制御回路7は、マイクロコンピュータを含んで構成されており、ナビゲーション装置3の運転全般を制御する機能を有している。この制御回路7には、位置検出器8、地図データ入力器9、操作スイッチ群10、外部メモリ11、表示装置(ディスプレイ)12、リモコンセンサ13、送受信機14が接続されている。更に、制御回路7には、上記音声入力装置2(の制御部15(図4参照))が接続されている。
【0012】
ここで、位置検出器8は、地磁気センサ16、ジャイロスコープ17、距離センサ18、GPS受信機19を組み合わせたもので構成されている。尚、位置検出器8を、地磁気センサ16、ジャイロスコープ17、距離センサ18、GPS受信機19の一部で構成しても良い。また、ステアリングの回転センサや転動輪の回転センサ(いずれも図示しない)等を組み合せるように構成しても良い。上記位置検出器8は、本実施例のカーナビゲーションシステム1を搭載した車両の現在位置を検出して現在位置検出信号を出力するように構成されている。
【0013】
また、地図データ入力器9は、地図データやマップマッチングデータ等を入力するための装置である。上記地図データ等のデータは、例えばCD−ROMやDVD−ROMなどからなる記録媒体に記録されている。尚、ハードディスクやメモリカード等に記録するように構成しても良い。
【0014】
表示装置(報知手段)12は、例えば液晶ディスプレイ等で構成されており、カラー表示が可能で地図等を明確に表示できると共に、現在位置マークや誘導経路付加データ等を地図上に重ねて表示できるものである。操作スイッチ群10は、上記表示装置12の画面の上面に設けられたタッチスイッチ(タッチパネル)と、上記画面の周辺部に設けられたメカニカルなプッシュスイッチ等から構成されている。
【0015】
また、リモコンセンサ13は、ユーザーにより操作されるリモコン13aから送信された送信信号を受信する受信機である。送受信機14は、道路に設置されたVICSセンサ20との間でデータを送受信する機能を有していると共に、自動車電話網や携帯電話網等を介してインターネットにアクセスする機能等も有している。
【0016】
そして、制御回路7は、ユーザーが操作スイッチ群10やリモコン13aを操作することにより目的地を設定したときに、現在位置からその目的地までの最適経路を自動的に選択設定する機能や、現在位置を地図上に位置付けるマップマッチング処理を実行する機能等を有している。
【0017】
また、上記目的地等を設定する場合に、ユーザーは、操作スイッチ群10やリモコン13aを操作する代わりに、音声認識装置2を用いて音声で入力することが可能なように構成されている。以下、上記音声認識装置2について、図3を参照して説明する。
【0018】
図3に示すように、音声認識装置2は、制御部15、音声入力部21、音声認識部22及び音声合成部23から構成されている。ここで、制御部15は、音声認識装置2の動作全般を制御する機能を有している。上記制御部15は、上記ナビゲーション装置3の制御回路7に接続されており、これにより、制御回路7との間でデータの授受を行うように構成されている。
【0019】
また、音声入力部21は、ユーザーが発した音声をマイク4を介して入力し、音声データ(例えばデジタルデータ)を音声認識部22へ出力するように構成されている。この場合、音声入力部21は、ユーザーが例えばPTTスイッチ5を押し下げ操作すると、音声データを音声認識部22へ出力するように構成されている。これにより、ユーザーが発した音声の音声認識処理が実行されるように構成されている。
【0020】
音声認識部22は、上記音声入力部21から与えられた音声データ(入力した音声)を制御部15からの指示に従って音声認識処理を行い、その音声認識結果を制御部15へ出力するように構成されている。上記音声認識部22は、具体的には、図4に示すように、照合部24及び辞書部25から構成されている。上記辞書部25には、認識対象語彙(即ち、比較対象パターン候補のデータ)及びこの認識対象語彙のツリー構造(周知のデータ構造)から構成された辞書データが記憶されている。
【0021】
また、照合部24は、音声入力部21から与えられた音声データに対して、上記辞書部25に記憶されている辞書データを用いて照合(認識)を行うように構成されている。この場合、まず、音声データと辞書データ内の複数の比較対象パターン候補とを比較して類似度(即ち、両者の一致度合いを計算した値)を計算する。尚、この類似度を計算する処理は、既に知られている照合処理用の制御プログラム(アルゴリズム)を使用して実行されるようになっている。そして、照合部24は、類似度が最も高い比較対象パターン候補(認識対象語彙)を、認識結果として制御部15へ出力するように構成されている。尚、類似度の値を、優先認識情報例えば現在位置(前記位置検出器8により検出された現在位置)の情報や、制御部15内に設けられた記憶部26(図4参照)に記憶されている所定の調整ルールに基づいて適宜増減するように構成しても良い。
【0022】
また、音声合成部23は、発声させたい音声を表わすデータ(例えば仮名文字等から構成されたテキストデータ)を制御部15から受けると、この音声データから音声を合成するように構成されている。そして、音声合成部23は、上記合成した音声をスピーカ6から出力して発声させるように構成されている。
【0023】
次に、上記構成の作用、具体的には、認識率が高くなる発声パターンをユーザーが探し出す場合の動作(即ち、発声パターン確認メニューの動作)について、図5及び図6も参照して説明する。図5のフローチャートは、音声認識装置2を動作させる制御プログラムのうちの、発声パターン確認メニュー(発声パターン確認モードと呼んでも良い)の音声認識処理を実行する制御部分の内容を示している。
【0024】
まず、ユーザーは、表示装置12にメニュー選択画面(図示しない)を表示させると共に、このメニュー選択画面において上記発声パターン確認メニューを選択する。そして、この発声パターン確認メニューが選択されて実行された状態で、ユーザーがPTTスイッチ5を押すと、図5のステップS1にて「YES」へ進み、音声認識装置2は、ユーザーが発声する音声を受け付け可能な状態となり、例えば「ピッ」というようなbeep音を発生してユーザーに報知する。これにより、ユーザーは、音声入力可能な状態になったことがわかる。
【0025】
そこで、ユーザーは、マイク4に向かって、音声認識させたい1つの語彙(言葉)について、複数の発声パターンで発声する。このとき、ユーザーは、複数の発声パターンの各間に若干の長さの時間の無音部(例えばブレスまたは息継ぎ等)をおいて連呼する。即ち、無音部が複数の発声パターンの区切りとなっている。この場合、例えば、図6に示すように、「とうきょうとちょう」という1つの語彙を、複数の発声パターン、例えば、「普通の声で」、「ややゆっくり」、 「低く太い声」、「高い声」、「早口」、「やさしい声」で発声する。尚、発声パターンとしては、上記各例に限られるものではなく、例えば、「男性っぽく」、「女性っぽく」、「柔らかく」、「堅く」、「太く」、「細く」、「だみ声」、「泣き声」、「しゃがれ声」、「すんだ声」などでも良く、更に他の発声パターンでも良い。
【0026】
そして、ユーザーが発したこれら複数の音声パターンの音声は、マイク4を介して入力され、音声データが音声認識部22へ出力される。これにより、音声認識装置2内に音声入力が取得されていく。そして、予め決められた所定時間以上の無音部(上記区切りの無音部よりも長い時間の無音部)を検出すると、音声認識装置2は、ユーザーからの入力が完了したものと判定し、音声認識処理を実行する。
【0027】
具体的には、まず、図5のステップS2において、音声データを入力(入力語を獲得)すると共に、この音声データを無音部を区切りとして複数の音声データ(即ち、複数の発声パターン)に切り出す。続いて、ステップS3へ進み、この切り出された複数の音声データに対して、1つずつ順に、音声認識処理を実行する。そして、ステップS4へ進み、音声認識結果を表示装置12に表示する。
【0028】
次に、ステップS5へ進み、切り出された音声データ(入力された音声データ)の中で音声認識されていないものが残っているか否かを判断する。ここで、残っている場合には、「YES」へ進み、ステップS3へ進み、音声認識処理を繰り返し実行する。これにより、切り出された音声データが全て音声認識されて、音声認識結果が表示されるまで、音声認識処理が繰り返し実行されるように構成されている。
【0029】
この結果、図6の右側部分に示すように、ユーザーが発声した複数の発声パターンの音声認識結果の一覧表が、表示装置12に表示される。この場合、音声認識結果の表示順序(左端の数字)が、ユーザーの発声パターンの発声順序に対応している。尚、発声パターン(音声認識結果)の個数が多くて、表示装置12に1度に全て表示できないときには、画面スクロール操作等を行うことにより、表示できるように構成されている。
【0030】
このような構成の本実施例によれば、ユーザーは、表示装置12に表示された複数の発声パターンの音声認識結果を見ることにより、認識率が高くなる発声パターンを容易に探し出すことができる。
【0031】
尚、上記実施例では、複数の発声パターンの音声認識結果を表示装置12に表示するように構成したが、これに代えて、音声認識結果をトークバック(合成音声)でユーザーに報知するように構成しても良い。この場合、音声出力手段が報知手段を構成している。また、上記実施例では、1つの発声パターンに対して1つの音声認識結果を出力して報知するように構成したが、1つの発声パターンに対して複数の音声認識結果を出力して報知するように構成しても良い。
【0032】
一方、上記実施例においては、ユーザーが複数の発声パターンを発声する場合に、複数の発声パターンの区切りを無音部で指定するように構成したが、これに限られるものではなく、PTTスイッチを押すことにより、複数の発声パターンの区切りを指定するように構成しても良い。即ち、この構成の場合、複数の発声パターンの区切りの部分で、ユーザーは、PTTスイッチを押すように操作すれば良い。尚、PTTスイッチの代わりに、他の操作スイッチ(専用スイッチでも良い)を押すことにより、複数の発声パターンの区切りを指定するように構成しても良い。
【0033】
また、上記実施例では、ユーザーが発声した複数の発声パターンを、全て音声認識した後、全ての音声認識結果を表示装置12に表示するように構成したが、これに代えて、ユーザーが発声した複数の発声パターンについて、切り出した音声データを1つずつ音声認識するたびに、その音声認識結果を表示装置12に表示する、即ち、音声データを切り出すたびに、その都度、音声認識を実行すると共にその音声認識結果を表示装置12に表示するように構成しても良い。
【0034】
更に、上記実施例においては、ユーザーからの音声入力を受け付け開始してから、所定時間以上の無音部(区切りの無音部よりも長い時間の無音部)を検出したときに、ユーザーからの音声入力が完了したと判断するように構成したが、これに限られるものではなく、例えば、ユーザーがPTTスイッチ5を押して、ユーザーからの音声入力を受け付け開始した後、ユーザーがPTTスイッチ5を再び押したときに、ユーザーからの音声入力が完了したと判断するように構成しても良い。
【0035】
また、ユーザーがPTTスイッチ5を押し続けた状態のときだけ、ユーザーからの音声入力を受け付けるように構成し、ユーザーがPTTスイッチ5を押すことを止めたら、ユーザーからの音声入力が完了したと判断するように構成しても良い。この構成の場合、複数の発声パターンの区切りは、上記実施例と同様にして、無音部で実現するように構成することが好ましい。
【0036】
更に、上記実施例では、カーナビゲーションシステム1に組み込まれた音声認識装置2に適用したが、これに限られるものではなく、携帯型ナビゲーションシステムやその他の電気機器等に組み込まれた音声認識装置に適用しても良い。
【図面の簡単な説明】
【図1】本発明の一実施例を示すカーナビゲーションシステムのブロック図
【図2】ナビゲーション装置のブロック図
【図3】音声認識装置のブロック図
【図4】音声認識部及び制御部のブロック図
【図5】フローチャート
【図6】ユーザーが複数の発声パターンで発声する様子と、音声認識結果を表示装置に表示した様子とを示す図
【符号の説明】
1はカーナビゲーションシステム、2は音声認識装置、3はナビゲーション装置、4はマイク、5はPTTスイッチ、7は制御回路、12は表示装置(報知手段)、15は制御部、21は音声入力部、22は音声認識部、23は音声合成部、24は照合部、25は辞書部を示す。

Claims (4)

  1. ユーザーが発声した音声を入力し、この入力した音声と、記憶されている複数の比較対象パターン候補とを比較して一致度が高いものを認識結果とするように構成された音声認識装置において、
    音声認識させたい1つの語彙について、ユーザーが複数の発声パターンで発声したときに、これら複数の発声パターンの音声を各々入力すると共に音声認識する手段と、
    これら複数の音声認識結果を前記発声された複数の音声パターンの発声順序に対応させて前記ユーザーに一覧表示する報知手段を有する発声パターン確認メニューを備えたことを特徴とする音声認識装置。
  2. 前記ユーザーが複数の発声パターンで発声する場合、連呼させると共に、無音部を前記複数の発声パターンの区切りとするように構成したことを特徴とする請求項1記載の音声認識装置。
  3. 前記ユーザーが複数の発声パターンで発声する場合、操作スイッチを押すことにより、前記複数の発声パターンの区切りとするように構成したことを特徴とする請求項1記載の音声認識装置。
  4. 前記報知手段は、前記複数の音声認識結果を表示するディスプレイであることを特徴とする請求項1ないし3のいずれかに記載の音声認識装置。
JP2001343091A 2001-11-08 2001-11-08 音声認識装置 Expired - Fee Related JP4093394B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001343091A JP4093394B2 (ja) 2001-11-08 2001-11-08 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001343091A JP4093394B2 (ja) 2001-11-08 2001-11-08 音声認識装置

Publications (2)

Publication Number Publication Date
JP2003150192A JP2003150192A (ja) 2003-05-23
JP4093394B2 true JP4093394B2 (ja) 2008-06-04

Family

ID=19156841

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001343091A Expired - Fee Related JP4093394B2 (ja) 2001-11-08 2001-11-08 音声認識装置

Country Status (1)

Country Link
JP (1) JP4093394B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4672686B2 (ja) * 2007-02-16 2011-04-20 株式会社デンソー 音声認識装置及びナビゲーション装置
JP2009169139A (ja) * 2008-01-17 2009-07-30 Alpine Electronics Inc 音声認識装置
JP2013019958A (ja) * 2011-07-07 2013-01-31 Denso Corp 音声認識装置
JP7176011B2 (ja) * 2018-06-26 2022-11-21 グーグル エルエルシー デジタルアシスタントアプリケーションとナビゲーションアプリケーションとの間のインターフェーシング

Also Published As

Publication number Publication date
JP2003150192A (ja) 2003-05-23

Similar Documents

Publication Publication Date Title
US9123327B2 (en) Voice recognition apparatus for recognizing a command portion and a data portion of a voice input
EP1450349B1 (en) Vehicle-mounted control apparatus and program that causes computer to execute method of providing guidance on the operation of the vehicle-mounted control apparatus
US6937982B2 (en) Speech recognition apparatus and method using two opposite words
JP4736982B2 (ja) 作動制御装置、プログラム
JP2007011380A (ja) 自動車インターフェース
KR19990030040A (ko) 적어도 위치 및/또는 거리 이름용의 입력 시스템
JP2006195576A (ja) 車載音声認識装置
JPH09292255A (ja) ナビゲーション方法及び装置
JP2009230068A (ja) 音声認識装置及びナビゲーションシステム
JP2016133378A (ja) カーナビゲーション装置
JP4093394B2 (ja) 音声認識装置
JP2000338993A (ja) 音声認識装置、その装置を用いたナビゲーションシステム
WO2009122773A1 (ja) 発話装置、発話制御プログラムおよび発話制御方法
JP2007101892A (ja) 音声認識装置
JP3296783B2 (ja) 車載用ナビゲーション装置および音声認識方法
JPH07319383A (ja) 地図表示装置
JP3500948B2 (ja) 音声認識装置
JP3700533B2 (ja) 音声認識装置及び処理システム
JP2007057805A (ja) 車両用情報処理装置
JP2004053620A (ja) 音声認識装置
JP2000122685A (ja) ナビゲーションシステム
JP2011180416A (ja) 音声合成装置、音声合成方法およびカーナビゲーションシステム
JP2007256643A (ja) 音声認識装置及びナビゲーションシステム
JP3911835B2 (ja) 音声認識装置及びナビゲーションシステム
JPH11305793A (ja) 音声認識装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050808

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050818

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20051115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060111

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20060209

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20060224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080228

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110314

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120314

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120314

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130314

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140314

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees