JP2003150192A

JP2003150192A - 音声認識装置

Info

Publication number: JP2003150192A
Application number: JP2001343091A
Authority: JP
Inventors: Hidehiko Kawakami; 英彦川上
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2001-11-08
Filing date: 2001-11-08
Publication date: 2003-05-23
Anticipated expiration: 2021-11-08
Also published as: JP4093394B2

Abstract

(57)【要約】【課題】認識率が高くなる発声パターンを比較的容易
に探し出すことが可能なようにする。【解決手段】本発明の音声認識装置は、入力した音声
と、記憶されている複数の比較対象パターン候補とを比
較して一致度が高いものを認識結果とするように構成さ
れたものにおいて、音声認識させたい１つの語彙につい
て、ユーザーが複数の発声パターンで発声したときに、
これら複数の発声パターンの音声を入力すると共に音声
認識し、これら複数の音声認識結果をユーザーに報知す
る報知手段を有する発声パターン確認メニューを備える
ように構成したものである。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、例えばナビゲーシ
ョンシステムに組み込むのに好適する装置であって、ナ
ビゲーションシステムにコマンドや目的地等を入力する
場合に音声による入力を可能にする音声認識装置に関す
る。

【０００２】

【従来の技術】この種の音声認識装置においては、ユー
ザーが発声した音声を入力し、この入力した音声と、認
識辞書に記憶されている複数の比較対象パターン候補と
を比較（照合）して、一致度が高いものを認識結果とし
て出力するように構成されている。このような構成の音
声認識装置をナビゲーションシステムに組み込むと、ナ
ビゲーションシステムにコマンドや目的地等を入力する
場合に、音声による入力が可能となる。これにより、ナ
ビゲーションシステムを音声によって操作可能となるの
で、運転中のユーザーにとっても利用し易い装置とな
る。

【０００３】

【発明が解決しようとする課題】ところで、上記した構
成の音声認識装置の場合、ユーザーがある１つの言葉を
発声する場合に、発声の仕方（即ち、発声パターン）を
変えると、認識率が変動する場合がある。

【０００４】このため、ユーザーは、音声認識装置を実
際に使用するときに、試行錯誤的に発声パターンをいろ
いろ変えて、例えば、高い声にしたり、低い声にした
り、早口で発声したり、ゆっくり発声したりして、認識
率が高くなる発声パターンを探ることがある。しかし、
このような試行錯誤的な方法では、認識率が高くなる発
声パターンを探り出すのに効率が悪かった。

【０００５】そこで、本発明の目的は、認識率が高くな
る発声パターンを比較的容易に探し出すことができる音
声認識装置を提供することにある。

【０００６】

【課題を解決するための手段】請求項１の発明によれ
ば、音声認識させたい１つの語彙について、ユーザーが
複数の発声パターンで発声したときに、これら複数の発
声パターンの音声を入力すると共に音声認識して、これ
ら複数の音声認識結果を前記ユーザーに報知する報知手
段を有する発声パターン確認メニューを備えたので、こ
のメニューを実行することにより、ユーザーは、認識率
が高くなる発声パターンを比較的容易に探し出すことが
できる。

【０００７】請求項２の発明によれば、ユーザーが複数
の発声パターンで発声する場合、連呼させると共に、無
音部を前記複数の発声パターンの区切りとするように構
成したので、複数の発声パターンの音声を連続的に入力
して音声認識させることができ、使い勝手が良くなる。

【０００８】また、請求項３の発明のように、ユーザー
が複数の発声パターンで発声する場合に、操作スイッチ
を押すことにより、前記複数の発声パターンの区切りと
するように構成することが好ましい。

【０００９】請求項４の発明によれば、前記報知手段
を、前記複数の音声認識結果を表示するディスプレイで
構成したので、ユーザーは、ディスプレイに表示された
複数の音声認識結果を視認することにより、認識率が高
くなる発声パターンを探し出すことができる。

【００１０】

【発明の実施の形態】以下、本発明をカーナビゲーショ
ンシステムに適用した一実施例について図面を参照しな
がら説明する。まず、図１はカーナビゲーションシステ
ム１の全体構成を概略的に示すブロック図である。この
図１に示すように、カーナビゲーションシステム１は、
音声認識装置２とナビゲーション装置３とを備えて構成
されている。上記音声認識装置２には、マイク４とＰＴ
Ｔ（Push-To-Talk）スイッチ５とスピーカ６とが接続さ
れている。

【００１１】また、ナビゲーション装置３の具体的構成
を、図２に示す。この図２において、ナビゲーション装
置３の制御回路７は、マイクロコンピュータを含んで構
成されており、ナビゲーション装置３の運転全般を制御
する機能を有している。この制御回路７には、位置検出
器８、地図データ入力器９、操作スイッチ群１０、外部
メモリ１１、表示装置（ディスプレイ）１２、リモコン
センサ１３、送受信機１４が接続されている。更に、制
御回路７には、上記音声入力装置２（の制御部１５（図
４参照））が接続されている。

【００１２】ここで、位置検出器８は、地磁気センサ１
６、ジャイロスコープ１７、距離センサ１８、ＧＰＳ受
信機１９を組み合わせたもので構成されている。尚、位
置検出器８を、地磁気センサ１６、ジャイロスコープ１
７、距離センサ１８、ＧＰＳ受信機１９の一部で構成し
ても良い。また、ステアリングの回転センサや転動輪の
回転センサ（いずれも図示しない）等を組み合せるよう
に構成しても良い。上記位置検出器８は、本実施例のカ
ーナビゲーションシステム１を搭載した車両の現在位置
を検出して現在位置検出信号を出力するように構成され
ている。

【００１３】また、地図データ入力器９は、地図データ
やマップマッチングデータ等を入力するための装置であ
る。上記地図データ等のデータは、例えばＣＤ−ＲＯＭ
やＤＶＤ−ＲＯＭなどからなる記録媒体に記録されてい
る。尚、ハードディスクやメモリカード等に記録するよ
うに構成しても良い。

【００１４】表示装置（報知手段）１２は、例えば液晶
ディスプレイ等で構成されており、カラー表示が可能で
地図等を明確に表示できると共に、現在位置マークや誘
導経路付加データ等を地図上に重ねて表示できるもので
ある。操作スイッチ群１０は、上記表示装置１２の画面
の上面に設けられたタッチスイッチ（タッチパネル）
と、上記画面の周辺部に設けられたメカニカルなプッシ
ュスイッチ等から構成されている。

【００１５】また、リモコンセンサ１３は、ユーザーに
より操作されるリモコン１３ａから送信された送信信号
を受信する受信機である。送受信機１４は、道路に設置
されたＶＩＣＳセンサ２０との間でデータを送受信する
機能を有していると共に、自動車電話網や携帯電話網等
を介してインターネットにアクセスする機能等も有して
いる。

【００１６】そして、制御回路７は、ユーザーが操作ス
イッチ群１０やリモコン１３ａを操作することにより目
的地を設定したときに、現在位置からその目的地までの
最適経路を自動的に選択設定する機能や、現在位置を地
図上に位置付けるマップマッチング処理を実行する機能
等を有している。

【００１７】また、上記目的地等を設定する場合に、ユ
ーザーは、操作スイッチ群１０やリモコン１３ａを操作
する代わりに、音声認識装置２を用いて音声で入力する
ことが可能なように構成されている。以下、上記音声認
識装置２について、図３を参照して説明する。

【００１８】図３に示すように、音声認識装置２は、制
御部１５、音声入力部２１、音声認識部２２及び音声合
成部２３から構成されている。ここで、制御部１５は、
音声認識装置２の動作全般を制御する機能を有してい
る。上記制御部１５は、上記ナビゲーション装置３の制
御回路７に接続されており、これにより、制御回路７と
の間でデータの授受を行うように構成されている。

【００１９】また、音声入力部２１は、ユーザーが発し
た音声をマイク４を介して入力し、音声データ（例えば
デジタルデータ）を音声認識部２２へ出力するように構
成されている。この場合、音声入力部２１は、ユーザー
が例えばＰＴＴスイッチ５を押し下げ操作すると、音声
データを音声認識部２２へ出力するように構成されてい
る。これにより、ユーザーが発した音声の音声認識処理
が実行されるように構成されている。

【００２０】音声認識部２２は、上記音声入力部２１か
ら与えられた音声データ（入力した音声）を制御部１５
からの指示に従って音声認識処理を行い、その音声認識
結果を制御部１５へ出力するように構成されている。上
記音声認識部２２は、具体的には、図４に示すように、
照合部２４及び辞書部２５から構成されている。上記辞
書部２５には、認識対象語彙（即ち、比較対象パターン
候補のデータ）及びこの認識対象語彙のツリー構造（周
知のデータ構造）から構成された辞書データが記憶され
ている。

【００２１】また、照合部２４は、音声入力部２１から
与えられた音声データに対して、上記辞書部２５に記憶
されている辞書データを用いて照合（認識）を行うよう
に構成されている。この場合、まず、音声データと辞書
データ内の複数の比較対象パターン候補とを比較して類
似度（即ち、両者の一致度合いを計算した値）を計算す
る。尚、この類似度を計算する処理は、既に知られてい
る照合処理用の制御プログラム（アルゴリズム）を使用
して実行されるようになっている。そして、照合部２４
は、類似度が最も高い比較対象パターン候補（認識対象
語彙）を、認識結果として制御部１５へ出力するように
構成されている。尚、類似度の値を、優先認識情報例え
ば現在位置（前記位置検出器８により検出された現在位
置）の情報や、制御部１５内に設けられた記憶部２６
（図４参照）に記憶されている所定の調整ルールに基づ
いて適宜増減するように構成しても良い。

【００２２】また、音声合成部２３は、発声させたい音
声を表わすデータ（例えば仮名文字等から構成されたテ
キストデータ）を制御部１５から受けると、この音声デ
ータから音声を合成するように構成されている。そし
て、音声合成部２３は、上記合成した音声をスピーカ６
から出力して発声させるように構成されている。

【００２３】次に、上記構成の作用、具体的には、認識
率が高くなる発声パターンをユーザーが探し出す場合の
動作（即ち、発声パターン確認メニューの動作）につい
て、図５及び図６も参照して説明する。図５のフローチ
ャートは、音声認識装置２を動作させる制御プログラム
のうちの、発声パターン確認メニュー（発声パターン確
認モードと呼んでも良い）の音声認識処理を実行する制
御部分の内容を示している。

【００２４】まず、ユーザーは、表示装置１２にメニュ
ー選択画面（図示しない）を表示させると共に、このメ
ニュー選択画面において上記発声パターン確認メニュー
を選択する。そして、この発声パターン確認メニューが
選択されて実行された状態で、ユーザーがＰＴＴスイッ
チ５を押すと、図５のステップＳ１にて「ＹＥＳ」へ進
み、音声認識装置２は、ユーザーが発声する音声を受け
付け可能な状態となり、例えば「ピッ」というようなｂ
ｅｅｐ音を発生してユーザーに報知する。これにより、
ユーザーは、音声入力可能な状態になったことがわか
る。

【００２５】そこで、ユーザーは、マイク４に向かっ
て、音声認識させたい１つの語彙（言葉）について、複
数の発声パターンで発声する。このとき、ユーザーは、
複数の発声パターンの各間に若干の長さの時間の無音部
（例えばブレスまたは息継ぎ等）をおいて連呼する。即
ち、無音部が複数の発声パターンの区切りとなってい
る。この場合、例えば、図６に示すように、「とうきょ
うとちょう」という１つの語彙を、複数の発声パター
ン、例えば、「普通の声で」、「ややゆっくり」、「低
く太い声」、「高い声」、「早口」、「やさしい声」で
発声する。尚、発声パターンとしては、上記各例に限ら
れるものではなく、例えば、「男性っぽく」、「女性っ
ぽく」、「柔らかく」、「堅く」、「太く」、「細
く」、「だみ声」、「泣き声」、「しゃがれ声」、「す
んだ声」などでも良く、更に他の発声パターンでも良
い。

【００２６】そして、ユーザーが発したこれら複数の音
声パターンの音声は、マイク４を介して入力され、音声
データが音声認識部２２へ出力される。これにより、音
声認識装置２内に音声入力が取得されていく。そして、
予め決められた所定時間以上の無音部（上記区切りの無
音部よりも長い時間の無音部）を検出すると、音声認識
装置２は、ユーザーからの入力が完了したものと判定
し、音声認識処理を実行する。

【００２７】具体的には、まず、図５のステップＳ２に
おいて、音声データを入力（入力語を獲得）すると共
に、この音声データを無音部を区切りとして複数の音声
データ（即ち、複数の発声パターン）に切り出す。続い
て、ステップＳ３へ進み、この切り出された複数の音声
データに対して、１つずつ順に、音声認識処理を実行す
る。そして、ステップＳ４へ進み、音声認識結果を表示
装置１２に表示する。

【００２８】次に、ステップＳ５へ進み、切り出された
音声データ（入力された音声データ）の中で音声認識さ
れていないものが残っているか否かを判断する。ここ
で、残っている場合には、「ＹＥＳ」へ進み、ステップ
Ｓ３へ進み、音声認識処理を繰り返し実行する。これに
より、切り出された音声データが全て音声認識されて、
音声認識結果が表示されるまで、音声認識処理が繰り返
し実行されるように構成されている。

【００２９】この結果、図６の右側部分に示すように、
ユーザーが発声した複数の発声パターンの音声認識結果
の一覧表が、表示装置１２に表示される。この場合、音
声認識結果の表示順序（左端の数字）が、ユーザーの発
声パターンの発声順序に対応している。尚、発声パター
ン（音声認識結果）の個数が多くて、表示装置１２に１
度に全て表示できないときには、画面スクロール操作等
を行うことにより、表示できるように構成されている。

【００３０】このような構成の本実施例によれば、ユー
ザーは、表示装置１２に表示された複数の発声パターン
の音声認識結果を見ることにより、認識率が高くなる発
声パターンを容易に探し出すことができる。

【００３１】尚、上記実施例では、複数の発声パターン
の音声認識結果を表示装置１２に表示するように構成し
たが、これに代えて、音声認識結果をトークバック（合
成音声）でユーザーに報知するように構成しても良い。
この場合、音声出力手段が報知手段を構成している。ま
た、上記実施例では、１つの発声パターンに対して１つ
の音声認識結果を出力して報知するように構成したが、
１つの発声パターンに対して複数の音声認識結果を出力
して報知するように構成しても良い。

【００３２】一方、上記実施例においては、ユーザーが
複数の発声パターンを発声する場合に、複数の発声パタ
ーンの区切りを無音部で指定するように構成したが、こ
れに限られるものではなく、ＰＴＴスイッチを押すこと
により、複数の発声パターンの区切りを指定するように
構成しても良い。即ち、この構成の場合、複数の発声パ
ターンの区切りの部分で、ユーザーは、ＰＴＴスイッチ
を押すように操作すれば良い。尚、ＰＴＴスイッチの代
わりに、他の操作スイッチ（専用スイッチでも良い）を
押すことにより、複数の発声パターンの区切りを指定す
るように構成しても良い。

【００３３】また、上記実施例では、ユーザーが発声し
た複数の発声パターンを、全て音声認識した後、全ての
音声認識結果を表示装置１２に表示するように構成した
が、これに代えて、ユーザーが発声した複数の発声パタ
ーンについて、切り出した音声データを１つずつ音声認
識するたびに、その音声認識結果を表示装置１２に表示
する、即ち、音声データを切り出すたびに、その都度、
音声認識を実行すると共にその音声認識結果を表示装置
１２に表示するように構成しても良い。

【００３４】更に、上記実施例においては、ユーザーか
らの音声入力を受け付け開始してから、所定時間以上の
無音部（区切りの無音部よりも長い時間の無音部）を検
出したときに、ユーザーからの音声入力が完了したと判
断するように構成したが、これに限られるものではな
く、例えば、ユーザーがＰＴＴスイッチ５を押して、ユ
ーザーからの音声入力を受け付け開始した後、ユーザー
がＰＴＴスイッチ５を再び押したときに、ユーザーから
の音声入力が完了したと判断するように構成しても良
い。

【００３５】また、ユーザーがＰＴＴスイッチ５を押し
続けた状態のときだけ、ユーザーからの音声入力を受け
付けるように構成し、ユーザーがＰＴＴスイッチ５を押
すことを止めたら、ユーザーからの音声入力が完了した
と判断するように構成しても良い。この構成の場合、複
数の発声パターンの区切りは、上記実施例と同様にし
て、無音部で実現するように構成することが好ましい。

【００３６】更に、上記実施例では、カーナビゲーショ
ンシステム１に組み込まれた音声認識装置２に適用した
が、これに限られるものではなく、携帯型ナビゲーショ
ンシステムやその他の電気機器等に組み込まれた音声認
識装置に適用しても良い。

【図面の簡単な説明】

【図１】本発明の一実施例を示すカーナビゲーションシ
ステムのブロック図

【図２】ナビゲーション装置のブロック図

【図３】音声認識装置のブロック図

【図４】音声認識部及び制御部のブロック図

【図５】フローチャート

【図６】ユーザーが複数の発声パターンで発声する様子
と、音声認識結果を表示装置に表示した様子とを示す図

【符号の説明】

１はカーナビゲーションシステム、２は音声認識装置、
３はナビゲーション装置、４はマイク、５はＰＴＴスイ
ッチ、７は制御回路、１２は表示装置（報知手段）、１
５は制御部、２１は音声入力部、２２は音声認識部、２
３は音声合成部、２４は照合部、２５は辞書部を示す。

フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/04 Ｇ１０Ｌ 3/00 ５５１Ｑ 15/28 ５１３Ａ // Ｇ０１Ｃ 21/00 ５７１ＫＧ０８Ｇ 1/0969 Ｆターム(参考） 2C032 HB22 HC08 HC14 HC15 HC16 HC31 HD03 HD16 HD30 2F029 AA02 AA07 AB01 AB07 AB09 AB13 AC02 AC09 AC14 AC18 AD01 5D015 DD00 GG03 KK02 LL05 LL10 5H180 AA01 AA21 BB12 BB13 CC12 FF04 FF05 FF07 FF22 FF25 FF27 FF33 FF35

Claims

【特許請求の範囲】

【請求項１】ユーザーが発声した音声を入力し、この
入力した音声と、記憶されている複数の比較対象パター
ン候補とを比較して一致度が高いものを認識結果とする
ように構成された音声認識装置において、音声認識させたい１つの語彙について、ユーザーが複数
の発声パターンで発声したときに、これら複数の発声パ
ターンの音声を入力すると共に音声認識し、これら複数
の音声認識結果を前記ユーザーに報知する報知手段を有
する発声パターン確認メニューを備えたことを特徴とす
る音声認識装置。
【請求項２】前記ユーザーが複数の発声パターンで発
声する場合、連呼させると共に、無音部を前記複数の発
声パターンの区切りとするように構成したことを特徴と
する請求項１記載の音声認識装置。
【請求項３】前記ユーザーが複数の発声パターンで発
声する場合、操作スイッチを押すことにより、前記複数
の発声パターンの区切りとするように構成したことを特
徴とする請求項１記載の音声認識装置。
【請求項４】前記報知手段は、前記複数の音声認識結
果を表示するディスプレイであることを特徴とする請求
項１ないし３のいずれかに記載の音声認識装置。