JP2004102070A

JP2004102070A - 音声認識装置及び音声認識利用のカーナビゲーション装置

Info

Publication number: JP2004102070A
Application number: JP2002265857A
Authority: JP
Inventors: Hirota Kawana; 川名　裕太
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2002-09-11
Filing date: 2002-09-11
Publication date: 2004-04-02

Abstract

【課題】音声認識の学習度の段階が現在どの程度であるかをユーザが容易に理解できるようにする。
【解決手段】入力音声波形データと標準音声波形データとを比較する音声解析部３と、その比較結果に応じて音声認識の学習度の段階を判断する学習度判断部５と、人間の生長過程に関する各段階を表す３段階のキャラクタ画像の画像データを記憶している画像メモリ６と、学習度の段階に対応する生長過程に関する段階を表すキャラクタ画像を画像メモリ６から選択して表示部８に表示する表示内容選択部７とを備えている。
【選択図】　　　　図１

Description

【０００１】
【発明の属する技術分野】
この発明は、音声認識装置及び音声認識利用のカーナビゲーション装置に関するものである。
【０００２】
【従来の技術】
一般的に音声認識の技術においては、ユーザの音声入力に応じて音声認識の学習を行いながら認識精度すなわち認識の学習度を高めていくような構成になっている。すなわち、ユーザの入力音声に対して誤まった認識があった場合には、その誤認識の元になった音声解析を改めて、より正しい認識ができるように学習するような構成になっている。
【０００３】
【発明が解決しようとする課題】
従来の音声認識の技術は以上のように構成されているので、ユーザは、音声認識の学習度の段階が現在どの程度であるかを知ることができないという課題があった。そのため、入力音声に対して誤まった認識があった場合には、装置に対する不信感や不安感が高まっていた。
【０００４】
この発明は上記のような課題を解決するためになされたもので、音声認識の学習度の段階が現在どの程度であるかをユーザが容易に理解できる音声認識装置を得ることを目的とする。
また、この発明は、カーナビゲーションに関する音声認識の学習度の段階が現在どの程度であるかをユーザが容易に理解できる音声認識利用のカーナビゲーション装置を得ることを目的とする。
【０００５】
【課題を解決するための手段】
この発明に係る音声認識装置は、入力音声から抽出した入力音声波形データを解析して所定の標準音声波形データと比較する音声解析手段と、音声解析手段による比較結果に応じて音声認識の学習度の段階を判断する学習度判断手段と、生物の生長過程に関する各段階を表す複数のキャラクタ画像の画像データを記憶している画像記憶手段と、学習度判断手段によって判断された学習度の段階に対応する生長過程に関する段階を表すキャラクタ画像を画像記憶手段から選択して所定の表示手段に表示する表示制御手段とを備えた構成にしたものである。
【０００６】
この発明に係る音声認識装置の学習度判断手段は、音声認識の学習回数が多いほど学習度の段階が高いと判断するように構成したものである。
【０００７】
この発明に係る音声認識装置の表示制御手段は、音声入力を促すメッセージとともに現在の学習度の段階に対応するキャラクタ画像を表示するように構成したものである。
【０００８】
この発明に係る音声認識利用のカーナビゲーション装置は、カーナビゲーションに関する入力音声から抽出した入力音声波形データを解析して所定の標準音声波形データと比較する音声解析手段と、音声解析手段による比較結果に応じて音声認識の学習度の段階を判断する学習度判断手段と、生物の生長過程に関する各段階を表す複数のキャラクタ画像の画像データを記憶している画像記憶手段と、画像記憶手段における複数のキャラクタ画像の中から学習度判断手段によって判断された学習度の段階に対応する段階のキャラクタ画像を選択して所定の表示手段に表示する表示制御手段とを備えたように構成したものである。
【０００９】
【発明の実施の形態】
以下、この発明の実施の一形態の構成について、図を参照しながら説明する。実施の形態１．
図１は、音声認識利用のカーナビゲーション装置における音声認識装置の構成を示す図であり、図において、１は入力音声をディジタル信号の音声波形データに変換して出力する音声入力部、２は女性モデルと男性モデル及び男性と女性の中間的な中性モデルの標準音声波形データを記憶している波形メモリ、３は音声入力部１からの入力音声波形データを波形メモリ２の標準音声波形データと比較して解析する音声解析部（音声解析手段）、４は音声認識の学習度の各段階に対応する複数の学習モデルを記憶している学習モデルメモリ、５は学習モデルメモリ４を参照して現在の音声認識の学習度を判断する学習度判断部（学習度判断手段）、６は学習モデルに対応するキャラクタ画像の画像データを記憶している画像メモリ（画像記憶手段）、７は学習度判断部５によって判断された学習モデルに対応するキャラクタ画像を画像メモリ６の中から選択して表示する表示内容選択部（表示制御手段）、８は表示内容選択部７から供給されるキャラクタ画像や音声認識処理に必要な情報を表示する表示部（表示手段）である。
【００１０】
なお、この図には示していないが、音声入力部１内には、ユーザの発話に応じて音声信号を入力するマイク、音声信号を増幅するアンプ、音声信号をディジタルの入力音声波形データに変換するＡ／Ｄが設けられ、音声解析部３内には、音声入力部１から出力された入力音声波形データを取り込むためのバッファが設けられている。また、ナビゲーション装置の操作部には、発音開始を指示する発話スイッチが設けられている。
【００１１】
次に、動作について説明する。
図２は図１の構成による音声認識方法のフローチャート、図３及び図４は図１の表示部８に表示される画面を示す図である。図２において、まず、発話スイッチがオンされたか否かを判別する（ステップＳＴ１）。オンされない場合には、他のナビゲーション処理を行い（ステップＳＴ２）、その後、ステップＳＴ１に移行して発話スイッチのオンを判別する。発話スイッチがオンされたときは、表示部８に音声入力を促すメッセージを表示する（ステップＳＴ３）。すなわち、図３に示すように、「ご用件をお話ください。」という文字を表示する。
【００１２】
そして、音声入力部１から音声入力があるか否かを判別し（ステップＳＴ４）、音声入力があったときは、その入力音声波形データをバッファに取込み（ステップＳＴ５）、波形メモリ２内の標準音声波形データと比較する（ステップＳＴ６）。具体的には、２つの音声波形データの特徴である周波数スペクトル等のパラメータを抽出して比較する。次に、この比較結果に基づいて入力音声を解析する（ステップＳＴ７）。すなわち、入力音声に対応する文字データを特定する。そして、学習モデルメモリ４を参照して、入力音声と特定した文字データとの関係を学習する（ステップＳＴ８）。そして、学習を行うごとに所定のレジスタの学習回数をインクリメントして更新する。
【００１３】
次に、学習回数に応じて学習状況を判定する（ステップＳＴ９）。すなわち、学習度の段階に対応するキャラクタ画像を画像メモリ６の中から選択する。学習回数が３回未満である場合には、学習状況が悪いことを意味する「子供のキャラクタ画像」を選択する（ステップＳＴ１０）。学習回数が３回以上５回以下である場合には、学習状況が普通であることを意味する「青年のキャラクタ画像」を選択する（ステップＳＴ１１）。学習回数が６回以上である場合には、学習状況が良いことを意味する「おじさんのキャラクタ画像」を選択する（ステップＳＴ１２）。
【００１４】
次に、選択したキャラクタ画像と特定した文字、すなわち認識結果の文字のテロップを表示部８に表示する（ステップＳＴ１３）。例えば、ユーザが「目的地設定」と発話した場合には、図４（Ａ），（Ｂ），（Ｃ）に示すように、現在の学習度を示すキャラクタ画像として、「子供のキャラクタ画像」、「青年のキャラクタ画像」、「おじさんのキャラクタ画像」とともに、「目的地設定」のテロップを表示する。
【００１５】
以上のように、この実施の形態１によれば、入力音声から抽出した入力音声波形データを解析して標準音声波形データと比較し、その比較結果に応じて音声認識の学習度の段階を判断し、人間の生長過程の各段階を表す３つのキャラクタ画像（子供、青年、おじさん）の中から、学習度の段階に対応する段階のキャラクタ画像を選択して表示するので、音声認識の学習度の段階が現在どの程度であるかをユーザが容易に理解できるという効果が得られる。また、音声認識を必要としないユーザにとっても、ゲーム感覚で楽しむことができるという効果も得られる。また、学習途中の状態をキャラクタで表示することで、誤認識に対するユーザの不快感を低減できるという効果も得られる。
【００１６】
この場合において、音声認識の学習回数が多いほど学習度の段階が高いと判断するので、学習度の段階に応じてキャラクタが成長し、学習させようとするユーザの意識が高くなることで、認識率の向上につながるという効果が得られる。
【００１７】
なお、図３に示したように、発話スイッチのオン操作に応じて音声入力を促すメッセージを表示したが、このメッセージとともに現在の学習度の段階に対応するキャラクタ画像を表示するような構成にしてもよい。この場合には、音声入力の前に現在の学習度の段階をユーザが理解できるので、発話の条件を容易に把握できるという効果が得られる。例えば、現在の学習度の段階が低い場合、すなわち、子供のキャラクタ画像が表示されている場合には、学習が完全でないために認識できなかったという条件を把握できる。
【００１８】
また、この実施の形態１によれば、カーナビゲーションに関する入力音声から抽出した入力音声波形データを解析して標準音声波形データと比較し、その比較結果に応じて音声認識の学習度の段階を判断し、人間の生長過程に関する各段階を表す３つのキャラクタ画像の中から、学習度の段階に対応する段階のキャラクタ画像を選択して表示するので、音声認識の学習度の段階が現在どの程度であるかを瞬時に理解でき、車両の運転に支障をきたすことがないという効果が得られる。
【００１９】
なお、上記実施の形態１においては、人間の生長過程に関する各段階を表す３つのキャラクタ画像（子供、青年、おじさん）の中から、学習度の段階に対応する段階のキャラクタ画像を選択して表示する構成にしたが、選択的に表示するキャラクタ画像は実施の形態１に限定されるものではない。人間以外の生物の生長過程の各段階を表す複数のキャラクタ画像の中から、学習度の段階に対応する段階のキャラクタ画像を選択して表示する構成にしてもよい。例えば、蝶の生長過程の各段階を表す３つのキャラクタ画像として、幼虫のキャラクタ画像、さなぎのキャラクタ画像、羽が生え揃った蝶のキャラクタ画像を選択して表示する構成にしてもよい。あるいは、花や樹木の植物の生長過程の各段階を表す複数のキャラクタ画像を選択して表示する構成にしてもよい。さらには、生物の生長過程に関することを示すものである例えば、服装や表情等のキャラクタ画像を用いて表示しても良い。一例を挙げると、乳児、幼稚園児、高校生、社会人としてそれぞれ、涎掛け姿、園児服姿、学生服姿、スーツ姿等の服装で示しても良い。要は、選択的に表示する生物のキャラクタ画像を見ただけで、学習度の段階が容易に理解できる構成であればよい。
【００２０】
また、上記実施の形態１においては、音声認識利用のカーナビゲーション装置を例に採ってこの発明を説明したが、この発明が適用される範囲はカーナビゲーション装置に限定されるものではない。例えば、音声認識を利用したパソコン、音響機器、ビデオ機器、ロボット、産業用制御機器、通信機器、玩具、教育用機器等、様々な装置や機器にもこの発明を適用できる。
【００２１】
【発明の効果】
以上のように、この発明によれば、音声認識装置を、入力音声から抽出した入力音声波形データを解析して所定の標準音声波形データと比較する音声解析手段と、音声解析手段による比較結果に応じて音声認識の学習度の段階を判断する学習度判断手段と、生物の生長過程に関する各段階を表す複数のキャラクタ画像の画像データを記憶している画像記憶手段と、学習度判断手段によって判断された学習度の段階に対応する生長過程に関する段階を表すキャラクタ画像を画像記憶手段から選択して所定の表示手段に表示する表示制御手段とを備えた構成にしたので、音声認識の学習度の段階が現在どの程度であるかをユーザが容易に理解できるという効果がある。
【００２２】
この発明によれば、音声認識装置の学習度判断手段を、音声認識の学習回数が多いほど学習度の段階が高いと判断するように構成したので、学習度の段階に応じてキャラクタが成長し、学習させようとするユーザの意識が高くなることで、認識率の向上につながるという効果がある。
【００２３】
この発明によれば、音声認識装置の表示制御手段を、音声入力を促すメッセージとともに現在の学習度の段階に対応するキャラクタ画像を表示するように構成したので、音声入力の前に現在の学習度の段階をユーザが理解できるので、発話の条件を容易に把握できるという効果がある。
【００２４】
この発明によれば、音声認識利用のカーナビゲーション装置を、カーナビゲーションに関する入力音声から抽出した入力音声波形データを解析して所定の標準音声波形データと比較する音声解析手段と、音声解析手段による比較結果に応じて音声認識の学習度の段階を判断する学習度判断手段と、生物の生長過程に関する各段階を表す複数のキャラクタ画像の画像データを記憶している画像記憶手段と、画像記憶手段における複数のキャラクタ画像の中から学習度判断手段によって判断された学習度の段階に対応する段階のキャラクタ画像を選択して所定の表示手段に表示する表示制御手段とを備えたように構成したので、音声認識の学習度の段階が現在どの程度であるかを瞬時に理解でき、車両の運転に支障をきたすことがないという効果がある。
【図面の簡単な説明】
【図１】この発明の実施の形態１における音声認識利用のカーナビゲーション装置の音声認識装置の構成を示すブロック図である。
【図２】図１の構成による音声認識方法を示すフローチャートである。
【図３】発話を促すメッセージの表示例を示す図である。
【図４】音声認識の学習度の段階に対応する人間の成長過程を示すキャラクタ画像の表示例を示す図である。
【符号の説明】
１　音声入力部、２　波形メモリ、３　音声解析部（音声解析手段）、４　学習モデルメモリ、５　学習度判断部（学習度判断手段）、６　画像メモリ（画像記憶手段）、７　表示内容選択部（表示制御手段）、８　表示部（表示手段）。

Claims

入力音声から抽出した入力音声波形データを解析して所定の標準音声波形データと比較する音声解析手段と、
前記音声解析手段による比較結果に応じて音声認識の学習度の段階を判断する学習度判断手段と、
生物の生長過程に関する各段階を表す複数のキャラクタ画像の画像データを記憶している画像記憶手段と、
前記学習度判断手段によって判断された学習度の段階に対応する生物の生長過程に関する段階を表すキャラクタ画像を前記画像記憶手段から選択して所定の表示手段に表示する表示制御手段とを備えた音声認識装置。
学習度判断手段は、音声認識の学習回数が多いほど学習度の段階が高いと判断することを特徴とする請求項１記載の音声認識装置。
表示制御手段は、音声入力を促すメッセージとともに現在の学習度の段階に対応するキャラクタ画像を表示することを特徴とする請求項１記載の音声認識装置。
カーナビゲーションに関する入力音声から抽出した入力音声波形データを解析して所定の標準音声波形データと比較する音声解析手段と、
前記音声解析手段による比較結果に応じて音声認識の学習度の段階を判断する学習度判断手段と、
生物の生長過程に関する各段階を表す複数のキャラクタ画像の画像データを記憶している画像記憶手段と、
前記画像記憶手段における複数のキャラクタ画像の中から前記学習度判断手段によって判断された学習度の段階に対応する段階のキャラクタ画像を選択して所定の表示手段に表示する表示制御手段とを備えた音声認識利用のカーナビゲーション装置。