JP2004102070A - 音声認識装置及び音声認識利用のカーナビゲーション装置 - Google Patents

音声認識装置及び音声認識利用のカーナビゲーション装置 Download PDF

Info

Publication number
JP2004102070A
JP2004102070A JP2002265857A JP2002265857A JP2004102070A JP 2004102070 A JP2004102070 A JP 2004102070A JP 2002265857 A JP2002265857 A JP 2002265857A JP 2002265857 A JP2002265857 A JP 2002265857A JP 2004102070 A JP2004102070 A JP 2004102070A
Authority
JP
Japan
Prior art keywords
learning
voice
stage
image
waveform data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002265857A
Other languages
English (en)
Inventor
Hirota Kawana
川名 裕太
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2002265857A priority Critical patent/JP2004102070A/ja
Publication of JP2004102070A publication Critical patent/JP2004102070A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Navigation (AREA)
  • Traffic Control Systems (AREA)

Abstract

【課題】音声認識の学習度の段階が現在どの程度であるかをユーザが容易に理解できるようにする。
【解決手段】入力音声波形データと標準音声波形データとを比較する音声解析部3と、その比較結果に応じて音声認識の学習度の段階を判断する学習度判断部5と、人間の生長過程に関する各段階を表す3段階のキャラクタ画像の画像データを記憶している画像メモリ6と、学習度の段階に対応する生長過程に関する段階を表すキャラクタ画像を画像メモリ6から選択して表示部8に表示する表示内容選択部7とを備えている。
【選択図】    図1

Description

【0001】
【発明の属する技術分野】
この発明は、音声認識装置及び音声認識利用のカーナビゲーション装置に関するものである。
【0002】
【従来の技術】
一般的に音声認識の技術においては、ユーザの音声入力に応じて音声認識の学習を行いながら認識精度すなわち認識の学習度を高めていくような構成になっている。すなわち、ユーザの入力音声に対して誤まった認識があった場合には、その誤認識の元になった音声解析を改めて、より正しい認識ができるように学習するような構成になっている。
【0003】
【発明が解決しようとする課題】
従来の音声認識の技術は以上のように構成されているので、ユーザは、音声認識の学習度の段階が現在どの程度であるかを知ることができないという課題があった。そのため、入力音声に対して誤まった認識があった場合には、装置に対する不信感や不安感が高まっていた。
【0004】
この発明は上記のような課題を解決するためになされたもので、音声認識の学習度の段階が現在どの程度であるかをユーザが容易に理解できる音声認識装置を得ることを目的とする。
また、この発明は、カーナビゲーションに関する音声認識の学習度の段階が現在どの程度であるかをユーザが容易に理解できる音声認識利用のカーナビゲーション装置を得ることを目的とする。
【0005】
【課題を解決するための手段】
この発明に係る音声認識装置は、入力音声から抽出した入力音声波形データを解析して所定の標準音声波形データと比較する音声解析手段と、音声解析手段による比較結果に応じて音声認識の学習度の段階を判断する学習度判断手段と、生物の生長過程に関する各段階を表す複数のキャラクタ画像の画像データを記憶している画像記憶手段と、学習度判断手段によって判断された学習度の段階に対応する生長過程に関する段階を表すキャラクタ画像を画像記憶手段から選択して所定の表示手段に表示する表示制御手段とを備えた構成にしたものである。
【0006】
この発明に係る音声認識装置の学習度判断手段は、音声認識の学習回数が多いほど学習度の段階が高いと判断するように構成したものである。
【0007】
この発明に係る音声認識装置の表示制御手段は、音声入力を促すメッセージとともに現在の学習度の段階に対応するキャラクタ画像を表示するように構成したものである。
【0008】
この発明に係る音声認識利用のカーナビゲーション装置は、カーナビゲーションに関する入力音声から抽出した入力音声波形データを解析して所定の標準音声波形データと比較する音声解析手段と、音声解析手段による比較結果に応じて音声認識の学習度の段階を判断する学習度判断手段と、生物の生長過程に関する各段階を表す複数のキャラクタ画像の画像データを記憶している画像記憶手段と、画像記憶手段における複数のキャラクタ画像の中から学習度判断手段によって判断された学習度の段階に対応する段階のキャラクタ画像を選択して所定の表示手段に表示する表示制御手段とを備えたように構成したものである。
【0009】
【発明の実施の形態】
以下、この発明の実施の一形態の構成について、図を参照しながら説明する。実施の形態1.
図1は、音声認識利用のカーナビゲーション装置における音声認識装置の構成を示す図であり、図において、1は入力音声をディジタル信号の音声波形データに変換して出力する音声入力部、2は女性モデルと男性モデル及び男性と女性の中間的な中性モデルの標準音声波形データを記憶している波形メモリ、3は音声入力部1からの入力音声波形データを波形メモリ2の標準音声波形データと比較して解析する音声解析部(音声解析手段)、4は音声認識の学習度の各段階に対応する複数の学習モデルを記憶している学習モデルメモリ、5は学習モデルメモリ4を参照して現在の音声認識の学習度を判断する学習度判断部(学習度判断手段)、6は学習モデルに対応するキャラクタ画像の画像データを記憶している画像メモリ(画像記憶手段)、7は学習度判断部5によって判断された学習モデルに対応するキャラクタ画像を画像メモリ6の中から選択して表示する表示内容選択部(表示制御手段)、8は表示内容選択部7から供給されるキャラクタ画像や音声認識処理に必要な情報を表示する表示部(表示手段)である。
【0010】
なお、この図には示していないが、音声入力部1内には、ユーザの発話に応じて音声信号を入力するマイク、音声信号を増幅するアンプ、音声信号をディジタルの入力音声波形データに変換するA/Dが設けられ、音声解析部3内には、音声入力部1から出力された入力音声波形データを取り込むためのバッファが設けられている。また、ナビゲーション装置の操作部には、発音開始を指示する発話スイッチが設けられている。
【0011】
次に、動作について説明する。
図2は図1の構成による音声認識方法のフローチャート、図3及び図4は図1の表示部8に表示される画面を示す図である。図2において、まず、発話スイッチがオンされたか否かを判別する(ステップST1)。オンされない場合には、他のナビゲーション処理を行い(ステップST2)、その後、ステップST1に移行して発話スイッチのオンを判別する。発話スイッチがオンされたときは、表示部8に音声入力を促すメッセージを表示する(ステップST3)。すなわち、図3に示すように、「ご用件をお話ください。」という文字を表示する。
【0012】
そして、音声入力部1から音声入力があるか否かを判別し(ステップST4)、音声入力があったときは、その入力音声波形データをバッファに取込み(ステップST5)、波形メモリ2内の標準音声波形データと比較する(ステップST6)。具体的には、2つの音声波形データの特徴である周波数スペクトル等のパラメータを抽出して比較する。次に、この比較結果に基づいて入力音声を解析する(ステップST7)。すなわち、入力音声に対応する文字データを特定する。そして、学習モデルメモリ4を参照して、入力音声と特定した文字データとの関係を学習する(ステップST8)。そして、学習を行うごとに所定のレジスタの学習回数をインクリメントして更新する。
【0013】
次に、学習回数に応じて学習状況を判定する(ステップST9)。すなわち、学習度の段階に対応するキャラクタ画像を画像メモリ6の中から選択する。学習回数が3回未満である場合には、学習状況が悪いことを意味する「子供のキャラクタ画像」を選択する(ステップST10)。学習回数が3回以上5回以下である場合には、学習状況が普通であることを意味する「青年のキャラクタ画像」を選択する(ステップST11)。学習回数が6回以上である場合には、学習状況が良いことを意味する「おじさんのキャラクタ画像」を選択する(ステップST12)。
【0014】
次に、選択したキャラクタ画像と特定した文字、すなわち認識結果の文字のテロップを表示部8に表示する(ステップST13)。例えば、ユーザが「目的地設定」と発話した場合には、図4(A),(B),(C)に示すように、現在の学習度を示すキャラクタ画像として、「子供のキャラクタ画像」、「青年のキャラクタ画像」、「おじさんのキャラクタ画像」とともに、「目的地設定」のテロップを表示する。
【0015】
以上のように、この実施の形態1によれば、入力音声から抽出した入力音声波形データを解析して標準音声波形データと比較し、その比較結果に応じて音声認識の学習度の段階を判断し、人間の生長過程の各段階を表す3つのキャラクタ画像(子供、青年、おじさん)の中から、学習度の段階に対応する段階のキャラクタ画像を選択して表示するので、音声認識の学習度の段階が現在どの程度であるかをユーザが容易に理解できるという効果が得られる。また、音声認識を必要としないユーザにとっても、ゲーム感覚で楽しむことができるという効果も得られる。また、学習途中の状態をキャラクタで表示することで、誤認識に対するユーザの不快感を低減できるという効果も得られる。
【0016】
この場合において、音声認識の学習回数が多いほど学習度の段階が高いと判断するので、学習度の段階に応じてキャラクタが成長し、学習させようとするユーザの意識が高くなることで、認識率の向上につながるという効果が得られる。
【0017】
なお、図3に示したように、発話スイッチのオン操作に応じて音声入力を促すメッセージを表示したが、このメッセージとともに現在の学習度の段階に対応するキャラクタ画像を表示するような構成にしてもよい。この場合には、音声入力の前に現在の学習度の段階をユーザが理解できるので、発話の条件を容易に把握できるという効果が得られる。例えば、現在の学習度の段階が低い場合、すなわち、子供のキャラクタ画像が表示されている場合には、学習が完全でないために認識できなかったという条件を把握できる。
【0018】
また、この実施の形態1によれば、カーナビゲーションに関する入力音声から抽出した入力音声波形データを解析して標準音声波形データと比較し、その比較結果に応じて音声認識の学習度の段階を判断し、人間の生長過程に関する各段階を表す3つのキャラクタ画像の中から、学習度の段階に対応する段階のキャラクタ画像を選択して表示するので、音声認識の学習度の段階が現在どの程度であるかを瞬時に理解でき、車両の運転に支障をきたすことがないという効果が得られる。
【0019】
なお、上記実施の形態1においては、人間の生長過程に関する各段階を表す3つのキャラクタ画像(子供、青年、おじさん)の中から、学習度の段階に対応する段階のキャラクタ画像を選択して表示する構成にしたが、選択的に表示するキャラクタ画像は実施の形態1に限定されるものではない。人間以外の生物の生長過程の各段階を表す複数のキャラクタ画像の中から、学習度の段階に対応する段階のキャラクタ画像を選択して表示する構成にしてもよい。例えば、蝶の生長過程の各段階を表す3つのキャラクタ画像として、幼虫のキャラクタ画像、さなぎのキャラクタ画像、羽が生え揃った蝶のキャラクタ画像を選択して表示する構成にしてもよい。あるいは、花や樹木の植物の生長過程の各段階を表す複数のキャラクタ画像を選択して表示する構成にしてもよい。さらには、生物の生長過程に関することを示すものである例えば、服装や表情等のキャラクタ画像を用いて表示しても良い。一例を挙げると、乳児、幼稚園児、高校生、社会人としてそれぞれ、涎掛け姿、園児服姿、学生服姿、スーツ姿等の服装で示しても良い。要は、選択的に表示する生物のキャラクタ画像を見ただけで、学習度の段階が容易に理解できる構成であればよい。
【0020】
また、上記実施の形態1においては、音声認識利用のカーナビゲーション装置を例に採ってこの発明を説明したが、この発明が適用される範囲はカーナビゲーション装置に限定されるものではない。例えば、音声認識を利用したパソコン、音響機器、ビデオ機器、ロボット、産業用制御機器、通信機器、玩具、教育用機器等、様々な装置や機器にもこの発明を適用できる。
【0021】
【発明の効果】
以上のように、この発明によれば、音声認識装置を、入力音声から抽出した入力音声波形データを解析して所定の標準音声波形データと比較する音声解析手段と、音声解析手段による比較結果に応じて音声認識の学習度の段階を判断する学習度判断手段と、生物の生長過程に関する各段階を表す複数のキャラクタ画像の画像データを記憶している画像記憶手段と、学習度判断手段によって判断された学習度の段階に対応する生長過程に関する段階を表すキャラクタ画像を画像記憶手段から選択して所定の表示手段に表示する表示制御手段とを備えた構成にしたので、音声認識の学習度の段階が現在どの程度であるかをユーザが容易に理解できるという効果がある。
【0022】
この発明によれば、音声認識装置の学習度判断手段を、音声認識の学習回数が多いほど学習度の段階が高いと判断するように構成したので、学習度の段階に応じてキャラクタが成長し、学習させようとするユーザの意識が高くなることで、認識率の向上につながるという効果がある。
【0023】
この発明によれば、音声認識装置の表示制御手段を、音声入力を促すメッセージとともに現在の学習度の段階に対応するキャラクタ画像を表示するように構成したので、音声入力の前に現在の学習度の段階をユーザが理解できるので、発話の条件を容易に把握できるという効果がある。
【0024】
この発明によれば、音声認識利用のカーナビゲーション装置を、カーナビゲーションに関する入力音声から抽出した入力音声波形データを解析して所定の標準音声波形データと比較する音声解析手段と、音声解析手段による比較結果に応じて音声認識の学習度の段階を判断する学習度判断手段と、生物の生長過程に関する各段階を表す複数のキャラクタ画像の画像データを記憶している画像記憶手段と、画像記憶手段における複数のキャラクタ画像の中から学習度判断手段によって判断された学習度の段階に対応する段階のキャラクタ画像を選択して所定の表示手段に表示する表示制御手段とを備えたように構成したので、音声認識の学習度の段階が現在どの程度であるかを瞬時に理解でき、車両の運転に支障をきたすことがないという効果がある。
【図面の簡単な説明】
【図1】この発明の実施の形態1における音声認識利用のカーナビゲーション装置の音声認識装置の構成を示すブロック図である。
【図2】図1の構成による音声認識方法を示すフローチャートである。
【図3】発話を促すメッセージの表示例を示す図である。
【図4】音声認識の学習度の段階に対応する人間の成長過程を示すキャラクタ画像の表示例を示す図である。
【符号の説明】
1 音声入力部、2 波形メモリ、3 音声解析部(音声解析手段)、4 学習モデルメモリ、5 学習度判断部(学習度判断手段)、6 画像メモリ(画像記憶手段)、7 表示内容選択部(表示制御手段)、8 表示部(表示手段)。

Claims (4)

  1. 入力音声から抽出した入力音声波形データを解析して所定の標準音声波形データと比較する音声解析手段と、
    前記音声解析手段による比較結果に応じて音声認識の学習度の段階を判断する学習度判断手段と、
    生物の生長過程に関する各段階を表す複数のキャラクタ画像の画像データを記憶している画像記憶手段と、
    前記学習度判断手段によって判断された学習度の段階に対応する生物の生長過程に関する段階を表すキャラクタ画像を前記画像記憶手段から選択して所定の表示手段に表示する表示制御手段とを備えた音声認識装置。
  2. 学習度判断手段は、音声認識の学習回数が多いほど学習度の段階が高いと判断することを特徴とする請求項1記載の音声認識装置。
  3. 表示制御手段は、音声入力を促すメッセージとともに現在の学習度の段階に対応するキャラクタ画像を表示することを特徴とする請求項1記載の音声認識装置。
  4. カーナビゲーションに関する入力音声から抽出した入力音声波形データを解析して所定の標準音声波形データと比較する音声解析手段と、
    前記音声解析手段による比較結果に応じて音声認識の学習度の段階を判断する学習度判断手段と、
    生物の生長過程に関する各段階を表す複数のキャラクタ画像の画像データを記憶している画像記憶手段と、
    前記画像記憶手段における複数のキャラクタ画像の中から前記学習度判断手段によって判断された学習度の段階に対応する段階のキャラクタ画像を選択して所定の表示手段に表示する表示制御手段とを備えた音声認識利用のカーナビゲーション装置。
JP2002265857A 2002-09-11 2002-09-11 音声認識装置及び音声認識利用のカーナビゲーション装置 Pending JP2004102070A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002265857A JP2004102070A (ja) 2002-09-11 2002-09-11 音声認識装置及び音声認識利用のカーナビゲーション装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002265857A JP2004102070A (ja) 2002-09-11 2002-09-11 音声認識装置及び音声認識利用のカーナビゲーション装置

Publications (1)

Publication Number Publication Date
JP2004102070A true JP2004102070A (ja) 2004-04-02

Family

ID=32264873

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002265857A Pending JP2004102070A (ja) 2002-09-11 2002-09-11 音声認識装置及び音声認識利用のカーナビゲーション装置

Country Status (1)

Country Link
JP (1) JP2004102070A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006226700A (ja) * 2005-02-15 2006-08-31 Fujitsu Ten Ltd ナビゲーション装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006226700A (ja) * 2005-02-15 2006-08-31 Fujitsu Ten Ltd ナビゲーション装置

Similar Documents

Publication Publication Date Title
CN107203953B (zh) 一种基于互联网、表情识别和语音识别的教学系统及其实现方法
US20200016745A1 (en) Data Processing Method for Care-Giving Robot and Apparatus
CN105304080B (zh) 语音合成装置及方法
EP3438972A1 (en) Information processing device and information processing method
US20090182453A1 (en) Robot for participating in a joint performance with a human partner
JP2000501847A (ja) 教育及び試験における適応対話の音声信号から複合情報を得る方法及び装置
WO2010031233A1 (zh) 一种智能玩具及其使用方法
JP4508917B2 (ja) 情報呈示装置、情報呈示方法、および、情報呈示用プログラム
KR20120034486A (ko) 음악교습에 사용되는 건반장치
WO2021153101A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP2006126498A (ja) 英語の発音の学習を支援するためのプログラム、英語発音学習支援方法、英語発音学習支援装置、英語発音学習支援システム、及びプログラムを記録した記録媒体
JP6166831B1 (ja) 単語学習支援装置、単語学習支援プログラム、単語学習支援方法
US20210319715A1 (en) Information processing apparatus, information processing method, and program
JP2003228279A (ja) 音声認識を用いた語学学習装置、語学学習方法及びその格納媒体
JP2004102070A (ja) 音声認識装置及び音声認識利用のカーナビゲーション装置
US20200005786A1 (en) Information processing apparatus and information processing method
JPWO2019073668A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2007304489A (ja) 楽曲練習支援装置、制御方法及びプログラム
JP6155102B2 (ja) 学習支援装置
US11508260B2 (en) Deaf-specific language learning system and method
CN113079327A (zh) 视频生成方法和装置、存储介质和电子设备
JP2017198922A (ja) カラオケ装置
JP2002023613A (ja) 語学学習システム
CN111611359B (zh) 对话系统、对话方法及计算机可读介质
Hasegawa-Johnson et al. Multimodal speech and audio user interfaces for K-12 outreach