JP2000352992A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2000352992A
JP2000352992A JP11165173A JP16517399A JP2000352992A JP 2000352992 A JP2000352992 A JP 2000352992A JP 11165173 A JP11165173 A JP 11165173A JP 16517399 A JP16517399 A JP 16517399A JP 2000352992 A JP2000352992 A JP 2000352992A
Authority
JP
Japan
Prior art keywords
dictionary
word
recognition
speech recognition
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11165173A
Other languages
English (en)
Other versions
JP2000352992A5 (ja
Inventor
Osamu Iwata
收 岩田
Toshitaka Yamato
俊孝 大和
Hideki Kitao
英樹 北尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Ten Ltd
Original Assignee
Denso Ten Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Ten Ltd filed Critical Denso Ten Ltd
Priority to JP11165173A priority Critical patent/JP2000352992A/ja
Publication of JP2000352992A publication Critical patent/JP2000352992A/ja
Publication of JP2000352992A5 publication Critical patent/JP2000352992A5/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声認識装置による音声の認識率を向上でき
るとともに応答速度の高速化を図る。またユーザーの音
声認識技術に関する理解を深める。 【解決手段】 入力音声と、認識用辞書21に記憶され
た音声認識用単語(認識語)とを比較して該入力音声を
認識する音声認識装置10において、予め定められた認
識語が登録された汎用辞書16と、汎用辞書16から認
識語を選択する選択手段と、この選択手段により選択さ
れた認識語が識別可能に登録されるカスタム辞書17a
と、カスタム辞書17aに登録された認識語を認識用辞
書21に設定するカスタム単語設定手段とを装備する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声認識装置に関
し、より詳細には音声入力による制御を可能とする電子
機器と組み合わせて使用される音声認識装置、及び音声
認識する単語の発声練習を行える音声認識装置に関す
る。
【0002】
【従来の技術】音声入力による制御を可能とする電子機
器と組み合わされる音声認識装置には、例えば自動車に
搭載されて目的地までの走行経路等の案内を行うナビゲ
ーション装置やワイパー、ライト等の各種機器と組み合
わされるものが知られている。この種車載用の音声認識
装置は、入力された音声と音声認識用単語(以下、認識
語と記す)との比較(照合)により、入力された音声の
認識を行うものである。認識語は各種機器を制御するた
めに必要と認められた単語であり、従来より音声認識装
置の製造者等によって例えば各種機器毎に予め多数の認
識語が定められ、これら多数の認識語が音声認識に使用
される単語辞書として音声認識装置に格納されている。
【0003】ところで、従来の音声認識装置では、認識
率を向上させるために認識語をユーザーに発声練習させ
る機能を備えていない。このため、音声認識装置に関す
る初心者が高認識率を確保するための発声方法を会得す
るには、ユーザーが経験を積んでいくことでユーザー自
身が学習し慣れていくことが必要となっている。
【0004】
【発明が解決しようとする課題】上述したように従来の
音声認識装置では、音声認識に使用される単語辞書が、
音声認識装置の製造者等によって予め選択された認識語
からなるいわゆる汎用辞書(デフォルト)で構成されて
いる。汎用辞書は、特定のユーザーを対象としたもので
ないため、ユーザー個々にとっては全く使用しない認識
語が多く含まれている場合もある。このため、音声認識
の際には、ユーザーが全く使用しない認識語と入力され
た音声との無駄な比較処理が必ず行われることとなり、
認識率の低下及び認識応答時間の遅延を生じさせてい
る。
【0005】また従来のものでは、音声認識装置の認識
率を向上させるためには、ユーザーが発声方法を学習
し、音声認識に適するよう発声方法に工夫を凝らす必要
があるが、ユーザは必ずしも音声認識技術に詳しいわけ
ではないので、難しい面がある。したがって、音声認識
装置の認識率の向上を図ることが困難である等、ユーザ
ーが装置の性能を引き出せていないのが現状である。
【0006】本発明は上記課題に鑑みなされたものであ
って、認識率を向上させることができるとともに応答速
度の高速化を図ることができる音声認識装置、及びユー
ザーが音声認識技術に関する理解を深めることができ、
認識率の向上を図ることができる音声認識装置を提供す
ることを目的としている。
【0007】
【課題を解決するための手段及びその効果】上記課題を
解決するために本発明に係る音声認識装置(1)は、入
力音声と、認識用辞書に記憶された音声認識用単語とを
比較して該入力音声を認識する音声認識装置において、
予め定められた音声認識用単語が登録された汎用辞書
と、該汎用辞書から音声認識用単語を選択する選択手段
と、該選択手段により選択された音声認識用単語が識別
可能に登録されるカスタム辞書と、該カスタム辞書に登
録された音声認識用単語を前記認識用辞書に設定するカ
スタム単語設定手段とを備えていることを特徴としてい
る。
【0008】上記した音声認識装置(1)によれば、前
記カスタム単語設定手段が前記カスタム辞書に登録され
た音声認識用単語を前記認識用辞書に設定するため、入
力音声がカスタム辞書内の音声認識用単語と比較されて
認識される。ここで、カスタム辞書は、汎用辞書から例
えばユーザーにより必要又は不要として選択された音声
認識用単語を識別可能に登録したものからなる。よって
音声認識に際して、カスタム辞書から例えばユーザーが
必要とする音声認識用単語を認識用辞書に設定して入力
音声と比較(照合)することが可能になるので、汎用辞
書よりも少ない音声認識用単語で認識を行うことがで
き、ユーザーが不要とする音声認識用単語と入力音声と
の無駄な比較処理を省略することができる。したがっ
て、認識率の向上及び認識応答時間の高速化を図ること
ができる。
【0009】また本発明に係る音声認識装置(2)は、
上記音声認識装置(1)において、前記カスタム辞書
が、前記汎用辞書に登録された全ての音声認識用単語
に、それぞれ要、不要の選択情報を付与した状態で前記
音声認識用単語を登録したものであり、前記選択手段
が、前記選択情報を付与することにより前記音声認識用
単語を選択するものであり、前記カスタム単語設定手段
が、前記選択情報が要である音声認識用単語を前記認識
用辞書に設定するものであることを特徴としている。
【0010】上記した音声認識装置(2)によれば、前
記選択手段が、例えばユーザーの指示により前記選択情
報の設定を行い、前記カスタム単語設定手段が、前記カ
スタム辞書内の音声認識用単語を用い、付与されている
選択情報が要である音声認識用単語を前記認識用辞書に
設定する。よって、汎用辞書よりも少ない音声認識用単
語で認識を行うことができ、ユーザーが不要とする音声
認識用単語と入力音声との無駄な比較処理を省略するこ
とができるため、認識率の向上及び認識応答時間の高速
化を図ることができる。また前記カスタム辞書には、前
記汎用辞書に登録された全ての音声認識用単語を、それ
ぞれに要、不要の選択情報を付与した状態で登録してい
るため、このカスタム辞書からユーザーが不要(使用し
ない)とした音声認識用単語の確認も行える。したがっ
て、例えばユーザーの指示により前記選択手段が行った
選択情報の設定の確認や、ユーザーが必要とする音声認
識用単語の選択の変更を容易に行うことができる。
【0011】また本発明に係る音声認識装置(3)は、
上記音声認識装置(1)において、前記カスタム辞書が
複数設けられており、これら複数のカスタム辞書から、
前記選択された音声認識用単語を識別可能に登録させる
カスタム辞書を選択する登録辞書選択手段と、複数のカ
スタム辞書の中から前記認識用辞書に設定すべきカスタ
ム辞書を選択する設定辞書選択手段とを備えていること
を特徴としている。上記した音声認識装置(3)によれ
ば、複数のカスタム辞書を備え、登録辞書選択手段が、
複数のカスタム辞書から、前記選択手段により選択され
た音声認識用単語が識別可能に登録されるカスタム辞書
を選択し、設定辞書選択手段が例えばユーザーの指示に
より前記認識用辞書に設定すべきカスタム辞書を選択す
るため、カスタム辞書を数パターン作成して保持させ、
音声認識に用いることが可能になる。よって、音声認識
用の辞書としてユーザーが選択する自由度が広がること
から、インターフェイス的に大変有効なものとなる。
【0012】また本発明に係る音声認識装置(4)は、
上記音声認識装置(1)〜(3)のいずれかにおいて、
前記認識用辞書に設定すべき音声認識用単語が登録され
た辞書として、前記汎用辞書を強制的に選択するための
汎用辞書強制選択手段を備えていることを特徴としてい
る。上記した音声認識装置(4)によれば、前記汎用辞
書強制選択手段により、前記認識用辞書に設定すべき音
声認識用単語が登録された辞書として、前記汎用辞書を
強制的に選択することが可能になる。したがって、音声
認識に用いる辞書としてカスタム辞書の他に汎用辞書も
選択できるため、この音声認識装置(4)はあらゆるユ
ーザーにとって使い勝手の良い、使用状況に柔軟に対応
できるものとなる。
【0013】また本発明に係る音声認識装置(5)は、
上記音声認識装置(4)において、前記汎用辞書強制選
択手段が、音声認識により前記汎用辞書の強制選択操作
を検出する検出手段を備え、前記認識用辞書には、前記
汎用辞書の強制選択可能状態において、前記検出手段に
より前記汎用辞書の強制選択操作が検出されると、この
強制選択操作に対応する音声認識用単語が登録されるこ
とを特徴としている。
【0014】上記した音声認識装置(5)によれば、前
記汎用辞書強制選択手段の検出手段により、音声認識に
より前記汎用辞書の強制選択操作が検出されると、前記
汎用辞書の強制選択可能状態において、前記認識用辞書
にはこの強制選択操作に対応する音声認識用単語が登録
されるため、音声によってもユーザーが汎用辞書を選択
することができるようになる。したがって、ユーザーの
好みや使用状況に合わせてユーザーが認識用辞書に設定
する辞書の選択操作を行うことができる。
【0015】また本発明に係る音声認識装置(6)は、
入力音声と、認識用辞書に記憶された音声認識用単語と
を比較して該入力音声を認識する音声認識装置におい
て、前記音声認識用単語を認識するのに適した発声方法
を示唆する形態で、前記音声認識用単語を報知する第1
の単語報知手段を備えていることを特徴としている。上
記した音声認識装置(6)によれば、第1の単語報知手
段により、音声認識用単語を、認識するのに適した発声
方法を示唆するような形態で報知させることができるた
め、実際の音声認識に用いる音声認識用単語を用いてユ
ーザーが集中的に発声練習することができる。これによ
り高認識率を確保するための発声方法を効率良く学習で
きるため、音声認識装置の使用経験の少ないユーザーで
あっても、短期間で音声認識技術に関する理解を深める
ことができる。結果として認識率の向上を図ることがで
き、音声認識装置の性能を十分に引き出して活用するこ
とが容易となる。
【0016】また本発明に係る音声認識装置(7)は、
上記音声認識装置(6)において、前記第1の単語報知
手段が、前記音声認識用単語を視認可能に表示する表示
手段と、前記音声認識用単語を認識するのに適した発声
速度に即して、表示された前記音声認識用単語を発声文
字順に順次変色させる変色手段とを備えていることを特
徴としている。上記した音声認識装置(7)によれば、
前記第1の単語報知手段の変色手段が、前記表示手段に
表示された音声認識用単語を、認識するのに適した発声
速度に応じた速度で発声文字順に順次変色させるため、
音声認識に適した発声方法を的確にユーザーに学習させ
ることができる。したがって、より短期間で高認識率を
確保できる発声方法をユーザーに会得させることができ
る。また、音声認識用単語が発声文字順に順次変色され
て視認可能に表示されることから、視覚的に楽しみなが
ら練習を行うことができる。
【0017】また本発明に係る音声認識装置(8)は、
上記音声認識装置(6)又は上記音声認識装置(7)に
おいて、予め定められた練習のための音声認識用単語が
登録された練習用基本辞書と、ユーザーが練習のための
音声認識用単語を登録できる練習用登録辞書と、ユーザ
ーの選択操作に応じて前記練習用基本辞書と前記練習用
登録辞書との内から、前記第1の単語報知手段が報知す
る音声認識用単語が登録された辞書を選択する練習辞書
選択手段とを備えていることを特徴としている。
【0018】上記した音声認識装置(8)によれば、ユ
ーザーの選択操作に応じて練習辞書選択手段が、練習用
基本辞書とユーザーが音声認識用単語を登録した練習用
登録辞書とから、前記第1の単語報知手段が報知する音
声認識用単語を選択する辞書を選択する。このため、ユ
ーザーが音声認識装置に認識され難いと感じた音声認識
用単語やユーザーが好きな音声認識用単語を用いて発声
練習を行えるため、認識率の低い音声認識用単語の発声
方法を集中的に練習でき、また楽しみながら練習を行う
ことができる。
【0019】また本発明に係る音声認識装置(9)は、
上記音声認識装置(6)〜(8)のいずれかにおいて、
音声認識の失敗による音声入力のやり直しの回数を、音
声認識用単語毎に記憶する回数記憶手段を備え、前記第
1の単語報知手段が、前記回数記憶手段に記憶されたや
り直しの回数の多い音声認識用単語を報知するものであ
ることを特徴としている。上記した音声認識装置(9)
によれば、前記第1の単語報知手段により、前記回数記
憶手段に記憶されたやり直しの回数の多い音声認識用単
語が報知されるため、認識率の低い音声認識用単語の発
声練習が優先的に行われることになる。よって、認識率
の一層の向上を図ることができ、音声認識装置の性能を
十分に引き出して活用することが容易となる。
【0020】また本発明に係る音声認識装置(10)
は、入力音声と、認識用辞書に記憶された音声認識用単
語とを比較して該入力音声を認識する音声認識装置にお
いて、音声認識用単語を報知する第2の単語報知手段
と、入力音声と前記第2の単語報知手段により報知され
た音声認識用単語とを比較する比較手段と、該比較手段
による比較結果から、入力音声の音声認識に関する好適
度を評価する評価手段とを備えていることを特徴として
いる。上記した音声認識装置(10)によれば、前記比
較手段が、入力音声と前記第2の単語報知手段により報
知された音声認識用単語とを比較し、この比較手段によ
る比較結果から前記評価手段が入力音声の音声認識に対
する好適度、つまり発声の上手さを評価するため、どの
ような発声であれば高認識率を確保できるかをユーザー
が的確に学習することができる。よって、高認識率を確
保できる発声方法をユーザーが効率良く学習できる。ま
た好適度を評価することから、ゲーム感覚で楽しみなが
ら発声練習を行うことができる。
【0021】また本発明に係る音声認識装置(11)
は、入力音声と、認識用辞書に記憶された音声認識用単
語とを比較して該入力音声を認識する音声認識装置にお
いて、入力音声の音声認識により得られた単語の最後尾
の音を先頭の音とする単語を前記認識用辞書から検索す
る単語検索手段と、該単語検索手段により検索された単
語を報知する第3の単語報知手段とを備えていることを
特徴としている。上記音声認識装置(11)によれば、
単語検索手段が、入力音声の音声認識により得られた単
語の最後尾の音を先頭の音とする単語を前記認識用辞書
から検索し、この検索された単語を第3の単語報知手段
が報知することから、ユーザーといわゆるシリトリを行
うことができるものとなる。したがって、この音声認識
装置を娯楽用として用いることができるとともに、楽し
みながら気軽に発声練習を行うことができる。
【0022】
【発明の実施の形態】以下、本発明に係る音声認識装置
の実施の形態を図面に基づいて説明する。図1は実施の
形態(1)に係る音声認識装置の概略構成を示すブロッ
ク図であり、図2は実施の形態(1)に係る音声認識装
置の本体側の構成を示すブロック図である。図1に示す
ようにこの音声認識装置10は、本体11と、本体11
に接続された音声入力手段としてのマイク12と、ユー
ザーが本体11を遠隔操作するための操作スイッチが装
備されたリモートコントローラ13とを備えて構成され
ている。
【0023】本体11は、液晶パネル等を含んで構成さ
れた画面表示用のディスプレイ26と、ディスプレイ2
6の周囲に設けられた操作スイッチ14と、その内部に
設けられた後述の各構成要素とを含んで構成されてい
る。なお、本体11の前面は、この例に限定されるもの
ではなく、例えば、ディスプレイ26及び操作スイッチ
14を兼ねた表示パネルを含んで構成されていてもよ
い。またディスプレイ26及び操作スイッチ14と、後
述の構成要素とが別体として構成されていてもよいのは
もちろんである。
【0024】本体11の内部には図2に示すごとく、音
声認識用単語(以下、認識語と記す)が登録された辞書
を記憶する単語辞書15、マイク12から入力された音
声の認識を行う音声認識部18、単語辞書15から読み
出した辞書内の認識語を用いて、入力された音声の認識
を行うよう音声認識部18を制御するマイコン19等が
収容されている。
【0025】単語辞書15は、例えばROMディスクで
構成された汎用辞書16と、例えばRAMで構成された
カスタム辞書17aとを備えている。汎用辞書16は、
予め定められた認識語が登録された辞書、いわゆるデフ
ォルトである。汎用辞書16に登録された認識語は、音
声認識装置10を制御するための基本的な入力語や、音
声認識装置10を組み合わせて制御する電子機器に応じ
て製造業者等によって定められた言葉からなる。
【0026】また音声認識装置10を、例えば車載用と
してナビゲーション装置やワイパー、ライト、CDプレ
ーヤー等と組み合わせるといったように複数の電子機器
と組み合わせる場合、汎用辞書16は、組み合わせる電
子機器毎に制御するための認識語が登録された辞書を各
電子機器の制御用として全て保持したものとなってい
る。
【0027】カスタム辞書17aは、後に詳述するが、
ユーザーの作成により汎用辞書16から選択された認識
語が識別可能に登録されるものである。例えば、汎用辞
書16に登録された全ての認識語が、それぞれに要、不
要の選択情報が付与された状態で登録されたものからな
っている。ユーザーは、一つの汎用辞書16に対して異
なる種類のカスタム辞書17aを複数作成可能であり、
またユーザー毎に複数のものを作成することが可能とな
っている。
【0028】音声認識部18は、マイク12から入力さ
れた音声の認識を行う。すなわち、この音声認識部18
は、例えばROMから構成されて単語や音素等の音声の
基本的な単位の標準パターン(モデル)を記憶した音素
辞書20と、例えばRAMで構成されており、音声認識
装置10の使用状況に応じて上記の単語辞書15から読
み出された辞書を認識用の辞書として一時的に記憶する
認識用辞書21とが接続されたものからなる。そして、
マイク12から入力された音声信号をデジタル信号に変
換し、このデジタル信号から特徴パラメータを抽出する
とともに、認識用辞書21に記憶された各認識語の標準
パターンを音素辞書20から読み出し、この標準パター
ンと抽出した特徴パラメータとを比較照合することによ
って入力された音声を認識するようになっている。
【0029】本実施の形態における制御部としてのマイ
コン19は、単語辞書15から読み出した辞書を認識用
辞書として用いて音声の認識を行うよう音声認識部18
を制御するようになっている。またマイコン19は、単
語辞書15から読み出した辞書を一時記憶する図示しな
いメモリを備えている。
【0030】さらにマイコン19は、図3に示すように
切り替え指示手段19a、選択手段19b、カスタム単
語設定手段19c、登録辞書選択手段19d、設定辞書
選択手段19e及び汎用辞書強制選択手段19fを備え
ている。上記切り替え指示手段19a、選択手段19b
及び設定辞書選択手段19eは、単語辞書15から読み
出した汎用辞書16内の認識語のうち、ユーザーが必要
として選択した認識語を識別可能に登録したカスタム辞
書17aを作成することを可能とし、また設定辞書選択
手段19eは単語辞書15に格納されたカスタム辞書1
7aの更新を可能とする手段ともなっている。
【0031】すなわち、上記切り替え指示手段19a
は、通常の音声認識を行う通常モードと、カスタム辞書
17aを作成するための作成モードと、カスタム辞書1
7aを更新するための更新モードとを切り替えるもので
ある。また切り替え指示手段19aは、作成モードに切
り替えた際に、カスタム辞書17aの作成に用いる辞書
を単語辞書15内の汎用辞書16から選択するようユー
ザーに指示するとともに、ユーザーの指示によって、読
み出された汎用辞書16内の認識語のうちユーザーが必
要とする単語を選択設定する(カスタム設定を行う)よ
うユーザーに指示する手段ともなっている。さらに切り
替え指示手段19aは、更新モードに切り替えた際に、
更新するカスタム辞書17aを単語辞書15から選択す
るようユーザーに指示するとともに、この選択によって
単語辞書15から読み出されたカスタム辞書17a内の
ユーザーが必要として選択した認識語を変更するようユ
ーザーに指示するものとなっている。上記選択手段19
bは、作成モードにてユーザーの選択設定にしたがい、
単語辞書15から読み出した汎用辞書16から認識語を
選択するものである。この実施の形態(1)において選
択手段19bは、単語辞書15から読み出した汎用辞書
16に登録された全ての認識語について、それぞれに
要、不要の選択情報を設定することにより認識語を選択
するように構成されている。そして、このように要、不
要の選択情報が付与された状態の認識語をカスタム辞書
17aとして単語辞書15に格納させる機能を有してい
る。
【0032】ここで、作成モードに際しては、作成した
カスタム辞書17aが単語辞書15に格納されるととも
にディスプレイ26に画面表示される。例えば、図4
(a)に示すような 1.電子メール 2.ニュース
3.エッソ 4.ジョモ 5.日石…等の認識語が登録
された「標準辞書」と名称が付けられた汎用辞書16に
関してカスタム辞書17aが作成される場合、図4
(b)に示すようにユーザーの選択設定にしたがい、汎
用辞書16に登録された全ての認識語それぞれについて
要、不要の選択情報(図4(b)では例えば○、×)が
付与された辞書がカスタム辞書17aとしてディスプレ
イ26に表示され、かつ単語辞書15に格納される。ま
たカスタム設定では、ユーザーが作成するカスタム辞書
17aに自由に名称を付与することが可能となってい
る。例えば図4(b)では、ユーザーの最も手前のカ
スタム辞書17aに「いつもの辞書」という名称が付与
された例を示してある。
【0033】上記のカスタム単語設定手段19cは、単
語辞書15から読み出したカスタム辞書17aに登録さ
れた認識語を認識用辞書21に設定するものである。こ
の実施の形態(1)では、カスタム単語設定手段19c
はカスタム辞書17aを、上記した選択情報が要である
認識語のみで構成された状態にし、実際の認識用の辞書
として認識用辞書21に出力するものとなっている。
【0034】例えば音声認識部18が音声認識を行うに
際して、ユーザーが音声認識に用いる辞書として前述の
「いつもの辞書」を選択した場合、図4(b)に示す
「いつもの辞書」のカスタム辞書17aが、カスタム単
語設定手段19cによって図4(c)に示すようにユー
ザーが選択した必要な認識語(○が付与されている認識
語)のみで構成された状態のカスタム辞書17bとさ
れ、認識用の「いつもの辞書」として認識用辞書21に
出力される。すなわち、元の汎用辞書16の各認識語に
要、不要の選択情報が付与された図4(b)に示すカス
タム辞書17aが、カスタム単語設定手段19cによっ
て、汎用辞書16から不要な認識語が削除された状態の
カスタム辞書17bに自動変換されて出力されるのであ
る。
【0035】上記の登録辞書選択手段19dは、複数設
けられたカスタム辞書17aから、選択手段19bによ
り選択された認識語が識別可能に登録されるカスタム辞
書17aを選択するものである。例えば、更新モードに
てユーザーの指示にしたがいカスタム辞書17aを選択
して読み出し、マイコン19のメモリに一時記憶させる
とともにディスプレイ26に表示させる(図4
(d))。そして、ユーザーにより要、不要の選択情報
が変更されると、新たなカスタム辞書17aとして保存
することをユーザーが希望する度、この更新後の辞書を
図4(b)に示すように元の汎用辞書16に対する新た
なカスタム辞書17a,17a…として単語辞書15に
格納させる。あるいは、ユーザーの希望により、読み出
したカスタム辞書17aに上書き保存し、又は読み出し
たカスタム辞書17aを削除するものとなっている。
【0036】上記の設定辞書選択手段19eは、認識用
辞書21に設定すべき認識語が登録されたカスタム辞書
17aを選択するものである。例えば図4(c)に示す
ように音声認識に際し、設定辞書選択手段19eによ
り、単語辞書15に格納された名称が「いつもの辞書」
のカスタム辞書17aが選択され、この選択されたカス
タム辞書17aに対応する認識用のカスタム辞書17b
が認識用辞書21に出力される。なお、単語辞書15で
は図4(b)にてユーザー、ユーザーで示すよう
に、ユーザー毎にカスタム辞書17aを複数保持するこ
とができるようになっている。また、それぞれのカスタ
ム辞書17a(17b)には、例えば「〜専用辞書」と
いったように各ユーザーが自由に名称を付与できるよう
になっている。
【0037】このような切り替え指示手段手段19a、
選択手段19b、カスタム単語設定手段19c、登録辞
書設定手段19d、選択辞書設定手段19e等を備えた
マイコン19は、さらに汎用辞書強制選択手段19fを
有している。この汎用辞書強制選択手段19fは、認識
用辞書21に設定すべき認識語が登録された辞書として
汎用辞書16を強制的に選択するためのものであり、音
声認識により汎用辞書16の強制選択操作を検出する検
出手段を有している。そして認識用辞書21には、汎用
辞書16の強制選択可能状態において、上記の検出手段
により汎用辞書16の強制選択操作が検出されると、こ
の強制選択操作に対応する汎用辞書16の認識語が登録
されるようになっている。
【0038】なお、上記した汎用辞書16の強制選択可
能状態としては、例えば入力音声の音声認識部18によ
る認識開始前の状態が挙げられる。したがって本実施の
形態(1)に係る音声認識装置10では、例えば入力音
声の音声認識部18による認識開始前に常時、認識用辞
書21に設定する辞書としてカスタム辞書17aから汎
用辞書16への変更を、ユーザーのマイク12からの音
声入力により行えるようになっている。ここで、上記し
たカスタム辞書17aから汎用辞書16への認識用の辞
書の変更は、例えば本体11に設けられた操作スイッチ
14を操作することによっても可能である。
【0039】またマイコン19には、例えばRAMで構
成された音声辞書22から所要の音声を合成するための
データを読み出して音声合成処理を行い、合成した音声
をアナログ信号に変換して出力する音声合成部23が接
続されている。ここで合成される音声とは、例えばマイ
コン19がユーザーに対して指示が必要な場合のこのユ
ーザーに指示する音声等である。音声合成部23から出
力された音声のアナログ信号はアンプ24で増幅された
後、スピーカ25から音声として出力される。
【0040】次に、このように構成された音声処理装置
10にてカスタム辞書17aを作成、更新する際のマイ
コン19の動作を図5に示すフローチャートを用いて説
明する。まず、ユーザーが操作スイッチ14を操作し、
又はマイク12から音声を入力することによってカスタ
ム辞書17aの作成又は更新を行う旨が指示された場
合、ステップS1に示すようにマイコン19の切り替え
指示手段19aは、通常の音声認識を行う通常モードか
らカスタム辞書17aを作成する作成モード又は更新モ
ードに切り替える。
【0041】ステップS1にて作成モードに切り替えら
れた場合、次いで切り替え指示手段19aが汎用辞書1
6からカスタム辞書17aの作成に用いる辞書を選択す
るようユーザーに指示する。またステップS1にて更新
モードに切り替えられた場合、切り替え指示手段19a
が、単語辞書15から更新するカスタム辞書17aを選
択するようユーザーに指示する(ステップS2)。
【0042】次に作成モード、更新モードのいずれにお
いても、ユーザーが操作スイッチ14又はマイク12か
らの音声入力によって辞書を選択すると、登録辞書選択
手段19dが単語辞書15からユーザーが選択した辞書
を読み出し(ステップS3)、ディスプレイ26に表示
させる(ステップS4)。作成モードの場合、次いで切
り替え指示手段19aが、読み出した汎用辞書16内の
認識語のうち必要な単語を選択設定するようユーザーに
指示を行う。また更新モードの場合、切り替え指示手段
19aは、読み出したカスタム辞書17a内の選択情報
を変更するようユーザーに指示を行う(ステップS
5)。
【0043】次に作成モード、更新モードのいずれにお
いても切り替え指示手段19aが、必要、不要の選択情
報の入力又は変更のためユーザーが操作スイッチ14に
より一情報を入力する毎に、選択情報の入力または変更
が完了した旨の信号が入力されたか否かを判断し(ステ
ップS6)、完了していないと判断するとステップS5
に戻る。他方、ステップS6において選択情報の入力ま
たは変更が完了したと判断すると、作成モードでは選択
手段19bが汎用辞書16内の認識語毎に選択情報を付
与した状態の辞書をカスタム辞書17aとして単語辞書
15に格納させる。また更新モードでは、ユーザーが新
たなカスタム辞書17aを単語辞書15に格納すること
を希望した場合、登録辞書選択手段19dが、更新され
た選択情報が付与された辞書を新たなカスタム辞書17
aとして単語辞書15に格納させる。
【0044】ここで、一連の動作においてユーザーへの
指示は、この指示の音声が音声合成部23で合成されて
スピーカ25から出力されることにより行われるか、又
はディスプレイ26に画面表示されることにより行われ
るようになっている。
【0045】次に、音声認識装置10が音声認識を行う
にあたり認識に用いる辞書を単語辞書15から選択する
際のマイコン19の動作を図6に示すフローチャートを
用いて説明する。まず、操作スイッチ14による入力又
は音声入力でユーザーから音声認識に用いる辞書の指定
が行われたか否かを検知し(ステップS10)、次いで
音声認識装置10の使用状態を検知する(ステップS1
1)。例えば音声認識装置10が車載用であり、ナビゲ
ーション装置やワイパー、ライト等の複数の電子機器と
組み合わされている場合には、どの電子機器の制御を行
う状態にあるかを検知する。
【0046】次いで、ステップS10及びステップS1
1における検知結果に基づき単語辞書15から読み出す
辞書を選択する(ステップS12)。例えばステップS
10にてユーザーからカスタム辞書17aの指定がある
ことを検知し、ステップS11にてナビゲーション装置
の制御を行う状態にあることを検知すると、これらの検
知結果を基に設定辞書選択手段19eが、単語辞書15
からナビゲーション装置制御用の指定されたカスタム辞
書17aを読み出す。
【0047】そして、カスタム単語設定手段19cが、
前述したようにカスタム辞書17a内のユーザーが選択
した必要な認識語のみを抽出して辞書を構成し(ステッ
プS13)、これを認識用のカスタム辞書17aとして
認識用辞書21に出力する(ステップS14)。音声認
識にあたっては、音声認識部18は、認識用辞書21に
出力設定されたカスタム辞書17a内の認識語を用いて
音声認識処理を行う。
【0048】なお、音声認識装置10の起動時には、前
回の音声認識装置10の使用で最終的に単語辞書15か
ら読み出した辞書が認識用辞書21に記憶されている状
態となっている。
【0049】このように実施の形態(1)に係る音声認
識装置10では、マイコン19の切り替え指示手段19
a、選択手段19b、登録辞書選択手段19dにより、
汎用辞書16内の認識語からユーザーが必要とする認識
語を選択設定してカスタム辞書17aを作成することが
でき、カスタム単語設定手段19c及び設定辞書選択手
段19eにより汎用辞書16内の認識語から不要な認識
語が削除されて少ない認識語で構成された認識用のカス
タム辞書17bを音声認識処理に用いることができる。
よって、ユーザーが全く使用しない認識語と入力された
音声との無駄な比較処理を行わずに済むので、認識率の
向上と認識応答時間の高速化による認識時間の短縮とを
図ることができる。
【0050】また単語辞書15がユーザーが設定する選
択情報のパターン毎にカスタム辞書17aを格納可能な
ものであり、またマイコン19が登録辞書選択手段19
dによりカスタム辞書17aを更新、削除、あるいは新
規作成できるため、単語辞書15の中にユーザーが作成
したカスタム辞書17aを数パターン保持させておくこ
とができる。したがって、音声の認識に用いる辞書をユ
ーザーが選択する際の自由度が広がるため、インターフ
ェイス的に大変有利なものとなる。
【0051】またマイコン19が汎用辞書強制選択手段
19fを有しており、例えば音声認識部18による認識
開始前のような汎用辞書16の強制選択可能状態にて常
時、音声認識により、認識に用いる辞書としてカスタム
辞書17aから汎用辞書16に変更することが可能とな
っているので、音声認識装置10を用いるユーザーが替
わる等の使用状況にすぐに対応できる柔軟性に富んだも
のとなる。よって、この音声認識装置10はあらゆるユ
ーザーにとって使い勝手の良いものとなる。
【0052】さらに音声認識装置10は、本体11の操
作スイッチ14やリモートコントローラ13の操作スイ
ッチによりユーザーが手動で入力できるだけでなく、マ
イク12により音声入力も可能であるので、ユーザーが
好みや使用状況に合わせた入力操作を行うことができ
る。したがって、このことからも音声認識装置10は使
い勝手が良く、インターフェイス的に非常に有利であ
る。
【0053】また前述したように音声認識装置10は、
その起動時においては、前回の音声認識装置10の使用
で最終的に単語辞書15から読み出した辞書が認識用辞
書21に記憶されているため、音声認識に用いる辞書を
最初に選択したときからほとんど変更しない場合には、
前述の辞書選択動作を行わずに音声認識を開始できる。
この結果、音声認識の開始を早めることができ、認識時
間の短縮を図ることができる。
【0054】なお、この実施の形態(1)では、制御部
が切り替え手段19a、選択手段19b、カスタム単語
設定手段19c、登録辞書選択手段19d、設定辞書選
択手段19e及び汎用辞書強制選択手段19fを備えて
いる場合を例に挙げたが、選択手段19b、カスタム単
語設定手段19cの2つの手段を備えたものとして構成
してもよく、また切り替え手段19a、選択手段19
b、カスタム単語設定手段19c、登録辞書選択手段1
9d、設定辞書選択手段19eの4つの手段を備えたも
のとして構成することも可能である。これらの場合に
も、制御部が選択手段19b、カスタム単語設定手段1
9cを備えていることにより、又は切り替え手段19
a、選択手段19b、カスタム単語設定手段19c、登
録辞書選択手段19d、設定辞書選択手段19eを備え
ていることにより認識率を向上でき、かつ認識応答時間
を高速化できる。
【0055】次に、本発明に係る音声認識装置の実施の
形態(2)を図7に示したブロック図を用いて説明す
る。なお、実施の形態(2)において実施の形態(1)
と同じ構成要素には同じ符号を付してその説明を省略す
る。
【0056】図7に示すように音声認識装置30は、認
識語が登録された辞書を記憶する単語辞書31、音声認
識部18、音素辞書20、認識用辞書21、マイコン3
5、音声辞書22、音声合成部23、アンプ24、スピ
ーカ25、マイク12、ディスプレイ26、操作スイッ
チ14、リモートコントローラ(図示略)等を含んで構
成されている。
【0057】単語辞書31は、図8に示すように例えば
ROMディスクで構成された汎用辞書32と、例えばR
OMで構成された練習用基本辞書33と、例えばRAM
で構成された練習用登録辞書34とを保持したものから
なる。汎用辞書32は、実施の形態(1)における汎用
辞書16と同様に構成されたものであり、予め定められ
た認識語が登録された辞書、いわゆるデフォルトからな
る。また練習用基本辞書33も、予め定められた発声練
習用の認識語が登録されたデフォルトからなる。さらに
練習用登録辞書34は、ユーザーにより設定入力された
認識語を格納したもの、つまりユーザーが認識語を登録
できる辞書となっている。
【0058】音声認識部18は、実施の形態(1)のと
ころで説明したように音素辞書20と、音声認識装置3
0の使用状況に応じて上記の単語辞書31から読み出さ
れた辞書内の認識語を一時的に記憶する認識用辞書21
とが接続されたものからなる。そして、マイク12から
入力された音声信号と認識用辞書21に記憶された各認
識語の標準パターンとを比較することによって入力され
た音声を認識するようになっている。
【0059】ディスプレイ26は、本発明における第1
単語報知手段となるものであり、認識後を、音声認識部
18が認識するのに適した発声方法を示唆するような形
態でユーザーに報知するようになっている。またディス
プレイ26は、本発明の表示手段と変色手段とを備える
ことで音声認識部18が認識するのに適した発声方法を
画面表示する第1単語報知手段として構成されている。
例えば図10(a)に示すように発声練習する認識語で
ある例えば「レストラン」を視認可能に表示する表示手
段であるとともに、この「レストラン」を同図(b)に
示すカラオケで歌詞を表示するときに使われているよう
な方法、すなわち音声認識部18が認識するのに適した
発声速度に応じた速度で発声文字順に順次変色させる変
色手段となっている。ここで、音声認識部18が認識す
るのに適した発声速度とは、その認識語を音声認識部1
8が高い認識率で認識する速度である。
【0060】制御部としてのマイコン35は、単語辞書
31から読み出した辞書の認識語を用いて音声の認識を
行うよう音声認識部18を制御するようになっている。
またマイコン35は、単語辞書31から読み出した辞書
を一時記憶する図示しないメモリを備えている。さらに
マイコン35は、認識語の発声練習を可能とする図9に
示す切り替え手段35a、報知制御手段35b、練習辞
書選択手段35cを備えている。
【0061】切り替え手段35aは、認識語の発声練習
のための練習モードと、通常の音声認識を行う通常モー
ドとに切り替えるための手段である。また報知制御手段
35bは、単語辞書31内の発声練習用の認識語をユー
ザーに報知すべくディスプレイ26に表示の制御指令を
出力する手段である。上記したように報知制御手段35
bは、音声認識部18が認識するのに適した発声速度に
応じた速度で発声文字順に順次変色させて表示するよう
ディスプレイ26を制御するものとなっている。さらに
この実施形態(2)における報知制御手段35bは、デ
ィスプレイ26に表示させる発声練習用の認識語とし
て、単語辞書31の練習用基本辞書33又は練習用登録
辞書34から読み出した認識語を用いるものとなってい
る。
【0062】練習辞書選択手段35cは、ユーザーの選
択操作に応じて、練習用基本辞書33と練習用登録辞書
34から、ディスプレイ26が報知する認識語を選択す
る辞書を選択する手段である。また、操作スイッチ14
あるいはリモートコントローラの操作スイッチからユー
ザーによって入力された発声練習のための認識語を練習
用登録辞書34に登録できる手段ともなっている。練習
用登録辞書34に登録できる認識語としては、例えばユ
ーザーが音声認識装置30に認識され難いと感じている
認識語やユーザーが好きな認識語等、様々な認識語が可
能であるが、音声認識部18が音声認識を行える認識語
であることが必要である。
【0063】このように構成された音声認識装置30に
おいて発声練習を行う際のマイコン35の動作を図11
に示したフローチャートを用いて説明する。まず、ユー
ザーが操作スイッチ14を操作し又はマイク12から音
声を入力することによって発声練習を行う旨が入力され
た場合、マイコン35の切り替え手段35aが通常モー
ドから練習モードに切り替える(ステップS21)。次
いで操作スイッチ14を操作し又はマイク12から音声
を入力することによってユーザーが発声練習する認識語
を読み出す辞書を選択操作すると、練習辞書選択手段3
5cがユーザーの選択操作に応じて練習用基本辞書33
と練習用登録辞書34とからディスプレイ26が報知す
る認識語を選択する辞書を選択する。そして報知制御手
段35bが、選択された辞書から認識語を読み出し、デ
ィスプレイ26に前述したように表示させる(ステップ
S22)。また報知制御手段35bは、読み出した練習
用基本辞書33又は練習用登録辞書34を認識用辞書2
1に出力する。
【0064】なお、ディスプレイ26に表示された認識
語をユーザーが読み上げることにより発せられた音声が
マイク12を通して入力されると、音声認識部18は入
力された音声の特徴パラメータを抽出するとともに、認
識用辞書21に記憶されている各認識語の標準パターン
を音素辞書20から読み出し、各標準パターンと抽出し
た特徴パラメータとを比較することによって入力された
音声の認識を行う。そして音声認識部18が認識したか
否かの結果がディスプレイ26に表示され、あるいは音
声合成部23により音声合成されてスピーカ25より出
力表示される。
【0065】以上のようにこの実施の形態(2)に係る
音声認識装置30によれば、ディスプレイ26により、
実際に認識に用いる認識語を、認識するのに適した発声
方法を示唆するような形態で報知させることができるの
で、ユーザーが集中的に発声練習することができる。こ
れにより高認識率を確保するための発声方法をユーザー
が効率良く学習できるため、音声認識装置30の使用経
験の少ないユーザーであっても、短期間で音声認識技術
に関する理解を深めることができる。結果として認識率
の向上を図ることができ、音声認識装置30の性能を十
分に引き出して活用することが容易となる。
【0066】またディスプレイ26に、発声練習する認
識語を、音声認識部18が認識するのに適した発声速度
に応じた速度で発声文字順に順次変色させるので、高認
識率を確保できる音声認識に適した発声方法を的確に学
習できる。このことは、より短期間で高認識率を確保で
きる発声方法を会得するのに非常に有効となる。また、
認識語が発声文字順に順次変色して表示されることか
ら、ユーザーが視覚的に楽しみながら練習を行うことが
できる。
【0067】さらに音声認識装置30によれば、マイコ
ン35が練習辞書選択手段35cを備えていることによ
り、ユーザーが選択した発声練習用の認識語を練習用登
録辞書34に登録でき、報知制御手段35bによってデ
フォルトからなる練習用基本辞書33と練習用登録辞書
34とから読み出した辞書内の認識語を用いて発声練習
することができる。したがって、ユーザーが音声認識装
置30に認識され難いと感じた認識語やユーザーが好き
な認識語を用いて発声練習を行えるため、認識率の低い
認識語の発声方法を集中的に練習でき、また楽しみなが
ら練習を行うことができる。
【0068】またユーザーが練習用登録辞書34を作成
できるため、練習用登録辞書34に登録する発声練習用
の認識語の数によって、入力された音声を音声認識部1
8が認識する際の認識の困難性を自由に設定することが
できる。すなわち、練習用登録辞書34に登録する認識
語の数が少なければ音声認識部18が入力された音声を
認識し易くなり、登録する認識語の数が多ければ音声認
識部18が入力された音声を認識し難くなるため、練習
用登録辞書34に登録する認識語の数によって発声練習
の難易度を設定できる利点がある。
【0069】上記した実施の形態(2)では、本発明に
おける第1単語報知手段が認識語を視認可能に表示する
表示手段(ディスプレイ)で構成されている例を述べた
が、認識語を高い認識率で認識する理想の発声方法で音
声出力する音声出力手段で構成することも可能である。
例えば実施の形態(2)の構成では、音声辞書22、音
声合成部23、アンプ24、スピーカ25で音声出力手
段を構成することができる。この場合にも、高認識率を
確保できる音声認識に適した発声方法を的確に学習でき
る効果を得ることができる。
【0070】次に本発明に係る音声認識装置の実施の形
態(3)を説明する。なお、実施の形態(3)におい
て、実施の形態(2)と同じ構成要素には同じ符号を付
してその説明を省略する。図12は実施の形態(3)に
係る音声認識装置の構成を示すブロック図であり、図1
3は図12に示す音声認識装置のマイコンの構成を説明
する図である。
【0071】図12及び図13に示すように、この実施
の形態(3)の音声認識装置40が上記実施の形態
(2)の音声認識装置30と相違するところは、制御部
であるマイコン41が切り替え手段41aと計数手段4
1bと報知制御手段41cとを備えている点、計数手段
41bにより得られた計数情報を記憶する例えばRAM
からなる回数記憶手段42を備えている点、及び第1単
語報知手段であるディスプレイ43の構成にある。
【0072】切り替え手段41aは、実施の形態(2)
における音声認識装置30のマイコン35の切り替え手
段35aと同様に、認識語の発声練習のための練習モー
ドと、通常の音声認識を行う通常モードとに切り替える
ための手段である。また計数手段41bは、通常モード
に設定された状態にて、ユーザーに、音声認識の失敗に
よる音声入力のやり直しの回数を単語辞書31に登録さ
れた認識語毎に計数し、得られた計数情報を回数記憶手
段42に出力するものとなっている。そして報知制御手
段41cは、回数記憶手段42に記憶された計数情報か
らやり直しの回数の多い認識語を表示するようディスプ
レイ43に制御指令を与える手段となっている。
【0073】また回数記憶手段42は、音声入力のやり
直しの回数からなる計数情報を単語辞書31に登録され
た認識語毎に記憶するものからなる。さらにディスプレ
イ43は、上記報知制御手段41cの制御指令にしたが
い、回数記憶手段42に記憶されたやり直しの回数の多
い認識語をユーザーに視認可能に表示(報知)するよう
に構成されている。なお、このディスプレイ43も、実
施の形態(2)におけるディスプレイ26と同様に、本
発明の表示手段と変色手段とを備えることで音声認識部
18が認識するのに適した発声方法を画面表示するもの
として構成されていてもよい。
【0074】このように構成された音声認識装置40で
は、通常モードにてユーザーが音声の入力のやり直しを
行った回数、つまり認識に失敗した回数が計数手段41
bにより認識語毎に計数され、この計数情報を記憶する
回数記憶手段42からやり直しの回数の多い認識語が、
報知制御手段41cによりディスプレイ43に表示させ
ることによりユーザーに報知される。よって、認識率の
低い認識語の発声練習を優先的に行うことができるた
め、認識率の一層の向上を図ることができ、音声認識装
置の性能を十分に引き出して活用することが容易とな
る。なお、ディスプレイ43に発声練習用の認識語を報
知させる際には、入力のやり直しの回数が所定の値以上
であり、かつ最も大きい値の認識語を報知させるように
してもよい。
【0075】次に本発明に係る音声認識装置の実施の形
態(4)を説明する。なお、実施の形態(4)において
実施の形態(2)と同じ構成要素には同じ符号を付して
その説明を省略する。図14は実施の形態(4)に係る
音声認識装置50(図7)における音声認識部の構成を
示す図であり、図15は実施の形態(4)に係る音声認
識装置50のマイコンの構成を示す図である。
【0076】この実施の形態(4)に係る音声認識装置
は、上記実施の形態(2)に係る音声認識装置30と
は、図14に示すごとく音声認識部51が比較手段51
aを備えている点、及び図15に示すごとく制御部であ
るマイコン52が切り替え手段35a、報知制御手段3
5b、練習辞書選択手段35cに加えて評価手段52a
を備えている点で相違している。また、ディスプレイ2
6は本発明において認識語を報知する第2単語報知手段
ともなっている。一方、全体の構成は図7に示した実施
の形態(2)の音声認識装置30とほぼ同じ構成となっ
ている。
【0077】音声認識部51の比較手段51aは、マイ
ク12から入力された音声と、ディスプレイ26より報
知された認識語との認識の距離を測定することにより、
入力音声と認識語との比較を行う手段である。音声認識
部51は、この比較手段51aによる認識の距離の測定
によってユーザーが発声した音声の認識を行うものとな
っている。ここで、認識の距離は音声が認識語と類似し
ていればいるほど短くなる。
【0078】次に、認識の距離の測定によって行う認識
の手順を図16に基づいて説明する。まず、単語辞書3
1の練習用基本辞書33又は練習用登録辞書34内の認
識語を基に、入力された音声と最初に比較する必要のあ
る音節をリストアップし、音節のネットワークを接続す
る。例えば音声認識部51が「アイチ」、「アイヅ」、
「アオモリ」、「イシカワ」、「マイヅル」の5つの認
識語が登録された練習用登録辞書34を用いて音声の認
識を行い、マイコン52の報知制御手段35bが発声練
習する認識語として「アイヅ」をディスプレイ26に表
示させて発声練習をユーザーに促す場合、各認識語の初
めの音節(音節1)である「ア」、「イ」、「マ」をリ
ストアップする。そして、図16に示すようにリストア
ップした全ての音節の音響セグメントネットワークを作
成する。
【0079】次いで作成した音響セグメントネットワー
クとユーザーから入力された音声の最初の音節との照合
を音響セグメントノード毎に行い、リストアップした各
音節の照合結果、つまり各音節において入力された音声
の最初の音節との距離を測定する。上記の例では
「ア」、「イ」、「マ」のそれぞれについて入力された
音声の最初の音節との距離が測定される。ここで、照合
は例えばDP(動的計画法)により行う。
【0080】続いて距離が短いものを優先して認識語の
次の音節(音節2)候補をリストアップし、最初の音節
の場合と同様に音節の音響セグメントネットワークを作
成する。上記の例において例えば「ア」、「マ」、
「イ」の順に距離が長くなる場合、「ア」が優先され、
次の音声候補は「ア」に対して「イ」、「オ」となり、
「マ」に対して「イ」となり、「イ」に対して「シ」と
なる。そして作成された音響セグメントネットワークと
音声の次の音節との照合を音響セグメントノード毎に行
い、リストアップした各音節において入力された音声の
次の音節との距離を測定する。
【0081】同様に、認識語の最後の音節まで、音節候
補のリストアップ、音響セグメントネットワークの作
成、入力された音声の音節との照合、音節の距離の測定
を繰り返し行い、各認識語において累積された距離を認
識の距離としてこの認識の距離の最も短いものを認識結
果とする。例えば「アイチ」、「アイヅ」、「アオモ
リ」、「イシカワ」、「マイヅル」の5つの認識語のう
ち、累積された距離が最短であるのが「アイヅ」であっ
た場合、ユーザーが発声した音声は「アイヅ」であると
認識する。
【0082】マイコン52の評価手段52aは、上記音
声認識部51の比較手段51aで測定された認識の距離
の長短(比較結果)に応じてユーザーの発声の上手さ、
つまり入力音声の音声認識に対する好適度の点数を付
け、付けた点数をディスプレイ26に画面表示させる。
又は、付けた点数を発声する音声を音声合成部23によ
り合成してスピーカ25より出力する。この場合、音声
認識部51が認識するときの最短の認識の距離を100
点満点とし、測定された認識の距離を相対的に点数化
し、ユーザーの発声の上手さを評価する。図17では、
マイク12を通してユーザー27が入力した発声練習用
の音声に対して評価手段52aが85点の点数を付け、
ディスプレイ26に表示させた例が示されている。
【0083】以上のように、この実施の形態(4)に係
る音声認識装置50によれば、比較手段51aによって
測定された、入力された音声と認識語との認識の距離の
長短に応じて評価手段52aが発声の上手さの点数を付
け表示させるので、どのような発声を行えば高認識率を
確保できるかをユーザーが的確に学習できる。よって、
高認識率を確保できる発声方法を効率の良く学習でき
る。また点数化により、ゲーム感覚で楽しみながら発声
練習を行うことができることになる。
【0084】本実施の形態(4)では、本発明における
第2単語報知手段が、実施の形態(2)のディスプレイ
26、すなわち本発明の表示手段と変色手段とを備える
ことで音声認識部18が認識するのに適した発声方法を
画面表示するものと同様に構成されている例を述べた
が、認識語をユーザーに報知するものであればよくこの
例に限定されないのはもちろんである。例えば単に認識
語を視認可能に表示するもので構成されていてもよく、
また音声出力により認識語を報知するものであってもよ
い。
【0085】次に本発明に係る音声認識装置の実施の形
態(5)を説明する。なお、実施の形態(5)において
実施の形態(2)と同じ構成要素には同じ符号を付して
その説明を省略する。図18は実施の形態(5)に係る
音声認識装置60のマイコンの構成を示す図である。こ
の実施の形態(5)の音声認識装置60(図7)が上記
実施の形態(2)の音声認識装置30と相違するところ
は、制御部としてのマイコン61が図18に示すよう
に、切り替え手段35a、報知制御手段35b、練習辞
書選択手段35cに加えて単語検索手段61aを備えて
いる点、及びディスプレイ26とは異なる構成のディス
プレイ62を備えている点にある。一方、全体の構成は
図7に示した実施の形態(2)の音声認識装置30とほ
ぼ同じ構成となっている。
【0086】単語検索手段61aは、ユーザーから入力
された音声を音声認識部18が音声認識することにより
得られた単語の最後尾の音を先頭の音とする単語を認識
用辞書21から検索する手段、すなわち、シリトリによ
り認識語を検索する手段である。本実施の形態(5)で
は、例えば単語辞書31に登録された認識語に予め、動
物、地名といったようにジャンル別に分けた分類情報が
付与されている。そして単語検索手段61aは、この分
類情報に基づき、単語辞書31に登録された認識語をジ
ャンル別に検索するものとなっている。
【0087】ディスプレイ62は、単語検索手段61a
により検索された単語を報知する本発明の第3単語報知
手段として構成されている。また上記の単語検索手段6
1aは、認識語がディスプレイ62に表示されてからユ
ーザーの音声を検知するまでの応答時間(ユーザーが考
える時間)の設定を行え、設定した応答時間を超過した
場合、ユーザーにNGを出力表示する時間制限手段61
1 を備えたものとなっている。
【0088】ここで、マイコン61の切り替え手段35
aは、実施の形態(2)の音声認識装置30の場合と同
様に通常モードと練習モードとを切り替えるものである
が、その練習モードがシリトリ練習モードとされ、又は
単に発声練習を行う前述の練習モードにシリトリ練習モ
ードを追加したものとされている。また、ユーザーがシ
リトリ練習モードを選択する際、又はシリトリ練習モー
ドを選択した後に、シリトリを行う音声、認識語のジャ
ンルをユーザーの指示により選択する機能も備えて構成
されている。
【0089】このような音声認識装置60では、シリト
リ練習モードにてユーザーが動物のジャンルを指定した
場合、図19に示すようにユーザーが単語辞書31に登
録された動物のジャンルの認識語のうち「ゾウ」の認識
語を発声すると、単語検索手段61aが単語辞書31の
動物のジャンルの認識語から先頭の音として「ウ」を発
声する認識語、例えば「ウシ」を検索して読み出し、報
知制御手段35aの制御指令にしたがってディスプレイ
62が「ウシ」を表示する。この場合、ユーザーは次い
で、単語辞書31の動物のジャンルの認識語から「ウ
シ」の最後尾の「シ」を先頭の音とする認識語、例えば
「シマウマ」を音声入力すれば良い。
【0090】以上のように実施の形態(5)に係る音声
認識装置60によれば、単語検索手段61a及びディス
プレイ62により音声認識装置60とシリトリを行える
ので、娯楽用として用いることができる。またユーザー
がゲーム感覚で気軽に楽しく発声練習を行えるので、ユ
ーザーに強制的ではなく、自主的に発声練習を行わせる
ことができる。さらに時間制限機能61a1 によって、
より娯楽性の高い発声練習を行うことができる。したが
って、自然に認識率の向上及び認識応答時間の高速化を
図れるものとなる。
【0091】なお、実施の形態(5)では、ユーザーと
の間で単にシリトリによって練習を行える音声認識装置
の構成例を述べたが、第3単語報知手段により報知され
た単語の最後尾の音と、第1単語報知手段による単語の
報知語に音声認識された単語の先頭の音が異なる場合に
は、その旨を報知する不正音声報知手段を備えたものと
して音声認識装置を構成してもよい。この場合には、よ
りゲーム性が増すため、より一層娯楽性の高い発声練習
を行うことができる。
【0092】また実施の形態(5)においても、本発明
における第3単語報知手段がディスプレイ62で構成さ
れている例を述べたが、認識語をユーザーに報知するも
のであればよくこの例に限定されないのはもちろんであ
る。例えば音声出力により認識語を報知するものとして
構成することもできる。
【図面の簡単な説明】
【図1】本発明の実施の形態(1)に係る音声認識装置
の概略構成を示すブロック図である。
【図2】本発明の実施の形態(1)に係る音声認識装置
の本体側の構成を示すブロック図である。
【図3】実施の形態(1)に係る音声認識装置のマイコ
ンの構成を示す図である。
【図4】(a)〜(c)は、カスタム辞書の作成、更新
の流れを順に説明するための図である。
【図5】実施の形態(1)に係る音声認識装置にてカス
タム辞書を作成、更新する際のマイコンの動作を示すフ
ローチャートである。
【図6】実施の形態(1)に係る音声認識装置にて音声
認識に用いる辞書選択時のマイコンの動作を示すフロー
チャートである。
【図7】本発明の実施の形態(2)、(4)、(5)に
係る音声認識装置の構成を示すブロック図である。
【図8】実施の形態(2)に係る音声認識装置の単語辞
書の構成を示す図である。
【図9】実施の形態(2)に係る音声認識装置のマイコ
ンの構成を示す図である。
【図10】(a),(b)は実施の形態(2)に係る音
声認識装置にて発声練習する認識語を順次変色させて画
面表示するときの説明図である。
【図11】実施の形態(2)に係る音声認識装置の発声
練習時におけるマイコンの動作を示すフローチャートで
ある。
【図12】本発明の実施の形態(3)に係る音声認識装
置の構成を示すブロック図である。
【図13】実施の形態(3)に係る音声認識装置のマイ
コンの構成を示す図である。
【図14】本発明の実施の形態(4)に係る音声認識装
置の音声認識部の構成を示す図である。
【図15】実施の形態(4)に係る音声認識装置のマイ
コンの構成を示す図である。
【図16】認識の距離の測定によって行う認識の手順を
説明するための図である。
【図17】実施の形態(4)に係る音声認識装置による
発声の点数化を説明するための図である。
【図18】本発明の実施の形態(5)に係る音声認識装
置のマイコンの構成を示す図である。
【図19】実施の形態(5)に係る音声認識装置による
シリトリ練習を説明するための図である。
【符号の説明】
10,30,40,50,60 音声認識装置 12 マイク 14 操作スイッチ 15,31 単語辞書 16,32 汎用辞書 17 辞書格納部 17a,17b カスタム辞書 18,51 音声認識部 19,35,41,52,61 マイコン 19b 選択手段 19c カスタム単語設定手段 19d 登録辞書選択手段 19e 設定辞書選択手段 19f 汎用辞書強制選択手段 25 スピーカ 26,43,62 ディスプレイ 33 練習用基本辞書 34 練習用登録辞書 35c 練習辞書選択手段 42 回数記憶手段 51a 比較手段 52a 評価手段 61a 単語検索手段
フロントページの続き (72)発明者 北尾 英樹 兵庫県神戸市兵庫区御所通1丁目2番28号 富士通テン株式会社内 Fターム(参考) 5D015 GG01 GG02 GG03 GG04 GG06 LL05 LL13

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 入力音声と、認識用辞書に記憶された音
    声認識用単語とを比較して該入力音声を認識する音声認
    識装置において、 予め定められた音声認識用単語が登録された汎用辞書
    と、 該汎用辞書から音声認識用単語を選択する選択手段と、 該選択手段により選択された音声認識用単語が識別可能
    に登録されるカスタム辞書と、 該カスタム辞書に登録された音声認識用単語を前記認識
    用辞書に設定するカスタム単語設定手段とを備えている
    ことを特徴とする音声認識装置。
  2. 【請求項2】 前記カスタム辞書が、前記汎用辞書に登
    録された全ての音声認識用単語に、それぞれ要、不要の
    選択情報を付与した状態で前記音声認識用単語を登録し
    たものであり、 前記選択手段が、前記選択情報を付与することにより前
    記音声認識用単語を選択するものであり、 前記カスタム単語設定手段が、前記選択情報が要である
    音声認識用単語を前記認識用辞書に設定するものである
    ことを特徴とする請求項1記載の音声認識装置。
  3. 【請求項3】 前記カスタム辞書が複数設けられてお
    り、 これら複数のカスタム辞書から、前記選択された音声認
    識用単語を識別可能に登録させるカスタム辞書を選択す
    る登録辞書選択手段と、 複数のカスタム辞書の中から前記認識用辞書に設定すべ
    きカスタム辞書を選択する設定辞書選択手段とを備えて
    いることを特徴とする請求項1又は請求項2記載の音声
    認識装置。
  4. 【請求項4】 前記認識用辞書に設定すべき音声認識用
    単語が登録された辞書として、前記汎用辞書を強制的に
    選択するための汎用辞書強制選択手段を備えていること
    を特徴とする請求項1〜3のいずれかの項に記載の音声
    認識装置。
  5. 【請求項5】 前記汎用辞書強制選択手段が、音声認識
    により前記汎用辞書の強制選択操作を検出する検出手段
    を備え、 前記認識用辞書には、前記汎用辞書の強制選択可能状態
    において、前記検出手段により前記汎用辞書の強制選択
    操作が検出されると、この強制選択操作に対応する音声
    認識用単語が登録されることを特徴とする請求項4記載
    の音声認識装置。
  6. 【請求項6】 入力音声と、認識用辞書に記憶された音
    声認識用単語とを比較して該入力音声を認識する音声認
    識装置において、 前記音声認識用単語を認識するのに適した発声方法を示
    唆する形態で、前記音声認識用単語を報知する第1の単
    語報知手段を備えていることを特徴とする音声認識装
    置。
  7. 【請求項7】 前記第1の単語報知手段が、 前記音声認識用単語を視認可能に表示する表示手段と、 前記音声認識用単語を認識するのに適した発声速度に即
    して、表示された前記音声認識用単語を発声文字順に順
    次変色させる変色手段とを備えていることを特徴とする
    請求項6記載の音声認識装置。
  8. 【請求項8】 予め定められた練習のための音声認識用
    単語が登録された練習用基本辞書と、 ユーザーが練習のための音声認識用単語を登録できる練
    習用登録辞書と、 ユーザーの選択操作に応じて前記練習用基本辞書と前記
    練習用登録辞書との内から、前記第1の単語報知手段が
    報知する音声認識用単語が登録された辞書を選択する練
    習辞書選択手段とを備えていることを特徴とする請求項
    6又は請求項7記載の音声認識装置。
  9. 【請求項9】 音声認識の失敗による音声入力のやり直
    しの回数を、音声認識用単語毎に記憶する回数記憶手段
    を備え、 前記第1の単語報知手段が、前記回数記憶手段に記憶さ
    れたやり直しの回数の多い音声認識用単語を報知するも
    のであることを特徴とする請求項6〜8のいずれかの項
    に記載の音声認識装置。
  10. 【請求項10】 入力音声と、認識用辞書に記憶された
    音声認識用単語とを比較して該入力音声を認識する音声
    認識装置において、 音声認識用単語を報知する第2の単語報知手段と、 入力音声と前記第2の単語報知手段により報知された音
    声認識用単語とを比較する比較手段と、 該比較手段による比較結果から、入力音声の音声認識に
    関する好適度を評価する評価手段とを備えていることを
    特徴とする音声認識装置。
  11. 【請求項11】 入力音声と、認識用辞書に記憶された
    音声認識用単語とを比較して該入力音声を認識する音声
    認識装置において、 入力音声の音声認識により得られた単語の最後尾の音を
    先頭の音とする単語を前記認識用辞書から検索する単語
    検索手段と、 該単語検索手段により検索された単語を報知する第3の
    単語報知手段とを備えていることを特徴とする音声認識
    装置。
JP11165173A 1999-06-11 1999-06-11 音声認識装置 Pending JP2000352992A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11165173A JP2000352992A (ja) 1999-06-11 1999-06-11 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11165173A JP2000352992A (ja) 1999-06-11 1999-06-11 音声認識装置

Publications (2)

Publication Number Publication Date
JP2000352992A true JP2000352992A (ja) 2000-12-19
JP2000352992A5 JP2000352992A5 (ja) 2006-07-20

Family

ID=15807251

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11165173A Pending JP2000352992A (ja) 1999-06-11 1999-06-11 音声認識装置

Country Status (1)

Country Link
JP (1) JP2000352992A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001042887A (ja) * 1999-06-26 2001-02-16 Koninkl Philips Electronics Nv 自動音声認識器を訓練する方法
WO2004032113A1 (ja) * 2002-10-07 2004-04-15 Mitsubishi Denki Kabushiki Kaisha 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム
JP2006113439A (ja) * 2004-10-18 2006-04-27 Ntt Data Corp 音声自動応答装置及びプログラム
JP2012088406A (ja) * 2010-10-15 2012-05-10 Kyocera Corp 電子機器及び制御方法
JP2015045765A (ja) * 2013-08-28 2015-03-12 シャープ株式会社 制御装置、制御装置の制御方法、および、制御プログラム
JP7319639B1 (ja) * 2022-08-24 2023-08-02 ダイレクトソリューションズ株式会社 音声入力システム及びそのプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001042887A (ja) * 1999-06-26 2001-02-16 Koninkl Philips Electronics Nv 自動音声認識器を訓練する方法
WO2004032113A1 (ja) * 2002-10-07 2004-04-15 Mitsubishi Denki Kabushiki Kaisha 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム
US7822613B2 (en) 2002-10-07 2010-10-26 Mitsubishi Denki Kabushiki Kaisha Vehicle-mounted control apparatus and program that causes computer to execute method of providing guidance on the operation of the vehicle-mounted control apparatus
JP2006113439A (ja) * 2004-10-18 2006-04-27 Ntt Data Corp 音声自動応答装置及びプログラム
JP2012088406A (ja) * 2010-10-15 2012-05-10 Kyocera Corp 電子機器及び制御方法
JP2015045765A (ja) * 2013-08-28 2015-03-12 シャープ株式会社 制御装置、制御装置の制御方法、および、制御プログラム
JP7319639B1 (ja) * 2022-08-24 2023-08-02 ダイレクトソリューションズ株式会社 音声入力システム及びそのプログラム

Similar Documents

Publication Publication Date Title
US7822613B2 (en) Vehicle-mounted control apparatus and program that causes computer to execute method of providing guidance on the operation of the vehicle-mounted control apparatus
JP4131978B2 (ja) 音声認識機器制御装置
EP1693827B1 (en) Extensible speech recognition system that provides a user with audio feedback
JP4260788B2 (ja) 音声認識機器制御装置
US9123327B2 (en) Voice recognition apparatus for recognizing a command portion and a data portion of a voice input
JP2005331882A (ja) 音声認識装置、音声認識方法、および音声認識プログラム
JP2008058409A (ja) 音声認識方法及び音声認識装置
WO2008004486A1 (fr) Dispositif d'entrée vocale
US20020011143A1 (en) Musical score display for musical performance apparatus
US6629072B1 (en) Method of an arrangement for speech recognition with speech velocity adaptation
US7240008B2 (en) Speech recognition system, program and navigation system
JP2004325936A (ja) 音声認識装置、音声認識方法、並びに、音声認識プログラムおよびそれを記録した記録媒体
JP3842497B2 (ja) 音声処理装置
JP2000352992A (ja) 音声認識装置
JP4770374B2 (ja) 音声認識装置
JP4604377B2 (ja) 音声認識装置
JP4684583B2 (ja) 対話装置
JP4796686B2 (ja) 自動音声認識器を訓練する方法
JP2016157097A (ja) 音読評価装置、音読評価方法、及びプログラム
JP2019132979A (ja) カラオケ装置
JP2004029354A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JPH07168691A (ja) 表示図形領域選択方式
JP5196114B2 (ja) 音声認識装置およびプログラム
JP3700533B2 (ja) 音声認識装置及び処理システム
JP4093394B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060607

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060608

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090602

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20091104