JP3592803B2

JP3592803B2 - 音声認識装置および音声認識方法

Info

Publication number: JP3592803B2
Application number: JP19317495A
Authority: JP
Inventors: 哲朗知野; 恭之河野
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1995-07-28
Filing date: 1995-07-28
Publication date: 2004-11-24
Anticipated expiration: 2015-07-28
Also published as: JPH0944182A

Description

【０００１】
【発明の属する技術分野】
本発明は、利用者から入力される音声を、認識し分類する音声認識装置および音声認識方法に関する。
【０００２】
【従来の技術】
近年、利用者にとって使い易いユーザインタフェースの実現への期待から、音声認識技術の進展にともない、音声入力による計算機応用システムや機器制御システムへの要求が高まってきている。
【０００３】
さらに、マルチメディア情報処理技術の発展などとともに、音声入力を単独で利用するのみならず、従来の入力手段、たとえばキーボードや、マウス、タブレット、あるいはデータグローブや圧力センサなどによる様々な入力手段、あるいはディスプレイ、音声出力装置、力などの物理的な作用のフィードバックなど出力手段の、一部あるいは全部を、音声入力を同時に適宜併用し利用する“マルチモーダルユーザインタフェース”の一部として、音声認識技術の利用が進められつつある。
【０００４】
この様なマルチモーダルユーザインタフェースなどを、利用者にとって使い易いものとするための、音声入力の利用に関する様々な工夫が検討されている。
たとえば、利用者からの音声入力によって応用システムを制御する特開平６‐９５８２８号公報に開示された如きの“音声入力システム”では、確実性が要求される動作を指示する音声の入力時は多数回発声させるようにさせたり、多くのメディアを利用して入力を行なう場合の制約事項を用意し利用したり、各認識語彙に対応する画面上の部品などの形状や色あるいは濃度などを、現在の利用状況や利用条件や各語彙の認識率や認識辞書の学習の状況などによって制御することにより、音声を用いるユーザインタフェースの使い易さの向上を図っている。
【０００５】
しかし、音声を用いた従来のユーザインタフェースは以下に述べるような点で問題があり、いまだ利用者にとって使い易いユーザインタフェースを提供するに至らないのが現状である。
【０００６】
まず、第１には音声認識処理では、基本的に１００％の正解を得ることが非常に困難であるという点からくる問題である。これは音声認識処理での正答率が１００％でないと、音声入力の誤認識や、利用者の音声入力の検知失敗などの発生が避け難く、音声認識処理における認識誤りが発生した場合には、利用者に多大な負担の増加を招くという問題を抱えるということである。
【０００７】
つまり、認識誤りにより利用者は再度発声を行なったり、音声以外の他の入力手段によって入力を行なったり、システムから提示される他の認識候補からの選択操作が必要になったり、あるいは音声認識結果に基づいて何らかの制御動作を実行するシステムでは、誤認識によって誤って実行された制御動作の取消や、制御動作の実行によってもたらされた影響の修復などの余分な作業を利用者が行なうことを強いられ、これが多大な負担の増加を招くという問題があり、従って、音声認識処理に於ける誤認識の抑制技術の開発が大きな課題である。
【０００８】
また、第２に、ＧＵＩ（グラフィカルユーザインタフェース）と音声認識の併用をする場合に、コマンド文字列が長いときに音声コマンドは長くするという訳にはゆかず、短縮表現を使用する結果、両者の間に表現の不一致が避けられないケースがあるという問題である。
【０００９】
音声認識技術の応用形態の一つとして、近年、ウインドウ・システム（ＷｉｎｄｏｗＳｙｓｔｅｍ；例えば、ＵＮＩＸＯＳ（オペレーションシステム）やマイクロソフト社の提供するＷｉｎｄｏｗＯＳの如きもの）などに於いて、例えば、あるボタンをマウス等のポインティングデバイスによってクリック操作した場合に、その作用として起こる動作と、そのボタンに関連付けられたある音声入力コマンドとの対応関係を予め定義しておき、利用者がその音声入力コマンドを発声した場合に、それを音声認識技術で認識し、上述の対応関係から対応するボタンを検索し、そのボタンのクリック操作の効果を模擬することによって対応する動作を実行させる様にするといった具合に、ボタンやメニューなどのＧＵＩのオブジェクトへの音声コマンドの対応づけを定義し、音声入力によってウインドウシステムの操作を可能とする音声利用インタフェースの開発が進められている。
【００１０】
そして従来、このようなシステムでは、ボタンなどの各ＧＵＩオブジェクト上に表示されたラベルの表層文字列を音声コマンド入力できるようにする場合に、その表層文字列を発声した結果としての音声などを、対応する音声入力コマンドに当てるなどしていたが、以下に述べる理由によって、利用者はラベルの表層文字列と音声入力コマンドとの間の対応関係を一意に決定することが出来ず、困惑するなど、使い勝手が悪くなるという課題を抱える。
【００１１】
それは例えば、ラベルである表層文字列が長いものである場合、その長い表層文字列をそのまま音声化した音声信号を音声入力コマンドとすると、音声による入力での手軽さが損なわれるという点に起因し、これを回避すべく、例えば短縮表現を採用するなど、ラベルの表層文字列と異なる表現による音声入力を受付けられるようにすることが行なわれることから、ある同じ一つの操作内容を指令するコマンドとして、異なる複数種の表現の音声入力が利用可能になり、これにより、利用者はラベルの表層文字列と音声入力コマンドとの間の対応関係を一意に決定することが出来なくなってしまうということである。
【００１２】
具体的に説明する。たとえば“基本設定での印刷”とラベル付けされたボタンがあったとする。このボタンを音声コマンドで操作しようとする場合などに、“きほんせっていでのいんさつ（基本設定での印刷）”と発声する必要があるが、これでは長いので、状況によっては利用者が“いんさつ（印刷）”と短縮形で発声するだけで対応する動作が行なわれるようにする方が、より使い易いユーザインタフェースを提供できる。そのため、フルコマンド文字列対応の音声入力コマンドと、このような短縮形の音声入力コマンドを用意して利用できるようにする結果、利用者はラベルの表層文字列と音声入力コマンドの間の対応関係を一意に決定できないものとなる。
【００１３】
あるいは、ラベルである表層文字列が極端に短い場合や、例えば“送信”と“更新”というラベルをもつボタンがある場合の様に、発声としての音声入力コマンドが類似しており区別しにくいものであるものもあり、このような場合には、それぞれに、例えばそれぞれ“おくる（送る）”、“よみなおし（良み直し）”などといった同義語などによる音声入力コマンドを対応付けたり、あるいはそれぞれ“せんど（センド：ＳＥＮＤ）”や“あっぷでーと（アップデート：ＵＰＤＡＴＥ）”などといった同等の意味を持つ他言語の単語を対応付けるなどの対応策を講じておくことによって、ユーザインタフェースの向上を図るようにする。このようなことなども、ラベルの表層文字列と音声入力コマンドの間の対応関係を一意に決定できなくしている一例である。
【００１４】
さらに、同じ入力コマンドでも、意味の同じ種々の言葉を並行して割り当てておき、これによって、ユーザがいくつか同義語コマンドのいずれを用いて音声入力しても目的のコマンド実行を行なえるようにしてユーザインタフェースの向上を図るようにすることも行なわれている。
【００１５】
例えば“取消”というラベル表示のあるボタンに対し、対応する音声コマンドとしてそのラベルの表層文字列をそのまま発声した“とりけし”を対応付けるだけでなく、例えば“やりなおし”や“あんどぅー（アンドゥー：ｕｎｄｏ）”といった同義語を同時に対応付けたり、あるいは例えば“取り消せ”といった命令形での音声入力コマンドも受け付けられるようにするなど、場合によって、ある一つのＧＵＩオブジェクトに対して複数の音声コマンドの対応付けを行ない、ユーザインタフェースの向上が図られる。このことなども、ラベルの表層文字列と音声入力コマンドの間の対応関係を一意に決定できなくしている一例である。
【００１６】
以上示した通り、音声入力コマンドをＧＵＩオブジェクトに対応付ける音声認識インタフェースでは、発声すべき音声入力コマンドを対応するＧＵＩオブジェクト上のラベルの表層文字列の発声結果と一致させるだけでは、使い易いユーザインタフェースを提供することが出来ないという問題点があった。
【００１７】
さらに、音声は、例えばディスプレイ上に表示される文字データなどとは異なり、出力されている時間の間だけ利用者に提示される一過性のメディアであるという特徴から、例えばボタンなどに対応付けられそのボタンに対応する動作を音声により起動させる場合に発声すべき音声入力コマンドを、利用者に常時提示しておくことが出来ないという問題点がある。
【００１８】
さらに、例えばボタンなどのあるＧＵＩオブジェクトに対応する操作などを起動するための音声入力コマンドを利用者に常時提示しておくことが出来ないため、登録された音声入力コマンドの数が多くなった場合や、利用者が複数の異なった登録の組合せのセットを利用している場合や、利用者が時間をおいてシステムを使う場合などに、利用者が音声入力コマンドがどのような設定で登録されているかを全て覚えておくことが出来ず、音声を利用したユーザインタフェースを適切に利用できなくなるという問題点がある。
【００１９】
また、例えばＵＮＩＸシステムのようなマルチユーザの多人数で利用する機器においては、他人が音声入力コマンドの登録設定を行なう場合も考えられ、また音声入力コマンドの登録設定の情報が利用者が登録するのみではなく、あらかじめ設定された状態で利用者に提供されるような音声入力コマンドの利用形態も考えられ、このような場合にも、従来の方法では、利用者が音声入力コマンドの登録状況を全て把握することが困難であり、音声を利用したユーザインタフェースを適切に利用できなくなるという問題点がある。
【００２０】
以上に示したように、例えばボタンなどのＧＵＩオブジェクトなどに対応付けられた動作を音声入力で起動させるために発声すべき音声入力コマンドをそのＧＵＩオブジェクト上のラベルの表層文字列を発声したものとすることでは使いやすいユーザインタフェースを提供できないという問題点と、音声はその特徴から常時利用者に提示しておくことが出来ないという問題点と、音声入力コマンドを利用者が全て覚えておくことが出来ないという問題点とから、利用者がある操作を音声によって起動させようとする場合に、利用者が発声すべき音声入力コマンドが分からず利用者が戸惑いを感じるという問題点と、その結果音声入力コマンドを利用出来なかったり、利用者が適切でない音声入力を行ない発声が受理されなかったり、誤認識が引き起こされてしまったりするという問題点と、その結果利用者が再入力を強いられたり、誤認識の訂正やその結果行なわれた操作の影響の取消や修復を利用者が強いられるという問題点や、以上の問題点のために利用者の負担が増加するという問題点があった。
【００２１】
このような問題点に対し、従来は現在認識可能な音声入力コマンドの書き下し表層文字列を受理可能な語彙リストとして提示する方法や、例えばボタンなど対応するＧＵＩオブジェクトを指定して特定の操作を行なうことによって発声すべき標準的な音声入力の例を提示する方法などが開発されている（特開平４‐５１２９９号公報“音声認識制御方式”）。
【００２２】
しかし、前者の受理可能な語彙のリストを提示する方法では、受理可能な語彙数が多くなった場合に、それらのリストを適切に表示する方法がないことや、利用者が受理可能な語彙のリストを検索するために係る労力によって負担がかかるため、使いやすいユーザインタフェースを提供できない。
【００２３】
また、後者の標準的な音声入力の例を提示するという方法に関しては、音声の場合、書き下し結果が同じ表現であっても、その発声方法は話者ごとの個人性のために様々なものとなりうるという特徴があるため、各利用者に最適な例を用意することが出来ないという問題点がある。
【００２４】
つまり、同一の表層文字列で記述される発声であっても、例えば“ファイル”という表層文字列で記述に発声を、“ふぁ↓いる（ファイル）”と発声することも可能であり、また“ふぁ↑いる（ファイル）”と発声することも可能であるといった様な、アクセントやイントネーションの自由度によって音響的な違いが生じたり、あるいは、例えば“検索条件設定”という表層文字列で記述に発声を、“けんさくじょうけん・せってい（検索条件設定）”と発声することも可能であり、また“けんさく・じょうけんせってい（検索・条件設定）”と発声することも可能であるといった様な、フレージングの自由度によって音響的な違いが生じたり、あるいは、例えば“実行”という表層文字列で記述に発声を、“じっこう（実行）”と発声することも可能であり、また“じっこー（実行）”と発声することも可能であるといった様な、漢字の読み方の自由度によって音響的な違いが生じたりすることがあり、これが音声認識処理の精度に大きな影響を与える。
【００２５】
なおここでの記号“↓”および“↑”は、アクセントパターンを表しており、それぞれの位置の直前および直後にアクセントがある発声方法を表現しており、また、記号“・”はポーズの位置を表している。
【００２６】
そして、このような発声の音響的な相違は、利用者の個人の嗜好や鈍りや方言など個人性によるものであるため、他人の発声や合成音声による発声を、標準的な音声入力の例として用いる従来の手法では、十分な効果が得られないという問題があった。
【００２７】
さらに、音声入力コマンドが数多く登録される場合や、利用者があらかじめ特定されていない場合や、音声入力コマンドが利用中に順次追加されるシステムにおいては、適切な標準的な音声入力データの例を予め用意することは困難あるいは不可能であるという問題点があった。
【００２８】
【発明が解決しようとする課題】
このように、従来の標準的な音声入力コマンドの例を用意する方法では、発声の多様性と利用者の発声の個人性の問題から、予め適切な標準的な音声入力の例を用意出来ないという問題点があり、また、合成音声によって適切な標準的な音声入力の例を生成することが困難であるという問題点と、登録数の増大や不特定話者の利用あるいは音声入力コマンドの追加定義などの理由によって、標準的な音声を準備することが困難あるいは不可であるという問題点が存在した。
【００２９】
そして、これらが音声認識装置の認識処理における正答率を低下させ、音声入力コマンドによる利用者の操作性の改善を阻む原因であった。
そこで、この発明の目的とするところは、利用者から入力される音声を、認識し分類する音声認識装置において、発声の多様性と利用者の発声の個人性のために生じる問題を回避し、適切で標準的な音声入力の例を用意して提示することを可能にすると共に、これにより音声認識処理における正答率を大幅に向上させて、音声入力コマンドによる利用者の操作性の大幅な改善を図ることができるようにした音声認識装置および音声認識方法を提供することにある。
【００３０】
【課題を解決するための手段】
上記目的を達成するため、本発明はつぎのようにする。本発明は、操作内容を示した入力音声を音声認識し、その認識結果をアプリケーションへ操作内容として入力する音声認識装置において、
各種操作内容に対応する模範音声情報をそれぞれ記録保持する模範音声記録手段と、前記模範音声記録手段の保持する模範音声情報に基づき、指定された前記操作内容に対応する模範音声を出力する手段とより構成した。
【００３１】
本装置は、音声入力可能な操作入力対応の内容を示す模範音声の情報を、模範音声記録手段に記録保持させてあり、出力手段は利用者の指定する操作入力対応の内容を示す模範音声を、前記模範音声記録手段の模範音声の情報に基づいて、音声として出力する。
【００３２】
従って、音声認識装置で利用可能な模範音声を何時でも聞くことができるので、操作したい内容対応の音声としてどのような音声を発生すれば良いのか分からない時や、音声入力しても旨く目的通りの認識がされずに、操作が立ち往生してしまった場合などに、模範音声を提示させることで、正しい発生の音声を知ることができ、利用者の入力操作の大幅な改善が図れるようになる。
【００３３】
また、本発明は、操作内容を示した入力音声を分析し、音響モデル情報を含む辞書手段の辞書情報を参照して音声認識したその認識結果をアプリケーションへ操作内容として入力する音声認識装置において、
各種操作内容に対応する模範音声情報をそれぞれ記録保持する模範音声記録手段と、辞書学習時、複数回入力させてそれぞれ解析させた操作内容対応の入力音声のうち、その音響的特徴が前記辞書手段に保持させる音響的特徴のモデル情報に対する類似度の高いものについて選択して前記模範音声記録手段に記録させる選択手段と、前記模範音声記録手段の保持する模範音声情報に基づき、指定された前記操作内容に対応する模範音声を出力する手段とを具備して構成する。
【００３４】
このような構成において、模範音声記録手段には学習時、音声入力可能な操作内容に対応する音声の模範音声情報を、学習のために入力した入力音声それぞれについての解析結果に基づき選択して記録する。これは当該解析により得られたそれぞれの音響的特徴の情報が、辞書手段に保持させる音響的特徴のモデル情報に対して類似度からみて最も高いものを選択して記録保持させることで、実際の音声中から最適なものを模範音声として記録保持させることを可能にしている。
【００３５】
このようにして音声入力可能な操作内容対応の模範音声の情報を、模範音声記録手段に記録保持させてあり、出力手段は利用者の指定する操作内容対応の内容を示す模範音声を、前記模範音声記録手段の模範音声の情報に基づいて音声として出力することができる。
【００３６】
従って、音声認識装置で利用可能な模範音声を何時でも聞くことができるので、操作したい内容対応の音声としてどのような音声を発生すれば良いのか分からない時や、音声入力しても旨く目的通りの認識がされずに、操作が立ち往生してしまった場合などに、模範音声を提示させることで、正しい発生の音声を知ることができ、利用者の入力操作の大幅な改善が図れるようになる。また、模範音声は、実際に学習により入力させた音声のうち、音響モデルに対する類似度の高いものを選択して保持させてあるので、利用者は何時でも正しい発生の音声を知って正しい音声入力操作ができるようになる。
【００３７】
また、本発明に係る音声認識方法は、操作入力としての入力音声を分析し、辞書情報を参照して音声認識する。すなわち、入力音声からその音響的特徴の情報を分析抽出すると共に、これにより得られた前記音響的特徴の情報を、音声の音響的特徴のモデル情報とこれに対する入力音声情報の語彙対応情報である分類情報との対応関係を有した辞書情報を用い、入力音声の音響的特徴の情報と音響的特徴のモデル情報の比較による認識処理を行って各分類情報との類似度を求める。そして、この類似度から模範的な入力音声とその分類情報との対応関係の組である模範音声情報を得て、これを保存する。そして、要求に応じ、前記保存模範音声情報に基づいて模範的な音声を発生させ、利用者に提示する。
【００３８】
この模範的な音声を利用者へ提示することを可能にしたことにより、操作入力としての正しい入力音声を知らせることができるようになり、音声認識に利用可能な模範音声を何時でも聞くことができることから、操作したい内容対応の音声としてどのような音声を発生すれば良いのか分からない時や、音声入力しても旨く目的通りの認識がされずに、操作が立ち往生してしまった場合などに、模範音声を提示させることで、正しい発生の音声を知ることができ、利用者の入力操作の大幅な改善が図れるようになる。
【００３９】
【発明の実施の形態】
本発明システムは、操作入力としての入力音声を分析し、音声入力可能な操作入力とそれに対応する音声の音響モデル情報を辞書情報として記録保持する辞書手段の当該辞書情報を参照して音声認識することより、得たその認識結果をアプリケーションへ操作内容として入力するようにした音声認識装置において、
音声入力可能な操作内容とそれに対応する音声の模範音声情報を記録保持する模範音声記録手段と、辞書学習時、複数回入力させてそれぞれ解析させた操作入力対応の入力音声のうち、その音響的特徴が前記辞書手段に保持させる音響的特徴のモデル情報に対しての類似度の高いものを選択して前記模範音声記録手段に記録させる選択手段と、音声入力可能な所望操作内容対応の模範音声の提示を選択指定する手段と、この選択指定に基づき該当する操作内容対応の模範音声を、前記模範音声記録手段の保持する模範音声情報から得て出力する手段とを具備して構成する。
【００４０】
辞書手段には、操作入力としての入力音声を分析処理することにより得られた音響的特徴のモデル情報（例えば、特徴量情報）が操作内容としての分類情報（操作入力コマンドとしての語彙に相当）対応に記憶され、辞書情報として利用できるようになっている。
【００４１】
そして、模範音声記録手段には学習操作時に、音声入力可能な操作内容対応の音声を入力し、これを解析（分析）することによって選択された最適な音声を保存する。すなわち、学習操作時に、音声入力可能な操作内容対応の音声を入力し、これを解析（分析）することによって得られた結果としての音響的特徴の情報を、辞書に登録する音響的特徴の情報のモデル情報である音響的特徴モデル情報と比較して類似度を求め、類似度が高い入力音声についてそれを模範音声選択手段に選択させ、その選択された入力音声を模範音声記録手段に保持させる。
【００４２】
このような選択により、模範音声記録手段には入力されて解析された入力音声のうち、前記辞書手段に保持させる音響的特徴のモデル情報との類似度の高いものがそれぞれの操作内容対応に模範音声情報として記録されることになり、出力手段はこれらのうち、利用者の指定する操作内容対応の模範音声を、当該模範音声の情報に基づいて、音声として出力する。
【００４３】
本発明によれば、発声の多様性と利用者の発声の個人性のために生じる問題を回避し、適切な標準的な音声入力の例を実際の音声として提示することができるように用意することが可能となる。
【００４４】
また、その結果、合成音声によって適切な標準的な音声入力の例を生成することが困難であるという問題点と、登録数の増大や不特定話者の利用者あるいは音声入力コマンドの追加定義を行なう場合などに適切な標準的な音声入力の例を準備することが困難あるいは不可であるという問題点を回避することが可能となる。
【００４５】
（具体的な実施の態様）
以下、具体的にその詳細を、図面を参照して説明する。
図１は、本発明の一実施例の音声認識装置の主要部構成の概要を示しており、１は入力処理部、２は分析処理部、３は辞書情報記録部、４は認識処理部、５は模範音声記録部、６は模範音声提示部、７は模範音声選択処理部であり、これらから本装置は構成されている。
【００４６】
これらのうち、入力処理部１は例えばマイクロフォンやアンプあるいはＡ／Ｄ（アナログ／ディジタル）変換装置などからなる音声入力のための入力処理部を表しており、利用者からの音声入力信号などを収集し、ディジタル化して入力音声情報として分析処理部２へと適宜送ることができる構成である。
【００４７】
またこの入力処理部１では、例えば入力音声信号のパワー計算結果の閾値処理などによる音声区間の切り出し処理などを行なうようにも構成することができる。
【００４８】
分析処理部２は音声情報を分析処理するためのものであり、入力処理部１から送られる入力音声情報を受けとり、これを例えば高速フーリエ変換（ＦＦＴ）による周波数分析を行なうことなどによって、特徴パラメータの時系列などの特徴量情報を得てこれを、これを認識処理部４や模範音声選択処理部７などへ適宜送るようにしたものである。
【００４９】
辞書情報記録部３は、辞書情報を保持するものであって各語彙や音素などの認識単位についての音響的特徴のモデル情報やそれらの間の接続条件や、それら音響的特徴の分析結果と認識結果として出力される認識語彙などである分類情報との対応関係に関する情報が記録されている。
【００５０】
図２に辞書情報記録部３の内容の例を示しておく。
辞書情報記録部３の各エントリには、認識処理部４から参照され、利用される辞書情報が、語彙などの分類情報Ａと、その音響的特徴パラメータの時系列などの最適な特徴量情報（音響的特徴のモデル情報）を記述した特徴量情報Ｂの組として分類され記録されるようにしており、例えば、図２のアドレスＰ１のエントリでは、分類情報Ａの欄が「印刷」であることから、その特徴量情報Ｂの欄に該語彙に対する情報「いんさつ」を記録していることが分かる。
【００５１】
なお表記の都合上から、図２の各エントリの特徴量情報Ｂの欄には、対応する語彙の音声の書き下し表層を記入している。
図１に於いて、認識処理部４は、分析処理部２から特徴量情報（音響的特徴の情報）を受けとり、辞書情報記録部３の内容を参照して、例えば複合類似度法、ＨＭＭ（ＨｉｄｄｅｎＭａｒｃｏｖＭｏｄｅｌ）、ＤＰ（ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ）、あるいはＮｅｕｒａｌＮｅｔｗｏｒｋ（神経回路網）などのマッチング技術を用いた処理などにより、ある入力音声信号に対する認識結果の候補である語彙などの分類情報と、各認識候補に対する信憑性を表す類似度などのスコアを含む認識結果情報を適宜出力する構成となっている。
【００５２】
また、認識処理部４では、語彙等の分類情報の判明している利用者からの音声入力を受けとり、その後の認識処理等で利用する分類情報と特徴量情報（音響的特徴のモデル情報）の組からなる辞書情報を生成あるいは、既存の辞書情報を修正し、辞書情報記録部３に記録する認識辞書学習処理も行なうようにしている。
【００５３】
つぎに、模範音声記録部５は、模範音声を記録保持しているものであり、利用者が音声入力の発声する際の例となる音声入力の例が各語彙などの分類情報と共に適宜記録されるようにしている。
【００５４】
図３は、模範音声記録部５の内容の例を示している。
模範音声記録部５の各エントリには、模範音声提示部６や認識処理部４や模範音声選択処理部７などから参照され利用される模範音声の情報が、語彙などの分類情報Ａと、対応する模範音声の音声信号情報やあるいはその音響的特徴パラメータの時系列などの情報を記述した模範音声情報Ｂの組として分類され記録されている。そしてこのようにすることにより、例えば、図３のアドレスＱ２のエントリでは、分類情報Ａの欄が「取消」であることから、その模範音声情報Ｂの欄に該語彙に対する模範音声データあるいはその特徴量情報が記録されていることが分かる構成である。
【００５５】
なお表記の都合上から、図３の各エントリの特徴量情報Ｂの欄には、対応する語彙の音声の書き下し表層を記入している。
また図１における模範音声提示部６は、例えばスピーカやアンプあるいはＤ／Ａ（ディジタル／アナログ）変換装置などによって構成されており、利用者からの要求があったり、あるいは、音声入力の認識処理に於ける例えば誤認識が発生することなどによって、“模範提示モード”に移行し、作動状態になって模範音声記録部５を参照し、音声入力の例を利用者に適宜提示することができるものとしてある。
【００５６】
すなわち、この模範音声提示部６は、“模範提示モード”のときに利用者に対して模範音声を提示することができるようにしてある。本システムでは通常の利用状態である“通常利用モード”と、模範音声を提示する動作状態である“模範提示モード”とを持ち、模範音声を提示するための指示ボタンである“模範提示”ボタンの操作や、“模範提示モード”を指示する利用者の音声入力コマンド（例えば、“もはんおんせいていじ”）の発声により、“模範提示モード”に移行すると、利用者の指定する音声入力可能な音声入力コマンドの模範音声を音声で提示する機能を有する。
【００５７】
図４は、模範音声提示部６の機能を示す画面構成の例を示している。ＤＩＳＰはディスプレイであり、ｐ１〜ｐ４がディスプレイＤＩＳＰ上に表示された操作可能なＧＵＩオブジェクトとしてのボタンであり、矢印はディスプレイＤＩＳＰ上に表示されたマウスカーソル、ＳＰはスピーカ等による音声出力装置である。
【００５８】
図４において、（ａ）は通常の利用状態である“通常利用モード”での画面の状態を示しており、（ｂ）および（ｃ）は模範音声を提示する動作状態である“模範提示モード”での画面の状態を示している。
【００５９】
ここでは画面例に現れている操作可能なＧＵＩオブジェクト（利用者が操作可能なＧＵＩオブジェクト）は、ボタンｐ１、ｐ２、ｐ３、およびｐ４であるとし、さらに、これらのうち音声入力コマンドが定義済みで音声入力による操作が可能なものがｐ２とｐ４であったとする。
【００６０】
ここで図４（ｂ）の“模範提示モード”では、音声入力による操作が可能なボタンの例えば色などを変更することで、利用者にどのボタンが音声操作可能であるかなどを知らせることが出来るようにしている。
【００６１】
また、本装置は実際にシステムに応用する場合での、全体のシステム構成を示すと、図５のような構成となる。すなわち、利用者の操作のために、図５に示すように、マウスなどのポインティングデバイスＰＤとその情報を取り込むインタフェースＩＦを備えており、また、そのポインティングデバイス入力情報を得て、その情報対応にポインタ（マウスであればマウスカーソル）をディスプレイＤＩＳＰ上に表示し、さらに、上述のようなディスプレイＤＩＳＰ上のボタンと上記ポインタとの位置関係を管理制御する制御手段ＣＮＴを設けてあって、利用者がポインティングデバイスを操作することにより、位置操作されるポインタによりポインティングしたり、クリック操作を行なったりすることができる。
【００６２】
また、ディスプレイＤＩＳＰ上に装着したタッチパネル（ディスプレイＤＩＳＰ上にタッチパネルが装着してある場合）などにより、ポインティングを行なう構成を採用することなどによっても、この情報を上記プロセッサにより模範音声提示部６に与えるようにすることができる。
【００６３】
そして、このポインティングにて、ディスプレイＤＩＳＰ上に表示されているボタンを指定することにより、前記制御手段ＣＮＴはどのオブジェクトがポインティングされたかを知って、模範音声提示部６にこれを指示し、模範音声提示部６では模範音声記録部５の内容を参照し、指示されたオブジェクト対応の模範音声の情報を抽出して、この情報に基づく模範音声を音声出力装置ＳＰを通じて音声化して利用者に提示することができるようにしている。
【００６４】
なおここでの模範音声提示のための指示は、利用者が例えばマウスをクリック操作せずとも利用者のマウス操作により、画面上のマウスポインタ（マウスカーソル）が対応するオブジェクト上に来た時点で模範音声提示部６が即座に行なうようにする構成とすることも可能である。
【００６５】
また、前記“通常利用モード”と“模範提示モード”の切替えは、利用者の操作によってなされるように構成することも可能であるし、また音声認識処理の例えば失敗の連続などといった動作状態や、応用アプリケーションの状態や、認識辞書学習を行なう動作モードとの連動などによるシステム側からの制御で自動的に切替が行なえるように構成することも可能である。
【００６６】
本発明においては、模範音声記録部５を設けて模範音声に関する情報を何時でも利用できるようにし、模範音声提示部６により、この模範音声に関する情報に基づいた模範音声を音声として出力して利用者に提示することで、利用者に対してどのような音声で音声入力操作すれば良いのかを知らせることができるようにした点は第１の特徴的構成である。
【００６７】
図１における模範音声選択処理部７は、この具体例でのこの第１の特徴的構成を実現するにあたって、どのように模範音声を選択して模範音声記録部５に登録するかを決める要素である。
【００６８】
模範音声記録部５には、音声入力コマンドについての模範的な音声を情報として記録するが、この模範音声選択処理部７では、その記録すべき模範的な音声を選択する機能を有する。
【００６９】
すなわち、この模範音声選択処理部７では、音声認識辞書学習時、入力処理部１を介して入力される利用者からの少なくとも１つ以上の入力音声情報を分析処理部２にて分析した結果である特徴量情報（音響的特徴の情報）を受けとり、認識処理部４での辞書学習処理を行なう際に、辞書情報記録部３に記録されている対応する語彙等の分類情報の特徴量情報（音響的特徴のモデル情報）を利用した認識処理を実施し、最も高い類似性を持つ入力音声の入力音声情報を選択し、模範音声記録部５にその分類情報に対する模範音声として適宜記録することによって、利用者に提示させるべき最も適切な発声を、模範音声として提示できるように選択記録するものである。
【００７０】
つまり、各語彙の分類情報に対応する音声の特徴量情報を辞書登録するにあたり、各語彙対応の言葉一つづつを、１回以上、通常は複数回、発声してそれぞれその特徴量を収集し、その平均値化した特徴量を情報として辞書登録する。
【００７１】
例えば、印刷することを指令するための語彙の分類情報である“印刷”なる言葉に対して、音声認識のための特徴量情報を対応つけて登録するには、“印刷”なる言葉に対する音声の辞書登録のための学習処理時に、“いんさつ”なる音声を何回か繰り返して入力してそれぞれの“いんさつ”なる音声毎の音の特徴量情報を解析収集し、これら特徴量情報に共通する特徴を抽出するなどして最適な特徴量情報（音響的特徴のモデル情報）として取得する。そして、これを“印刷”なる言葉対応の音声の特徴量情報（音響的特徴のモデル情報）として辞書情報記憶部３に辞書登録する。
【００７２】
その際、最適特徴量情報（音響的特徴のモデル情報）に対する類似度を、前記入力されたそれぞれの“いんさつ”なる音声毎に求めて、類似度の最も良好であった音声入力を選んで、それを“印刷”なる言葉対応の模範音声の情報として模範音声記録部５に記録させるべく制御して当該模範音声記録部５に記録させるようにし、模範音声の提示要求の際にその音声を提示できるようにしておく。
【００７３】
このように、音声入力してこれを解析し、特徴量等による音響モデルを取得して語彙対応に当該音響モデルを登録するといった音声認識のための辞書学習をさせるが、このような辞書作成のための学習処理時に、言葉毎（音声入力コマンド毎）の模範音声として実際に上記辞書学習において繰り返し入力させた音声のうちの音響モデル類似度の高いものを選択することで選定し、この選定した音声を模範音声記録部５に記録させるようにする機能がこの模範音声選択処理部７の機能である。
【００７４】
そして、これにより選択記録された音声そのものが模範音声として、実際の音声で提示できるようにしたことが本発明の特徴の一つでもある。
なお、模範音声記録部５には、模範音声を得るための情報として、入力音声情報そのものを記録する代わりに、音響モデルに最も近似する入力音声の特徴量情報、あるいは音響モデルに最も近似する入力音声の認識結果である分類情報（語彙）のいずれかであっても良い。この場合、特徴量情報、分類情報はいずれも音声そのものでないから、これを模範音声として提示するには、音声合成の技術を適用する必要がある。そのため、この構成を利用するには模範音声提示部６に音声合成機能を持たせる必要があるが、音声そのものを記録しておく場合に比べて、記録容量が大幅に少なくできるメリットがあり、音声合成技術が実用上、十分なレベルとなればこの構成は採用して有利である。そして、これにより模範音声として、実際の音声で提示できるようになる。
【００７５】
以上が本装置の構成とその機能である。
ここで先ず上述した音声認識処理について更に詳しく説明する。
本装置の基本的な利用は以下に示す手順Ａ、手順Ｂ、および手順Ｃの通りに行なわれる。
【００７６】
音声入力により応用システムを操作する通常の利用状態は以下の手順Ａに沿った音声認識処理で実施される。
＜手順Ａ＞
［ステップａ１］：利用者が音声入力したい情報内容対応の言葉を発声することにより、この発生された音声は入力音声信号として入力処理部１によって処理され、音声入力情報として分析処理部２へと送られる。
【００７７】
［ステップａ２］：音声入力情報が分析処理部２に与えられると、分析処理部２ではこれを処理して、例えば周波数分析結果等のパラメータの時系列情報などの特徴量情報を得、これを認識処理部４へ与える。
【００７８】
［ステップａ３］：認識処理部４ではこの特徴量情報に対して辞書情報記録部３を参照して、認識照合処理が行なわれ、各認識結果候補に対して、認識処理の確信度のスコアである類似度と共に、認識結果である分類情報を得る。そして、認識処理部４はこの得た類似度と分類情報とを、音声入力によって操作すべき対象の応用システムに音声認識処理結果として与える。
【００７９】
［ステップａ４］：応用システムに音声認識処理結果が入力されると、当該応用システムはこれに対応する操作を実行する。
［ステップａ５］：再び、［ステップａ１］の処理へと戻る。
【００８０】
以上が、通常の利用状態（通常の音声認識）における手順であり、入力処理部１から入力された操作入力としての入力音声を分析処理部２で分析し、この分析結果を認識処理部４が辞書情報記憶部３の辞書情報を参照して音声認識することより、得たその認識結果をアプリケーションＡＰへの操作入力として利用するといった本装置における通常の音声認識手順を説明した。
【００８１】
ところで、利用者からの要求があったり、あるいは、音声入力の認識処理に於ける誤認識が頻発することなどによって、制御手段ＣＮＴの制御のもとに、模範音声提示部６はその時点で入力可能な音声入力の例の模範音声を、模範音声記録部５を参照して利用者に提示する。
【００８２】
そして、これにより、音声認識装置で利用可能な模範音声を何時でも聞くことができるようにして、操作したい内容対応の音声としてどのような音声を発生すれば良いのか分からない時や、音声入力しても旨く目的通りの認識がされずに、操作が立ち往生してしまった場合などに、模範音声を提示させることで、正しい発生の音声を知ることができるようにし、利用者の入力操作の大幅な改善を図るようにしている。その際の処理の手順をつぎに説明する。
【００８３】
利用者が行なうべき音声入力の発声方法などを提示するための模範音声の出力は、以下の手順Ｂに沿った処理によってなされる。
＜手順Ｂ＞
［ステップｂ１］：模範音声提示要求のための音声入力（音声入力コマンド）やボタン／メニュー操作などによる利用者からの要求、あるいは誤認識の発生などを原因としての、応用システムなどの動作により、制御手段ＣＮＴが模範音声提示モードでシステムが動作するようにシステムを制御する。そして、制御手段ＣＮＴはディスプレイＤＩＳＰに図４の（ｂ）の如く、現状で行える操作対象を音声入力の模範音声提示を選択できる状態に画面表示する。利用者はこの画面から所望の操作対象の音声入力の模範音声提示をポインティングにより選択指定することで、音声提示すべき音声入力の例を決定する。
【００８４】
［ステップｂ２］：この提示すべき例が決定されると、制御手段ＣＮＴは模範音声記録部５から、この提示に対応する分類情報に関する音声入力の例である発声データを検索して、模範音声提示部６へと送る。
【００８５】
［ステップｂ３］：模範音声提示部６は、この発声データを音声信号化し、スピーカ等を通じて音声として出力する。これにより、音声入力の例である模範音声が利用者に提示される。
【００８６】
本システムには、通常の利用状態である“通常利用モード”と、模範音声を提示する動作状態である“模範提示モード”、辞書学習等に使用する“学習モード”とがあり、利用者はいずれかを選択することができる。何も選択しない時は通常の利用状態である“通常利用モード”で運用され、ディスプレイＤＩＳＰは図４の（ａ）の如き画面を表示して画面からの入力操作と、音声入力操作が可能であり、音声入力操作に対しては、その音声入力に対する認識結果を出力するという機能になる。“通常利用モード”では模範音声の提示はできない。
【００８７】
“模範提示モード”は模範音声を音声で提示するモードである。
利用者が“模範提示モード”を選択したときは図５に示す制御手段ＣＮＴはディスプレイＤＩＳＰの表示画面を図４の（ｂ）および（ｃ）の如き状態にして、操作可能なボタンの色などを変更するといった制御をすることで、利用者にどのボタンが音声操作可能であるか、などを知らせるようにすると共に、そのボタンをポインティングすると、そのボタンに定義してある内容対応の音声入力コマンドを、模範音声で提示するように、模範音声記録部５から該当のものを抽出して模範音声提示部６に与え、模範音声として提示する。これにより何をして良いのかわからない利用者に対して、模範音声を知らせることができるようになる。
【００８８】
すなわち、本装置は、図５に示すように、音声入力可能な操作入力対応の内容を示す模範音声の情報を記録保持する模範音声記録部５と、指定された操作入力対応の模範音声を、この模範音声記録部５の保持する模範音声情報に基づいて出力する模範音声提示部６と、制御手段ＣＮＴと、ポインティングデバイスＰＤと、インタフェースＩＦと、ディスプレイＤＩＳＰとがある。
【００８９】
そして、ポインティングデバイスＰＤでディスプレイＤＩＳＰ上の音声入力可能な対象オブジェクトをポインティングすることにより、制御手段ＣＮＴはこれを認識して模範音声記録部５から該当の模範音声の情報を読出し、模範音声提示部６に与える。
【００９０】
模範音声記録部５には、音声入力可能な操作入力対応の内容を示す模範音声の情報を記録保持させてあり、制御手段ＣＮＴを介して上述のような読出し制御をすることにより、模範音声出力手段である模範音声提示部６は利用者の指定する操作入力対応の内容を示す模範音声を、この模範音声記録部５の模範音声の情報に基づいて、音声として出力することができる。
【００９１】
従って、音声認識装置で利用可能な模範音声を何時でも聞くことができるので、操作したい内容対応の音声としてどのような音声を発生すれば良いのか分からない時や、音声入力しても旨く目的通りの認識がされずに、操作が立ち往生してしまった場合などに、模範音声を提示させることで、正しい発生の音声を知ることができ、利用者の入力操作の大幅な改善が図れるようになる。なお、模範音声のみの提示の他に、「〜をさせるには、…と発声してください。」（但し、…は“模範音声”の提示を示す）といったように、操作案内とその操作のための音声コマンドの模範音声を案内提示する方法も考えられる。
【００９２】
ところで、模範音声記録部５に対する模範音声の収集記録保持は、認識辞書の学習処理において、模範音声選択処理部７により選択されたものについて行なうようにしている。
【００９３】
この認識辞書の学習処理等を行なう場面では、以下の手順Ｃに沿った処理が実施される。
＜手順Ｃ＞
［ステップｃ１］：利用者あるいは本音声認識装置によって指定された、ある語彙等の分類情報Ａについての、利用者から少なくとも１回以上の発声が本音声認識装置に入力され、各々記録される（この入力音声を学習発声と呼ぶこととする）。
【００９４】
［ステップｃ２］：各学習発声の入力音声信号は、入力処理部１を経て入力音声情報として分析処理部２へと送られ、分析処理が実施され、特徴量情報（音響的特徴の情報）が出力される。
【００９５】
［ステップｃ３］：各学習発声の特徴量情報について、認識処理部４において、辞書情報記録部３の分類情報Ａに対応するエントリとの認識照合処理が実施され、各学習発声について辞書の持つ音響的特徴のモデル情報との類似度が算出される。
【００９６】
［ステップｃ４］：各学習発声のうち最も高い類似度を持つものの発声データと、分類情報Ａの組を模範音声として模範音声記録部５に記録する。
すなわち、本システムには制御手段ＣＮＴと、ポインティングデバイスＰＤと、インタフェースＩＦと、ディスプレイＤＩＳＰとがあり、ポインティングデバイスＰＤで、あるいはタッチパネルでディスプレイＤＩＳＰ上の学習モードのボタンを示すオブジェクトをポインティングすることにより、制御手段ＣＮＴはこれを認識して“学習モード”となる。
【００９７】
“学習モード”は音声入力可能な操作入力に対応する音声の入力を、複数回ずつ行ない、その入力音声それぞれについて、分析処理部２での解析結果に基づき、音響的特徴のモデルを得て、これを語彙対応に辞書登録することができるというモードである。但し、音響的特徴のモデル情報が既にある辞書においては、その修正のために、発声を行なう場合があるが（認識辞書の適応処理）、その場合には実用上、複数回発声するのが普通ではあるが、一回だけ発声させるといったこともある。
【００９８】
模範音声記録部５には、複数回繰り返して入力される音声入力可能な操作入力対応の音声を、それぞれについて分析処理部２で解析して、その解析結果に基づき、得た特徴量情報等による音響モデルを記録保持させる。そして、模範音声記録部５に対するこのような辞書学習時、模範音声選択処理部７は、複数回入力させてそれぞれ解析させた操作入力対応の入力音声のうち、前記辞書情報記憶部３に保持させる音響的特徴のモデル情報との類似度の高いものを選択して前記模範音声記録部５に記録させるように動作する。
【００９９】
なお、学習操作が認識辞書の適応処理であった場合には実用上、複数回発声するのが普通ではあるが、一回だけ発声させるといったこともある。その場合は、その発声の音響的特徴が適応処理で得られた音響的特徴のモデル情報との比較により類似度が高い場合に模範音声記録部５に更新記録する。複数回の発声の場合は音響的特徴のモデル情報との類似度が高いものを選択する。
【０１００】
このようにして“学習モード”では音声入力可能な操作入力対応の内容を示す模範音声の情報を、学習時に得られた一つの操作入力毎に複数ある当該操作入力対応音声の各解析結果（特徴量情報）のうち、辞書に登録する特徴量情報と類似度の高いものを選択して、これを当該操作入力対応の模範音声として前記模範音声記録部５に記録記録保持させることができるようになり、模範音声を何時でも音声で提示できるようになる。
【０１０１】
以上、本発明システムは、操作入力としての入力音声を分析し、音声入力可能な操作入力とそれに対応する音声の音響モデル情報を辞書情報として記録保持する辞書手段の当該辞書情報を参照して音声認識することより、得たその認識結果をアプリケーションへ操作内容として与えるようにした音声認識装置において、音声入力可能な操作内容に対応する音声の模範音声情報をそれぞれ記録保持する模範音声記録手段と、辞書手段に対する学習時、複数回入力させてそれぞれ解析させた操作内容対応の入力音声のうち、前記辞書手段に保持させる音響的特徴のモデル情報に対する類似度の高いものを選択して前記模範音声記録手段に記録させる選択手段と、音声入力可能な所望操作内容対応の模範音声の提示を選択指定する手段と、この選択指定に基づき該当する操作内容対応の模範音声を、前記模範音声記録手段の保持する模範音声情報から得て出力する手段とを具備して構成したものである。
【０１０２】
辞書手段には、操作入力としての入力音声を分析処理することにより得られた音響モデル情報（例えば、特徴量情報）が操作入力としての分類情報（操作入力としての語彙に相当）対応に記憶され、辞書情報として利用できるようになっている。そして、模範音声記録手段には音声入力可能な操作内容に対応する音声の模範音声情報を、複数回ずつ行なう操作内容対応の入力音声それぞれについての解析に基づき、得る音響的特徴の情報から、それぞれの操作内容対応の音響的特徴のモデル情報に類似度が最も近い入力音声を、模範音声選択手段に選択させてそれを保持させる。
【０１０３】
このような選択により、複数回入力されてそれぞれ解析された操作入力対応の入力音声のうち、前記辞書手段に保持させる音響的特徴のモデル情報との類似度の高いものが選択されて前記模範音声記録手段に記録されることになり、出力手段はこれらの音声入力可能な操作内容対応の模範音声の情報のうち、利用者の指定する操作内容対応の模範音声を、当該模範音声の情報に基づいて、音声として出力する。
【０１０４】
かくしてこのように構成された本装置によれば、利用者各人が認識辞書作成のために発声した自己の発声データの中から音声認識処理で最適な発声データが自動的に選択されるため、発声の多様性と利用者の発声の個人性のために生じる問題を回避し、適切な標準的な音声入力の例を用意することが可能となる。
【０１０５】
また、その結果、合成音声によって適切な標準的な音声入力の例を生成することが困難であるという問題点と、登録数の増大や不特定話者の利用あるいは音声入力コマンドの追加定義を行なう場合などに適切な標準的な音声入力の例を準備することが困難あるいは不可であるという問題点を回避することが可能となる。
【０１０６】
以上が、本発明の一例としての構成、動作、機能および効果である。
尚、本発明の構成および効果も上述した例に限定されるものではない。
上述の実施例では、応用アプリケーションの操作を音声入力によって行なう場合の利用方法を示したが、例えば、ＷｉｎｄｏｗＳｙｓｔｅｍのＧＵＩ操作に限定される訳ではなく、例えば、物理的なボタンによって操作する機器などを音声入力によって制御するようなシステムにおいても有効である。
【０１０７】
さらに、上述の実施例では、音声による入力を認識するシステムを示したが、その他、画像や図やジェスチャなどの動作などを入力としそのパターンを認識するユーザインタフェース一般にも拡張することが可能である。
【０１０８】
【発明の効果】
以上説明したように、本発明によれば、利用者各人が認識辞書作成のために発声した自己の発声データの中から音声認識処理で最適な発声データが自動的に選択されるため、発声の多様性と利用者の発声の個人性のために生じる問題を回避し、適切な標準的な音声入力の例を用意することが可能となる。
【０１０９】
また、その結果、合成音声によって適切な標準的な音声入力の例を生成することが困難であるという問題点と、登録数の増大や不特定話者の利用あるいは音声入力コマンドの追加定義を行なう場合などに適切な標準的な音声入力の例を準備することが困難あるいは不可であるという問題点を回避することが可能となる。
【図面の簡単な説明】
【図１】本発明を説明するための図であって、本発明の一例としての音声認識装置の構成例の概要を示すブロック図。
【図２】本発明を説明するための図であって、本発明の一例としての辞書情報記録部３の内容例を示す図。
【図３】本発明を説明するための図であって、本発明の一例としての辞書情報記録部５の内容例を示す図。
【図４】本発明を説明するための図であって、本発明の一例としての模範音声提示部６の機能を説明するための画面構成例を示す図。
【図５】本発明を説明するための図であって、本発明の一例としてのシステム構成例を示すブロック図。
【符号の説明】
１…入力処理部
２…分析処理部
３…辞書情報記録部
４…認識処理部
５…模範音声記録部
６…模範音声提示部
７…模範音声選択処理部
ＳＰ…スピーカ
ＰＤ…ポインティングデバイス
ＩＦ…インタフェース
ＣＮＴ…制御手段。
ＡＰ…アプリケーション
ＤＩＳＰ…ディスプレイ。

Claims

操作内容を示した入力音声を分析し、音響モデル情報を含む辞書手段の辞書情報を参照して音声認識したその認識結果をアプリケーションへ操作内容として入力する音声認識装置において、
辞書学習時に、各操作内容を示す各語彙に対し入力された複数の音声のそれぞれの音響的特徴量を平均化して、各語彙に対する前記音響モデル情報を求めるとともに、前記各語彙に対し入力された前記複数の音声のうち当該語彙に対応する音響モデル情報に最も類似度の高い音声を当該語彙に対応する模範音声として記録保持する模範音声記録手段と、
前記入力音声に対する音声認識に誤認識が発生したときに、現状で行える操作内容のメニューを表示する手段と、
前記メニューから選択された操作内容に対応する語彙の前記模範音声を出力する手段と、
を具備したことを特徴とする音声認識装置。
操作内容を示した入力音声を分析し、音響モデル情報を含む辞書手段の辞書情報を参照して音声認識したその認識結果をアプリケーションへ操作内容として入力する音声認識装置において、
辞書学習時に、各操作内容を示す各語彙に対し入力された複数の音声のそれぞれの音響的特徴量を平均化して、各語彙に対する前記音響モデル情報を求めるとともに、前記各語彙に対し入力された前記複数の音声のうち当該語彙に対応する音響モデル情報に最も類似度の高い音声の特徴情報を当該語彙に対応する模範音声情報として記録保持する模範音声記録手段と、
前記入力音声に対する音声認識に誤認識が発生したときに、現状で行える操作内容のメニューを表示する手段と、
前記メニューから選択された操作内容に対応する語彙の前記模範音声情報を基に模範音声を音声合成して出力する手段と、
を具備したことを特徴とする音声認識装置。
操作内容を示した入力音声を辞書情報を参照して音声認識して操作内容を得る音声認識方法において、
辞書学習時に各操作内容を示す各語彙に対し入力された複数の音声のそれぞれの音響的特徴量を平均化して、各語彙に対する音響モデル情報を求めるとともに、前記各語彙に対し入力された前記複数の音声のうち当該語彙に対応する音響モデル情報に最も類似度の高い音声を当該語彙に対応する模範音声として記録保持し、
前記入力音声に対する音声認識に誤認識が発生したときに、現状で行える操作内容のメニューを表示し、当該メニューから選択された操作内容に対応する語彙の前記模範音声を出力することを特徴とする音声認識方法。
操作内容を示した入力音声を辞書情報を参照して音声認識して操作内容を得る音声認識方法において、
辞書学習時に各操作内容を示す各語彙に対し入力された複数の音声のそれぞれの音響的特徴量を平均化して、各語彙に対する音響モデル情報を求めるとともに、前記各語彙に対し入力された前記複数の音声のうち当該語彙に対応する音響モデル情報に最も類似度の高い音声の特徴情報を当該語彙に対応する模範音声情報として記録保持し、
前記入力音声に対する音声認識に誤認識が発生したときに、現状で行える操作内容のメニューを表示し、当該メニューから選択された操作内容に対応する語彙の前記模範音声情報を基に模範音声を出力することを特徴とする音声認識方法。