JP3592803B2 - 音声認識装置および音声認識方法 - Google Patents

音声認識装置および音声認識方法 Download PDF

Info

Publication number
JP3592803B2
JP3592803B2 JP19317495A JP19317495A JP3592803B2 JP 3592803 B2 JP3592803 B2 JP 3592803B2 JP 19317495 A JP19317495 A JP 19317495A JP 19317495 A JP19317495 A JP 19317495A JP 3592803 B2 JP3592803 B2 JP 3592803B2
Authority
JP
Japan
Prior art keywords
voice
input
information
model
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP19317495A
Other languages
English (en)
Other versions
JPH0944182A (ja
Inventor
哲朗 知野
恭之 河野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP19317495A priority Critical patent/JP3592803B2/ja
Publication of JPH0944182A publication Critical patent/JPH0944182A/ja
Application granted granted Critical
Publication of JP3592803B2 publication Critical patent/JP3592803B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、利用者から入力される音声を、認識し分類する音声認識装置および音声認識方法に関する。
【0002】
【従来の技術】
近年、利用者にとって使い易いユーザインタフェースの実現への期待から、音声認識技術の進展にともない、音声入力による計算機応用システムや機器制御システムへの要求が高まってきている。
【0003】
さらに、マルチメディア情報処理技術の発展などとともに、音声入力を単独で利用するのみならず、従来の入力手段、たとえばキーボードや、マウス、タブレット、あるいはデータグローブや圧力センサなどによる様々な入力手段、あるいはディスプレイ、音声出力装置、力などの物理的な作用のフィードバックなど出力手段の、一部あるいは全部を、音声入力を同時に適宜併用し利用する“マルチモーダルユーザインタフェース”の一部として、音声認識技術の利用が進められつつある。
【0004】
この様なマルチモーダルユーザインタフェースなどを、利用者にとって使い易いものとするための、音声入力の利用に関する様々な工夫が検討されている。
たとえば、利用者からの音声入力によって応用システムを制御する特開平6‐95828号公報に開示された如きの“音声入力システム”では、確実性が要求される動作を指示する音声の入力時は多数回発声させるようにさせたり、多くのメディアを利用して入力を行なう場合の制約事項を用意し利用したり、各認識語彙に対応する画面上の部品などの形状や色あるいは濃度などを、現在の利用状況や利用条件や各語彙の認識率や認識辞書の学習の状況などによって制御することにより、音声を用いるユーザインタフェースの使い易さの向上を図っている。
【0005】
しかし、音声を用いた従来のユーザインタフェースは以下に述べるような点で問題があり、いまだ利用者にとって使い易いユーザインタフェースを提供するに至らないのが現状である。
【0006】
まず、第1には音声認識処理では、基本的に100%の正解を得ることが非常に困難であるという点からくる問題である。これは音声認識処理での正答率が100%でないと、音声入力の誤認識や、利用者の音声入力の検知失敗などの発生が避け難く、音声認識処理における認識誤りが発生した場合には、利用者に多大な負担の増加を招くという問題を抱えるということである。
【0007】
つまり、認識誤りにより利用者は再度発声を行なったり、音声以外の他の入力手段によって入力を行なったり、システムから提示される他の認識候補からの選択操作が必要になったり、あるいは音声認識結果に基づいて何らかの制御動作を実行するシステムでは、誤認識によって誤って実行された制御動作の取消や、制御動作の実行によってもたらされた影響の修復などの余分な作業を利用者が行なうことを強いられ、これが多大な負担の増加を招くという問題があり、従って、音声認識処理に於ける誤認識の抑制技術の開発が大きな課題である。
【0008】
また、第2に、GUI(グラフィカルユーザインタフェース)と音声認識の併用をする場合に、コマンド文字列が長いときに音声コマンドは長くするという訳にはゆかず、短縮表現を使用する結果、両者の間に表現の不一致が避けられないケースがあるという問題である。
【0009】
音声認識技術の応用形態の一つとして、近年、ウインドウ・システム(Window System;例えば、UNIX OS(オペレーションシステム)やマイクロソフト社の提供するWindow OSの如きもの)などに於いて、例えば、あるボタンをマウス等のポインティングデバイスによってクリック操作した場合に、その作用として起こる動作と、そのボタンに関連付けられたある音声入力コマンドとの対応関係を予め定義しておき、利用者がその音声入力コマンドを発声した場合に、それを音声認識技術で認識し、上述の対応関係から対応するボタンを検索し、そのボタンのクリック操作の効果を模擬することによって対応する動作を実行させる様にするといった具合に、ボタンやメニューなどのGUIのオブジェクトへの音声コマンドの対応づけを定義し、音声入力によってウインドウシステムの操作を可能とする音声利用インタフェースの開発が進められている。
【0010】
そして従来、このようなシステムでは、ボタンなどの各GUIオブジェクト上に表示されたラベルの表層文字列を音声コマンド入力できるようにする場合に、その表層文字列を発声した結果としての音声などを、対応する音声入力コマンドに当てるなどしていたが、以下に述べる理由によって、利用者はラベルの表層文字列と音声入力コマンドとの間の対応関係を一意に決定することが出来ず、困惑するなど、使い勝手が悪くなるという課題を抱える。
【0011】
それは例えば、ラベルである表層文字列が長いものである場合、その長い表層文字列をそのまま音声化した音声信号を音声入力コマンドとすると、音声による入力での手軽さが損なわれるという点に起因し、これを回避すべく、例えば短縮表現を採用するなど、ラベルの表層文字列と異なる表現による音声入力を受付けられるようにすることが行なわれることから、ある同じ一つの操作内容を指令するコマンドとして、異なる複数種の表現の音声入力が利用可能になり、これにより、利用者はラベルの表層文字列と音声入力コマンドとの間の対応関係を一意に決定することが出来なくなってしまうということである。
【0012】
具体的に説明する。たとえば“基本設定での印刷”とラベル付けされたボタンがあったとする。このボタンを音声コマンドで操作しようとする場合などに、“きほんせっていでのいんさつ(基本設定での印刷)”と発声する必要があるが、これでは長いので、状況によっては利用者が“いんさつ(印刷)”と短縮形で発声するだけで対応する動作が行なわれるようにする方が、より使い易いユーザインタフェースを提供できる。そのため、フルコマンド文字列対応の音声入力コマンドと、このような短縮形の音声入力コマンドを用意して利用できるようにする結果、利用者はラベルの表層文字列と音声入力コマンドの間の対応関係を一意に決定できないものとなる。
【0013】
あるいは、ラベルである表層文字列が極端に短い場合や、例えば“送信”と“更新”というラベルをもつボタンがある場合の様に、発声としての音声入力コマンドが類似しており区別しにくいものであるものもあり、このような場合には、それぞれに、例えばそれぞれ“おくる(送る)”、“よみなおし(良み直し)”などといった同義語などによる音声入力コマンドを対応付けたり、あるいはそれぞれ“せんど(センド:SEND)”や“あっぷでーと(アップデート:UPDATE)”などといった同等の意味を持つ他言語の単語を対応付けるなどの対応策を講じておくことによって、ユーザインタフェースの向上を図るようにする。このようなことなども、ラベルの表層文字列と音声入力コマンドの間の対応関係を一意に決定できなくしている一例である。
【0014】
さらに、同じ入力コマンドでも、意味の同じ種々の言葉を並行して割り当てておき、これによって、ユーザがいくつか同義語コマンドのいずれを用いて音声入力しても目的のコマンド実行を行なえるようにしてユーザインタフェースの向上を図るようにすることも行なわれている。
【0015】
例えば“取消”というラベル表示のあるボタンに対し、対応する音声コマンドとしてそのラベルの表層文字列をそのまま発声した“とりけし”を対応付けるだけでなく、例えば“やりなおし”や“あんどぅー(アンドゥー:undo)”といった同義語を同時に対応付けたり、あるいは例えば“取り消せ”といった命令形での音声入力コマンドも受け付けられるようにするなど、場合によって、ある一つのGUIオブジェクトに対して複数の音声コマンドの対応付けを行ない、ユーザインタフェースの向上が図られる。このことなども、ラベルの表層文字列と音声入力コマンドの間の対応関係を一意に決定できなくしている一例である。
【0016】
以上示した通り、音声入力コマンドをGUIオブジェクトに対応付ける音声認識インタフェースでは、発声すべき音声入力コマンドを対応するGUIオブジェクト上のラベルの表層文字列の発声結果と一致させるだけでは、使い易いユーザインタフェースを提供することが出来ないという問題点があった。
【0017】
さらに、音声は、例えばディスプレイ上に表示される文字データなどとは異なり、出力されている時間の間だけ利用者に提示される一過性のメディアであるという特徴から、例えばボタンなどに対応付けられそのボタンに対応する動作を音声により起動させる場合に発声すべき音声入力コマンドを、利用者に常時提示しておくことが出来ないという問題点がある。
【0018】
さらに、例えばボタンなどのあるGUIオブジェクトに対応する操作などを起動するための音声入力コマンドを利用者に常時提示しておくことが出来ないため、登録された音声入力コマンドの数が多くなった場合や、利用者が複数の異なった登録の組合せのセットを利用している場合や、利用者が時間をおいてシステムを使う場合などに、利用者が音声入力コマンドがどのような設定で登録されているかを全て覚えておくことが出来ず、音声を利用したユーザインタフェースを適切に利用できなくなるという問題点がある。
【0019】
また、例えばUNIXシステムのようなマルチユーザの多人数で利用する機器においては、他人が音声入力コマンドの登録設定を行なう場合も考えられ、また音声入力コマンドの登録設定の情報が利用者が登録するのみではなく、あらかじめ設定された状態で利用者に提供されるような音声入力コマンドの利用形態も考えられ、このような場合にも、従来の方法では、利用者が音声入力コマンドの登録状況を全て把握することが困難であり、音声を利用したユーザインタフェースを適切に利用できなくなるという問題点がある。
【0020】
以上に示したように、例えばボタンなどのGUIオブジェクトなどに対応付けられた動作を音声入力で起動させるために発声すべき音声入力コマンドをそのGUIオブジェクト上のラベルの表層文字列を発声したものとすることでは使いやすいユーザインタフェースを提供できないという問題点と、音声はその特徴から常時利用者に提示しておくことが出来ないという問題点と、音声入力コマンドを利用者が全て覚えておくことが出来ないという問題点とから、利用者がある操作を音声によって起動させようとする場合に、利用者が発声すべき音声入力コマンドが分からず利用者が戸惑いを感じるという問題点と、その結果音声入力コマンドを利用出来なかったり、利用者が適切でない音声入力を行ない発声が受理されなかったり、誤認識が引き起こされてしまったりするという問題点と、その結果利用者が再入力を強いられたり、誤認識の訂正やその結果行なわれた操作の影響の取消や修復を利用者が強いられるという問題点や、以上の問題点のために利用者の負担が増加するという問題点があった。
【0021】
このような問題点に対し、従来は現在認識可能な音声入力コマンドの書き下し表層文字列を受理可能な語彙リストとして提示する方法や、例えばボタンなど対応するGUIオブジェクトを指定して特定の操作を行なうことによって発声すべき標準的な音声入力の例を提示する方法などが開発されている(特開平4‐51299号公報“音声認識制御方式”)。
【0022】
しかし、前者の受理可能な語彙のリストを提示する方法では、受理可能な語彙数が多くなった場合に、それらのリストを適切に表示する方法がないことや、利用者が受理可能な語彙のリストを検索するために係る労力によって負担がかかるため、使いやすいユーザインタフェースを提供できない。
【0023】
また、後者の標準的な音声入力の例を提示するという方法に関しては、音声の場合、書き下し結果が同じ表現であっても、その発声方法は話者ごとの個人性のために様々なものとなりうるという特徴があるため、各利用者に最適な例を用意することが出来ないという問題点がある。
【0024】
つまり、同一の表層文字列で記述される発声であっても、例えば“ファイル”という表層文字列で記述に発声を、“ふぁ↓いる(ファイル)”と発声することも可能であり、また“ふぁ↑いる(ファイル)”と発声することも可能であるといった様な、アクセントやイントネーションの自由度によって音響的な違いが生じたり、あるいは、例えば“検索条件設定”という表層文字列で記述に発声を、“けんさくじょうけん・せってい(検索条件設定)”と発声することも可能であり、また“けんさく・じょうけんせってい(検索・条件設定)”と発声することも可能であるといった様な、フレージングの自由度によって音響的な違いが生じたり、あるいは、例えば“実行”という表層文字列で記述に発声を、“じっこう(実行)”と発声することも可能であり、また“じっこー(実行)”と発声することも可能であるといった様な、漢字の読み方の自由度によって音響的な違いが生じたりすることがあり、これが音声認識処理の精度に大きな影響を与える。
【0025】
なおここでの記号“↓”および“↑”は、アクセントパターンを表しており、それぞれの位置の直前および直後にアクセントがある発声方法を表現しており、また、記号“・”はポーズの位置を表している。
【0026】
そして、このような発声の音響的な相違は、利用者の個人の嗜好や鈍りや方言など個人性によるものであるため、他人の発声や合成音声による発声を、標準的な音声入力の例として用いる従来の手法では、十分な効果が得られないという問題があった。
【0027】
さらに、音声入力コマンドが数多く登録される場合や、利用者があらかじめ特定されていない場合や、音声入力コマンドが利用中に順次追加されるシステムにおいては、適切な標準的な音声入力データの例を予め用意することは困難あるいは不可能であるという問題点があった。
【0028】
【発明が解決しようとする課題】
このように、従来の標準的な音声入力コマンドの例を用意する方法では、発声の多様性と利用者の発声の個人性の問題から、予め適切な標準的な音声入力の例を用意出来ないという問題点があり、また、合成音声によって適切な標準的な音声入力の例を生成することが困難であるという問題点と、登録数の増大や不特定話者の利用あるいは音声入力コマンドの追加定義などの理由によって、標準的な音声を準備することが困難あるいは不可であるという問題点が存在した。
【0029】
そして、これらが音声認識装置の認識処理における正答率を低下させ、音声入力コマンドによる利用者の操作性の改善を阻む原因であった。
そこで、この発明の目的とするところは、利用者から入力される音声を、認識し分類する音声認識装置において、発声の多様性と利用者の発声の個人性のために生じる問題を回避し、適切で標準的な音声入力の例を用意して提示することを可能にすると共に、これにより音声認識処理における正答率を大幅に向上させて、音声入力コマンドによる利用者の操作性の大幅な改善を図ることができるようにした音声認識装置および音声認識方法を提供することにある。
【0030】
【課題を解決するための手段】
上記目的を達成するため、本発明はつぎのようにする。本発明は、操作内容を示した入力音声を音声認識し、その認識結果をアプリケーションへ操作内容として入力する音声認識装置において、
各種操作内容に対応する模範音声情報をそれぞれ記録保持する模範音声記録手段と、前記模範音声記録手段の保持する模範音声情報に基づき、指定された前記操作内容に対応する模範音声を出力する手段とより構成した。
【0031】
本装置は、音声入力可能な操作入力対応の内容を示す模範音声の情報を、模範音声記録手段に記録保持させてあり、出力手段は利用者の指定する操作入力対応の内容を示す模範音声を、前記模範音声記録手段の模範音声の情報に基づいて、音声として出力する。
【0032】
従って、音声認識装置で利用可能な模範音声を何時でも聞くことができるので、操作したい内容対応の音声としてどのような音声を発生すれば良いのか分からない時や、音声入力しても旨く目的通りの認識がされずに、操作が立ち往生してしまった場合などに、模範音声を提示させることで、正しい発生の音声を知ることができ、利用者の入力操作の大幅な改善が図れるようになる。
【0033】
また、本発明は、操作内容を示した入力音声を分析し、音響モデル情報を含む辞書手段の辞書情報を参照して音声認識したその認識結果をアプリケーションへ操作内容として入力する音声認識装置において、
各種操作内容に対応する模範音声情報をそれぞれ記録保持する模範音声記録手段と、辞書学習時、複数回入力させてそれぞれ解析させた操作内容対応の入力音声のうち、その音響的特徴が前記辞書手段に保持させる音響的特徴のモデル情報に対する類似度の高いものについて選択して前記模範音声記録手段に記録させる選択手段と、前記模範音声記録手段の保持する模範音声情報に基づき、指定された前記操作内容に対応する模範音声を出力する手段とを具備して構成する。
【0034】
このような構成において、模範音声記録手段には学習時、音声入力可能な操作内容に対応する音声の模範音声情報を、学習のために入力した入力音声それぞれについての解析結果に基づき選択して記録する。これは当該解析により得られたそれぞれの音響的特徴の情報が、辞書手段に保持させる音響的特徴のモデル情報に対して類似度からみて最も高いものを選択して記録保持させることで、実際の音声中から最適なものを模範音声として記録保持させることを可能にしている。
【0035】
このようにして音声入力可能な操作内容対応の模範音声の情報を、模範音声記録手段に記録保持させてあり、出力手段は利用者の指定する操作内容対応の内容を示す模範音声を、前記模範音声記録手段の模範音声の情報に基づいて音声として出力することができる。
【0036】
従って、音声認識装置で利用可能な模範音声を何時でも聞くことができるので、操作したい内容対応の音声としてどのような音声を発生すれば良いのか分からない時や、音声入力しても旨く目的通りの認識がされずに、操作が立ち往生してしまった場合などに、模範音声を提示させることで、正しい発生の音声を知ることができ、利用者の入力操作の大幅な改善が図れるようになる。また、模範音声は、実際に学習により入力させた音声のうち、音響モデルに対する類似度の高いものを選択して保持させてあるので、利用者は何時でも正しい発生の音声を知って正しい音声入力操作ができるようになる。
【0037】
また、本発明に係る音声認識方法は、操作入力としての入力音声を分析し、辞書情報を参照して音声認識する。すなわち、入力音声からその音響的特徴の情報を分析抽出すると共に、これにより得られた前記音響的特徴の情報を、音声の音響的特徴のモデル情報とこれに対する入力音声情報の語彙対応情報である分類情報との対応関係を有した辞書情報を用い、入力音声の音響的特徴の情報と音響的特徴のモデル情報の比較による認識処理を行って各分類情報との類似度を求める。そして、この類似度から模範的な入力音声とその分類情報との対応関係の組である模範音声情報を得て、これを保存する。そして、要求に応じ、前記保存模範音声情報に基づいて模範的な音声を発生させ、利用者に提示する。
【0038】
この模範的な音声を利用者へ提示することを可能にしたことにより、操作入力としての正しい入力音声を知らせることができるようになり、音声認識に利用可能な模範音声を何時でも聞くことができることから、操作したい内容対応の音声としてどのような音声を発生すれば良いのか分からない時や、音声入力しても旨く目的通りの認識がされずに、操作が立ち往生してしまった場合などに、模範音声を提示させることで、正しい発生の音声を知ることができ、利用者の入力操作の大幅な改善が図れるようになる。
【0039】
【発明の実施の形態】
本発明システムは、操作入力としての入力音声を分析し、音声入力可能な操作入力とそれに対応する音声の音響モデル情報を辞書情報として記録保持する辞書手段の当該辞書情報を参照して音声認識することより、得たその認識結果をアプリケーションへ操作内容として入力するようにした音声認識装置において、
音声入力可能な操作内容とそれに対応する音声の模範音声情報を記録保持する模範音声記録手段と、辞書学習時、複数回入力させてそれぞれ解析させた操作入力対応の入力音声のうち、その音響的特徴が前記辞書手段に保持させる音響的特徴のモデル情報に対しての類似度の高いものを選択して前記模範音声記録手段に記録させる選択手段と、音声入力可能な所望操作内容対応の模範音声の提示を選択指定する手段と、この選択指定に基づき該当する操作内容対応の模範音声を、前記模範音声記録手段の保持する模範音声情報から得て出力する手段とを具備して構成する。
【0040】
辞書手段には、操作入力としての入力音声を分析処理することにより得られた音響的特徴のモデル情報(例えば、特徴量情報)が操作内容としての分類情報(操作入力コマンドとしての語彙に相当)対応に記憶され、辞書情報として利用できるようになっている。
【0041】
そして、模範音声記録手段には学習操作時に、音声入力可能な操作内容対応の音声を入力し、これを解析(分析)することによって選択された最適な音声を保存する。すなわち、学習操作時に、音声入力可能な操作内容対応の音声を入力し、これを解析(分析)することによって得られた結果としての音響的特徴の情報を、辞書に登録する音響的特徴の情報のモデル情報である音響的特徴モデル情報と比較して類似度を求め、類似度が高い入力音声についてそれを模範音声選択手段に選択させ、その選択された入力音声を模範音声記録手段に保持させる。
【0042】
このような選択により、模範音声記録手段には入力されて解析された入力音声のうち、前記辞書手段に保持させる音響的特徴のモデル情報との類似度の高いものがそれぞれの操作内容対応に模範音声情報として記録されることになり、出力手段はこれらのうち、利用者の指定する操作内容対応の模範音声を、当該模範音声の情報に基づいて、音声として出力する。
【0043】
本発明によれば、発声の多様性と利用者の発声の個人性のために生じる問題を回避し、適切な標準的な音声入力の例を実際の音声として提示することができるように用意することが可能となる。
【0044】
また、その結果、合成音声によって適切な標準的な音声入力の例を生成することが困難であるという問題点と、登録数の増大や不特定話者の利用者あるいは音声入力コマンドの追加定義を行なう場合などに適切な標準的な音声入力の例を準備することが困難あるいは不可であるという問題点を回避することが可能となる。
【0045】
(具体的な実施の態様)
以下、具体的にその詳細を、図面を参照して説明する。
図1は、本発明の一実施例の音声認識装置の主要部構成の概要を示しており、1は入力処理部、2は分析処理部、3は辞書情報記録部、4は認識処理部、5は模範音声記録部、6は模範音声提示部、7は模範音声選択処理部であり、これらから本装置は構成されている。
【0046】
これらのうち、入力処理部1は例えばマイクロフォンやアンプあるいはA/D(アナログ/ディジタル)変換装置などからなる音声入力のための入力処理部を表しており、利用者からの音声入力信号などを収集し、ディジタル化して入力音声情報として分析処理部2へと適宜送ることができる構成である。
【0047】
またこの入力処理部1では、例えば入力音声信号のパワー計算結果の閾値処理などによる音声区間の切り出し処理などを行なうようにも構成することができる。
【0048】
分析処理部2は音声情報を分析処理するためのものであり、入力処理部1から送られる入力音声情報を受けとり、これを例えば高速フーリエ変換(FFT)による周波数分析を行なうことなどによって、特徴パラメータの時系列などの特徴量情報を得てこれを、これを認識処理部4や模範音声選択処理部7などへ適宜送るようにしたものである。
【0049】
辞書情報記録部3は、辞書情報を保持するものであって各語彙や音素などの認識単位についての音響的特徴のモデル情報やそれらの間の接続条件や、それら音響的特徴の分析結果と認識結果として出力される認識語彙などである分類情報との対応関係に関する情報が記録されている。
【0050】
図2に辞書情報記録部3の内容の例を示しておく。
辞書情報記録部3の各エントリには、認識処理部4から参照され、利用される辞書情報が、語彙などの分類情報Aと、その音響的特徴パラメータの時系列などの最適な特徴量情報(音響的特徴のモデル情報)を記述した特徴量情報Bの組として分類され記録されるようにしており、例えば、図2のアドレスP1のエントリでは、分類情報Aの欄が「印刷」であることから、その特徴量情報Bの欄に該語彙に対する情報「いんさつ」を記録していることが分かる。
【0051】
なお表記の都合上から、図2の各エントリの特徴量情報Bの欄には、対応する語彙の音声の書き下し表層を記入している。
図1に於いて、認識処理部4は、分析処理部2から特徴量情報(音響的特徴の情報)を受けとり、辞書情報記録部3の内容を参照して、例えば複合類似度法、HMM(Hidden Marcov Model)、DP(Dynamic Programming)、あるいはNeural Network(神経回路網)などのマッチング技術を用いた処理などにより、ある入力音声信号に対する認識結果の候補である語彙などの分類情報と、各認識候補に対する信憑性を表す類似度などのスコアを含む認識結果情報を適宜出力する構成となっている。
【0052】
また、認識処理部4では、語彙等の分類情報の判明している利用者からの音声入力を受けとり、その後の認識処理等で利用する分類情報と特徴量情報(音響的特徴のモデル情報)の組からなる辞書情報を生成あるいは、既存の辞書情報を修正し、辞書情報記録部3に記録する認識辞書学習処理も行なうようにしている。
【0053】
つぎに、模範音声記録部5は、模範音声を記録保持しているものであり、利用者が音声入力の発声する際の例となる音声入力の例が各語彙などの分類情報と共に適宜記録されるようにしている。
【0054】
図3は、模範音声記録部5の内容の例を示している。
模範音声記録部5の各エントリには、模範音声提示部6や認識処理部4や模範音声選択処理部7などから参照され利用される模範音声の情報が、語彙などの分類情報Aと、対応する模範音声の音声信号情報やあるいはその音響的特徴パラメータの時系列などの情報を記述した模範音声情報Bの組として分類され記録されている。そしてこのようにすることにより、例えば、図3のアドレスQ2のエントリでは、分類情報Aの欄が「取消」であることから、その模範音声情報Bの欄に該語彙に対する模範音声データあるいはその特徴量情報が記録されていることが分かる構成である。
【0055】
なお表記の都合上から、図3の各エントリの特徴量情報Bの欄には、対応する語彙の音声の書き下し表層を記入している。
また図1における模範音声提示部6は、例えばスピーカやアンプあるいはD/A(ディジタル/アナログ)変換装置などによって構成されており、利用者からの要求があったり、あるいは、音声入力の認識処理に於ける例えば誤認識が発生することなどによって、“模範提示モード”に移行し、作動状態になって模範音声記録部5を参照し、音声入力の例を利用者に適宜提示することができるものとしてある。
【0056】
すなわち、この模範音声提示部6は、“模範提示モード”のときに利用者に対して模範音声を提示することができるようにしてある。本システムでは通常の利用状態である“通常利用モード”と、模範音声を提示する動作状態である“模範提示モード”とを持ち、模範音声を提示するための指示ボタンである“模範提示”ボタンの操作や、“模範提示モード”を指示する利用者の音声入力コマンド(例えば、“もはんおんせいていじ”)の発声により、“模範提示モード”に移行すると、利用者の指定する音声入力可能な音声入力コマンドの模範音声を音声で提示する機能を有する。
【0057】
図4は、模範音声提示部6の機能を示す画面構成の例を示している。DISPはディスプレイであり、p1〜p4がディスプレイDISP上に表示された操作可能なGUIオブジェクトとしてのボタンであり、矢印はディスプレイDISP上に表示されたマウスカーソル、SPはスピーカ等による音声出力装置である。
【0058】
図4において、(a)は通常の利用状態である“通常利用モード”での画面の状態を示しており、(b)および(c)は模範音声を提示する動作状態である“模範提示モード”での画面の状態を示している。
【0059】
ここでは画面例に現れている操作可能なGUIオブジェクト(利用者が操作可能なGUIオブジェクト)は、ボタンp1、p2、p3、およびp4であるとし、さらに、これらのうち音声入力コマンドが定義済みで音声入力による操作が可能なものがp2とp4であったとする。
【0060】
ここで図4(b)の“模範提示モード”では、音声入力による操作が可能なボタンの例えば色などを変更することで、利用者にどのボタンが音声操作可能であるかなどを知らせることが出来るようにしている。
【0061】
また、本装置は実際にシステムに応用する場合での、全体のシステム構成を示すと、図5のような構成となる。すなわち、利用者の操作のために、図5に示すように、マウスなどのポインティングデバイスPDとその情報を取り込むインタフェースIFを備えており、また、そのポインティングデバイス入力情報を得て、その情報対応にポインタ(マウスであればマウスカーソル)をディスプレイDISP上に表示し、さらに、上述のようなディスプレイDISP上のボタンと上記ポインタとの位置関係を管理制御する制御手段CNTを設けてあって、利用者がポインティングデバイスを操作することにより、位置操作されるポインタによりポインティングしたり、クリック操作を行なったりすることができる。
【0062】
また、ディスプレイDISP上に装着したタッチパネル(ディスプレイDISP上にタッチパネルが装着してある場合)などにより、ポインティングを行なう構成を採用することなどによっても、この情報を上記プロセッサにより模範音声提示部6に与えるようにすることができる。
【0063】
そして、このポインティングにて、ディスプレイDISP上に表示されているボタンを指定することにより、前記制御手段CNTはどのオブジェクトがポインティングされたかを知って、模範音声提示部6にこれを指示し、模範音声提示部6では模範音声記録部5の内容を参照し、指示されたオブジェクト対応の模範音声の情報を抽出して、この情報に基づく模範音声を音声出力装置SPを通じて音声化して利用者に提示することができるようにしている。
【0064】
なおここでの模範音声提示のための指示は、利用者が例えばマウスをクリック操作せずとも利用者のマウス操作により、画面上のマウスポインタ(マウスカーソル)が対応するオブジェクト上に来た時点で模範音声提示部6が即座に行なうようにする構成とすることも可能である。
【0065】
また、前記“通常利用モード”と“模範提示モード”の切替えは、利用者の操作によってなされるように構成することも可能であるし、また音声認識処理の例えば失敗の連続などといった動作状態や、応用アプリケーションの状態や、認識辞書学習を行なう動作モードとの連動などによるシステム側からの制御で自動的に切替が行なえるように構成することも可能である。
【0066】
本発明においては、模範音声記録部5を設けて模範音声に関する情報を何時でも利用できるようにし、模範音声提示部6により、この模範音声に関する情報に基づいた模範音声を音声として出力して利用者に提示することで、利用者に対してどのような音声で音声入力操作すれば良いのかを知らせることができるようにした点は第1の特徴的構成である。
【0067】
図1における模範音声選択処理部7は、この具体例でのこの第1の特徴的構成を実現するにあたって、どのように模範音声を選択して模範音声記録部5に登録するかを決める要素である。
【0068】
模範音声記録部5には、音声入力コマンドについての模範的な音声を情報として記録するが、この模範音声選択処理部7では、その記録すべき模範的な音声を選択する機能を有する。
【0069】
すなわち、この模範音声選択処理部7では、音声認識辞書学習時、入力処理部1を介して入力される利用者からの少なくとも1つ以上の入力音声情報を分析処理部2にて分析した結果である特徴量情報(音響的特徴の情報)を受けとり、認識処理部4での辞書学習処理を行なう際に、辞書情報記録部3に記録されている対応する語彙等の分類情報の特徴量情報(音響的特徴のモデル情報)を利用した認識処理を実施し、最も高い類似性を持つ入力音声の入力音声情報を選択し、模範音声記録部5にその分類情報に対する模範音声として適宜記録することによって、利用者に提示させるべき最も適切な発声を、模範音声として提示できるように選択記録するものである。
【0070】
つまり、各語彙の分類情報に対応する音声の特徴量情報を辞書登録するにあたり、各語彙対応の言葉一つづつを、1回以上、通常は複数回、発声してそれぞれその特徴量を収集し、その平均値化した特徴量を情報として辞書登録する。
【0071】
例えば、印刷することを指令するための語彙の分類情報である“印刷”なる言葉に対して、音声認識のための特徴量情報を対応つけて登録するには、“印刷”なる言葉に対する音声の辞書登録のための学習処理時に、“いんさつ”なる音声を何回か繰り返して入力してそれぞれの“いんさつ”なる音声毎の音の特徴量情報を解析収集し、これら特徴量情報に共通する特徴を抽出するなどして最適な特徴量情報(音響的特徴のモデル情報)として取得する。そして、これを“印刷”なる言葉対応の音声の特徴量情報(音響的特徴のモデル情報)として辞書情報記憶部3に辞書登録する。
【0072】
その際、最適特徴量情報(音響的特徴のモデル情報)に対する類似度を、前記入力されたそれぞれの“いんさつ”なる音声毎に求めて、類似度の最も良好であった音声入力を選んで、それを“印刷”なる言葉対応の模範音声の情報として模範音声記録部5に記録させるべく制御して当該模範音声記録部5に記録させるようにし、模範音声の提示要求の際にその音声を提示できるようにしておく。
【0073】
このように、音声入力してこれを解析し、特徴量等による音響モデルを取得して語彙対応に当該音響モデルを登録するといった音声認識のための辞書学習をさせるが、このような辞書作成のための学習処理時に、言葉毎(音声入力コマンド毎)の模範音声として実際に上記辞書学習において繰り返し入力させた音声のうちの音響モデル類似度の高いものを選択することで選定し、この選定した音声を模範音声記録部5に記録させるようにする機能がこの模範音声選択処理部7の機能である。
【0074】
そして、これにより選択記録された音声そのものが模範音声として、実際の音声で提示できるようにしたことが本発明の特徴の一つでもある。
なお、模範音声記録部5には、模範音声を得るための情報として、入力音声情報そのものを記録する代わりに、音響モデルに最も近似する入力音声の特徴量情報、あるいは音響モデルに最も近似する入力音声の認識結果である分類情報(語彙)のいずれかであっても良い。この場合、特徴量情報、分類情報はいずれも音声そのものでないから、これを模範音声として提示するには、音声合成の技術を適用する必要がある。そのため、この構成を利用するには模範音声提示部6に音声合成機能を持たせる必要があるが、音声そのものを記録しておく場合に比べて、記録容量が大幅に少なくできるメリットがあり、音声合成技術が実用上、十分なレベルとなればこの構成は採用して有利である。そして、これにより模範音声として、実際の音声で提示できるようになる。
【0075】
以上が本装置の構成とその機能である。
ここで先ず上述した音声認識処理について更に詳しく説明する。
本装置の基本的な利用は以下に示す手順A、手順B、および手順Cの通りに行なわれる。
【0076】
音声入力により応用システムを操作する通常の利用状態は以下の手順Aに沿った音声認識処理で実施される。
<手順A>
[ステップa1]: 利用者が音声入力したい情報内容対応の言葉を発声することにより、この発生された音声は入力音声信号として入力処理部1によって処理され、音声入力情報として分析処理部2へと送られる。
【0077】
[ステップa2]: 音声入力情報が分析処理部2に与えられると、分析処理部2ではこれを処理して、例えば周波数分析結果等のパラメータの時系列情報などの特徴量情報を得、これを認識処理部4へ与える。
【0078】
[ステップa3]: 認識処理部4ではこの特徴量情報に対して辞書情報記録部3を参照して、認識照合処理が行なわれ、各認識結果候補に対して、認識処理の確信度のスコアである類似度と共に、認識結果である分類情報を得る。そして、認識処理部4はこの得た類似度と分類情報とを、音声入力によって操作すべき対象の応用システムに音声認識処理結果として与える。
【0079】
[ステップa4]: 応用システムに音声認識処理結果が入力されると、当該応用システムはこれに対応する操作を実行する。
[ステップa5]: 再び、[ステップa1]の処理へと戻る。
【0080】
以上が、通常の利用状態(通常の音声認識)における手順であり、入力処理部1から入力された操作入力としての入力音声を分析処理部2で分析し、この分析結果を認識処理部4が辞書情報記憶部3の辞書情報を参照して音声認識することより、得たその認識結果をアプリケーションAPへの操作入力として利用するといった本装置における通常の音声認識手順を説明した。
【0081】
ところで、利用者からの要求があったり、あるいは、音声入力の認識処理に於ける誤認識が頻発することなどによって、制御手段CNTの制御のもとに、模範音声提示部6はその時点で入力可能な音声入力の例の模範音声を、模範音声記録部5を参照して利用者に提示する。
【0082】
そして、これにより、音声認識装置で利用可能な模範音声を何時でも聞くことができるようにして、操作したい内容対応の音声としてどのような音声を発生すれば良いのか分からない時や、音声入力しても旨く目的通りの認識がされずに、操作が立ち往生してしまった場合などに、模範音声を提示させることで、正しい発生の音声を知ることができるようにし、利用者の入力操作の大幅な改善を図るようにしている。その際の処理の手順をつぎに説明する。
【0083】
利用者が行なうべき音声入力の発声方法などを提示するための模範音声の出力は、以下の手順Bに沿った処理によってなされる。
<手順B>
[ステップb1]: 模範音声提示要求のための音声入力(音声入力コマンド)やボタン/メニュー操作などによる利用者からの要求、あるいは誤認識の発生などを原因としての、応用システムなどの動作により、制御手段CNTが模範音声提示モードでシステムが動作するようにシステムを制御する。そして、制御手段CNTはディスプレイDISPに図4の(b)の如く、現状で行える操作対象を音声入力の模範音声提示を選択できる状態に画面表示する。利用者はこの画面から所望の操作対象の音声入力の模範音声提示をポインティングにより選択指定することで、音声提示すべき音声入力の例を決定する。
【0084】
[ステップb2]: この提示すべき例が決定されると、制御手段CNTは模範音声記録部5から、この提示に対応する分類情報に関する音声入力の例である発声データを検索して、模範音声提示部6へと送る。
【0085】
[ステップb3]: 模範音声提示部6は、この発声データを音声信号化し、スピーカ等を通じて音声として出力する。これにより、音声入力の例である模範音声が利用者に提示される。
【0086】
本システムには、通常の利用状態である“通常利用モード”と、模範音声を提示する動作状態である“模範提示モード”、辞書学習等に使用する“学習モード”とがあり、利用者はいずれかを選択することができる。何も選択しない時は通常の利用状態である“通常利用モード”で運用され、ディスプレイDISPは図4の(a)の如き画面を表示して画面からの入力操作と、音声入力操作が可能であり、音声入力操作に対しては、その音声入力に対する認識結果を出力するという機能になる。“通常利用モード”では模範音声の提示はできない。
【0087】
“模範提示モード”は模範音声を音声で提示するモードである。
利用者が“模範提示モード”を選択したときは図5に示す制御手段CNTはディスプレイDISPの表示画面を図4の(b)および(c)の如き状態にして、操作可能なボタンの色などを変更するといった制御をすることで、利用者にどのボタンが音声操作可能であるか、などを知らせるようにすると共に、そのボタンをポインティングすると、そのボタンに定義してある内容対応の音声入力コマンドを、模範音声で提示するように、模範音声記録部5から該当のものを抽出して模範音声提示部6に与え、模範音声として提示する。これにより何をして良いのかわからない利用者に対して、模範音声を知らせることができるようになる。
【0088】
すなわち、本装置は、図5に示すように、音声入力可能な操作入力対応の内容を示す模範音声の情報を記録保持する模範音声記録部5と、指定された操作入力対応の模範音声を、この模範音声記録部5の保持する模範音声情報に基づいて出力する模範音声提示部6と、制御手段CNTと、ポインティングデバイスPDと、インタフェースIFと、ディスプレイDISPとがある。
【0089】
そして、ポインティングデバイスPDでディスプレイDISP上の音声入力可能な対象オブジェクトをポインティングすることにより、制御手段CNTはこれを認識して模範音声記録部5から該当の模範音声の情報を読出し、模範音声提示部6に与える。
【0090】
模範音声記録部5には、音声入力可能な操作入力対応の内容を示す模範音声の情報を記録保持させてあり、制御手段CNTを介して上述のような読出し制御をすることにより、模範音声出力手段である模範音声提示部6は利用者の指定する操作入力対応の内容を示す模範音声を、この模範音声記録部5の模範音声の情報に基づいて、音声として出力することができる。
【0091】
従って、音声認識装置で利用可能な模範音声を何時でも聞くことができるので、操作したい内容対応の音声としてどのような音声を発生すれば良いのか分からない時や、音声入力しても旨く目的通りの認識がされずに、操作が立ち往生してしまった場合などに、模範音声を提示させることで、正しい発生の音声を知ることができ、利用者の入力操作の大幅な改善が図れるようになる。なお、模範音声のみの提示の他に、「〜をさせるには、…と発声してください。」(但し、…は“模範音声”の提示を示す)といったように、操作案内とその操作のための音声コマンドの模範音声を案内提示する方法も考えられる。
【0092】
ところで、模範音声記録部5に対する模範音声の収集記録保持は、認識辞書の学習処理において、模範音声選択処理部7により選択されたものについて行なうようにしている。
【0093】
この認識辞書の学習処理等を行なう場面では、以下の手順Cに沿った処理が実施される。
<手順C>
[ステップc1]: 利用者あるいは本音声認識装置によって指定された、ある語彙等の分類情報Aについての、利用者から少なくとも1回以上の発声が本音声認識装置に入力され、各々記録される(この入力音声を学習発声と呼ぶこととする)。
【0094】
[ステップc2]: 各学習発声の入力音声信号は、入力処理部1を経て入力音声情報として分析処理部2へと送られ、分析処理が実施され、特徴量情報(音響的特徴の情報)が出力される。
【0095】
[ステップc3]: 各学習発声の特徴量情報について、認識処理部4において、辞書情報記録部3の分類情報Aに対応するエントリとの認識照合処理が実施され、各学習発声について辞書の持つ音響的特徴のモデル情報との類似度が算出される。
【0096】
[ステップc4]: 各学習発声のうち最も高い類似度を持つものの発声データと、分類情報Aの組を模範音声として模範音声記録部5に記録する。
すなわち、本システムには制御手段CNTと、ポインティングデバイスPDと、インタフェースIFと、ディスプレイDISPとがあり、ポインティングデバイスPDで、あるいはタッチパネルでディスプレイDISP上の学習モードのボタンを示すオブジェクトをポインティングすることにより、制御手段CNTはこれを認識して“学習モード”となる。
【0097】
“学習モード”は音声入力可能な操作入力に対応する音声の入力を、複数回ずつ行ない、その入力音声それぞれについて、分析処理部2での解析結果に基づき、音響的特徴のモデルを得て、これを語彙対応に辞書登録することができるというモードである。但し、音響的特徴のモデル情報が既にある辞書においては、その修正のために、発声を行なう場合があるが(認識辞書の適応処理)、その場合には実用上、複数回発声するのが普通ではあるが、一回だけ発声させるといったこともある。
【0098】
模範音声記録部5には、複数回繰り返して入力される音声入力可能な操作入力対応の音声を、それぞれについて分析処理部2で解析して、その解析結果に基づき、得た特徴量情報等による音響モデルを記録保持させる。そして、模範音声記録部5に対するこのような辞書学習時、模範音声選択処理部7は、複数回入力させてそれぞれ解析させた操作入力対応の入力音声のうち、前記辞書情報記憶部3に保持させる音響的特徴のモデル情報との類似度の高いものを選択して前記模範音声記録部5に記録させるように動作する。
【0099】
なお、学習操作が認識辞書の適応処理であった場合には実用上、複数回発声するのが普通ではあるが、一回だけ発声させるといったこともある。その場合は、その発声の音響的特徴が適応処理で得られた音響的特徴のモデル情報との比較により類似度が高い場合に模範音声記録部5に更新記録する。複数回の発声の場合は音響的特徴のモデル情報との類似度が高いものを選択する。
【0100】
このようにして“学習モード”では音声入力可能な操作入力対応の内容を示す模範音声の情報を、学習時に得られた一つの操作入力毎に複数ある当該操作入力対応音声の各解析結果(特徴量情報)のうち、辞書に登録する特徴量情報と類似度の高いものを選択して、これを当該操作入力対応の模範音声として前記模範音声記録部5に記録記録保持させることができるようになり、模範音声を何時でも音声で提示できるようになる。
【0101】
以上、本発明システムは、操作入力としての入力音声を分析し、音声入力可能な操作入力とそれに対応する音声の音響モデル情報を辞書情報として記録保持する辞書手段の当該辞書情報を参照して音声認識することより、得たその認識結果をアプリケーションへ操作内容として与えるようにした音声認識装置において、音声入力可能な操作内容に対応する音声の模範音声情報をそれぞれ記録保持する模範音声記録手段と、辞書手段に対する学習時、複数回入力させてそれぞれ解析させた操作内容対応の入力音声のうち、前記辞書手段に保持させる音響的特徴のモデル情報に対する類似度の高いものを選択して前記模範音声記録手段に記録させる選択手段と、音声入力可能な所望操作内容対応の模範音声の提示を選択指定する手段と、この選択指定に基づき該当する操作内容対応の模範音声を、前記模範音声記録手段の保持する模範音声情報から得て出力する手段とを具備して構成したものである。
【0102】
辞書手段には、操作入力としての入力音声を分析処理することにより得られた音響モデル情報(例えば、特徴量情報)が操作入力としての分類情報(操作入力としての語彙に相当)対応に記憶され、辞書情報として利用できるようになっている。そして、模範音声記録手段には音声入力可能な操作内容に対応する音声の模範音声情報を、複数回ずつ行なう操作内容対応の入力音声それぞれについての解析に基づき、得る音響的特徴の情報から、それぞれの操作内容対応の音響的特徴のモデル情報に類似度が最も近い入力音声を、模範音声選択手段に選択させてそれを保持させる。
【0103】
このような選択により、複数回入力されてそれぞれ解析された操作入力対応の入力音声のうち、前記辞書手段に保持させる音響的特徴のモデル情報との類似度の高いものが選択されて前記模範音声記録手段に記録されることになり、出力手段はこれらの音声入力可能な操作内容対応の模範音声の情報のうち、利用者の指定する操作内容対応の模範音声を、当該模範音声の情報に基づいて、音声として出力する。
【0104】
かくしてこのように構成された本装置によれば、利用者各人が認識辞書作成のために発声した自己の発声データの中から音声認識処理で最適な発声データが自動的に選択されるため、発声の多様性と利用者の発声の個人性のために生じる問題を回避し、適切な標準的な音声入力の例を用意することが可能となる。
【0105】
また、その結果、合成音声によって適切な標準的な音声入力の例を生成することが困難であるという問題点と、登録数の増大や不特定話者の利用あるいは音声入力コマンドの追加定義を行なう場合などに適切な標準的な音声入力の例を準備することが困難あるいは不可であるという問題点を回避することが可能となる。
【0106】
以上が、本発明の一例としての構成、動作、機能および効果である。
尚、本発明の構成および効果も上述した例に限定されるものではない。
上述の実施例では、応用アプリケーションの操作を音声入力によって行なう場合の利用方法を示したが、例えば、Window SystemのGUI操作に限定される訳ではなく、例えば、物理的なボタンによって操作する機器などを音声入力によって制御するようなシステムにおいても有効である。
【0107】
さらに、上述の実施例では、音声による入力を認識するシステムを示したが、その他、画像や図やジェスチャなどの動作などを入力としそのパターンを認識するユーザインタフェース一般にも拡張することが可能である。
【0108】
【発明の効果】
以上説明したように、本発明によれば、利用者各人が認識辞書作成のために発声した自己の発声データの中から音声認識処理で最適な発声データが自動的に選択されるため、発声の多様性と利用者の発声の個人性のために生じる問題を回避し、適切な標準的な音声入力の例を用意することが可能となる。
【0109】
また、その結果、合成音声によって適切な標準的な音声入力の例を生成することが困難であるという問題点と、登録数の増大や不特定話者の利用あるいは音声入力コマンドの追加定義を行なう場合などに適切な標準的な音声入力の例を準備することが困難あるいは不可であるという問題点を回避することが可能となる。
【図面の簡単な説明】
【図1】本発明を説明するための図であって、本発明の一例としての音声認識装置の構成例の概要を示すブロック図。
【図2】本発明を説明するための図であって、本発明の一例としての辞書情報記録部3の内容例を示す図。
【図3】本発明を説明するための図であって、本発明の一例としての辞書情報記録部5の内容例を示す図。
【図4】本発明を説明するための図であって、本発明の一例としての模範音声提示部6の機能を説明するための画面構成例を示す図。
【図5】本発明を説明するための図であって、本発明の一例としてのシステム構成例を示すブロック図。
【符号の説明】
1…入力処理部
2…分析処理部
3…辞書情報記録部
4…認識処理部
5…模範音声記録部
6…模範音声提示部
7…模範音声選択処理部
SP…スピーカ
PD…ポインティングデバイス
IF…インタフェース
CNT…制御手段。
AP…アプリケーション
DISP…ディスプレイ。

Claims (4)

  1. 操作内容を示した入力音声を分析し、音響モデル情報を含む辞書手段の辞書情報を参照して音声認識したその認識結果をアプリケーションへ操作内容として入力する音声認識装置において、
    辞書学習時に、各操作内容を示す各語彙に対し入力された複数の音声のそれぞれの音響的特徴量を平均化して、各語彙に対する前記音響モデル情報を求めるとともに、前記各語彙に対し入力された前記複数の音声のうち当該語彙に対応する音響モデル情報に最も類似度の高い音声を当該語彙に対応する模範音声として記録保持する模範音声記録手段と、
    前記入力音声に対する音声認識に誤認識が発生したときに、現状で行える操作内容のメニューを表示する手段と、
    前記メニューから選択された操作内容に対応する語彙の前記模範音声を出力する手段と、
    を具備したことを特徴とする音声認識装置。
  2. 操作内容を示した入力音声を分析し、音響モデル情報を含む辞書手段の辞書情報を参照して音声認識したその認識結果をアプリケーションへ操作内容として入力する音声認識装置において、
    辞書学習時に、各操作内容を示す各語彙に対し入力された複数の音声のそれぞれの音響的特徴量を平均化して、各語彙に対する前記音響モデル情報を求めるとともに、前記各語彙に対し入力された前記複数の音声のうち当該語彙に対応する音響モデル情報に最も類似度の高い音声の特徴情報を当該語彙に対応する模範音声情報として記録保持する模範音声記録手段と、
    前記入力音声に対する音声認識に誤認識が発生したときに、現状で行える操作内容のメニューを表示する手段と、
    前記メニューから選択された操作内容に対応する語彙の前記模範音声情報を基に模範音声を音声合成して出力する手段と
    を具備したことを特徴とする音声認識装置。
  3. 操作内容を示した入力音声を辞書情報を参照して音声認識して操作内容を得る音声認識方法において、
    辞書学習時に各操作内容を示す各語彙に対し入力された複数の音声のそれぞれの音響的特徴量を平均化して、各語彙に対する音響モデル情報を求めるとともに、前記各語彙に対し入力された前記複数の音声のうち当該語彙に対応する音響モデル情報に最も類似度の高い音声を当該語彙に対応する模範音声として記録保持し、
    前記入力音声に対する音声認識に誤認識が発生したときに、現状で行える操作内容のメニューを表示し、当該メニューから選択された操作内容に対応する語彙の前記模範音声を出力することを特徴とする音声認識方法。
  4. 操作内容を示した入力音声を辞書情報を参照して音声認識して操作内容を得る音声認識方法において、
    辞書学習時に各操作内容を示す各語彙に対し入力された複数の音声のそれぞれの音響的特徴量を平均化して、各語彙に対する音響モデル情報を求めるとともに、前記各語彙に対し入力された前記複数の音声のうち当該語彙に対応する音響モデル情報に最も類似度の高い音声の特徴情報を当該語彙に対応する模範音声情報として記録保持し、
    前記入力音声に対する音声認識に誤認識が発生したときに、現状で行える操作内容のメニューを表示し、当該メニューから選択された操作内容に対応する語彙の前記模範音声情報を基に模範音声を出力することを特徴とする音声認識方法。
JP19317495A 1995-07-28 1995-07-28 音声認識装置および音声認識方法 Expired - Lifetime JP3592803B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP19317495A JP3592803B2 (ja) 1995-07-28 1995-07-28 音声認識装置および音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP19317495A JP3592803B2 (ja) 1995-07-28 1995-07-28 音声認識装置および音声認識方法

Publications (2)

Publication Number Publication Date
JPH0944182A JPH0944182A (ja) 1997-02-14
JP3592803B2 true JP3592803B2 (ja) 2004-11-24

Family

ID=16303539

Family Applications (1)

Application Number Title Priority Date Filing Date
JP19317495A Expired - Lifetime JP3592803B2 (ja) 1995-07-28 1995-07-28 音声認識装置および音声認識方法

Country Status (1)

Country Link
JP (1) JP3592803B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU3109399A (en) * 1998-03-23 1999-10-18 Claude Cajolet Application program interfaces in an operating system
JPWO2016174955A1 (ja) * 2015-04-28 2018-02-15 クラリオン株式会社 情報処理装置、及び、情報処理方法

Also Published As

Publication number Publication date
JPH0944182A (ja) 1997-02-14

Similar Documents

Publication Publication Date Title
US7260529B1 (en) Command insertion system and method for voice recognition applications
JP4570176B2 (ja) ユーザにオーディオ・フィードバックを与える拡張可能音声認識システム
US5794189A (en) Continuous speech recognition
EP0965978B1 (en) Non-interactive enrollment in speech recognition
JP5819924B2 (ja) アジア文字を生成するための認識アーキテクチャ
JP4416643B2 (ja) マルチモーダル入力方法
US6795806B1 (en) Method for enhancing dictation and command discrimination
EP0965979B1 (en) Position manipulation in speech recognition
JP4987623B2 (ja) ユーザと音声により対話する装置および方法
KR100996212B1 (ko) 음성인식을 위한 방법, 시스템 및 프로그램
US6743175B2 (en) Voice-enhanced diagnostic medical ultrasound system and review station
EP0840288B1 (en) Method and system for editing phrases during continuous speech recognition
JP6654611B2 (ja) 成長型対話装置
WO2006054724A1 (ja) 音声認識装置及び方法ならびにプログラム
JP3476007B2 (ja) 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体
JPH03163623A (ja) 音声制御コンピュータ・インターフェース
US5870705A (en) Method of setting input levels in a voice recognition system
Suhm Multimodal interactive error recovery for non-conversational speech user interfaces
JP3592803B2 (ja) 音声認識装置および音声認識方法
Larson et al. Speech error correction: the story of the alternates list
JP2003163951A (ja) 音信号認識システムおよび音信号認識方法並びに当該音信号認識システムを用いた対話制御システムおよび対話制御方法
JP2002259113A (ja) 音声マクロ処理装置、その方法、そのコンピュータ・プログラムおよびそのプログラムを記録した記録媒体
JP2000047683A (ja) セグメンテーション補助装置及び媒体
JP3698635B2 (ja) 音声認識処理装置
JPS6211731B2 (ja)

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040315

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040824

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040826

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070903

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080903

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080903

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090903

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090903

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100903

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110903

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110903

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120903

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120903

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130903

Year of fee payment: 9

EXPY Cancellation because of completion of term