JP2004012809A

JP2004012809A - 音声認識装置及びその制御方法

Info

Publication number: JP2004012809A
Application number: JP2002166120A
Authority: JP
Inventors: Masahiro Abe; 安部　雅浩; Hiroki Yamamoto; 山本　寛樹
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2002-06-06
Filing date: 2002-06-06
Publication date: 2004-01-15

Abstract

【課題】ＧＵＩと音声入力を併用して、入力された音声の認識率をより高くすることができる音声認識装置及びその制御方法を提供する。
【解決手段】認識辞書保持部２０８には、所定の音声認識辞書が記憶されている。ユーザは、ＧＵＩ操作入力部２０３を用いて、音声認識に使用される音声認識辞書を指定し、指定された音声認識辞書の認識範囲を限定する。また、音声入力部２０４からは音声情報が入力される。そして、指定された音声認識辞書及び限定された認識範囲に関する情報を含む音声認識条件に基づいて、入力された音声情報のうち所定の音声情報が音声認識部２０７で認識される。
【選択図】　図２

Description

【０００１】
【発明の属する技術分野】
本発明は、グラフィカル・ユーザ・インタフェース（ＧＵＩ）と音声入力とを併用する音声認識装置及びその制御方法に関する。
【０００２】
【従来の技術】
近年、インターネットの普及に伴い、世界中のいたるところから様々な情報を送受信することが可能となってきている。これらの情報を閲覧、送信、受信等する操作は、通常、人間による操作である。現在、それらの情報を取り扱うための方法として、ＧＵＩを備えるコンピュータ画面上で、マウスやキーボード等のポインティングデバイスを用いて入力操作等を行うものが主流である。
【０００３】
一方、音声認識技術や音声規則合成技術といった音声入出力技術の進歩により、電話等の音声のみのモダリティを用いてＧＵＩの操作を音声入力による操作に置き換えるＣＴＩ（Ｃｏｍｐｕｔｅｒ　Ｔｅｌｅｐｈｏｎｙ　Ｉｎｔｅｇｒａｔｉｏｎ）といった技術も進歩してきている。
【０００４】
そこで、このようなＣＴＩ技術が用いることによって、従来のＧＵＩのみのインタフェースに加えて音声入出力を備えるような複数のモダリティを持ったマルチモーダルインタフェースが登場し、年々その需要が高まってきている。また、音声認識における制御をマークアップ言語（Ｍａｒｋｕｐ　Ｌａｎｇｕａｇｅ）で記述するＶｏｉｃｅＸＭＬ等も登場してきている。
【０００５】
このＶｏｉｃｅＸＭＬには、音声認識における各種操作をマークアップ言語で記述することができるという特徴がある。このＶｏｉｃｅＸＭＬを用いることで、音声によるコマンド入力や操作を行うことが可能になる。
【０００６】
【発明が解決しようとする課題】
しかしながら、音声を用いて入力をする音声認識装置或いは音声認識システムにおいて認識結果に応じた処理を行う場合、認識後直ちに処理が行われることによって、誤認識による誤った処理がされてしまう可能性がある。このような事態を防ぐために、認識結果に対する確認処理が必要となり、その確認処理のために入力工数が増大してしまうという弊害が生じる。
【０００７】
そこで、できるだけ所望の認識結果を得るために、入力された音声の認識率を向上させるということが考えられる。入力された音声の認識率を向上させる一手法として、入力音声の種類として適切な範囲内の認識語彙に関する音声だけを入力音声として受け付けるようなシステムが考えられる。
【０００８】
現在、Ｗ３Ｃ（Ｗｏｒｌｄ　Ｗｉｄｅ　Ｗｅｂ　Ｃｏｎｓｏｒｔｉｕｍ）で検討されているＸＦｏｒｍｓのように、ある入力に対する制限を設け、入力として適切な値のみ受理するという処理をマークアップ言語によって記述する技術が一般的に知られている。また、音声入力の際に、認識率を向上させる手段として、様々な条件において用いられる認識語彙を詳細に作成・指定するということも考えられる。
【０００９】
しかし、あらゆる条件において用いられる認識語彙を詳細に記述し、又は、導入することは、システムに対して非常に大きな負荷を与えることになってしまう。そこで、上述したように、音声認識に関する操作をマークアップ言語で記述するＶｏｉｃｅＸＭＬや入力値の制限をするためのＸＦｏｒｍｓのような枠組みが提案されている一方で、音声認識において入力の制限を設け、その制限をマークアップ言語で記述するという音声認識システムはこれまでに提案されていない。
【００１０】
本発明は、このような事情を考慮してなされたものであり、ＧＵＩと音声入力を併用して、入力された音声の認識率をより高くすることができる音声認識装置及びその制御方法を提供することを目的とする。
【００１１】
【課題を解決するための手段】
上記課題を解決するために、本発明は、入力された音声情報を認識する音声認識装置であって、所定の音声認識条件を設定する条件設定手段と、音声情報を入力する音声入力手段と、前記音声認識条件に基づいて、入力された音声情報のうち所定の音声情報を認識する音声認識手段とを備えることを特徴とする。
【００１２】
また、本発明は、前記条件設定手段が、音声認識文法の有効範囲を制限することによって前記音声認識条件を設定することを特徴とする。
【００１３】
さらに、本発明は、前記条件設定手段が、音声認識の対象となる音声認識語彙を制限することによって前記音声認識条件を設定することを特徴とする。
【００１４】
さらにまた、本発明は、入力された音声情報を認識する音声認識装置であって、所定の音声認識辞書を記憶する辞書記憶手段と、音声認識に使用される音声認識辞書を指定する辞書指定手段と、指定された音声認識辞書の認識範囲を限定する限定手段と、音声情報を入力する音声入力手段と、指定された音声認識辞書及び限定された認識範囲に関する情報を含む音声認識条件に基づいて、入力された音声情報のうち所定の音声情報を認識する認識手段とを備えることを特徴とする。
【００１５】
さらにまた、本発明は、音声認識条件が、マークアップ言語で記述されていることを特徴とする。さらにまた、本発明は、音声認識条件が、グラフィカル・ユーザ・インタフェースを用いて設定可能であることを特徴とする。
【００１６】
【発明の実施の形態】
以下、図面を参照して、本発明の一実施形態によるマルチモーダル入出力機能を備え、入力された音声情報の認識処理を行う音声認識装置について説明する。
【００１７】
＜第１の実施形態＞
図１は、本発明の一実施形態に係る音声認識装置を実現するハードウェアの構成図である。図１に示すように、本発明に係る音声認識装置は、ＧＵＩ画面を表示するためのディスプレイ１０１と、数値演算・制御等の各種処理を行うＣＰＵ１０２と、メモリ１０３と、ユーザが音声を入力するためのマイク１０５と、入力された音声をアナログ信号からディジタル信号へ変換するためのＡ／Ｄ変換部１０４と、指示入力部１０６とから構成される。
【００１８】
ここで、メモリ１０３の実現例としては、本実施形態で行われる各種処理に必要な一時的な処理データ、プログラム、音声認識処理部等が格納されるディスク装置等の外部メモリや、ＲＡＭ、ＲＯＭ等の内部メモリが挙げられる。また、指示入力部１０６は、ユーザがディスプレイ１０１に表示されたＧＵＩ画面に対して使用する、マウスやスタイラス・ペンといったポインティングデバイス、キーボード又はテンキーに付与されている矢印ボタン等に相当する。尚、ディスプレイ１０１、ＣＰＵ１０２、メモリ１０３、Ａ／Ｄ変換部１０４及び指示入力部１０６はバス１０７を介して互いに接続されている。
【００１９】
図２は、本発明の一実施形態における音声認識装置（マルチモーダル入出力装置）の細部構成を示すブロック図である。図２において、コンテンツ保持部２０１は、ディスプレイ１０１に表示されるＧＵＩの内容（コンテンツ）を保持するための手段であり、メモリ１０３に相当する。コンテンツ保持部２０１で保持されるコンテンツは、ＸＭＬやＨＴＭＬのようなマークアップ言語で記述されたものである。
【００２０】
ＧＵＩ表示部２０２は、コンテンツ保持部２０１に保持されたコンテンツをディスプレイ１０１にＧＵＩ画面として表示させるブラウザ等の表示手段である。また、ＧＵＩ操作入力部２０３は、マウス、スタイラス・ペンといったポインティングデバイス及びキーボード、テンキーに付与されている矢印ボタンといったＧＵＩ画面に対する指示を入力するための手段であり、指示入力部１０６に相当する。
【００２１】
音声入力部２０４は、音声を入力し、入力された音声をアナログ信号からディジタル信号へ変換するための手段であり、マイク１０５とＡ／Ｄ変換部１０４に相当する。また、解釈部２０５は、コンテンツ保持部２０１に保持されたコンテンツを解釈するための手段であり、解釈されたコンテンツはメモリ１０３に格納される。
【００２２】
認識語彙制御部２０６は、解釈部２０５において解釈されたコンテンツに従って認識語彙を処理するための手段であり、処理された認識語彙はメモリ１０３に格納される。音声認識部２０７は、認識語彙制御部２０６において生成され、メモリ１０３に格納されている認識語彙に基づいて音声認識を行うための手段である。また、認識辞書保持部２０８は、音声認識部２０７において音声認識を行う際に用いられる認識辞書を保持するための手段であり、メモリ１０３に相当する。
【００２３】
すなわち、本発明は、入力された音声情報を認識する音声認識装置であって、所定の音声認識辞書を記憶する辞書記憶手段（メモリ１０３）と、音声認識に使用される音声認識辞書を指定する辞書指定手段（指示入力部１０６）と、指定された音声認識辞書の認識範囲を限定する限定手段（指示入力部１０６）と、音声情報を入力する音声入力手段（マイク１０５）と、指定された音声認識辞書及び限定された認識範囲に関する情報を含む音声認識条件に基づいて、入力された音声情報のうち所定の音声情報を認識する認識手段（ＣＰＵ１０２）とを備えることを特徴とする。
【００２４】
図３は、コンテンツ保持部２０１に保持されるマークアップ言語で記述された本実施形態で用いられるコンテンツの一例を示す。図３において、太字斜体で示された部分が、本発明に関する音声認識用のタグの一例である。例えば、図３では、「ｉｎｐｕｔ　ｔｙｐｅ　＝”ｔｅｘｔ，ｖｏｉｃｅ”」が入力としてテキスト又は音声を受け付けることを示すための記述を示す。
【００２５】
本実施形態で実現されるページ記述言語表示装置の機能を有する音声認識装置では、［ｒｅｃｏｇｗｏｒｄ＝…］で認識語彙を指定し、［ｍｉｎ＝…，ｍａｘ＝…］によって認識語彙の範囲を指定し、［ｏｐｔｉｏｎ＝…］において認識語彙の制御方法を指定するものとする。
【００２６】
図３に示す例では、［ｍｉｎ＝”５０”，ｍａｘ＝”２５０”］、［ｇｒａｍｍａｒ＝”ｎｕｍｂｅｒ．ｇｒｍ”］、［ｏｐｔｉｏｎ＝”ｒｅｓｔｒｉｃｔ”］という記述に従う。すなわち、最小値５０、最大値２５０の指定された認識語彙の範囲において、［ｇｒａｍｍａｒ＝］で指定された認識辞書ｎｕｍｂｅｒ．ｇｒｍ上で限定、有効化し、その認識辞書を用いて音声認識を行い、認識結果をフォームに表示させるという処理を示している。尚、［ｏｐｔｉｏｎ＝”ｒｅｓｔｒｉｃｔ”］という記述が、認識語彙の範囲を限定することを示している。
【００２７】
すなわち、本発明は、限定手段（指示入力部１０６）が、認識範囲の最小値・最大値を指定することによって音声認識辞書の認識範囲を限定することを特徴とする。また、本発明は、音声認識条件が、マークアップ言語で記述されていることを特徴とする。さらに、本発明は、音声認識条件が、グラフィカル・ユーザ・インタフェースを用いて設定可能であることを特徴とする。
【００２８】
図４は、本実施形態におけるブラウザによってＧＵＩ表示部２０２に表示されるテキストボックスの一例を示す図である。一般的なキーボードやマウスの入力以外に音声入力が可能であることを提示するために、図４の例ではテキストボックス内の右上に音声入力が可能であることを示すマーク４１が示されている。尚、図４に示す例ではマークを記述しているが、音声入力が可能であることを示す方法であれば、マーク以外の入力フィールドの色を変更する等のどのような方法を用いてもよい。
【００２９】
すなわち、本発明は、音声認識条件に基づいて音声入力が可能である場合、その旨を表示する表示手段（ディスプレイ１０１）をさらに備えることを特徴とする。
【００３０】
図５は、図３に示されるマークアップ言語を用いて制限された認識語彙の範囲の変化例を説明するための図である。図５（ａ）に示すように、制限前は、１から１０００までの範囲で認識語彙が設定されていたが、当該制限によって最小値が５０、最大値が２５０に制限されている。また、図５（ｂ）は、本実施形態による音声認識装置において制限される認識語彙の範囲の別の変化例を説明するための図である。図５（ｂ）に示すように、図３に示した記述により、認識辞書の単位部分として不要な「せん」「まん」「おく」が無効化され「じゅう」「ひゃく」のみが認識語彙として有効になっている。
【００３１】
すなわち、本発明は、限定手段が、認識範囲を指定することによって前記音声認識辞書の認識範囲および認識語彙を限定することを特徴とする。
【００３２】
次に、上述した構成の音声認識装置を用いた音声認識処理フローについて説明する。図６は、本実施形態における音声認識装置の動作手順を説明するためのフローチャートである。
【００３３】
まず、コンテンツ保持部２０１に保持されたコンテンツの読み込み処理が行われる（ステップＳ６０１）。例えば、図３に示されるようなマークアップ言語によって記述されたコンテンツが音声認識装置に読み込まれる。次に、マークアップ言語によって記述されたコンテンツの内容（タグ）が、解釈部２０５によって解釈される（ステップＳ６０２）。例えば、図３に示されるコンテンツを解釈することによって、ステップＳ６０４において検索される認識辞書がｎｕｍｂｅｒ．ｇｒｍであると判断することができ、また、ｏｐｔｉｏｎ＝”ｒｅｓｔｒｉｃｔ”という指定により制限を行う処理であることが解釈される。そして、解釈された内容に基づいて、指定された認識辞書が認識辞書保持部２０８から検索される（ステップＳ６０３）。
【００３４】
次いで、認識語彙制御部２０６は、検索された認識辞書の使用範囲を限定し、また、限定した部分のみを有効化する処理を行う（ステップＳ６０４）。例えば、図３に示されるコンテンツでは、有効化するべき限定範囲は”ｍｉｎ＝”及び”ｍａｘ＝”で指定されており、最小値５０、最大値２５０である。
【００３５】
さらに、処理済の認識辞書が認識辞書保持部２０８に格納される（ステップＳ６０５）。さらにまた、認識辞書保持部２０８に格納されている認識辞書が読み込まれる（ステップＳ６０６）。そして、読み込まれた認識辞書をＧＵＩ表示部２０２に表示するＧＵＩ表示処理が行われる（ステップＳ６０７）。すなわち、コンテンツの内容に応じてＧＵＩ表示がされるが、図３に示されたコンテンツの記述例に従えば、入力フォームが表示される。
【００３６】
次に、特定の入力フォーム等にフォーカスするため、ＧＵＩ操作入力部２０３（例えば、マウス）、若しくは音声入力部２０４を用いた音声操作によって入力操作が行われる（ステップＳ６０８）。そして、入力された情報が、ＧＵＩによる入力或いは音声入力かの判定処理が行われる（ステップＳ６０９）。その結果、入力された情報が音声であって音声入力部２０４を介して行われた場合（Ｙｅｓ）、ステップＳ６１０へ進む。一方、ＧＵＩ操作入力部２０３を介して行われた入力である場合（Ｎｏ）、ステップＳ６１４へ進む。
【００３７】
ステップＳ６１０では、音声認識部２０７によって、保持されている認識辞書を用いて入力された音声の音声認識処理が行われる。例えば、図３に示されるコンテンツによれば、最小値５０から最大値２５０までの範囲を限定された認識辞書ｎｕｍｂｅｒ．ｇｒｍを用いて音声認識が行われる。そして、音声認識が正しく行われたか否かが判定される（ステップＳ６１１）。その結果、音声認識が成功した場合（Ｙｅｓ）、ステップＳ６１２へ進む。一方、音声認識が失敗した場合（Ｎｏ）、ステップＳ６１５へ進む。
【００３８】
また、ＧＵＩ操作入力部２０３を介して行われた入力である場合、キーボード、ボタン等で実現されるＧＵＩ操作入力部２０３を用いてＧＵＩ入力処理が行われ（ステップＳ６１４）、ステップＳ６１２へ進む。
【００３９】
ステップＳ６１２では、音声入力部２０４又はＧＵＩ操作入力部２０３で入力された値が適切であるか否かが判定される。その結果、適切であると判定された場合（Ｙｅｓ）、入力されたそれぞれの内容に基づいて、所定の処理が行われ（ステップＳ６１３）、終了する。一方、不適切であると判定された場合（Ｎｏ）、ステップＳ６１５へ進む。ステップＳ６１５では、ＧＵＩ表示部２０２にメッセージを表示することによってユーザに対して再入力を促す等の例外処理が行われる。
【００４０】
すなわち、本発明は、音声認識結果が適切でない場合、所定の例外処理を行う例外処理手段（ＣＰＵ１０２）をさらに備えることを特徴とする。
【００４１】
＜第２の実施形態＞
上述した第１の実施形態においては、ｍａｘ，　ｍｉｎを記述することで最小値、最大値を指定し、それによって有効範囲を指定した。ここで、ある入力フォームに数値入力をする際、身長や年齢のように入力として有効な範囲が、ある程度まで決まっている場合がある。そこで、あらかじめ一般的な認識語彙を保持しているシステムにおいては、このような場合に、入力として有効な範囲をマークアップ言語により記述し、その範囲だけ認識語彙として有効にするということが考えられる。この場合、例えば、記述として単位を用いて範囲を限定することも考えられる。
【００４２】
図７は、本発明による第２の実施形態において使用されるコンテンツの記述例を示す図である。図７において、［ｉｎｐｕｔ　ｔｙｐｅ＝”ｔｅｘｔ，ｖｏｉｃｅ”］は、入力としてテキスト入力と音声入力が可能であることを示している。また、［ｕｎｉｔ＝”ｗｅｉｇｈｔ−Ｋｇ”］は、入力する数値の単位が体重（Ｋｇ）であることを表現している。さらに、［ｇｒａｍｍａｒ＝”ｎｕｍｂｅｒ．ｇｒｍ”］は、認識辞書の指定記述であり、数値に関連する認識辞書ｎｕｍｂｅｒ．ｇｒｍを指定している。
【００４３】
一方、［ｕｎｉｔ＝］で指定された単位には、それぞれに対応した範囲を規定したテーブルがあり、そのテーブルを元にして範囲を限定する。図８は、本発明の第２の実施形態において範囲を限定するためのテーブルの一例を示す図である。
【００４４】
図７に示されるコンテンツでは、［ｕｎｉｔ＝”ｗｅｉｇｈｔ−Ｋｇ”］と指定されていることから、その有効範囲は図８に示されるテーブルを用いて０〜３００までということが分かる。すなわち、図７に示されるコンテンツの記述によって、ｎｕｍｂｅｒ．ｇｒｍの０〜３００までが認識辞書として指定されることになる。
【００４５】
上述したような処理を行うことにより、一つの認識辞書を様々な範囲で使い分けることが可能となり、リソースの節約と認識率の向上を同時に実現することができる。尚、第２の実施形態における音声認識装置の処理動作フローは、図６で示した処理動作フローと同一である。
【００４６】
すなわち、本発明は、入力された音声情報を認識する音声認識装置であって、音声認識に使用される複数の認識条件を含む音声認識辞書を記憶する辞書記憶手段（メモリ１０３）と、音声認識辞書から所定の認識条件を選択する選択手段（指示入力部１０６）と、音声情報を入力する音声入力手段（マイク１０５）と、音声認識辞書及び選択された認識条件に関する情報を含む音声認識条件に基づいて、入力された音声情報のうち所定の音声情報を認識する認識手段（ＣＰＵ１０２）とを備えることを特徴とする。
【００４７】
また、本発明は、音声認識辞書が、認識範囲及び該認識範囲の単位の組からなる認識条件を定義するテーブルであることを特徴とする。
【００４８】
＜第３の実施形態＞
例えば、病院等において、ある患者に投与してはならない医薬品がある場合。それに該当する医薬品を認識語彙から削除する処理を実現することができれば、医薬品名の入力操作を伴う作業において誤薬投与を防ぐことができ、かつ、複数の選択肢の中から音声入力によって入力操作をすることができるといった利便性が得られる。
【００４９】
図９は、第３の実施形態において用いられる処理をするためのコンテンツをマークアップ言語で記述した一例を示す図である。投与してはならない医薬品名として、ｒｅｃｏｇｗｏｒｄ＝”Ａａａａ，　ｃｃＣｃ，　ＥｅｅＥ”が指定され、ｏｐｔｉｏｎ指定を解釈して、ｇｒａｍｍａｒ＝”ｍｅｄｉｃｉｎｅ．ｇｒｍ”により指定された認識辞書ｍｅｄｉｃｉｎｅ．ｇｒｍから、指定された語彙を削除する。尚、ｒｅｃｏｇｗｏｒｄ＝”Ａａａａ，　ｃｃＣｃ，　ＥｅｅＥ”で処理される認識語彙を示し、ｇｒａｍｍａｒ＝”ｍｅｄｉｃｉｎｅ．ｇｒｍ”で認識辞書を指定することを示し、ｏｐｔｉｏｎ＝”ｄｅｌｅｔｅ”で指定された認識辞書から削除するという処理を示す。
【００５０】
このような記述のコンテンツを用いることにより、所定の医薬品名が認識辞書から削除され、その認識辞書を用いて上述したような音声認識を行うことによって、ある患者に投与してはならない医薬品名は認識されない。
【００５１】
図１０は、第３の実施形態において用いられる削除前の認識辞書と削除後の認識辞書の様子を示す図である。尚、第３の実施形態による音声認識装置の処理動作フローは、図６に示されるステップＳ６０３〜Ｓ６０５までの各処理を、図１１に示されるステップＳ６０３ａ〜Ｓ６０５ａまでの各処理に置き換えた形態となる。図１１は、第１の実施形態による音声認識装置の処理動作フローのステップＳ６０３〜Ｓ６０５までの各処理に対応する部分の第３の実施形態による音声認識装置の処理動作フローを示す図である。すなわち、本実施形態では、認識辞書に指定された語彙を削除するという処理が行われる。
【００５２】
また、図９に示すコンテンツでは医薬品名を直接記述しているが、医薬品名が格納されているファイルの場所を示すように、削除する語彙を指定することができる方法であればどのような方法を用いてもよい。
【００５３】
すなわち、本発明は、入力された音声情報を認識する音声認識装置であって、所定の音声認識辞書を記憶する辞書記憶手段（メモリ１０３）と、音声認識に使用される音声認識辞書を指定する辞書指定手段（指示入力部１０６）と、指定された音声認識辞書から所定の認識情報を指定する指定手段（指示入力部１０６）と、音声情報を入力する音声入力手段（マイク１０５）と、指定された音声認識辞書及び認識情報に関する情報を含む音声認識条件に基づいて、指定された認識情報を音声認識辞書から削除し、新たな音声認識辞書を生成する削除手段（ＣＰＵ１０２）と、新たな音声認識辞書を用いて、入力された音声情報のうち所定の音声情報を認識する認識手段（ＣＰＵ１０２）とを備えることを特徴とする。
【００５４】
＜第４の実施形態＞
上述した処理の他に、現在保持している認識辞書に対してある語彙を追加したい場合に、そのような処理をマークアップ言語を用いて記述することも考えられる。図１２は、第４の実施形態において用いられる処理をするためのコンテンツをマークアップ言語で記述した一例を示す図である。図１２に示すような記述をマークアップ言語で行うことにより、［ｒｅｃｏｇｗｏｒｄ＝”サッカー、バスケットボール、バレーボール”］で示された、サッカー、バスケットボール及びバレーボールが、［ｇｒａｍｍａｒ＝”ｓｐｏｒｔｓ．ｇｒｍ”］と指定されている認識辞書ｓｐｏｒｔｓ．ｇｒｍに対して追加される。ここで追加を行うという指定は、［ｏｐｔｉｏｎ＝”ａｄｄ”］で解釈されたものとする。
【００５５】
図１３は、第４の実施形態による語彙の追加前と追加後の認識辞書の様子を示す図である。尚、本実施形態における処理動作フローは、図６に示されるステップＳ６０３〜Ｓ６０５までの各処理を、図１４に示されるステップＳ６０３ｂ〜Ｓ６０５ｂまでの各処理に置き換えた形態になる。すなわち、図１４は、第１の実施形態による音声認識装置の処理動作フローのステップＳ６０３〜Ｓ６０５までの各処理に対応する部分の第４の実施形態による音声認識装置の処理動作フローを示す図である。これによって、認識辞書に指定された語彙を追加するという処理を行うことができる。
【００５６】
また、図１２に示されるコンテンツ例では、スポーツ名を認識語彙として直接記述したが、スポーツ名が格納されているファイルの場所を示すように、追加したい語彙を指定することができる方法であれば、どのような方法を用いてもよい。
【００５７】
すなわち、本発明は、入力された音声情報を認識する音声認識装置であって、所定の音声認識辞書を記憶する辞書記憶手段（メモリ１０３）と、音声認識に使用される音声認識辞書を指定する辞書指定手段（指示入力部１０６）と、指定された音声認識辞書に追加する認識情報を指定する指定手段（指示入力部１０６）と、音声情報を入力する音声入力手段（マイク１０５）と、指定された音声認識辞書及び追加する認識情報に関する情報を含む音声認識条件に基づいて、指定された認識情報を音声認識辞書に追加し、新たな音声認識辞書を生成する追加手段（ＣＰＵ１０２）と、新たな音声認識辞書を用いて、入力された音声情報のうち所定の音声情報を認識する認識手段（ＣＰＵ１０２）とを備えることを特徴とする。
【００５８】
＜第５の実施形態＞
上述した第１〜第３の実施形態においては、あらかじめ認識語彙を制限または削除し、入力として不適切な語彙を受け付けない場合について説明した。しかし、それ以外でも、あらかじめ保持している認識語彙に基づいて音声認識を行い、コンテンツに記述された制限条件を後処理で行うことも可能である。
【００５９】
例えば、ある認識語彙を保持しているとき、コンテンツに記述された条件を解釈して、条件外（範囲外）であるという認識結果を得た場合、その認識結果を表示せずに、条件範囲内で最も認識率が高いものをその認識結果として表示させてもよい。
【００６０】
尚、本発明は、複数の機器（例えば、ホストコンピュータ、インタフェース機器、リーダ、プリンタ等）から構成されるシステムに適用しても、一つの機器からなる装置（例えば、複写機、ファクシミリ装置等）に適用してもよい。
【００６１】
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記録媒体（または記憶媒体）を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム（ＯＳ）などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【００６２】
さらに、記録媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【００６３】
本発明を上記記録媒体に適用する場合、その記録媒体には、先に説明したフローチャートに対応するプログラムコードが格納されることになる。
【００６４】
【発明の効果】
以上説明したように、本発明によれば、ＧＵＩと音声入力を併用して、入力された音声の認識率をより高くすることができる。また、誤認識に伴う誤操作及び確認処理にかかる工数を低減することができ、より使いやすいインタフェースを提供することができるという効果がある。さらに、マークアップ言語による記述によって、認識処理のためのコンテンツの記述を簡潔に行うことができる。
【図面の簡単な説明】
【図１】本発明の一実施形態に係る音声認識装置を実現するハードウェアの構成図である。
【図２】本発明の一実施形態における音声認識装置の細部構成を示すブロック図である。
【図３】コンテンツ保持部２０１に保持されるマークアップ言語で記述された本実施形態で用いられるコンテンツの一例を示す。
【図４】本実施形態におけるブラウザによってＧＵＩ表示部２０２に表示されるテキストボックスの一例を示す図である。
【図５】図３に示されるマークアップ言語を用いて制限された認識語彙の範囲の変化例を説明するための図である。
【図６】本実施形態における音声認識装置の動作手順を説明するためのフローチャートである。
【図７】本発明による第２の実施形態において使用されるコンテンツの記述例を示す図である。
【図８】本発明の第２の実施形態において範囲を限定するためのテーブルの一例を示す図である。
【図９】第３の実施形態において用いられる処理をするためのコンテンツをマークアップ言語で記述した一例を示す図である。
【図１０】第３の実施形態において用いられる削除前の認識辞書と削除後の認識辞書の様子を示す図である。
【図１１】第１の実施形態による音声認識装置の処理動作フローのステップＳ６０３〜Ｓ６０５までの各処理に対応する部分の第３の実施形態による音声認識装置の処理動作フローを示す図である。
【図１２】第４の実施形態において用いられる処理をするためのコンテンツをマークアップ言語で記述した一例を示す図である。
【図１３】第４の実施形態による語彙の追加前と追加後の認識辞書の様子を示す図である。
【図１４】第１の実施形態による音声認識装置の処理動作フローのステップＳ６０３〜Ｓ６０５までの各処理に対応する部分の第４の実施形態による音声認識装置の処理動作フローを示す図である。
【符号の説明】
１０１　ディスプレイ
１０２　ＣＰＵ
１０３　メモリ
１０４　Ａ／Ｄ変換器
１０５　マイク
１０６　指示入力部
１０７、２０９　バス
２０１　コンテンツ保持部
２０２　ＧＵＩ表示部
２０３　ＧＵＩ操作入力部
２０４　音声入力部
２０５　解釈部
２０６　認識語彙制御部
２０７　音声認識部
２０８　認識辞書保持部

Claims

入力された音声情報を認識する音声認識装置であって、
所定の音声認識条件を設定する条件設定手段と、
音声情報を入力する音声入力手段と、
前記音声認識条件に基づいて、入力された音声情報のうち所定の音声情報を認識する音声認識手段と
を備えることを特徴とする音声認識装置。
前記条件設定手段が、音声認識文法の有効範囲を制限することによって前記音声認識条件を設定することを特徴とする請求項１記載の音声認識装置。
前記条件設定手段が、音声認識の対象となる音声認識語彙を制限することによって前記音声認識条件を設定することを特徴とする請求項１記載の音声認識装置。
入力された音声情報を認識する音声認識装置であって、
所定の音声認識辞書を記憶する辞書記憶手段と、
音声認識に使用される音声認識辞書を指定する辞書指定手段と、
指定された音声認識辞書の認識範囲を限定する限定手段と、
音声情報を入力する音声入力手段と、
指定された音声認識辞書及び限定された認識範囲に関する情報を含む音声認識条件に基づいて、入力された音声情報のうち所定の音声情報を認識する認識手段と
を備えることを特徴とする音声認識装置。
前記限定手段が、認識範囲の最小値・最大値を指定することによって前記音声認識辞書の認識範囲を限定することを特徴とする請求項４記載の音声認識装置。
前記限定手段が、認識範囲の単位を指定することによって前記音声認識辞書の認識範囲を限定することを特徴とする請求項４記載の音声認識装置。
入力された音声情報を認識する音声認識装置であって、
音声認識に使用される複数の認識条件を含む音声認識辞書を記憶する辞書記憶手段と、
前記音声認識辞書から所定の認識条件を選択する選択手段と、
音声情報を入力する音声入力手段と、
前記音声認識辞書及び選択された認識条件に関する情報を含む音声認識条件に基づいて、入力された音声情報のうち所定の音声情報を認識する認識手段と
を備えることを特徴とする音声認識装置。
前記音声認識辞書が、認識範囲及び該認識範囲の単位の組からなる認識条件を定義するテーブルであることを特徴とする請求項７記載の音声認識装置。
入力された音声情報を認識する音声認識装置であって、
所定の音声認識辞書を記憶する辞書記憶手段と、
音声認識に使用される音声認識辞書を指定する辞書指定手段と、
指定された音声認識辞書から所定の認識情報を指定する指定手段と、
音声情報を入力する音声入力手段と、
指定された音声認識辞書及び認識情報に関する情報を含む音声認識条件に基づいて、指定された認識情報を前記音声認識辞書から削除し、新たな音声認識辞書を生成する削除手段と、
前記新たな音声認識辞書を用いて、入力された音声情報のうち所定の音声情報を認識する認識手段と
を備えることを特徴とする音声認識装置。
入力された音声情報を認識する音声認識装置であって、
所定の音声認識辞書を記憶する辞書記憶手段と、
音声認識に使用される音声認識辞書を指定する辞書指定手段と、
指定された音声認識辞書に追加する認識情報を指定する指定手段と、
音声情報を入力する音声入力手段と、
指定された音声認識辞書及び追加する認識情報に関する情報を含む音声認識条件に基づいて、指定された認識情報を前記音声認識辞書に追加し、新たな音声認識辞書を生成する追加手段と、
前記新たな音声認識辞書を用いて、入力された音声情報のうち所定の音声情報を認識する認識手段と
を備えることを特徴とする音声認識装置。
前記音声認識条件が、マークアップ言語で記述されていることを特徴とする請求項１から１０までのいずれか１項に記載の音声認識装置。
前記音声認識条件に基づいて音声入力が可能である場合、その旨を表示する表示手段をさらに備えることを特徴とする請求項１から１１までのいずれか１項に記載の音声認識装置。
音声認識結果が適切でない場合、所定の例外処理を行う例外処理手段をさらに備えることを特徴とする請求項１から１２までのいずれか１項に記載の音声認識装置。
前記音声認識条件が、グラフィカル・ユーザ・インタフェースを用いて設定可能であることを特徴とする請求項１から１３までのいずれか１項に記載の音声認識装置。
入力された音声情報を認識する音声認識装置の制御方法であって、
所定の音声認識条件を設定する条件設定工程と、
前記音声認識条件に基づいて、入力された音声情報のうち所定の音声情報を認識する音声認識工程と
を有することを特徴とする音声認識装置の制御方法。
前記条件設定工程が、音声認識文法の有効範囲を制限することによって前記音声認識条件を設定することを特徴とする請求項１５記載の音声認識装置の制御方法。
前記条件設定工程が、音声認識の対象となる音声認識語彙を制限することによって前記音声認識条件を設定することを特徴とする請求項１５記載の音声認識装置の制御方法。
入力された音声情報を認識する音声認識装置の制御方法であって、
音声認識に使用される音声認識辞書を指定する辞書指定工程と、
指定された音声認識辞書の認識範囲を限定する限定工程と、
指定された音声認識辞書及び限定された認識範囲に関する情報を含む音声認識条件に基づいて、入力された音声情報のうち所定の音声情報を認識する認識工程と
を有することを特徴とする音声認識装置の制御方法。
前記限定工程が、認識範囲の最小値・最大値を指定することによって前記音声認識辞書の認識範囲を限定することを特徴とする請求項１８記載の音声認識装置の制御方法。
前記限定工程が、認識範囲の単位を指定することによって前記音声認識辞書の認識範囲を限定することを特徴とする請求項１７記載の音声認識装置の制御方法。
入力された音声情報を認識する音声認識装置の制御方法であって、
音声認識に使用される複数の認識条件を含む音声認識辞書から所定の認識条件を選択する選択工程と、
前記音声認識辞書及び選択された認識条件に関する情報を含む音声認識条件に基づいて、入力された音声情報のうち所定の音声情報を認識する認識工程と
を有することを特徴とする音声認識装置の制御方法。
前記音声認識辞書が、認識範囲及び該認識範囲の単位の組からなる認識条件を定義するテーブルであることを特徴とする請求項２１記載の音声認識装置の制御方法。
入力された音声情報を認識する音声認識装置の制御方法であって、
音声認識に使用される音声認識辞書を指定する辞書指定工程と、
指定された音声認識辞書から所定の認識情報を指定する指定工程と、
指定された音声認識辞書及び認識情報に関する情報を含む音声認識条件に基づいて、指定された認識情報を前記音声認識辞書から削除し、新たな音声認識辞書を生成する削除工程と、
前記新たな音声認識辞書を用いて、入力された音声情報のうち所定の音声情報を認識する認識工程と
を有することを特徴とする音声認識装置の制御方法。
入力された音声情報を認識する音声認識装置の制御方法であって、
音声認識に使用される音声認識辞書を指定する辞書指定工程と、
指定された音声認識辞書に追加する認識情報を指定する指定工程と、
指定された音声認識辞書及び追加する認識情報に関する情報を含む音声認識条件に基づいて、指定された認識情報を前記音声認識辞書に追加し、新たな音声認識辞書を生成する追加工程と、
前記新たな音声認識辞書を用いて、入力された音声情報のうち所定の音声情報を認識する認識工程と
を有することを特徴とする音声認識装置の制御方法。
前記音声認識条件が、マークアップ言語で記述されていることを特徴とする請求項１５から２４までのいずれか１項に記載の音声認識装置の制御方法。
前記音声認識条件に基づいて音声入力が可能である場合、その旨を表示させる表示工程をさらに有することを特徴とする請求項１５から２５までのいずれか１項に記載の音声認識装置の制御方法。
音声認識結果が適切でない場合、所定の例外処理を行う例外処理工程をさらに有することを特徴とする請求項１５から２６までのいずれか１項に記載の音声認識装置の制御方法。
前記音声認識条件が、グラフィカル・ユーザ・インタフェースを用いて設定されることを特徴とする請求項１５から２７までのいずれか１項に記載の音声認識装置の制御方法。
入力された音声情報を認識する音声認識装置を制御するためのコンピュータプログラムであって、
所定の音声認識条件を設定する条件設定手段と、
前記音声認識条件に基づいて、入力された音声情報のうち所定の音声情報を認識する音声認識手段と
して機能することを特徴とするコンピュータプログラム。
請求項２９記載のコンピュータプログラムを格納することを特徴とする記録媒体。