JP2004012809A - 音声認識装置及びその制御方法 - Google Patents
音声認識装置及びその制御方法 Download PDFInfo
- Publication number
- JP2004012809A JP2004012809A JP2002166120A JP2002166120A JP2004012809A JP 2004012809 A JP2004012809 A JP 2004012809A JP 2002166120 A JP2002166120 A JP 2002166120A JP 2002166120 A JP2002166120 A JP 2002166120A JP 2004012809 A JP2004012809 A JP 2004012809A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- voice
- dictionary
- information
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
【課題】GUIと音声入力を併用して、入力された音声の認識率をより高くすることができる音声認識装置及びその制御方法を提供する。
【解決手段】認識辞書保持部208には、所定の音声認識辞書が記憶されている。ユーザは、GUI操作入力部203を用いて、音声認識に使用される音声認識辞書を指定し、指定された音声認識辞書の認識範囲を限定する。また、音声入力部204からは音声情報が入力される。そして、指定された音声認識辞書及び限定された認識範囲に関する情報を含む音声認識条件に基づいて、入力された音声情報のうち所定の音声情報が音声認識部207で認識される。
【選択図】 図2
【解決手段】認識辞書保持部208には、所定の音声認識辞書が記憶されている。ユーザは、GUI操作入力部203を用いて、音声認識に使用される音声認識辞書を指定し、指定された音声認識辞書の認識範囲を限定する。また、音声入力部204からは音声情報が入力される。そして、指定された音声認識辞書及び限定された認識範囲に関する情報を含む音声認識条件に基づいて、入力された音声情報のうち所定の音声情報が音声認識部207で認識される。
【選択図】 図2
Description
【0001】
【発明の属する技術分野】
本発明は、グラフィカル・ユーザ・インタフェース(GUI)と音声入力とを併用する音声認識装置及びその制御方法に関する。
【0002】
【従来の技術】
近年、インターネットの普及に伴い、世界中のいたるところから様々な情報を送受信することが可能となってきている。これらの情報を閲覧、送信、受信等する操作は、通常、人間による操作である。現在、それらの情報を取り扱うための方法として、GUIを備えるコンピュータ画面上で、マウスやキーボード等のポインティングデバイスを用いて入力操作等を行うものが主流である。
【0003】
一方、音声認識技術や音声規則合成技術といった音声入出力技術の進歩により、電話等の音声のみのモダリティを用いてGUIの操作を音声入力による操作に置き換えるCTI(Computer Telephony Integration)といった技術も進歩してきている。
【0004】
そこで、このようなCTI技術が用いることによって、従来のGUIのみのインタフェースに加えて音声入出力を備えるような複数のモダリティを持ったマルチモーダルインタフェースが登場し、年々その需要が高まってきている。また、音声認識における制御をマークアップ言語(Markup Language)で記述するVoiceXML等も登場してきている。
【0005】
このVoiceXMLには、音声認識における各種操作をマークアップ言語で記述することができるという特徴がある。このVoiceXMLを用いることで、音声によるコマンド入力や操作を行うことが可能になる。
【0006】
【発明が解決しようとする課題】
しかしながら、音声を用いて入力をする音声認識装置或いは音声認識システムにおいて認識結果に応じた処理を行う場合、認識後直ちに処理が行われることによって、誤認識による誤った処理がされてしまう可能性がある。このような事態を防ぐために、認識結果に対する確認処理が必要となり、その確認処理のために入力工数が増大してしまうという弊害が生じる。
【0007】
そこで、できるだけ所望の認識結果を得るために、入力された音声の認識率を向上させるということが考えられる。入力された音声の認識率を向上させる一手法として、入力音声の種類として適切な範囲内の認識語彙に関する音声だけを入力音声として受け付けるようなシステムが考えられる。
【0008】
現在、W3C(World Wide Web Consortium)で検討されているXFormsのように、ある入力に対する制限を設け、入力として適切な値のみ受理するという処理をマークアップ言語によって記述する技術が一般的に知られている。また、音声入力の際に、認識率を向上させる手段として、様々な条件において用いられる認識語彙を詳細に作成・指定するということも考えられる。
【0009】
しかし、あらゆる条件において用いられる認識語彙を詳細に記述し、又は、導入することは、システムに対して非常に大きな負荷を与えることになってしまう。そこで、上述したように、音声認識に関する操作をマークアップ言語で記述するVoiceXMLや入力値の制限をするためのXFormsのような枠組みが提案されている一方で、音声認識において入力の制限を設け、その制限をマークアップ言語で記述するという音声認識システムはこれまでに提案されていない。
【0010】
本発明は、このような事情を考慮してなされたものであり、GUIと音声入力を併用して、入力された音声の認識率をより高くすることができる音声認識装置及びその制御方法を提供することを目的とする。
【0011】
【課題を解決するための手段】
上記課題を解決するために、本発明は、入力された音声情報を認識する音声認識装置であって、所定の音声認識条件を設定する条件設定手段と、音声情報を入力する音声入力手段と、前記音声認識条件に基づいて、入力された音声情報のうち所定の音声情報を認識する音声認識手段とを備えることを特徴とする。
【0012】
また、本発明は、前記条件設定手段が、音声認識文法の有効範囲を制限することによって前記音声認識条件を設定することを特徴とする。
【0013】
さらに、本発明は、前記条件設定手段が、音声認識の対象となる音声認識語彙を制限することによって前記音声認識条件を設定することを特徴とする。
【0014】
さらにまた、本発明は、入力された音声情報を認識する音声認識装置であって、所定の音声認識辞書を記憶する辞書記憶手段と、音声認識に使用される音声認識辞書を指定する辞書指定手段と、指定された音声認識辞書の認識範囲を限定する限定手段と、音声情報を入力する音声入力手段と、指定された音声認識辞書及び限定された認識範囲に関する情報を含む音声認識条件に基づいて、入力された音声情報のうち所定の音声情報を認識する認識手段とを備えることを特徴とする。
【0015】
さらにまた、本発明は、音声認識条件が、マークアップ言語で記述されていることを特徴とする。さらにまた、本発明は、音声認識条件が、グラフィカル・ユーザ・インタフェースを用いて設定可能であることを特徴とする。
【0016】
【発明の実施の形態】
以下、図面を参照して、本発明の一実施形態によるマルチモーダル入出力機能を備え、入力された音声情報の認識処理を行う音声認識装置について説明する。
【0017】
<第1の実施形態>
図1は、本発明の一実施形態に係る音声認識装置を実現するハードウェアの構成図である。図1に示すように、本発明に係る音声認識装置は、GUI画面を表示するためのディスプレイ101と、数値演算・制御等の各種処理を行うCPU102と、メモリ103と、ユーザが音声を入力するためのマイク105と、入力された音声をアナログ信号からディジタル信号へ変換するためのA/D変換部104と、指示入力部106とから構成される。
【0018】
ここで、メモリ103の実現例としては、本実施形態で行われる各種処理に必要な一時的な処理データ、プログラム、音声認識処理部等が格納されるディスク装置等の外部メモリや、RAM、ROM等の内部メモリが挙げられる。また、指示入力部106は、ユーザがディスプレイ101に表示されたGUI画面に対して使用する、マウスやスタイラス・ペンといったポインティングデバイス、キーボード又はテンキーに付与されている矢印ボタン等に相当する。尚、ディスプレイ101、CPU102、メモリ103、A/D変換部104及び指示入力部106はバス107を介して互いに接続されている。
【0019】
図2は、本発明の一実施形態における音声認識装置(マルチモーダル入出力装置)の細部構成を示すブロック図である。図2において、コンテンツ保持部201は、ディスプレイ101に表示されるGUIの内容(コンテンツ)を保持するための手段であり、メモリ103に相当する。コンテンツ保持部201で保持されるコンテンツは、XMLやHTMLのようなマークアップ言語で記述されたものである。
【0020】
GUI表示部202は、コンテンツ保持部201に保持されたコンテンツをディスプレイ101にGUI画面として表示させるブラウザ等の表示手段である。また、GUI操作入力部203は、マウス、スタイラス・ペンといったポインティングデバイス及びキーボード、テンキーに付与されている矢印ボタンといったGUI画面に対する指示を入力するための手段であり、指示入力部106に相当する。
【0021】
音声入力部204は、音声を入力し、入力された音声をアナログ信号からディジタル信号へ変換するための手段であり、マイク105とA/D変換部104に相当する。また、解釈部205は、コンテンツ保持部201に保持されたコンテンツを解釈するための手段であり、解釈されたコンテンツはメモリ103に格納される。
【0022】
認識語彙制御部206は、解釈部205において解釈されたコンテンツに従って認識語彙を処理するための手段であり、処理された認識語彙はメモリ103に格納される。音声認識部207は、認識語彙制御部206において生成され、メモリ103に格納されている認識語彙に基づいて音声認識を行うための手段である。また、認識辞書保持部208は、音声認識部207において音声認識を行う際に用いられる認識辞書を保持するための手段であり、メモリ103に相当する。
【0023】
すなわち、本発明は、入力された音声情報を認識する音声認識装置であって、所定の音声認識辞書を記憶する辞書記憶手段(メモリ103)と、音声認識に使用される音声認識辞書を指定する辞書指定手段(指示入力部106)と、指定された音声認識辞書の認識範囲を限定する限定手段(指示入力部106)と、音声情報を入力する音声入力手段(マイク105)と、指定された音声認識辞書及び限定された認識範囲に関する情報を含む音声認識条件に基づいて、入力された音声情報のうち所定の音声情報を認識する認識手段(CPU102)とを備えることを特徴とする。
【0024】
図3は、コンテンツ保持部201に保持されるマークアップ言語で記述された本実施形態で用いられるコンテンツの一例を示す。図3において、太字斜体で示された部分が、本発明に関する音声認識用のタグの一例である。例えば、図3では、「input type =”text,voice”」が入力としてテキスト又は音声を受け付けることを示すための記述を示す。
【0025】
本実施形態で実現されるページ記述言語表示装置の機能を有する音声認識装置では、[recogword=…]で認識語彙を指定し、[min=…,max=…]によって認識語彙の範囲を指定し、[option=…]において認識語彙の制御方法を指定するものとする。
【0026】
図3に示す例では、[min=”50”,max=”250”]、[grammar=”number.grm”]、[option=”restrict”]という記述に従う。すなわち、最小値50、最大値250の指定された認識語彙の範囲において、[grammar=]で指定された認識辞書number.grm上で限定、有効化し、その認識辞書を用いて音声認識を行い、認識結果をフォームに表示させるという処理を示している。尚、[option=”restrict”]という記述が、認識語彙の範囲を限定することを示している。
【0027】
すなわち、本発明は、限定手段(指示入力部106)が、認識範囲の最小値・最大値を指定することによって音声認識辞書の認識範囲を限定することを特徴とする。また、本発明は、音声認識条件が、マークアップ言語で記述されていることを特徴とする。さらに、本発明は、音声認識条件が、グラフィカル・ユーザ・インタフェースを用いて設定可能であることを特徴とする。
【0028】
図4は、本実施形態におけるブラウザによってGUI表示部202に表示されるテキストボックスの一例を示す図である。一般的なキーボードやマウスの入力以外に音声入力が可能であることを提示するために、図4の例ではテキストボックス内の右上に音声入力が可能であることを示すマーク41が示されている。尚、図4に示す例ではマークを記述しているが、音声入力が可能であることを示す方法であれば、マーク以外の入力フィールドの色を変更する等のどのような方法を用いてもよい。
【0029】
すなわち、本発明は、音声認識条件に基づいて音声入力が可能である場合、その旨を表示する表示手段(ディスプレイ101)をさらに備えることを特徴とする。
【0030】
図5は、図3に示されるマークアップ言語を用いて制限された認識語彙の範囲の変化例を説明するための図である。図5(a)に示すように、制限前は、1から1000までの範囲で認識語彙が設定されていたが、当該制限によって最小値が50、最大値が250に制限されている。また、図5(b)は、本実施形態による音声認識装置において制限される認識語彙の範囲の別の変化例を説明するための図である。図5(b)に示すように、図3に示した記述により、認識辞書の単位部分として不要な「せん」「まん」「おく」が無効化され「じゅう」「ひゃく」のみが認識語彙として有効になっている。
【0031】
すなわち、本発明は、限定手段が、認識範囲を指定することによって前記音声認識辞書の認識範囲および認識語彙を限定することを特徴とする。
【0032】
次に、上述した構成の音声認識装置を用いた音声認識処理フローについて説明する。図6は、本実施形態における音声認識装置の動作手順を説明するためのフローチャートである。
【0033】
まず、コンテンツ保持部201に保持されたコンテンツの読み込み処理が行われる(ステップS601)。例えば、図3に示されるようなマークアップ言語によって記述されたコンテンツが音声認識装置に読み込まれる。次に、マークアップ言語によって記述されたコンテンツの内容(タグ)が、解釈部205によって解釈される(ステップS602)。例えば、図3に示されるコンテンツを解釈することによって、ステップS604において検索される認識辞書がnumber.grmであると判断することができ、また、option=”restrict”という指定により制限を行う処理であることが解釈される。そして、解釈された内容に基づいて、指定された認識辞書が認識辞書保持部208から検索される(ステップS603)。
【0034】
次いで、認識語彙制御部206は、検索された認識辞書の使用範囲を限定し、また、限定した部分のみを有効化する処理を行う(ステップS604)。例えば、図3に示されるコンテンツでは、有効化するべき限定範囲は”min=”及び”max=”で指定されており、最小値50、最大値250である。
【0035】
さらに、処理済の認識辞書が認識辞書保持部208に格納される(ステップS605)。さらにまた、認識辞書保持部208に格納されている認識辞書が読み込まれる(ステップS606)。そして、読み込まれた認識辞書をGUI表示部202に表示するGUI表示処理が行われる(ステップS607)。すなわち、コンテンツの内容に応じてGUI表示がされるが、図3に示されたコンテンツの記述例に従えば、入力フォームが表示される。
【0036】
次に、特定の入力フォーム等にフォーカスするため、GUI操作入力部203(例えば、マウス)、若しくは音声入力部204を用いた音声操作によって入力操作が行われる(ステップS608)。そして、入力された情報が、GUIによる入力或いは音声入力かの判定処理が行われる(ステップS609)。その結果、入力された情報が音声であって音声入力部204を介して行われた場合(Yes)、ステップS610へ進む。一方、GUI操作入力部203を介して行われた入力である場合(No)、ステップS614へ進む。
【0037】
ステップS610では、音声認識部207によって、保持されている認識辞書を用いて入力された音声の音声認識処理が行われる。例えば、図3に示されるコンテンツによれば、最小値50から最大値250までの範囲を限定された認識辞書number.grmを用いて音声認識が行われる。そして、音声認識が正しく行われたか否かが判定される(ステップS611)。その結果、音声認識が成功した場合(Yes)、ステップS612へ進む。一方、音声認識が失敗した場合(No)、ステップS615へ進む。
【0038】
また、GUI操作入力部203を介して行われた入力である場合、キーボード、ボタン等で実現されるGUI操作入力部203を用いてGUI入力処理が行われ(ステップS614)、ステップS612へ進む。
【0039】
ステップS612では、音声入力部204又はGUI操作入力部203で入力された値が適切であるか否かが判定される。その結果、適切であると判定された場合(Yes)、入力されたそれぞれの内容に基づいて、所定の処理が行われ(ステップS613)、終了する。一方、不適切であると判定された場合(No)、ステップS615へ進む。ステップS615では、GUI表示部202にメッセージを表示することによってユーザに対して再入力を促す等の例外処理が行われる。
【0040】
すなわち、本発明は、音声認識結果が適切でない場合、所定の例外処理を行う例外処理手段(CPU102)をさらに備えることを特徴とする。
【0041】
<第2の実施形態>
上述した第1の実施形態においては、max, minを記述することで最小値、最大値を指定し、それによって有効範囲を指定した。ここで、ある入力フォームに数値入力をする際、身長や年齢のように入力として有効な範囲が、ある程度まで決まっている場合がある。そこで、あらかじめ一般的な認識語彙を保持しているシステムにおいては、このような場合に、入力として有効な範囲をマークアップ言語により記述し、その範囲だけ認識語彙として有効にするということが考えられる。この場合、例えば、記述として単位を用いて範囲を限定することも考えられる。
【0042】
図7は、本発明による第2の実施形態において使用されるコンテンツの記述例を示す図である。図7において、[input type=”text,voice”]は、入力としてテキスト入力と音声入力が可能であることを示している。また、[unit=”weight−Kg”]は、入力する数値の単位が体重(Kg)であることを表現している。さらに、[grammar=”number.grm”]は、認識辞書の指定記述であり、数値に関連する認識辞書number.grmを指定している。
【0043】
一方、[unit=]で指定された単位には、それぞれに対応した範囲を規定したテーブルがあり、そのテーブルを元にして範囲を限定する。図8は、本発明の第2の実施形態において範囲を限定するためのテーブルの一例を示す図である。
【0044】
図7に示されるコンテンツでは、[unit=”weight−Kg”]と指定されていることから、その有効範囲は図8に示されるテーブルを用いて0〜300までということが分かる。すなわち、図7に示されるコンテンツの記述によって、number.grmの0〜300までが認識辞書として指定されることになる。
【0045】
上述したような処理を行うことにより、一つの認識辞書を様々な範囲で使い分けることが可能となり、リソースの節約と認識率の向上を同時に実現することができる。尚、第2の実施形態における音声認識装置の処理動作フローは、図6で示した処理動作フローと同一である。
【0046】
すなわち、本発明は、入力された音声情報を認識する音声認識装置であって、音声認識に使用される複数の認識条件を含む音声認識辞書を記憶する辞書記憶手段(メモリ103)と、音声認識辞書から所定の認識条件を選択する選択手段(指示入力部106)と、音声情報を入力する音声入力手段(マイク105)と、音声認識辞書及び選択された認識条件に関する情報を含む音声認識条件に基づいて、入力された音声情報のうち所定の音声情報を認識する認識手段(CPU102)とを備えることを特徴とする。
【0047】
また、本発明は、音声認識辞書が、認識範囲及び該認識範囲の単位の組からなる認識条件を定義するテーブルであることを特徴とする。
【0048】
<第3の実施形態>
例えば、病院等において、ある患者に投与してはならない医薬品がある場合。それに該当する医薬品を認識語彙から削除する処理を実現することができれば、医薬品名の入力操作を伴う作業において誤薬投与を防ぐことができ、かつ、複数の選択肢の中から音声入力によって入力操作をすることができるといった利便性が得られる。
【0049】
図9は、第3の実施形態において用いられる処理をするためのコンテンツをマークアップ言語で記述した一例を示す図である。投与してはならない医薬品名として、recogword=”Aaaa, ccCc, EeeE”が指定され、option指定を解釈して、grammar=”medicine.grm”により指定された認識辞書medicine.grmから、指定された語彙を削除する。尚、recogword=”Aaaa, ccCc, EeeE”で処理される認識語彙を示し、grammar=”medicine.grm”で認識辞書を指定することを示し、option=”delete”で指定された認識辞書から削除するという処理を示す。
【0050】
このような記述のコンテンツを用いることにより、所定の医薬品名が認識辞書から削除され、その認識辞書を用いて上述したような音声認識を行うことによって、ある患者に投与してはならない医薬品名は認識されない。
【0051】
図10は、第3の実施形態において用いられる削除前の認識辞書と削除後の認識辞書の様子を示す図である。尚、第3の実施形態による音声認識装置の処理動作フローは、図6に示されるステップS603〜S605までの各処理を、図11に示されるステップS603a〜S605aまでの各処理に置き換えた形態となる。図11は、第1の実施形態による音声認識装置の処理動作フローのステップS603〜S605までの各処理に対応する部分の第3の実施形態による音声認識装置の処理動作フローを示す図である。すなわち、本実施形態では、認識辞書に指定された語彙を削除するという処理が行われる。
【0052】
また、図9に示すコンテンツでは医薬品名を直接記述しているが、医薬品名が格納されているファイルの場所を示すように、削除する語彙を指定することができる方法であればどのような方法を用いてもよい。
【0053】
すなわち、本発明は、入力された音声情報を認識する音声認識装置であって、所定の音声認識辞書を記憶する辞書記憶手段(メモリ103)と、音声認識に使用される音声認識辞書を指定する辞書指定手段(指示入力部106)と、指定された音声認識辞書から所定の認識情報を指定する指定手段(指示入力部106)と、音声情報を入力する音声入力手段(マイク105)と、指定された音声認識辞書及び認識情報に関する情報を含む音声認識条件に基づいて、指定された認識情報を音声認識辞書から削除し、新たな音声認識辞書を生成する削除手段(CPU102)と、新たな音声認識辞書を用いて、入力された音声情報のうち所定の音声情報を認識する認識手段(CPU102)とを備えることを特徴とする。
【0054】
<第4の実施形態>
上述した処理の他に、現在保持している認識辞書に対してある語彙を追加したい場合に、そのような処理をマークアップ言語を用いて記述することも考えられる。図12は、第4の実施形態において用いられる処理をするためのコンテンツをマークアップ言語で記述した一例を示す図である。図12に示すような記述をマークアップ言語で行うことにより、[recogword=”サッカー、バスケットボール、バレーボール”]で示された、サッカー、バスケットボール及びバレーボールが、[grammar=”sports.grm”]と指定されている認識辞書sports.grmに対して追加される。ここで追加を行うという指定は、[option=”add”]で解釈されたものとする。
【0055】
図13は、第4の実施形態による語彙の追加前と追加後の認識辞書の様子を示す図である。尚、本実施形態における処理動作フローは、図6に示されるステップS603〜S605までの各処理を、図14に示されるステップS603b〜S605bまでの各処理に置き換えた形態になる。すなわち、図14は、第1の実施形態による音声認識装置の処理動作フローのステップS603〜S605までの各処理に対応する部分の第4の実施形態による音声認識装置の処理動作フローを示す図である。これによって、認識辞書に指定された語彙を追加するという処理を行うことができる。
【0056】
また、図12に示されるコンテンツ例では、スポーツ名を認識語彙として直接記述したが、スポーツ名が格納されているファイルの場所を示すように、追加したい語彙を指定することができる方法であれば、どのような方法を用いてもよい。
【0057】
すなわち、本発明は、入力された音声情報を認識する音声認識装置であって、所定の音声認識辞書を記憶する辞書記憶手段(メモリ103)と、音声認識に使用される音声認識辞書を指定する辞書指定手段(指示入力部106)と、指定された音声認識辞書に追加する認識情報を指定する指定手段(指示入力部106)と、音声情報を入力する音声入力手段(マイク105)と、指定された音声認識辞書及び追加する認識情報に関する情報を含む音声認識条件に基づいて、指定された認識情報を音声認識辞書に追加し、新たな音声認識辞書を生成する追加手段(CPU102)と、新たな音声認識辞書を用いて、入力された音声情報のうち所定の音声情報を認識する認識手段(CPU102)とを備えることを特徴とする。
【0058】
<第5の実施形態>
上述した第1〜第3の実施形態においては、あらかじめ認識語彙を制限または削除し、入力として不適切な語彙を受け付けない場合について説明した。しかし、それ以外でも、あらかじめ保持している認識語彙に基づいて音声認識を行い、コンテンツに記述された制限条件を後処理で行うことも可能である。
【0059】
例えば、ある認識語彙を保持しているとき、コンテンツに記述された条件を解釈して、条件外(範囲外)であるという認識結果を得た場合、その認識結果を表示せずに、条件範囲内で最も認識率が高いものをその認識結果として表示させてもよい。
【0060】
尚、本発明は、複数の機器(例えば、ホストコンピュータ、インタフェース機器、リーダ、プリンタ等)から構成されるシステムに適用しても、一つの機器からなる装置(例えば、複写機、ファクシミリ装置等)に適用してもよい。
【0061】
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記録媒体(または記憶媒体)を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム(OS)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0062】
さらに、記録媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0063】
本発明を上記記録媒体に適用する場合、その記録媒体には、先に説明したフローチャートに対応するプログラムコードが格納されることになる。
【0064】
【発明の効果】
以上説明したように、本発明によれば、GUIと音声入力を併用して、入力された音声の認識率をより高くすることができる。また、誤認識に伴う誤操作及び確認処理にかかる工数を低減することができ、より使いやすいインタフェースを提供することができるという効果がある。さらに、マークアップ言語による記述によって、認識処理のためのコンテンツの記述を簡潔に行うことができる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る音声認識装置を実現するハードウェアの構成図である。
【図2】本発明の一実施形態における音声認識装置の細部構成を示すブロック図である。
【図3】コンテンツ保持部201に保持されるマークアップ言語で記述された本実施形態で用いられるコンテンツの一例を示す。
【図4】本実施形態におけるブラウザによってGUI表示部202に表示されるテキストボックスの一例を示す図である。
【図5】図3に示されるマークアップ言語を用いて制限された認識語彙の範囲の変化例を説明するための図である。
【図6】本実施形態における音声認識装置の動作手順を説明するためのフローチャートである。
【図7】本発明による第2の実施形態において使用されるコンテンツの記述例を示す図である。
【図8】本発明の第2の実施形態において範囲を限定するためのテーブルの一例を示す図である。
【図9】第3の実施形態において用いられる処理をするためのコンテンツをマークアップ言語で記述した一例を示す図である。
【図10】第3の実施形態において用いられる削除前の認識辞書と削除後の認識辞書の様子を示す図である。
【図11】第1の実施形態による音声認識装置の処理動作フローのステップS603〜S605までの各処理に対応する部分の第3の実施形態による音声認識装置の処理動作フローを示す図である。
【図12】第4の実施形態において用いられる処理をするためのコンテンツをマークアップ言語で記述した一例を示す図である。
【図13】第4の実施形態による語彙の追加前と追加後の認識辞書の様子を示す図である。
【図14】第1の実施形態による音声認識装置の処理動作フローのステップS603〜S605までの各処理に対応する部分の第4の実施形態による音声認識装置の処理動作フローを示す図である。
【符号の説明】
101 ディスプレイ
102 CPU
103 メモリ
104 A/D変換器
105 マイク
106 指示入力部
107、209 バス
201 コンテンツ保持部
202 GUI表示部
203 GUI操作入力部
204 音声入力部
205 解釈部
206 認識語彙制御部
207 音声認識部
208 認識辞書保持部
【発明の属する技術分野】
本発明は、グラフィカル・ユーザ・インタフェース(GUI)と音声入力とを併用する音声認識装置及びその制御方法に関する。
【0002】
【従来の技術】
近年、インターネットの普及に伴い、世界中のいたるところから様々な情報を送受信することが可能となってきている。これらの情報を閲覧、送信、受信等する操作は、通常、人間による操作である。現在、それらの情報を取り扱うための方法として、GUIを備えるコンピュータ画面上で、マウスやキーボード等のポインティングデバイスを用いて入力操作等を行うものが主流である。
【0003】
一方、音声認識技術や音声規則合成技術といった音声入出力技術の進歩により、電話等の音声のみのモダリティを用いてGUIの操作を音声入力による操作に置き換えるCTI(Computer Telephony Integration)といった技術も進歩してきている。
【0004】
そこで、このようなCTI技術が用いることによって、従来のGUIのみのインタフェースに加えて音声入出力を備えるような複数のモダリティを持ったマルチモーダルインタフェースが登場し、年々その需要が高まってきている。また、音声認識における制御をマークアップ言語(Markup Language)で記述するVoiceXML等も登場してきている。
【0005】
このVoiceXMLには、音声認識における各種操作をマークアップ言語で記述することができるという特徴がある。このVoiceXMLを用いることで、音声によるコマンド入力や操作を行うことが可能になる。
【0006】
【発明が解決しようとする課題】
しかしながら、音声を用いて入力をする音声認識装置或いは音声認識システムにおいて認識結果に応じた処理を行う場合、認識後直ちに処理が行われることによって、誤認識による誤った処理がされてしまう可能性がある。このような事態を防ぐために、認識結果に対する確認処理が必要となり、その確認処理のために入力工数が増大してしまうという弊害が生じる。
【0007】
そこで、できるだけ所望の認識結果を得るために、入力された音声の認識率を向上させるということが考えられる。入力された音声の認識率を向上させる一手法として、入力音声の種類として適切な範囲内の認識語彙に関する音声だけを入力音声として受け付けるようなシステムが考えられる。
【0008】
現在、W3C(World Wide Web Consortium)で検討されているXFormsのように、ある入力に対する制限を設け、入力として適切な値のみ受理するという処理をマークアップ言語によって記述する技術が一般的に知られている。また、音声入力の際に、認識率を向上させる手段として、様々な条件において用いられる認識語彙を詳細に作成・指定するということも考えられる。
【0009】
しかし、あらゆる条件において用いられる認識語彙を詳細に記述し、又は、導入することは、システムに対して非常に大きな負荷を与えることになってしまう。そこで、上述したように、音声認識に関する操作をマークアップ言語で記述するVoiceXMLや入力値の制限をするためのXFormsのような枠組みが提案されている一方で、音声認識において入力の制限を設け、その制限をマークアップ言語で記述するという音声認識システムはこれまでに提案されていない。
【0010】
本発明は、このような事情を考慮してなされたものであり、GUIと音声入力を併用して、入力された音声の認識率をより高くすることができる音声認識装置及びその制御方法を提供することを目的とする。
【0011】
【課題を解決するための手段】
上記課題を解決するために、本発明は、入力された音声情報を認識する音声認識装置であって、所定の音声認識条件を設定する条件設定手段と、音声情報を入力する音声入力手段と、前記音声認識条件に基づいて、入力された音声情報のうち所定の音声情報を認識する音声認識手段とを備えることを特徴とする。
【0012】
また、本発明は、前記条件設定手段が、音声認識文法の有効範囲を制限することによって前記音声認識条件を設定することを特徴とする。
【0013】
さらに、本発明は、前記条件設定手段が、音声認識の対象となる音声認識語彙を制限することによって前記音声認識条件を設定することを特徴とする。
【0014】
さらにまた、本発明は、入力された音声情報を認識する音声認識装置であって、所定の音声認識辞書を記憶する辞書記憶手段と、音声認識に使用される音声認識辞書を指定する辞書指定手段と、指定された音声認識辞書の認識範囲を限定する限定手段と、音声情報を入力する音声入力手段と、指定された音声認識辞書及び限定された認識範囲に関する情報を含む音声認識条件に基づいて、入力された音声情報のうち所定の音声情報を認識する認識手段とを備えることを特徴とする。
【0015】
さらにまた、本発明は、音声認識条件が、マークアップ言語で記述されていることを特徴とする。さらにまた、本発明は、音声認識条件が、グラフィカル・ユーザ・インタフェースを用いて設定可能であることを特徴とする。
【0016】
【発明の実施の形態】
以下、図面を参照して、本発明の一実施形態によるマルチモーダル入出力機能を備え、入力された音声情報の認識処理を行う音声認識装置について説明する。
【0017】
<第1の実施形態>
図1は、本発明の一実施形態に係る音声認識装置を実現するハードウェアの構成図である。図1に示すように、本発明に係る音声認識装置は、GUI画面を表示するためのディスプレイ101と、数値演算・制御等の各種処理を行うCPU102と、メモリ103と、ユーザが音声を入力するためのマイク105と、入力された音声をアナログ信号からディジタル信号へ変換するためのA/D変換部104と、指示入力部106とから構成される。
【0018】
ここで、メモリ103の実現例としては、本実施形態で行われる各種処理に必要な一時的な処理データ、プログラム、音声認識処理部等が格納されるディスク装置等の外部メモリや、RAM、ROM等の内部メモリが挙げられる。また、指示入力部106は、ユーザがディスプレイ101に表示されたGUI画面に対して使用する、マウスやスタイラス・ペンといったポインティングデバイス、キーボード又はテンキーに付与されている矢印ボタン等に相当する。尚、ディスプレイ101、CPU102、メモリ103、A/D変換部104及び指示入力部106はバス107を介して互いに接続されている。
【0019】
図2は、本発明の一実施形態における音声認識装置(マルチモーダル入出力装置)の細部構成を示すブロック図である。図2において、コンテンツ保持部201は、ディスプレイ101に表示されるGUIの内容(コンテンツ)を保持するための手段であり、メモリ103に相当する。コンテンツ保持部201で保持されるコンテンツは、XMLやHTMLのようなマークアップ言語で記述されたものである。
【0020】
GUI表示部202は、コンテンツ保持部201に保持されたコンテンツをディスプレイ101にGUI画面として表示させるブラウザ等の表示手段である。また、GUI操作入力部203は、マウス、スタイラス・ペンといったポインティングデバイス及びキーボード、テンキーに付与されている矢印ボタンといったGUI画面に対する指示を入力するための手段であり、指示入力部106に相当する。
【0021】
音声入力部204は、音声を入力し、入力された音声をアナログ信号からディジタル信号へ変換するための手段であり、マイク105とA/D変換部104に相当する。また、解釈部205は、コンテンツ保持部201に保持されたコンテンツを解釈するための手段であり、解釈されたコンテンツはメモリ103に格納される。
【0022】
認識語彙制御部206は、解釈部205において解釈されたコンテンツに従って認識語彙を処理するための手段であり、処理された認識語彙はメモリ103に格納される。音声認識部207は、認識語彙制御部206において生成され、メモリ103に格納されている認識語彙に基づいて音声認識を行うための手段である。また、認識辞書保持部208は、音声認識部207において音声認識を行う際に用いられる認識辞書を保持するための手段であり、メモリ103に相当する。
【0023】
すなわち、本発明は、入力された音声情報を認識する音声認識装置であって、所定の音声認識辞書を記憶する辞書記憶手段(メモリ103)と、音声認識に使用される音声認識辞書を指定する辞書指定手段(指示入力部106)と、指定された音声認識辞書の認識範囲を限定する限定手段(指示入力部106)と、音声情報を入力する音声入力手段(マイク105)と、指定された音声認識辞書及び限定された認識範囲に関する情報を含む音声認識条件に基づいて、入力された音声情報のうち所定の音声情報を認識する認識手段(CPU102)とを備えることを特徴とする。
【0024】
図3は、コンテンツ保持部201に保持されるマークアップ言語で記述された本実施形態で用いられるコンテンツの一例を示す。図3において、太字斜体で示された部分が、本発明に関する音声認識用のタグの一例である。例えば、図3では、「input type =”text,voice”」が入力としてテキスト又は音声を受け付けることを示すための記述を示す。
【0025】
本実施形態で実現されるページ記述言語表示装置の機能を有する音声認識装置では、[recogword=…]で認識語彙を指定し、[min=…,max=…]によって認識語彙の範囲を指定し、[option=…]において認識語彙の制御方法を指定するものとする。
【0026】
図3に示す例では、[min=”50”,max=”250”]、[grammar=”number.grm”]、[option=”restrict”]という記述に従う。すなわち、最小値50、最大値250の指定された認識語彙の範囲において、[grammar=]で指定された認識辞書number.grm上で限定、有効化し、その認識辞書を用いて音声認識を行い、認識結果をフォームに表示させるという処理を示している。尚、[option=”restrict”]という記述が、認識語彙の範囲を限定することを示している。
【0027】
すなわち、本発明は、限定手段(指示入力部106)が、認識範囲の最小値・最大値を指定することによって音声認識辞書の認識範囲を限定することを特徴とする。また、本発明は、音声認識条件が、マークアップ言語で記述されていることを特徴とする。さらに、本発明は、音声認識条件が、グラフィカル・ユーザ・インタフェースを用いて設定可能であることを特徴とする。
【0028】
図4は、本実施形態におけるブラウザによってGUI表示部202に表示されるテキストボックスの一例を示す図である。一般的なキーボードやマウスの入力以外に音声入力が可能であることを提示するために、図4の例ではテキストボックス内の右上に音声入力が可能であることを示すマーク41が示されている。尚、図4に示す例ではマークを記述しているが、音声入力が可能であることを示す方法であれば、マーク以外の入力フィールドの色を変更する等のどのような方法を用いてもよい。
【0029】
すなわち、本発明は、音声認識条件に基づいて音声入力が可能である場合、その旨を表示する表示手段(ディスプレイ101)をさらに備えることを特徴とする。
【0030】
図5は、図3に示されるマークアップ言語を用いて制限された認識語彙の範囲の変化例を説明するための図である。図5(a)に示すように、制限前は、1から1000までの範囲で認識語彙が設定されていたが、当該制限によって最小値が50、最大値が250に制限されている。また、図5(b)は、本実施形態による音声認識装置において制限される認識語彙の範囲の別の変化例を説明するための図である。図5(b)に示すように、図3に示した記述により、認識辞書の単位部分として不要な「せん」「まん」「おく」が無効化され「じゅう」「ひゃく」のみが認識語彙として有効になっている。
【0031】
すなわち、本発明は、限定手段が、認識範囲を指定することによって前記音声認識辞書の認識範囲および認識語彙を限定することを特徴とする。
【0032】
次に、上述した構成の音声認識装置を用いた音声認識処理フローについて説明する。図6は、本実施形態における音声認識装置の動作手順を説明するためのフローチャートである。
【0033】
まず、コンテンツ保持部201に保持されたコンテンツの読み込み処理が行われる(ステップS601)。例えば、図3に示されるようなマークアップ言語によって記述されたコンテンツが音声認識装置に読み込まれる。次に、マークアップ言語によって記述されたコンテンツの内容(タグ)が、解釈部205によって解釈される(ステップS602)。例えば、図3に示されるコンテンツを解釈することによって、ステップS604において検索される認識辞書がnumber.grmであると判断することができ、また、option=”restrict”という指定により制限を行う処理であることが解釈される。そして、解釈された内容に基づいて、指定された認識辞書が認識辞書保持部208から検索される(ステップS603)。
【0034】
次いで、認識語彙制御部206は、検索された認識辞書の使用範囲を限定し、また、限定した部分のみを有効化する処理を行う(ステップS604)。例えば、図3に示されるコンテンツでは、有効化するべき限定範囲は”min=”及び”max=”で指定されており、最小値50、最大値250である。
【0035】
さらに、処理済の認識辞書が認識辞書保持部208に格納される(ステップS605)。さらにまた、認識辞書保持部208に格納されている認識辞書が読み込まれる(ステップS606)。そして、読み込まれた認識辞書をGUI表示部202に表示するGUI表示処理が行われる(ステップS607)。すなわち、コンテンツの内容に応じてGUI表示がされるが、図3に示されたコンテンツの記述例に従えば、入力フォームが表示される。
【0036】
次に、特定の入力フォーム等にフォーカスするため、GUI操作入力部203(例えば、マウス)、若しくは音声入力部204を用いた音声操作によって入力操作が行われる(ステップS608)。そして、入力された情報が、GUIによる入力或いは音声入力かの判定処理が行われる(ステップS609)。その結果、入力された情報が音声であって音声入力部204を介して行われた場合(Yes)、ステップS610へ進む。一方、GUI操作入力部203を介して行われた入力である場合(No)、ステップS614へ進む。
【0037】
ステップS610では、音声認識部207によって、保持されている認識辞書を用いて入力された音声の音声認識処理が行われる。例えば、図3に示されるコンテンツによれば、最小値50から最大値250までの範囲を限定された認識辞書number.grmを用いて音声認識が行われる。そして、音声認識が正しく行われたか否かが判定される(ステップS611)。その結果、音声認識が成功した場合(Yes)、ステップS612へ進む。一方、音声認識が失敗した場合(No)、ステップS615へ進む。
【0038】
また、GUI操作入力部203を介して行われた入力である場合、キーボード、ボタン等で実現されるGUI操作入力部203を用いてGUI入力処理が行われ(ステップS614)、ステップS612へ進む。
【0039】
ステップS612では、音声入力部204又はGUI操作入力部203で入力された値が適切であるか否かが判定される。その結果、適切であると判定された場合(Yes)、入力されたそれぞれの内容に基づいて、所定の処理が行われ(ステップS613)、終了する。一方、不適切であると判定された場合(No)、ステップS615へ進む。ステップS615では、GUI表示部202にメッセージを表示することによってユーザに対して再入力を促す等の例外処理が行われる。
【0040】
すなわち、本発明は、音声認識結果が適切でない場合、所定の例外処理を行う例外処理手段(CPU102)をさらに備えることを特徴とする。
【0041】
<第2の実施形態>
上述した第1の実施形態においては、max, minを記述することで最小値、最大値を指定し、それによって有効範囲を指定した。ここで、ある入力フォームに数値入力をする際、身長や年齢のように入力として有効な範囲が、ある程度まで決まっている場合がある。そこで、あらかじめ一般的な認識語彙を保持しているシステムにおいては、このような場合に、入力として有効な範囲をマークアップ言語により記述し、その範囲だけ認識語彙として有効にするということが考えられる。この場合、例えば、記述として単位を用いて範囲を限定することも考えられる。
【0042】
図7は、本発明による第2の実施形態において使用されるコンテンツの記述例を示す図である。図7において、[input type=”text,voice”]は、入力としてテキスト入力と音声入力が可能であることを示している。また、[unit=”weight−Kg”]は、入力する数値の単位が体重(Kg)であることを表現している。さらに、[grammar=”number.grm”]は、認識辞書の指定記述であり、数値に関連する認識辞書number.grmを指定している。
【0043】
一方、[unit=]で指定された単位には、それぞれに対応した範囲を規定したテーブルがあり、そのテーブルを元にして範囲を限定する。図8は、本発明の第2の実施形態において範囲を限定するためのテーブルの一例を示す図である。
【0044】
図7に示されるコンテンツでは、[unit=”weight−Kg”]と指定されていることから、その有効範囲は図8に示されるテーブルを用いて0〜300までということが分かる。すなわち、図7に示されるコンテンツの記述によって、number.grmの0〜300までが認識辞書として指定されることになる。
【0045】
上述したような処理を行うことにより、一つの認識辞書を様々な範囲で使い分けることが可能となり、リソースの節約と認識率の向上を同時に実現することができる。尚、第2の実施形態における音声認識装置の処理動作フローは、図6で示した処理動作フローと同一である。
【0046】
すなわち、本発明は、入力された音声情報を認識する音声認識装置であって、音声認識に使用される複数の認識条件を含む音声認識辞書を記憶する辞書記憶手段(メモリ103)と、音声認識辞書から所定の認識条件を選択する選択手段(指示入力部106)と、音声情報を入力する音声入力手段(マイク105)と、音声認識辞書及び選択された認識条件に関する情報を含む音声認識条件に基づいて、入力された音声情報のうち所定の音声情報を認識する認識手段(CPU102)とを備えることを特徴とする。
【0047】
また、本発明は、音声認識辞書が、認識範囲及び該認識範囲の単位の組からなる認識条件を定義するテーブルであることを特徴とする。
【0048】
<第3の実施形態>
例えば、病院等において、ある患者に投与してはならない医薬品がある場合。それに該当する医薬品を認識語彙から削除する処理を実現することができれば、医薬品名の入力操作を伴う作業において誤薬投与を防ぐことができ、かつ、複数の選択肢の中から音声入力によって入力操作をすることができるといった利便性が得られる。
【0049】
図9は、第3の実施形態において用いられる処理をするためのコンテンツをマークアップ言語で記述した一例を示す図である。投与してはならない医薬品名として、recogword=”Aaaa, ccCc, EeeE”が指定され、option指定を解釈して、grammar=”medicine.grm”により指定された認識辞書medicine.grmから、指定された語彙を削除する。尚、recogword=”Aaaa, ccCc, EeeE”で処理される認識語彙を示し、grammar=”medicine.grm”で認識辞書を指定することを示し、option=”delete”で指定された認識辞書から削除するという処理を示す。
【0050】
このような記述のコンテンツを用いることにより、所定の医薬品名が認識辞書から削除され、その認識辞書を用いて上述したような音声認識を行うことによって、ある患者に投与してはならない医薬品名は認識されない。
【0051】
図10は、第3の実施形態において用いられる削除前の認識辞書と削除後の認識辞書の様子を示す図である。尚、第3の実施形態による音声認識装置の処理動作フローは、図6に示されるステップS603〜S605までの各処理を、図11に示されるステップS603a〜S605aまでの各処理に置き換えた形態となる。図11は、第1の実施形態による音声認識装置の処理動作フローのステップS603〜S605までの各処理に対応する部分の第3の実施形態による音声認識装置の処理動作フローを示す図である。すなわち、本実施形態では、認識辞書に指定された語彙を削除するという処理が行われる。
【0052】
また、図9に示すコンテンツでは医薬品名を直接記述しているが、医薬品名が格納されているファイルの場所を示すように、削除する語彙を指定することができる方法であればどのような方法を用いてもよい。
【0053】
すなわち、本発明は、入力された音声情報を認識する音声認識装置であって、所定の音声認識辞書を記憶する辞書記憶手段(メモリ103)と、音声認識に使用される音声認識辞書を指定する辞書指定手段(指示入力部106)と、指定された音声認識辞書から所定の認識情報を指定する指定手段(指示入力部106)と、音声情報を入力する音声入力手段(マイク105)と、指定された音声認識辞書及び認識情報に関する情報を含む音声認識条件に基づいて、指定された認識情報を音声認識辞書から削除し、新たな音声認識辞書を生成する削除手段(CPU102)と、新たな音声認識辞書を用いて、入力された音声情報のうち所定の音声情報を認識する認識手段(CPU102)とを備えることを特徴とする。
【0054】
<第4の実施形態>
上述した処理の他に、現在保持している認識辞書に対してある語彙を追加したい場合に、そのような処理をマークアップ言語を用いて記述することも考えられる。図12は、第4の実施形態において用いられる処理をするためのコンテンツをマークアップ言語で記述した一例を示す図である。図12に示すような記述をマークアップ言語で行うことにより、[recogword=”サッカー、バスケットボール、バレーボール”]で示された、サッカー、バスケットボール及びバレーボールが、[grammar=”sports.grm”]と指定されている認識辞書sports.grmに対して追加される。ここで追加を行うという指定は、[option=”add”]で解釈されたものとする。
【0055】
図13は、第4の実施形態による語彙の追加前と追加後の認識辞書の様子を示す図である。尚、本実施形態における処理動作フローは、図6に示されるステップS603〜S605までの各処理を、図14に示されるステップS603b〜S605bまでの各処理に置き換えた形態になる。すなわち、図14は、第1の実施形態による音声認識装置の処理動作フローのステップS603〜S605までの各処理に対応する部分の第4の実施形態による音声認識装置の処理動作フローを示す図である。これによって、認識辞書に指定された語彙を追加するという処理を行うことができる。
【0056】
また、図12に示されるコンテンツ例では、スポーツ名を認識語彙として直接記述したが、スポーツ名が格納されているファイルの場所を示すように、追加したい語彙を指定することができる方法であれば、どのような方法を用いてもよい。
【0057】
すなわち、本発明は、入力された音声情報を認識する音声認識装置であって、所定の音声認識辞書を記憶する辞書記憶手段(メモリ103)と、音声認識に使用される音声認識辞書を指定する辞書指定手段(指示入力部106)と、指定された音声認識辞書に追加する認識情報を指定する指定手段(指示入力部106)と、音声情報を入力する音声入力手段(マイク105)と、指定された音声認識辞書及び追加する認識情報に関する情報を含む音声認識条件に基づいて、指定された認識情報を音声認識辞書に追加し、新たな音声認識辞書を生成する追加手段(CPU102)と、新たな音声認識辞書を用いて、入力された音声情報のうち所定の音声情報を認識する認識手段(CPU102)とを備えることを特徴とする。
【0058】
<第5の実施形態>
上述した第1〜第3の実施形態においては、あらかじめ認識語彙を制限または削除し、入力として不適切な語彙を受け付けない場合について説明した。しかし、それ以外でも、あらかじめ保持している認識語彙に基づいて音声認識を行い、コンテンツに記述された制限条件を後処理で行うことも可能である。
【0059】
例えば、ある認識語彙を保持しているとき、コンテンツに記述された条件を解釈して、条件外(範囲外)であるという認識結果を得た場合、その認識結果を表示せずに、条件範囲内で最も認識率が高いものをその認識結果として表示させてもよい。
【0060】
尚、本発明は、複数の機器(例えば、ホストコンピュータ、インタフェース機器、リーダ、プリンタ等)から構成されるシステムに適用しても、一つの機器からなる装置(例えば、複写機、ファクシミリ装置等)に適用してもよい。
【0061】
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記録媒体(または記憶媒体)を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム(OS)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0062】
さらに、記録媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0063】
本発明を上記記録媒体に適用する場合、その記録媒体には、先に説明したフローチャートに対応するプログラムコードが格納されることになる。
【0064】
【発明の効果】
以上説明したように、本発明によれば、GUIと音声入力を併用して、入力された音声の認識率をより高くすることができる。また、誤認識に伴う誤操作及び確認処理にかかる工数を低減することができ、より使いやすいインタフェースを提供することができるという効果がある。さらに、マークアップ言語による記述によって、認識処理のためのコンテンツの記述を簡潔に行うことができる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る音声認識装置を実現するハードウェアの構成図である。
【図2】本発明の一実施形態における音声認識装置の細部構成を示すブロック図である。
【図3】コンテンツ保持部201に保持されるマークアップ言語で記述された本実施形態で用いられるコンテンツの一例を示す。
【図4】本実施形態におけるブラウザによってGUI表示部202に表示されるテキストボックスの一例を示す図である。
【図5】図3に示されるマークアップ言語を用いて制限された認識語彙の範囲の変化例を説明するための図である。
【図6】本実施形態における音声認識装置の動作手順を説明するためのフローチャートである。
【図7】本発明による第2の実施形態において使用されるコンテンツの記述例を示す図である。
【図8】本発明の第2の実施形態において範囲を限定するためのテーブルの一例を示す図である。
【図9】第3の実施形態において用いられる処理をするためのコンテンツをマークアップ言語で記述した一例を示す図である。
【図10】第3の実施形態において用いられる削除前の認識辞書と削除後の認識辞書の様子を示す図である。
【図11】第1の実施形態による音声認識装置の処理動作フローのステップS603〜S605までの各処理に対応する部分の第3の実施形態による音声認識装置の処理動作フローを示す図である。
【図12】第4の実施形態において用いられる処理をするためのコンテンツをマークアップ言語で記述した一例を示す図である。
【図13】第4の実施形態による語彙の追加前と追加後の認識辞書の様子を示す図である。
【図14】第1の実施形態による音声認識装置の処理動作フローのステップS603〜S605までの各処理に対応する部分の第4の実施形態による音声認識装置の処理動作フローを示す図である。
【符号の説明】
101 ディスプレイ
102 CPU
103 メモリ
104 A/D変換器
105 マイク
106 指示入力部
107、209 バス
201 コンテンツ保持部
202 GUI表示部
203 GUI操作入力部
204 音声入力部
205 解釈部
206 認識語彙制御部
207 音声認識部
208 認識辞書保持部
Claims (30)
- 入力された音声情報を認識する音声認識装置であって、
所定の音声認識条件を設定する条件設定手段と、
音声情報を入力する音声入力手段と、
前記音声認識条件に基づいて、入力された音声情報のうち所定の音声情報を認識する音声認識手段と
を備えることを特徴とする音声認識装置。 - 前記条件設定手段が、音声認識文法の有効範囲を制限することによって前記音声認識条件を設定することを特徴とする請求項1記載の音声認識装置。
- 前記条件設定手段が、音声認識の対象となる音声認識語彙を制限することによって前記音声認識条件を設定することを特徴とする請求項1記載の音声認識装置。
- 入力された音声情報を認識する音声認識装置であって、
所定の音声認識辞書を記憶する辞書記憶手段と、
音声認識に使用される音声認識辞書を指定する辞書指定手段と、
指定された音声認識辞書の認識範囲を限定する限定手段と、
音声情報を入力する音声入力手段と、
指定された音声認識辞書及び限定された認識範囲に関する情報を含む音声認識条件に基づいて、入力された音声情報のうち所定の音声情報を認識する認識手段と
を備えることを特徴とする音声認識装置。 - 前記限定手段が、認識範囲の最小値・最大値を指定することによって前記音声認識辞書の認識範囲を限定することを特徴とする請求項4記載の音声認識装置。
- 前記限定手段が、認識範囲の単位を指定することによって前記音声認識辞書の認識範囲を限定することを特徴とする請求項4記載の音声認識装置。
- 入力された音声情報を認識する音声認識装置であって、
音声認識に使用される複数の認識条件を含む音声認識辞書を記憶する辞書記憶手段と、
前記音声認識辞書から所定の認識条件を選択する選択手段と、
音声情報を入力する音声入力手段と、
前記音声認識辞書及び選択された認識条件に関する情報を含む音声認識条件に基づいて、入力された音声情報のうち所定の音声情報を認識する認識手段と
を備えることを特徴とする音声認識装置。 - 前記音声認識辞書が、認識範囲及び該認識範囲の単位の組からなる認識条件を定義するテーブルであることを特徴とする請求項7記載の音声認識装置。
- 入力された音声情報を認識する音声認識装置であって、
所定の音声認識辞書を記憶する辞書記憶手段と、
音声認識に使用される音声認識辞書を指定する辞書指定手段と、
指定された音声認識辞書から所定の認識情報を指定する指定手段と、
音声情報を入力する音声入力手段と、
指定された音声認識辞書及び認識情報に関する情報を含む音声認識条件に基づいて、指定された認識情報を前記音声認識辞書から削除し、新たな音声認識辞書を生成する削除手段と、
前記新たな音声認識辞書を用いて、入力された音声情報のうち所定の音声情報を認識する認識手段と
を備えることを特徴とする音声認識装置。 - 入力された音声情報を認識する音声認識装置であって、
所定の音声認識辞書を記憶する辞書記憶手段と、
音声認識に使用される音声認識辞書を指定する辞書指定手段と、
指定された音声認識辞書に追加する認識情報を指定する指定手段と、
音声情報を入力する音声入力手段と、
指定された音声認識辞書及び追加する認識情報に関する情報を含む音声認識条件に基づいて、指定された認識情報を前記音声認識辞書に追加し、新たな音声認識辞書を生成する追加手段と、
前記新たな音声認識辞書を用いて、入力された音声情報のうち所定の音声情報を認識する認識手段と
を備えることを特徴とする音声認識装置。 - 前記音声認識条件が、マークアップ言語で記述されていることを特徴とする請求項1から10までのいずれか1項に記載の音声認識装置。
- 前記音声認識条件に基づいて音声入力が可能である場合、その旨を表示する表示手段をさらに備えることを特徴とする請求項1から11までのいずれか1項に記載の音声認識装置。
- 音声認識結果が適切でない場合、所定の例外処理を行う例外処理手段をさらに備えることを特徴とする請求項1から12までのいずれか1項に記載の音声認識装置。
- 前記音声認識条件が、グラフィカル・ユーザ・インタフェースを用いて設定可能であることを特徴とする請求項1から13までのいずれか1項に記載の音声認識装置。
- 入力された音声情報を認識する音声認識装置の制御方法であって、
所定の音声認識条件を設定する条件設定工程と、
前記音声認識条件に基づいて、入力された音声情報のうち所定の音声情報を認識する音声認識工程と
を有することを特徴とする音声認識装置の制御方法。 - 前記条件設定工程が、音声認識文法の有効範囲を制限することによって前記音声認識条件を設定することを特徴とする請求項15記載の音声認識装置の制御方法。
- 前記条件設定工程が、音声認識の対象となる音声認識語彙を制限することによって前記音声認識条件を設定することを特徴とする請求項15記載の音声認識装置の制御方法。
- 入力された音声情報を認識する音声認識装置の制御方法であって、
音声認識に使用される音声認識辞書を指定する辞書指定工程と、
指定された音声認識辞書の認識範囲を限定する限定工程と、
指定された音声認識辞書及び限定された認識範囲に関する情報を含む音声認識条件に基づいて、入力された音声情報のうち所定の音声情報を認識する認識工程と
を有することを特徴とする音声認識装置の制御方法。 - 前記限定工程が、認識範囲の最小値・最大値を指定することによって前記音声認識辞書の認識範囲を限定することを特徴とする請求項18記載の音声認識装置の制御方法。
- 前記限定工程が、認識範囲の単位を指定することによって前記音声認識辞書の認識範囲を限定することを特徴とする請求項17記載の音声認識装置の制御方法。
- 入力された音声情報を認識する音声認識装置の制御方法であって、
音声認識に使用される複数の認識条件を含む音声認識辞書から所定の認識条件を選択する選択工程と、
前記音声認識辞書及び選択された認識条件に関する情報を含む音声認識条件に基づいて、入力された音声情報のうち所定の音声情報を認識する認識工程と
を有することを特徴とする音声認識装置の制御方法。 - 前記音声認識辞書が、認識範囲及び該認識範囲の単位の組からなる認識条件を定義するテーブルであることを特徴とする請求項21記載の音声認識装置の制御方法。
- 入力された音声情報を認識する音声認識装置の制御方法であって、
音声認識に使用される音声認識辞書を指定する辞書指定工程と、
指定された音声認識辞書から所定の認識情報を指定する指定工程と、
指定された音声認識辞書及び認識情報に関する情報を含む音声認識条件に基づいて、指定された認識情報を前記音声認識辞書から削除し、新たな音声認識辞書を生成する削除工程と、
前記新たな音声認識辞書を用いて、入力された音声情報のうち所定の音声情報を認識する認識工程と
を有することを特徴とする音声認識装置の制御方法。 - 入力された音声情報を認識する音声認識装置の制御方法であって、
音声認識に使用される音声認識辞書を指定する辞書指定工程と、
指定された音声認識辞書に追加する認識情報を指定する指定工程と、
指定された音声認識辞書及び追加する認識情報に関する情報を含む音声認識条件に基づいて、指定された認識情報を前記音声認識辞書に追加し、新たな音声認識辞書を生成する追加工程と、
前記新たな音声認識辞書を用いて、入力された音声情報のうち所定の音声情報を認識する認識工程と
を有することを特徴とする音声認識装置の制御方法。 - 前記音声認識条件が、マークアップ言語で記述されていることを特徴とする請求項15から24までのいずれか1項に記載の音声認識装置の制御方法。
- 前記音声認識条件に基づいて音声入力が可能である場合、その旨を表示させる表示工程をさらに有することを特徴とする請求項15から25までのいずれか1項に記載の音声認識装置の制御方法。
- 音声認識結果が適切でない場合、所定の例外処理を行う例外処理工程をさらに有することを特徴とする請求項15から26までのいずれか1項に記載の音声認識装置の制御方法。
- 前記音声認識条件が、グラフィカル・ユーザ・インタフェースを用いて設定されることを特徴とする請求項15から27までのいずれか1項に記載の音声認識装置の制御方法。
- 入力された音声情報を認識する音声認識装置を制御するためのコンピュータプログラムであって、
所定の音声認識条件を設定する条件設定手段と、
前記音声認識条件に基づいて、入力された音声情報のうち所定の音声情報を認識する音声認識手段と
して機能することを特徴とするコンピュータプログラム。 - 請求項29記載のコンピュータプログラムを格納することを特徴とする記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002166120A JP2004012809A (ja) | 2002-06-06 | 2002-06-06 | 音声認識装置及びその制御方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002166120A JP2004012809A (ja) | 2002-06-06 | 2002-06-06 | 音声認識装置及びその制御方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004012809A true JP2004012809A (ja) | 2004-01-15 |
Family
ID=30433790
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002166120A Withdrawn JP2004012809A (ja) | 2002-06-06 | 2002-06-06 | 音声認識装置及びその制御方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004012809A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006086755A (ja) * | 2004-09-15 | 2006-03-30 | Ricoh Co Ltd | 画像形成装置、画像形成方法、その方法をコンピュータに実行させるプログラム、画像処理装置、および画像処理システム |
JP2006251568A (ja) * | 2005-03-11 | 2006-09-21 | Fujitsu Ltd | グラマデータ生成方法およびグラマデータ生成プログラム |
JP2007080242A (ja) * | 2005-08-15 | 2007-03-29 | Kobe Steel Ltd | 情報処理装置及びそのプログラム |
US8012391B2 (en) | 2006-09-29 | 2011-09-06 | Xella Baustoffe Gmbh | Process for the production of reinforced and cast, cellular or foamed concrete bodies and reinforcement support frame for the use in such a process |
-
2002
- 2002-06-06 JP JP2002166120A patent/JP2004012809A/ja not_active Withdrawn
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006086755A (ja) * | 2004-09-15 | 2006-03-30 | Ricoh Co Ltd | 画像形成装置、画像形成方法、その方法をコンピュータに実行させるプログラム、画像処理装置、および画像処理システム |
JP4520262B2 (ja) * | 2004-09-15 | 2010-08-04 | 株式会社リコー | 画像形成装置、画像形成方法、その方法をコンピュータに実行させるプログラム、画像処理装置、および画像処理システム |
JP2006251568A (ja) * | 2005-03-11 | 2006-09-21 | Fujitsu Ltd | グラマデータ生成方法およびグラマデータ生成プログラム |
JP2007080242A (ja) * | 2005-08-15 | 2007-03-29 | Kobe Steel Ltd | 情報処理装置及びそのプログラム |
US8012391B2 (en) | 2006-09-29 | 2011-09-06 | Xella Baustoffe Gmbh | Process for the production of reinforced and cast, cellular or foamed concrete bodies and reinforcement support frame for the use in such a process |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3938121B2 (ja) | 情報処理装置及びその制御方法、プログラム | |
JP4006395B2 (ja) | 情報処理装置及びその制御方法、プログラム | |
US20050183029A1 (en) | Glom widget | |
JP4420968B2 (ja) | コマンディングのために方法及びコンピュータ可読媒体 | |
EP1405169B1 (en) | Information processing apparatus and method, and program product | |
US20060247925A1 (en) | Virtual push-to-talk | |
JP2010061296A (ja) | データ作成装置、データ処理装置、データ供給システム、データ作成方法、データ処理方法、制御プログラムおよび記録媒体 | |
US8037407B2 (en) | Method and computer system for creating and processing a browser compliant human interface description | |
JP2008145769A (ja) | 対話シナリオ生成システム,その方法およびプログラム | |
JP2005011340A (ja) | オブジェクト上の注釈をグループ化することによりオブジェクトを選択する方法、システム、プログラム、及び、コンピュータ可読記憶媒体 | |
JP2004012809A (ja) | 音声認識装置及びその制御方法 | |
JP2017102939A (ja) | オーサリング装置、オーサリング方法、およびプログラム | |
JP2001296991A (ja) | データ処理装置、データ処理方法、記録媒体 | |
JP2001101162A (ja) | 文書処理装置、及び文書処理プログラムが記憶された記憶媒体 | |
JP6080058B2 (ja) | オーサリング装置、オーサリング方法、およびプログラム | |
JP4976783B2 (ja) | プログラム生成装置およびプログラム生成方法およびプログラムおよび記録媒体 | |
JP2012108899A (ja) | 電子機器、ネットワークシステム、およびコンテンツ編集方法 | |
JP2000194532A (ja) | オブジェクト選択処理装置、及び記憶媒体 | |
JP2004054811A (ja) | 入力表示方法、入力表示装置、入力表示プログラム及び入力表示プログラムを記録した記録媒体 | |
JP2003186488A (ja) | マルチモーダル入出力装置及びその方法、プログラム | |
JP2003223314A (ja) | 情報処理装置及びその方法、プログラム | |
JP3497263B2 (ja) | マーク付け文書からの定型フォーマット文書生成方法及び装置 | |
JP2003167768A5 (ja) | ||
JP3129375B2 (ja) | スペース・タブ変換機能を持つ文書処理装置 | |
JP2001005806A (ja) | 文字入力装置及び入力制御方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20050906 |