JP2007127813A

JP2007127813A - 音声認識装置およびその設定方法

Info

Publication number: JP2007127813A
Application number: JP2005320009A
Authority: JP
Inventors: Makoto Hirota; 誠廣田; Hiroki Yamamoto; 寛樹山本
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2005-11-02
Filing date: 2005-11-02
Publication date: 2007-05-24
Anticipated expiration: 2025-11-02
Also published as: US20070100636A1; JP4878471B2; US7844458B2

Abstract

【課題】一発声で複数の項目に対する設定を入力する際に、誤認識を抑制して効率的なマルチモーダル入力を実現する。
【解決手段】音声入力部１０１から音声による設定指示を入力し、音声認識・解釈部１０３で該音声による設定指示の内容を認識し解釈して、該解釈結果の候補を含む第１の構造化データを生成する。一方、タップ入力部１０２ではユーザによる設定指示入力を検知し、該設定指示入力の内容を解釈して第２の構造化データを生成する。そして解釈選択部１０４では、第１の構造化データに含まれる解釈候補のうち、第２の構造化データに含まれる設定項目名に合致する設定項目名を含むものを選択する。
【選択図】図１

Description

本発明は、グラフィカル・ユーザ・インタフェース（ＧＵＩ）と音声によるユーザ・インタフェース（ＵＩ）を組み合わせたマルチモーダルユーザインタフェースを適用した音声認識装置およびその設定方法に関する。

近年の音声認識技術の発展と機器としてのハードウエア性能の向上により、カーナビゲーションシステムや携帯電話、ＦＡＸ装置等、パーソナルコンピュータやワークステーション以外の様々なコンピュータ制御機器において音声入力が可能になりつつある。

一般に、音声入力を可能とすることによって以下のようなメリットがある。

（１）ユーザが画面を見ずに、あるいは手を使わずに入力が可能
（２）画面に表示されていない項目に対しても直接設定が可能
（３）ユーザの一発声で複数の項目を設定可能
ここで一例として、複写機におけるコピー設定を行う場合、例えば、ユーザが原稿のコピーをＡ４サイズの用紙に５部取りたい場合について考える。通常のＧＵＩやボタン入力によるＵＩであれば、まずテンキーで部数を入力し、さらに画面上の用紙設定ボタンを押下して用紙設定画面に移り、該画面において「Ａ４」のボタンを押下する、といった複数段のステップを踏む必要がある。

これに対し、音声入力を用いた場合、「Ａ４」と発声すれば用紙サイズの設定を行うことができるため、用紙設定画面に移る手間を省くことができる。つまり、上記（２）のメリットを活かすことができる。

さらに、「Ａ４で５部」のような発声により、用紙サイズと部数を一度に設定することも可能である。これはすなわち、上記（３）のメリットを活かしたケースである。

また、ＧＵＩ単独、あるいは音声単独の入力ではなく、ＧＵＩと音声を組み合わせたマルチモーダルな入力により、操作を効率化しようとする技術も考案されてきている（特許文献１、特許文献２参照）。
特登録２９９３８７２公報特開平０６−２８２５６９号公報

音声入力にはさまざまなメリットがある反面、「誤認識」というデメリットがある。例えば、ユーザが「Ａ４」と発声しても、音声認識が「Ａ３」と誤認識してしまう可能性がある。

また、「Ａ４で５部」との発声を、「Ａ４からＢ５」のように誤認識する可能性もある。この場合、ユーザは用紙サイズと部数の２項目を一度に設定しようとしたにも関わらず、倍率という１項目の設定に誤認識されたことになる。このように、項目そのものの認識まで誤られてしまうと、発声したユーザの困惑は大きくなり、誤認識の訂正にも手間がかかってしまうという問題があった。

一方で、従来のＧＵＩによる操作では、設定項目をボタンで選択し、その設定項目の具体的な値を設定する、という階層的なステップを踏む方法がよく用いられる。このような操作方法によれば、音声入力のように設定項目そのものが誤認識されるという問題はない。しかしながら上述したように、複数のステップを踏まなければならないことが、ユーザの負担になっていた。

また、ＧＵＩと音声を組み合わせたマルチモーダル入力においても、特許文献１のように、自然言語による音声入力に対して自然言語解析を用いる方法は、自然言語解析の精度に影響を受けてしまうという問題があった。

本発明は上述した問題を解決するためになされたものであり、一発声で複数の項目に対する設定を行う際に、誤認識を抑制して効率的なマルチモーダル入力を可能とする音声認識装置およびその設定方法を提供することを目的とする。

上記問題を解決するための一手段として、本発明の音声認識装置は以下の構成を備える。

すなわち、音声による設定を可能とする音声認識装置であって、音声による設定指示を受信する受信手段と、前記音声による設定指示の内容を認識し解釈して、該解釈結果の候補を含む第１の構造化データを生成する音声解釈手段と、ユーザによる設定指示入力を検知する指示入力検知手段と、前記設定指示入力の内容を解釈して第２の構造化データを生成する指示入力解釈手段と、前記第２の構造化データに基づいて、前記第１の構造化データに含まれる解釈候補から一つを選択する選択手段と、を備えることを特徴とする。

また、音声による設定を可能とする音声認識装置であって、音声による設定指示を受信する受信手段と、該入力された音声から特徴量系列を抽出する特徴抽出手段と、
所定の音素列パターンの候補から、前記特徴抽出手段で抽出された前記特徴量系列に最も近いパターンを選択する探索手段と、ユーザによる設定指示入力を検知する指示入力検知手段と、を有し、前記探索手段は、前記設定指示入力に基づいて前記音素列パターンの候補から選択対象を絞り込むことを特徴とする。

以上の構成からなる本発明の音声認識装置によれば、一発声で複数の項目に対する設定を入力する際に、誤認識を抑制して効率的なマルチモーダル入力が可能となる。

以下、添付の図面を参照して、本発明をその好適な実施形態に基づいて詳細に説明する。なお、以下の各実施形態において示す構成は一例に過ぎず、本発明は図示された構成に限定されるものではない。

＜第１実施形態＞
本実施形態では、複写機においてコピー処理を行う際の設定を、音声入力とタッチパネル入力によって行うケースを説明する。

図１は、本実施形態に係る複写機において、マルチモーダル入力処理を行うブロック構成を示す図である。同図において、１０１は音声入力部、１０２はタップ入力部、１０３は音声認識・解釈部、１０４は解釈選択部である。また１０５は表示部であり、本実施形態におけるＧＵＩの表示を制御する。

図２は、本実施形態に係る複写機のハードウエア構成を示すブロック図である。同図において、２０１はＣＰＵであり、本実施形態の複写機における後述する動作手順を実現するプログラムに従って動作する。２０２はＲＡＭであり、上記プログラムの動作に必要な記憶領域を提供する。２０３はＲＯＭであり、上記プログラムの動作手順を実現するプログラムなどを保持する。２０４はユーザによるタッチ入力を可能とするＬＣＤである。２０５はハードディスクである。２０６はＡ／Ｄコンバータであり、入力音声をデジタル信号に変換する。２０７は音声入力を行うマイク、２０８はバスである。

ここで図６〜図９に、複写機のＬＣＤ２０４上に表示されるＧＵＩ例を示す。各図には、画面左側に「部数」，「用紙」，「両面」，「倍率」という設定項目のボタンが並んでいる。

「部数」ボタンをタップした場合、図６のように、右側に部数を設定するためのテンキー入力パネルが現れる。ここで適当にテンキーをタップすることで、部数を示す数値を入力することができる。入力結果は、部数ボタンの右下位置に表示される。

同様に、図７，図８，図９はそれぞれ、「用紙」，「両面」，「倍率」の各ボタンをそれぞれタップした際に表示される画面例を示す。

本実施形態では、ＬＣＤ２０４上におけるタップ入力に対し、音声による入力を併用することによって、複数項目に対する入力を効率化することを特徴とする。以下、図６〜図９のような画面表示を行うＬＣＤ２０４において、ユーザが「用紙」ボタン、「部数」ボタンを続けてタップしながら、同時に「エーヨンデサンブ」と発声したケースを例として説明する。

図３は、音声入力部１０１および音声認識・解釈部１０３における動作を示すフローチャートである。

まず、音声入力部１０１は、ユーザからの音声入力があったかどうかをチェックする（Ｓ３０１）。一般に、音声入力の検出は入力音声のパワーなどから判断されるが、これは周知の技術であるため、ここでは詳細な説明を省略する。音声入力があった場合は、受信した音声情報を音声認識し（Ｓ３０２）、さらに音声解釈を行う（Ｓ３０３）。ここで、音声認識とは入力音声を文字列に変換する処理であり、音声解釈とは認識結果を所定の構造化データに変換する処理である。例えば、ユーザが「エーヨンデサンブ」と発声した場合、これを認識して、「Ａ４で３部」を出力するのが音声認識処理（Ｓ３０２）である。さらに、これを、
｛用紙：A4;
部数：3;｝
というように、項目名と項目値のペアからなる構造化データに変換するのが音声解釈処理（Ｓ３０３）である。

このように、入力音声を認識・解釈し、構造化データとして出力する処理は、既存の技術を用いて実現可能である。例えば、Ｗ３Ｃ（=World Wide Web Consortium）の音声認識文法仕様ＳＲＧＳや、音声解釈ルール仕様ＳＩＳＲなどで記述された文法ルールに沿った音声認識・解釈処理を実施すればよい。

一般に音声認識処理においては、一つの結果を出力するのではなく、確信度（認識スコア）の高い上位Ｎ個を出力することができる。従って、解釈結果の構造化データもＮ個出力することができる。

ここで図１０に、「エーヨンデサンブ」という入力音声を認識・解釈した結果として得られる構造化データの例を示す。図１０において、"ＳＴＡＲＴ"は入力音声の開始時刻、"ＥＮＤ"は入力音声の終了時刻を示し、"音声解釈"のフィールドに解釈結果が含まれる。この例では、解釈結果の上位３個が含まれ、それぞれ、項目名と項目値のペアになっている。なお、各項目は入力音声中の発声時刻順に並んでいるものとする。例えば、図１０に示す第１位の解釈は、「エーサンカラエーヨンデサンブ」のように認識した場合の解釈であり、この場合、「倍率」が「部数」よりも先に発声されたと認識していることになり、その順に項目が並ぶ。各解釈候補の順位はその音声認識に係る確信度によって決定され、各解釈候補は、図１０において各順位の下部の括弧内に記されるように、それぞれの確信度情報（例えば、第１位で７０）を含んでいる。

このような音声解釈の結果は、例えばＲＡＭ２０２に設けられた音声解釈スタックにプッシュされる（Ｓ３０４）。

ここで、図１０に示す例において、第１位の解釈結果は誤認識であり、第２位が正しい解釈結果である。従って、音声入力だけを用いると、ユーザの入力は誤って解釈されてしまうことになる。本実施形態では、このような誤認識を防ぐために、さらにＬＣＤ２０４上におけるタップ入力を行う。

図４は、本実施形態におけるタップ入力部１０２の動作を示すフローチャートである。まず、ユーザからのタップ入力があったかどうかをチェックする（Ｓ４０１）。タップ入力があった場合、それが「部数」，「用紙」，「両面」，「倍率」ボタンのいずれかであれば、タップされたボタンに応じた設定パネルを表示する（Ｓ４０２）。例えば、「用紙」ボタンがタップされた場合は、ＬＣＤ２０４上に図７のような用紙設定パネルを表示する。

続いて、タップ入力の解釈を行う（Ｓ４０３）。ここでの解釈とは、上述した音声解釈と同じ構造化データの形式で、「設定項目がＸＸＸである」ことを表現するデータを出力することである。「用紙」ボタンがタップされた場合の解釈データは、図１１に示すデータ１１０のようになる。タップ入力は音声入力のように曖昧性がないため、データ１１０に示すように解釈データとしては第１位の解釈結果のみが含まれる。また、"ＳＴＡＲＴ"と"ＥＮＤ"のタイムスタンプには、タップされた時刻が記録される。また、データ１１０の場合、設定項目が「用紙」であるが、その値（すなわち枚数）については、このタップ入力だけでは不明であることを「？」によって示している。

このようなタップ解釈結果は、例えばＲＡＭ２０２に設けられたタップ解釈スタックにプッシュされる（Ｓ４０４）。

ユーザが、「用紙」ボタン、「部数」ボタンを続けてタップした場合は、タップ解釈スタックには、図１１に示すようにデータ１１０に続いてデータ１２０が保持され、２つの解釈結果データが保持された状態になる。

以上、図３および図４のフローチャートを用いて説明した処理により、ユーザ指示に基づく複数の音声解釈結果およびタップ解釈結果が、それぞれのスタックに保持された状態となる。次に本実施形態では、解釈選択部１０４において、これら解釈結果から最適なものを選択する。

図５は、解釈選択部１０４の動作を示すフローチャートである。解釈選択部１０４は、音声解釈スタックを常時監視し、該スタックに何らかの音声解釈データが保持されているか否かをチェックする（Ｓ５０１）。音声解釈データが保持されていれば、タップ解釈スタックの中に、この音声解釈データに対応するタップ解釈データが保持されているか否かをチェックする（Ｓ５０２）。タップ解釈データが音声解釈データに対応するか否かは、まず、タイムスタンプによって判断する。具体的には、図１２に示すように、入力音声の開始時刻よりＴ１秒前から、終了時刻のＴ２秒後までの期間をＤとし、タップ解釈データのタイムスタンプが期間Ｄに含まれていれば、そのタップ解釈データは音声解釈データに対応するとみなす。従って、図１１に示す２つのタップ解釈データ１１０，１２０はともに、図１０の音声解釈データに対応するとみなされる。なお、タップ解釈データが音声解釈データに対応するということはすなわち、音声とタップが同時入力されたとみなされることである。

ステップＳ５０２において、音声解釈データに対応するタップ解釈データが見つかった場合は、音声解釈データに含まれるＮ個の解釈候補の中から、タップ解釈データに最も合致するものを選択する（Ｓ５０３）。合致の度合いは、項目の一致度で判断する。例えば図１１の場合、タップ解釈データ１１０，１２０に含まれる項目を時間順に並べると、「用紙」「部数」の順となるので、図１０に示す音声解釈データの３つの候補のうち、「用紙」「部数」の順の項目を有するものは第２位候補と第３位候補である。このうち、順位の高い第２位の解釈候補が選択される。すなわち、「用紙」の値が「Ａ４」で「部数」が３部であると解釈される。

一方、ステップＳ５０２において、タップ解釈データの項目に一致するものが音声解釈データの候補の中に無かった場合には、音声解釈データに対応するタップ解釈データが無いものと判断する。この場合、音声解釈データの第１位の候補が選択される（Ｓ５０４）。

ステップＳ５０３またはステップＳ５０４の処理によって、音声解釈データのＮ個の候補から一つが選択されると、音声解釈スタックおよびタップ解釈スタックを全てクリアする（Ｓ５０５）。

以上の処理の結果は、ＧＵＩ（表示部１０５）上に表示される。

以上説明したように本実施形態によれば、音声入力に対してさらにタップ入力を統合をすることによって、音声の誤認識を適切に補って正しい解釈を得ることができる。すなわち、複数の項目を設定するＵＩにおいて、一つ以上の項目を一発声で入力するという音声入力のメリットを活かしつつ、かつ、誤認識によって意図しない項目に意図しない値が入力される危険性を回避することができる。

＜第１実施形態の変形例＞
第１実施形態の解釈選択部１０４においては、音声解釈データに対応するタップ解釈データが無い場合には、図５のステップＳ５０４で音声解釈データの第１位の候補を選択していた。これに対し、このような場合には音声入力とタップ入力の間に矛盾があると考え、入力の受理を拒絶するようにしてもよい。すなわち、音声解釈データに対応するタップ解釈データが無い場合は、「認識できませんでした。もう一度入力してください」のような音声メッセージを発することによって、ユーザに再入力を促しても良い。

＜第２実施形態＞
以下、本発明に係る第２実施形態について、詳細に説明する。第２実施形態では、上述した第１実施形態と同様に、複写機でコピー処理を行う際の設定を、音声入力とタッチパネル入力を併用して行う。特に、入力された音声の特徴量に基づいて音声認識文法の探索を行う際に、その候補をタップ入力によって制限することを特徴とする。

図１３は、第２実施形態に係る複写機において、マルチモーダル入力処理を行うブロック構成を示す図である。同図において、１３０１は音声入力部、１３０２はタップ入力部、１３０７はＧＵＩ表示を制御する表示部であり、これらは上述した第１実施形態において図１に示した構成と同様である。また、１３０３は入力音声から特徴量を抽出する特徴抽出部、１３０４は音声認識文法保持部、１３０５は特徴量から音声認識文法に合致する最も適当な音素列パターンを選び出し、認識結果として出力する探索部である。１３０６は、音声認識結果を構造化データに変換する解釈部である。

なお、第２実施形態に係る複写機のハードウェア構成は、上述した第１実施形態で示した図２と同様であるため、説明を省略する。

以下、上述した第１実施形態と同様に、図６〜図９のようなＧＵＩ表示を行うＬＣＤ２０４において、ユーザが「用紙」ボタン、「部数」ボタンを続けてタップしながら、同時に「エーヨンデサンブ」と発声したケースを例として説明する。

音声認識文法保持部１３０４には、コピー処理に対する２設定を同時に発声したパターンを受理するように記述されているものとする。ここで、２設定を同時に発声するパターンとは、
「Ａ４で３部」
「５部、片面から両面」
「Ｂ５に両面から両面」
「１４１％で１０部」
・・・
のように、「部数」，「用紙」，「両面」，「倍率」の４つの設定項目のうち、任意の２つの値が一発声で入力されるようなパターンである。

図１４は、音声入力部１３０１および特徴量抽出部１３０３、探索部１３０５、解釈部１３０６における動作を示すフローチャートである。

まず、音声入力部１３０１は、ユーザからの音声入力があったかどうかをチェックする（Ｓ１４０１）。音声入力があった場合は、特徴抽出部１３０３において受信した音声情報を特徴量系列に変換する（Ｓ１４０２）。この特徴量系列への変換は、音声認識処理分野における周知の技術によって可能であり、０１，０２，０３，・・・，０ｎといった特徴量が時系列で出力される。

すると探索部１３０５は、この特徴量系列に対し、音声認識文法保持部１３０４に予め保持された音声認識文法に合致する、最も適当な音素列パターンを選び出し、認識結果として出力する（Ｓ１４０３）。例えば、音声認識文法が、「１部」，「２部」，「３部」，・・・といった部数に対する音声入力を受理するパターンとして記述されていた場合、これに対応するものとして、図１５に示すような音素系列のデータがＲＡＭ２０２上に展開される。図１５示す音素系列において、上段，中段，下段のパスはそれぞれ、「１（Ｉ−ＣＨ−Ｉ）部（Ｂ−Ｕ）」，「２（Ｎ−Ｉ）部（Ｂ−Ｕ）」，「３（Ｓ−Ａ−Ｎ）部（Ｂ−Ｕ）」の音素列を示している。そして、特徴抽出部１３０３が出力した特徴量系列（０１，０２，０３，・・・）が、図１５に示す音素系列のどのパスに最も近いかを探索する。例えば、図１５に太い矢印で示す中段のパスが、特徴量系列に最も近いパスであると判定された場合、ユーザの入力音声は「２部」であったと認識される。

図１５に示すような音素系列の複数を直列および並列に組み合わせることによって、図１６に示すように、２つの設定項目の値を発声したパターンを表現した音声系列を作成することができる。図１６においては例えば、「部数」に関する音素系列１６０１と１６０５は認識される発声順が異なるのみであるため、同じ内容であっても良い。「用紙」，「両面」，「倍率」についても同様である。そして、特徴量系列がこの中のどのパスに最も近いかを算出することによって、一発声による２設定値の認識が可能になる。なお、このような処理は音声認識技術において周知であるため、ここでは詳細な説明を省略する。

さて、ユーザによる発声は、「用紙」ボタン、「部数」ボタンを続けてタップしながらなされている。したがって探索部１３０５には、抽出された特徴量系列（０１，０２，０３，・・・）に対して図１６中の最も近いパスの探索を実行している途中に、タップ入力部１３０２からタップ情報が入力されてくる。

探索部１３０５では、パス探索中のある時刻に、ユーザが「用紙」ボタンをタップしたという情報が得られた場合、図１６に示す「用紙１」の音素系列１６０２を通るパスの中に正しいパスがあることが分かる。したがってこの時点で、「部数１」，「両面１」，「倍率１」を示す各音素系列１６０１，１６０３，１６０４を通るパスを、探索の候補から除外することができる。

同様に、２つ目のタップが「部数」ボタンであったという情報が得られた時点で、さらに、「部数２」の音素系列１６０５を通るパスの中に正しいパスがあることが分かる。したがって、「用紙２」，「両面２」，「倍率２」を示す音素系列１６０６，１６０７，１６０８を通るパスを、探索対象から除外する。

そして解釈部１３０６において、探索部１３０５で以上のように探索されたパスすなわち音声認識結果を構造化データに変換する（Ｓ１４０４）。

以上説明したように第２実施形態によれば、音素列パターンの探索処理中にタップ情報が入力されると、該タップ情報に基づいて探索候補を絞る。すなわち、特徴量系列に最も近いパスをタップ情報に合致するパスから選び出すため、上述した第１実施形態と同様に、音声の誤認識によって設定項目を間違うことはなくなる。

＜第２実施形態の変形例＞
上述した第２実施形態では、コピー処理に対する２項目の設定を同時に発声したパターンを受理する音声認識文法を用意しておき、ユーザが該２設定を同時に発声して、かつ該２項目の設定ボタンをタップする例を示した。

これに対し、任意数の設定を一発声で入力するパターンを受理するように音声認識文法を記述しておき、ユーザが該任意数の設定を同時に発声して、かつ任意回数のタップ入力を行った場合でも、受理できるようにしてもよい。この場合、最初のタップ情報で、図１６の先頭ノードＨにつながった各組の音素系列の中から、該タップ情報に合致するものを探索候補として残す。次いで２つ目のタップ情報に対しては、その残した音素系列の後方に直接つながった音素系列の中から、該２つ目のタップ情報に合致するものを残す、というふうに、探索候補を制限していけば良い。

＜共通変形例＞
上述した第１および第２実施形態においては、「部数」，「用紙」，「両面」，「倍率」などの設定項目のボタンをタップした場合、右側にその項目の設定パネルが現れる例を示した。従って、例えばユーザが「用紙」ボタン、「部数」ボタンを続けてタップしながら「エーヨンデサンブ」と発声した場合、画面上では、用紙設定のパネルと部数設定のパネルが続けて現れることになる。

しかしながら、ユーザが音声による入力を意図した場合は、こうした画面上のパネルの切り替わりは意味がなく、ユーザに不要な混乱を招く場合がある。このような問題を回避するために、音声入力のオン／オフ設定用のボタンを設け、音声入力がオンの状態では、設定項目ボタンをタップしてもパネル表示が切り替わらない、またはパネル表示がなされないようにすれば良い。なお、音声入力のオン／オフ切り換えは、ボタンによる明示的なものに限らない。例えば音声入力部が入力音声を検知した場合に音声入力をオンに設定しても良い。

また、上述した各実施形態では、音声入力とタップ入力とを併用する例について説明したが、タッチパネルを用いたタップ入力に限らず、音声入力以外のユーザ指示入力手段であれば、適用可能である。例えば、表示画面上でのマウスによるクリック入力や、操作部に設けられた所定ボタンの押下、キーボード上の所定キー押下等の動作を、実施形態で説明したタップ入力に替えて、音声入力と併用することも可能である。

＜他の実施形態＞
以上、実施形態例を詳述したが、本発明は例えば、システム、装置、方法、プログラム若しくは記憶媒体(記録媒体)等としての実施態様をとることが可能である。具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。

尚本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される。なお、この場合のプログラムとは、実施形態において図に示したフローチャートに対応したプログラムである。

従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等の形態であっても良い。

プログラムを供給するための記録媒体としては、以下に示す媒体がある。例えば、フロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD-ROM、CD-R、CD-RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD-ROM，DVD-R)などである。

プログラムの供給方法としては、以下に示す方法も可能である。すなわち、クライアントコンピュータのブラウザからインターネットのホームページに接続し、そこから本発明のコンピュータプログラムそのもの(又は圧縮され自動インストール機能を含むファイル)をハードディスク等の記録媒体にダウンロードする。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明に含まれるものである。

また、本発明のプログラムを暗号化してCD-ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせることも可能である。すなわち該ユーザは、その鍵情報を使用することによって暗号化されたプログラムを実行し、コンピュータにインストールさせることができる。

また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される。さらに、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、実行されることによっても、前述した実施形態の機能が実現される。すなわち、該プログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行うことが可能である。

本発明に係る一実施形態である複写機におけるマルチモーダル入力を行う構成を示すブロック図である。本実施形態である複写機のハードウエア構成を示すブロック図である。本実施形態の音声認識・解釈部における動作を示すフローチャートである。本実施形態のタップ入力部における動作を示すフローチャートである。本実施形態の解釈選択部における動作を示すフローチャートである。本実施形態における画面表示例を示す図である。本実施形態における画面表示例を示す図である。本実施形態における画面表示例を示す図である。本実施形態における画面表示例を示す図である。本実施形態の音声認識・解釈部が出力する構造化データ例を示す図である。本実施形態のタップ入力部が出力する構造化データ例を示す図である。本実施形態における入力音声とタップ入力の対応を説明する図である。第２実施形態の複写機におけるマルチモーダル入力を行う構成を示すブロック図である。第２実施形態におけるマルチモーダル入力処理を示すフローチャートである。第２実施形態における「部数」入力用の発声に対応した音声系列例を示す図である。第２実施形態における２設定同時入力用の発声に対応した音声系列例を示す図である。

Claims

音声による設定を可能とする音声認識装置であって、
音声による設定指示を受信する受信手段と、
前記音声による設定指示の内容を認識し解釈して、該解釈結果の候補を含む第１の構造化データを生成する音声解釈手段と、
ユーザによる設定指示入力を検知する指示入力検知手段と、
前記設定指示入力の内容を解釈して第２の構造化データを生成する指示入力解釈手段と、
前記第２の構造化データに基づいて、前記第１の構造化データに含まれる解釈候補から一つを選択する選択手段と、
を備えることを特徴とする音声認識装置。
前記指示入力検知手段は、表示画面からの設定指示入力を検知することを特徴とする請求項１記載の音声認識装置。
前記第１の構造化データに含まれるそれぞれの解釈候補は設定項目名およびその設定値の情報を含み、
前記第２の構造化データは設定項目名の情報を含む
ことを特徴とする請求項１または２記載の音声認識装置。
前記選択手段は、前記第１構造化データに含まれる解釈候補の中から、前記第２の構造化データに含まれる設定項目名に合致する設定項目名を含むものを選択することを特徴とする請求項３記載の音声認識装置。
前記第１の構造化データに含まれるそれぞれの解釈候補はさらに、解釈結果の確信度情報を含み、
前記解釈選択手段はさらに、前記第１構造化データにおいて、前記第２の構造化データに含まれる設定項目名に合致する設定項目名を含む解釈候補の中から、前記確信度情報による順位が最も高いものを選択することを特徴とする請求項４記載の音声認識装置。
前記第１および第２の構造化データは、設定指示入力の開始時刻および終了時刻の情報を含むことを特徴とする請求項１乃至５のいずれかに記載の音声認識装置。
前記指示入力解釈手段は、生成した前記第２の構造化データの複数を保持し、
前記解釈選択手段は、前記第１の構造化データに含まれる設定指示入力の開始時刻および終了時刻に基づいて、該第１の構造化データに対応する前記第２の構造化データを選択することを特徴とする請求項６記載の音声認識装置。
前記選択手段は、前記第２の構造化データに基づいて前記第１の構造化データから解釈候補を選択できない場合に、前記確信度情報による順位が最も高い解釈候補を選択することを特徴とする請求項５記載の音声認識装置。
前記選択手段は、前記第２の構造化データに基づいて前記第１の構造化データから解釈候補を選択できない場合に、前記音声入力手段による入力を拒否し、その旨を報知することを特徴とする請求項１乃至７のいずれかに記載の音声認識装置。
前記選択手段により選択された解釈候補に基づいて、該音声認識装置の設定を行う設定手段を更に備えたことを特徴とする請求項１乃至７のいずれかに記載の音声認識装置。
音声による設定を可能とする音声認識装置であって、
音声による設定指示を受信する受信手段と、
前記受信手段で受信した音声情報から特徴量系列を抽出する特徴抽出手段と、
所定の音素列パターンの候補から、前記特徴抽出手段で抽出された前記特徴量系列に最も近いパターンを選択する探索手段と、
ユーザによる設定指示入力を検知する指示入力検知手段と、を有し、
前記探索手段は、前記設定指示入力に基づいて前記音素列パターンの候補から選択対象を絞り込むことを特徴とする音声認識装置。
前記探索手段は、前記設定指示入力によって示される設定項目の情報に基づいて前記音素列パターンの候補から選択対象を絞り込むことを特徴とする請求項１１記載の音声認識装置。
さらに、音声認識文法を保持する文法保持手段を備え、
前記音素列パターンの候補は、前記文法保持部に保持された音声認識文法に基づいて生成されることを特徴とする請求項１１または１２記載の音声認識装置。
前記指示入力検知手段は、表示画面からの設定指示入力を検知することを特徴とする請求項１１乃至１３のいずれかに記載の音声認識装置。
前記指示入力検知手段は、設定項目を意味する特定の画面領域に対する指示入力を前記設定指示入力として検知することを特徴とする請求項１４記載の音声認識装置。
さらに、前記探索手段による探索結果を出力する出力手段を備えることを特徴とする請求項１１乃至１５のいずれかに記載の音声認識装置。
さらに、前記指示入力検知手段によって設定指示入力が検知された場合に、該設定指示入力に応じた設定用画面を表示する設定画面制御手段を有し、
該設定画面制御手段は、前記音声入力手段による設定指示の入力があった場合には、前記設定用画面を表示しないことを特徴とする請求項１乃至１６のいずれかに記載の音声認識装置。
さらに、前記指示入力検知手段によって設定指示入力が検知された場合に、該設定指示入力に応じた設定用画面を表示する設定画面制御手段と、
前記音声入力手段による設定指示入力の有無を切り替える音声入力切り替え手段と、を有し、
前記設定画面制御手段は、前記音声入力切り替え手段が音声入力有りを示す場合には、前記設定用画面を表示しないことを特徴とする請求項１乃至１６のいずれかに記載の音声認識装置。
音声による設定を可能とする音声認識装置における設定方法あって、
音声による設定指示を受信する受信ステップと、
前記音声による設定指示の内容を認識し解釈して、該解釈結果の候補を含む第１の構造化データを生成する音声解釈ステップと、
ユーザによる設定指示入力を検知する指示入力検知ステップと、
前記設定指示入力の内容を解釈して第２の構造化データを生成する指示入力解釈ステップと、
前記第２の構造化データに基づいて、前記第１の構造化データに含まれる解釈候補から一つを選択する選択ステップと、
を備えることを特徴とする設定方法。
音声による設定を可能とする音声認識装置における設定方法であって、
音声による設定指示を受信する受信ステップと、
前記受信ステップで受信した音声情報から特徴量系列を抽出する特徴抽出ステップと、
所定の音素列パターンの候補から、前記特徴抽出手段で抽出された前記特徴量系列に最も近いパターンを選択する探索ステップと、
ユーザによる設定指示入力を検知する指示入力検知ステップと、を有し、
前記探索ステップにおいては、前記設定指示入力に基づいて前記音素列パターンの候補から選択対象を絞り込むことを特徴とする設定方法。
情報処理装置上で実行されることによって、該情報処理装置を請求項１乃至請求項１８の何れかに記載された音声認識装置として動作させることを特徴とするプログラム。