JP4702936B2

JP4702936B2 - 情報処理装置及び制御方法、プログラム

Info

Publication number: JP4702936B2
Application number: JP2005188317A
Authority: JP
Inventors: 賢一郎中川
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2005-06-28
Filing date: 2005-06-28
Publication date: 2011-06-15
Anticipated expiration: 2025-06-28
Also published as: US20060293896A1; JP2007010754A

Description

本発明は、音声認識処理を利用したユーザインターフェースに関する。

音声は、人間にとって自然なインタフェースであり、子供や老人といった機器に不慣れなユーザ、あるいは視覚に障害がある者にとって有効なユーザインタフェース（ＵＩ）として受け入れられている。この音声ＵＩとグラフィカルユーザインターフェース（ＧＵＩ）を組み合わせたデータ入力の手法が近年注目されており、“W3C Multimodal Interaction Activity(http://www.w3.org/2002/mmi/)”や“SALT Forum(http://www.saltforum.org/)”で議論が進んでいる。

音声によるデータ入力は、公知の技術である音声認識処理を用いることが一般的である。音声認識処理とは、入力音声と音声認識グラマ中に記述された認識対象の語彙とを比較し、もっとも適合度の高い語彙を認識結果として出力する処理である。このような音声認識処理の認識結果は、ユーザによる確認及び確定操作（認識結果候補からの選択操作）のためにユーザに提示される。そして、このような音声認識結果のユーザへの提示は、一般にはテキスト情報や音声出力が用いられるが、アイコンや画像イメージが用いられる場合もある。特許文献１では、音声認識の結果として手話マークを提示する例が示されている。また、特許文献２では、認識結果を音声または画像情報として提示する在宅医療看護装置の例が開示されている。また、特許文献３では、認識結果を画像あるいは文字に変換し、ポインティングデバイスで指定された場所に表示する技術が開示されている。
特開平９−２０６３２９号公報特開平１０−２８６２３７号公報特開２００２−１４０１９０号公報

上記の構成によれば、音声入力した内容（認識結果）が画像を用いて提示されるので、ユーザが直感的に認識結果を確認することができ、操作性が改善される。しかしながら、一般に、音声認識結果の提示は、認識結果を確認及び／又は確定するためのものであり、確認及び／又は確定の対象となる音声認識結果のみが提示される。したがって、以下のような課題が生じる。

例えば、コピー機に音声対話機能を設けると、ユーザとコピー機との対話は次のようなものになると考えられる。なお、Ｓはシステム（コピー機）の音声出力、Ｕはユーザの音声入力を表す。

Ｓ１：「コピーの設定行います。設定値を発声して下さい。設定が完了した場合はスタートボタンを押して下さい。」
Ｕ２：「両面出力」
Ｓ３：「両面出力、でよろしいですか？」
Ｕ４：「はい」
Ｓ５：「他に設定があれば、設定値を発声して下さい。設定が完了した場合はスタートボタンを押して下さい。」
Ｕ６：「Ａ４用紙」
Ｓ７：「Ａ４用紙、でよろしいですか？」
Ｕ８：「はい」
上記において、Ｓ３、Ｓ７は認識結果をユーザに確認させるための提示であり、Ｕ４，Ｕ８はユーザによる確定指示である。

もし、このような対話を行うコピー機が、ＧＵＩを表示するデバイス（例えばタッチパネル）を備えているならば、上述したようにＧＵＩを用いてシステムの音声出力を補佐することが望ましい。例えば、前出の特許文献１〜３の技術を利用し、音声認識結果から画像情報を作成、あるいは音声認識結果に対応した画像を選択し、ユーザに提示することを考えてみる。すると、上記Ｓ３の状態では図７の７０１のようなＧＵＩを、Ｓ７の状態では図７の７０２のようなＧＵＩを提示することができる。これにより、ユーザは自分の発声した内容を、画像情報によって直感的に確認することができる。このことは、対話の明解度を向上させるという点で非常に効果的である。

しかし、ユーザはこれらの認識結果の画像提示を、最終的な仕上がりイメージと誤解しがちである。例えば、図７の７０２には、先に設定した「両面出力」という内容が全く反映されていない。このため、Ｓ７の状態でこの画像（７０２）が提示されると、ユーザは前の設定（両面出力）がクリアされてしまったと誤解し、再び「両面出力」と発声することがある。前出の先行技術では、このような課題を解決できていない。

本発明は上記の課題に鑑みてなされたものであり、音声認識の結果提示において、上述のような誤解をユーザに与えないようにし、操作性のよいユーザインターフェースを提供することを目的とする。

上記の目的を達成するための本発明の一態様による情報処理装置の動作方法は、
音声により、画像データをプリント出力するための複数の設定値を選択する情報処理装置の制御方法であって、
前記画像データを保持する保持工程と、
入力された音声について音声認識処理をして、設定値の候補を得る音声認識工程と、
前記複数の設定値のうち、設定済みとなっている設定値を取得する取得工程と、
前記音声認識工程で複数の設定値の候補が得られた場合、前記複数の設定値の候補に前記取得工程で取得した設定済みとなっている設定値をそれぞれマージして複数のマージ済みデータを生成するマージ工程と、
前記画像データを前記複数のマージ済みデータそれぞれの設定値に基づいてプリント出力する場合に得られる出力結果を表す画像を、前記複数のマージ済みデータごとに生成する生成工程と、
前記生成工程で生成された複数の画像を表示手段に出力する出力工程と、
前記複数の画像のいずれかをユーザに選択させる選択工程と、を有する。

本発明によれば、音声認識を用いた操作性のよいユーザインターフェースを提供することができる。

以下、添付の図面を参照しながら本発明の好適な実施形態について説明する。
なお、以下の各実施形態では、本発明を複写機に適用した場合を説明するが、本発明の適用はこれに限られるものではない。

＜第１実施形態＞
図１Ａは実施形態による複写機の概略構成を示すブロック図である。図１Ａにおいて、１は複写機を示している。複写機１は原稿画像を光学的に読みよって画像信号を生成するスキャナ部１１と、スキャナ部１１によって得られた画像信号をプリントするプリンタ部１２を有する。スキャナ部１１とプリンタ部１２によって複写機能を実現するが、その構成に特に制限はなく、スキャナ部１１とプリンタ部１２には周知の構成を適用できる。

制御部１３はＣＰＵやメモリを具備し、複写機１の全体を制御する。操作部１４は、ユーザによる複写機１に対する各種設定を可能とするユーザインターフェースを提供する。なお、操作部１４は、ディスプレイ１５を含みタッチパネルの機能も実現している。音声認識装置１０１、音声入力デバイス（マイク）１０２、設定済みデータベース１０３は図１Ｂにより後述する。このような構成において、制御部１３と操作部１４と音声認識装置１０１との協働により、音声入力による複写機の設定操作を実現している。

図１Ｂは本実施形態による音声認識装置１０１の機能構成を示す図である。なお、音声認識装置１０１の一部或いは全てを制御部１３によって実現するようにしてもよい。図２は、音声認識装置１０１による処理を説明するフローチャートである。以下では複写機１の設定を音声ＵＩとＧＵＩで行う例を説明する。

音声認識装置１０１には、卓上型マイクやハンドセット型マイクといった音声を取り込むための音声入力デバイス１０２が接続されている。また、ユーザによって過去に設定されたデータが格納された設定済みデータベース１０３も接続されている。以下、図２に示される処理にしたがって、各部の機能や構成を詳細に説明していく。

音声認識装置１０１に対して音声認識処理開始イベントが発生すると、図２で示した処理を開始する。なお、音声認識処理開始イベントは、ユーザあるいは、音声認識装置１０１以外の対話を管理する管理モジュール（制御部１３）が発するイベントである。例えば図４のように、操作部１４に音声認識開始ボタン４０３を設け、この音声認識開始ボタン４０３の押下に応じて制御部１３が音声認識装置１０１に対して音声認識処理開始イベントを発生するようにする。

音声認識処理が開始されると、ステップＳ２０１において、音声認識部１０５は音声認識用データ１０６を取り込み、音声認識処理の初期化を行う。音声認識用データとは、音声認識処理で用いる各種データのことである。これには、ユーザが発声できる言語制約を記述した音声認識グラマ、音声の特徴量が格納された音響モデルと呼ばれるものが含まれる。

次に、ステップＳ２０２において、音声認識部１０５は、ステップＳ２０１で取り込まれた音声認識用データを用いて、音声入力デバイス１０２及び音声入力部１０４を介して取り込まれた音声データについて音声認識処理を実行する。この音声認識処理自体は公知の技術を用いることができるのでここでの説明は省略する。音声認識処理が終了すると、ステップＳ２０３において、その認識結果が取得できたかどうかを判定する。音声認識処理では常に認識結果が出るわけではない。ユーザの行った発声が音声認識グラマとかけ離れていた場合や、何らかの理由によりユーザの発声が検知できなかった場合は、音声認識結果は出力されない。このような場合は、ステップＳ２０３からステップＳ２０９へ進み、音声認識結果が取得できなかったことを外部の管理モジュールに通知する。

一方、音声認識部１０５により音声認識結果が取得された場合は、ステップＳ２０３からステップＳ２０４へ進む。ステップＳ２０４では、設定済みデータ取得部１０９が設定済みデータベース１０３から設定済みデータを取得する。設定済みデータベース１０３は、あるタスク（例えばユーザの希望通りの設定でコピーを行うというタスク）のために、ユーザがこれまでに行ってきた設定が格納されたデータベースである。例えばユーザが、枚数＝“３部”、用紙サイズ＝“Ａ４”、出力＝“両面出力”という設定で原稿をコピーすることを希望しており、これまでに、“枚数”と“出力”の設定が行われた場合を仮定する。このとき、設定済みデータベース１０３に格納されている情報は、図３に示されるようになる。

図３の左側の各欄は設定の種類を表す設定項目３０１であり、右側の各欄はユーザにより設定された具体的な設定値３０２である。ユーザにより値が設定されていない設定項目には“設定なし”という設定値が格納されている。なお、本実施形態のコピー機においては、コピー機本体に取り付けられたリセットボタンを押下することで、この設定済みデータベース１０３の設定内容をクリアする（全ての設定項目に“設定なし”の値を設定する）ことが可能である。

但し、設定済みデータベース１０３は、音声入力やＧＵＩ操作等によって設定済みとなったデータが登録されている。設定済みデータベース１０３において設定値３０２の欄が「設定なし」となっている設定項目は、設定がなされていないことを示す。「設定なし」となっている設定項目には、制御部１３が管理するデフォルト値（或いは、前回の設定等、その時点までに設定されている状態）が設定されることになる。すなわち、設定済みデータが図３の状態の場合、「設定なし」の項目には制御部１３が管理する設定値が設定されて、操作部１４における表示やコピー動作が実行されることになる。

ステップＳ２０４で設定済みデータベース１０３から設定済みデータが取得されると、ステップＳ２０５に進む。ステップＳ２０５において、音声認識結果／設定済みデータマージ部（以下、データマージ部）１０８は、音声認識部１０５で得られた音声認識結果と設定済みデータ取得部１０９で取得した設定済みデータとをマージする。例えば、音声認識結果として次のような３つの候補が得られた場合を例に挙げて説明する。
１位：Ａ４［用紙サイズ］
２位：Ａ３［用紙サイズ］
３位：Ａ４Ｒ［用紙サイズ］

なお、認識結果が複数ある理由は、音声認識処理では確信度の高い上位Ｎ個の結果を出力することが可能だからである。また、括弧［］内は、その認識結果の意味属性（Semantic Interpretation）を表している。本実施形態では、この意味属性として、その語彙が入力され得る設定項目名を表しているとする。なお、認識結果からその設定項目名（意味属性）を判定可能であることは当業者には明らかである。なお、意味属性に関する説明は、W3C で標準化が進められている“Semantic Interpretation for Speech Recognition (http://www.w3.org/TR/semantic-interpretation/)”を参照のこと。

ステップＳ２０５（データマージ部１０８）による音声認識結果と設定済みデータのマージは、ステップＳ２０４で取得された設定済みデータ中に音声認識結果を代入することにより行うことができる。例えば、認識結果が上で示した通りであり、設定済みデータが図３のとおりであるとする。１位の音声認識結果は“Ａ４［用紙サイズ］”であるため、図３の設定データの“用紙サイズ”の設定値に“Ａ４”を代入した設定データを音声認識結果１位のマージ済みデータとする。同様の手法で、音声認識結果２位、３位のマージ済みデータも作成することが可能である。

続くステップＳ２０６において、マージ済みデータ出力部１０７は、以上のようにして作成したマージ済みデータを制御部１３に出力する。制御部１３は、このマージ済みデータを用いて音声認識の確認（認識候補の選択、確定）のためのＵＩをディスプレイ１５により提供する。マージ済みデータの提示方法としては種々の形態が考えられる。例えば、図３のような設定項目と設定値のリストを表示し、今回の認識結果である用紙サイズについては第１〜第３候補を列挙するようにする。また、今回の認識結果である「用紙サイズ」に関しては、太字にするなどして、他の設定項目と区別できるようにしてもよい。ユーザはこの認識結果の提示から、所望の認識候補を選択することができる。

また、上記のように、設定済みデータの一部を音声認識結果で置き換えたものをマージ済みデータとしてもよいが、その他の形式も考えることができる。例えば、設定済みデータの一部を音声認識結果で置き換えたものの内、設定値がデフォルト値（図３の例では“設定なし”）となっていない設定値だけを繋げたテキスト情報をマージ済みデータとしてもよい。この考えを用いると、上の例では認識結果１位のマージ済みデータは“３部、Ａ４、両面出力”というテキストデータとなる。図４はこのようなテキストデータを用いて認識結果を提示した場合の表示例を示している。

図４は、上述した音声認識装置１０１を組み込んだ複写機１による音声認識結果表示の一例を示す図である。ディスプレイ１５はタッチパネルで構成されており、ディスプレイ１５には、音声認識装置１０１から出力されたマージ済みデータがテキストにより表示されている（４０４）。これにより、音声認識処理により複数の認識結果が出た場合は、どの音声認識結果（候補）が含まれたマージ済みデータが好ましいかを、タッチパネル等を介してユーザに選択させることが可能となる。また、認識候補が一つしかない場合でも、タッチパネルを介してユーザにその認識結果を確定させることができる。

上記のようにタッチパネルにより音声認識結果が選択されると、選択指示が制御部１３より設定済みデータ更新部１１０へ送られる。図２の処理では、ステップＳ２０７において認識結果の確定指示（１つ又は複数の認識候補よりユーザによって選択され、確定された候補を示す）を受けて、処理をステップＳ２０８へ進める。ステップＳ２０８では、設定済みデータ更新部１１０が、選択された認識候補に従って、今回の音声認識によって新たに決定された「設定値」でもって設定済みデータベース１０３を更新する。例えば、今回の音声認識処理とその確定操作によって「Ａ４」が決定された場合は、図３に示す設定済みデータベース１０３の用紙サイズの欄における「設定なし」が「Ａ４」に更新される。こうして、次に音声入力があった場合は、更新された設定済みデータベース１０３の内容が参照され、それまでの音声入力によって設定された内容が新たな音声認識結果とマージされ、音声認識結果の確認画面が生成されることになる。

以上のように、第１実施形態によれば、音声認識結果の確認のための提示において、ユーザが直前に発声した内容に相当する情報だけを提示するのでなく、ユーザがこれまでに設定した設定情報を含めた形式で提示できる。これにより、これまでに設定した値がクリアされたという誤解をユーザが招くことを防止することが可能となる。

＜第２実施形態＞
第１実施形態では、出力するマージ済みデータをテキストデータとして説明した。しかし、出力形態はこのようなテキスト形式に限られるものではない。例えば、ユーザへの認識結果の提示形態を音声とすることも可能である。この場合、マージ済みデータから音声合成処理により音声データが生成されることになる。音声データの合成処理はデータマージ部１０８、マージ済みデータ出力部１０７、或いは制御部１３の何れで実行されてもよい。

また、認識結果の提示形態は、マージ済みデータに基づいた画像データであってもよい。例えば、画像データの生成は、設定項目の設定値に対応したアイコンを用意しておき、設定済みデータと認識結果の設定値から特定されるアイコンを合成する。例えば、「３部、両面出力」という設定済みデータと、「Ａ４」という認識候補から、図５Ａの左に示すような画像（マージ済みデータ５０１）が生成される。５１１はＡ４サイズの両面出力に対応したアイコンであり、これが指定部数である「３」個重ねて、合成され表示されている。なお、５１２は部数を数値で表示しており、５１３ではサイズＡ４を文字により表示し、設定済み及び認識結果の内容をより明瞭に認識できるようにしている。なお、図５Ａにおいて、Ａ３，Ａ４Ｒの認識候補に関しても同様に画像が合成されている。なお、画像データの生成処理は、データマージ部１０８、マージ済みデータ出力部１０７、或いは制御部１３の何れで実行されてもよい。

＜第３実施形態＞
更に、設定済みデータベース１０３に格納されるデータは、ユーザが対話的に設定したデータに限定されるものではない。例えば、複写機１の場合、ユーザが原稿をスキャナ部１１の原稿台又は給紙装置に載せた段階で、その原稿の１枚目あるいは全ての原稿をスキャンし、その画像データをＪＰＥＧ或いはビットマップ（***.jpg, ***.bmp）の形式で設定済みデータベース１０３に格納してもよい。例えば、図３の設定済みデータベース１０３の“原稿”という設定項目の設定値として、原稿をスキャンして得られた画像データを登録するようにしてもよい。この場合、例えば、制御部１３がスキャナ部１１の原稿台に載せられた原稿、又は給紙装置に載せられた原稿の１枚目を読み取り、その原稿画像データを設定済みデータベース１０３の“原稿”の設定値として保持させる。このとき、後述のように画像を縮小し、サムネイル画像として保持させるようにしてもよい。なお、原稿をスキャンすることにより、原稿サイズや原稿種別を判定し、これを設定値として反映させるようにしてもよい。

以上のように、スキャン画像を設定済みデータベース１０３に登録することにより、データマージ部１０８では、この画像を用いたマージ済みデータ作成することが可能である。図５Ｂはスキャン画像を用いたマージ済みデータの表示例である。本例では、原稿はＡ４の縦置きであり、そのスキャン画像は、縮小され、各マージ済みデータ５０１の原稿用紙のサムネイル画像５０２として使用されている。すなわち、「Ａ４」サイズの「両面出力」に対応したアイコン５１１に上記サムネイル画像５０２を合成し、これを枚数として設定された数（３部）だけ図示のように重ねた画像を生成する。Ａ３，Ａ４Ｒに関する画像も同様に生成される。

以上のような構成により、ユーザはより直感的に音声認識結果や設定状態を理解することができる。

＜第４実施形態＞
第４実施形態では、第３実施形態に加え、画像提示されるマージ済みデータの用紙の大きさや、サムネイル画像の大きさ等の比率を正確に出力する。これにより、音声認識結果の確認のためのインターフェースを、設定しようとしている出力フォーマットが適正かどうかの確認にも利用可能になる。Ａ４両面出力やＡ３両面出力等に対応する画像は、実際のＡ４サイズやＡ３サイズを所定倍率で縮小したものである。また、スキャン画像から生成されるサムネイル画像も、この所定倍率で縮小されたものとする。

図６の６０１は、上記のように各画像要素の大きさの比率を正確にしてマージした例である。これにより、マージ済みデータの中で、不適切なものを自動検知することが可能になる。６０２は、現在の原稿（Ａ４、縦置き）をＡ４Ｒ用紙で出力しようとした場合のマージ済みデータである。ここでは原稿用紙のサムネイル画像が出力用紙からはみ出てしまっており、このまま出力すると、原稿の一部が欠けた出力になる恐れがある。データマージ部１０８がマージ済みデータを作成する段階で、このような問題を検知すると、この出力では不適切となる理由６０３を付与する。更に、そのマージ済みデータ全体の色を変える等、他のマージ済みデータと区別が付くような変更を加える。

なお、第３及び第４実施形態では原稿画像を読み取って得られた画像を縮小したものを用いたが、原稿台において原稿のサイズを検出して、これを用いるようにしてもよい。例えば、原稿台で原稿サイズがＡ４、縦であることを検出すると、設定済みデータベース１０３の“原稿”の設定値として「検出サイズＡ４縦」が登録される。そして、図５Ｂや図６のような画像を生成する際には、このサイズＡ４に対応した大きさのフレームを上記サムネイル画像（縮小画像）の代わりに用いる。
また、上記実施形態では、原稿画像のサムネイルを両面出力を示す用紙の画像と合成し、これを部数分重ねて表示しているが、一番上の用紙の画像にのみ原稿画像のサムネイルを合成するようにしてもよい。

以上により、ユーザは音声認識結果選択時に、選択すると問題が生じる認識候補を直感的に知ることができる。

＜第５実施形態＞
更に、データマージ部１０８が設定済みデータと音声認識結果をマージする際に、もともと設定済みデータベース１０３にあったデータと、今回の音声認識結果によるデータを区別できるようにマージしてもよい。例えば、図５Ａは、図３の設定済みデータベースのデータに、
１位：Ａ４［用紙サイズ］
２位：Ａ３［用紙サイズ］
３位：Ａ４Ｒ［用紙サイズ］
という音声認識結果を画像データとしてマージし、それを表示した例である。

このとき、設定済みデータベース１０３の内容に起因したデータである“３部”と“両面出力”を、音声認識結果に起因したデータ“Ａ４”、“Ａ３”、“Ａ４Ｒ”と区別できるようにマージする。例えば、各マージ済みデータの“Ａ４”、“Ａ３”、“Ａ４Ｒ”を表す部分５１３を点滅表示させてもよい。また、太いライン(フォント)で出力してもよい。

また、音声合成を用いてマージ済みデータを出力する場合は、音声認識結果起因のデータ出力時の合成話者を変更することで区別してもよい。例えば、“３部”、“両面出力”は女性の合成音声で、“Ａ４”は男性の合成音声で出力してもよい。

以上により、ユーザはマージ済みデータの中で、今回の音声認識結果の部分を即座に区別できる。このため、複数のマージ済みデータが提示された場合でも、音声認識結果部分の比較が容易に行えるようになる。

以上説明したように、上記各実施形態によれば、音声認識の結果提示時に、ユーザが以前に設定した設定値を反映したものを合わせた形で提示できる。このため、音声認識結果の確認において設定済みの内容を把握でき、操作性が向上する。

＜他の実施形態＞
なお、本発明の目的は、前述した実施例の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読み出し実行することによっても達成されることは言うまでもない。

この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。

プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどを用いることができる。

また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

実施形態による音声認識装置を搭載した複写機の概略構成を示す図である。実施形態による音声認識装置の機能構成を示すブロック図である。実施形態による音声認識装置の処理を説明するフローチャートである。実施形態の音声認識装置が用いる設定済みデータベースのデータ構成例を示す図である。実施形態の音声認識装置を組み込んだコピー機における音声認識結果確認画面の表示例を示す図である。第２実施形態によるコピー機のＧＵＩ画面例を示す図である。第３実施形態によるコピー機のＧＵＩ画面例を示す図である。第４実施形態によるコピー機のＧＵＩ画面例を示す図である。音声認識結果を画像で表現した場合の一般的なＧＵＩ画面例を示す図である。

Claims

音声により、画像データをプリント出力するための複数の設定値を選択する情報処理装置の制御方法であって、
前記画像データを保持する保持工程と、
入力された音声について音声認識処理をして、設定値の候補を得る音声認識工程と、
前記複数の設定値のうち、設定済みとなっている設定値を取得する取得工程と、
前記音声認識工程で複数の設定値の候補が得られた場合、前記複数の設定値の候補に前記取得工程で取得した設定済みとなっている設定値をそれぞれマージして複数のマージ済みデータを生成するマージ工程と、
前記画像データを前記複数のマージ済みデータそれぞれの設定値に基づいてプリント出力する場合に得られる出力結果を表す画像を、前記複数のマージ済みデータごとに生成する生成工程と、
前記生成工程で生成された複数の画像を表示手段に出力する出力工程と、
前記複数の画像のいずれかをユーザに選択させる選択工程と、を有することを特徴とする情報処理装置の制御方法。
前記設定値は、枚数、用紙サイズ、濃度、両面出力、片面出力についての設定値を含む、ことを特徴とする請求項１に記載の情報処理装置の制御方法。
前記出力工程では、更に、前記複数の画像のうち、前記マージ済みデータに設定された用紙サイズの用紙からはみ出る画像と、前記用紙からはみ出ない画像とを識別可能に出力する、ことを特徴とする請求項１または請求項２に記載の情報処理装置の制御方法。
音声により、画像データをプリント出力するための複数の設定値を選択する情報処理装置であって、
前記画像データを保持する保持手段と、
入力された音声について音声認識処理をして、設定値の候補を得る音声認識手段と、
前記複数の設定値のうち、設定済みとなっている設定値を取得する取得手段と、
前記音声認識手段で複数の設定値の候補が得られた場合、前記複数の設定値の候補に前記取得手段で取得した設定済みとなっている設定値をそれぞれマージして複数のマージ済みデータを生成するマージ手段と、
前記画像データを前記複数のマージ済みデータそれぞれの設定値に基づいてプリント出力する場合に得られる出力結果を表す画像を、前記複数のマージ済みデータごとに生成する生成手段と、
前記生成手段で生成された複数の画像を表示手段に出力する出力手段と、
前記複数の画像のいずれかをユーザに選択させる選択手段と、を備えることを特徴とする情報処理装置。
コンピュータに、音声により、画像データをプリント出力するための複数の設定値を選択する情報処理装置の動作方法を実行させるプログラムであって、前記コンピュータに、
前記画像データを保持する保持工程と、
入力された音声について音声認識処理をして、設定値の候補を得る音声認識工程と、
前記複数の設定値のうち、設定済みとなっている設定値を取得する取得工程と、
前記音声認識工程で複数の設定値の候補が得られた場合、前記複数の設定値の候補に前記取得工程で取得した設定済みとなっている設定値をそれぞれマージして複数のマージ済みデータを生成するマージ工程と、
前記画像データを前記複数のマージ済みデータそれぞれの設定値に基づいてプリント出力する場合に得られる出力結果を表す画像を、前記複数のマージ済みデータごとに生成する生成工程と、
前記生成工程で生成された複数の画像を表示手段に出力する出力工程と、
前記複数の画像のいずれかをユーザに選択させる選択工程と、を実行させることを特徴とするプログラム。