JP4702936B2 - 情報処理装置及び制御方法、プログラム - Google Patents

情報処理装置及び制御方法、プログラム Download PDF

Info

Publication number
JP4702936B2
JP4702936B2 JP2005188317A JP2005188317A JP4702936B2 JP 4702936 B2 JP4702936 B2 JP 4702936B2 JP 2005188317 A JP2005188317 A JP 2005188317A JP 2005188317 A JP2005188317 A JP 2005188317A JP 4702936 B2 JP4702936 B2 JP 4702936B2
Authority
JP
Japan
Prior art keywords
data
voice recognition
merged
output
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005188317A
Other languages
English (en)
Other versions
JP2007010754A5 (ja
JP2007010754A (ja
Inventor
賢一郎 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2005188317A priority Critical patent/JP4702936B2/ja
Priority to US11/477,342 priority patent/US20060293896A1/en
Publication of JP2007010754A publication Critical patent/JP2007010754A/ja
Publication of JP2007010754A5 publication Critical patent/JP2007010754A5/ja
Application granted granted Critical
Publication of JP4702936B2 publication Critical patent/JP4702936B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、音声認識処理を利用したユーザインターフェースに関する。
音声は、人間にとって自然なインタフェースであり、子供や老人といった機器に不慣れなユーザ、あるいは視覚に障害がある者にとって有効なユーザインタフェース(UI)として受け入れられている。この音声UIとグラフィカルユーザインターフェース(GUI)を組み合わせたデータ入力の手法が近年注目されており、“W3C Multimodal Interaction Activity(http://www.w3.org/2002/mmi/)”や“SALT Forum(http://www.saltforum.org/)”で議論が進んでいる。
音声によるデータ入力は、公知の技術である音声認識処理を用いることが一般的である。音声認識処理とは、入力音声と音声認識グラマ中に記述された認識対象の語彙とを比較し、もっとも適合度の高い語彙を認識結果として出力する処理である。このような音声認識処理の認識結果は、ユーザによる確認及び確定操作(認識結果候補からの選択操作)のためにユーザに提示される。そして、このような音声認識結果のユーザへの提示は、一般にはテキスト情報や音声出力が用いられるが、アイコンや画像イメージが用いられる場合もある。特許文献1では、音声認識の結果として手話マークを提示する例が示されている。また、特許文献2では、認識結果を音声または画像情報として提示する在宅医療看護装置の例が開示されている。また、特許文献3では、認識結果を画像あるいは文字に変換し、ポインティングデバイスで指定された場所に表示する技術が開示されている。
特開平9−206329号公報 特開平10−286237号公報 特開2002−140190号公報
上記の構成によれば、音声入力した内容(認識結果)が画像を用いて提示されるので、ユーザが直感的に認識結果を確認することができ、操作性が改善される。しかしながら、一般に、音声認識結果の提示は、認識結果を確認及び/又は確定するためのものであり、確認及び/又は確定の対象となる音声認識結果のみが提示される。したがって、以下のような課題が生じる。
例えば、コピー機に音声対話機能を設けると、ユーザとコピー機との対話は次のようなものになると考えられる。なお、Sはシステム(コピー機)の音声出力、Uはユーザの音声入力を表す。
S1:「コピーの設定行います。設定値を発声して下さい。設定が完了した場合はスタートボタンを押して下さい。」
U2:「両面出力」
S3:「両面出力、でよろしいですか?」
U4:「はい」
S5:「他に設定があれば、設定値を発声して下さい。設定が完了した場合はスタートボタンを押して下さい。」
U6:「A4用紙」
S7:「A4用紙、でよろしいですか?」
U8:「はい」
上記において、S3、S7は認識結果をユーザに確認させるための提示であり、U4,U8はユーザによる確定指示である。
もし、このような対話を行うコピー機が、GUIを表示するデバイス(例えばタッチパネル)を備えているならば、上述したようにGUIを用いてシステムの音声出力を補佐することが望ましい。例えば、前出の特許文献1〜3の技術を利用し、音声認識結果から画像情報を作成、あるいは音声認識結果に対応した画像を選択し、ユーザに提示することを考えてみる。すると、上記S3の状態では図7の701のようなGUIを、S7の状態では図7の702のようなGUIを提示することができる。これにより、ユーザは自分の発声した内容を、画像情報によって直感的に確認することができる。このことは、対話の明解度を向上させるという点で非常に効果的である。
しかし、ユーザはこれらの認識結果の画像提示を、最終的な仕上がりイメージと誤解しがちである。例えば、図7の702には、先に設定した「両面出力」という内容が全く反映されていない。このため、S7の状態でこの画像(702)が提示されると、ユーザは前の設定(両面出力)がクリアされてしまったと誤解し、再び「両面出力」と発声することがある。前出の先行技術では、このような課題を解決できていない。
本発明は上記の課題に鑑みてなされたものであり、音声認識の結果提示において、上述のような誤解をユーザに与えないようにし、操作性のよいユーザインターフェースを提供することを目的とする。
上記の目的を達成するための本発明の一態様による情報処理装置の動作方法は、
音声により、画像データをプリント出力するための複数の設定値を選択する情報処理装置の制御方法であって、
前記画像データを保持する保持工程と、
入力された音声について音声認識処理をして、設定値の候補を得る音声認識工程と、
前記複数の設定値のうち、設定済みとなっている設定値を取得する取得工程と、
前記音声認識工程で複数の設定値の候補が得られた場合、前記複数の設定値の候補に前記取得工程で取得した設定済みとなっている設定値をそれぞれマージして複数のマージ済みデータを生成するマージ工程と、
前記画像データを前記複数のマージ済みデータそれぞれの設定値に基づいてプリント出力する場合に得られる出力結果を表す画像を、前記複数のマージ済みデータごとに生成する生成工程と、
前記生成工程で生成された複数の画像を表示手段に出力する出力工程と、
前記複数の画像のいずれかをユーザに選択させる選択工程と、を有する
本発明によれば、音声認識を用いた操作性のよいユーザインターフェースを提供することができる。
以下、添付の図面を参照しながら本発明の好適な実施形態について説明する。
なお、以下の各実施形態では、本発明を複写機に適用した場合を説明するが、本発明の適用はこれに限られるものではない。
<第1実施形態>
図1Aは実施形態による複写機の概略構成を示すブロック図である。図1Aにおいて、1は複写機を示している。複写機1は原稿画像を光学的に読みよって画像信号を生成するスキャナ部11と、スキャナ部11によって得られた画像信号をプリントするプリンタ部12を有する。スキャナ部11とプリンタ部12によって複写機能を実現するが、その構成に特に制限はなく、スキャナ部11とプリンタ部12には周知の構成を適用できる。
制御部13はCPUやメモリを具備し、複写機1の全体を制御する。操作部14は、ユーザによる複写機1に対する各種設定を可能とするユーザインターフェースを提供する。なお、操作部14は、ディスプレイ15を含みタッチパネルの機能も実現している。音声認識装置101、音声入力デバイス(マイク)102、設定済みデータベース103は図1Bにより後述する。このような構成において、制御部13と操作部14と音声認識装置101との協働により、音声入力による複写機の設定操作を実現している。
図1Bは本実施形態による音声認識装置101の機能構成を示す図である。なお、音声認識装置101の一部或いは全てを制御部13によって実現するようにしてもよい。図2は、音声認識装置101による処理を説明するフローチャートである。以下では複写機1の設定を音声UIとGUIで行う例を説明する。
音声認識装置101には、卓上型マイクやハンドセット型マイクといった音声を取り込むための音声入力デバイス102が接続されている。また、ユーザによって過去に設定されたデータが格納された設定済みデータベース103も接続されている。以下、図2に示される処理にしたがって、各部の機能や構成を詳細に説明していく。
音声認識装置101に対して音声認識処理開始イベントが発生すると、図2で示した処理を開始する。なお、音声認識処理開始イベントは、ユーザあるいは、音声認識装置101以外の対話を管理する管理モジュール(制御部13)が発するイベントである。例えば図4のように、操作部14に音声認識開始ボタン403を設け、この音声認識開始ボタン403の押下に応じて制御部13が音声認識装置101に対して音声認識処理開始イベントを発生するようにする。
音声認識処理が開始されると、ステップS201において、音声認識部105は音声認識用データ106を取り込み、音声認識処理の初期化を行う。音声認識用データとは、音声認識処理で用いる各種データのことである。これには、ユーザが発声できる言語制約を記述した音声認識グラマ、音声の特徴量が格納された音響モデルと呼ばれるものが含まれる。
次に、ステップS202において、音声認識部105は、ステップS201で取り込まれた音声認識用データを用いて、音声入力デバイス102及び音声入力部104を介して取り込まれた音声データについて音声認識処理を実行する。この音声認識処理自体は公知の技術を用いることができるのでここでの説明は省略する。音声認識処理が終了すると、ステップS203において、その認識結果が取得できたかどうかを判定する。音声認識処理では常に認識結果が出るわけではない。ユーザの行った発声が音声認識グラマとかけ離れていた場合や、何らかの理由によりユーザの発声が検知できなかった場合は、音声認識結果は出力されない。このような場合は、ステップS203からステップS209へ進み、音声認識結果が取得できなかったことを外部の管理モジュールに通知する。
一方、音声認識部105により音声認識結果が取得された場合は、ステップS203からステップS204へ進む。ステップS204では、設定済みデータ取得部109が設定済みデータベース103から設定済みデータを取得する。設定済みデータベース103は、あるタスク(例えばユーザの希望通りの設定でコピーを行うというタスク)のために、ユーザがこれまでに行ってきた設定が格納されたデータベースである。例えばユーザが、枚数=“3部”、用紙サイズ=“A4”、出力=“両面出力”という設定で原稿をコピーすることを希望しており、これまでに、“枚数”と“出力”の設定が行われた場合を仮定する。このとき、設定済みデータベース103に格納されている情報は、図3に示されるようになる。
図3の左側の各欄は設定の種類を表す設定項目301であり、右側の各欄はユーザにより設定された具体的な設定値302である。ユーザにより値が設定されていない設定項目には“設定なし”という設定値が格納されている。なお、本実施形態のコピー機においては、コピー機本体に取り付けられたリセットボタンを押下することで、この設定済みデータベース103の設定内容をクリアする(全ての設定項目に“設定なし”の値を設定する)ことが可能である。
但し、設定済みデータベース103は、音声入力やGUI操作等によって設定済みとなったデータが登録されている。設定済みデータベース103において設定値302の欄が「設定なし」となっている設定項目は、設定がなされていないことを示す。「設定なし」となっている設定項目には、制御部13が管理するデフォルト値(或いは、前回の設定等、その時点までに設定されている状態)が設定されることになる。すなわち、設定済みデータが図3の状態の場合、「設定なし」の項目には制御部13が管理する設定値が設定されて、操作部14における表示やコピー動作が実行されることになる。
ステップS204で設定済みデータベース103から設定済みデータが取得されると、ステップS205に進む。ステップS205において、音声認識結果/設定済みデータマージ部(以下、データマージ部)108は、音声認識部105で得られた音声認識結果と設定済みデータ取得部109で取得した設定済みデータとをマージする。例えば、音声認識結果として次のような3つの候補が得られた場合を例に挙げて説明する。
1位:A4[用紙サイズ]
2位:A3[用紙サイズ]
3位:A4R[用紙サイズ]
なお、認識結果が複数ある理由は、音声認識処理では確信度の高い上位N個の結果を出力することが可能だからである。また、括弧[ ]内は、その認識結果の意味属性(Semantic Interpretation)を表している。本実施形態では、この意味属性として、その語彙が入力され得る設定項目名を表しているとする。なお、認識結果からその設定項目名(意味属性)を判定可能であることは当業者には明らかである。なお、意味属性に関する説明は、W3C で標準化が進められている“Semantic Interpretation for Speech Recognition (http://www.w3.org/TR/semantic-interpretation/)”を参照のこと。
ステップS205(データマージ部108)による音声認識結果と設定済みデータのマージは、ステップS204で取得された設定済みデータ中に音声認識結果を代入することにより行うことができる。例えば、認識結果が上で示した通りであり、設定済みデータが図3のとおりであるとする。1位の音声認識結果は“A4[用紙サイズ]”であるため、図3の設定データの“用紙サイズ”の設定値に“A4”を代入した設定データを音声認識結果1位のマージ済みデータとする。同様の手法で、音声認識結果2位、3位のマージ済みデータも作成することが可能である。
続くステップS206において、マージ済みデータ出力部107は、以上のようにして作成したマージ済みデータを制御部13に出力する。制御部13は、このマージ済みデータを用いて音声認識の確認(認識候補の選択、確定)のためのUIをディスプレイ15により提供する。マージ済みデータの提示方法としては種々の形態が考えられる。例えば、図3のような設定項目と設定値のリストを表示し、今回の認識結果である用紙サイズについては第1〜第3候補を列挙するようにする。また、今回の認識結果である「用紙サイズ」に関しては、太字にするなどして、他の設定項目と区別できるようにしてもよい。ユーザはこの認識結果の提示から、所望の認識候補を選択することができる。
また、上記のように、設定済みデータの一部を音声認識結果で置き換えたものをマージ済みデータとしてもよいが、その他の形式も考えることができる。例えば、設定済みデータの一部を音声認識結果で置き換えたものの内、設定値がデフォルト値(図3の例では“設定なし”)となっていない設定値だけを繋げたテキスト情報をマージ済みデータとしてもよい。この考えを用いると、上の例では認識結果1位のマージ済みデータは“3部、A4、両面出力”というテキストデータとなる。図4はこのようなテキストデータを用いて認識結果を提示した場合の表示例を示している。
図4は、上述した音声認識装置101を組み込んだ複写機1による音声認識結果表示の一例を示す図である。ディスプレイ15はタッチパネルで構成されており、ディスプレイ15には、音声認識装置101から出力されたマージ済みデータがテキストにより表示されている(404)。これにより、音声認識処理により複数の認識結果が出た場合は、どの音声認識結果(候補)が含まれたマージ済みデータが好ましいかを、タッチパネル等を介してユーザに選択させることが可能となる。また、認識候補が一つしかない場合でも、タッチパネルを介してユーザにその認識結果を確定させることができる。
上記のようにタッチパネルにより音声認識結果が選択されると、選択指示が制御部13より設定済みデータ更新部110へ送られる。図2の処理では、ステップS207において認識結果の確定指示(1つ又は複数の認識候補よりユーザによって選択され、確定された候補を示す)を受けて、処理をステップS208へ進める。ステップS208では、設定済みデータ更新部110が、選択された認識候補に従って、今回の音声認識によって新たに決定された「設定値」でもって設定済みデータベース103を更新する。例えば、今回の音声認識処理とその確定操作によって「A4」が決定された場合は、図3に示す設定済みデータベース103の用紙サイズの欄における「設定なし」が「A4」に更新される。こうして、次に音声入力があった場合は、更新された設定済みデータベース103の内容が参照され、それまでの音声入力によって設定された内容が新たな音声認識結果とマージされ、音声認識結果の確認画面が生成されることになる。
以上のように、第1実施形態によれば、音声認識結果の確認のための提示において、ユーザが直前に発声した内容に相当する情報だけを提示するのでなく、ユーザがこれまでに設定した設定情報を含めた形式で提示できる。これにより、これまでに設定した値がクリアされたという誤解をユーザが招くことを防止することが可能となる。
<第2実施形態>
第1実施形態では、出力するマージ済みデータをテキストデータとして説明した。しかし、出力形態はこのようなテキスト形式に限られるものではない。例えば、ユーザへの認識結果の提示形態を音声とすることも可能である。この場合、マージ済みデータから音声合成処理により音声データが生成されることになる。音声データの合成処理はデータマージ部108、マージ済みデータ出力部107、或いは制御部13の何れで実行されてもよい。
また、認識結果の提示形態は、マージ済みデータに基づいた画像データであってもよい。例えば、画像データの生成は、設定項目の設定値に対応したアイコンを用意しておき、設定済みデータと認識結果の設定値から特定されるアイコンを合成する。例えば、「3部、両面出力」という設定済みデータと、「A4」という認識候補から、図5Aの左に示すような画像(マージ済みデータ501)が生成される。511はA4サイズの両面出力に対応したアイコンであり、これが指定部数である「3」個重ねて、合成され表示されている。なお、512は部数を数値で表示しており、513ではサイズA4を文字により表示し、設定済み及び認識結果の内容をより明瞭に認識できるようにしている。なお、図5Aにおいて、A3,A4Rの認識候補に関しても同様に画像が合成されている。なお、画像データの生成処理は、データマージ部108、マージ済みデータ出力部107、或いは制御部13の何れで実行されてもよい。
<第3実施形態>
更に、設定済みデータベース103に格納されるデータは、ユーザが対話的に設定したデータに限定されるものではない。例えば、複写機1の場合、ユーザが原稿をスキャナ部11の原稿台又は給紙装置に載せた段階で、その原稿の1枚目あるいは全ての原稿をスキャンし、その画像データをJPEG或いはビットマップ(***.jpg, ***.bmp)の形式で設定済みデータベース103に格納してもよい。例えば、図3の設定済みデータベース103の“原稿”という設定項目の設定値として、原稿をスキャンして得られた画像データを登録するようにしてもよい。この場合、例えば、制御部13がスキャナ部11の原稿台に載せられた原稿、又は給紙装置に載せられた原稿の1枚目を読み取り、その原稿画像データを設定済みデータベース103の“原稿”の設定値として保持させる。このとき、後述のように画像を縮小し、サムネイル画像として保持させるようにしてもよい。なお、原稿をスキャンすることにより、原稿サイズや原稿種別を判定し、これを設定値として反映させるようにしてもよい。
以上のように、スキャン画像を設定済みデータベース103に登録することにより、データマージ部108では、この画像を用いたマージ済みデータ作成することが可能である。図5Bはスキャン画像を用いたマージ済みデータの表示例である。本例では、原稿はA4の縦置きであり、そのスキャン画像は、縮小され、各マージ済みデータ501の原稿用紙のサムネイル画像502として使用されている。すなわち、「A4」サイズの「両面出力」に対応したアイコン511に上記サムネイル画像502を合成し、これを枚数として設定された数(3部)だけ図示のように重ねた画像を生成する。A3,A4Rに関する画像も同様に生成される。
以上のような構成により、ユーザはより直感的に音声認識結果や設定状態を理解することができる。
<第4実施形態>
第4実施形態では、第3実施形態に加え、画像提示されるマージ済みデータの用紙の大きさや、サムネイル画像の大きさ等の比率を正確に出力する。これにより、音声認識結果の確認のためのインターフェースを、設定しようとしている出力フォーマットが適正かどうかの確認にも利用可能になる。A4両面出力やA3両面出力等に対応する画像は、実際のA4サイズやA3サイズを所定倍率で縮小したものである。また、スキャン画像から生成されるサムネイル画像も、この所定倍率で縮小されたものとする。
図6の601は、上記のように各画像要素の大きさの比率を正確にしてマージした例である。これにより、マージ済みデータの中で、不適切なものを自動検知することが可能になる。602は、現在の原稿(A4、縦置き)をA4R用紙で出力しようとした場合のマージ済みデータである。ここでは原稿用紙のサムネイル画像が出力用紙からはみ出てしまっており、このまま出力すると、原稿の一部が欠けた出力になる恐れがある。データマージ部108がマージ済みデータを作成する段階で、このような問題を検知すると、この出力では不適切となる理由603を付与する。更に、そのマージ済みデータ全体の色を変える等、他のマージ済みデータと区別が付くような変更を加える。
なお、第3及び第4実施形態では原稿画像を読み取って得られた画像を縮小したものを用いたが、原稿台において原稿のサイズを検出して、これを用いるようにしてもよい。例えば、原稿台で原稿サイズがA4、縦であることを検出すると、設定済みデータベース103の“原稿”の設定値として「検出サイズA4縦」が登録される。そして、図5Bや図6のような画像を生成する際には、このサイズA4に対応した大きさのフレームを上記サムネイル画像(縮小画像)の代わりに用いる。
また、上記実施形態では、原稿画像のサムネイルを両面出力を示す用紙の画像と合成し、これを部数分重ねて表示しているが、一番上の用紙の画像にのみ原稿画像のサムネイルを合成するようにしてもよい。
以上により、ユーザは音声認識結果選択時に、選択すると問題が生じる認識候補を直感的に知ることができる。
<第5実施形態>
更に、データマージ部108が設定済みデータと音声認識結果をマージする際に、もともと設定済みデータベース103にあったデータと、今回の音声認識結果によるデータを区別できるようにマージしてもよい。例えば、図5Aは、図3の設定済みデータベースのデータに、
1位:A4[用紙サイズ]
2位:A3[用紙サイズ]
3位:A4R[用紙サイズ]
という音声認識結果を画像データとしてマージし、それを表示した例である。
このとき、設定済みデータベース103の内容に起因したデータである“3部”と“両面出力”を、音声認識結果に起因したデータ“A4”、“A3”、“A4R”と区別できるようにマージする。例えば、各マージ済みデータの“A4”、“A3”、“A4R”を表す部分513を点滅表示させてもよい。また、太いライン(フォント)で出力してもよい。
また、音声合成を用いてマージ済みデータを出力する場合は、音声認識結果起因のデータ出力時の合成話者を変更することで区別してもよい。例えば、“3部”、“両面出力”は女性の合成音声で、“A4”は男性の合成音声で出力してもよい。
以上により、ユーザはマージ済みデータの中で、今回の音声認識結果の部分を即座に区別できる。このため、複数のマージ済みデータが提示された場合でも、音声認識結果部分の比較が容易に行えるようになる。
以上説明したように、上記各実施形態によれば、音声認識の結果提示時に、ユーザが以前に設定した設定値を反映したものを合わせた形で提示できる。このため、音声認識結果の確認において設定済みの内容を把握でき、操作性が向上する。
<他の実施形態>
なお、本発明の目的は、前述した実施例の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても達成されることは言うまでもない。
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
実施形態による音声認識装置を搭載した複写機の概略構成を示す図である。 実施形態による音声認識装置の機能構成を示すブロック図である。 実施形態による音声認識装置の処理を説明するフローチャートである。 実施形態の音声認識装置が用いる設定済みデータベースのデータ構成例を示す図である。 実施形態の音声認識装置を組み込んだコピー機における音声認識結果確認画面の表示例を示す図である。 第2実施形態によるコピー機のGUI画面例を示す図である。 第3実施形態によるコピー機のGUI画面例を示す図である。 第4実施形態によるコピー機のGUI画面例を示す図である。 音声認識結果を画像で表現した場合の一般的なGUI画面例を示す図である。

Claims (5)

  1. 音声により、画像データをプリント出力するための複数の設定値を選択する情報処理装置の制御方法であって、
    前記画像データを保持する保持工程と、
    入力された音声について音声認識処理をして、設定値の候補を得る音声認識工程と、
    前記複数の設定値のうち、設定済みとなっている設定値を取得する取得工程と、
    前記音声認識工程で複数の設定値の候補が得られた場合、前記複数の設定値の候補に前記取得工程で取得した設定済みとなっている設定値をそれぞれマージして複数のマージ済みデータを生成するマージ工程と、
    前記画像データを前記複数のマージ済みデータそれぞれの設定値に基づいてプリント出力する場合に得られる出力結果を表す画像を、前記複数のマージ済みデータごとに生成する生成工程と、
    前記生成工程で生成された複数の画像を表示手段に出力する出力工程と、
    前記複数の画像のいずれかをユーザに選択させる選択工程と、を有することを特徴とする情報処理装置の制御方法。
  2. 前記設定値は、枚数、用紙サイズ、濃度、両面出力、片面出力についての設定値を含む、ことを特徴とする請求項1に記載の情報処理装置の制御方法。
  3. 前記出力工程では、更に、前記複数の画像のうち、前記マージ済みデータに設定された用紙サイズの用紙からはみ出る画像と、前記用紙からはみ出ない画像とを識別可能に出力する、ことを特徴とする請求項1または請求項2に記載の情報処理装置の制御方法。
  4. 音声により、画像データをプリント出力するための複数の設定値を選択する情報処理装置であって、
    前記画像データを保持する保持手段と、
    入力された音声について音声認識処理をして、設定値の候補を得る音声認識手段と、
    前記複数の設定値のうち、設定済みとなっている設定値を取得する取得手段と、
    前記音声認識手段で複数の設定値の候補が得られた場合、前記複数の設定値の候補に前記取得手段で取得した設定済みとなっている設定値をそれぞれマージして複数のマージ済みデータを生成するマージ手段と、
    前記画像データを前記複数のマージ済みデータそれぞれの設定値に基づいてプリント出力する場合に得られる出力結果を表す画像を、前記複数のマージ済みデータごとに生成する生成手段と、
    前記生成手段で生成された複数の画像を表示手段に出力する出力手段と、
    前記複数の画像のいずれかをユーザに選択させる選択手段と、を備えることを特徴とする情報処理装置
  5. コンピュータに、音声により、画像データをプリント出力するための複数の設定値を選択する情報処理装置の動作方法を実行させるプログラムであって、前記コンピュータに、
    前記画像データを保持する保持工程と、
    入力された音声について音声認識処理をして、設定値の候補を得る音声認識工程と、
    前記複数の設定値のうち、設定済みとなっている設定値を取得する取得工程と、
    前記音声認識工程で複数の設定値の候補が得られた場合、前記複数の設定値の候補に前記取得工程で取得した設定済みとなっている設定値をそれぞれマージして複数のマージ済みデータを生成するマージ工程と、
    前記画像データを前記複数のマージ済みデータそれぞれの設定値に基づいてプリント出力する場合に得られる出力結果を表す画像を、前記複数のマージ済みデータごとに生成する生成工程と、
    前記生成工程で生成された複数の画像を表示手段に出力する出力工程と、
    前記複数の画像のいずれかをユーザに選択させる選択工程と、を実行させることを特徴とするプログラム。
JP2005188317A 2005-06-28 2005-06-28 情報処理装置及び制御方法、プログラム Expired - Fee Related JP4702936B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005188317A JP4702936B2 (ja) 2005-06-28 2005-06-28 情報処理装置及び制御方法、プログラム
US11/477,342 US20060293896A1 (en) 2005-06-28 2006-06-28 User interface apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005188317A JP4702936B2 (ja) 2005-06-28 2005-06-28 情報処理装置及び制御方法、プログラム

Publications (3)

Publication Number Publication Date
JP2007010754A JP2007010754A (ja) 2007-01-18
JP2007010754A5 JP2007010754A5 (ja) 2008-08-14
JP4702936B2 true JP4702936B2 (ja) 2011-06-15

Family

ID=37568668

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005188317A Expired - Fee Related JP4702936B2 (ja) 2005-06-28 2005-06-28 情報処理装置及び制御方法、プログラム

Country Status (2)

Country Link
US (1) US20060293896A1 (ja)
JP (1) JP4702936B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11222185B2 (en) 2006-10-26 2022-01-11 Meta Platforms, Inc. Lexicon development via shared translation database
US9128926B2 (en) * 2006-10-26 2015-09-08 Facebook, Inc. Simultaneous translation of open domain lectures and speeches
US8972268B2 (en) 2008-04-15 2015-03-03 Facebook, Inc. Enhanced speech-to-speech translation system and methods for adding a new word
JP7192220B2 (ja) * 2018-03-05 2022-12-20 コニカミノルタ株式会社 画像処理装置、情報処理装置及びプログラム
JP7188036B2 (ja) 2018-11-30 2022-12-13 株式会社リコー 情報処理装置、情報処理システム、および方法
JP7318381B2 (ja) * 2019-07-18 2023-08-01 コニカミノルタ株式会社 画像形成システムおよび画像形成装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6121526A (ja) * 1984-07-10 1986-01-30 Nippon Signal Co Ltd:The 音声認識入力装置
JPH05216618A (ja) * 1991-11-18 1993-08-27 Toshiba Corp 音声対話システム
JPH0990818A (ja) * 1995-09-24 1997-04-04 Ricoh Co Ltd 複写装置
JP2001042890A (ja) * 1999-07-30 2001-02-16 Toshiba Tec Corp 音声認識装置
JP2005148724A (ja) * 2003-10-21 2005-06-09 Zenrin Datacom Co Ltd 音声認識を用いた情報入力を伴う情報処理装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69232407T2 (de) * 1991-11-18 2002-09-12 Toshiba Kawasaki Kk Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung
JPH0772767A (ja) * 1993-06-15 1995-03-17 Xerox Corp 対話型ユーザ支援システム
JP3582675B2 (ja) * 1994-10-28 2004-10-27 セイコーエプソン株式会社 画像データをメモリに蓄積する装置及び方法
US5774841A (en) * 1995-09-20 1998-06-30 The United States Of America As Represented By The Adminstrator Of The National Aeronautics And Space Administration Real-time reconfigurable adaptive speech recognition command and control apparatus and method
US6249761B1 (en) * 1997-09-30 2001-06-19 At&T Corp. Assigning and processing states and arcs of a speech recognition model in parallel processors
US7881936B2 (en) * 1998-12-04 2011-02-01 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
US7720682B2 (en) * 1998-12-04 2010-05-18 Tegic Communications, Inc. Method and apparatus utilizing voice input to resolve ambiguous manually entered text input
US6694487B1 (en) * 1998-12-10 2004-02-17 Canon Kabushiki Kaisha Multi-column page preview using a resizing grid
US6253184B1 (en) * 1998-12-14 2001-06-26 Jon Ruppert Interactive voice controlled copier apparatus
US6816837B1 (en) * 1999-05-06 2004-11-09 Hewlett-Packard Development Company, L.P. Voice macros for scanner control
JP3619087B2 (ja) * 1999-11-02 2005-02-09 キヤノン株式会社 情報処理装置、情報処理方法およびコンピュータ読み取り可能なプログラムを格納した記憶媒体
US6865284B2 (en) * 1999-12-20 2005-03-08 Hewlett-Packard Development Company, L.P. Method and system for processing an electronic version of a hardcopy of a document
GB0025331D0 (en) * 2000-10-16 2000-11-29 Canon Kk Control apparatus
EP1211594A3 (en) * 2000-11-30 2006-05-24 Canon Kabushiki Kaisha Apparatus and method for controlling user interface
US20030020760A1 (en) * 2001-07-06 2003-01-30 Kazunori Takatsu Method for setting a function and a setting item by selectively specifying a position in a tree-structured menu
US20030036909A1 (en) * 2001-08-17 2003-02-20 Yoshinaga Kato Methods and devices for operating the multi-function peripherals
US6842593B2 (en) * 2002-10-03 2005-01-11 Hewlett-Packard Development Company, L.P. Methods, image-forming systems, and image-forming assistance apparatuses
US7363224B2 (en) * 2003-12-30 2008-04-22 Microsoft Corporation Method for entering text
US20060095267A1 (en) * 2004-10-28 2006-05-04 Fujitsu Limited Dialogue system, dialogue method, and recording medium
JP4878471B2 (ja) * 2005-11-02 2012-02-15 キヤノン株式会社 情報処理装置およびその制御方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6121526A (ja) * 1984-07-10 1986-01-30 Nippon Signal Co Ltd:The 音声認識入力装置
JPH05216618A (ja) * 1991-11-18 1993-08-27 Toshiba Corp 音声対話システム
JPH0990818A (ja) * 1995-09-24 1997-04-04 Ricoh Co Ltd 複写装置
JP2001042890A (ja) * 1999-07-30 2001-02-16 Toshiba Tec Corp 音声認識装置
JP2005148724A (ja) * 2003-10-21 2005-06-09 Zenrin Datacom Co Ltd 音声認識を用いた情報入力を伴う情報処理装置

Also Published As

Publication number Publication date
US20060293896A1 (en) 2006-12-28
JP2007010754A (ja) 2007-01-18

Similar Documents

Publication Publication Date Title
JP3938121B2 (ja) 情報処理装置及びその制御方法、プログラム
JP3746378B2 (ja) 電子メモ処理装置、電子メモ処理方法、および電子メモ処理プログラムを記録したコンピュータ読取り可能な記録媒体
JP4702936B2 (ja) 情報処理装置及び制御方法、プログラム
US20030036909A1 (en) Methods and devices for operating the multi-function peripherals
JP2005031882A (ja) 情報処理方法及び情報処理装置
JP4615786B2 (ja) 画像形成装置、プログラムおよび記録媒体
JP2009194577A (ja) 画像形成装置、音声案内方法及び音声案内プログラム
JP2016081140A (ja) 画像処理装置、画像処理装置の制御方法、及びプログラム
US8773696B2 (en) Method and system for generating document using speech data and image forming apparatus including the system
TWI453655B (zh) 多功能事務機及其警示方法
JP2009230230A (ja) データ処理装置、画像形成装置およびプログラム
JP4010864B2 (ja) 画像形成装置、プログラムおよび記録媒体
JP2017102939A (ja) オーサリング装置、オーサリング方法、およびプログラム
JP4459123B2 (ja) 情報処理装置及びユーザインターフェース制御方法
JP2006333365A (ja) 情報処理装置およびプログラム
US7480073B2 (en) Image processing apparatus, method and program
JPH11119790A (ja) 光学式文字認識装置、および光学式文字認識プログラムを記録した記録媒体
JP6229433B2 (ja) 操作案内サーバ、操作案内システム、画像形成装置およびプログラム
JP4562547B2 (ja) 画像形成装置、プログラムおよび記録媒体
JP2007013905A (ja) 情報処理装置およびプログラム
JP2004351622A (ja) 画像形成装置、プログラムおよび記録媒体
JP4561156B2 (ja) ドキュメント処理装置
JP4530681B2 (ja) 機器操作装置、画像形成装置、プログラム及び記録媒体
JP7327939B2 (ja) 情報処理システム、情報処理装置、制御方法、プログラム
JP2022178558A (ja) 画像形成装置およびその操作手順説明の作成方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080627

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080627

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110214

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110304

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110307

LAPS Cancellation because of no payment of annual fees