JP2021052220A

JP2021052220A - 画像処理システム、音声応答処理方法及びプログラム

Info

Publication number: JP2021052220A
Application number: JP2019171959A
Authority: JP
Inventors: 長生勝田; Takeo Katsuda; 祐介御子柴; Yusuke Mikoshiba
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2021-04-01

Abstract

【課題】画像形成部におけるジョブの開始前及び後のいずれにおいても、ユーザーに音声による応答を行えるようにする。【解決手段】本発明の一側面の画像処理システム１００の音声処理部３は、画像形成装置１の制御部１２に出力した指示に対する応答情報が制御部１２から入力された場合に、応答情報に対応する音声情報を音声入出力部２に出力する。制御部１２は、画像形成部１３によるジョブの開始後に、画像形成部１３での処理に関する通知の指示を音声情報処理部１４に出力し、音声情報処理部１４は、指示に対応する音声情報を音声出力部１５に出力する。【選択図】図２

Description

本発明は、画像処理システム、音声応答処理方法及びプログラムに関する。

従来、用紙に画像を形成する画像形成装置において、印刷中のエラーの発生や印刷の終了を、音声のメッセージによってユーザーに伝える機能を有するものがある。

例えば、特許文献１には、各ユーザＩＤ及び各イベントに対応した音声データが登録される通知音声サーバーと、通知音声サーバーから送信される音声データを記憶する記憶部を有する画像形成装置と、を備えた印刷システムが記載されている。特許文献１のデータ識別部は、プリンタエンジン部による印刷が正常に終了した場合、印刷終了のイベントに対応する印刷終了音声データを記憶部から読み出して音声再生部に送る。そして、音声再生部は印刷終了音声データを音声化し、音声化された印刷終了音声データをスピーカー部が再生する。

特開２００２−０５１１７３号公報

ところで、近年、画像形成装置に対して音声入力による操作（以下、「音声操作」とも称する）が可能な画像処理システムが増えている。このような画像形成システムにおいて、ユーザーから発せられた音声は、音声認識機能を備えるスマートスピーカー等よりなる音声入出力装置に入力される。音声入出力装置では、入力された音声が音声データに変換され、該音声データは、クラウド等に設けられた音声処理サーバーに送信される。そして、音声処理サーバーから画像形成装置に対して、音声入出力装置に入力された音声に対応する指示（コマンド）が送信される。

音声入出力装置に入力された音声操作に対して、音声による応答（以下、「音声応答」とも称する）が行われる場合、音声処理サーバーから音声入出力装置に対して、応答音声の情報が送信される。そして、該応答音声の情報に対応する音声が、音声入出力装置から出力される。

しかしながら、音声処理サーバーにおける上述した音声応答処理は、音声入出力装置から入力された音声に対応する指示を画像形成装置に送信した時点で終了する。したがって、音声操作に基づくジョブが画像形成装置で開始された後に、画像形成装置内でエラーが発生した場合、該エラーをユーザーに音声で通知することはできなかった。また、画像形成装置におけるジョブの実行の終了を、音声によってユーザーに知らせることもできなかった。

本発明はこのような状況に鑑みてなされたものである。本発明の目的は、画像形成部におけるジョブの開始前及び後のいずれにおいても、ユーザーに音声による応答を行えるようにすることを目的とする。

上記課題を解決するため、本発明の一側面を反映した画像処理システムは、画像形成部と、音声入出力部と、音声処理部と、制御部と、音声情報処理部と、音声出力部と、を備える。画像形成部は、記録材に画像を形成する。音声入出力部は、画像形成部が実行するジョブに関する指示として入力された音声を音声情報に変換して出力するとともに、入力された音声情報に対応する音声を放音する。音声処理部は、音声入出力部から入力される音声情報に対して音声解析処理を行い、音声解析処理の結果と予め対応付けられたジョブに関する指示を制御部に出力する。制御部は、ジョブを画像形成部に実行させる制御を行う。音声情報処理部は、制御部から入力される指示に対応する音声情報を生成する。音声出力部は、音声情報処理部から入力される音声情報に対応する音声を放音する。そして、音声処理部は、指示に対する応答情報が制御部から入力された場合に、応答情報に対応する音声情報を音声入出力部に出力する。制御部は、画像形成部によるジョブの開始後に、画像形成部での処理に関する通知の指示を音声情報処理部に出力する。

本発明によれば、画像形成部におけるジョブの開始前及び後のいずれにおいても、画像形成部が実行するジョブに関する指示を行ったユーザーに対して、音声による応答を行えるようになる。なお、上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。

本発明の第１の実施形態に係る画像処理システムの概略構成図である。本発明の第１の実施形態に係る画像処理システムに含まれる画像形成装置及び音声入出力装置の制御系の構成例を示すブロック図である。本発明の第１の実施形態に係る音声指示に基づく画像処理システムの動作の例を示すシーケンス図である。本発明の第１の実施形態に係る音声処理サーバーによる音声応答処理の手順の例を示すフローチャートである。本発明の第１の実施形態に係る画像形成装置による音声応答処理の手順の例を示すフローチャートである。本発明の第２の実施形態に係る音声操作への切り替え操作に基づく画像処理システムの動作の例を示すシーケンス図である。本発明の第２の実施形態に係る画像形成装置による音声応答処理の手順の例を示すフローチャートである。本発明の第２の実施形態に係る操作表示部の画面上における音声操作ボタンの形成例を示す図である。本発明の第３の実施形態に係る音声操作及びパネル操作に基づく画像処理システムの動作の例を示すシーケンス図である。本発明の第３の実施形態に係る音声処理サーバーによる音声応答処理の手順の例を示すフローチャートである。本発明の第３の実施形態に係る画像形成装置による音声応答処理の手順の例を示すフローチャートである。

以下、本発明を実施するための形態例について、添付図面を参照して説明する。本明細書及び図面において、実質的に同一の機能又は構成を有する構成要素は、同一の符号を付し、構成要素の重複説明は省略する。

＜第１の実施形態＞
［画像処理システムの構成］
まず、図１を参照して、本発明の第１の実施の形態に係る画像処理システムの構成について説明する。図１は、本発明の第１の実施形態に係る画像処理システム１００の概要構成図である。

図１に示す画像処理システム１００は、画像形成装置１と、音声入出力装置２（音声入出力部の一例）と、音声処理サーバー３（音声処理部の一例）とを備える。音声入出力装置２及び音声処理サーバー３間、並びに、音声処理サーバー３及び画像形成装置１間は、公衆交換電話網やＩＰ（Internet Protocol）網などよりなるネットワークＮを介して接続される。

画像形成装置１は、例えば、コピー機能、プリンター機能、スキャナー機能等を有するＭＦＰ（Multi-Functional Peripherals）で構成される。画像形成装置１は、不図示のプリンタコントローラー等から送信された画像データに基づいて用紙（記録材の一例）に画像形成を行い、該画像が形成された用紙を印刷物として出力する。本実施形態に係る画像形成装置１は、音声処理サーバー３から送信される音声情報を再生して、自身が有する音声出力部１５（図２参照）から出力させる音声応答処理部１４（音声情報処理部の一例：図２参照）を備える。

音声入出力装置２は、例えば、スマートスピーカーで構成され、不図示のマイクロフォン及びスピーカーを備える。音声入出力装置２は、マイクロフォンが集音した音声、例えば、ユーザーによって発話された操作指示を音声データ（以下、「音声情報」とも称する）に変換し、該音声情報を音声処理サーバー３に送信（出力）する。また、音声入出力装置２は、音声処理サーバー３から送信される音声情報を再生して、スピーカーから出力する。

音声処理サーバー３は、例えば、不図示のクラウド上に設けられ、その機能はクラウドアプリケーションサービスとして提供される。音声処理サーバー３は、音声入出力装置２から送信（入力）された音声情報に対して音声解析処理を行う。そして、音声処理サーバー３は、音声解析処理の結果に対応する、画像形成装置１へのコマンド（指示）や応答音声情報、通知音声情報などを記憶部３１３（図２参照）から抽出して、音声入出力装置２又は画像形成装置１に送信する。

応答音声情報は、音声入出力装置２へのユーザーの発話による操作指示（音声操作）に対する応答情報を伝える音声であり、通知音声情報は、エラーの発生やジョブの終了などの、画像形成装置１からの通知情報を伝える音声である。画像形成装置１へのコマンドには、例えば、印刷やコピー、スキャンなどのジョブの設定指示や、該ジョブの開始指示などがある。

本実施形態では、音声操作に基づいて行われたジョブの設定が終了した場合、ユーザーに音声による応答（通知を含む）を行う装置が、音声入出力装置２から画像形成装置１に切り替わる。具体的には、音声処理サーバー３から画像形成装置１に対してジョブの開始が指示されるまでの間、すなわち、ジョブに関する設定が行われている間においては、ユーザーに対する音声による応答は、音声入出力装置２から行われる。一方、音声処理サーバー３から画像形成装置１に対してジョブの開始が指示された後においては、ユーザーに対する音声による応答は、画像形成装置１から行われる。例えば、禁則等の設定ミスが見つかった場合の音声による応答や、動作中の不具合（エラー）についての音声による通知などは、画像形成装置１から行われる。

なお、本実施形態では、音声処理サーバー３がクラウド上に設けられる例を挙げたが、本発明はこれに限定されない。音声処理サーバー３は、画像形成装置１内に設けられてもよく、不図示のオンプレミスサーバー等の内部に設けられてもよい。また、音声処理サーバー３と画像形成装置１との間に、ジョブに関する音声情報を音声処理サーバー３から受信して保存したり画像形成装置１にジョブを渡したりする中継サーバー等が設けられてもよい。

［画像処理システムを構成する画像形成装置及び音声入出力装置の制御系の構成］
次に、図２を参照して、画像処理システム１００に含まれる画像形成装置１及び音声入出力装置２の制御系の構成例について説明する。図２は、画像処理システム１００に含まれる画像形成装置１及び音声入出力装置２の制御系の構成例を示すブロック図である。

［画像形成装置の制御系の構成］
まず、画像形成装置１の制御系の構成について説明する。図２に示すように、画像形成装置１は、通信部１１と、制御部１２と、画像形成部１３と、音声応答処理部１４と、音声出力部１５と、操作表示部１６と、を含む。

通信部１１は、ネットワークＮを介して接続される音声処理サーバー３との間で行われる各種データの送受信動作を制御する。

制御部１２は、ＣＰＵ（Central Processing Unit）１２０と、ＲＡＭ（Random Access Memory）１２１と、ＲＯＭ（Read Only Memory）１２２と、記憶部１２３と、を含む。

ＣＰＵ１２０は、ＲＯＭ１２２に記憶されているシステムプログラムや画像形成処理プログラムなどの各種処理プログラムを読み出してＲＡＭ１２１に展開し、展開したプログラムに従って画像形成装置１の各部の動作を制御する。

例えば、ＣＰＵ１２０は、音声処理サーバー３から入力されるコマンドに対応付けられた画像形成処理（画像処理）を、画像形成部１３に実行させる制御を行う。また、ＣＰＵ１２０は、ユーザーによる音声による操作指示に基づく設定において禁則等の設定ミスがあった場合や、画像形成装置１におけるジョブの実行中にエラーが発生した場合などに、音声応答処理部１４に対して、ユーザーへの音声による応答又は音声による通知の実施を指示する。

ＲＡＭ１２１は、ＣＰＵ１２０により実行される各種プログラム及びこれらプログラムに係るデータを一時的に記憶するワークエリアを形成し、ジョブのキュー、各種動作の設定等を記憶する。

ＲＯＭ１２２は、半導体メモリ等の不揮発性メモリ等により構成され、画像形成装置１に対応するシステムプログラム、及び、該システムプログラム上で実行可能な画像形成処理プログラム、音声応答処理プログラム等を記憶する。これらのプログラムは、コンピュータが読取り可能なプログラムコードの形態で格納され、ＣＰＵ１２０は、当該プログラムコードに従った動作を逐次実行する。

記憶部１２３は、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）などにより構成され、画像形成装置１に係る各種の設定データや、ＣＰＵ１２０から音声応答処理部１４に対して送信される各種指示に対応する音声データ（音声応答情報、音声通知情報等）などを記憶する。

画像形成部１３は、不図示のプリンタコントローラー等から送信された画像データに基づいて用紙に画像形成を行い、該画像が形成された用紙を印刷物として出力する。具体的には、画像形成部１３は、不図示の帯電装置と、感光ドラムと、露光装置と、転写ベルトと、定着装置と、を備える。

そして、画像形成部１３は、まず、帯電装置により帯電された感光体ドラムに対して、露光装置から画像に応じた光を照射させることにより、感光ドラムの周上に静電潜像を形成させる。次いで、画像形成部１３は、現像装置から感光体にトナーを供給させることにより、帯電した静電潜像上にトナーを付着させてトナー像を現像させる。次いで、画像形成部１３は、トナー像を転写ベルトに１次転写させるとともに、転写ベルトに転写されたトナー像をから用紙に２次転写させ、さらに、定着装置に、用紙上に転写されたトナー像を用紙に定着させる。

なお、本実施形態では、画像形成部１３が電子写真方式を用いて画像形成を行う例を挙げたが、本発明はこれに限定されない。本発明の画像処理システム、画像形成装置では、インクジェット方式等の他の方式で画像形成を行う画像形成部が用いられてもよい。

音声応答処理部１４は、ＣＰＵ１２０から入力される指示に対応する音声情報を生成（記憶部１２３等から抽出）して、音声出力部１５に出力する。ＣＰＵ１２０からの指示は、上述したように、音声による操作指示に基づく設定において禁則等の設定ミスがあった場合や、動作中にエラーが発生した場合などに行われる。

音声出力部１５は、例えば、スピーカーで構成され、音声応答処理部１４から入力される音声情報を再生して音声として出力する。

操作表示部１６は、例えば、ＬＣＤ（Liquid Crystal Display）や有機ＥＬ（Electroluminescence）等よりなる表示部と、タッチセンサ等よりなる操作入力部とが一体に形成されたタッチパネルとして構成される。

なお、本実施形態では、表示部及び操作入力部が操作表示部１６として一体に形成される例を挙げたが、本発明はこれに限定されない。表示部と、キーボードやマウス等よりなる操作入力部とが、それぞれ別々に構成されてもよい。または、タッチパネルとして構成された操作表示部１６に加えて、キーボードやマウス等よりなる操作入力部を備える構成としてもよい。

［音声処理サーバーの制御系の構成］
次に、同じく図２を参照して、音声処理サーバー３の制御系の構成について説明する。図２に示すように、音声処理サーバー３は、制御部３１と、通信部３２と、音声解析部３３と、を含む。

制御部３１は、ＣＰＵ３１０と、ＲＡＭ３１１と、ＲＯＭ３１２と、記憶部３１３と、を含む。

ＣＰＵ３１０は、ＲＯＭ３１２に記憶されているシステムプログラムや音声処理プログラムなどの各種処理プログラムを読み出してＲＡＭ３１１に展開し、展開したプログラムに従って音声処理サーバー３の各部の動作を制御する。

例えば、ＣＰＵ３１０は、音声入出力装置２から音声情報が送信された場合に、該音声情報に対応する、画像処理のジョブに関する各種指示を、通信部３２を介して画像形成装置１に送信させる制御を行う。また、ＣＰＵ３１０は、例えば、画像形成装置１から応答情報が送信された場合に、該応答情報に対応する音声情報を、通信部３２を介して音声入出力装置２に送信させる制御を行う。

ＲＡＭ３１１は、ＣＰＵ３１０により実行される各種プログラム及びこれらプログラムに係るデータを一時的に記憶するワークエリアを形成する。

ＲＯＭ３１２は、半導体メモリ等の不揮発性メモリ等により構成され、音声処理サーバー３に対応するシステムプログラム、及び、該システムプログラム上で実行可能な音声処理プログラム等を記憶する。これらのプログラムは、コンピュータが読取り可能なプログラムコードの形態で格納され、ＣＰＵ３１０は、当該プログラムコードに従った動作を逐次実行する。

記憶部３１３は、ＨＤＤやＳＳＤなどにより構成され、音声処理サーバー３に係る各種の設定データや、音声解析部３３による音声解析結果と対応付けられた、画像処理のジョブに関する指示等を記憶する。

通信部３２は、ネットワークＮを介して接続される音声入出力装置２との間で行われる各種データの送受信動作を制御する。

音声解析部３３は、音声入出力装置２から送信される音声情報を解析して、音声解析結果に対応する指示、例えば、設定情報やジョブの開始指示などを記憶部３１３から読み出し、制御部３１に出力する。また、音声解析部３３は、音声入出力装置２から送信される音声情報を解析して、音声解析結果に対応する応答音声情報や通知音声情報などを記憶部３１３から読み出し、制御部３１に出力する。

［画像処理システムによる音声応答処理］
次に、図３〜図５を参照して、本発明の第１の実施形態に係る画像処理システム１００による音声応答処理方法について説明する。図３は、音声操作に基づく画像処理システム１００の動作の例を示すシーケンス図である。図４は、音声処理サーバー３による音声応答処理の手順の例を示すフローチャートであり、図５は、画像形成装置１による音声応答処理の手順の例を示すフローチャートである。

［画像処理システム全体の動作］
最初に、図３を参照して、画像処理システム１００全体の動作の例について説明する。まず、ユーザーから音声入出力装置２に対して「３部コピーして」と発話することによる操作指示が行われ、該操作指示を音声入出力装置２が検知する（ステップＳ１）。次いで、ステップＳ１で入力された「３部コピーして」という発話音声に対応する音声情報が、音声入出力装置２から音声処理サーバー３に送信される（ステップＳ２）。

次いで、音声処理サーバー３から画像形成装置１に対して、音声情報に対応する画像形成装置１の設定情報（コピー３部）が送信される（ステップＳ３）。次いで、画像形成装置１の制御部１２による制御に基づいて、通信部１１（図２参照）から音声処理サーバー３に対して、画像形成装置１が設定情報を受け付けたことを示す応答情報が送信される（ステップＳ４）。次いで、音声処理サーバー３から音声入出力装置２に対して、応答情報に対応する応答音声情報が送信される（ステップＳ５）。

次いで、音声入出力装置２からユーザーに対して、応答音声情報に基づく音声による応答が行われる（ステップＳ６）。具体的には「３部コピーですね、設定しました」の音声が音声入出力装置２から出力される。

次いで、音声入出力装置２から出力された音声を聞いたユーザーから音声入出力装置２に対して、「開始」と発話することによる操作指示が入力され、該操作指示の発話音声が音声入出力装置２に検知される（ステップＳ７）。次いで、音声入出力装置２から音声処理サーバー３に対して、ステップＳ７で検知された「開始」という発話音声に対応する音声情報が送信される（ステップＳ８）。次いで、音声処理サーバー３から画像形成装置１に対して、音声情報に対応する指示として、ジョブの開始指示が送信される（ステップＳ９）。

次いで、画像形成装置１の制御部１２による制御に基づいて、通信部１１から音声処理サーバー３に対して、画像形成装置１がジョブの開始指示を受け付けたことを示す応答情報が送信される（ステップＳ１０）。次いで、音声処理サーバー３から音声入出力装置２に対して、応答情報に対応するジョブ設定終了通知音声情報が送信される（ステップＳ１１）。

次いで、音声入出力装置２からユーザーに対して、ジョブ設定終了通知音声情報に基づく音声による応答が行われる（ステップＳ１２）。具体的には「ＭＦＰへのジョブ設定を終了し、ジョブの開始を指示しました。今後の音声による応答はＭＦＰから行います」の音声が、音声入出力装置２から出力される。

次いで、画像形成装置１の制御部１２から音声応答処理部１４に対して、音声応答の開始指示が行われる（ステップＳ１３）。次いで、画像形成装置の音声応答処理部１４から音声出力部１５に対して、音声応答の開始指示に対応する応答音声情報が送信される（ステップＳ１４）。

次いで、画像形成装置１の音声出力部１５からユーザーに対して、応答音声情報に基づく音声による応答が行われる（ステップＳ１５）。具体的には「ＭＦＰはジョブを開始しました」の音声が、画像形成装置１の音声出力部１５から出力される。

画像形成装置１内でエラーが発生した場合、画像形成装置１の制御部１２から音声応答処理部１４に対して、警告エラーの通知指示が行われる（ステップＳ１６）。次いで、画像形成装置の音声応答処理部１４から音声出力部１５に対して、警告エラーの通知指示に対応する通知音声情報が送信される（ステップＳ１７）。

次いで、画像形成装置１の音声出力部１５からユーザーに対して、通知音声情報に基づく音声通知が行われる（ステップＳ１８）。具体的には「エラーが発生しました」の音声が、画像形成装置１の音声出力部１５から出力される。

画像形成装置１でのジョブの実行が終了した場合、画像形成装置１の制御部１２から音声応答処理部１４に対して、ジョブの終了通知指示が行われる（ステップＳ１９）。次いで、画像形成装置の音声応答処理部１４から音声出力部１５に対して、ジョブの終了通知指示に対応する通知音声情報が送信される（ステップＳ２０）。

次いで、画像形成装置１の音声出力部１５からユーザーに対して、通知音声情報に基づく音声による応答が行われる（ステップＳ２１）。具体的には「ＭＦＰでのジョブは完了しました」の音声が、画像形成装置１の音声出力部１５から出力される。

［音声処理サーバーにおける音声応答処理］
次に、図４を参照して、音声処理サーバー３における音声応答処理について説明する。まず、音声処理サーバー３は、起動等の開始処理を行う（ステップＳ３１）。次いで、音声処理サーバー３の制御部３１は、音声入出力装置２からジョブの設定の指示に対応する音声情報が送信されたか否かを判定する（ステップＳ３２）。ジョブの設定の指示に対応する音声情報には、例えば「ｎ部コピーして」、「ｎ部スキャンして」（ｎは１以上の整数）等の音声情報がある。ステップＳ３２で、ジョブの設定の指示に対応する音声情報は送信されていないと判定された場合（ステップＳ３２がＮＯ判定の場合）、制御部３１は、ステップＳ３２の判定を繰り返す。

一方、ステップＳ３２で、ジョブの設定の指示に対応する音声情報は送信されたと判定された場合（ステップＳ３２がＹＥＳ判定の場合）、制御部３１は、音声情報に対応する設定情報を、通信部３２を介して画像形成装置１に送信する制御を行う（ステップＳ３３）。例えば、ジョブの設定の指示に対応する音声情報として、「ｎ部コピーして」が送信された場合、ステップＳ３３では、「コピーｎ部」等の設定情報が音声処理サーバー３から画像形成装置１に送信される。

次いで、制御部３１は、画像形成装置１から、ステップＳ３３で設定情報を送信したことに対する応答情報は送信されたか否かを判定する（ステップＳ３４）。ステップＳ３４で、画像形成装置１から応答情報は送信されていないと判定された場合（ステップＳ３４がＮＯ判定の場合）、制御部３１は、ステップＳ３４の判定を繰り返す。

一方、ステップＳ３４で、画像形成装置１から応答情報が送信されたと判定された場合（ステップＳ３４がＹＥＳ判定の場合）、制御部３１は、画像形成装置１から送信された応答情報に対応する音声情報を、通信部３２を介して音声入出力装置２に送信する（ステップＳ３５）。

次いで、音声処理サーバー３の制御部３１は、音声入出力装置２から、ジョブの開始指示に対応する音声情報は送信されたか否かを判定する（ステップＳ３６）。ジョブの開始指示に対応する音声情報には、例えば、「開始」等がある。ステップＳ３６で、音声入出力装置２からジョブの開始指示に対応する音声情報は送信されていないと判定された場合（ステップＳ３６がＮＯ判定の場合）、制御部３１は、ステップＳ３６の判定を繰り返す。

一方、ステップＳ３６で、音声入出力装置２からジョブの開始指示に対応する音声情報が送信されたと判定された場合（ステップＳ３６がＹＥＳ判定の場合）、制御部３１は、音声情報に対する指示としてのジョブの開始指示を、通信部３２を介して画像形成装置１に送信する（ステップＳ３７）。

次いで、制御部３１は、ステップＳ３７でジョブの開始指示を送信したことに対する応答情報は送信されたか否かを判定する（ステップＳ３８）。ステップＳ３８で、画像形成装置１から応答情報は送信されていないと判定された場合（ステップＳ３８がＮＯ判定の場合）、制御部３１は、ステップＳ３８の判定を繰り返す。

一方、ステップＳ３８で、画像形成装置１から応答情報が送信されたと判定された場合（ステップＳ３８がＹＥＳ判定の場合）、制御部３１は、音声入出力装置２を介した音声応答処理を終了する（ステップＳ３９）。音声入出力装置２を介した音声応答処理とは、すなわち、画像形成装置１の制御部１２から送信される応答情報に対応する音声情報を、音声入出力装置２に送信する処理である。ステップＳ３９の処理後、音声による応答を行う装置が、音声処理サーバー３から画像形成装置１に切り替わる。

［画像形成装置における音声応答処理］
次に、図５を参照して、画像形成装置１における音声応答処理について説明する。まず、画像形成装置１は、起動等の開始処理を行う（ステップＳ４１）。次いで、画像形成装置１の制御部１２（図２参照）は、音声処理サーバー３から指示は送信したか否かを判定する（ステップＳ４２）。音声処理サーバー３から送信される指示には、ジョブの設定に関する指示である設定情報や、ジョブ開始指示などがある。

ステップＳ４２で、音声処理サーバー３から指示は送信されていないと判定された場合（ステップＳ４２がＮＯ判定の場合）、画像形成装置１の制御部１２は、ステップＳ４１の判定を繰り返す。一方、ステップＳ４２で音声処理サーバー３から指示が送信されたと判定された場合（ステップＳ４２がＹＥＳ判定の場合）、制御部１２は、受信した指示はジョブの開始指示であるか否かを判定する（ステップＳ４３）。

ステップＳ４３で、ジョブの開始指示ではないと判定された場合（ステップＳ４３がＮＯ判定の場合）、すなわち、指示はジョブに関する設定情報であると判定された場合、制御部１２は、音声処理サーバー３から送信された設定情報に基づいて各部の設定を行う（ステップＳ４４）。ステップＳ４４の処理後、制御部１２は、ステップＳ４２の判定を行う。

一方、ステップＳ４３で、音声処理サーバー３から送信された指示はジョブの開始指示であると判定された場合（ステップＳ４３がＹＥＳ判定の場合）、制御部１２は、音声応答処理部１４を起動する（ステップＳ４５）。次いで、制御部１２は、ステップＳ４４で設定された内容に基づいてジョブを実行する（ステップＳ４６）。

次いで、制御部１２は、ジョブの実行中にエラーが発生したか否かを判定する（ステップＳ４７）。ステップＳ４７で、エラーが発生したと判定された場合（ステップＳ４７がＹＥＳ判定の場合）、制御部１２は、エラー処理を行う（ステップＳ４８）。次いで、制御部１２は、音声出力部１５を介した音声応答処理を行う（ステップＳ４９）。ステップＳ４９の音声応答処理では、例えば、「エラーが発生しました」等の、エラーの発生をユーザーに通知する応答や、「紙詰まりが発生しています」等の、エラーの内容の通知などが、音声出力部１５を介して行われる。

ステップＳ４７がＮＯ判定の場合、又は、ステップＳ４９の処理後、制御部１２は、ジョブが終了したか否かを判定する（ステップＳ５０）。ステップＳ５０で、ジョブは終了していないと判定された場合（ステップＳ５０がＮＯ判定の場合）、制御部１２は、ステップＳ４７の判定を行う。一方、ステップＳ５０で、ジョブは終了したと判定された場合（ステップＳ５０がＹＥＳ判定の場合）、制御部１２は、音声応答処理部１４を制御して、音声出力部１５からジョブの終了を音声でユーザーに通知させる（ステップＳ５１）。次いで、制御部１２は、音声出力部１５を介した音声応答処理を終了する（ステップＳ５２）。なお、図５に示す結合子Ａは、図１１のステップＳ１５５の後に結合される。

上述した第１の実施形態では、ユーザーから音声操作が行われた場合、音声処理サーバー３からの指示に応じて画像形成装置１の制御部１２から出力される応答情報に対応する音声が、音声入出力装置２から出力される。つまり、音声入出力装置２からユーザーに対する音声による応答が行われる。そして、画像形成部１３でのジョブの開始後には、制御部１２からの音声応答の開始指示に基づいて、画像形成装置１の音声出力部１５から、音声応答の指示に対応する音声が出力される。それゆえ、本実施形態によれば、画像形成部１３におけるジョブの開始前及び後のいずれにおいても、ユーザーに音声による応答を行えるようになる。

ところで、画像形成装置１におけるジョブの開始前及び後の両方においてユーザーに音声による応答を行うことは、音声入出力装置２による応答を、画像形成装置１によるジョブが開始した後にも継続することによっても実現することができる。しかしながら、この手法を用いた場合、画像形成装置１でのジョブの実行が完了するまでの間、音声入出力装置２が画像形成装置１に専有された状態となってしまう。画像形成装置１でエラーが発生した場合には、画像形成装置１による音声入出力装置２の専有時間は、エラーの解除までと、より一層長くなってしまう。

そして、音声入出力装置２が画像形成装置１に専有されている間は、ユーザーは音声入出力装置２を他の用途で使用することができなくなる。また、音声入出力装置２がクラウド上の音声処理サーバー３と通信を行う時間も長くなり、その分通信コストも嵩んでしまう。本実施形態によれば、このような問題を発生させることなく、ジョブの開始前及び後の両方においてユーザーに音声による応答を行うことができる。

また、上述した第１の実施形態では、画像形成装置１の制御部からジョブの開始指示への応答情報が音声処理サーバー３に送信された場合に、ユーザーに音声による応答を行う装置が、音声入出力装置２から画像形成装置１（音声出力部１５）に切り替わることの通知が音声入出力装置２から出力される。このような通知がないまま、音声による応答を行う装置が音声入出力装置２から画像形成装置１（音声出力部１５）に切り替わった場合、ユーザーの混乱を招いてしまう可能性がある。

音声入出力装置２は、例えると、画像形成装置１を代理で操作する人にあたり、画像形成装置１の動作とは異なる動作をするものである。実際に人が画像形成装置１の代理で作業を行う場合には、代理の人が行う作業と、画像形成装置１による動作とを、ユーザーは容易に区別することができる。しかしながら、音声入出力装置２と画像形成装置１とはどちらも機械であるため、ユーザーは、音声入出力装置２と画像形成装置１とを一体のものであると認識してしまう。

したがって、音声応答の出力元が、画像形成装置１と一体であると認識していた音声入出力装置２から、画像形成装置１の本体に切り替わった場合、ユーザーは、画像形成装置１から発せられた音声が、自分が音声入出力装置２に対して発話した操作指示に対応する音声であると認識できないことが想定される。

本実施形態では、音声による応答を行う装置が音声入出力装置２から画像形成装置１に切り替わることが、音声入出力装置２からユーザーに音声で通知されるため、音声による応答を行う装置が画像形成装置１に変わった場合にも、ユーザーは音声による応答の内容が自分宛のものであると理解できる。これにより、ユーザーは、エラー処理等の対応を迅速に行うことができ、適切な行動をとることができるようになる。

なお、上述した第１の実施形態では、音声による応答を行う装置が音声入出力装置２から画像形成装置１に切り替わることを通知する音声が、音声入出力装置２から出力される例を挙げたが、本発明はこれに限定されない。音声による応答を行う装置が切り替わることを通知する音声は、画像形成装置１の音声出力部１５から出力されてもよい。

また、上述した第１の実施形態では、音声による応答を行う装置が切り替わることの通知を、音声を介して行う例を挙げたが、本発明はこれに限定されない。画像形成装置１の操作表示部１６の画面上にメッセージ等を表示することにより通知してもよい。

＜第２の実施形態＞
次に、図６及び図７を参照して、本発明の第２の実施形態に係る画像処理システム１００による音声応答処理方法について説明する。図６は、音声操作への切り替え操作に基づく画像処理システム１００の動作の例を示すシーケンス図であり、図７は、画像形成装置１による音声応答処理の手順の例を示すフローチャートである。なお、本実施形態に係る画像処理システム１００の構成は、図１に示した構成と同様であるため、ここではその説明は省略する。また、本実施形態に係る画像処理システム１００を構成する各部の制御系の構成は、図２に示した構成と同様であるため、ここではその説明は省略する。

本実施形態では、ユーザーにより操作指示の方法を音声操作に切り替える操作が行われた場合に、音声による応答を行う装置が音声入出力装置２から画像形成装置１に切り替わることを、画像形成装置１の音声出力部１５から音声で通知する。音声による通知は、例えば「ジョブの開始までに入力された音声による操作は、音声処理サーバーで処理します。ジョブ開始後の音声応答はＭＦＰから行います」等のメッセージによって行うことができる。音声操作に切り替える操作には、例えば、画像形成装置１の操作表示部１６（図２参照）の画面上に配置された「音声操作」ボタンを押下する操作等がある。

図８は、操作表示部１６の画面上における音声操作ボタンの形成例を示す図である。図８に示す例では、画像形成装置１の操作表示部１６の画面の右下の位置に、音声操作ボタンＢｎが配置されている。ユーザーによってこの音声操作ボタンＢｎが押下された場合、画像形成装置１の制御部１２は、画像形成装置１による音声応答処理を開始する。

なお、本実施形態では、画像形成装置１の操作表示部１６の画面上に配置された音声操作ボタンＢｎが押下された場合に、音声応答処理が開始される例を挙げたが、本発明はこれに限定されない。音声応答処理の開始を指示する所定の音声（言葉）がユーザーによって発せられたことを、音声入出力装置２を介して音声処理サーバー３が検知した場合に、音声応答処理が開始されてもよい。

［画像処理システムによる音声応答処理］
図６を参照して、音声操作への切り替え操作に基づく画像処理システム１００の動作について説明する。まず、ユーザーによって、画像形成装置１の操作表示部１６の画面上に配置された音声操作ボタンＢｎが押下され、該押下を画像形成装置１の制御部１２が検知する（ステップＳ６１）。次いで、画像形成装置１の制御部１２は、音声処理サーバー３に起動を指示する（ステップＳ６２）。

次いで、音声処理サーバー３から画像形成装置１に対して、音声応答が可能である旨が通知される（ステップＳ６３）。次いで、画像形成装置１の制御部１２から音声応答処理部１４に対して、音声応答の開始指示が送信される（ステップＳ６４）。次いで、画像形成装置の音声応答処理部１４から音声出力部１５に対して、音声応答の開始指示に対応する応答音声情報が送信される（ステップＳ６５）。

次いで、画像形成装置１の音声出力部１５からユーザーに対して、応答音声情報に基づく音声応答が行われる（ステップＳ６６）。具体的には「ジョブの開始までに入力された音声による操作は、音声処理サーバーで処理します。ジョブ開始後の音声応答はＭＦＰから行います」の音声が、画像形成装置１の音声出力部１５から出力される。

次いで、ユーザーから音声入出力装置２に対して、設定に関する操作指示が発話によって行われ、該操作指示の音声を音声入出力装置２が検知する（ステップＳ６７）。設定に関する操作指示には、例えば、「３部コピーして」等の操作指示がある。次いで、ステップＳ６７で入力された操作指示に対応する音声情報が、音声入出力装置２から音声処理サーバー３に送信される（ステップＳ６８）。

次いで、音声処理サーバー３から画像形成装置１に対して、音声情報に対応する画像形成装置１の設定情報が送信される（ステップＳ６９）。次いで、画像形成装置１の制御部１２による制御に基づいて、通信部１１から音声処理サーバー３に対して、画像形成装置１が設定情報を受け付けたことを示す応答情報が送信される（ステップＳ７０）。次いで、音声処理サーバー３から音声入出力装置２に対して、応答情報に対応する応答音声情報が送信される（ステップＳ７１）。

次いで、音声入出力装置２からユーザーに対して、応答音声情報に基づく音声による応答が行われる（ステップＳ７２）。具体的には「３部コピーですね、設定しました」等の音声が音声入出力装置２から出力される。

次いで、音声入出力装置２から出力された音声を聞いたユーザーから音声入出力装置２に対して、「開始」と発話することによる操作指示が入力され、該操作指示の音声が音声入出力装置によって検知される（ステップＳ７３）。次いで、音声入出力装置２から音声処理サーバー３に対して、ステップＳ７３で検知された「開始」という発話音声に対応する音声情報が送信される（ステップＳ７４）。次いで、音声処理サーバー３から画像形成装置１に対して、音声情報に対応する指示として、ジョブの開始指示が送信される（ステップＳ７５）。

次いで、画像形成装置１の制御部１２から音声応答処理部１４に対して、画像形成装置１がジョブの開始指示を受け付けたことをユーザーに通知するための、ジョブの開始通知指示が送信される（ステップＳ７６）。次いで、音声応答処理部１４から音声出力部１５に対して、ジョブの開始通知指示に対応する応答音声情報が送信される（ステップＳ７７）。次いで、音声入出力装置２からユーザーに対して、応答音声情報に基づく音声応答が行われる（ステップＳ７８）。具体的には「ＭＦＰはジョブを開始しました」の音声が、画像形成装置１の音声出力部１５から出力される。

画像形成装置１内でエラーが発生した場合、画像形成装置１の制御部１２から音声応答処理部１４に対して、警告エラーの開始指示が行われる（ステップＳ７９）。次いで、画像形成装置の音声応答処理部１４から音声出力部１５に対して、警告エラーの開始指示に対応する応答音声情報が送信される（ステップＳ８０）。次いで、画像形成装置１の音声出力部１５からユーザーに対して、応答音声情報に基づく音声による応答が行われる（ステップＳ８１）。具体的には「エラーが発生しました」の音声が、画像形成装置１の音声出力部１５から出力される。

画像形成装置１でのジョブの実行が終了した場合、画像形成装置１の制御部１２から音声応答処理部１４に対して、ジョブの終了通知指示が行われる（ステップＳ８２）。次いで、画像形成装置の音声応答処理部１４から音声出力部１５に対して、ジョブの終了通知指示に対応する応答音声情報が送信される（ステップＳ８３）。次いで、画像形成装置１の音声出力部１５からユーザーに対して、応答音声情報に基づく音声による応答が行われる（ステップＳ８４）。具体的には「ＭＦＰでのジョブは完了しました」の音声が、画像形成装置１の音声出力部１５から出力される。

［画像形成装置における音声応答処理］
次に、図７を参照して、画像形成装置１における音声応答処理について説明する。まず、画像形成装置１は、操作表示部１６の画面に音声操作ボタンＢｎを表示させる処理を行う（ステップＳ９１）。次いで、画像形成装置１の制御部１２は、ユーザーによって音声操作ボタンＢｎが押下されたか否かを判定する（ステップＳ９２）。ステップＳ９２で、音声操作ボタンＢｎは押下されていないと判定された場合（ステップＳ９２がＮＯ判定の場合）、制御部１２は、操作表示部１６に入力された操作に対応する処理を実行する（ステップＳ９３）。

次いで、制御部１２は、ジョブが終了したか否かを判定する（ステップＳ９４）。ステップＳ９４で、ジョブは終了していないと判定された場合（ステップＳ９４がＮＯ判定の場合）、制御部１２は、ステップＳ９２の判定を行う。一方、ステップＳ９４で、ジョブは終了したと判定された場合（ステップＳ９４がＹＥＳ判定の場合）、制御部１２は、処理を終了する。

ステップＳ９２で、音声操作ボタンＢｎが押下されたと判定された場合（ステップＳ９２がＹＥＳ判定の場合）、制御部１２は、音声応答処理部１４を起動する（ステップＳ９５）。次いで、音声応答処理部１４は、音声による応答を行う装置がジョブの開始後に変更する旨を、音声出力部１５を介してユーザーに通知する（ステップＳ９６）。

次いで、制御部１２は、音声入出力装置２から音声情報が送信されたか否かを判定する（ステップＳ９７）。ステップＳ９７で、音声入出力装置２から音声情報は送信されていないと判定された場合（ステップＳ９７がＮＯ判定の場合）、制御部１２は、ステップＳ９７の判定を繰り返す。

一方、ステップＳ９７で、音声入出力装置２から音声情報が送信されたと判定された場合（ステップＳ９７がＹＥＳ判定の場合）、制御部１２は、音声情報はジョブの開始指示に対応する音声情報であるか否かを判定する（ステップＳ９８）。ステップＳ９８で、おジョブの開始指示に対応する音声情報ではないと判定された場合（ステップＳ９８がＮＯ判定の場合）、制御部１２は、音声処理サーバー３から送信された設定情報に基づいて設定を行う（ステップＳ９９）。ステップＳ９９の処理後、制御部１２はステップＳ９７の判定を行う。

ステップＳ９８で、ジョブの開始指示に対応する音声情報であると判定された場合（ステップＳ９８がＹＥＳ判定の場合）、制御部１２は、開始が指示されたジョブを画像形成部１３に実行させる（ステップＳ１００）。ステップＳ１０１〜ステップＳ１０６の処理は、図５に示したステップＳ４７〜ステップＳ５２と同一である。つまり、制御部１２は、画像形成装置１内でエラーが発生した場合には、音声出力部１５を介してユーザーにエラーを通知し、ジョブが終了した場合には、音声出力部１５を介してユーザーにジョブの終了を通知する。そして、ジョブの終了とともに、画像形成装置１での音声応答処理も終了する。

上述した第２の実施形態によれば、音声による応答を行う装置がジョブの開始後に画像形成装置１に切り替わることが、事前にユーザーに通知されるため、音声による応答を行う装置が実際に切り替わった時にユーザーが混乱してしまうことを防ぐことができる。

なお、上述した第２の実施形態では、画像形成装置１の操作表示部１６（図２参照）の画面上に配置された音声操作ボタンＢｎがユーザーによって押下された時に、音声による応答を行う装置がジョブの開始後に切り替わることの通知が行われる例を挙げたが、本発明はこれに限定されない。例えば、音声操作ボタンＢｎの押下が行われる前に、予め上記通知を操作表示部１６の画面に表示しておいてもよい。

また、本実施形態では、音声による応答を行う装置が切り替わることを、切り替えが行われる前に事前にユーザーに通知する例を挙げたが、本発明はこれに限定されない。音声による応答を行う装置が切り替わることの予告や、切り替わり実施の通知等は行わずに、音声応答の際の音声を音声入出力装置２と画像形成装置１とで異ならせることによって、切り替えの実施をユーザーに認識させてもよい。例えば、音声入出力装置２から出力される音声が、男性の声である場合には、画像形成装置１からは、女性の音声による応答を行うようにしてもよい。このような処理を行うことにより、音声による応答を行う装置が途中で画像形成装置１に切り替わったことを、ユーザーは容易に把握することができる。

＜第３の実施形態＞
次に、図９〜図１１を参照して、本発明の第３の実施形態に係る画像処理システム１００による音声応答処理方法について説明する。図９は、音声操作及びパネル操作に基づく画像処理システム１００の動作の例を示すシーケンス図である。図１０は、音声処理サーバー３による音声応答処理の手順の例を示すフローチャートであり、図１１は、画像形成装置１による音声応答処理の手順の例を示すフローチャートである。なお、本実施形態に係る画像処理システム１００の構成は、図１に示した構成と同様であるため、ここではその説明は省略する。また、本実施形態に係る画像処理システム１００を構成する各部の制御系の構成は、図２に示した構成と同様であるため、ここではその説明は省略する。

上述した第１の実施形態及び第２の実施形態では、ユーザーが、画像形成装置１へのジョブの開始指示を行うまでの間、継続して音声入出力装置２への音声操作を行う場合を想定した。しかしながら、実際には、ジョブの開始指示に至るまでの間に、音声操作指示とパネル操作（操作表示部１６の操作入力部への操作）との併用が始まったり、音声操作からパネル操作に切り替わったりすることがある。

本実施形態では、このように操作指示の方式が途中で切り替わった場合、画像形成装置１の制御部１２が、操作表示部１６の操作による操作指示に切り替わったことを通知する所定の音又は音声を音声出力部１５に出力させる。そして、音声処理サーバー３は、画像形成装置１の音声出力部１５から出力された所定の音又は音声を検知した場合に、パネル操作による指示に切り替えるか否かを確認するメッセージを、音声入出力装置２から音声でユーザーに通知させる。ユーザーによって、パネル操作による操作指示への切り替えを承諾する指示が「はい」等の発話により行われた場合、音声処理サーバー３は、音声による応答を行う装置が音声入出力装置２から画像形成装置１に切り替わることを、音声入出力装置２からユーザーに通知し、音声応答処理を終了する。画像形成装置１では、操作指示の方式が音声操作からパネル操作に切り替わっているため、音声応答処理は行われない。

なお、操作指示の方法の切り替えの可否をユーザーに確認する通知は、操作表示部１６の画面に文字で表示されてもよい。また、上記確認のメッセージに対するユーザーによる回答も、パネル操作を介して行われてもよい。

［画像処理システムによる音声応答処理方法］
まず、図９を参照して、画像処理システム１００全体の動作の例について説明する。ユーザーから音声入出力装置２に対して「３部コピーして」と発話することによる操作指示が行われ、該操作指示を音声入出力装置２が検知する（ステップＳ１１１）。次いで、ステップＳ１１１で入力された「３部コピーして」という発話音声に対応する音声情報が、音声入出力装置２から音声処理サーバー３に送信される（ステップＳ１１２）。

次いで、音声処理サーバー３から画像形成装置１に対して、音声情報に対応する画像形成装置１の設定情報（コピー３部）が送信される（ステップＳ１１３）。次いで、画像形成装置１の制御部１２による制御に基づいて、通信部１１から音声処理サーバー３に対して、画像形成装置１が設定情報を受け付けたことを示す応答情報が送信される（ステップＳ１１４）。次いで、音声処理サーバー３から音声入出力装置２に対して、応答情報に対応する応答音声情報が送信される（ステップＳ１１５）。

次いで、音声入出力装置２からユーザーに対して、応答音声情報に基づく音声による応答が行われる（ステップＳ１１６）。具体的には「３部コピーですね、設定しました」の音声が音声入出力装置２から出力される。

次いで、画像形成装置１の操作表示部１６に対して、ユーザーによる操作が入力される（ステップＳ１１７）。次いで、画像形成装置１の制御部１２は、音声出力部１５に対して、予め設定された所定の通知音（又は音声）を出力させる指示を行う（ステップＳ１１８）。次いで、該指示に基づいて、音声出力部１５から所定の通知音が出力される（ステップＳ１１９）。そして、音声出力部１５から出力された通知音は、音声入出力装置２によっても検知される。

なお、ここでは音声出力部１５から所定の通知音が出力される例を挙げたが、本発明はこれに限定されない。ステップＳ１１９において、音声出力部１５から「ＭＦＰから音声応答を引き継ぎました」等の音声応答メッセージを出力してもよい。このような通知を行うことにより、ユーザーは、音声による応答を行う装置が音声入出力装置２から画像形成装置１に切り替わったことを、より明確に把握することができる。

次いで、音声入出力装置２は、画像形成装置１の音声出力部１５から出力された通知音（又は、音声応答メッセージ）を検知し、検知した通知音の音声情報（通知音音声情報）を音声処理サーバー３に送信する（ステップＳ１２０）。次いで、音声処理サーバー３から音声入出力装置２に対して、パネル操作に切り替えるか否かを確認するための操作指示切替確認音声情報を送信する（ステップＳ１２１）。次いで、音声入出力装置２からユーザーに対して、操作指示切替確認音声情報に対応する音声が出力される（ステップＳ１２２）。具体的には、「パネル操作に切り替えますか？」等の音声が音声入出力装置２から出力される。

次いで、ユーザーから「はい」と発話することによる操作指示が音声入出力装置２に入力され、音声入出力装置２によって発話音声が検知される（ステップＳ１２３）。次いで、音声入出力装置２から音声処理サーバー３に対して、ステップＳ１２３で検知された「はい」という発話音声に対応する音声情報が送信される（ステップＳ１２４）。次いで、音声処理サーバー３から画像形成装置１に対して、音声情報に対応する指示として、音声操作からパネル操作への切り替え指示が送信される（ステップＳ１２５）。

次いで、画像形成装置１の制御部１２から音声処理サーバー３に対して、画像形成装置１が切り替え指示を受け付けたことを示す応答情報が送信される（ステップＳ１２６）。次いで、音声処理サーバー３から音声入出力装置２に対して、応答情報に対応する応答音声情報が送信される（ステップＳ１２７）。次いで、音声入出力装置２からユーザーに対して、応答音声情報に基づく音声による応答が行われる（ステップＳ１２８）。具体的には「音声操作からパネル操作に切り替えます」の音声が、音声出力部１５から出力される。

［音声処理サーバーによる音声応答処理］
次に、図１０を参照して、音声処理サーバー３における音声応答処理について説明する。まず、音声処理サーバー３は、起動等の開始処理を行う（ステップＳ１３１）。次いで、音声処理サーバー３の制御部３１（図２参照）は、音声入出力装置２から、ジョブの開始指示に対応する音声情報は送信されたか否かを判定する（ステップＳ１３２）。ステップＳ１３２で、音声入出力装置２からジョブの開始指示に対応する音声情報が送信されたと判定された場合（ステップＳ１３２がＹＥＳ判定の場合）、制御部３１は、ジョブの開始指示を、通信部１１を介して画像形成装置１に送信する（ステップＳ１３３）。

次いで、音声処理サーバー３の制御部３１は、画像形成装置１からジョブの開始指示に対応する応答情報が送信されたか否かを判定する（ステップＳ１３４）。ステップＳ１３４で、画像形成装置１から応答情報は送信されていないと判定された場合（ステップＳ１３４がＮＯ判定の場合）、制御部３１は、ステップＳ１３４の判定を繰り返す。

一方、ステップＳ１３４で、画像形成装置１から応答情報が送信されたと判定された場合（ステップＳ１３４がＹＥＳ判定の場合）、制御部３１は、音声入出力装置２を介した音声応答処理を終了する（ステップＳ１３５）。ステップＳ１３２で、音声入出力装置２からジョブの開始指示に対応する音声情報は送信されていないと判定された場合（ステップＳ１３２がＮＯ判定の場合）、制御部３１は、音声入出力装置２から、通知音音声情報は送信されたか否かを判定する（ステップＳ１３６）。

ステップＳ１３６で、通知音音声情報は送信されていないと判定された場合（ステップＳ１３６がＮＯ判定の場合）、音声処理サーバー３の制御部３１は、音声入出力装置２から送信された音声情報に対応する設定情報を、通信部３２を介して画像形成装置１に送信する（ステップＳ１３７）。

次いで、制御部３１は、ステップＳ１３６で設定情報を送信したことに対する応答情報は送信されたか否かを判定する（ステップＳ１３８）。ステップＳ１３８で、画像形成装置１から応答情報は送信されていないと判定された場合（ステップＳ１３８がＮＯ判定の場合）、制御部３１は、ステップＳ１３８の判定を繰り返す。

一方、ステップＳ１３８で、画像形成装置１から応答情報が送信されたと判定された場合（ステップＳ１３８がＹＥＳ判定の場合）、制御部３１は、画像形成装置１から送信された応答情報に対応する音声情報を、通信部３２を介して音声入出力装置２に送信する（ステップＳ１３９）。ステップＳ１３９の処理後、音声処理サーバー３の制御部３１は、ステップＳ１３２の判定を行う。すなわち、音声入出力装置２から、ジョブの開始指示に対応する音声情報が入力されたか否かを判定する。

ステップＳ１３６で、通知音音声情報は送信されたと判定された場合（ステップＳ１３６がＹＥＳ判定の場合）、音声処理サーバー３の制御部３１は、操作指示切替確認音声情報を、通信部３２を介して画像形成装置１に送信する（ステップＳ１４０）。次いで、制御部３１は、音声入出力装置２から、パネル操作への切り替えの承諾に対応する音声情報は送信されたか否かを判定する（ステップＳ１４１）。ステップＳ１４１で、パネル操作への切り替えの承諾に対応する音声情報は送信されていないと判定された場合（ステップＳ１４１がＮＯ判定の場合）、制御部３１は、ステップＳ１３２の判定を行う。すなわち、音声入出力装置２から、ジョブの開始指示に対応する音声情報は送信されたか否かを判定する。

一方、ステップＳ１４１で、パネル操作への切り替えの承諾に対応する音声情報は送信されたと判定された場合（ステップＳ１４１がＹＥＳ判定の場合）、制御部３１は、画像形成装置１から送信された応答情報に対応する音声情報を、通信部３２を介して音声入出力装置２に送信する（ステップＳ１４２）。具体的には、制御部３１は、「音声操作からパネル操作に切り替えます」等の音声を、音声入出力装置２に送信する。

［画像形成装置による音声応答処理］
次に、図１１を参照して、画像形成装置１における音声応答処理について説明する。まず、画像形成装置１は、起動等の開始処理を行う（ステップＳ１５１）。次いで、画像形成装置１の制御部１２（図２参照）は、音声処理サーバー３から指示を受信したか否かを判定する（ステップＳ１５２）。ステップＳ１５２で、音声処理サーバー３から指示は受信していないと判定された場合（ステップＳ１５２がＮＯ判定の場合）、画像形成装置１の制御部１２は、ステップＳ１５２の判定を繰り返す。

一方、ステップＳ１５２で、音声処理サーバー３から指示を受信したと判定された場合（ステップＳ１５２がＹＥＳ判定の場合）、制御部１２は、受信した指示はジョブの開始指示であるか否かを判定する（ステップＳ１５３）。ステップＳ１５３で、受信した指示はジョブの開始指示であると判定された場合（ステップＳ１５３がＹＥＳ判定の場合）、制御部１２は音声応答処理部１４を起動する（ステップＳ１５４）。次いで、制御部１２は、開始が指示されたジョブを実行する（ステップＳ１５５）。ステップＳ１５５の処理後、制御部１２は、図５のステップＳ４７の判定を行う。すなわち、画像形成装置１においてエラーが発生したか否かを判定する。

一方、ステップＳ１５３で、ジョブの開始指示ではないと判定された場合（ステップＳ１５３がＮＯ判定の場合）、制御部１２は、ユーザーによって操作表示部１６に操作が入力されたか否かを判定する（ステップＳ１５６）。ステップＳ１５６で、操作表示部１６に操作は入力されていないと判定された場合（ステップＳ１５６がＮＯ判定の場合）、制御部１２は、音声処理サーバー３から送信された設定情報に基づいて設定を行う（ステップＳ１５７）。ステップＳ１５７の処理後、制御部１２は、ステップＳ１５２の判定を行う。すなわち、音声処理サーバー３から指示を受信したか否かを判定する。

一方、ステップＳ１５６で、操作表示部１６に操作は入力されたと判定された場合（ステップＳ１５６がＹＥＳ判定の場合）、制御部１２は、音声出力部１５に、操作表示部１６に操作が入力されたことを通知する所定の通知音を出力させる（ステップＳ１５８）。

次いで、制御部１２は、音声処理サーバー３から、音声操作からパネル操作への切り替え指示は送信されたか否かを判定する（ステップＳ１５９）。ステップＳ１５９で、切り替え指示は送信されていないと判定された場合（ステップＳ１５９がＮＯ判定の場合）、制御部１２はステップＳ１５９の判定を繰り返す。一方、ステップＳ１５９で、切り替え指示は送信されたと判定された場合（ステップＳ１５９がＹＥＳ判定の場合）、制御部１２は、切り替え指示への応答情報を、通信部１１を介して音声処理サーバー３に送信する（ステップＳ１６０）。次いで、制御部１２は、操作表示部１６に入力された操作の内容に基づいて設定を行う（ステップＳ１６１）。

ステップＳ１６１の処理後、制御部１２は、ステップＳ１５２の判定を行う。すなわち、音声処理サーバー３から指示を受信したか否かを判定する。

上述した第３の実施形態では、画像形成装置１の制御部１２は、操作表示部１６（の操作入力部）への操作を検知した場合、音声出力部１５に所定の通知音又は通知音声を出力させる。そして、音声処理サーバー３は、音声入出力装置２から通知音又は通知音声の音声情報（音声データ）が送信された場合、指示の方法が音声操作からパネル操作に切り替わることの確認に対応する音声情報を、音声入出力装置２に出力する。したがって、本実施形態によれば、ユーザーによる操作指示の方法が音声操作からパネル操作に切り替わった場合にも、そのことを音声処理サーバー３が把握することができる。それゆえ、本実施形態によれば、音声処理サーバー３は、音声入出力装置２を介した音声応答処理の終了処理を適切に行えるようになる。

なお、上述した第３の実施形態では、「はい」等の操作指示に対応する音声情報を音声処理サーバー３が受信した場合に、音声処理サーバー３から画像形成装置１に対して、音声操作からパネル操作への切り替え指示が送信される例を挙げたが、本発明はこれに限定されない。音声処理サーバー３は、操作表示部１６への操作が継続して行われていることを検知した場合に、ユーザーがパネル操作への切り替えを承諾したものと判定し、画像形成装置１にパネル操作への切り替え指示を送信してもよい。

＜各種変形例＞
なお、本発明は上述した実施形態に限られるものではなく、特許請求の範囲に記載した本発明の要旨を逸脱しない限りにおいて、その他種々の応用例、変形例を取り得る。

上述した各実施形態では、音声入出力装置２としてスマートスピーカーが用いられる例を挙げたが、本発明はこれに限定されない。音声入出力装置２として、携帯電話端末やスマートフォンなどの携帯端末装置が用いられてもよい。しかしながら、音声入出力装置２として携帯端末装置が用いられる場合、携帯端末装置を所持したユーザーと画像形成装置１との間の距離が離れていることも想定される。この場合、画像形成装置１の音声出力部１５から出力される応答音声や通知音声などをユーザーは聞くことができず、ユーザーは、画像形成装置１を音声で操作することができない。

このように、画像形成装置１と、音声入出力装置２として機能する携帯端末装置を所持したユーザーとの間の距離が離れている場合には、画像形成装置１からユーザーへの応答又は通知は、音声以外の方法で行ってもよい。例えば、メールや、ポップアップメッセージ、バナー通知などを介して、文字によって行ってもよい。

画像形成装置１と、携帯端末装置を所持したユーザーとの間の距離が離れているか否かの判定は、携帯端末装置を用いた画像形成装置１へのログイン時の位置情報等に基づいて、音声処理サーバー３が行うことができる。ログイン時の位置情報としては、画像形成装置１の位置情報、又は、携帯端末装置の位置情報を用いることができる。

ただし、携帯端末装置の位置情報の精度は、数十メートルの範囲の誤差を含むものであるため、携帯端末装置の位置情報を用いる場合には、携帯端末装置を所持したユーザーとの間の距離が離れているか否かについて誤判定が行われる可能性が高くなる。したがって、画像形成装置１の位置情報を用いた判定を行うことが難しい場合には、画像形成装置１の音声出力部１５から出力された所定の音又は音声を携帯端末装置が検知できるか否かの情報に基づいて、画像形成装置１及び携帯端末装置間の距離が近いか否かを、音声処理サーバー３が判定してもよい。

音声処理サーバー３は、音声入出力装置２から送信された音声情報が、画像形成装置１の音声出力部１５から出力された所定の音又は音声に対応する音声情報であった場合、画像形成装置１及び携帯端末装置間の距離が近いと判断する。そして、音声処理サーバー３は、画像形成装置１に対して、音声応答が可能である旨を通知する。音声処理サーバー３がこのような処理を行うことにより、音声入出力装置２として携帯端末装置が用いられる場合においても、ユーザーは画像形成装置１を音声操作することが可能となる。

また、上述した各実施形態では、音声応答処理部１４を画像形成装置１内に設ける例を挙げたが、本発明はこれに限定されない。音声応答処理部１４を音声処理サーバー３上に設けてもよい。

１…画像形成装置、２…音声入出力装置、３…音声処理サーバー、１１…通信部、１２…制御部、１３…画像形成部、１４…音声応答処理部、１５…音声出力部、１６…操作表示部、３１…制御部、３２…通信部、３３…音声解析部、１００…画像処理システム

Claims

記録材に画像を形成する画像形成部と、
前記画像形成部が実行するジョブに関する指示として入力された音声を音声情報に変換して出力するとともに、入力された音声情報に対応する音声を放音する音声入出力部と、
前記音声入出力部から入力される前記音声情報に対して音声解析処理を行い、前記音声解析処理の結果と予め対応付けられた前記ジョブに関する指示を出力する音声処理部と、
前記ジョブを前記画像形成部に実行させる制御を行う制御部と、
前記制御部から入力される指示に対応する音声情報を生成する音声情報処理部と、
前記音声情報処理部から入力される前記音声情報に対応する音声を放音する音声出力部と、を備え、
前記音声処理部は、前記指示に対する応答情報が前記制御部から入力された場合に、前記応答情報に対応する音声情報を前記音声入出力部に出力し、
前記制御部は、前記画像形成部による前記ジョブの開始後に、前記画像形成部での処理に関する通知の指示を前記音声情報処理部に出力する
画像処理システム。
前記音声処理部は、前記制御部から、前記ジョブの開始指示への応答情報が送信された場合に、音声による応答を行う部が前記音声入出力部から前記音声出力部に切り替わることを通知する音声情報を、前記音声入出力部に出力する
請求項１に記載の画像処理システム。
前記制御部は、前記音声処理部から前記ジョブの開始指示が入力された場合に、音声による応答を行う部が前記音声入出力部から前記音声出力部に切り替わることを通知する音声情報を、前記音声出力部に出力する
請求項１に記載の画像処理システム。
文字又は画像を表示する表示部をさらに備え、
前記制御部は、前記音声入出力部に音声が入力される前、又は、前記音声入出力部に音声が入力された時に、前記ジョブの開始後に音声による応答を行う部が前記音声入出力部から前記音声出力部に切り替わることを通知するメッセージを、前記表示部の画面に表示させる制御を行う
請求項１に記載の画像処理システム。
ユーザーによる操作が入力される操作入力部をさらに備え、
前記制御部は、前記操作入力部への操作を検知した場合、前記音声出力部に所定の通知音又は通知音声を出力させ、
前記音声処理部は、前記音声入出力部から前記通知音又は前記通知音声の音声データが送信された場合、指示の方法が音声入出力部への発話による音声操作から、前記操作入力部に対する手動操作に切り替わることの確認に対応する音声情報を、前記音声入出力部に出力する
請求項１に記載の画像処理システム。
前記音声入出力部は、ユーザーに所持される携帯端末装置であり、
前記音声処理部は、前記携帯端末装置と前記音声出力部との間の距離が所定以上に離れていると判定した場合、前記制御部に対して、前記画像形成部での処理に関する応答を、前記携帯端末装置の画面を介して文字によって前記ユーザーに通知させる制御を行う
請求項１に記載の画像処理システム。
前記音声処理部は、前記制御部に対して、前記音声出力部に所定の音又は音声を出力させる指示を行い、前記所定の音又は音声に対応する音声情報が前記音声入出力部から送信された場合に、前記携帯端末装置と前記音声出力部との間の距離は所定の範囲内であると判定する
請求項６に記載の画像処理システム。
記録材に画像を形成する画像形成部と、
前記画像形成部が実行するジョブに関する指示として入力された音声を音声情報に変換して出力するとともに、入力された音声情報に対応する音声を放音する音声入出力部と、
前記音声入出力部から入力される前記音声情報に対して音声解析処理を行い、前記音声解析処理の結果と予め対応付けられた前記ジョブに関する指示を出力する音声処理部と、
前記ジョブを前記画像形成部に実行させる制御を行う制御部と、
前記制御部から入力される指示に対応する音声情報を生成する音声情報処理部と、
前記音声情報処理部から入力される前記音声情報に対応する音声を放音する音声出力部と、を備えた画像処理システムにおける音声応答処理方法であって、
前記音声処理部が、前記指示に対する応答情報が前記制御部から入力された場合に、前記応答情報に対応する音声情報を前記音声入出力部に出力する手順と、
前記制御部が、前記画像形成部による前記ジョブの開始後に、前記画像形成部での処理に関する通知の指示を前記音声情報処理部に出力する手順と、を含む
音声応答処理方法。
記録材に画像を形成する画像形成部と、
前記画像形成部が実行するジョブに関する指示として入力された音声を音声情報に変換して出力するとともに、入力された音声情報に対応する音声を放音する音声入出力部と、
前記音声入出力部から入力される前記音声情報に対して音声解析処理を行い、前記音声解析処理の結果と予め対応付けられた前記ジョブに関する指示を出力する音声処理部と、
前記ジョブを前記画像形成部に実行させる制御を行う制御部と、
前記制御部から入力される指示に対応する音声情報を生成する音声情報処理部と、
前記音声情報処理部から入力される前記音声情報に対応する音声を放音する音声出力部と、を備えたコンピュータに実行させるプログラムであって、
前記音声処理部が、前記指示に対する応答情報が前記制御部から入力された場合に、前記応答情報に対応する音声情報を前記音声入出力部に出力する手順と、
前記制御部が、前記画像形成部による前記ジョブの開始後に、前記画像形成部での処理に関する通知の指示を前記音声情報処理部に出力する手順と、を含む
プログラム。