以下、本発明の実施形態を図面に基づいて説明する。
<1−1.システム概要>
図1は、操作案内システム1の構成を示す概略図である。
図1に示すように、操作案内システム1は、画像形成装置10と案内サーバ50とサポータ端末70とを備えて形成されている。ここでは、画像形成装置10として、MFP(マルチ・ファンクション・ペリフェラル(Multi-Functional Peripheral))が例示される。
操作案内システム1における各要素10,50,70とは、ネットワーク108を介して互いに通信可能に接続される。なお、ネットワーク108は、LAN、WAN、インターネットなどによって構成される。また、ネットワーク108への接続形態は、有線接続であってもよく或いは無線接続であってもよい。
操作案内システム1は、MFP(画像形成装置)10の操作案内を行うシステムである。MFP10のユーザ101からの依頼に応じて、サポータ102(ユーザ101を支援する人物)は、サポータ端末70を用いて当該ユーザ101に対して操作案内を行う。
MFP10とサポータ端末70との間においては、画像データ300およびユーザ音声データ400(ユーザにより発せられた音声のデータ)に関する通信が案内サーバ50を介して行われる。案内サーバ50は、画像および音声の伝送に関して、MFP10とサポータ端末70とを媒介する機能を有している。
サポータ端末70には、案内サーバ50を介したMFP10からの画像データ300に基づいて、MFP10の操作画面と同様の画面が表示される。これにより、サポータ102は、ユーザ101が見ている画面と同様の画面を見ながら、ユーザ101に対する操作案内を行うことができる。また、MFP10のマイクロホン18を介して入力されたユーザ101の音声は、案内サーバ50を介してサポータ端末70に送信される。これにより、サポータ102は、ユーザ101の音声を聞きながら、ユーザ101に対する操作案内を行うことができる。
ただし、案内サーバ50は、画像(詳細には、MFP10の操作案内画面)に関する変換処理を行う。たとえば、後述するように、案内サーバ50は、MFP10から送信されてきた(当該MFP10の)操作案内画面に秘匿ワード110(機密情報)が含まれる場合には、当該秘匿ワード110を適宜の代替ワード210に変換した画像を生成する。そして、案内サーバ50は、変換後の当該画像をサポータ端末70における表示用画像としてサポータ端末70に送信する。サポータ端末70では変換後の当該画像が操作案内用の画面として表示される。これによれば、操作案内用の画像から機密情報が漏洩することを回避することが可能である。
さらに、案内サーバ50は、音声に関する変換処理をも行う。たとえば、後述するように、案内サーバ50は、MFP10から送信されてきたユーザ音声に秘匿ワード110(機密情報)が含まれる場合には、当該秘匿ワード110を適宜の代替ワード210に変換した音声データを生成して、当該変換後の音声データをサポータ端末70に送信する。サポータ端末70では変換後の当該音声データに基づく音声が出力される。これによれば、ユーザ101の音声から機密情報が漏洩することを回避することが可能である。
以下、このような操作案内システムについて詳細に説明する。
<1−2.MFPの構成>
図2は、MFP10の概略構成を示す機能ブロック図である。MFP10は、スキャン機能、コピー機能、ファクシミリ機能およびボックス格納機能などを備える装置(複合機とも称する)である。MFPは、複数の動作モード(具体的には、コピーモード、スキャンモード、ファクシミリ送信モード、ボックスモード)を有しており、各モードにおいて対応機能の動作が実行される。
図2の機能ブロック図に示すように、このMFP10は、画像読取部2、印刷出力部3、通信部4、格納部5、操作部6、コントローラ9、スピーカ17およびマイクロホン18等を備えており、これらの各部を複合的に動作させることによって、各種の機能を実現する。なお、MFP10は、画像形成装置あるいは印刷出力装置などとも表現される。
画像読取部2は、MFP10の所定の位置に載置された原稿を光学的に読み取って(すなわちスキャンして)、当該原稿の画像データ(原稿画像ないしスキャン画像とも称する)を生成する処理部である。この画像読取部2は、スキャン部であるとも称される。
印刷出力部3は、印刷対象に関するデータに基づいて紙などの各種の媒体に画像を印刷出力する出力部である。なお、印刷出力部3は、各種の媒体上に画像を形成する画像形成部とも称される。
通信部4は、公衆回線等を介したファクシミリ通信を行うことが可能な処理部である。さらに、通信部4は、ネットワーク108を介したネットワーク通信が可能である。このネットワーク通信では、TCP/IP(Transmission Control Protocol / Internet Protocol)およびFTP(File Transfer Protocol)等の各種のプロトコルが利用される。当該ネットワーク通信を利用することによって、MFP10は、所望の相手先との間で各種のデータを授受することが可能である。通信部4は、各種データを送信する送信部4aと各種データを受信する受信部4bとを有する。
格納部5は、ハードディスクドライブ(HDD)等の記憶装置で構成される。また、格納部5には、各ユーザ向けに複数のボックス(フォルダ)が設けられており、各ボックスには、電子文書データ(文書ファイル)等が保存される。
操作部6は、MFP10に対する入力を受け付ける操作入力部6aと、各種情報の表示出力を行う表示部6bとを備えている。詳細には、MFP10には操作パネル6c(図1参照)が設けられている。この操作パネル(タッチスクリーン)6cは、その正面側にタッチパネル25を有している。タッチパネル25は、液晶表示パネルに圧電センサ等が埋め込まれて構成され、各種情報を表示するとともに操作者からの操作入力を受け付けることが可能である。タッチパネル25は、操作入力部6aの一部としても機能するとともに、表示部6bの一部としても機能する。
コントローラ9は、MFP10に内蔵され、MFP10を統括的に制御する制御装置である。コントローラ9は、CPUおよび各種の半導体メモリ(RAMおよびROM)等を備えるコンピュータシステムとして構成される。コントローラ9は、CPUにおいて、ROM(例えば、EEPROM)内に格納されている所定のソフトウエアプログラム(以下、単にプログラムとも称する)を実行することによって、各種の処理部を実現する。なお、当該プログラムは、USBメモリなどの可搬性の記録媒体、あるいはネットワーク等を介してMFP10にインストールされるようにしてもよい。
図2に示すように、コントローラ9は、通信制御部11と入力制御部12と表示制御部13と格納制御部14とを含む各種の処理部を実現する。
通信制御部11は、他の装置(案内サーバ50等)との間の通信動作を制御する処理部である。たとえば、通信制御部11は、通信部4等と協働して、案内サーバ50からの各種指令を受信する。
入力制御部12は、操作入力部6aに対する操作入力動作を制御する制御部である。たとえば、入力制御部12は、操作画面に対する操作入力を受け付ける動作を制御する。
表示制御部13は、表示部6bにおける表示動作を制御する処理部である。たとえば、表示制御部13は、MFP10を操作するための操作画面等を表示部6bに表示させる。
格納制御部14は、格納ジョブに関するデータ格納処理等を制御する処理部である。
スピーカ17は、音声データに基づき音を発する装置である。また、スピーカ17は、MFP10に内蔵されるものであってもよく、MFP10に対して端子を介して取り付けられるものであってもよい。
マイクロホン18は、ユーザの音声等を電気信号(アナログ信号)に変換する装置である。また、マイクロホン18は、MFP10に内蔵されるものであってもよく、MFP10に対して端子を介して取り付けられるものであってもよい。なお、電気信号(アナログ信号)はコントローラ9によってデジタルデータ化(音声データに変換)される。
<1−3.案内サーバの構成>
図3は、案内サーバ50の概略構成を示す機能ブロック図である。
案内サーバ50は、MFP10の操作案内に関して、MFP10とサポータ端末70とを媒介(ないし中継)する装置である。
また、案内サーバ50は、CPUおよび各種の半導体メモリ(RAMおよびROM等)等を備えるコンピュータシステムとして構成される。処理制御部60は、CPUにおいて、ROM(たとえば、EEPROM等)内に格納されている所定のソフトウエアプログラムを実行することによって、各種の処理部を実現する。なお、当該プログラムは、USBメモリなどの可搬性の記録媒体、あるいはネットワーク等を介して案内サーバ50にインストールされるようにしてもよい。
具体的には、案内サーバ50は、当該プログラムの実行に伴って、画像処理部60a、音声処理部60bおよび通信制御部67を含む各種の処理部を実現する。
画像処理部60aは、受信した画像データの各種画像処理を行う処理部である。
図3に示すように、画像処理部60aは、画像生成部61を有する。画像生成部61は、操作画面に関する画像合成処理(画像生成処理)を行う。
音声処理部60bは、受信した音声データの各種音声処理を行う処理部である。
図3に示すように、音声処理部60bは、音声認識部64と音声生成部65とを有する。音声認識部64は、受信した音声データ等に対する音声認識処理を行う。また、音声生成部65は、受信した音声データ等を加工して音声合成処理(機械音声生成処理)を行う。
通信制御部67は、通信部54と協働して、通信相手先(たとえば、MFP10)との間のデータの送受信動作を制御する処理部である。
案内サーバ50の格納部55は、ハードディスクドライブ(HDD)等の記憶装置で構成される。
また、案内サーバ50は、通信部54をさらに備えている。
通信部54は、ネットワーク108を介したネットワーク通信が可能である。このネットワーク通信では、TCP/IP(Transmission Control Protocol / Internet Protocol)およびFTP(File Transfer Protocol)等の各種のプロトコルが利用される。当該ネットワーク通信を利用することによって、案内サーバ50は、所望の相手先との間で各種のデータを授受することが可能である。通信部44は、各種データを送信する送信部54aと各種データを受信する受信部54bとを有する。送信部54aは、画像データの送信を行う画像送信部と音声データの送信を行う音声送信部とを有し、受信部54bは、画像データの受信を行う画像受信部と音声データの受信を行う音声受信部とを有する。
<1−4.サポータ端末の構成>
図4は、サポータ端末70の概略構成を示す機能ブロック図である。
サポータ端末70は、いわゆるパーソナルコンピュータとして構成される。また、サポータ端末70は、サポータにより操作され、ユーザへの案内に利用される補助装置である。
サポータ端末70は、操作部76を備えている。操作部76は、サポータ端末70に対する操作入力を受け付ける操作入力部76aと、各種データの表示出力を行う表示部76bとを有している。また、サポータ端末70は、MFP10を遠隔操作することが可能であり、表示部76bには、MFP10の表示部6bに対応する表示画面が表示される。
また、サポータ端末70は、CPUおよび半導体メモリ等を備えている。サポータ端末70は、そのCPUにおいて、所定のソフトウエアプログラムを実行することによって、各種の処理部を実現する。具体的には、図4に示されるように、サポータ端末70は、通信制御部71および入力制御部72等の各種処理部を実現する。
通信制御部71は、通信部74と協働して、通信宛先(たとえば、案内サーバ50等)との間のデータの送受信動作を制御する処理部である。
入力制御部72は、操作入力部76aに対する操作入力動作を制御する制御部である。
スピーカ77は、案内サーバ50等からの音声データに基づき音を発する装置である。また、スピーカ77は、サポータ端末70に内蔵されるものであってもよく、サポータ端末70に対して端子を介して取り付けられるものであってもよい。
マイクロホン78は、ユーザの音声等を電気信号(アナログ信号)に変換する装置である。また、マイクロホン78は、MFP10に内蔵されるものであってもよく、MFP10に対して外部接続により取り付けられるものであってもよい。なお、電気信号(アナログ信号)はコントローラ9によってデジタルデータ化(音声データに変換)される。
<1−5.動作>
つぎに、第1実施形態に係る操作案内システム1の動作について図5〜図11を参照しながら説明する。
図5は、操作案内システム1の動作を示す図である。案内サーバ50は、MFP10から画像データ300(表示画像データ300)を受信する。そして、当該画像データ301に秘匿ワード110(後述)が含まれる場合には、案内サーバ50は、画像処理(画像変換処理等)により合成画像データ350を生成し、合成画像データ350をサポータ端末70に送信する。また、案内サーバ50は、MFP10からユーザ音声データ400を受信する。当該ユーザ音声データ400に秘匿ワード110が含まれる場合には、案内サーバ50は、音声処理により合成音声データ450(合成ユーザ音声データ450)を生成し、合成音声データ450をサポータ端末70に送信する。
これにより、画像データ300(301)およびユーザ音声データ400に含まれる秘匿ワード110がサポータ102に漏洩することを回避することが可能である。
図6を参照して画像処理および音声処理についてより詳細に説明する。図6は、第1実施形態に係る画像データおよび音声データに関するタイミングを示す図である。
MFP10は、タッチパネル25に表示された画像データ300(301)を案内サーバ50に送信する。また、MFP10は、ユーザ101により発せられた音声のデータを含むユーザ音声データ400を案内サーバ50に送信する。
案内サーバ50は、MFP10から画像データ301を受信すると、画像処理(後述)により合成画像データ350(351)を生成し、サポータ端末70に送信する。また、案内サーバ50は、ユーザ音声データ400の一部である部分音声データ430(後述)を抽出する。そして、案内サーバ50は、音声処理(後述)により合成音声データ450(451)を生成し、サポータ端末70に送信する。
サポータ端末70は、案内サーバ50から合成画像データ351を受信すると、表示部76bに表示する。また、サポータ端末70は、案内サーバ50から合成音声データ451を受信すると、合成音声データ451を出力(再生)する。
以下において、このような第1実施形態に係る画像処理および音声処理について、より具体的に説明する。
まず、画像処理に関して、図7等を参照して説明する。図7は、第1実施形態における案内サーバ50の動作を示す図である。図7では、MFP10を操作している或るユーザ101が、MFP10のスキャン機能に関する操作方法についてサポートセンターに問い合わせを行う状況を想定する。
図7に示すように、ユーザ101が、MFP10のタッチパネル25に表示された表示画像のデータである表示画像データ301を見ながら、サポートセンターに対してサポート依頼の問い合わせを行う。具体的には、ユーザ101が、スキャン画像送信における宛先指定画面を見ながら、MFP10の操作パネル6cに配設されたヘルプボタン(不図示)を押下する。ヘルプボタンがユーザ101により押下されると、MFP10(具体的には、送信部4a)は、ユーザ101からの操作案内の発生を示すサポート依頼の信号を案内サーバ50へと送信する。
図8は、当該サポート依頼の信号が案内サーバ50により受信された後の画像処理に関する動作を示すフローチャートである。
案内サーバ50の受信部54bがMFP10からのサポート依頼の信号を受信すると、案内サーバ50の送信部54aはサポータ端末70へとサポート依頼の信号を送信する(ステップS11)。
その後、サポータ102がサポータ端末70の案内開始ボタン(不図示)を押下すると、操作案内を開始すべき旨の信号(開始信号)がサポータ端末70から案内サーバ50へと送信され、案内サーバ50は当該操作案内の開始信号をMFP10に送信する。これにより、MFP10とサポータ端末70とは操作案内モードに遷移する。
操作案内の開始信号を受信したMFP10(具体的には、送信部4a)は、タッチパネル25に表示中の画像データ301を案内サーバ50に送信し、案内サーバ50(具体的には、受信部54b)はMFP10から画像データ301を受信する(ステップS12)。そして、案内サーバ50(具体的には、画像生成部61)は、画像データ301に秘匿ワード110(後述)が含まれるか否かを判定する(ステップS13)。より詳細には、画像生成部61は、画像データ301に対するOCR処理によって文字認識を行い、秘匿ワード110が含まれるか否かを判定する。
画像データ301の受信に際して、案内サーバ50は、画像データ301に含まれる秘匿ワード110のリストである秘匿ワードリスト601(図9参照)をもMFP10から受信する。秘匿ワードリスト601には、宛先指定画面(画像データ301)に含まれる宛先が秘匿ワード110として抽出され、登録されている。そして、案内サーバ50は、当該秘匿ワードリスト601に基づいて変換辞書651を生成する。生成された変換辞書651には、秘匿ワード110と、当該秘匿ワード110に対応する代替ワード210とが登録されている。
変換辞書651について、具体的には、「長谷不動産」(111(110))、「高橋電器」(112(110))および「松原工務店」(113(110))が秘匿ワード110として登録されている。さらに、秘匿ワード111「長谷不動産」に対応する代替ワード211(210)として「ABC」が登録され、秘匿ワード112「高橋電器」に対応する代替ワード212(210)として「DEF」が登録され、秘匿ワード113「松原工務店」に対応する代替ワード213(210)として「GHIJ」が登録されている。各代替ワード210は、案内サーバ50によって自動的に生成される。
ここにおいて、秘匿ワード110は、ユーザの秘匿すべき情報等を示す語句(ワード)である。また、本実施形態においては、タッチパネル25に表示中の画像データ301に含まれる秘匿すべきワード(より詳細には、スキャン画像送信における宛先指定画面の送信宛先)が秘匿ワード110として案内サーバ50により決定される。
秘匿ワード110が画像データ301に含まれる旨がステップS13において判定される場合には、案内サーバ50は、変換辞書651に基づいて、当該秘匿ワード110を、当該秘匿ワード110に対応する代替ワード210に置き換えた合成画像のデータである合成画像データ351を生成する(ステップS14)。合成画像データ351が生成されると、案内サーバ50は、当該合成画像データ351をサポータ端末70での表示用データとしてサポータ端末70に送信する(ステップS15)。合成画像データ351を受信したサポータ端末70の表示部76bには、画像データ301に代えて合成画像データ351が表示される(図7参照)。
一方、画像データ301に秘匿ワード110が含まれない旨が判定される場合には、案内サーバ50は、ステップS14の処理を行わず、ステップS15では、画像データ301がそのまま合成画像データ351として利用される。すなわち、画像データ301がサポータ端末70に送信されて、表示部76bに画像データ301がそのまま表示される。
つぎに、音声処理に関して説明する。
MFP10は、操作案内の開始信号を受信すると、ユーザ音声データ400の送信を開始する。
図7では、ユーザ101が、MFP10のタッチパネル25に表示中の画像データ301を見ながら、MFP10に対して「ファイルをスキャンして長谷不動産に送りたいのです。」との音声を発した状況が想定される。
ユーザ101により発せられた音声が、マイクロホン18を介してMFP10に入力されると、MFP10は、当該音声のデータであるユーザ音声データ400を案内サーバ50に送信する。ここにおいて、ユーザ音声データ400は、リアルタイムで(随時)案内サーバ50に送信されている。
当該ユーザ音声データ400が案内サーバ50により受信された後の動作を図10のフローチャートを参照して説明する。案内サーバ50(具体的には、受信部54b)がユーザ音声データ400を受信すると(ステップS20)、音声認識部64は、ユーザ音声データ400に非無音部分が存在するか否かを判定する(ステップS21)。非無音部分が存在していることが判定されると、つぎに音声認識部64は、ユーザ音声データ400に所定時間以上の無音部分が存在するか否かを判定する(ステップS22)。
ユーザ音声データ400に所定時間以上の無音部分が存在していることが判定される場合に、音声認識部64は、ユーザ音声データ400の一部の音声データである部分音声データ430を抽出する(ステップS23)。換言すれば、ユーザ音声データ400のうち、所定時間の無音状態が経過した時点を終端とするように区分した部分音声データが部分音声データ430として抽出される。
ここにおいて、部分音声データ430は、ユーザ音声データ400のうち、非無音部分の開始時点と、当該非無音部分の終端時点から所定時間の無音状態が経過した時点とに挟まれた区間(期間)の音声データである。ユーザ音声データ400には無音部分と非無音部分とが存在し、ユーザ音声データ400は当該無音部分等によって複数の部分音声データ430に区分される。
なお、当該無音部分の存否判定のための所定時間は、比較的短い期間(たとえば0.5秒)に設定されることが好ましい。当該無音部分の所定時間が比較的短い期間に設定されることによれば、部分音声データ430も比較的短い期間のデータとして音声認識部64により抽出される。その結果、部分音声データ430に対応する合成音声データ450のサポータ端末70への送信遅延を抑制することが可能である(後述)。
部分音声データ430がステップS23において抽出されると、案内サーバ50(具体的には、音声生成部65)は、部分音声データ430に対する音声認識処理によって、当該部分音声データ430に秘匿ワード110が含まれるか否かを判定する(ステップS24)。
部分音声データ430内に秘匿ワード110が含まれる旨が音声認識部64によって判定される場合には、音声生成部65は、変換辞書651(図9参照)に基づいて、秘匿ワード110に対応する代替ワード210の音声データである代替音声データ250を生成する(ステップS25)。
より詳細には、ステップS24では、音声生成部65は、ユーザ101により発せられた部分音声データ430に秘匿ワード111「長谷不動産」が含まれる旨を、変換辞書651に基づいて判定する。そして、この判定に応じて、ステップS25では、音声生成部65は、秘匿ワード111「長谷不動産」に対応する代替ワード211「ABC」の代替音声データ250(251)を機械音声生成処理により生成する。なお、代替音声データ250は、人間の声を模して人工的に生成された音声データ(機械音声データ)である。
代替音声データ251がステップS25において生成されると、音声生成部65は、部分音声データ430内の秘匿ワード110の音声データである秘匿音声データ150(151を)、当該代替音声データ251に置き換えたデータである合成音声データ450(451)を生成する(ステップS26)。そして、案内サーバ50は、合成音声データ450をサポータ端末70での音声出力用データとしてサポータ端末70に送信する(ステップS27)。なお、秘匿音声データ150は、MFP10において録音されたユーザ101の音声(秘匿ワード110に対応する音声)の音声データ(録音音声データ)である。
一方、部分音声データ430に秘匿ワード110が含まれない旨が判定される場合には、音声生成部65は、ステップS25およびS26の処理を行わず、部分音声データ430をそのまま合成音声データ450として利用する。すなわち、部分音声データ430がサポータ端末70に送信されて、部分音声データ430がそのまま出力される。
合成音声データ450(451)を受信したサポータ端末70は、スピーカ77を介して、部分音声データ430に代えて合成音声データ450(451)を出力する。具体的には、サポータ端末70において、ユーザ101の発した音声のうち、「ファイルをスキャンして」および「に送りたいのです。」は、ユーザ101の発した音声により出力され、秘匿ワード111である「長谷不動産」は、代替音声データ251による「ABC」に変更されて出力される。
図11は、合成音声データ451の生成に関する音声処理を示す図である。図11において、ユーザ101により発せられた音声である「ファイルをスキャンして長谷不動産に送りたいのです。」の部分音声データ431(430)には、秘匿ワード111「長谷不動産」が含まれる。この場合において、音声生成部65は、部分音声データ431に含まれる秘匿ワード111「長谷不動産」の秘匿音声データ150(151)を、秘匿ワード111に対応する代替ワード211「ABC」の代替音声データ250(251)に置き換えて、合成音声データ451(450)を生成する。換言すると、音声生成部65は、部分音声データ430(431)のうち秘匿ワード111を除いた部分の音声データと、代替音声データ250(251)とを合成して合成音声データ450(451)を生成する。
以上のような動作によれば、ユーザ101により操作されるMFP10の表示画面内に秘匿ワード110が含まれる場合に、秘匿ワード110を代替ワード210に置き換えた合成画像データ350(351)がサポータ端末70に送信されるので、当該秘匿ワード110がサポータ端末70の表示部76bに表示されない。したがって、ユーザ101により操作されるMFP10の表示画面内に含まれる機密情報の漏洩を回避することが可能である。
また、特に、ユーザ101の発した音声の部分音声データ430内に秘匿ワード110が含まれる旨が判定される場合に、部分音声データ430(431)内の秘匿音声データ150(151)を代替音声データ251に置き換えた合成音声データ450(451)がサポータ端末70に送信される。したがって、ユーザ101により発せられた秘匿ワード110の音声がサポータ端末70へとそのまま送信されない。その結果、ユーザ101の音声に含まれる機密情報の漏洩を回避することが可能である。
また、仮に、ユーザ101により発せられた音声のユーザ音声データ400から部分音声データ430を抽出しない場合には、ユーザ音声データ400の長さ(ユーザ101の音声の時間)が大きくなり、サポータ端末70への合成音声データ450の送信が大きく遅延する。一方、第1実施形態においては、ユーザ101の発した音声のユーザ音声データ400が比較的短い期間で区切られ、ユーザ音声データ400から複数の部分音声データ430が順次に抽出され、当該複数の部分音声データ430がサポータ端末70に順次に送信される。すなわち、部分音声データ430に対応する合成音声データ450は、ユーザ音声データ400のうち部分音声データ430の次の部分に対する処理の終了を待つことなく、比較的早期にサポータ端末70に送信され得る。したがって、サポータ端末70への音声データの送信の遅延を抑制することが可能である。
<第2実施形態>
第2実施形態は、第1実施形態の変形例である。以下では、第1実施形態との相違点を中心に説明する。
第1実施形態においては、画像生成部61による合成画像データ351の生成が完了した直後に、合成音声データ451の送信タイミングを考慮することなく、当該合成画像データ350が案内サーバ50からサポータ端末70に送信される。そのため、図12に示すような問題が生じ得る。
図12においては、ユーザ101による発声中(詳細には部分音声データ430の生成中(録音中))に、ユーザ101の操作に応じて、MFP10のタッチパネル25の表示画像が画像データ301に基づく画像から画像データ302(後述)に基づく画像へと切り替えられている。たとえば、ユーザ101が画像データ301に基づく画像を見ながら喋っているにもかかわらず、喋っている途中で先回りして操作画面を切り換える操作をも行うような状況が想定される。
また、図12においては、画像データ302に関する合成画像データ352の生成が完了した直後に、合成音声データ451の送信タイミングとの関係を考慮することなく、合成画像データ352が案内サーバ50からサポータ端末70に送信されている。そして、この送信動作に応じて、サポータ端末70における表示画像は、合成画像データ351に基づく画像から合成画像データ352に基づく画像へと変更される。さらに、当該表示画像の変更後(換言すれば、新たな合成画像データ352に基づく画像の表示中)において、部分音声データ430に対応する合成音声データ451がサポータ端末70にて出力される。
その結果、元の画像データ301に基づく画像を見ながら発せられた音声に対応する合成音声データ451が、本来は合成画像データ351の表示中に出力されるべきであるにもかかわらず、合成画像データ352(画像データ301の次の画像データ302に対応する合成画像データ)の表示中に出力される。このような画像と音声との「ずれ」に起因して、サポータ102の混乱が生じる可能性がある。
なお、画像データ302は、表示画像データ301に基づく表示画像に引き続いてMFP10のタッチパネル25に表示された表示画像の画像データである。
第2実施形態では、このような問題に鑑みて、合成音声データ451の送信完了後の所定時点まで(詳細には、合成音声データ451の送信完了から合成音声データ451の出力所要時間が経過する時点まで)、合成画像データ352の送信を停止させる態様を例示する。
図13は、第2実施形態に係る画像データ300および部分音声データ430の送信タイミング等を示すタイミングチャートである。
第2実施形態では、ユーザ101による発声中(詳細には、部分音声データ430の生成中)に、ユーザ101が先回りして操作画面の切換操作を行い、ユーザ101の操作に応じて、MFP10のタッチパネル25の表示画像が画像データ301に基づく画像から画像データ302に基づく画像へと切り替えられた状況を想定する。また、部分音声データ430は、画像データ301の表示中にユーザ101により発せられた音声をその冒頭部分等に含む音声データである。以下、音声処理および画像処理に関して順次に説明する。
まず、音声処理に関して、図14を参照し、図10と比較しながら説明する。図14は、第2実施形態に係るユーザ音声データ400の音声処理等を示すフローチャートである。
図14においては、ステップS21とステップS22との間にステップS41が設けられ、ステップS27の後にステップS42とステップS43とが設けられている。具体的には、案内サーバ50は、非無音部分がユーザ音声データ400内に存在する旨が音声認識部64により判定されると(ステップS21)、停止フラグFGをオン(ON)に変更する(ステップS41)。
ここにおいて、停止フラグFGは、格納部55に格納されるフラグ情報であり、音声認識部64あるいは音声生成部65により制御される。停止フラグFGは、オン(ON)またはオフ(OFF)に設定(変更)される。案内サーバ50の送信部54aは、当該停止フラグFGがONであるかOFFであるかによって画像の送信を行うか否かを決定する。停止フラグFGがONであれば、送信部54aは画像を送信しない。停止フラグFGがOFFであれば、送信部54aは画像を送信する。
この停止フラグFGがONに変更された後、案内サーバ50は、図10と同様に、ステップS22〜S27の各処理を実行する。これにより、部分音声データ430に対応する合成音声データ450がサポータ端末70に送信される。
案内サーバ50がサポータ端末70に合成音声データ450を送信すると、サポータ端末70は合成音声データ450を出力する。そして、案内サーバ50による合成音声データ450の送信完了から合成音声データ450の出力所要時間が経過すると(ステップS42)、案内サーバ50は停止フラグFGをOFFに変更する(ステップS43)。
なお、出力所要時間(再生所要時間)は、合成音声データ450の出力(再生)に要する時間である。当該出力所要時間は、部分音声データ430(合成音声データ450)の録音時間であるとも表現される。出力所要時間は、音声認識部64によって取得されればよい。ただし、これに限定されず、合成音声データ450の生成中に音声生成部65が出力所要時間を算出してもよい。あるいは、合成音声データ450の出力が終了した旨の信号をサポータ端末70が案内サーバ50に送信し、当該出力所要時間が経過したことがサポータ端末70から案内サーバ50に通知されるようにしてもよい。
このようにして、合成音声データ450が案内サーバ50からサポータ端末70に送信され、サポータ端末70にて合成音声データ450が出力される。ユーザ音声データ400における非無音部分の検出時点(部分音声データ430(431)の開始時点)と、当該部分音声データ430(431)に対応する合成音声データ450(451)の送信完了から当該合成音声データ450(451)の出力所要時間(再生所要時間)が経過した時点との間の期間T1(図13参照)においては、停止フラグFGはオン(ON)に設定される。一方、それ以外の期間(たとえばユーザ音声データ400における無音部分(部分音声データ430ではないと判定される部分)の受信期間)においては、停止フラグFGはオフ(OFF)に設定される。
つぎに、画像処理に関して、図15を参照し、図8と比較しながら説明する。図15は、第2実施形態に係る画像処理等を示すフローチャートである。以下では、図15を参照しながら、画像データ301の次の画像データ302に関する画像処理について説明する。画像データ301に関する画像処理は、第1実施形態と同様の動作(図8参照)により既に終了しているものとする。
図15に示すように、ステップS32〜S35の各処理は、図8におけるステップS12〜S15の各処理と同様である。なお、サポート依頼の信号の送受信動作は画像データ301の送信前に既に終了しているので、図8のステップS11の処理は図15においては記載されていない。
図15では、ステップS34とステップS35との間にステップS36が設けられている。ステップS36では、画像生成部61により生成された合成画像データ352をサポータ端末70に送信する前に、案内サーバ50(具体的には、送信部54a)が、図14の音声処理にて設定された停止フラグFGの値(ONであるかOFFであるか)を認識する。
停止フラグFGがOFFであると認識される場合には、案内サーバ50は、合成画像データ352の送信を許可し、合成画像データ352をサポータ端末70に送信する(ステップS35)。一方、停止フラグFGがONであると認識される場合には(具体的には、ステップS22〜S27,S41〜S43の処理を案内サーバ50が行っている場合には)、案内サーバ50は、合成画像データ352の送信を禁止し、合成画像データ352はサポータ端末70に送信されない。
上述のように、期間T1(図13参照)においては、停止フラグFGがオン(ON)に設定されている。そのため、図13に示すように、上述の期間T1内に新たな画像データ302を受信した案内サーバ50は、画像処理により合成画像データ352を生成するものの、期間T1内においてはサポータ端末70に合成画像データ352を送信しない。
その後、期間T1が終了し、停止フラグFGがオン(ON)からオフ(OFF)に変更されると、案内サーバ50は合成画像データ352をサポータ端末70に送信する。
このように、当該期間T1(図13参照)に、案内サーバ50が新たな画像データ302を受信する場合には、案内サーバ50(具体的には、送信部54a)は、当該期間T1の終了時点までは新たな合成画像データ352の送信を許可せず且つ当該期間T1の終了後に合成画像データ352の送信を許可する。
以上のような動作によれば、案内サーバ50は、部分音声データ430の受信が開始されると新たな合成画像データ352の送信を許可せず、合成音声データ450(451)の送信完了時点以後の所定の時点において合成画像データ352の送信を許可するので、サポータ端末70の表示部76bにおける合成画像データ351から合成画像データ352への画像の変更は、合成音声データ450の送信完了後に行われる。したがって、画像データ301を見ながら発せられたユーザ101の音声が、当該音声の伝達の遅延に起因して合成画像データ352(画像データ301の次の画像データ302に対応する画像)の表示中にサポータ端末側で出力されることを抑制あるいは回避することが可能である。
端的に言えば、サポータ端末70において、合成画像データ351に基づく画像の表示のタイミングと合成音声データ451に基づく音声の出力のタイミングとのずれを抑制あるいは回避することが可能である。その結果、サポータ102が混乱することなくユーザ101に的確な操作案内をすることが可能である。
また、特に、合成音声データ451の送信完了から当該合成音声データ451の出力所要時間(再生所要時間)が経過した時点以後において、停止フラグFGがオンからオフに変更され合成画像データ352の送信が許可されることが好ましい。これによれば、合成画像データ351に基づく画像の表示のタイミングと合成音声データ451に基づく音声の出力のタイミングとのずれを更に抑制あるいは回避することが可能である。
なお、この第2実施形態等においては、ユーザ音声データ400に所定時間以上の無音部分が存在する場合に、音声認識部64は、ユーザ音声データ400の非無音部分の開始時点から次の無音部分の開始時点までの音声データを部分音声データ430として抽出することを例示した。しかしながら、本発明は、これに限定されない。
たとえば、第2実施形態(あるいは第1実施形態)において、案内サーバ50により合成画像データ350が受信された時点を終端とするように区分した部分の音声データがユーザ音声データ400から部分音声データ430として抽出されるようにしてもよい。換言すれば、ユーザ101による操作画面の切換時点でユーザ音声データ400が区切られて、ユーザ音声データ400の一部の音声データである部分音声データ430が抽出されるようにしてもよい。
図17は、このような改変例の動作を示すフローチャートである。
図17においては、ステップS22の判定処理に加えてステップS44の判定処理も行われる。両判定処理(ステップS22,S44)のいずれかで「YES」と判定されるとステップS23に進み、部分音声データ430が抽出される。なお、ステップS44では、新たな画像データを受信したか否かが判定される。
たとえば、所定時間以上の無音部分が存在しない旨がステップS22で判定されたとしても、新たな画像データ302が受信された旨がステップS44で判定されると、ステップS23に進む。このステップS23では、音声認識部64は、ユーザ音声データ400のうち、新たな表示画像の画像データ302の受信時点を終端とするように区分した部分音声データを、部分音声データ430として抽出する。
図16は、この態様に係る動作のタイミング等を示すタイミングチャートである。
図16に示すように、MFP10において画像データ301に基づく画像を見ながら発せられたユーザ101のユーザ音声データ400は、画像データ302が案内サーバ50により受信された時点で区切られる。案内サーバ50の音声認識部64は、MFP10から送信されるユーザ音声データ400のうち、ユーザ音声データ400の非無音部分の開始時点から新たな画像データ302を受信した時点までの部分の音声データを部分音声データ431(430)として抽出する。
案内サーバ50は、当該部分音声データ431に関する合成音声データ451を生成し、合成音声データ451をサポータ端末70に送信する。そして、サポータ端末70において合成音声データ451が出力される。
一方、新たな画像データ302は、案内サーバ50による画像処理によって合成画像データ352に変更される。そして、案内サーバ50は、合成音声データ451の送信が完了してから合成音声データ451の出力所要時間が経過した後に、合成画像データ352をサポータ端末70に送信する。その後、サポータ端末70の表示部76bにおいて合成画像データ352に基づく画像が表示される。
これによれば、ユーザ101の音声が画像データ301から画像データ302への変更時点で区切られるので、比較的短い期間を有する部分音声データ431を抽出することができる。したがって、合成音声データ451のサポータ端末70への送信遅延を更に抑制することが可能である。
また、部分音声データ431には、画像データ301を閲覧しながら発せられた音声のみが含まれる(次の画像データ302を閲覧しながら発せられた音声は含まれない)。したがって、サポータ端末70において、表示される画像(合成画像データ351に基づく画像)と出力される音声(合成音声データ451に基づく音声)とのずれを更に抑制あるいは回避することが可能である。
<第3実施形態>
第3実施形態は、第1実施形態の変形例である。以下では、第1実施形態との相違点を中心に説明する。
第1実施形態においては、ユーザ101により発せられた音声のユーザ音声データ400を案内サーバ50が受信すると、音声生成部65は、当該音声に含まれる秘匿ワード110に対応する代替音声データ250(251)を生成し、当該代替音声データ250を利用して合成音声データ450(451)を生成する態様を例示した。第1実施形態においては、音声生成部65は代替音声データ250を逐次生成し、生成された代替音声データ251は格納されない。
第3実施形態では、合成音声データ450の生成に先立つ所定の時点(具体的には、サポート依頼信号を案内サーバ50が受信した時点)で、複数の秘匿ワード110に対応する複数の代替音声データ250の生成が音声生成部65により開始され、生成された代替音声データ250が案内サーバ50の格納部55に予め格納される。そして、ユーザ音声データ400に秘匿ワード110が含まれ且つ秘匿ワード110に対応する代替音声データ250が格納部55に既に格納されている場合には、格納部55に予め格納されている代替音声データ250を用いて合成音声データ450が音声生成部65により生成される。
図18は、第3実施形態に係る動作に関するタイミングを示す図であり、図19は、第3実施形態に係るユーザ101のユーザ音声データ400に対する音声処理を示すフローチャートである。図18および図19を参照して具体的に説明する。
サポートセンターに対するサポート依頼のために、ユーザ101が、MFP10の操作パネル6cに配設されたヘルプボタン(不図示)を押下すると、MFP10は、ユーザ101からの操作案内の発生を示すサポート依頼の信号を案内サーバ50に送信する。
案内サーバ50は、MFP10からサポート依頼信号を受信すると(ステップS11(図19))、複数の秘匿ワード110(後述)のリストである秘匿ワードリスト602(図20参照)をもMFP10から受信する。
当該秘匿ワードリスト602には、当該複数の秘匿ワード110が登録されている。そして、案内サーバ50は、当該秘匿ワードリスト602に基づいて変換辞書652(図20参照)を生成する。生成された変換辞書652では、秘匿ワード110と、当該秘匿ワード110にそれぞれ対応する代替ワード210とが登録されている。
ここにおいて、複数の秘匿ワード110は、MFP10のスキャン画像送信における宛先指定画面内の送信宛先を示す語句(ワード)と、MFP10のファクシミリ送信における宛先指定画面に含まれる送信宛先を示す語句と、MFP10のボックスに格納されたファイルに関する情報表示画面に表示されるファイル情報を示す語句とを含む。換言すれば、当該複数の秘匿ワード110には、複数の動作モードのそれぞれにて秘匿すべき複数の種類の語句が含まれる。ただし、秘匿ワード110は、これらの語句の全てを含むことを要さず、これらの語句の一部を含むものであってもよい。
案内サーバ50によるサポート依頼信号の受信に応答して、音声生成部65は、変換辞書652に基づいて、複数の秘匿ワード110に対応する代替音声データ250の生成を開始する(ステップS51)(図18も参照)。また、案内サーバ50は、生成した代替音声データ250を案内サーバ50の格納部55に順次に格納する(ステップS52)。
操作案内の開始信号の送受信に伴う所定の時点において、案内サーバ50は、画像データ300(301)をMFP10から受信し、変換辞書652に基づいて画像処理を行い、合成画像データ350(351)を生成する。そして、案内サーバ50は、生成した合成画像データ350(351)をサポータ端末70に送信する(図18参照)。
複数の代替音声データ250の生成中あるいは生成完了後において、案内サーバ50は、ユーザ音声データ400を受信し(ステップS20)、ステップS21〜S24の各処理を実行する(図19参照)。その後、部分音声データ430に秘匿ワード110が含まれていることがステップS24において判定されると、ステップS53に進む。
ステップS53では、秘匿ワード110に対応する代替音声データ250が案内サーバ50の格納部55に格納されているか否かが音声生成部65により判定される。
秘匿ワード110に対応する代替音声データ250が格納部55に格納されていることが判定される場合には、音声生成部65は、既に格納されている代替音声データ250(251)を格納部55から取得する(ステップS54)。そして、音声生成部65は当該代替音声データ251を用いて合成音声データ450(451)を生成し(ステップS26)、案内サーバ50は合成音声データ450をサポータ端末70に送信する(ステップS27)。
たとえば、秘匿ワード111「長谷不動産」に対応する代替音声データ251「ABC」(図20)が格納部55に格納されていることが判定される場合には、音声生成部65は、格納されている代替音声データ251「ABC」を格納部55から取得する。そして、音声生成部65は、当該代替音声データ251「ABC」を用いて合成音声データ451を生成し、案内サーバ50は合成音声データ451をサポータ端末70に送信する。合成音声データ451を受信したサポータ端末70においては、合成音声データ451に基づく音声が出力される。
一方、代替音声データ250が格納部55に格納されていないことがステップS54において判定される場合には、音声生成部65は、秘匿ワード110に対応する代替音声データ250を機械音声生成処理により生成する(ステップS25)。そして、音声生成部65は、生成した代替音声データ250を格納部55に格納し(ステップS55)、ステップS26に進む。ステップS26では、ステップS25で生成された代替音声データ250を用いて合成音声データ450が生成される。
以上のような動作によれば、ユーザ101からのサポート依頼信号を案内サーバ50が受信すると、複数の代替音声データ250の生成が開始され、生成された代替音声データ250が格納部55に予め格納される。そして、ユーザ音声データ400に秘匿ワード110が含まれ且つ代替音声データ250が既に格納部55に格納されている旨が判定される場合には、格納されている代替音声データ250(251)を用いて合成音声データ450(451)が生成される。この場合、既に存在する代替音声データ250が利用されるため、代替音声データ250(251)が新たに生成されることを要しない。したがって、たとえばユーザ音声データ400に秘匿ワード110が含まれる旨が判定された時点から代替音声データ250(251)の生成を開始する場合と比べて、代替音声データ251の準備時間が短縮され、合成音声データ451の生成に要する時間が短縮される。その結果、サポータ端末70への合成音声データ451の送信の遅延を抑制することが可能である。
また、上記第3実施形態では、MFP10における複数の動作モード(スキャンモード、ファクシミリ送信モード、ボックスモード等)で表示され得る複数の秘匿ワード110に対応する複数の代替音声データ250が順次に生成されている。上記においては、複数の代替音声データ250の生成順序については特に言及していないが、次述するような優先順序で複数の代替音声データ250が生成されるようにしてもよい。
たとえば、MFP10における複数の動作モードで表示され得る複数の秘匿ワード110のうち、ユーザ101により操作されているMFP10の現在の動作モードにて表示され得る秘匿ワード110に対応する代替音声データ250が優先的に生成されるようにしてもよい。
より具体的には、MFP10の現在の動作モードがスキャンモードであるときには、音声生成部65は、複数の秘匿ワード110のうち、スキャンモード(現モード)にて表示され得る1つまたは複数の画像(宛先指定画面301等)に含まれる秘匿ワード110を優先処理対象ワードとして決定する。そして、音声生成部65は、当該優先処理対象ワードに対応する代替音声データ250を生成し、生成した代替音声データ250を格納部55に格納する。
これによれば、現在の動作モードにて表示され得る秘匿ワード110に対応する代替音声データ250が優先的に生成されるので、ユーザ101により発せられる可能性の高い秘匿ワード110に対応する代替音声データ250を予め生成しておくことが可能である。したがって、合成音声データ450の生成の際に、格納部55に格納されている代替音声データ250が用いられる可能性が高くなる。
あるいは、秘匿ワード110の使用頻度に基づく優先順位に従って、複数の代替音声データ250が順次に生成されるようにしてもよい。
具体的には、秘匿ワードリスト602の受信に際して、案内サーバ50は、秘匿ワード110のそれぞれの使用頻度をもMFP10から受信し、当該秘匿ワードリスト602および使用頻度に基づいて変換辞書652を生成する(図20参照)。そして、音声生成部65は、変換辞書652に登録されている複数の秘匿ワード110のうち、使用頻度が多い秘匿ワード110から順に、対応する代替音声データ250を生成し、生成した代替音声データ250を格納部55に格納する。
図20では、秘匿ワード111の「長谷不動産」の使用頻度は10であり、秘匿ワード112の「高橋電器」の使用頻度は20であり、秘匿ワード113の「松原工務店」の使用頻度は5である。この場合、3つの秘匿ワード112,111,113に着目すると、音声生成部65は、秘匿ワード112,111,113の順にそれぞれ対応する代替音声データ250を生成する。すなわち、代替音声データ252,251,253が、この順序で生成される。
なお、変換辞書652に記述された秘匿ワード110の使用頻度は、MFP10を使用する複数のユーザによる秘匿ワード110の使用頻度(換言すれば、MFP10の使用頻度)であってもよく、あるいは、現在MFP10を操作しているユーザ101(ログインユーザ)による秘匿ワード110の使用頻度であってもよい。
このように、秘匿ワード110の使用頻度に基づく優先順位(のみ)に従って、複数の代替音声データ250が順次に生成されるようにしてもよい。これによれば、ユーザ101により発せられる可能性の高い秘匿ワード110に対応する代替音声データ250を予め生成しておくことが可能である。したがって、合成音声データ450の生成の際に、格納部55に格納されている代替音声データ250が用いられる可能性が高くなる。
さらには、現在のスキャンモードと使用頻度との双方を考慮した優先順位に従って、複数の代替音声データ250が順次に生成されるようにしてもよい。
また、上記第3実施形態等においては、ユーザ101からのサポート依頼信号を案内サーバ50が受信したことに応答して、複数の代替音声データ250の生成が開始される態様が例示されているが、これに限定されない。
たとえば、画像データ300を案内サーバ50が受信すると、当該画像データ300に含まれている秘匿ワード110に対応する代替音声データ250の生成が開始されるようにしてもよい。
具体的には、案内サーバ50による画像データ300(301)の受信に応答して、音声生成部65は、当該画像データ300に含まれている複数の秘匿ワード110に対応する複数の代替音声データ250の生成を開始する。なお、生成された代替音声データ250は格納部55に格納される。たとえば、秘匿ワード111,112,113に対応する代替音声データ251,252,253が生成され、格納部55に随時格納される。
これら複数の代替音声データ250の生成中あるいは生成完了後において、図19のステップS20以降の動作と同様の動作が実行される。具体的には、ユーザ音声データ400に秘匿ワード110が含まれ且つ秘匿ワード110に対応する代替音声データ250が格納部55に既に格納されている場合には、格納部55に格納されている当該代替音声データ250を用いて合成音声データ450が生成される。一方、ユーザ音声データ400に秘匿ワード110が含まれ且つ秘匿ワード110に対応する代替音声データ250が格納部55に格納されていない場合には、当該代替音声データ250が機械音声生成処理により生成され、生成された当該代替音声データ250を用いて合成ユーザ音声データが生成される。
これによれば、受信した画像データ300に含まれている秘匿ワード110に対応する代替音声データ250が優先的に生成されるので、ユーザ101により発せられる可能性が比較的高い秘匿ワード110に対応する代替音声データ250が予め生成され得る。したがって、合成音声データ450の生成の際に、格納部55に格納されている代替音声データ250が用いられる可能性を向上させることができる。
また、このような改変例において、上述の使用頻度に基づく優先順位に従って、複数の代替音声データ250が順次に生成されるようにしてもよい。すなわち、受信した画像データ300に含まれる複数の秘匿ワードの使用頻度に基づく優先順位に従って、当該複数の秘匿ワード110に対応する複数の代替音声データ250が生成されるようにしてもよい。
<第4実施形態>
第4実施形態は、第1実施形態の変形例である。以下では、第1実施形態との相違点を中心に説明する。
第1実施形態においては、部分音声データ430を案内サーバ50が受信すると、当該部分音声データ430に含まれた秘匿ワード110に対応する代替音声データ250(251)が、その都度、音声生成部65により生成される。そして、音声生成部65は、当該代替音声データ250を利用して合成音声データ450(451)を生成する。第1実施形態においては、音声生成部65は代替音声データ250を逐次生成し、生成された代替音声データ251は格納されない。
この第4実施形態では、音声生成部65により生成された(すなわち、合成音声データ450の生成に利用された)代替音声データ250が案内サーバ50の格納部55に格納される。そして、格納部55に格納されている代替音声データ250を用いて合成音声データ450が生成される。
第4実施形態では、ユーザ101により発せられたユーザ音声データ400のうち、部分音声データ431とは異なる部分音声データ432(後述)を案内サーバ50が受信した状況を想定する。格納部55に予め格納された代替音声データ250に対応する秘匿ワード110が当該部分音声データ432内に含まれる場合には、音声生成部65は、当該格納された代替音声データ250を用いて合成音声データ452を生成する。
ここにおいて、部分音声データ432は、ユーザ音声データ400のうち、部分音声データ431の次に音声認識部64が抽出した部分の音声データである。
図21は、第4実施形態に係る案内サーバ50の音声処理に関する動作を示すフローチャートである。
案内サーバ50はユーザ音声データ400を受信し(ステップS21)、ステップS21〜S23の処理を実行することにより音声認識部64は部分音声データ430を抽出する。その後、音声認識部64は、当該部分音声データ430に対する音声認識処理によって、部分音声データ430に秘匿ワード110が含まれるか否かを判定する(ステップS24)。そして、部分音声データ430内に秘匿ワード110が含まれる旨が判定される場合には、音声生成部65は、当該秘匿ワード110に対応する代替音声データ250が格納部55に格納されているか否かを判定する(ステップS62)。
秘匿ワード110に対応する代替音声データ250が格納部55に格納されていないことが判定される場合には、音声生成部65は、秘匿ワード110に対応する代替音声データ250を生成し(ステップS25)、生成した代替音声データ250を格納部55に格納する(ステップS64)。そして、音声生成部65は、部分音声データ430内の秘匿音声データ150を、生成した代替音声データ250に置き換えた合成音声データ450を生成する(ステップS26)。当該合成音声データ450はサポータ端末70に送信される(ステップS27)。
一方、当該代替音声データ250が格納部55に格納されていることが判定される場合には、音声生成部65は、格納されていた代替音声データ250を格納部55から取得する(ステップS63)。
そして、音声生成部65は、部分音声データ430内の秘匿音声データ150を、取得した代替音声データ250に置き換えた合成音声データ450を生成する(ステップS26)。当該合成音声データ450はサポータ端末70に送信される(ステップS27)。
図22は、第4実施形態における画像データ300および部分音声データ431,432に関するタイミングを示す図である。また、図23は、或る合成音声データ450(451)の生成に利用された代替音声データ250(251)が格納部55へ格納される状況を示す図であり、図24は、別の合成音声データ450(452)の生成の際に、既に格納されている代替音声データ250(251)が用いられる状況を示す図である。
図22〜図24をも参照しながら、或る合成音声データ451の生成に際して利用された代替音声データ251が予め格納部55に格納され、格納済みの代替音声データ251を用いて別の合成音声データ452が生成される動作について説明する。
まず、案内サーバ50は、ユーザ音声データ400から部分音声データ431を抽出する(ステップS23)。たとえば、図23では、ユーザ101により発せられた音声のうち、「ファイルをスキャンして長谷不動産に送りたいのです。」の部分の音声のデータが部分音声データ431として抽出される状況が示されている。
その後、音声認識部64は、部分音声データ431内に秘匿ワード111「長谷不動産」が含まれる旨を判定する(ステップS24)。この時点では、秘匿ワード111に対応する代替音声データ250は、格納部55には格納されていないので、ステップS24からステップS62を経てステップS25に進む。そして、音声生成部65は、秘匿ワード111「長谷不動産」に対応する代替ワード211「ABC」の代替音声データ251を生成し(ステップS25)、生成した代替音声データ251(「ABC」)を案内サーバ50の格納部55に格納する(ステップS64)。
そして、音声生成部65は、生成した代替音声データ251(「ABC」)を用いて合成音声データ451を生成し(ステップS26)、案内サーバ50は当該合成音声データ451をサポータ端末70に送信する(ステップS27)。サポータ端末70は、受信した合成音声データ451に基づく音声(「ファイルをスキャンしてABCに送りたいのです。」)を出力する。
その後、案内サーバ50は、ユーザ音声データ400から、別の部分の音声データである部分音声データ432を抽出する(ステップS23)。たとえば、図24では、ユーザ101により発せられた音声のうち、「長谷不動産をタッチしましたが、次はどうすれば良いですか?」の部分の音声のデータが新たな部分音声データ432として抽出される状況が示されている。
音声認識部64は、部分音声データ432に秘匿ワード110(秘匿ワード111「長谷不動産」)が含まれている旨を判定し、当該秘匿ワード110(111)に対応する代替ワード211「ABC」を求める。また、当該代替ワード211「ABC」に対応する代替音声データ251(「ABC」)が格納部55に既に格納されているか否かが判定される。この時点では、当該代替音声データ251(「ABC」)が格納部55に既に格納されている旨が判定される。換言すれば、既に格納部55に格納されている代替音声データ251(「ABC」)に対応する秘匿ワード110(「長谷不動産」)が部分音声データ432内に含まれている旨が判定される。
そして、音声生成部65は、当該格納された代替音声データ251を格納部55から取得する(ステップS63)。ここでは、秘匿ワード111「長谷不動産」に対応する代替ワード211「ABC」の代替音声データ251が格納部55から取得される。音声生成部65は、格納部55から取得された当該代替音声データ251を用いて合成音声データ452を生成する(ステップS26)。その後、案内サーバ50は、生成された合成音声データ452をサポータ端末70に送信し(ステップS27)、サポータ端末70は、受信した合成音声データ452に基づく音声(「ABCをタッチしましたが、次はどうすれば良いですか?」)を出力する。
以上のような動作によれば、或る合成音声データ451の生成に際して利用された代替音声データ251が予め格納されて、次の合成音声データ452の生成の際に利用される。そのため、当該代替音声データ251の生成を再び行わずに済む。したがって、合成音声データ452の生成に要する時間が短縮されるので、サポータ端末70への合成音声データ452の送信の遅延を抑制することが可能である。
<第5実施形態>
第5実施形態は、第1実施形態の変形例である。以下では、第1実施形態との相違点を中心に説明する。
第1実施形態では、スキャンモードにおいて、画像データ300(301)に含まれる送信宛先が秘匿ワード110として決定される態様が例示されている。より詳細には、MFP10から受信した秘匿ワードリスト601において、画像データ300に基づく画像に含まれる送信宛先が秘匿ワード110として登録されている。そのような登録内容に基づいて秘匿ワードが決定される。
第5実施形態では、ボックスモードにおいて、MFP10のボックスに格納されたファイル550のファイル名、作成者、日付、およびファイル本文の見出しを示す語句(ワード)が秘匿ワード110として決定される態様を例示する。この第5実施形態では、MFP10のボックスに格納されたファイル550に関する情報の表示画面を見ながら操作案内が行われる。以下、第5実施形態における画像処理および音声処理に関して順次に説明する。
まず、ユーザ101からのサポート依頼信号の受信に際して、案内サーバ50は、秘匿ワードリスト603をもMFP10から受信する(図27参照)。ここでは、秘匿ワード110として、MFP10のボックスに格納されたファイル550のファイル名(「パテント」等)、作成者(「山田太郎」等)、日付(「2013/03/11」等)、およびファイル本文の見出し(「画像形成装置」および「発明概要」等)を示す各語句(ワード)が秘匿ワードリスト603に登録されている。そして、案内サーバ50は、当該秘匿ワードリスト603に基づいて、変換辞書653を生成する。
図25および図26を参照して第5実施形態における画像処理に関して説明する。
ここでは、図25に示すように、ファイル550に関する情報表示画面である画像データ303(300)がMFP10のタッチパネル25に表示されているものとする。当該画像データ303を案内サーバ50が受信すると、変換辞書653に基づく画像処理によって、合成画像データ353(350)が生成される。そして、サポータ端末70の表示部76bにおいて合成画像データ353が表示される。
具体的には、MFP10のタッチパネル25においては、3つのアイコン500(501〜503)を有する画像データ303が表示されている。これらの各アイコン500(501〜503)の下方には、それぞれ対応するファイル550(551〜553)のファイル名「パテント1」〜「パテント3」が表示されている。そして、画像データ303を案内サーバ50が受信すると、変換辞書653に基づく画像処理によって、合成画像データ353が生成され、合成画像データ353はサポータ端末70に送信される。そして、サポータ端末70の表示部76bに合成画像データ353が表示される。合成画像データ353においては、各ファイル551〜553のファイル名「XYZ1」〜「XYZ3」(代替ワードを用いて表現されたファイル名)が、対応するアイコン501〜503の下方に表示されている。
つぎに、ファイル551「パテント1」に対応するアイコン501がユーザ101により押下される状況を想定する。ファイル551に対応するアイコン501がユーザ101により押下されると、画像データ304に基づく画像がMFP10のタッチパネル25に表示される(図26左側参照)。そして、画像データ304はMFP10から案内サーバ50に送信される。
案内サーバ50は、画像データ304を受信すると、変換辞書653(図27参照)に基づいて、画像データ304内に秘匿ワード110が含まれるか否かを判定する。
画像データ304内に秘匿ワード110が含まれる旨が判定される場合には、画像生成部61は、当該秘匿ワード110を代替ワード210に置き換えた合成画像データ354を生成する。
具体的には、画像データ304には、ファイル551のファイル名(「パテント1」)、作成者(「山田太郎」)、日付(「2013/03/11」)の秘匿ワード110、ならびにファイル551の本文の見出し(「画像形成装置」および「発明概要」)の秘匿ワード110が含まれる旨が判定される。画像生成部61は、当該秘匿ワード110をそれぞれ対応する代替ワード210に置き換えた合成画像データ354(図26右側参照)を生成する。たとえば、画像データ304内の秘匿ワード111(110)である「パテント」は、合成画像データ354の生成に際して、代替ワード211(210)である「abcd」に置き換えられる。
そして、案内サーバ50は、生成した合成画像データ354をサポータ端末70に送信し、サポータ端末70は、表示部76bに合成画像データ354を表示する。
この実施形態では、上述のように、画像データ300に含まれるファイル550のファイル名、作成者、日付およびファイル550の本文の見出しが秘匿ワード110として決定される。一方、ファイル550の本文に含まれる語句(ワード)のうち当該見出し以外のワードは、秘匿ワード110として決定されない。
ただし、当該見出し以外のワードを秘匿ワード110として決定せず、そのままサポータ端末70において表示される場合には、ファイル550の本文に含まれる語句(ワード)から漏洩する恐れがある。このような問題を回避するため、画像生成部61は、当該見出し以外の部分を判読回避画像(当該部分を判読することが不可能な画像)に変換する。
また、ファイル550の本文には非常に多数のワードが含まれている可能性が高く、これらのワードの全てに対して個別の変換処理(各ワードを個別の代替ワードに変換する処理)を伴う画像処理を行うことは効率的とは言えない。
当該多数のワードに対する秘匿化を効率的に行うため、この判読回避画像は、個別の変換処理(各ワードを個別の代替ワードに変換する処理)を伴わない画像処理によって生成される画像であることが好ましい。判読回避画像は、たとえば、ファイル本文の表示領域のうち当該本文の見出し以外の全領域に亘って一律に行われる定型的な画像処理によって生成されればよい。
具体的には、ファイル551の本文に含まれるワードのうち、当該見出し以外の部分の画像を、その内容を判読することが不可能である「DUMMY」の文字を羅列させた判読回避画像に変換する(図26参照)。なお、本実施形態では、判読回避画像として「DUMMY」の文字を繰り返し表示する画像を用いているが、これに限定されず、たとえば、「***(アスタリスク)」などの他の文字を繰り返し表示する画像などであってもよい。また、判読回避画像として、空白画像を用いるようにしてもよい(換言すれば、当該見出し以外の部分の画像を削除するようにしてもよい)。
つぎに、第5実施形態における音声処理に関して説明する。
案内サーバ50がユーザ音声データ400を受信すると、音声認識部64は、当該ユーザ音声データ400に秘匿ワード110が含まれるか否かを判定する。
ここにおいて、秘匿ワード110は、上述のように、ファイル550のファイル名、作成者、日付、およびファイル本文の見出しを示す語句(ワード)である(図27参照)。
ユーザ音声データ400内に秘匿ワード110が含まれる旨が判定される場合には、音声生成部65は、当該秘匿ワード110に対応する代替ワード210の代替音声データ250を生成し、当該代替音声データ250を用いて合成音声データ450を生成する。
案内サーバ50は当該合成音声データ450をサポータ端末70に送信し、サポータ端末70において当該合成音声データ450が出力される。
たとえば、ユーザ101が画像データ304を見ながら発したユーザ音声データ400に秘匿ワード112(110)「山田太郎」が含まれていることが判定される場合には、秘匿ワード112「山田太郎」に対応する代替ワード212「abcd」(図27参照)の代替音声データ250が生成される。その後、生成した代替音声データ250を用いて合成音声データ450が生成され、合成音声データ450がサポータ端末に送信される。合成音声データ450を受信したサポータ端末70は、当該合成音声データ450に基づく音声を出力する。
以上のような動作によれば、ファイル550のファイル名、作成者、日付を示す語句が秘匿ワード110として決定されて、当該秘匿ワード110に対する画像処理(画像変換処理等)および音声処理(音声変換処理等)が行われる。したがって、MFP10のボックスモードにおける表示画面内に含まれる秘匿ワード(機密情報)の漏洩を回避することが可能である。詳細には、ファイル550のファイル名、作成者、日付を示す語句に関しては、視覚を通じて機密情報が漏洩することを防止することが可能であるとともに、聴覚を通じて機密情報が漏洩することをも防止することが可能である。
同様に、ファイル550の本文の見出しも秘匿ワード110として決定されるので、見出しに関して、聴覚および/または視覚を通じて機密情報が漏洩することを防止することが可能である。
また、ファイル550の本文の見出し以外の部分に関しては、当該部分が判読回避画像に変換されるので、少なくとも視覚を通じて機密情報が漏洩することを防止することが可能である。
また、仮に、ファイル550の本文の見出し以外の部分に関しても変換処理(音声変換処理および/または画像変換処理)を行うときには、非常に多数のワードに関する当該変換処理に多大な時間を要する。一方、上記態様では、当該見出し以外の部分の音声に関する変換処理(音声変換処理)が行われないので、音声変換処理に要する時間を抑制することが可能である。また、画像に関しても、当該見出し以外の部分は、秘匿ワード110と判定されず、代替ワード210への画像変換処理が行われないので、画像変換処理に要する時間を抑制することが可能である。
<変形例等>
以上、この発明の実施の形態について説明したが、この発明は上記説明した内容のものに限定されるものではない。
上記各実施形態においては、MFP10からサポータ端末70への音声伝達処理について例示したが、これに限定されない。たとえば、サポータ端末70からMFP10への音声伝達処理も同様にして実施される。図28のフローチャートを参照して、サポータ端末70からMFP10への音声伝達処理について説明する。
サポータ102により発せられたサポータ音声データ410はサポータ端末70により案内サーバ50へと送信される。案内サーバ50がサポータ音声データ410を受信すると(ステップS70)、音声認識部64は、サポータ音声データ410に非無音部分が存在するか否かを判定する(ステップS71)。その後、音声認識部64は、サポータ音声データ410に所定時間以上の無音部分が存在するか否かを判定する(ステップS72)。
サポータ音声データ410に所定時間以上の無音部分が存在する旨が判定される場合に、音声認識部64は、サポータ音声データ410の一部である部分音声データ440を抽出する(ステップS73)。
そして、音声生成部65は、部分音声データ440に対する音声認識処理によって、サポータ音声データ410内に、秘匿ワードリスト601(図9参照)に含まれる秘匿ワード110のいずれかに対応する代替ワード210が含まれるか否かを判定する(ステップS74)。
部分音声データ440に当該代替ワード210が含まれる旨が判定される場合に、音声生成部65は、代替ワード210に対応する秘匿ワード110の秘匿音声データ161を生成する(ステップS75)。
そして、音声生成部65は、部分音声データ440に含まれる代替ワード210の音声データである代替音声データ261を当該秘匿音声データ161に置き換えた合成音声データ460(合成サポータ音声データ460)を生成する(ステップS76)。
その後、案内サーバ50は合成音声データ460をMFP10に送信し(ステップS77)、MFP10において、当該合成音声データ460が出力される。
図29は、サポータ端末70からMFP10への音声伝達処理の一例を示す図である。図29を参照して具体的に説明する。
図29では、図7の音声伝達処理に引き続いてサポータ102が、「ABCをタッチしてください。」との音声を発した状況を想定する。
音声認識部64は、まず、「ABCをタッチしてください。」との音声を含む音声データを部分音声データ441として認識する。また、音声認識部64は、当該部分音声データ441(440)内に、変換辞書651(図9参照)に登録されている複数の秘匿ワード110(111〜113)のいずれかに対応する代替ワード210(211〜213)が含まれるか否かを判定する。具体的には、部分音声データ441の「ABCをタッチしてください。」には、秘匿ワード111「長谷不動産」に対応する代替ワード211「ABC」が含まれる旨が判定される。
そして、音声生成部65は、代替ワード211「ABC」に対応する秘匿ワード111「長谷不動産」の秘匿音声データ161(160)を生成する。なお、秘匿音声データ161(160)は、人間の声を模して人工的に生成された音声データ(機械音声データ)である。
その後、部分音声データ441に含まれる代替ワード211「ABC」の代替音声データ261を当該秘匿音声データ161(「長谷不動産」)に置き換えた合成音声データ461(460)を生成する。そして、案内サーバ50は、当該合成音声データ461をMFP10に送信する。
合成音声データ461を受信したMFP10は、当該合成音声データ461を出力する。具体的には、MFP10において、合成音声データ461に基づく音声である「長谷不動産をタッチしてください。」が出力される。
ここにおいて、ユーザ101は代替ワード210の内容を知らず、サポータ102は秘匿ワード110の内容を知らない。
このため、仮に、サポータ102により発せられたサポータ音声データ410がそのままMFP10に対して送信されると、ユーザ101の知らない代替ワード210がユーザ101に伝達されるので、ユーザ101に混乱が生じる恐れがある。
一方、上記態様によれば、サポータ102により発せられたサポータ音声データ410に含まれる代替ワード210が秘匿音声データ160に置き換えられて合成音声データ460が生成され、当該合成音声データ460がユーザ101に送信されるので、ユーザ101の混乱を回避することが可能である。
また、特定の秘匿ワード110(111)の秘匿音声データ160(人工音声)がサポータ音声データ410(サポータ音声)に含まれている(人工音声がサポータ音声に含まれている)ので、サポータ音声データ410のうち特定の秘匿ワード110(111)に対応する音声部分に対して何らかの処理が施されていることをユーザ101は知得できる。ユーザ101が幾つかの秘匿ワードに関する変換処理が施されていることを知っている場合において、特定の秘匿ワード110(たとえば111)に対して何らかの変換処理が施されていることをも知得したユーザ101は、当該特定の秘匿ワード110(111)がサポータ102に伝わっていないことを確認(推測)できる。換言すれば、特定の秘匿ワードに関する機密情報が漏洩していないことを確認できる。
また、上記態様においては、サポータ102側からユーザ101側への音声伝達において、秘匿音声データ161(サポータ音声データ410に含まれていた代替ワード210に対応する秘匿ワード110の音声データ)が逐一生成され、当該秘匿音声データ161(機械音声)を用いてサポータ音声に対する変換処理(代替ワード210を秘匿ワード110に変換(逆変換)する処理)が行われている。
しかしながら、本発明はこれに限定されない。たとえば、まずユーザ101側からサポータ102側への音声伝達においてユーザ101の音声データ(秘匿音声データ151)を格納部55に予め格納しておき(図30参照)、次にサポータ102側からユーザ101側への音声伝達がなされた場合に、当該格納部55に既に格納されている秘匿音声データ151を用いて、サポータ音声に対する変換処理が行われる(図31参照)ようにしてもよい。
図30および図31を参照して具体的に説明する。図30は、ユーザ101からサポータ102への音声伝達処理を示す図である。図31は、サポータ102からユーザ101への音声伝達処理がなされる状況を示す図である。
図30では、ユーザ101が「ファイルをスキャンして長谷不動産に送りたいのです。」との音声を発した状況が想定されている。
ユーザ音声データ400を受信した案内サーバ50は、ユーザ音声データ400から部分音声データ431(430)を抽出する。そして、変換辞書651(図9参照)に基づいて、部分音声データ431内に秘匿ワード110が含まれるか否かを判定する。
具体的には、部分音声データ431「ファイルをスキャンして長谷不動産に送りたいのです。」には、秘匿ワード111「長谷不動産」が含まれる旨が音声認識部64によって判定される。
そして、音声生成部65は、ユーザ101により発せられた秘匿ワード111「長谷不動産」の秘匿音声データ151を抽出し、案内サーバ50の格納部55に格納する。
その後、音声生成部65は、秘匿ワード111「長谷不動産」に対応する代替ワード211「ABC」の代替音声データ251を用いて、合成音声データ451を生成する。生成された合成音声データ451はサポータ端末70に送信され、サポータ端末70において出力される。
このように、この態様では、合成音声データ450(451)を生成する際に、ユーザ音声データ400(部分音声データ430(431))から出した秘匿音声データ150(151)を格納部に予め格納しておく。
つぎに、図31を参照しながら、サポータ端末70からMFP10への音声伝達処理について説明する。図31では、ユーザ101からサポータ102への音声伝達処理の次に、サポータ102が、「ABCをタッチしてください。」との音声を発した状況を想定している。
サポータ音声データ410を受信した案内サーバ50は、サポータ音声データ410から部分音声データ441(440)を抽出する。そして、変換辞書651(図9参照)に基づいて、部分音声データ441内に格納済みの秘匿音声データ151(150)に対応する代替ワード210が含まれるか否かを判定する。
具体的には、格納済みの秘匿音声データ151(より詳細には、ユーザ101により発せられた秘匿ワード111「長谷不動産」の音声データ)に対応する代替ワード211「ABC」が、部分音声データ441に基づく音声「ABCをタッチしてください。」に含まれる旨が、音声認識部64により判定される。
そして、音声生成部65は、部分音声データ441内の代替ワード211「ABC」に対応する代替音声データ261(260)を、格納済みの秘匿音声データ151(150)に置き換えた合成音声データ461(460)を生成する。この合成音声データ461の生成に際しては、秘匿音声データ161(代替ワード211「ABC」に対応する秘匿ワード111「長谷不動産」の機械音声データ)ではなく、秘匿音声データ151(格納部55に格納されていたユーザ101の録音音声データ)が用いられる。換言すれば、予め格納された秘匿音声データ150が、部分音声データ441内の代替ワード211「ABC」に対応する秘匿音声データとして利用され、合成音声データ461が生成される。
その後、案内サーバ50は、合成音声データ461(460)をサポータ端末70に送信し、サポータ端末70において、「長谷不動産をタッチしてください。」の音声が合成音声データ461に基づいて出力される。この合成音声データ461に含まれる音声「長谷不動産」は、ユーザ101の音声を用いて出力され、当該合成音声データ461に含まれる音声「をタッチしてください」は、サポータ102の音声を用いて出力される。
このような改変例によれば、サポータ102により発せられたサポータ音声データ410(部分音声データ441)に含まれる代替ワード210を、予め格納された秘匿音声データ150に置き換えた合成音声データ460が音声出力用データとしてユーザ101側のMFP10に送信される。したがって、ユーザ101の知らない代替ワード210がユーザ101に伝達されることに起因したユーザ101の混乱を回避することが可能である。
また、ユーザ101により過去に発せられた音声データが秘匿音声データ150として格納部55に格納されており、当該格納部55に既に格納されている秘匿音声データ150を用いて合成音声データ460が生成される。したがって、一の代替ワード211「ABC」に対応する秘匿ワード111「長谷不動産」の音声データである秘匿音声データ160を再び生成することを要しないので、合成音声データ460の生成に要する時間が短縮される。その結果、MFP10への合成音声データ460の送信の遅延を抑制することが可能である。
さらに、ユーザ101の発した特定の秘匿ワード110(111)の秘匿音声データ150がサポータ音声データ410に含まれている。したがって、ユーザ101は、サポータ音声データ410のうち特定の秘匿ワード110(111)に対応する音声部分に対して何らかの処理が施されていることを知得できる。
なお、上記態様においては、ユーザ101の発した音声(秘匿ワード110に係る音声)のデータ(秘匿音声データ150)を格納部55に格納しておき、当該秘匿音声データ150をサポータ102側からユーザ101側への音声伝達処理において利用する態様が例示されているが、これに限定されない。
たとえば、サポータ102の発した音声(代替ワード210に係る音声)のデータ(代替音声データ260)を格納部55に格納しておき、当該代替音声データ260をユーザ101側からサポータ102側への音声伝達処理において利用するようにしてもよい。
このような態様について、図31を参照して説明する。
まず、図31に示すように、サポータ102側からユーザ101側への音声伝達処理において、サポータ102が「ABCをタッチしてください。」との音声を発すると、案内サーバ50では、上記態様と同様の処理により、音声変換処理が施され、合成音声データ461(460)が生成される。この合成音声データ461の生成に際して、サポータ102により発せられた代替ワード211「ABC」の録音データである代替音声データ261が格納部55に格納される。
その後、ユーザ101側からサポータ102側への音声伝達処理がなされる場合に、音声生成部65は、当該格納されている代替音声データ260(261)を用いて合成音声データ450を生成する。
詳細には、たとえば「長谷不動産のボタンを押しますね?」との音声をユーザ101が発する場合において、当該音声を含む部分音声データ433(不図示)がユーザ音声データ400から抽出される。そして、部分音声データ433に秘匿ワード111「長谷不動産」が含まれる旨が音声認識部64によって判定されると、合成音声データ453が生成される。このとき、秘匿ワード111「長谷不動産」に対応する代替ワード211「ABC」の代替音声データ(置換用の音声データ)として、格納部55に既に格納されている上述の代替音声データ260(261)が利用されて、合成音声データ453が生成される。生成された合成音声データ453はサポータ端末70に送信され、サポータ端末70において出力される。
このような態様によれば、特に、合成音声データ453の生成に際して、格納部55に予め格納されている代替音声データ260が利用されるので、機械音声生成処理によって代替音声データを改めて生成することを要しない。
また、上記各実施形態においては、案内サーバ50が画像処理および音声処理を行うことが例示されているが、これに限定されない。たとえば、上記案内サーバ50の動作がMFP10により実行されてもよい。具体的には、MFP10が案内サーバ50の画像処理部60aおよび音声処理部60bの動作と同様の動作を行うようにすればよい。