JP2015088890A

JP2015088890A - 操作案内サーバ、操作案内システム、画像形成装置およびプログラム

Info

Publication number: JP2015088890A
Application number: JP2013225254A
Authority: JP
Inventors: 和也姉崎; Kazuya Anezaki; 淳一長谷; Junichi Hase; 松原　賢士; Kenji Matsubara; 賢士松原; 高橋　一誠; Kazumasa Takahashi; 一誠高橋; 博一久保田; Hiroichi Kubota
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2013-10-30
Filing date: 2013-10-30
Publication date: 2015-05-07
Anticipated expiration: 2033-10-30
Also published as: JP6229433B2

Abstract

【課題】ユーザとサポータ間の操作案内において、ユーザの音声に含まれる機密情報の漏洩を回避することが可能な技術を提供する。
【解決手段】操作案内システムを構成する案内サーバは、ユーザが発した音声に対する音声認識処理によって、当該音声に秘匿ワードが含まれるか否かを判定する。ユーザが発した音声に秘匿ワードが含まれる場合には、秘匿ワードの音声データである秘匿音声ワードを、当該秘匿ワードに対応する代替ワードの音声データである代替音声データに置き換えたデータである合成音声データを生成する。その後、当該合成音声データをサポータ端末に送信する。
【選択図】図５

Description

本発明は、操作案内システムおよびそれに関連する技術に関する。

近年、ＭＦＰ（マルチ・ファンクション・ペリフェラル（Multi-Functional Peripheral））などの画像形成装置は、多機能化および高機能化しており、その操作が煩雑になっている。そのため、ユーザは、画像形成装置の操作方法をサポートセンターに問い合わせ、サポータ（サポートセンターにおいてユーザを支援する人物）にその操作の案内を依頼することがある。

その際、ユーザは、自己が操作している画像形成装置の表示画像に基づいてサポータから操作案内を受けることがあり、表示画像に含まれるユーザの機密情報がサポータの端末にそのまま表示されることによりユーザの機密情報が漏洩する恐れがある。

特許文献１においては、このような問題に鑑みて、画像形成装置の表示部に表示されたユーザの機密情報をダミー画像に置き換えてサポータのパーソナルコンピュータに表示させることにより、ユーザの機密情報がサポータ側にそのまま表示されることを防止することが記載されている。

特開２００９−２５３６５１号公報

ところで、ユーザとサポータとの間の操作案内においては、表示画像を用いた操作案内のみならず、音声を用いた操作案内も行われることが想定される。

しかしながら、表示画像および音声を用いた操作案内を行う際において、上記の従来技術を用いると、ユーザの発した音声に含まれる機密情報はサポータの端末にそのまま伝達され、ユーザの機密情報がサポータに漏洩してしまう恐れがある。

そこで、この発明は、ユーザとサポータとの間の操作案内において、ユーザの音声に含まれる機密情報の漏洩を回避することが可能な技術を提供することを課題とする。

上記課題を解決すべく、請求項１の発明は、操作案内システムにおける案内サーバであって、ユーザの操作対象である画像形成装置の操作部に表示された第１の表示画像のデータである第１の表示画像データを前記画像形成装置から受信する画像受信手段と、秘匿ワードが前記第１の表示画像データに含まれる場合に、前記第１の表示画像における前記秘匿ワードを当該秘匿ワードに対応する代替ワードに置き換えた第１の合成画像のデータである第１の合成画像データを生成する画像生成手段と、前記ユーザを支援する人物であるサポータにより前記ユーザへの操作案内に利用されるサポータ端末に対して、前記サポータ端末での表示用データとして前記第１の合成画像データを送信する画像送信手段と、前記ユーザにより発せられた音声のデータを含むユーザ音声データを受信する音声受信手段と、前記ユーザ音声データに対する音声認識処理によって、前記ユーザ音声データに前記秘匿ワードが含まれるか否かを判定する音声認識手段と、前記ユーザ音声データに前記秘匿ワードが含まれると判定される場合に、前記ユーザ音声データ内の前記秘匿ワードの音声データである秘匿音声データを、当該秘匿ワードに対応する前記代替ワードの音声データである代替音声データに置き換えたデータである合成ユーザ音声データを生成する音声生成手段と、前記サポータ端末での音声出力用データとして前記合成ユーザ音声データを前記サポータ端末に送信する音声送信手段と、を備えることを特徴とする。

請求項２の発明は、請求項１の発明に係る案内サーバにおいて、前記ユーザ音声データは、複数の部分音声データに区分され、前記音声生成手段は、前記ユーザ音声データにおける一の部分音声データである第１の音声データ内に前記秘匿ワードが含まれる旨が前記音声認識処理によって判定される場合に、前記第１の音声データ内の前記秘匿音声データを前記代替音声データに置き換えた第１の合成音声データを生成し、前記音声送信手段は、前記第１の合成音声データを前記サポータ端末に送信することを特徴とする。

請求項３の発明は、請求項２の発明に係る案内サーバにおいて、前記第１の音声データは、前記第１の表示画像の表示中に前記ユーザにより発せられた音声を含み、前記画像受信手段は、前記第１の表示画像に引き続いて前記操作部に表示される第２の表示画像のデータである第２の表示画像データを、前記第１の表示画像データの受信完了後に前記画像形成装置から受信し、前記画像生成手段は、秘匿ワードが前記第２の表示画像データに含まれる場合に、前記第２の表示画像データ内の前記秘匿ワードを当該秘匿ワードに対応する代替ワードに置き換えた第２の合成画像のデータである第２の合成画像データを生成し、前記画像送信手段は、前記第１の音声データの受信が開始されると前記第２の合成画像データの送信を許可せず、前記第１の音声データに基づき生成された前記第１の合成音声データの送信完了時点以後において前記第２の合成画像データの送信を許可することを特徴とする。

請求項４の発明は、請求項３の発明に係る案内サーバにおいて、前記画像送信手段は、前記第１の音声データの受信開始時点と前記第１の合成音声データの送信完了から前記第１の合成音声データの出力所要時間が経過した時点との間の期間である第１の期間内に前記画像受信手段により前記第２の表示画像データが受信される場合には、前記第１の期間の終了時点までは前記第２の合成画像データの送信を許可せず且つ前記第１の期間の終了後に前記第２の合成画像データの送信を許可することを特徴とする。

請求項５の発明は、請求項１の発明に係る案内サーバにおいて、音声データを格納する格納手段、をさらに備え、前記音声生成手段は、複数の秘匿ワードに対応する代替ワードの音声データである複数の代替音声データの生成を前記合成ユーザ音声データの生成に先立つ所定の時点から開始するとともに、生成された代替音声データを前記格納手段に格納し、前記ユーザ音声データに前記秘匿ワードが含まれ且つ前記秘匿ワードに対応する前記代替音声データが前記格納手段に格納されていない場合には、前記代替音声データを機械音声生成処理により生成し、生成された当該代替音声データを用いて前記合成ユーザ音声データを生成し、前記ユーザ音声データに前記秘匿ワードが含まれ且つ前記秘匿ワードに対応する前記代替音声データが前記格納手段に既に格納されている場合には、前記格納手段に格納されている前記代替音声データを用いて前記合成ユーザ音声データを生成することを特徴とする。

請求項６の発明は、請求項５の発明に係る案内サーバにおいて、前記音声生成手段は、前記ユーザからの操作案内の依頼の発生を示すサポート依頼信号を前記案内サーバが受信することに応答して、前記複数の代替音声データの生成を開始することを特徴とする。

請求項７の発明は、請求項６の発明に係る案内サーバにおいて、前記複数の秘匿ワードは、前記画像形成装置のスキャン画像送信における宛先指定画面内の送信宛先を示す語句と前記画像形成装置のファクシミリ送信における宛先指定画面に含まれる送信宛先を示す語句との少なくとも一方を含むことを特徴とする。

請求項８の発明は、請求項６の発明に係る案内サーバにおいて、前記複数の秘匿ワードは、前記画像形成装置のボックスに格納されたファイルに関する情報表示画面に表示されるファイル情報を示す語句を含むことを特徴とする。

請求項９の発明は、請求項５の発明に係る案内サーバにおいて、前記音声生成手段は、前記複数の代替音声データのうち、前記画像形成装置の現在の動作モードにおける表示画像に含まれ得る秘匿ワードに対応する代替音声データを優先的に生成することを特徴とする。

請求項１０の発明は、請求項９の発明に係る案内サーバにおいて、前記画像形成装置の現在の動作モードは、スキャンモードとファクシミリ送信モードとボックスモードとを含む複数のモードのうちのいずれかであることを特徴とする。

請求項１１の発明は、請求項１の発明に係る案内サーバにおいて、音声データを格納する格納手段、をさらに備え、前記音声生成手段は、前記第１の表示画像データが前記画像受信手段によって受信されると、複数の秘匿ワードに対応する代替ワードの音声データである複数の代替音声データの生成を開始し、生成された代替音声データを前記格納手段に格納し、前記ユーザ音声データに前記秘匿ワードが含まれ且つ前記秘匿ワードに対応する前記代替音声データが前記格納手段に格納されていない場合には、前記代替音声データを機械音声生成処理により生成し、生成された当該代替音声データを用いて前記合成ユーザ音声データを生成し、前記ユーザ音声データに前記秘匿ワードが含まれ且つ前記秘匿ワードに対応する前記代替音声データが前記格納手段に既に格納されている場合には、前記格納手段に格納されている前記代替音声データを用いて前記合成ユーザ音声データを生成することを特徴とする。

請求項１２の発明は、請求項５ないし請求項１１のいずれかの発明に係る案内サーバにおいて、前記音声生成手段は、前記複数の秘匿ワードの使用頻度に基づく優先順位に従って、前記複数の代替音声データを生成することを特徴とする。

請求項１３の発明は、請求項２の発明に係る案内サーバにおいて、前記第１の合成音声データの生成に利用された前記代替音声データを格納する格納手段、をさらに備え、前記音声生成手段は、前記ユーザ音声データのうち前記第１の音声データとは異なる部分の部分音声データである第２の音声データ内に前記秘匿ワードが含まれる旨が前記音声認識処理によって判定される場合に、前記格納手段に格納されていた前記代替音声データを用いて、前記第２の音声データ内の前記秘匿音声データを前記代替音声データに置き換えた第２の合成音声データを生成し、前記音声送信手段は、前記第２の合成音声データを前記サポータ端末に送信することを特徴とする。

請求項１４の発明は、請求項１の発明に係る案内サーバにおいて、前記音声受信手段は、前記サポータにより発せられた音声のデータを含むサポータ音声データを受信し、前記音声認識手段は、前記サポータ音声データに対する音声認識処理によって、１又は複数の秘匿ワードのいずれかに対応する一の代替ワードが前記サポータ音声データに含まれるか否かを判定し、前記音声生成手段は、前記一の代替ワードが前記サポータ音声データに含まれる場合に、前記サポータ音声データ内の前記一の代替ワードの音声データである第２の代替音声データを、前記一の代替ワードに対応する秘匿ワードの音声データである第２の秘匿音声データに置き換えた合成サポータ音声データを生成し、前記音声送信手段は、前記合成サポータ音声データを前記画像形成装置に送信することを特徴とする。

請求項１５の発明は、請求項１４の発明に係る案内サーバにおいて、音声データを格納する格納手段、をさらに備え、前記音声生成手段は、前記ユーザ音声データに基づき前記合成ユーザ音声データを生成する際に、前記ユーザ音声データから抽出した前記秘匿音声データを前記格納手段に格納しておき、前記格納手段に格納された前記秘匿音声データを前記第２の秘匿音声データとして用いて前記合成サポータ音声データを生成することを特徴とする。

請求項１６の発明は、請求項２ないし請求項４のいずれかの発明に係る案内サーバにおいて、前記音声認識手段は、前記ユーザ音声データに所定時間以上の無音部分が存在する場合には、前記ユーザ音声データのうち、前記所定時間の無音状態が経過した時点を終端とするように区分した部分音声データを、前記第１の音声データとして抽出することを特徴とする。

請求項１７の発明は、請求項１６の発明に係る案内サーバにおいて、前記画像受信手段は、前記第１の表示画像データとは異なる第２の表示画像データをも前記画像形成装置から受信し、前記音声認識手段は、前記ユーザ音声データの音声認識処理中に前記第２の表示画像データが前記画像受信手段により受信される場合には、前記ユーザ音声データのうち、前記第２の表示画像の受信時点を終端とするように区分した部分音声データを、前記第１の音声データとして抽出することを特徴とする。

請求項１８の発明は、請求項１の発明に係る案内サーバにおいて、前記第１の表示画像は、前記画像形成装置のボックスに格納されたファイルに関する情報表示画面の画像であり、前記画像生成手段は、前記ファイルのファイル名、作成者、日付、およびファイル本文の見出しの少なくとも１つを示すワードを前記秘匿ワードとして決定し、当該秘匿ワードを前記代替ワードに置き換えた前記第１の合成画像データを生成し、前記音声生成手段は、前記ユーザ音声データに当該秘匿ワードが含まれる場合に、前記秘匿音声データを前記代替音声データに置き換えた合成ユーザ音声データを生成することを特徴とする。

請求項１９の発明は、請求項１８の発明に係る案内サーバにおいて、前記画像生成手段は、前記ファイル本文の見出しを示すワードを前記秘匿ワードとして決定し、前記ファイルの本文に含まれるワードのうち前記ファイルの本文の見出し以外のワードを前記秘匿ワードとしては決定せず、前記ファイルの本文のうち前記ファイルの本文の見出し以外の部分を判読回避画像に変換して前記第１の合成画像データを生成することを特徴とする。

請求項２０の発明は、操作案内システムにおける案内サーバに内蔵されたコンピュータに、ａ）ユーザの操作対象である画像形成装置の操作部に表示された第１の表示画像のデータである第１の表示画像データを前記画像形成装置から受信するステップと、ｂ）秘匿ワードが前記第１の表示画像データに含まれる場合に、前記第１の表示画像における前記秘匿ワードを当該秘匿ワードに対応する代替ワードに置き換えた第１の合成画像のデータである第１の合成画像データを生成するステップと、ｃ）前記ユーザを支援する人物であるサポータにより前記ユーザへの案内に利用されるサポータ端末に対して、前記サポータ端末での表示用データとして前記第１の合成画像データを送信するステップと、ｄ）前記ユーザにより発せられた音声のデータを含むユーザ音声データを受信するステップと、ｅ）前記ユーザ音声データに対する音声認識処理によって、前記ユーザ音声データに前記秘匿ワードが含まれるか否かを判定するステップと、ｆ）前記ユーザ音声データに前記秘匿ワードが含まれると判定される場合に、前記ユーザ音声データ内の前記秘匿ワードの音声データである秘匿音声データを、当該秘匿ワードに対応する前記代替ワードの音声データである代替音声データに置き換えたデータである合成ユーザ音声データを生成するステップと、ｇ）前記サポータ端末での音声出力用データとして前記合成ユーザ音声データを前記サポータ端末に送信するステップと、を実行させるためのプログラムであることを特徴とする。

請求項２１の発明は、操作案内システムであって、ユーザの操作対象である画像形成装置と、前記ユーザを支援する人物であるサポータにより前記ユーザへの画像形成装置の操作案内に利用されるサポータ端末と、前記画像形成装置と前記サポータ端末とを媒介する案内サーバと、を備え、前記案内サーバは、前記画像形成装置の操作部に表示された第１の表示画像のデータである第１の表示画像データを前記画像形成装置から受信する画像受信手段と、秘匿ワードが前記第１の表示画像データに含まれる場合に、前記第１の表示画像における前記秘匿ワードを当該秘匿ワードに対応する代替ワードに置き換えた第１の合成画像のデータである第１の合成画像データを生成する画像生成手段と、前記サポータ端末に対して、前記サポータ端末での表示用データとして前記第１の合成画像データを送信する画像送信手段と、前記ユーザにより発せられた音声のデータを含むユーザ音声データを受信する音声受信手段と、前記ユーザ音声データに対する音声認識処理によって、前記ユーザ音声データに前記秘匿ワードが含まれるか否かを判定する音声認識手段と、前記ユーザ音声データに前記秘匿ワードが含まれると判定される場合に、前記ユーザ音声データ内の前記秘匿ワードの音声データである秘匿音声データを、当該秘匿ワードに対応する前記代替ワードの音声データである代替音声データに置き換えたデータである合成ユーザ音声データを生成する音声生成手段と、前記サポータ端末での音声出力用データとして前記合成ユーザ音声データを前記サポータ端末に送信する音声送信手段と、を有することを特徴とする。

請求項２２の発明は、操作案内システムにおける画像形成装置であって、ユーザの操作対象である前記画像形成装置の操作部に表示された第１の表示画像のデータである第１の表示画像データを取得する画像取得手段と、秘匿ワードが前記第１の表示画像データに含まれる場合に、前記第１の表示画像における前記秘匿ワードを当該秘匿ワードに対応する代替ワードに置き換えた第１の合成画像のデータである第１の合成画像データを生成する画像生成手段と、前記ユーザを支援する人物であるサポータにより前記ユーザへの案内に利用されるサポータ端末に対して、前記サポータ端末での表示用データとして前記第１の合成画像データを送信する画像送信手段と、前記ユーザにより発せられた音声のデータを含むユーザ音声データを取得する音声取得手段と、前記ユーザ音声データに対する音声認識処理によって、前記ユーザ音声データに前記秘匿ワードが含まれるか否かを判定する音声認識手段と、前記ユーザ音声データに前記秘匿ワードが含まれると判定される場合に、前記ユーザ音声データ内の前記秘匿ワードの音声データである秘匿音声データを、当該秘匿ワードに対応する前記代替ワードの音声データである代替音声データに置き換えたデータである合成ユーザ音声データを生成する音声生成手段と、前記サポータ端末での音声出力用データとして前記合成ユーザ音声データを前記サポータ端末に送信する音声送信手段と、を備えることを特徴とする。

請求項２３の発明は、操作案内システムにおける画像形成装置に内蔵されたコンピュータに、ａ）ユーザの操作対象である前記画像形成装置の操作部に表示された第１の表示画像のデータである第１の表示画像データを取得するステップと、ｂ）秘匿ワードが前記第１の表示画像データに含まれる場合に、前記第１の表示画像における前記秘匿ワードを当該秘匿ワードに対応する代替ワードに置き換えた第１の合成画像のデータである第１の合成画像データを生成するステップと、ｃ）前記ユーザを支援する人物であるサポータにより前記ユーザへの案内に利用されるサポータ端末に対して、前記サポータ端末での表示用データとして前記第１の合成画像データを送信するステップと、ｄ）前記ユーザにより発せられた音声のデータを含むユーザ音声データを取得するステップと、ｅ）前記ユーザ音声データに対する音声認識処理によって、前記ユーザ音声データに前記秘匿ワードが含まれるか否かを判定するステップと、ｆ）前記ユーザ音声データに前記秘匿ワードが含まれると判定される場合に、前記ユーザ音声データ内の前記秘匿ワードの音声データである秘匿音声データを、当該秘匿ワードに対応する前記代替ワードの音声データである代替音声データに置き換えたデータである合成ユーザ音声データを生成するステップと、ｇ）前記サポータ端末での音声出力用データとして前記合成ユーザ音声データを前記サポータ端末に送信するステップと、実行させるためのプログラムであることを特徴とする。

請求項１ないし請求項２３に記載の発明によれば、ユーザとサポータとの間の操作案内において、ユーザの音声に含まれる機密情報の漏洩を回避することが可能である。

特に、請求項２に記載の発明によれば、ユーザ音声データを区切った一の部分音声データである第１の音声データに関して、当該第１の音声データ内の秘匿音声データを代替音声データに置き換えた第１の合成音声データが生成され、当該第１の合成音声データがサポータ端末に送信される。したがって、第１の音声データに対応する第１の合成音声データは、ユーザ音声データのうち第１の音声データの次の部分に対する処理の終了を待つことなく、比較的早期にサポータ端末に送信され得る。その結果、サポータ端末への音声データの送信の遅延を抑制することが可能である。

特に、請求項３に記載の発明によれば、第１の音声データの受信が開始されると第２の合成画像データの送信が許可されず、第１の合成音声データの送信完了時点以後において第２の合成画像データの送信が許可されるので、サポータ端末における第１の表示画像から第２の表示画像への変更は、第１の合成音声データの送信後に行われる。したがって、第１の表示画像を見ながら発せられたユーザの音声が、当該音声の到達遅延に起因して第１の表示画像の次の第２の表示画像の表示中にサポータ端末側で出力されることを抑制あるいは回避することが可能である。

特に、請求項４に記載の発明によれば、サポータ端末における第１の表示画像から第２の表示画像への変更は、第１の合成音声データの送信完了から第１の合成音声データの出力所要時間が経過した時点以後において行われる。したがって、第１の表示画像を見ながら発せられたユーザの音声が、当該音声の到達遅延に起因して第１の表示画像の次の第２の表示画像の表示中にサポータ端末側で出力されることをより抑制あるいは回避することが可能である。

特に、請求項５に記載の発明によれば、複数の代替音声データの生成が合成ユーザ音声データの生成に先立つ所定の時点から開始されるとともに、生成された代替音声データが格納手段に格納される。そして、ユーザ音声データに秘匿ワードが含まれ且つ秘匿ワードに対応する代替音声データが格納手段に既に格納されている場合には、格納手段に格納されている代替音声データを用いて合成ユーザ音声データが生成され、合成ユーザ音声データがサポータ端末に送信される。したがって、ユーザ音声データに秘匿ワードが含まれると判定した時点から代替音声データの生成を常に開始する場合と比べて、合成音声データの生成に要する時間が短縮される。その結果、サポータ端末への合成音声データの送信の遅延を抑制することが可能である。

特に、請求項１３に記載の発明によれば、第２の音声データに対する音声処理において、第１の合成音声データの生成に利用され格納されていた代替音声データを用いて第２の合成音声データが生成されるので、当該代替音声データの生成を再び行わずに済む。したがって、第２の合成音声データの生成に要する時間が短縮されるので、サポータ端末への第２の合成音声データの送信の遅延を抑制することが可能である。

特に、請求項１４に記載の発明によれば、サポータにより発せられたサポータ音声データに含まれる代替ワードを、当該代替ワードに対応する第２の秘匿音声データに置き換えた合成サポータ音声データが、ユーザ側に送信されるので、サポータ音声データ内に含まれる代替ワードがユーザに伝わることがない。したがって、ユーザの知らない代替ワードが画像形成装置において音声出力されることに起因したユーザの混乱を回避することが可能である。

特に、請求項１５に記載の発明によれば、合成ユーザ音声データの生成の際に、ユーザにより過去に発せられた音声データが秘匿音声データとして格納手段に格納され、合成サポータ音声データの生成の際に、当該格納手段に既に格納されている秘匿音声データを第２の秘匿音声データとして用いて合成サポータ音声データが生成される。したがって、当該第２の秘匿音声データの生成を再び行わずに済むので、合成サポータ音声データの生成に要する時間が短縮される。その結果、画像形成装置への合成音声データの送信の遅延を抑制することが可能である。

操作案内システムの構成を示す図である。ＭＦＰの概略構成を示す機能ブロック図である。案内サーバの概略構成を示す機能ブロック図である。サポータ端末の概略構成を示す機能ブロック図である。操作案内システムの動作の概要を示す図である。第１実施形態に係る画像データおよび音声データに関するタイミングを示す図である。操作案内システムの動作を示す図である。画像データの画像処理等を示すフローチャートである。秘匿ワードと代替ワードとの対応（変換辞書）を示す図である。ユーザ音声データの音声処理等を示すフローチャートである。合成音声データの生成に関する音声処理を示す図である。第１実施形態に係る画像データおよび音声データに関するタイミングを示す図である。第２実施形態に係る画像データおよび音声データに関するタイミングを示す図である。第２実施形態に係る音声データの音声処理等を示すフローチャートである。第２実施形態に係る画像データの画像処理等を示すフローチャートである。第２実施形態の変形例に係る画像データおよび音声データに関するタイミングを示す図である。第２実施形態の変形例に係る音声データの音声処理等を示すフローチャートである。第３実施形態に係る画像データおよび音声データに関するタイミングを示す図である。第３実施形態に係る音声データの音声処理等を示すフローチャートである。秘匿ワードと代替ワードとの対応（変換辞書）を示す図である。第４実施形態に係る音声データの音声処理等を示すフローチャートである。第４実施形態に係る画像データおよび音声データに関するタイミングを示す図である。第４実施形態に係る操作案内システムの動作を示す図である。第４実施形態に係る操作案内システムの動作を示す図である。第５実施形態に係る画像データと合成画像データとを示す図である。第５実施形態に係る画像データと合成画像データとを示す図である。第５実施形態に係る秘匿ワードと代替ワードとの対応（変換辞書）を示す図である。変形例に係るサポータからユーザへの音声データの音声処理等を示すフローチャートである。変形例に係る操作案内システムの動作を示す図である。変形例に係る操作案内システムの動作を示す図である。変形例に係る操作案内システムの動作を示す図である。

以下、本発明の実施形態を図面に基づいて説明する。

＜１−１．システム概要＞
図１は、操作案内システム１の構成を示す概略図である。

図１に示すように、操作案内システム１は、画像形成装置１０と案内サーバ５０とサポータ端末７０とを備えて形成されている。ここでは、画像形成装置１０として、ＭＦＰ（マルチ・ファンクション・ペリフェラル（Multi-Functional Peripheral））が例示される。

操作案内システム１における各要素１０，５０，７０とは、ネットワーク１０８を介して互いに通信可能に接続される。なお、ネットワーク１０８は、ＬＡＮ、ＷＡＮ、インターネットなどによって構成される。また、ネットワーク１０８への接続形態は、有線接続であってもよく或いは無線接続であってもよい。

操作案内システム１は、ＭＦＰ（画像形成装置）１０の操作案内を行うシステムである。ＭＦＰ１０のユーザ１０１からの依頼に応じて、サポータ１０２（ユーザ１０１を支援する人物）は、サポータ端末７０を用いて当該ユーザ１０１に対して操作案内を行う。

ＭＦＰ１０とサポータ端末７０との間においては、画像データ３００およびユーザ音声データ４００（ユーザにより発せられた音声のデータ）に関する通信が案内サーバ５０を介して行われる。案内サーバ５０は、画像および音声の伝送に関して、ＭＦＰ１０とサポータ端末７０とを媒介する機能を有している。

サポータ端末７０には、案内サーバ５０を介したＭＦＰ１０からの画像データ３００に基づいて、ＭＦＰ１０の操作画面と同様の画面が表示される。これにより、サポータ１０２は、ユーザ１０１が見ている画面と同様の画面を見ながら、ユーザ１０１に対する操作案内を行うことができる。また、ＭＦＰ１０のマイクロホン１８を介して入力されたユーザ１０１の音声は、案内サーバ５０を介してサポータ端末７０に送信される。これにより、サポータ１０２は、ユーザ１０１の音声を聞きながら、ユーザ１０１に対する操作案内を行うことができる。

ただし、案内サーバ５０は、画像（詳細には、ＭＦＰ１０の操作案内画面）に関する変換処理を行う。たとえば、後述するように、案内サーバ５０は、ＭＦＰ１０から送信されてきた（当該ＭＦＰ１０の）操作案内画面に秘匿ワード１１０（機密情報）が含まれる場合には、当該秘匿ワード１１０を適宜の代替ワード２１０に変換した画像を生成する。そして、案内サーバ５０は、変換後の当該画像をサポータ端末７０における表示用画像としてサポータ端末７０に送信する。サポータ端末７０では変換後の当該画像が操作案内用の画面として表示される。これによれば、操作案内用の画像から機密情報が漏洩することを回避することが可能である。

さらに、案内サーバ５０は、音声に関する変換処理をも行う。たとえば、後述するように、案内サーバ５０は、ＭＦＰ１０から送信されてきたユーザ音声に秘匿ワード１１０（機密情報）が含まれる場合には、当該秘匿ワード１１０を適宜の代替ワード２１０に変換した音声データを生成して、当該変換後の音声データをサポータ端末７０に送信する。サポータ端末７０では変換後の当該音声データに基づく音声が出力される。これによれば、ユーザ１０１の音声から機密情報が漏洩することを回避することが可能である。

以下、このような操作案内システムについて詳細に説明する。

＜１−２．ＭＦＰの構成＞
図２は、ＭＦＰ１０の概略構成を示す機能ブロック図である。ＭＦＰ１０は、スキャン機能、コピー機能、ファクシミリ機能およびボックス格納機能などを備える装置（複合機とも称する）である。ＭＦＰは、複数の動作モード（具体的には、コピーモード、スキャンモード、ファクシミリ送信モード、ボックスモード）を有しており、各モードにおいて対応機能の動作が実行される。

図２の機能ブロック図に示すように、このＭＦＰ１０は、画像読取部２、印刷出力部３、通信部４、格納部５、操作部６、コントローラ９、スピーカ１７およびマイクロホン１８等を備えており、これらの各部を複合的に動作させることによって、各種の機能を実現する。なお、ＭＦＰ１０は、画像形成装置あるいは印刷出力装置などとも表現される。

画像読取部２は、ＭＦＰ１０の所定の位置に載置された原稿を光学的に読み取って（すなわちスキャンして）、当該原稿の画像データ（原稿画像ないしスキャン画像とも称する）を生成する処理部である。この画像読取部２は、スキャン部であるとも称される。

印刷出力部３は、印刷対象に関するデータに基づいて紙などの各種の媒体に画像を印刷出力する出力部である。なお、印刷出力部３は、各種の媒体上に画像を形成する画像形成部とも称される。

通信部４は、公衆回線等を介したファクシミリ通信を行うことが可能な処理部である。さらに、通信部４は、ネットワーク１０８を介したネットワーク通信が可能である。このネットワーク通信では、ＴＣＰ／ＩＰ（Transmission Control Protocol / Internet Protocol）およびＦＴＰ（File Transfer Protocol）等の各種のプロトコルが利用される。当該ネットワーク通信を利用することによって、ＭＦＰ１０は、所望の相手先との間で各種のデータを授受することが可能である。通信部４は、各種データを送信する送信部４ａと各種データを受信する受信部４ｂとを有する。

格納部５は、ハードディスクドライブ（ＨＤＤ）等の記憶装置で構成される。また、格納部５には、各ユーザ向けに複数のボックス（フォルダ）が設けられており、各ボックスには、電子文書データ（文書ファイル）等が保存される。

操作部６は、ＭＦＰ１０に対する入力を受け付ける操作入力部６ａと、各種情報の表示出力を行う表示部６ｂとを備えている。詳細には、ＭＦＰ１０には操作パネル６ｃ（図１参照）が設けられている。この操作パネル（タッチスクリーン）６ｃは、その正面側にタッチパネル２５を有している。タッチパネル２５は、液晶表示パネルに圧電センサ等が埋め込まれて構成され、各種情報を表示するとともに操作者からの操作入力を受け付けることが可能である。タッチパネル２５は、操作入力部６ａの一部としても機能するとともに、表示部６ｂの一部としても機能する。

コントローラ９は、ＭＦＰ１０に内蔵され、ＭＦＰ１０を統括的に制御する制御装置である。コントローラ９は、ＣＰＵおよび各種の半導体メモリ（ＲＡＭおよびＲＯＭ）等を備えるコンピュータシステムとして構成される。コントローラ９は、ＣＰＵにおいて、ＲＯＭ（例えば、ＥＥＰＲＯＭ）内に格納されている所定のソフトウエアプログラム（以下、単にプログラムとも称する）を実行することによって、各種の処理部を実現する。なお、当該プログラムは、ＵＳＢメモリなどの可搬性の記録媒体、あるいはネットワーク等を介してＭＦＰ１０にインストールされるようにしてもよい。

図２に示すように、コントローラ９は、通信制御部１１と入力制御部１２と表示制御部１３と格納制御部１４とを含む各種の処理部を実現する。

通信制御部１１は、他の装置（案内サーバ５０等）との間の通信動作を制御する処理部である。たとえば、通信制御部１１は、通信部４等と協働して、案内サーバ５０からの各種指令を受信する。

入力制御部１２は、操作入力部６ａに対する操作入力動作を制御する制御部である。たとえば、入力制御部１２は、操作画面に対する操作入力を受け付ける動作を制御する。

表示制御部１３は、表示部６ｂにおける表示動作を制御する処理部である。たとえば、表示制御部１３は、ＭＦＰ１０を操作するための操作画面等を表示部６ｂに表示させる。

格納制御部１４は、格納ジョブに関するデータ格納処理等を制御する処理部である。

スピーカ１７は、音声データに基づき音を発する装置である。また、スピーカ１７は、ＭＦＰ１０に内蔵されるものであってもよく、ＭＦＰ１０に対して端子を介して取り付けられるものであってもよい。

マイクロホン１８は、ユーザの音声等を電気信号（アナログ信号）に変換する装置である。また、マイクロホン１８は、ＭＦＰ１０に内蔵されるものであってもよく、ＭＦＰ１０に対して端子を介して取り付けられるものであってもよい。なお、電気信号（アナログ信号）はコントローラ９によってデジタルデータ化（音声データに変換）される。

＜１−３．案内サーバの構成＞
図３は、案内サーバ５０の概略構成を示す機能ブロック図である。

案内サーバ５０は、ＭＦＰ１０の操作案内に関して、ＭＦＰ１０とサポータ端末７０とを媒介（ないし中継）する装置である。

また、案内サーバ５０は、ＣＰＵおよび各種の半導体メモリ（ＲＡＭおよびＲＯＭ等）等を備えるコンピュータシステムとして構成される。処理制御部６０は、ＣＰＵにおいて、ＲＯＭ（たとえば、ＥＥＰＲＯＭ等）内に格納されている所定のソフトウエアプログラムを実行することによって、各種の処理部を実現する。なお、当該プログラムは、ＵＳＢメモリなどの可搬性の記録媒体、あるいはネットワーク等を介して案内サーバ５０にインストールされるようにしてもよい。

具体的には、案内サーバ５０は、当該プログラムの実行に伴って、画像処理部６０ａ、音声処理部６０ｂおよび通信制御部６７を含む各種の処理部を実現する。

画像処理部６０ａは、受信した画像データの各種画像処理を行う処理部である。

図３に示すように、画像処理部６０ａは、画像生成部６１を有する。画像生成部６１は、操作画面に関する画像合成処理（画像生成処理）を行う。

音声処理部６０ｂは、受信した音声データの各種音声処理を行う処理部である。

図３に示すように、音声処理部６０ｂは、音声認識部６４と音声生成部６５とを有する。音声認識部６４は、受信した音声データ等に対する音声認識処理を行う。また、音声生成部６５は、受信した音声データ等を加工して音声合成処理（機械音声生成処理）を行う。

通信制御部６７は、通信部５４と協働して、通信相手先（たとえば、ＭＦＰ１０）との間のデータの送受信動作を制御する処理部である。

案内サーバ５０の格納部５５は、ハードディスクドライブ（ＨＤＤ）等の記憶装置で構成される。

また、案内サーバ５０は、通信部５４をさらに備えている。

通信部５４は、ネットワーク１０８を介したネットワーク通信が可能である。このネットワーク通信では、ＴＣＰ／ＩＰ（Transmission Control Protocol / Internet Protocol）およびＦＴＰ（File Transfer Protocol）等の各種のプロトコルが利用される。当該ネットワーク通信を利用することによって、案内サーバ５０は、所望の相手先との間で各種のデータを授受することが可能である。通信部４４は、各種データを送信する送信部５４ａと各種データを受信する受信部５４ｂとを有する。送信部５４ａは、画像データの送信を行う画像送信部と音声データの送信を行う音声送信部とを有し、受信部５４ｂは、画像データの受信を行う画像受信部と音声データの受信を行う音声受信部とを有する。

＜１−４．サポータ端末の構成＞
図４は、サポータ端末７０の概略構成を示す機能ブロック図である。

サポータ端末７０は、いわゆるパーソナルコンピュータとして構成される。また、サポータ端末７０は、サポータにより操作され、ユーザへの案内に利用される補助装置である。

サポータ端末７０は、操作部７６を備えている。操作部７６は、サポータ端末７０に対する操作入力を受け付ける操作入力部７６ａと、各種データの表示出力を行う表示部７６ｂとを有している。また、サポータ端末７０は、ＭＦＰ１０を遠隔操作することが可能であり、表示部７６ｂには、ＭＦＰ１０の表示部６ｂに対応する表示画面が表示される。

また、サポータ端末７０は、ＣＰＵおよび半導体メモリ等を備えている。サポータ端末７０は、そのＣＰＵにおいて、所定のソフトウエアプログラムを実行することによって、各種の処理部を実現する。具体的には、図４に示されるように、サポータ端末７０は、通信制御部７１および入力制御部７２等の各種処理部を実現する。

通信制御部７１は、通信部７４と協働して、通信宛先（たとえば、案内サーバ５０等）との間のデータの送受信動作を制御する処理部である。

入力制御部７２は、操作入力部７６ａに対する操作入力動作を制御する制御部である。

スピーカ７７は、案内サーバ５０等からの音声データに基づき音を発する装置である。また、スピーカ７７は、サポータ端末７０に内蔵されるものであってもよく、サポータ端末７０に対して端子を介して取り付けられるものであってもよい。

マイクロホン７８は、ユーザの音声等を電気信号（アナログ信号）に変換する装置である。また、マイクロホン７８は、ＭＦＰ１０に内蔵されるものであってもよく、ＭＦＰ１０に対して外部接続により取り付けられるものであってもよい。なお、電気信号（アナログ信号）はコントローラ９によってデジタルデータ化（音声データに変換）される。

＜１−５．動作＞
つぎに、第１実施形態に係る操作案内システム１の動作について図５〜図１１を参照しながら説明する。

図５は、操作案内システム１の動作を示す図である。案内サーバ５０は、ＭＦＰ１０から画像データ３００（表示画像データ３００）を受信する。そして、当該画像データ３０１に秘匿ワード１１０（後述）が含まれる場合には、案内サーバ５０は、画像処理（画像変換処理等）により合成画像データ３５０を生成し、合成画像データ３５０をサポータ端末７０に送信する。また、案内サーバ５０は、ＭＦＰ１０からユーザ音声データ４００を受信する。当該ユーザ音声データ４００に秘匿ワード１１０が含まれる場合には、案内サーバ５０は、音声処理により合成音声データ４５０（合成ユーザ音声データ４５０）を生成し、合成音声データ４５０をサポータ端末７０に送信する。

これにより、画像データ３００（３０１）およびユーザ音声データ４００に含まれる秘匿ワード１１０がサポータ１０２に漏洩することを回避することが可能である。

図６を参照して画像処理および音声処理についてより詳細に説明する。図６は、第１実施形態に係る画像データおよび音声データに関するタイミングを示す図である。

ＭＦＰ１０は、タッチパネル２５に表示された画像データ３００（３０１）を案内サーバ５０に送信する。また、ＭＦＰ１０は、ユーザ１０１により発せられた音声のデータを含むユーザ音声データ４００を案内サーバ５０に送信する。

案内サーバ５０は、ＭＦＰ１０から画像データ３０１を受信すると、画像処理（後述）により合成画像データ３５０（３５１）を生成し、サポータ端末７０に送信する。また、案内サーバ５０は、ユーザ音声データ４００の一部である部分音声データ４３０（後述）を抽出する。そして、案内サーバ５０は、音声処理（後述）により合成音声データ４５０（４５１）を生成し、サポータ端末７０に送信する。

サポータ端末７０は、案内サーバ５０から合成画像データ３５１を受信すると、表示部７６ｂに表示する。また、サポータ端末７０は、案内サーバ５０から合成音声データ４５１を受信すると、合成音声データ４５１を出力（再生）する。

以下において、このような第１実施形態に係る画像処理および音声処理について、より具体的に説明する。

まず、画像処理に関して、図７等を参照して説明する。図７は、第１実施形態における案内サーバ５０の動作を示す図である。図７では、ＭＦＰ１０を操作している或るユーザ１０１が、ＭＦＰ１０のスキャン機能に関する操作方法についてサポートセンターに問い合わせを行う状況を想定する。

図７に示すように、ユーザ１０１が、ＭＦＰ１０のタッチパネル２５に表示された表示画像のデータである表示画像データ３０１を見ながら、サポートセンターに対してサポート依頼の問い合わせを行う。具体的には、ユーザ１０１が、スキャン画像送信における宛先指定画面を見ながら、ＭＦＰ１０の操作パネル６ｃに配設されたヘルプボタン（不図示）を押下する。ヘルプボタンがユーザ１０１により押下されると、ＭＦＰ１０（具体的には、送信部４ａ）は、ユーザ１０１からの操作案内の発生を示すサポート依頼の信号を案内サーバ５０へと送信する。

図８は、当該サポート依頼の信号が案内サーバ５０により受信された後の画像処理に関する動作を示すフローチャートである。

案内サーバ５０の受信部５４ｂがＭＦＰ１０からのサポート依頼の信号を受信すると、案内サーバ５０の送信部５４ａはサポータ端末７０へとサポート依頼の信号を送信する（ステップＳ１１）。

その後、サポータ１０２がサポータ端末７０の案内開始ボタン（不図示）を押下すると、操作案内を開始すべき旨の信号（開始信号）がサポータ端末７０から案内サーバ５０へと送信され、案内サーバ５０は当該操作案内の開始信号をＭＦＰ１０に送信する。これにより、ＭＦＰ１０とサポータ端末７０とは操作案内モードに遷移する。

操作案内の開始信号を受信したＭＦＰ１０（具体的には、送信部４ａ）は、タッチパネル２５に表示中の画像データ３０１を案内サーバ５０に送信し、案内サーバ５０（具体的には、受信部５４ｂ）はＭＦＰ１０から画像データ３０１を受信する（ステップＳ１２）。そして、案内サーバ５０（具体的には、画像生成部６１）は、画像データ３０１に秘匿ワード１１０（後述）が含まれるか否かを判定する（ステップＳ１３）。より詳細には、画像生成部６１は、画像データ３０１に対するＯＣＲ処理によって文字認識を行い、秘匿ワード１１０が含まれるか否かを判定する。

画像データ３０１の受信に際して、案内サーバ５０は、画像データ３０１に含まれる秘匿ワード１１０のリストである秘匿ワードリスト６０１（図９参照）をもＭＦＰ１０から受信する。秘匿ワードリスト６０１には、宛先指定画面（画像データ３０１）に含まれる宛先が秘匿ワード１１０として抽出され、登録されている。そして、案内サーバ５０は、当該秘匿ワードリスト６０１に基づいて変換辞書６５１を生成する。生成された変換辞書６５１には、秘匿ワード１１０と、当該秘匿ワード１１０に対応する代替ワード２１０とが登録されている。

変換辞書６５１について、具体的には、「長谷不動産」（１１１（１１０））、「高橋電器」（１１２（１１０））および「松原工務店」（１１３（１１０））が秘匿ワード１１０として登録されている。さらに、秘匿ワード１１１「長谷不動産」に対応する代替ワード２１１（２１０）として「ＡＢＣ」が登録され、秘匿ワード１１２「高橋電器」に対応する代替ワード２１２（２１０）として「ＤＥＦ」が登録され、秘匿ワード１１３「松原工務店」に対応する代替ワード２１３（２１０）として「ＧＨＩＪ」が登録されている。各代替ワード２１０は、案内サーバ５０によって自動的に生成される。

ここにおいて、秘匿ワード１１０は、ユーザの秘匿すべき情報等を示す語句（ワード）である。また、本実施形態においては、タッチパネル２５に表示中の画像データ３０１に含まれる秘匿すべきワード（より詳細には、スキャン画像送信における宛先指定画面の送信宛先）が秘匿ワード１１０として案内サーバ５０により決定される。

秘匿ワード１１０が画像データ３０１に含まれる旨がステップＳ１３において判定される場合には、案内サーバ５０は、変換辞書６５１に基づいて、当該秘匿ワード１１０を、当該秘匿ワード１１０に対応する代替ワード２１０に置き換えた合成画像のデータである合成画像データ３５１を生成する（ステップＳ１４）。合成画像データ３５１が生成されると、案内サーバ５０は、当該合成画像データ３５１をサポータ端末７０での表示用データとしてサポータ端末７０に送信する（ステップＳ１５）。合成画像データ３５１を受信したサポータ端末７０の表示部７６ｂには、画像データ３０１に代えて合成画像データ３５１が表示される（図７参照）。

一方、画像データ３０１に秘匿ワード１１０が含まれない旨が判定される場合には、案内サーバ５０は、ステップＳ１４の処理を行わず、ステップＳ１５では、画像データ３０１がそのまま合成画像データ３５１として利用される。すなわち、画像データ３０１がサポータ端末７０に送信されて、表示部７６ｂに画像データ３０１がそのまま表示される。

つぎに、音声処理に関して説明する。

ＭＦＰ１０は、操作案内の開始信号を受信すると、ユーザ音声データ４００の送信を開始する。

図７では、ユーザ１０１が、ＭＦＰ１０のタッチパネル２５に表示中の画像データ３０１を見ながら、ＭＦＰ１０に対して「ファイルをスキャンして長谷不動産に送りたいのです。」との音声を発した状況が想定される。

ユーザ１０１により発せられた音声が、マイクロホン１８を介してＭＦＰ１０に入力されると、ＭＦＰ１０は、当該音声のデータであるユーザ音声データ４００を案内サーバ５０に送信する。ここにおいて、ユーザ音声データ４００は、リアルタイムで（随時）案内サーバ５０に送信されている。

当該ユーザ音声データ４００が案内サーバ５０により受信された後の動作を図１０のフローチャートを参照して説明する。案内サーバ５０（具体的には、受信部５４ｂ）がユーザ音声データ４００を受信すると（ステップＳ２０）、音声認識部６４は、ユーザ音声データ４００に非無音部分が存在するか否かを判定する（ステップＳ２１）。非無音部分が存在していることが判定されると、つぎに音声認識部６４は、ユーザ音声データ４００に所定時間以上の無音部分が存在するか否かを判定する（ステップＳ２２）。

ユーザ音声データ４００に所定時間以上の無音部分が存在していることが判定される場合に、音声認識部６４は、ユーザ音声データ４００の一部の音声データである部分音声データ４３０を抽出する（ステップＳ２３）。換言すれば、ユーザ音声データ４００のうち、所定時間の無音状態が経過した時点を終端とするように区分した部分音声データが部分音声データ４３０として抽出される。

ここにおいて、部分音声データ４３０は、ユーザ音声データ４００のうち、非無音部分の開始時点と、当該非無音部分の終端時点から所定時間の無音状態が経過した時点とに挟まれた区間（期間）の音声データである。ユーザ音声データ４００には無音部分と非無音部分とが存在し、ユーザ音声データ４００は当該無音部分等によって複数の部分音声データ４３０に区分される。

なお、当該無音部分の存否判定のための所定時間は、比較的短い期間（たとえば０．５秒）に設定されることが好ましい。当該無音部分の所定時間が比較的短い期間に設定されることによれば、部分音声データ４３０も比較的短い期間のデータとして音声認識部６４により抽出される。その結果、部分音声データ４３０に対応する合成音声データ４５０のサポータ端末７０への送信遅延を抑制することが可能である（後述）。

部分音声データ４３０がステップＳ２３において抽出されると、案内サーバ５０（具体的には、音声生成部６５）は、部分音声データ４３０に対する音声認識処理によって、当該部分音声データ４３０に秘匿ワード１１０が含まれるか否かを判定する（ステップＳ２４）。

部分音声データ４３０内に秘匿ワード１１０が含まれる旨が音声認識部６４によって判定される場合には、音声生成部６５は、変換辞書６５１（図９参照）に基づいて、秘匿ワード１１０に対応する代替ワード２１０の音声データである代替音声データ２５０を生成する（ステップＳ２５）。

より詳細には、ステップＳ２４では、音声生成部６５は、ユーザ１０１により発せられた部分音声データ４３０に秘匿ワード１１１「長谷不動産」が含まれる旨を、変換辞書６５１に基づいて判定する。そして、この判定に応じて、ステップＳ２５では、音声生成部６５は、秘匿ワード１１１「長谷不動産」に対応する代替ワード２１１「ＡＢＣ」の代替音声データ２５０（２５１）を機械音声生成処理により生成する。なお、代替音声データ２５０は、人間の声を模して人工的に生成された音声データ（機械音声データ）である。

代替音声データ２５１がステップＳ２５において生成されると、音声生成部６５は、部分音声データ４３０内の秘匿ワード１１０の音声データである秘匿音声データ１５０（１５１を）、当該代替音声データ２５１に置き換えたデータである合成音声データ４５０（４５１）を生成する（ステップＳ２６）。そして、案内サーバ５０は、合成音声データ４５０をサポータ端末７０での音声出力用データとしてサポータ端末７０に送信する（ステップＳ２７）。なお、秘匿音声データ１５０は、ＭＦＰ１０において録音されたユーザ１０１の音声（秘匿ワード１１０に対応する音声）の音声データ（録音音声データ）である。

一方、部分音声データ４３０に秘匿ワード１１０が含まれない旨が判定される場合には、音声生成部６５は、ステップＳ２５およびＳ２６の処理を行わず、部分音声データ４３０をそのまま合成音声データ４５０として利用する。すなわち、部分音声データ４３０がサポータ端末７０に送信されて、部分音声データ４３０がそのまま出力される。

合成音声データ４５０（４５１）を受信したサポータ端末７０は、スピーカ７７を介して、部分音声データ４３０に代えて合成音声データ４５０（４５１）を出力する。具体的には、サポータ端末７０において、ユーザ１０１の発した音声のうち、「ファイルをスキャンして」および「に送りたいのです。」は、ユーザ１０１の発した音声により出力され、秘匿ワード１１１である「長谷不動産」は、代替音声データ２５１による「ＡＢＣ」に変更されて出力される。

図１１は、合成音声データ４５１の生成に関する音声処理を示す図である。図１１において、ユーザ１０１により発せられた音声である「ファイルをスキャンして長谷不動産に送りたいのです。」の部分音声データ４３１（４３０）には、秘匿ワード１１１「長谷不動産」が含まれる。この場合において、音声生成部６５は、部分音声データ４３１に含まれる秘匿ワード１１１「長谷不動産」の秘匿音声データ１５０（１５１）を、秘匿ワード１１１に対応する代替ワード２１１「ＡＢＣ」の代替音声データ２５０（２５１）に置き換えて、合成音声データ４５１（４５０）を生成する。換言すると、音声生成部６５は、部分音声データ４３０（４３１）のうち秘匿ワード１１１を除いた部分の音声データと、代替音声データ２５０（２５１）とを合成して合成音声データ４５０（４５１）を生成する。

以上のような動作によれば、ユーザ１０１により操作されるＭＦＰ１０の表示画面内に秘匿ワード１１０が含まれる場合に、秘匿ワード１１０を代替ワード２１０に置き換えた合成画像データ３５０（３５１）がサポータ端末７０に送信されるので、当該秘匿ワード１１０がサポータ端末７０の表示部７６ｂに表示されない。したがって、ユーザ１０１により操作されるＭＦＰ１０の表示画面内に含まれる機密情報の漏洩を回避することが可能である。

また、特に、ユーザ１０１の発した音声の部分音声データ４３０内に秘匿ワード１１０が含まれる旨が判定される場合に、部分音声データ４３０（４３１）内の秘匿音声データ１５０（１５１）を代替音声データ２５１に置き換えた合成音声データ４５０（４５１）がサポータ端末７０に送信される。したがって、ユーザ１０１により発せられた秘匿ワード１１０の音声がサポータ端末７０へとそのまま送信されない。その結果、ユーザ１０１の音声に含まれる機密情報の漏洩を回避することが可能である。

また、仮に、ユーザ１０１により発せられた音声のユーザ音声データ４００から部分音声データ４３０を抽出しない場合には、ユーザ音声データ４００の長さ（ユーザ１０１の音声の時間）が大きくなり、サポータ端末７０への合成音声データ４５０の送信が大きく遅延する。一方、第１実施形態においては、ユーザ１０１の発した音声のユーザ音声データ４００が比較的短い期間で区切られ、ユーザ音声データ４００から複数の部分音声データ４３０が順次に抽出され、当該複数の部分音声データ４３０がサポータ端末７０に順次に送信される。すなわち、部分音声データ４３０に対応する合成音声データ４５０は、ユーザ音声データ４００のうち部分音声データ４３０の次の部分に対する処理の終了を待つことなく、比較的早期にサポータ端末７０に送信され得る。したがって、サポータ端末７０への音声データの送信の遅延を抑制することが可能である。

＜第２実施形態＞
第２実施形態は、第１実施形態の変形例である。以下では、第１実施形態との相違点を中心に説明する。

第１実施形態においては、画像生成部６１による合成画像データ３５１の生成が完了した直後に、合成音声データ４５１の送信タイミングを考慮することなく、当該合成画像データ３５０が案内サーバ５０からサポータ端末７０に送信される。そのため、図１２に示すような問題が生じ得る。

図１２においては、ユーザ１０１による発声中（詳細には部分音声データ４３０の生成中（録音中））に、ユーザ１０１の操作に応じて、ＭＦＰ１０のタッチパネル２５の表示画像が画像データ３０１に基づく画像から画像データ３０２（後述）に基づく画像へと切り替えられている。たとえば、ユーザ１０１が画像データ３０１に基づく画像を見ながら喋っているにもかかわらず、喋っている途中で先回りして操作画面を切り換える操作をも行うような状況が想定される。

また、図１２においては、画像データ３０２に関する合成画像データ３５２の生成が完了した直後に、合成音声データ４５１の送信タイミングとの関係を考慮することなく、合成画像データ３５２が案内サーバ５０からサポータ端末７０に送信されている。そして、この送信動作に応じて、サポータ端末７０における表示画像は、合成画像データ３５１に基づく画像から合成画像データ３５２に基づく画像へと変更される。さらに、当該表示画像の変更後（換言すれば、新たな合成画像データ３５２に基づく画像の表示中）において、部分音声データ４３０に対応する合成音声データ４５１がサポータ端末７０にて出力される。

その結果、元の画像データ３０１に基づく画像を見ながら発せられた音声に対応する合成音声データ４５１が、本来は合成画像データ３５１の表示中に出力されるべきであるにもかかわらず、合成画像データ３５２（画像データ３０１の次の画像データ３０２に対応する合成画像データ）の表示中に出力される。このような画像と音声との「ずれ」に起因して、サポータ１０２の混乱が生じる可能性がある。

なお、画像データ３０２は、表示画像データ３０１に基づく表示画像に引き続いてＭＦＰ１０のタッチパネル２５に表示された表示画像の画像データである。

第２実施形態では、このような問題に鑑みて、合成音声データ４５１の送信完了後の所定時点まで（詳細には、合成音声データ４５１の送信完了から合成音声データ４５１の出力所要時間が経過する時点まで）、合成画像データ３５２の送信を停止させる態様を例示する。

図１３は、第２実施形態に係る画像データ３００および部分音声データ４３０の送信タイミング等を示すタイミングチャートである。

第２実施形態では、ユーザ１０１による発声中（詳細には、部分音声データ４３０の生成中）に、ユーザ１０１が先回りして操作画面の切換操作を行い、ユーザ１０１の操作に応じて、ＭＦＰ１０のタッチパネル２５の表示画像が画像データ３０１に基づく画像から画像データ３０２に基づく画像へと切り替えられた状況を想定する。また、部分音声データ４３０は、画像データ３０１の表示中にユーザ１０１により発せられた音声をその冒頭部分等に含む音声データである。以下、音声処理および画像処理に関して順次に説明する。

まず、音声処理に関して、図１４を参照し、図１０と比較しながら説明する。図１４は、第２実施形態に係るユーザ音声データ４００の音声処理等を示すフローチャートである。

図１４においては、ステップＳ２１とステップＳ２２との間にステップＳ４１が設けられ、ステップＳ２７の後にステップＳ４２とステップＳ４３とが設けられている。具体的には、案内サーバ５０は、非無音部分がユーザ音声データ４００内に存在する旨が音声認識部６４により判定されると（ステップＳ２１）、停止フラグＦＧをオン（ＯＮ）に変更する（ステップＳ４１）。

ここにおいて、停止フラグＦＧは、格納部５５に格納されるフラグ情報であり、音声認識部６４あるいは音声生成部６５により制御される。停止フラグＦＧは、オン（ＯＮ）またはオフ（ＯＦＦ）に設定（変更）される。案内サーバ５０の送信部５４ａは、当該停止フラグＦＧがＯＮであるかＯＦＦであるかによって画像の送信を行うか否かを決定する。停止フラグＦＧがＯＮであれば、送信部５４ａは画像を送信しない。停止フラグＦＧがＯＦＦであれば、送信部５４ａは画像を送信する。

この停止フラグＦＧがＯＮに変更された後、案内サーバ５０は、図１０と同様に、ステップＳ２２〜Ｓ２７の各処理を実行する。これにより、部分音声データ４３０に対応する合成音声データ４５０がサポータ端末７０に送信される。

案内サーバ５０がサポータ端末７０に合成音声データ４５０を送信すると、サポータ端末７０は合成音声データ４５０を出力する。そして、案内サーバ５０による合成音声データ４５０の送信完了から合成音声データ４５０の出力所要時間が経過すると（ステップＳ４２）、案内サーバ５０は停止フラグＦＧをＯＦＦに変更する（ステップＳ４３）。

なお、出力所要時間（再生所要時間）は、合成音声データ４５０の出力（再生）に要する時間である。当該出力所要時間は、部分音声データ４３０（合成音声データ４５０）の録音時間であるとも表現される。出力所要時間は、音声認識部６４によって取得されればよい。ただし、これに限定されず、合成音声データ４５０の生成中に音声生成部６５が出力所要時間を算出してもよい。あるいは、合成音声データ４５０の出力が終了した旨の信号をサポータ端末７０が案内サーバ５０に送信し、当該出力所要時間が経過したことがサポータ端末７０から案内サーバ５０に通知されるようにしてもよい。

このようにして、合成音声データ４５０が案内サーバ５０からサポータ端末７０に送信され、サポータ端末７０にて合成音声データ４５０が出力される。ユーザ音声データ４００における非無音部分の検出時点（部分音声データ４３０（４３１）の開始時点）と、当該部分音声データ４３０（４３１）に対応する合成音声データ４５０（４５１）の送信完了から当該合成音声データ４５０（４５１）の出力所要時間（再生所要時間）が経過した時点との間の期間Ｔ１（図１３参照）においては、停止フラグＦＧはオン（ＯＮ）に設定される。一方、それ以外の期間（たとえばユーザ音声データ４００における無音部分（部分音声データ４３０ではないと判定される部分）の受信期間）においては、停止フラグＦＧはオフ（ＯＦＦ）に設定される。

つぎに、画像処理に関して、図１５を参照し、図８と比較しながら説明する。図１５は、第２実施形態に係る画像処理等を示すフローチャートである。以下では、図１５を参照しながら、画像データ３０１の次の画像データ３０２に関する画像処理について説明する。画像データ３０１に関する画像処理は、第１実施形態と同様の動作（図８参照）により既に終了しているものとする。

図１５に示すように、ステップＳ３２〜Ｓ３５の各処理は、図８におけるステップＳ１２〜Ｓ１５の各処理と同様である。なお、サポート依頼の信号の送受信動作は画像データ３０１の送信前に既に終了しているので、図８のステップＳ１１の処理は図１５においては記載されていない。

図１５では、ステップＳ３４とステップＳ３５との間にステップＳ３６が設けられている。ステップＳ３６では、画像生成部６１により生成された合成画像データ３５２をサポータ端末７０に送信する前に、案内サーバ５０（具体的には、送信部５４ａ）が、図１４の音声処理にて設定された停止フラグＦＧの値（ＯＮであるかＯＦＦであるか）を認識する。

停止フラグＦＧがＯＦＦであると認識される場合には、案内サーバ５０は、合成画像データ３５２の送信を許可し、合成画像データ３５２をサポータ端末７０に送信する（ステップＳ３５）。一方、停止フラグＦＧがＯＮであると認識される場合には（具体的には、ステップＳ２２〜Ｓ２７，Ｓ４１〜Ｓ４３の処理を案内サーバ５０が行っている場合には）、案内サーバ５０は、合成画像データ３５２の送信を禁止し、合成画像データ３５２はサポータ端末７０に送信されない。

上述のように、期間Ｔ１（図１３参照）においては、停止フラグＦＧがオン（ＯＮ）に設定されている。そのため、図１３に示すように、上述の期間Ｔ１内に新たな画像データ３０２を受信した案内サーバ５０は、画像処理により合成画像データ３５２を生成するものの、期間Ｔ１内においてはサポータ端末７０に合成画像データ３５２を送信しない。

その後、期間Ｔ１が終了し、停止フラグＦＧがオン（ＯＮ）からオフ（ＯＦＦ）に変更されると、案内サーバ５０は合成画像データ３５２をサポータ端末７０に送信する。

このように、当該期間Ｔ１（図１３参照）に、案内サーバ５０が新たな画像データ３０２を受信する場合には、案内サーバ５０（具体的には、送信部５４ａ）は、当該期間Ｔ１の終了時点までは新たな合成画像データ３５２の送信を許可せず且つ当該期間Ｔ１の終了後に合成画像データ３５２の送信を許可する。

以上のような動作によれば、案内サーバ５０は、部分音声データ４３０の受信が開始されると新たな合成画像データ３５２の送信を許可せず、合成音声データ４５０（４５１）の送信完了時点以後の所定の時点において合成画像データ３５２の送信を許可するので、サポータ端末７０の表示部７６ｂにおける合成画像データ３５１から合成画像データ３５２への画像の変更は、合成音声データ４５０の送信完了後に行われる。したがって、画像データ３０１を見ながら発せられたユーザ１０１の音声が、当該音声の伝達の遅延に起因して合成画像データ３５２（画像データ３０１の次の画像データ３０２に対応する画像）の表示中にサポータ端末側で出力されることを抑制あるいは回避することが可能である。

端的に言えば、サポータ端末７０において、合成画像データ３５１に基づく画像の表示のタイミングと合成音声データ４５１に基づく音声の出力のタイミングとのずれを抑制あるいは回避することが可能である。その結果、サポータ１０２が混乱することなくユーザ１０１に的確な操作案内をすることが可能である。

また、特に、合成音声データ４５１の送信完了から当該合成音声データ４５１の出力所要時間（再生所要時間）が経過した時点以後において、停止フラグＦＧがオンからオフに変更され合成画像データ３５２の送信が許可されることが好ましい。これによれば、合成画像データ３５１に基づく画像の表示のタイミングと合成音声データ４５１に基づく音声の出力のタイミングとのずれを更に抑制あるいは回避することが可能である。

なお、この第２実施形態等においては、ユーザ音声データ４００に所定時間以上の無音部分が存在する場合に、音声認識部６４は、ユーザ音声データ４００の非無音部分の開始時点から次の無音部分の開始時点までの音声データを部分音声データ４３０として抽出することを例示した。しかしながら、本発明は、これに限定されない。

たとえば、第２実施形態（あるいは第１実施形態）において、案内サーバ５０により合成画像データ３５０が受信された時点を終端とするように区分した部分の音声データがユーザ音声データ４００から部分音声データ４３０として抽出されるようにしてもよい。換言すれば、ユーザ１０１による操作画面の切換時点でユーザ音声データ４００が区切られて、ユーザ音声データ４００の一部の音声データである部分音声データ４３０が抽出されるようにしてもよい。

図１７は、このような改変例の動作を示すフローチャートである。

図１７においては、ステップＳ２２の判定処理に加えてステップＳ４４の判定処理も行われる。両判定処理（ステップＳ２２，Ｓ４４）のいずれかで「ＹＥＳ」と判定されるとステップＳ２３に進み、部分音声データ４３０が抽出される。なお、ステップＳ４４では、新たな画像データを受信したか否かが判定される。

たとえば、所定時間以上の無音部分が存在しない旨がステップＳ２２で判定されたとしても、新たな画像データ３０２が受信された旨がステップＳ４４で判定されると、ステップＳ２３に進む。このステップＳ２３では、音声認識部６４は、ユーザ音声データ４００のうち、新たな表示画像の画像データ３０２の受信時点を終端とするように区分した部分音声データを、部分音声データ４３０として抽出する。

図１６は、この態様に係る動作のタイミング等を示すタイミングチャートである。

図１６に示すように、ＭＦＰ１０において画像データ３０１に基づく画像を見ながら発せられたユーザ１０１のユーザ音声データ４００は、画像データ３０２が案内サーバ５０により受信された時点で区切られる。案内サーバ５０の音声認識部６４は、ＭＦＰ１０から送信されるユーザ音声データ４００のうち、ユーザ音声データ４００の非無音部分の開始時点から新たな画像データ３０２を受信した時点までの部分の音声データを部分音声データ４３１（４３０）として抽出する。

案内サーバ５０は、当該部分音声データ４３１に関する合成音声データ４５１を生成し、合成音声データ４５１をサポータ端末７０に送信する。そして、サポータ端末７０において合成音声データ４５１が出力される。

一方、新たな画像データ３０２は、案内サーバ５０による画像処理によって合成画像データ３５２に変更される。そして、案内サーバ５０は、合成音声データ４５１の送信が完了してから合成音声データ４５１の出力所要時間が経過した後に、合成画像データ３５２をサポータ端末７０に送信する。その後、サポータ端末７０の表示部７６ｂにおいて合成画像データ３５２に基づく画像が表示される。

これによれば、ユーザ１０１の音声が画像データ３０１から画像データ３０２への変更時点で区切られるので、比較的短い期間を有する部分音声データ４３１を抽出することができる。したがって、合成音声データ４５１のサポータ端末７０への送信遅延を更に抑制することが可能である。

また、部分音声データ４３１には、画像データ３０１を閲覧しながら発せられた音声のみが含まれる（次の画像データ３０２を閲覧しながら発せられた音声は含まれない）。したがって、サポータ端末７０において、表示される画像（合成画像データ３５１に基づく画像）と出力される音声（合成音声データ４５１に基づく音声）とのずれを更に抑制あるいは回避することが可能である。

＜第３実施形態＞
第３実施形態は、第１実施形態の変形例である。以下では、第１実施形態との相違点を中心に説明する。

第１実施形態においては、ユーザ１０１により発せられた音声のユーザ音声データ４００を案内サーバ５０が受信すると、音声生成部６５は、当該音声に含まれる秘匿ワード１１０に対応する代替音声データ２５０（２５１）を生成し、当該代替音声データ２５０を利用して合成音声データ４５０（４５１）を生成する態様を例示した。第１実施形態においては、音声生成部６５は代替音声データ２５０を逐次生成し、生成された代替音声データ２５１は格納されない。

第３実施形態では、合成音声データ４５０の生成に先立つ所定の時点（具体的には、サポート依頼信号を案内サーバ５０が受信した時点）で、複数の秘匿ワード１１０に対応する複数の代替音声データ２５０の生成が音声生成部６５により開始され、生成された代替音声データ２５０が案内サーバ５０の格納部５５に予め格納される。そして、ユーザ音声データ４００に秘匿ワード１１０が含まれ且つ秘匿ワード１１０に対応する代替音声データ２５０が格納部５５に既に格納されている場合には、格納部５５に予め格納されている代替音声データ２５０を用いて合成音声データ４５０が音声生成部６５により生成される。

図１８は、第３実施形態に係る動作に関するタイミングを示す図であり、図１９は、第３実施形態に係るユーザ１０１のユーザ音声データ４００に対する音声処理を示すフローチャートである。図１８および図１９を参照して具体的に説明する。

サポートセンターに対するサポート依頼のために、ユーザ１０１が、ＭＦＰ１０の操作パネル６ｃに配設されたヘルプボタン（不図示）を押下すると、ＭＦＰ１０は、ユーザ１０１からの操作案内の発生を示すサポート依頼の信号を案内サーバ５０に送信する。

案内サーバ５０は、ＭＦＰ１０からサポート依頼信号を受信すると（ステップＳ１１（図１９））、複数の秘匿ワード１１０（後述）のリストである秘匿ワードリスト６０２（図２０参照）をもＭＦＰ１０から受信する。

当該秘匿ワードリスト６０２には、当該複数の秘匿ワード１１０が登録されている。そして、案内サーバ５０は、当該秘匿ワードリスト６０２に基づいて変換辞書６５２（図２０参照）を生成する。生成された変換辞書６５２では、秘匿ワード１１０と、当該秘匿ワード１１０にそれぞれ対応する代替ワード２１０とが登録されている。

ここにおいて、複数の秘匿ワード１１０は、ＭＦＰ１０のスキャン画像送信における宛先指定画面内の送信宛先を示す語句（ワード）と、ＭＦＰ１０のファクシミリ送信における宛先指定画面に含まれる送信宛先を示す語句と、ＭＦＰ１０のボックスに格納されたファイルに関する情報表示画面に表示されるファイル情報を示す語句とを含む。換言すれば、当該複数の秘匿ワード１１０には、複数の動作モードのそれぞれにて秘匿すべき複数の種類の語句が含まれる。ただし、秘匿ワード１１０は、これらの語句の全てを含むことを要さず、これらの語句の一部を含むものであってもよい。

案内サーバ５０によるサポート依頼信号の受信に応答して、音声生成部６５は、変換辞書６５２に基づいて、複数の秘匿ワード１１０に対応する代替音声データ２５０の生成を開始する（ステップＳ５１）（図１８も参照）。また、案内サーバ５０は、生成した代替音声データ２５０を案内サーバ５０の格納部５５に順次に格納する（ステップＳ５２）。

操作案内の開始信号の送受信に伴う所定の時点において、案内サーバ５０は、画像データ３００（３０１）をＭＦＰ１０から受信し、変換辞書６５２に基づいて画像処理を行い、合成画像データ３５０（３５１）を生成する。そして、案内サーバ５０は、生成した合成画像データ３５０（３５１）をサポータ端末７０に送信する（図１８参照）。

複数の代替音声データ２５０の生成中あるいは生成完了後において、案内サーバ５０は、ユーザ音声データ４００を受信し（ステップＳ２０）、ステップＳ２１〜Ｓ２４の各処理を実行する（図１９参照）。その後、部分音声データ４３０に秘匿ワード１１０が含まれていることがステップＳ２４において判定されると、ステップＳ５３に進む。

ステップＳ５３では、秘匿ワード１１０に対応する代替音声データ２５０が案内サーバ５０の格納部５５に格納されているか否かが音声生成部６５により判定される。

秘匿ワード１１０に対応する代替音声データ２５０が格納部５５に格納されていることが判定される場合には、音声生成部６５は、既に格納されている代替音声データ２５０（２５１）を格納部５５から取得する（ステップＳ５４）。そして、音声生成部６５は当該代替音声データ２５１を用いて合成音声データ４５０（４５１）を生成し（ステップＳ２６）、案内サーバ５０は合成音声データ４５０をサポータ端末７０に送信する（ステップＳ２７）。

たとえば、秘匿ワード１１１「長谷不動産」に対応する代替音声データ２５１「ＡＢＣ」（図２０）が格納部５５に格納されていることが判定される場合には、音声生成部６５は、格納されている代替音声データ２５１「ＡＢＣ」を格納部５５から取得する。そして、音声生成部６５は、当該代替音声データ２５１「ＡＢＣ」を用いて合成音声データ４５１を生成し、案内サーバ５０は合成音声データ４５１をサポータ端末７０に送信する。合成音声データ４５１を受信したサポータ端末７０においては、合成音声データ４５１に基づく音声が出力される。

一方、代替音声データ２５０が格納部５５に格納されていないことがステップＳ５４において判定される場合には、音声生成部６５は、秘匿ワード１１０に対応する代替音声データ２５０を機械音声生成処理により生成する（ステップＳ２５）。そして、音声生成部６５は、生成した代替音声データ２５０を格納部５５に格納し（ステップＳ５５）、ステップＳ２６に進む。ステップＳ２６では、ステップＳ２５で生成された代替音声データ２５０を用いて合成音声データ４５０が生成される。

以上のような動作によれば、ユーザ１０１からのサポート依頼信号を案内サーバ５０が受信すると、複数の代替音声データ２５０の生成が開始され、生成された代替音声データ２５０が格納部５５に予め格納される。そして、ユーザ音声データ４００に秘匿ワード１１０が含まれ且つ代替音声データ２５０が既に格納部５５に格納されている旨が判定される場合には、格納されている代替音声データ２５０（２５１）を用いて合成音声データ４５０（４５１）が生成される。この場合、既に存在する代替音声データ２５０が利用されるため、代替音声データ２５０（２５１）が新たに生成されることを要しない。したがって、たとえばユーザ音声データ４００に秘匿ワード１１０が含まれる旨が判定された時点から代替音声データ２５０（２５１）の生成を開始する場合と比べて、代替音声データ２５１の準備時間が短縮され、合成音声データ４５１の生成に要する時間が短縮される。その結果、サポータ端末７０への合成音声データ４５１の送信の遅延を抑制することが可能である。

また、上記第３実施形態では、ＭＦＰ１０における複数の動作モード（スキャンモード、ファクシミリ送信モード、ボックスモード等）で表示され得る複数の秘匿ワード１１０に対応する複数の代替音声データ２５０が順次に生成されている。上記においては、複数の代替音声データ２５０の生成順序については特に言及していないが、次述するような優先順序で複数の代替音声データ２５０が生成されるようにしてもよい。

たとえば、ＭＦＰ１０における複数の動作モードで表示され得る複数の秘匿ワード１１０のうち、ユーザ１０１により操作されているＭＦＰ１０の現在の動作モードにて表示され得る秘匿ワード１１０に対応する代替音声データ２５０が優先的に生成されるようにしてもよい。

より具体的には、ＭＦＰ１０の現在の動作モードがスキャンモードであるときには、音声生成部６５は、複数の秘匿ワード１１０のうち、スキャンモード（現モード）にて表示され得る１つまたは複数の画像（宛先指定画面３０１等）に含まれる秘匿ワード１１０を優先処理対象ワードとして決定する。そして、音声生成部６５は、当該優先処理対象ワードに対応する代替音声データ２５０を生成し、生成した代替音声データ２５０を格納部５５に格納する。

これによれば、現在の動作モードにて表示され得る秘匿ワード１１０に対応する代替音声データ２５０が優先的に生成されるので、ユーザ１０１により発せられる可能性の高い秘匿ワード１１０に対応する代替音声データ２５０を予め生成しておくことが可能である。したがって、合成音声データ４５０の生成の際に、格納部５５に格納されている代替音声データ２５０が用いられる可能性が高くなる。

あるいは、秘匿ワード１１０の使用頻度に基づく優先順位に従って、複数の代替音声データ２５０が順次に生成されるようにしてもよい。

具体的には、秘匿ワードリスト６０２の受信に際して、案内サーバ５０は、秘匿ワード１１０のそれぞれの使用頻度をもＭＦＰ１０から受信し、当該秘匿ワードリスト６０２および使用頻度に基づいて変換辞書６５２を生成する（図２０参照）。そして、音声生成部６５は、変換辞書６５２に登録されている複数の秘匿ワード１１０のうち、使用頻度が多い秘匿ワード１１０から順に、対応する代替音声データ２５０を生成し、生成した代替音声データ２５０を格納部５５に格納する。

図２０では、秘匿ワード１１１の「長谷不動産」の使用頻度は１０であり、秘匿ワード１１２の「高橋電器」の使用頻度は２０であり、秘匿ワード１１３の「松原工務店」の使用頻度は５である。この場合、３つの秘匿ワード１１２，１１１，１１３に着目すると、音声生成部６５は、秘匿ワード１１２，１１１，１１３の順にそれぞれ対応する代替音声データ２５０を生成する。すなわち、代替音声データ２５２，２５１，２５３が、この順序で生成される。

なお、変換辞書６５２に記述された秘匿ワード１１０の使用頻度は、ＭＦＰ１０を使用する複数のユーザによる秘匿ワード１１０の使用頻度（換言すれば、ＭＦＰ１０の使用頻度）であってもよく、あるいは、現在ＭＦＰ１０を操作しているユーザ１０１（ログインユーザ）による秘匿ワード１１０の使用頻度であってもよい。

このように、秘匿ワード１１０の使用頻度に基づく優先順位（のみ）に従って、複数の代替音声データ２５０が順次に生成されるようにしてもよい。これによれば、ユーザ１０１により発せられる可能性の高い秘匿ワード１１０に対応する代替音声データ２５０を予め生成しておくことが可能である。したがって、合成音声データ４５０の生成の際に、格納部５５に格納されている代替音声データ２５０が用いられる可能性が高くなる。

さらには、現在のスキャンモードと使用頻度との双方を考慮した優先順位に従って、複数の代替音声データ２５０が順次に生成されるようにしてもよい。

また、上記第３実施形態等においては、ユーザ１０１からのサポート依頼信号を案内サーバ５０が受信したことに応答して、複数の代替音声データ２５０の生成が開始される態様が例示されているが、これに限定されない。

たとえば、画像データ３００を案内サーバ５０が受信すると、当該画像データ３００に含まれている秘匿ワード１１０に対応する代替音声データ２５０の生成が開始されるようにしてもよい。

具体的には、案内サーバ５０による画像データ３００（３０１）の受信に応答して、音声生成部６５は、当該画像データ３００に含まれている複数の秘匿ワード１１０に対応する複数の代替音声データ２５０の生成を開始する。なお、生成された代替音声データ２５０は格納部５５に格納される。たとえば、秘匿ワード１１１，１１２，１１３に対応する代替音声データ２５１，２５２，２５３が生成され、格納部５５に随時格納される。

これら複数の代替音声データ２５０の生成中あるいは生成完了後において、図１９のステップＳ２０以降の動作と同様の動作が実行される。具体的には、ユーザ音声データ４００に秘匿ワード１１０が含まれ且つ秘匿ワード１１０に対応する代替音声データ２５０が格納部５５に既に格納されている場合には、格納部５５に格納されている当該代替音声データ２５０を用いて合成音声データ４５０が生成される。一方、ユーザ音声データ４００に秘匿ワード１１０が含まれ且つ秘匿ワード１１０に対応する代替音声データ２５０が格納部５５に格納されていない場合には、当該代替音声データ２５０が機械音声生成処理により生成され、生成された当該代替音声データ２５０を用いて合成ユーザ音声データが生成される。

これによれば、受信した画像データ３００に含まれている秘匿ワード１１０に対応する代替音声データ２５０が優先的に生成されるので、ユーザ１０１により発せられる可能性が比較的高い秘匿ワード１１０に対応する代替音声データ２５０が予め生成され得る。したがって、合成音声データ４５０の生成の際に、格納部５５に格納されている代替音声データ２５０が用いられる可能性を向上させることができる。

また、このような改変例において、上述の使用頻度に基づく優先順位に従って、複数の代替音声データ２５０が順次に生成されるようにしてもよい。すなわち、受信した画像データ３００に含まれる複数の秘匿ワードの使用頻度に基づく優先順位に従って、当該複数の秘匿ワード１１０に対応する複数の代替音声データ２５０が生成されるようにしてもよい。

＜第４実施形態＞
第４実施形態は、第１実施形態の変形例である。以下では、第１実施形態との相違点を中心に説明する。

第１実施形態においては、部分音声データ４３０を案内サーバ５０が受信すると、当該部分音声データ４３０に含まれた秘匿ワード１１０に対応する代替音声データ２５０（２５１）が、その都度、音声生成部６５により生成される。そして、音声生成部６５は、当該代替音声データ２５０を利用して合成音声データ４５０（４５１）を生成する。第１実施形態においては、音声生成部６５は代替音声データ２５０を逐次生成し、生成された代替音声データ２５１は格納されない。

この第４実施形態では、音声生成部６５により生成された（すなわち、合成音声データ４５０の生成に利用された）代替音声データ２５０が案内サーバ５０の格納部５５に格納される。そして、格納部５５に格納されている代替音声データ２５０を用いて合成音声データ４５０が生成される。

第４実施形態では、ユーザ１０１により発せられたユーザ音声データ４００のうち、部分音声データ４３１とは異なる部分音声データ４３２（後述）を案内サーバ５０が受信した状況を想定する。格納部５５に予め格納された代替音声データ２５０に対応する秘匿ワード１１０が当該部分音声データ４３２内に含まれる場合には、音声生成部６５は、当該格納された代替音声データ２５０を用いて合成音声データ４５２を生成する。

ここにおいて、部分音声データ４３２は、ユーザ音声データ４００のうち、部分音声データ４３１の次に音声認識部６４が抽出した部分の音声データである。

図２１は、第４実施形態に係る案内サーバ５０の音声処理に関する動作を示すフローチャートである。

案内サーバ５０はユーザ音声データ４００を受信し（ステップＳ２１）、ステップＳ２１〜Ｓ２３の処理を実行することにより音声認識部６４は部分音声データ４３０を抽出する。その後、音声認識部６４は、当該部分音声データ４３０に対する音声認識処理によって、部分音声データ４３０に秘匿ワード１１０が含まれるか否かを判定する（ステップＳ２４）。そして、部分音声データ４３０内に秘匿ワード１１０が含まれる旨が判定される場合には、音声生成部６５は、当該秘匿ワード１１０に対応する代替音声データ２５０が格納部５５に格納されているか否かを判定する（ステップＳ６２）。

秘匿ワード１１０に対応する代替音声データ２５０が格納部５５に格納されていないことが判定される場合には、音声生成部６５は、秘匿ワード１１０に対応する代替音声データ２５０を生成し（ステップＳ２５）、生成した代替音声データ２５０を格納部５５に格納する（ステップＳ６４）。そして、音声生成部６５は、部分音声データ４３０内の秘匿音声データ１５０を、生成した代替音声データ２５０に置き換えた合成音声データ４５０を生成する（ステップＳ２６）。当該合成音声データ４５０はサポータ端末７０に送信される（ステップＳ２７）。

一方、当該代替音声データ２５０が格納部５５に格納されていることが判定される場合には、音声生成部６５は、格納されていた代替音声データ２５０を格納部５５から取得する（ステップＳ６３）。

そして、音声生成部６５は、部分音声データ４３０内の秘匿音声データ１５０を、取得した代替音声データ２５０に置き換えた合成音声データ４５０を生成する（ステップＳ２６）。当該合成音声データ４５０はサポータ端末７０に送信される（ステップＳ２７）。

図２２は、第４実施形態における画像データ３００および部分音声データ４３１，４３２に関するタイミングを示す図である。また、図２３は、或る合成音声データ４５０（４５１）の生成に利用された代替音声データ２５０（２５１）が格納部５５へ格納される状況を示す図であり、図２４は、別の合成音声データ４５０（４５２）の生成の際に、既に格納されている代替音声データ２５０（２５１）が用いられる状況を示す図である。

図２２〜図２４をも参照しながら、或る合成音声データ４５１の生成に際して利用された代替音声データ２５１が予め格納部５５に格納され、格納済みの代替音声データ２５１を用いて別の合成音声データ４５２が生成される動作について説明する。

まず、案内サーバ５０は、ユーザ音声データ４００から部分音声データ４３１を抽出する（ステップＳ２３）。たとえば、図２３では、ユーザ１０１により発せられた音声のうち、「ファイルをスキャンして長谷不動産に送りたいのです。」の部分の音声のデータが部分音声データ４３１として抽出される状況が示されている。

その後、音声認識部６４は、部分音声データ４３１内に秘匿ワード１１１「長谷不動産」が含まれる旨を判定する（ステップＳ２４）。この時点では、秘匿ワード１１１に対応する代替音声データ２５０は、格納部５５には格納されていないので、ステップＳ２４からステップＳ６２を経てステップＳ２５に進む。そして、音声生成部６５は、秘匿ワード１１１「長谷不動産」に対応する代替ワード２１１「ＡＢＣ」の代替音声データ２５１を生成し（ステップＳ２５）、生成した代替音声データ２５１（「ＡＢＣ」）を案内サーバ５０の格納部５５に格納する（ステップＳ６４）。

そして、音声生成部６５は、生成した代替音声データ２５１（「ＡＢＣ」）を用いて合成音声データ４５１を生成し（ステップＳ２６）、案内サーバ５０は当該合成音声データ４５１をサポータ端末７０に送信する（ステップＳ２７）。サポータ端末７０は、受信した合成音声データ４５１に基づく音声（「ファイルをスキャンしてＡＢＣに送りたいのです。」）を出力する。

その後、案内サーバ５０は、ユーザ音声データ４００から、別の部分の音声データである部分音声データ４３２を抽出する（ステップＳ２３）。たとえば、図２４では、ユーザ１０１により発せられた音声のうち、「長谷不動産をタッチしましたが、次はどうすれば良いですか？」の部分の音声のデータが新たな部分音声データ４３２として抽出される状況が示されている。

音声認識部６４は、部分音声データ４３２に秘匿ワード１１０（秘匿ワード１１１「長谷不動産」）が含まれている旨を判定し、当該秘匿ワード１１０（１１１）に対応する代替ワード２１１「ＡＢＣ」を求める。また、当該代替ワード２１１「ＡＢＣ」に対応する代替音声データ２５１（「ＡＢＣ」）が格納部５５に既に格納されているか否かが判定される。この時点では、当該代替音声データ２５１（「ＡＢＣ」）が格納部５５に既に格納されている旨が判定される。換言すれば、既に格納部５５に格納されている代替音声データ２５１（「ＡＢＣ」）に対応する秘匿ワード１１０（「長谷不動産」）が部分音声データ４３２内に含まれている旨が判定される。

そして、音声生成部６５は、当該格納された代替音声データ２５１を格納部５５から取得する（ステップＳ６３）。ここでは、秘匿ワード１１１「長谷不動産」に対応する代替ワード２１１「ＡＢＣ」の代替音声データ２５１が格納部５５から取得される。音声生成部６５は、格納部５５から取得された当該代替音声データ２５１を用いて合成音声データ４５２を生成する（ステップＳ２６）。その後、案内サーバ５０は、生成された合成音声データ４５２をサポータ端末７０に送信し（ステップＳ２７）、サポータ端末７０は、受信した合成音声データ４５２に基づく音声（「ＡＢＣをタッチしましたが、次はどうすれば良いですか？」）を出力する。

以上のような動作によれば、或る合成音声データ４５１の生成に際して利用された代替音声データ２５１が予め格納されて、次の合成音声データ４５２の生成の際に利用される。そのため、当該代替音声データ２５１の生成を再び行わずに済む。したがって、合成音声データ４５２の生成に要する時間が短縮されるので、サポータ端末７０への合成音声データ４５２の送信の遅延を抑制することが可能である。

＜第５実施形態＞
第５実施形態は、第１実施形態の変形例である。以下では、第１実施形態との相違点を中心に説明する。

第１実施形態では、スキャンモードにおいて、画像データ３００（３０１）に含まれる送信宛先が秘匿ワード１１０として決定される態様が例示されている。より詳細には、ＭＦＰ１０から受信した秘匿ワードリスト６０１において、画像データ３００に基づく画像に含まれる送信宛先が秘匿ワード１１０として登録されている。そのような登録内容に基づいて秘匿ワードが決定される。

第５実施形態では、ボックスモードにおいて、ＭＦＰ１０のボックスに格納されたファイル５５０のファイル名、作成者、日付、およびファイル本文の見出しを示す語句（ワード）が秘匿ワード１１０として決定される態様を例示する。この第５実施形態では、ＭＦＰ１０のボックスに格納されたファイル５５０に関する情報の表示画面を見ながら操作案内が行われる。以下、第５実施形態における画像処理および音声処理に関して順次に説明する。

まず、ユーザ１０１からのサポート依頼信号の受信に際して、案内サーバ５０は、秘匿ワードリスト６０３をもＭＦＰ１０から受信する（図２７参照）。ここでは、秘匿ワード１１０として、ＭＦＰ１０のボックスに格納されたファイル５５０のファイル名（「パテント」等）、作成者（「山田太郎」等）、日付（「２０１３／０３／１１」等）、およびファイル本文の見出し（「画像形成装置」および「発明概要」等）を示す各語句（ワード）が秘匿ワードリスト６０３に登録されている。そして、案内サーバ５０は、当該秘匿ワードリスト６０３に基づいて、変換辞書６５３を生成する。

図２５および図２６を参照して第５実施形態における画像処理に関して説明する。

ここでは、図２５に示すように、ファイル５５０に関する情報表示画面である画像データ３０３（３００）がＭＦＰ１０のタッチパネル２５に表示されているものとする。当該画像データ３０３を案内サーバ５０が受信すると、変換辞書６５３に基づく画像処理によって、合成画像データ３５３（３５０）が生成される。そして、サポータ端末７０の表示部７６ｂにおいて合成画像データ３５３が表示される。

具体的には、ＭＦＰ１０のタッチパネル２５においては、３つのアイコン５００（５０１〜５０３）を有する画像データ３０３が表示されている。これらの各アイコン５００（５０１〜５０３）の下方には、それぞれ対応するファイル５５０（５５１〜５５３）のファイル名「パテント１」〜「パテント３」が表示されている。そして、画像データ３０３を案内サーバ５０が受信すると、変換辞書６５３に基づく画像処理によって、合成画像データ３５３が生成され、合成画像データ３５３はサポータ端末７０に送信される。そして、サポータ端末７０の表示部７６ｂに合成画像データ３５３が表示される。合成画像データ３５３においては、各ファイル５５１〜５５３のファイル名「ＸＹＺ１」〜「ＸＹＺ３」（代替ワードを用いて表現されたファイル名）が、対応するアイコン５０１〜５０３の下方に表示されている。

つぎに、ファイル５５１「パテント１」に対応するアイコン５０１がユーザ１０１により押下される状況を想定する。ファイル５５１に対応するアイコン５０１がユーザ１０１により押下されると、画像データ３０４に基づく画像がＭＦＰ１０のタッチパネル２５に表示される（図２６左側参照）。そして、画像データ３０４はＭＦＰ１０から案内サーバ５０に送信される。

案内サーバ５０は、画像データ３０４を受信すると、変換辞書６５３（図２７参照）に基づいて、画像データ３０４内に秘匿ワード１１０が含まれるか否かを判定する。

画像データ３０４内に秘匿ワード１１０が含まれる旨が判定される場合には、画像生成部６１は、当該秘匿ワード１１０を代替ワード２１０に置き換えた合成画像データ３５４を生成する。

具体的には、画像データ３０４には、ファイル５５１のファイル名（「パテント１」）、作成者（「山田太郎」）、日付（「２０１３／０３／１１」）の秘匿ワード１１０、ならびにファイル５５１の本文の見出し（「画像形成装置」および「発明概要」）の秘匿ワード１１０が含まれる旨が判定される。画像生成部６１は、当該秘匿ワード１１０をそれぞれ対応する代替ワード２１０に置き換えた合成画像データ３５４（図２６右側参照）を生成する。たとえば、画像データ３０４内の秘匿ワード１１１（１１０）である「パテント」は、合成画像データ３５４の生成に際して、代替ワード２１１（２１０）である「ａｂｃｄ」に置き換えられる。

そして、案内サーバ５０は、生成した合成画像データ３５４をサポータ端末７０に送信し、サポータ端末７０は、表示部７６ｂに合成画像データ３５４を表示する。

この実施形態では、上述のように、画像データ３００に含まれるファイル５５０のファイル名、作成者、日付およびファイル５５０の本文の見出しが秘匿ワード１１０として決定される。一方、ファイル５５０の本文に含まれる語句（ワード）のうち当該見出し以外のワードは、秘匿ワード１１０として決定されない。

ただし、当該見出し以外のワードを秘匿ワード１１０として決定せず、そのままサポータ端末７０において表示される場合には、ファイル５５０の本文に含まれる語句（ワード）から漏洩する恐れがある。このような問題を回避するため、画像生成部６１は、当該見出し以外の部分を判読回避画像（当該部分を判読することが不可能な画像）に変換する。

また、ファイル５５０の本文には非常に多数のワードが含まれている可能性が高く、これらのワードの全てに対して個別の変換処理（各ワードを個別の代替ワードに変換する処理）を伴う画像処理を行うことは効率的とは言えない。

当該多数のワードに対する秘匿化を効率的に行うため、この判読回避画像は、個別の変換処理（各ワードを個別の代替ワードに変換する処理）を伴わない画像処理によって生成される画像であることが好ましい。判読回避画像は、たとえば、ファイル本文の表示領域のうち当該本文の見出し以外の全領域に亘って一律に行われる定型的な画像処理によって生成されればよい。

具体的には、ファイル５５１の本文に含まれるワードのうち、当該見出し以外の部分の画像を、その内容を判読することが不可能である「ＤＵＭＭＹ」の文字を羅列させた判読回避画像に変換する（図２６参照）。なお、本実施形態では、判読回避画像として「ＤＵＭＭＹ」の文字を繰り返し表示する画像を用いているが、これに限定されず、たとえば、「＊＊＊（アスタリスク）」などの他の文字を繰り返し表示する画像などであってもよい。また、判読回避画像として、空白画像を用いるようにしてもよい（換言すれば、当該見出し以外の部分の画像を削除するようにしてもよい）。

つぎに、第５実施形態における音声処理に関して説明する。

案内サーバ５０がユーザ音声データ４００を受信すると、音声認識部６４は、当該ユーザ音声データ４００に秘匿ワード１１０が含まれるか否かを判定する。

ここにおいて、秘匿ワード１１０は、上述のように、ファイル５５０のファイル名、作成者、日付、およびファイル本文の見出しを示す語句（ワード）である（図２７参照）。

ユーザ音声データ４００内に秘匿ワード１１０が含まれる旨が判定される場合には、音声生成部６５は、当該秘匿ワード１１０に対応する代替ワード２１０の代替音声データ２５０を生成し、当該代替音声データ２５０を用いて合成音声データ４５０を生成する。

案内サーバ５０は当該合成音声データ４５０をサポータ端末７０に送信し、サポータ端末７０において当該合成音声データ４５０が出力される。

たとえば、ユーザ１０１が画像データ３０４を見ながら発したユーザ音声データ４００に秘匿ワード１１２（１１０）「山田太郎」が含まれていることが判定される場合には、秘匿ワード１１２「山田太郎」に対応する代替ワード２１２「ａｂｃｄ」（図２７参照）の代替音声データ２５０が生成される。その後、生成した代替音声データ２５０を用いて合成音声データ４５０が生成され、合成音声データ４５０がサポータ端末に送信される。合成音声データ４５０を受信したサポータ端末７０は、当該合成音声データ４５０に基づく音声を出力する。

以上のような動作によれば、ファイル５５０のファイル名、作成者、日付を示す語句が秘匿ワード１１０として決定されて、当該秘匿ワード１１０に対する画像処理（画像変換処理等）および音声処理（音声変換処理等）が行われる。したがって、ＭＦＰ１０のボックスモードにおける表示画面内に含まれる秘匿ワード（機密情報）の漏洩を回避することが可能である。詳細には、ファイル５５０のファイル名、作成者、日付を示す語句に関しては、視覚を通じて機密情報が漏洩することを防止することが可能であるとともに、聴覚を通じて機密情報が漏洩することをも防止することが可能である。

同様に、ファイル５５０の本文の見出しも秘匿ワード１１０として決定されるので、見出しに関して、聴覚および／または視覚を通じて機密情報が漏洩することを防止することが可能である。

また、ファイル５５０の本文の見出し以外の部分に関しては、当該部分が判読回避画像に変換されるので、少なくとも視覚を通じて機密情報が漏洩することを防止することが可能である。

また、仮に、ファイル５５０の本文の見出し以外の部分に関しても変換処理（音声変換処理および／または画像変換処理）を行うときには、非常に多数のワードに関する当該変換処理に多大な時間を要する。一方、上記態様では、当該見出し以外の部分の音声に関する変換処理（音声変換処理）が行われないので、音声変換処理に要する時間を抑制することが可能である。また、画像に関しても、当該見出し以外の部分は、秘匿ワード１１０と判定されず、代替ワード２１０への画像変換処理が行われないので、画像変換処理に要する時間を抑制することが可能である。

＜変形例等＞
以上、この発明の実施の形態について説明したが、この発明は上記説明した内容のものに限定されるものではない。

上記各実施形態においては、ＭＦＰ１０からサポータ端末７０への音声伝達処理について例示したが、これに限定されない。たとえば、サポータ端末７０からＭＦＰ１０への音声伝達処理も同様にして実施される。図２８のフローチャートを参照して、サポータ端末７０からＭＦＰ１０への音声伝達処理について説明する。

サポータ１０２により発せられたサポータ音声データ４１０はサポータ端末７０により案内サーバ５０へと送信される。案内サーバ５０がサポータ音声データ４１０を受信すると（ステップＳ７０）、音声認識部６４は、サポータ音声データ４１０に非無音部分が存在するか否かを判定する（ステップＳ７１）。その後、音声認識部６４は、サポータ音声データ４１０に所定時間以上の無音部分が存在するか否かを判定する（ステップＳ７２）。

サポータ音声データ４１０に所定時間以上の無音部分が存在する旨が判定される場合に、音声認識部６４は、サポータ音声データ４１０の一部である部分音声データ４４０を抽出する（ステップＳ７３）。

そして、音声生成部６５は、部分音声データ４４０に対する音声認識処理によって、サポータ音声データ４１０内に、秘匿ワードリスト６０１（図９参照）に含まれる秘匿ワード１１０のいずれかに対応する代替ワード２１０が含まれるか否かを判定する（ステップＳ７４）。

部分音声データ４４０に当該代替ワード２１０が含まれる旨が判定される場合に、音声生成部６５は、代替ワード２１０に対応する秘匿ワード１１０の秘匿音声データ１６１を生成する（ステップＳ７５）。

そして、音声生成部６５は、部分音声データ４４０に含まれる代替ワード２１０の音声データである代替音声データ２６１を当該秘匿音声データ１６１に置き換えた合成音声データ４６０（合成サポータ音声データ４６０）を生成する（ステップＳ７６）。

その後、案内サーバ５０は合成音声データ４６０をＭＦＰ１０に送信し（ステップＳ７７）、ＭＦＰ１０において、当該合成音声データ４６０が出力される。

図２９は、サポータ端末７０からＭＦＰ１０への音声伝達処理の一例を示す図である。図２９を参照して具体的に説明する。

図２９では、図７の音声伝達処理に引き続いてサポータ１０２が、「ＡＢＣをタッチしてください。」との音声を発した状況を想定する。

音声認識部６４は、まず、「ＡＢＣをタッチしてください。」との音声を含む音声データを部分音声データ４４１として認識する。また、音声認識部６４は、当該部分音声データ４４１（４４０）内に、変換辞書６５１（図９参照）に登録されている複数の秘匿ワード１１０（１１１〜１１３）のいずれかに対応する代替ワード２１０（２１１〜２１３）が含まれるか否かを判定する。具体的には、部分音声データ４４１の「ＡＢＣをタッチしてください。」には、秘匿ワード１１１「長谷不動産」に対応する代替ワード２１１「ＡＢＣ」が含まれる旨が判定される。

そして、音声生成部６５は、代替ワード２１１「ＡＢＣ」に対応する秘匿ワード１１１「長谷不動産」の秘匿音声データ１６１（１６０）を生成する。なお、秘匿音声データ１６１（１６０）は、人間の声を模して人工的に生成された音声データ（機械音声データ）である。

その後、部分音声データ４４１に含まれる代替ワード２１１「ＡＢＣ」の代替音声データ２６１を当該秘匿音声データ１６１（「長谷不動産」）に置き換えた合成音声データ４６１（４６０）を生成する。そして、案内サーバ５０は、当該合成音声データ４６１をＭＦＰ１０に送信する。

合成音声データ４６１を受信したＭＦＰ１０は、当該合成音声データ４６１を出力する。具体的には、ＭＦＰ１０において、合成音声データ４６１に基づく音声である「長谷不動産をタッチしてください。」が出力される。

ここにおいて、ユーザ１０１は代替ワード２１０の内容を知らず、サポータ１０２は秘匿ワード１１０の内容を知らない。

このため、仮に、サポータ１０２により発せられたサポータ音声データ４１０がそのままＭＦＰ１０に対して送信されると、ユーザ１０１の知らない代替ワード２１０がユーザ１０１に伝達されるので、ユーザ１０１に混乱が生じる恐れがある。

一方、上記態様によれば、サポータ１０２により発せられたサポータ音声データ４１０に含まれる代替ワード２１０が秘匿音声データ１６０に置き換えられて合成音声データ４６０が生成され、当該合成音声データ４６０がユーザ１０１に送信されるので、ユーザ１０１の混乱を回避することが可能である。

また、特定の秘匿ワード１１０（１１１）の秘匿音声データ１６０（人工音声）がサポータ音声データ４１０（サポータ音声）に含まれている（人工音声がサポータ音声に含まれている）ので、サポータ音声データ４１０のうち特定の秘匿ワード１１０（１１１）に対応する音声部分に対して何らかの処理が施されていることをユーザ１０１は知得できる。ユーザ１０１が幾つかの秘匿ワードに関する変換処理が施されていることを知っている場合において、特定の秘匿ワード１１０（たとえば１１１）に対して何らかの変換処理が施されていることをも知得したユーザ１０１は、当該特定の秘匿ワード１１０（１１１）がサポータ１０２に伝わっていないことを確認（推測）できる。換言すれば、特定の秘匿ワードに関する機密情報が漏洩していないことを確認できる。

また、上記態様においては、サポータ１０２側からユーザ１０１側への音声伝達において、秘匿音声データ１６１（サポータ音声データ４１０に含まれていた代替ワード２１０に対応する秘匿ワード１１０の音声データ）が逐一生成され、当該秘匿音声データ１６１（機械音声）を用いてサポータ音声に対する変換処理（代替ワード２１０を秘匿ワード１１０に変換（逆変換）する処理）が行われている。

しかしながら、本発明はこれに限定されない。たとえば、まずユーザ１０１側からサポータ１０２側への音声伝達においてユーザ１０１の音声データ（秘匿音声データ１５１）を格納部５５に予め格納しておき（図３０参照）、次にサポータ１０２側からユーザ１０１側への音声伝達がなされた場合に、当該格納部５５に既に格納されている秘匿音声データ１５１を用いて、サポータ音声に対する変換処理が行われる（図３１参照）ようにしてもよい。

図３０および図３１を参照して具体的に説明する。図３０は、ユーザ１０１からサポータ１０２への音声伝達処理を示す図である。図３１は、サポータ１０２からユーザ１０１への音声伝達処理がなされる状況を示す図である。

図３０では、ユーザ１０１が「ファイルをスキャンして長谷不動産に送りたいのです。」との音声を発した状況が想定されている。

ユーザ音声データ４００を受信した案内サーバ５０は、ユーザ音声データ４００から部分音声データ４３１（４３０）を抽出する。そして、変換辞書６５１（図９参照）に基づいて、部分音声データ４３１内に秘匿ワード１１０が含まれるか否かを判定する。

具体的には、部分音声データ４３１「ファイルをスキャンして長谷不動産に送りたいのです。」には、秘匿ワード１１１「長谷不動産」が含まれる旨が音声認識部６４によって判定される。

そして、音声生成部６５は、ユーザ１０１により発せられた秘匿ワード１１１「長谷不動産」の秘匿音声データ１５１を抽出し、案内サーバ５０の格納部５５に格納する。

その後、音声生成部６５は、秘匿ワード１１１「長谷不動産」に対応する代替ワード２１１「ＡＢＣ」の代替音声データ２５１を用いて、合成音声データ４５１を生成する。生成された合成音声データ４５１はサポータ端末７０に送信され、サポータ端末７０において出力される。

このように、この態様では、合成音声データ４５０（４５１）を生成する際に、ユーザ音声データ４００（部分音声データ４３０（４３１））から出した秘匿音声データ１５０（１５１）を格納部に予め格納しておく。

つぎに、図３１を参照しながら、サポータ端末７０からＭＦＰ１０への音声伝達処理について説明する。図３１では、ユーザ１０１からサポータ１０２への音声伝達処理の次に、サポータ１０２が、「ＡＢＣをタッチしてください。」との音声を発した状況を想定している。

サポータ音声データ４１０を受信した案内サーバ５０は、サポータ音声データ４１０から部分音声データ４４１（４４０）を抽出する。そして、変換辞書６５１（図９参照）に基づいて、部分音声データ４４１内に格納済みの秘匿音声データ１５１（１５０）に対応する代替ワード２１０が含まれるか否かを判定する。

具体的には、格納済みの秘匿音声データ１５１（より詳細には、ユーザ１０１により発せられた秘匿ワード１１１「長谷不動産」の音声データ）に対応する代替ワード２１１「ＡＢＣ」が、部分音声データ４４１に基づく音声「ＡＢＣをタッチしてください。」に含まれる旨が、音声認識部６４により判定される。

そして、音声生成部６５は、部分音声データ４４１内の代替ワード２１１「ＡＢＣ」に対応する代替音声データ２６１（２６０）を、格納済みの秘匿音声データ１５１（１５０）に置き換えた合成音声データ４６１（４６０）を生成する。この合成音声データ４６１の生成に際しては、秘匿音声データ１６１（代替ワード２１１「ＡＢＣ」に対応する秘匿ワード１１１「長谷不動産」の機械音声データ）ではなく、秘匿音声データ１５１（格納部５５に格納されていたユーザ１０１の録音音声データ）が用いられる。換言すれば、予め格納された秘匿音声データ１５０が、部分音声データ４４１内の代替ワード２１１「ＡＢＣ」に対応する秘匿音声データとして利用され、合成音声データ４６１が生成される。

その後、案内サーバ５０は、合成音声データ４６１（４６０）をサポータ端末７０に送信し、サポータ端末７０において、「長谷不動産をタッチしてください。」の音声が合成音声データ４６１に基づいて出力される。この合成音声データ４６１に含まれる音声「長谷不動産」は、ユーザ１０１の音声を用いて出力され、当該合成音声データ４６１に含まれる音声「をタッチしてください」は、サポータ１０２の音声を用いて出力される。

このような改変例によれば、サポータ１０２により発せられたサポータ音声データ４１０（部分音声データ４４１）に含まれる代替ワード２１０を、予め格納された秘匿音声データ１５０に置き換えた合成音声データ４６０が音声出力用データとしてユーザ１０１側のＭＦＰ１０に送信される。したがって、ユーザ１０１の知らない代替ワード２１０がユーザ１０１に伝達されることに起因したユーザ１０１の混乱を回避することが可能である。

また、ユーザ１０１により過去に発せられた音声データが秘匿音声データ１５０として格納部５５に格納されており、当該格納部５５に既に格納されている秘匿音声データ１５０を用いて合成音声データ４６０が生成される。したがって、一の代替ワード２１１「ＡＢＣ」に対応する秘匿ワード１１１「長谷不動産」の音声データである秘匿音声データ１６０を再び生成することを要しないので、合成音声データ４６０の生成に要する時間が短縮される。その結果、ＭＦＰ１０への合成音声データ４６０の送信の遅延を抑制することが可能である。

さらに、ユーザ１０１の発した特定の秘匿ワード１１０（１１１）の秘匿音声データ１５０がサポータ音声データ４１０に含まれている。したがって、ユーザ１０１は、サポータ音声データ４１０のうち特定の秘匿ワード１１０（１１１）に対応する音声部分に対して何らかの処理が施されていることを知得できる。

なお、上記態様においては、ユーザ１０１の発した音声（秘匿ワード１１０に係る音声）のデータ（秘匿音声データ１５０）を格納部５５に格納しておき、当該秘匿音声データ１５０をサポータ１０２側からユーザ１０１側への音声伝達処理において利用する態様が例示されているが、これに限定されない。

たとえば、サポータ１０２の発した音声（代替ワード２１０に係る音声）のデータ（代替音声データ２６０）を格納部５５に格納しておき、当該代替音声データ２６０をユーザ１０１側からサポータ１０２側への音声伝達処理において利用するようにしてもよい。

このような態様について、図３１を参照して説明する。

まず、図３１に示すように、サポータ１０２側からユーザ１０１側への音声伝達処理において、サポータ１０２が「ＡＢＣをタッチしてください。」との音声を発すると、案内サーバ５０では、上記態様と同様の処理により、音声変換処理が施され、合成音声データ４６１（４６０）が生成される。この合成音声データ４６１の生成に際して、サポータ１０２により発せられた代替ワード２１１「ＡＢＣ」の録音データである代替音声データ２６１が格納部５５に格納される。

その後、ユーザ１０１側からサポータ１０２側への音声伝達処理がなされる場合に、音声生成部６５は、当該格納されている代替音声データ２６０（２６１）を用いて合成音声データ４５０を生成する。

詳細には、たとえば「長谷不動産のボタンを押しますね？」との音声をユーザ１０１が発する場合において、当該音声を含む部分音声データ４３３（不図示）がユーザ音声データ４００から抽出される。そして、部分音声データ４３３に秘匿ワード１１１「長谷不動産」が含まれる旨が音声認識部６４によって判定されると、合成音声データ４５３が生成される。このとき、秘匿ワード１１１「長谷不動産」に対応する代替ワード２１１「ＡＢＣ」の代替音声データ（置換用の音声データ）として、格納部５５に既に格納されている上述の代替音声データ２６０（２６１）が利用されて、合成音声データ４５３が生成される。生成された合成音声データ４５３はサポータ端末７０に送信され、サポータ端末７０において出力される。

このような態様によれば、特に、合成音声データ４５３の生成に際して、格納部５５に予め格納されている代替音声データ２６０が利用されるので、機械音声生成処理によって代替音声データを改めて生成することを要しない。

また、上記各実施形態においては、案内サーバ５０が画像処理および音声処理を行うことが例示されているが、これに限定されない。たとえば、上記案内サーバ５０の動作がＭＦＰ１０により実行されてもよい。具体的には、ＭＦＰ１０が案内サーバ５０の画像処理部６０ａおよび音声処理部６０ｂの動作と同様の動作を行うようにすればよい。

１操作案内システム
１０ＭＦＰ（画像形成装置）
５０案内サーバ
７０サポータ端末
１０１ユーザ
１０２サポータ
１１０〜１１３秘匿ワード
２１０〜２１３代替ワード
３００〜３０４画像データ
３５０〜３５４合成画像データ
４００ユーザ音声データ
４３０〜４３２部分音声データ
１５０〜１５２，１６０秘匿音声データ
２５０，２５１，２６０代替音声データ
４５０〜４５２，４６０，４６１合成音声データ
６５１〜６５３変換辞書

Claims

操作案内システムにおける案内サーバであって、
ユーザの操作対象である画像形成装置の操作部に表示された第１の表示画像のデータである第１の表示画像データを前記画像形成装置から受信する画像受信手段と、
秘匿ワードが前記第１の表示画像データに含まれる場合に、前記第１の表示画像における前記秘匿ワードを当該秘匿ワードに対応する代替ワードに置き換えた第１の合成画像のデータである第１の合成画像データを生成する画像生成手段と、
前記ユーザを支援する人物であるサポータにより前記ユーザへの操作案内に利用されるサポータ端末に対して、前記サポータ端末での表示用データとして前記第１の合成画像データを送信する画像送信手段と、
前記ユーザにより発せられた音声のデータを含むユーザ音声データを受信する音声受信手段と、
前記ユーザ音声データに対する音声認識処理によって、前記ユーザ音声データに前記秘匿ワードが含まれるか否かを判定する音声認識手段と、
前記ユーザ音声データに前記秘匿ワードが含まれると判定される場合に、前記ユーザ音声データ内の前記秘匿ワードの音声データである秘匿音声データを、当該秘匿ワードに対応する前記代替ワードの音声データである代替音声データに置き換えたデータである合成ユーザ音声データを生成する音声生成手段と、
前記サポータ端末での音声出力用データとして前記合成ユーザ音声データを前記サポータ端末に送信する音声送信手段と、
を備えることを特徴とする案内サーバ。
請求項１に記載の案内サーバにおいて、
前記ユーザ音声データは、複数の部分音声データに区分され、
前記音声生成手段は、前記ユーザ音声データにおける一の部分音声データである第１の音声データ内に前記秘匿ワードが含まれる旨が前記音声認識処理によって判定される場合に、前記第１の音声データ内の前記秘匿音声データを前記代替音声データに置き換えた第１の合成音声データを生成し、
前記音声送信手段は、前記第１の合成音声データを前記サポータ端末に送信することを特徴とする案内サーバ。
請求項２に記載の案内サーバにおいて、
前記第１の音声データは、前記第１の表示画像の表示中に前記ユーザにより発せられた音声を含み、
前記画像受信手段は、前記第１の表示画像に引き続いて前記操作部に表示される第２の表示画像のデータである第２の表示画像データを、前記第１の表示画像データの受信完了後に前記画像形成装置から受信し、
前記画像生成手段は、秘匿ワードが前記第２の表示画像データに含まれる場合に、前記第２の表示画像データ内の前記秘匿ワードを当該秘匿ワードに対応する代替ワードに置き換えた第２の合成画像のデータである第２の合成画像データを生成し、
前記画像送信手段は、前記第１の音声データの受信が開始されると前記第２の合成画像データの送信を許可せず、前記第１の音声データに基づき生成された前記第１の合成音声データの送信完了時点以後において前記第２の合成画像データの送信を許可することを特徴とする案内サーバ。
請求項３に記載の案内サーバにおいて、
前記画像送信手段は、前記第１の音声データの受信開始時点と前記第１の合成音声データの送信完了から前記第１の合成音声データの出力所要時間が経過した時点との間の期間である第１の期間内に前記画像受信手段により前記第２の表示画像データが受信される場合には、前記第１の期間の終了時点までは前記第２の合成画像データの送信を許可せず且つ前記第１の期間の終了後に前記第２の合成画像データの送信を許可することを特徴とする案内サーバ。
請求項１に記載の案内サーバにおいて、
音声データを格納する格納手段、
をさらに備え、
前記音声生成手段は、
複数の秘匿ワードに対応する代替ワードの音声データである複数の代替音声データの生成を前記合成ユーザ音声データの生成に先立つ所定の時点から開始するとともに、生成された代替音声データを前記格納手段に格納し、
前記ユーザ音声データに前記秘匿ワードが含まれ且つ前記秘匿ワードに対応する前記代替音声データが前記格納手段に格納されていない場合には、前記代替音声データを機械音声生成処理により生成し、生成された当該代替音声データを用いて前記合成ユーザ音声データを生成し、
前記ユーザ音声データに前記秘匿ワードが含まれ且つ前記秘匿ワードに対応する前記代替音声データが前記格納手段に既に格納されている場合には、前記格納手段に格納されている前記代替音声データを用いて前記合成ユーザ音声データを生成することを特徴とする案内サーバ。
請求項５に記載の案内サーバにおいて、
前記音声生成手段は、前記ユーザからの操作案内の依頼の発生を示すサポート依頼信号を前記案内サーバが受信することに応答して、前記複数の代替音声データの生成を開始することを特徴とする案内サーバ。
請求項６に記載の案内サーバにおいて、
前記複数の秘匿ワードは、前記画像形成装置のスキャン画像送信における宛先指定画面内の送信宛先を示す語句と前記画像形成装置のファクシミリ送信における宛先指定画面に含まれる送信宛先を示す語句との少なくとも一方を含むことを特徴とする案内サーバ。
請求項６に記載の案内サーバにおいて、
前記複数の秘匿ワードは、前記画像形成装置のボックスに格納されたファイルに関する情報表示画面に表示されるファイル情報を示す語句を含むことを特徴とする案内サーバ。
請求項５に記載の案内サーバにおいて、
前記音声生成手段は、前記複数の代替音声データのうち、前記画像形成装置の現在の動作モードにて表示され得る秘匿ワードに対応する代替音声データを優先的に生成することを特徴とする案内サーバ。
請求項９に記載の案内サーバにおいて、
前記画像形成装置の現在の動作モードは、スキャンモードとファクシミリ送信モードとボックスモードとを含む複数のモードのうちのいずれかであることを特徴とする案内サーバ。
請求項１に記載の案内サーバにおいて、
音声データを格納する格納手段、
をさらに備え、
前記音声生成手段は、
前記第１の表示画像データが前記画像受信手段によって受信されると、複数の秘匿ワードに対応する代替ワードの音声データである複数の代替音声データの生成を開始し、生成された代替音声データを前記格納手段に格納し、
前記ユーザ音声データに前記秘匿ワードが含まれ且つ前記秘匿ワードに対応する前記代替音声データが前記格納手段に格納されていない場合には、前記代替音声データを機械音声生成処理により生成し、生成された当該代替音声データを用いて前記合成ユーザ音声データを生成し、
前記ユーザ音声データに前記秘匿ワードが含まれ且つ前記秘匿ワードに対応する前記代替音声データが前記格納手段に既に格納されている場合には、前記格納手段に格納されている前記代替音声データを用いて前記合成ユーザ音声データを生成することを特徴とする案内サーバ。
請求項５ないし請求項１１のいずれかに記載の案内サーバにおいて、
前記音声生成手段は、前記複数の秘匿ワードの使用頻度に基づく優先順位に従って、前記複数の代替音声データを生成することを特徴とする案内サーバ。
請求項２に記載の案内サーバにおいて、
前記第１の合成音声データの生成に利用された前記代替音声データを格納する格納手段、
をさらに備え、
前記音声生成手段は、前記ユーザ音声データのうち前記第１の音声データとは異なる部分の部分音声データである第２の音声データ内に前記秘匿ワードが含まれる旨が前記音声認識処理によって判定される場合に、前記格納手段に格納されていた前記代替音声データを用いて、前記第２の音声データ内の前記秘匿音声データを前記代替音声データに置き換えた第２の合成音声データを生成し、
前記音声送信手段は、前記第２の合成音声データを前記サポータ端末に送信することを特徴とする案内サーバ。
請求項１に記載の案内サーバにおいて、
前記音声受信手段は、前記サポータにより発せられた音声のデータを含むサポータ音声データを受信し、
前記音声認識手段は、前記サポータ音声データに対する音声認識処理によって、１又は複数の秘匿ワードのいずれかに対応する一の代替ワードが前記サポータ音声データに含まれるか否かを判定し、
前記音声生成手段は、前記一の代替ワードが前記サポータ音声データに含まれる場合に、前記サポータ音声データ内の前記一の代替ワードの音声データである第２の代替音声データを、前記一の代替ワードに対応する秘匿ワードの音声データである第２の秘匿音声データに置き換えた合成サポータ音声データを生成し、
前記音声送信手段は、前記合成サポータ音声データを前記画像形成装置に送信することを特徴とする案内サーバ。
請求項１４に記載の案内サーバにおいて、
音声データを格納する格納手段、
をさらに備え、
前記音声生成手段は、
前記ユーザ音声データに基づき前記合成ユーザ音声データを生成する際に、前記ユーザ音声データから抽出した前記秘匿音声データを前記格納手段に格納しておき、
前記格納手段に既に格納されている前記秘匿音声データを前記第２の秘匿音声データとして用いて前記合成サポータ音声データを生成することを特徴とする案内サーバ。
請求項２ないし請求項４のいずれかに記載の案内サーバにおいて、
前記音声認識手段は、前記ユーザ音声データに所定時間以上の無音部分が存在する場合には、前記ユーザ音声データのうち、前記所定時間の無音状態が経過した時点を終端とするように区分した部分音声データを、前記第１の音声データとして抽出することを特徴とする案内サーバ。
請求項１６に記載の案内サーバにおいて、
前記画像受信手段は、前記第１の表示画像データとは異なる第２の表示画像データをも前記画像形成装置から受信し、
前記音声認識手段は、前記ユーザ音声データの音声認識処理中に前記第２の表示画像データが前記画像受信手段により受信される場合には、前記ユーザ音声データのうち、前記第２の表示画像の受信時点を終端とするように区分した部分音声データを、前記第１の音声データとして抽出することを特徴とする案内サーバ。
請求項１に記載の案内サーバにおいて、
前記第１の表示画像は、前記画像形成装置のボックスに格納されたファイルに関する情報表示画面の画像であり、
前記画像生成手段は、前記ファイルのファイル名、作成者、日付、およびファイル本文の見出しの少なくとも１つを示すワードを前記秘匿ワードとして決定し、当該秘匿ワードを前記代替ワードに置き換えた前記第１の合成画像データを生成し、
前記音声生成手段は、前記ユーザ音声データに当該秘匿ワードが含まれる場合に、前記秘匿音声データを前記代替音声データに置き換えた合成ユーザ音声データを生成することを特徴とする案内サーバ。
請求項１８に記載の案内サーバにおいて、
前記画像生成手段は、前記ファイル本文の見出しを示すワードを前記秘匿ワードとして決定し、前記ファイルの本文に含まれるワードのうち前記ファイルの本文の見出し以外のワードを前記秘匿ワードとしては決定せず、前記ファイルの本文のうち前記ファイルの本文の見出し以外の部分を判読回避画像に変換して前記第１の合成画像データを生成することを特徴とする案内サーバ。
操作案内システムにおける案内サーバに内蔵されたコンピュータに、
ａ）ユーザの操作対象である画像形成装置の操作部に表示された第１の表示画像のデータである第１の表示画像データを前記画像形成装置から受信するステップと、
ｂ）秘匿ワードが前記第１の表示画像データに含まれる場合に、前記第１の表示画像における前記秘匿ワードを当該秘匿ワードに対応する代替ワードに置き換えた第１の合成画像のデータである第１の合成画像データを生成するステップと、
ｃ）前記ユーザを支援する人物であるサポータにより前記ユーザへの案内に利用されるサポータ端末に対して、前記サポータ端末での表示用データとして前記第１の合成画像データを送信するステップと、
ｄ）前記ユーザにより発せられた音声のデータを含むユーザ音声データを受信するステップと、
ｅ）前記ユーザ音声データに対する音声認識処理によって、前記ユーザ音声データに前記秘匿ワードが含まれるか否かを判定するステップと、
ｆ）前記ユーザ音声データに前記秘匿ワードが含まれると判定される場合に、前記ユーザ音声データ内の前記秘匿ワードの音声データである秘匿音声データを、当該秘匿ワードに対応する前記代替ワードの音声データである代替音声データに置き換えたデータである合成ユーザ音声データを生成するステップと、
ｇ）前記サポータ端末での音声出力用データとして前記合成ユーザ音声データを前記サポータ端末に送信するステップと、
を実行させるためのプログラム。
操作案内システムであって、
ユーザの操作対象である画像形成装置と、
前記ユーザを支援する人物であるサポータにより前記ユーザへの画像形成装置の操作案内に利用されるサポータ端末と、
前記画像形成装置と前記サポータ端末とを媒介する案内サーバと、
を備え、
前記案内サーバは、
前記画像形成装置の操作部に表示された第１の表示画像のデータである第１の表示画像データを前記画像形成装置から受信する画像受信手段と、
秘匿ワードが前記第１の表示画像データに含まれる場合に、前記第１の表示画像における前記秘匿ワードを当該秘匿ワードに対応する代替ワードに置き換えた第１の合成画像のデータである第１の合成画像データを生成する画像生成手段と、
前記サポータ端末に対して、前記サポータ端末での表示用データとして前記第１の合成画像データを送信する画像送信手段と、
前記ユーザにより発せられた音声のデータを含むユーザ音声データを受信する音声受信手段と、
前記ユーザ音声データに対する音声認識処理によって、前記ユーザ音声データに前記秘匿ワードが含まれるか否かを判定する音声認識手段と、
前記ユーザ音声データに前記秘匿ワードが含まれると判定される場合に、前記ユーザ音声データ内の前記秘匿ワードの音声データである秘匿音声データを、当該秘匿ワードに対応する前記代替ワードの音声データである代替音声データに置き換えたデータである合成ユーザ音声データを生成する音声生成手段と、
前記サポータ端末での音声出力用データとして前記合成ユーザ音声データを前記サポータ端末に送信する音声送信手段と、
を有することを特徴とする操作案内システム。
操作案内システムにおける画像形成装置であって、
ユーザの操作対象である前記画像形成装置の操作部に表示された第１の表示画像のデータである第１の表示画像データを取得する画像取得手段と、
秘匿ワードが前記第１の表示画像データに含まれる場合に、前記第１の表示画像における前記秘匿ワードを当該秘匿ワードに対応する代替ワードに置き換えた第１の合成画像のデータである第１の合成画像データを生成する画像生成手段と、
前記ユーザを支援する人物であるサポータにより前記ユーザへの案内に利用されるサポータ端末に対して、前記サポータ端末での表示用データとして前記第１の合成画像データを送信する画像送信手段と、
前記ユーザにより発せられた音声のデータを含むユーザ音声データを取得する音声取得手段と、
前記ユーザ音声データに対する音声認識処理によって、前記ユーザ音声データに前記秘匿ワードが含まれるか否かを判定する音声認識手段と、
前記ユーザ音声データに前記秘匿ワードが含まれると判定される場合に、前記ユーザ音声データ内の前記秘匿ワードの音声データである秘匿音声データを、当該秘匿ワードに対応する前記代替ワードの音声データである代替音声データに置き換えたデータである合成ユーザ音声データを生成する音声生成手段と、
前記サポータ端末での音声出力用データとして前記合成ユーザ音声データを前記サポータ端末に送信する音声送信手段と、
を備えることを特徴とする画像形成装置。
操作案内システムにおける画像形成装置に内蔵されたコンピュータに、
ａ）ユーザの操作対象である前記画像形成装置の操作部に表示された第１の表示画像のデータである第１の表示画像データを取得するステップと、
ｂ）秘匿ワードが前記第１の表示画像データに含まれる場合に、前記第１の表示画像における前記秘匿ワードを当該秘匿ワードに対応する代替ワードに置き換えた第１の合成画像のデータである第１の合成画像データを生成するステップと、
ｃ）前記ユーザを支援する人物であるサポータにより前記ユーザへの案内に利用されるサポータ端末に対して、前記サポータ端末での表示用データとして前記第１の合成画像データを送信するステップと、
ｄ）前記ユーザにより発せられた音声のデータを含むユーザ音声データを取得するステップと、
ｅ）前記ユーザ音声データに対する音声認識処理によって、前記ユーザ音声データに前記秘匿ワードが含まれるか否かを判定するステップと、
ｆ）前記ユーザ音声データに前記秘匿ワードが含まれると判定される場合に、前記ユーザ音声データ内の前記秘匿ワードの音声データである秘匿音声データを、当該秘匿ワードに対応する前記代替ワードの音声データである代替音声データに置き換えたデータである合成ユーザ音声データを生成するステップと、
ｇ）前記サポータ端末での音声出力用データとして前記合成ユーザ音声データを前記サポータ端末に送信するステップと、
を実行させるためのプログラム。