JP6229433B2 - Operation guidance server, operation guidance system, image forming apparatus, and program - Google Patents

Operation guidance server, operation guidance system, image forming apparatus, and program Download PDF

Info

Publication number
JP6229433B2
JP6229433B2 JP2013225254A JP2013225254A JP6229433B2 JP 6229433 B2 JP6229433 B2 JP 6229433B2 JP 2013225254 A JP2013225254 A JP 2013225254A JP 2013225254 A JP2013225254 A JP 2013225254A JP 6229433 B2 JP6229433 B2 JP 6229433B2
Authority
JP
Japan
Prior art keywords
data
voice data
voice
user
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013225254A
Other languages
Japanese (ja)
Other versions
JP2015088890A (en
Inventor
和也 姉崎
和也 姉崎
淳一 長谷
淳一 長谷
松原 賢士
賢士 松原
高橋 一誠
一誠 高橋
博一 久保田
博一 久保田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2013225254A priority Critical patent/JP6229433B2/en
Publication of JP2015088890A publication Critical patent/JP2015088890A/en
Application granted granted Critical
Publication of JP6229433B2 publication Critical patent/JP6229433B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Accessory Devices And Overall Control Thereof (AREA)
  • Facsimiles In General (AREA)
  • Editing Of Facsimile Originals (AREA)

Description

本発明は、操作案内システムおよびそれに関連する技術に関する。   The present invention relates to an operation guidance system and related technology.

近年、MFP(マルチ・ファンクション・ペリフェラル(Multi-Functional Peripheral))などの画像形成装置は、多機能化および高機能化しており、その操作が煩雑になっている。そのため、ユーザは、画像形成装置の操作方法をサポートセンターに問い合わせ、サポータ(サポートセンターにおいてユーザを支援する人物)にその操作の案内を依頼することがある。   In recent years, an image forming apparatus such as an MFP (Multi-Functional Peripheral) has become multifunctional and highly functional, and its operation has become complicated. For this reason, the user may inquire of the support center about the operation method of the image forming apparatus and request a supporter (a person who supports the user at the support center) to guide the operation.

その際、ユーザは、自己が操作している画像形成装置の表示画像に基づいてサポータから操作案内を受けることがあり、表示画像に含まれるユーザの機密情報がサポータの端末にそのまま表示されることによりユーザの機密情報が漏洩する恐れがある。   At that time, the user may receive operation guidance from the supporter based on the display image of the image forming apparatus operated by the user, and the confidential information of the user included in the display image is displayed as it is on the supporter terminal. As a result, the confidential information of the user may be leaked.

特許文献1においては、このような問題に鑑みて、画像形成装置の表示部に表示されたユーザの機密情報をダミー画像に置き換えてサポータのパーソナルコンピュータに表示させることにより、ユーザの機密情報がサポータ側にそのまま表示されることを防止することが記載されている。   In Patent Document 1, in view of such a problem, the confidential information of the user displayed on the display unit of the image forming apparatus is replaced with a dummy image and displayed on the personal computer of the supporter. It is described that it is prevented from being displayed as it is on the side.

特開2009−253651号公報JP 2009-253651 A

ところで、ユーザとサポータとの間の操作案内においては、表示画像を用いた操作案内のみならず、音声を用いた操作案内も行われることが想定される。   By the way, in operation guidance between a user and a supporter, it is assumed that not only operation guidance using a display image but also operation guidance using voice is performed.

しかしながら、表示画像および音声を用いた操作案内を行う際において、上記の従来技術を用いると、ユーザの発した音声に含まれる機密情報はサポータの端末にそのまま伝達され、ユーザの機密情報がサポータに漏洩してしまう恐れがある。   However, when performing the operation guidance using the display image and the sound, if the above-described conventional technology is used, the confidential information included in the voice uttered by the user is directly transmitted to the terminal of the supporter, and the confidential information of the user is transmitted to the supporter. There is a risk of leakage.

そこで、この発明は、ユーザとサポータとの間の操作案内において、ユーザの音声に含まれる機密情報の漏洩を回避することが可能な技術を提供することを課題とする。   Therefore, an object of the present invention is to provide a technique capable of avoiding leakage of confidential information included in a user's voice in operation guidance between the user and a supporter.

上記課題を解決すべく、請求項1の発明は、操作案内システムにおける案内サーバであって、ユーザの操作対象である画像形成装置の操作部に表示された第1の表示画像のデータである第1の表示画像データを前記画像形成装置から受信する画像受信手段と、秘匿ワードが前記第1の表示画像データに含まれる場合に、前記第1の表示画像における前記秘匿ワードを当該秘匿ワードに対応する代替ワードに置き換えた第1の合成画像のデータである第1の合成画像データを生成する画像生成手段と、前記ユーザを支援する人物であるサポータにより前記ユーザへの操作案内に利用されるサポータ端末に対して、前記サポータ端末での表示用データとして前記第1の合成画像データを送信する画像送信手段と、前記ユーザにより発せられた音声のデータを含むユーザ音声データを前記画像形成装置から受信する音声受信手段と、前記ユーザ音声データに対する音声認識処理によって、前記ユーザ音声データに前記秘匿ワードが含まれるか否かを判定する音声認識手段と、前記ユーザ音声データに前記秘匿ワードが含まれると判定される場合に、前記ユーザ音声データ内の前記秘匿ワードの音声データである秘匿音声データを、当該秘匿ワードに対応する前記代替ワードの音声データである代替音声データに置き換えたデータである合成ユーザ音声データを生成する音声生成手段と、前記サポータ端末での音声出力用データとして前記合成ユーザ音声データを前記サポータ端末に送信する音声送信手段と、を備えることを特徴とする。 In order to solve the above problem, the invention of claim 1 is a guidance server in an operation guidance system, which is data of a first display image displayed on an operation unit of an image forming apparatus which is a user's operation target. Image receiving means for receiving one display image data from the image forming apparatus, and when a secret word is included in the first display image data, the secret word in the first display image corresponds to the secret word And a supporter used for operation guidance to the user by a supporter who is a person supporting the user An image transmitting means for transmitting the first composite image data as display data on the supporter terminal to the terminal, and a voice uttered by the user A voice receiving means for receiving user voice data including data from the image forming apparatus, a voice recognition processing on the user speech data, a speech recognition unit for determining whether or not the include the secret word to the user speech data When it is determined that the secret word is included in the user voice data, the secret voice data that is the voice data of the secret word in the user voice data is converted into voice data of the alternative word corresponding to the secret word. Voice generating means for generating synthesized user voice data which is data replaced with alternative voice data, and voice transmitting means for sending the synthesized user voice data to the supporter terminal as voice output data at the supporter terminal; It is characterized by providing.

請求項2の発明は、請求項1の発明に係る案内サーバにおいて、前記ユーザ音声データは、複数の部分音声データに区分され、前記音声生成手段は、前記ユーザ音声データにおける一の部分音声データである第1の音声データ内に前記秘匿ワードが含まれる旨が前記音声認識処理によって判定される場合に、前記第1の音声データ内の前記秘匿音声データを前記代替音声データに置き換えた第1の合成音声データを生成し、前記音声送信手段は、前記第1の合成音声データを前記サポータ端末に送信することを特徴とする。   According to a second aspect of the present invention, in the guidance server according to the first aspect of the invention, the user voice data is divided into a plurality of partial voice data, and the voice generation means is one partial voice data in the user voice data. When the voice recognition process determines that the secret word is included in certain first voice data, the first voice data in which the secret voice data in the first voice data is replaced with the alternative voice data. The synthesized voice data is generated, and the voice transmitting means transmits the first synthesized voice data to the supporter terminal.

請求項3の発明は、請求項2の発明に係る案内サーバにおいて、前記第1の音声データは、前記第1の表示画像の表示中に前記ユーザにより発せられた音声を含み、前記画像受信手段は、前記第1の表示画像に引き続いて前記操作部に表示される第2の表示画像のデータである第2の表示画像データを、前記第1の表示画像データの受信完了後に前記画像形成装置から受信し、前記画像生成手段は、秘匿ワードが前記第2の表示画像データに含まれる場合に、前記第2の表示画像データ内の前記秘匿ワードを当該秘匿ワードに対応する代替ワードに置き換えた第2の合成画像のデータである第2の合成画像データを生成し、前記画像送信手段は、前記第1の音声データの受信が開始されると前記第2の合成画像データの送信を許可せず、前記第1の音声データに基づき生成された前記第1の合成音声データの送信完了時点以後において前記第2の合成画像データの送信を許可することを特徴とする。   According to a third aspect of the present invention, in the guidance server according to the second aspect of the invention, the first voice data includes a voice uttered by the user during display of the first display image, and the image receiving means. The second display image data, which is the data of the second display image displayed on the operation unit subsequent to the first display image, is converted into the image forming apparatus after the reception of the first display image data is completed. And when the secret word is included in the second display image data, the image generation means replaces the secret word in the second display image data with an alternative word corresponding to the secret word. Second composite image data, which is data of a second composite image, is generated, and the image transmission means permits transmission of the second composite image data when reception of the first audio data is started. The above And permits the transmission of the second synthesized image data in the transmission completion time after the first synthesized speech data generated based on one of the audio data.

請求項4の発明は、請求項3の発明に係る案内サーバにおいて、前記画像送信手段は、前記第1の音声データの受信開始時点と前記第1の合成音声データの送信完了から前記第1の合成音声データの出力所要時間が経過した時点との間の期間である第1の期間内に前記画像受信手段により前記第2の表示画像データが受信される場合には、前記第1の期間の終了時点までは前記第2の合成画像データの送信を許可せず且つ前記第1の期間の終了後に前記第2の合成画像データの送信を許可することを特徴とする。   According to a fourth aspect of the present invention, in the guidance server according to the third aspect of the present invention, the image transmission means is configured to receive the first voice data from the reception start time of the first voice data and completion of the transmission of the first synthesized voice data. When the second display image data is received by the image receiving means within a first period that is a period between the time when the output time of the synthesized voice data has elapsed, Transmission of the second composite image data is not permitted until the end point, and transmission of the second composite image data is permitted after the end of the first period.

請求項5の発明は、請求項1の発明に係る案内サーバにおいて、音声データを格納する格納手段、をさらに備え、前記音声生成手段は、複数の秘匿ワードに対応する代替ワードの音声データである複数の代替音声データの生成を前記合成ユーザ音声データの生成に先立つ所定の時点から開始するとともに、生成された代替音声データを前記格納手段に格納し、前記ユーザ音声データに前記秘匿ワードが含まれ且つ前記秘匿ワードに対応する前記代替音声データが前記格納手段に格納されていない場合には、前記代替音声データを機械音声生成処理により生成し、生成された当該代替音声データを用いて前記合成ユーザ音声データを生成し、前記ユーザ音声データに前記秘匿ワードが含まれ且つ前記秘匿ワードに対応する前記代替音声データが前記格納手段に既に格納されている場合には、前記格納手段に格納されている前記代替音声データを用いて前記合成ユーザ音声データを生成することを特徴とする。   A fifth aspect of the present invention is the guidance server according to the first aspect of the present invention, further comprising storage means for storing voice data, wherein the voice generating means is voice data of alternative words corresponding to a plurality of secret words. Generation of a plurality of alternative voice data is started from a predetermined time prior to the generation of the synthesized user voice data, and the generated alternative voice data is stored in the storage means, and the secret word is included in the user voice data When the alternative voice data corresponding to the secret word is not stored in the storage unit, the alternative voice data is generated by a machine voice generation process, and the synthesized user is generated using the generated alternative voice data. Voice data is generated, and the user voice data includes the secret word and the alternative voice data corresponding to the secret word is If already stored in the serial storage means, and generating said composite user speech data using the substitute audio data stored in said storage means.

請求項6の発明は、請求項5の発明に係る案内サーバにおいて、前記音声生成手段は、前記ユーザからの操作案内の依頼の発生を示すサポート依頼信号を前記案内サーバが受信することに応答して、前記複数の代替音声データの生成を開始することを特徴とする。   According to a sixth aspect of the present invention, in the guidance server according to the fifth aspect of the invention, the voice generating means is responsive to the guidance server receiving a support request signal indicating the occurrence of a request for operation guidance from the user. Then, the generation of the plurality of alternative voice data is started.

請求項7の発明は、請求項6の発明に係る案内サーバにおいて、前記複数の秘匿ワードは、前記画像形成装置のスキャン画像送信における宛先指定画面内の送信宛先を示す語句と前記画像形成装置のファクシミリ送信における宛先指定画面に含まれる送信宛先を示す語句との少なくとも一方を含むことを特徴とする。   According to a seventh aspect of the present invention, in the guidance server according to the sixth aspect of the invention, the plurality of secret words include a phrase indicating a transmission destination in a destination designation screen in the scan image transmission of the image forming apparatus, and the image forming apparatus. It includes at least one of a phrase indicating a transmission destination included in a destination designation screen in facsimile transmission.

請求項8の発明は、請求項6の発明に係る案内サーバにおいて、前記複数の秘匿ワードは、前記画像形成装置のボックスに格納されたファイルに関する情報表示画面に表示されるファイル情報を示す語句を含むことを特徴とする。   The invention of claim 8 is the guidance server according to the invention of claim 6, wherein the plurality of secret words are words or phrases indicating file information displayed on an information display screen relating to a file stored in a box of the image forming apparatus. It is characterized by including.

請求項9の発明は、請求項5の発明に係る案内サーバにおいて、前記音声生成手段は、前記複数の代替音声データのうち、前記画像形成装置の現在の動作モードにおける表示画像に含まれ得る秘匿ワードに対応する代替音声データを優先的に生成することを特徴とする。   According to a ninth aspect of the present invention, in the guidance server according to the fifth aspect of the invention, the voice generation unit may include a secret that may be included in a display image in the current operation mode of the image forming apparatus among the plurality of alternative voice data. Alternative voice data corresponding to a word is preferentially generated.

請求項10の発明は、請求項9の発明に係る案内サーバにおいて、前記画像形成装置の現在の動作モードは、スキャンモードとファクシミリ送信モードとボックスモードとを含む複数のモードのうちのいずれかであることを特徴とする。   According to a tenth aspect of the present invention, in the guide server according to the ninth aspect, the current operation mode of the image forming apparatus is any one of a plurality of modes including a scan mode, a facsimile transmission mode, and a box mode. It is characterized by being.

請求項11の発明は、請求項1の発明に係る案内サーバにおいて、音声データを格納する格納手段、をさらに備え、前記音声生成手段は、前記第1の表示画像データが前記画像受信手段によって受信されると、複数の秘匿ワードに対応する代替ワードの音声データである複数の代替音声データの生成を開始し、生成された代替音声データを前記格納手段に格納し、前記ユーザ音声データに前記秘匿ワードが含まれ且つ前記秘匿ワードに対応する前記代替音声データが前記格納手段に格納されていない場合には、前記代替音声データを機械音声生成処理により生成し、生成された当該代替音声データを用いて前記合成ユーザ音声データを生成し、前記ユーザ音声データに前記秘匿ワードが含まれ且つ前記秘匿ワードに対応する前記代替音声データが前記格納手段に既に格納されている場合には、前記格納手段に格納されている前記代替音声データを用いて前記合成ユーザ音声データを生成することを特徴とする。   The invention of claim 11 is the guidance server according to the invention of claim 1, further comprising storage means for storing voice data, wherein the voice generation means receives the first display image data by the image receiving means. Then, generation of a plurality of alternative voice data, which are voice data of alternative words corresponding to the plurality of secret words, is started, the generated alternative voice data is stored in the storage means, and the secret data is stored in the user voice data When the alternative voice data corresponding to the secret word is not stored in the storage means, the alternative voice data is generated by machine voice generation processing, and the generated alternative voice data is used. Generating the synthesized user voice data, and the user voice data includes the secret word and the alternative voice data corresponding to the secret word. There if already stored in said storage means, and generating said composite user speech data using the substitute audio data stored in said storage means.

請求項12の発明は、請求項5ないし請求項11のいずれかの発明に係る案内サーバにおいて、前記音声生成手段は、前記複数の秘匿ワードの使用頻度に基づく優先順位に従って、前記複数の代替音声データを生成することを特徴とする。   According to a twelfth aspect of the present invention, in the guidance server according to any one of the fifth to eleventh aspects, the voice generation unit is configured to perform the plurality of alternative voices according to a priority order based on the frequency of use of the plurality of secret words. It is characterized by generating data.

請求項13の発明は、請求項2の発明に係る案内サーバにおいて、前記第1の合成音声データの生成に利用された前記代替音声データを格納する格納手段、をさらに備え、前記音声生成手段は、前記ユーザ音声データのうち前記第1の音声データとは異なる部分の部分音声データである第2の音声データ内に前記秘匿ワードが含まれる旨が前記音声認識処理によって判定される場合に、前記格納手段に格納されていた前記代替音声データを用いて、前記第2の音声データ内の前記秘匿音声データを前記代替音声データに置き換えた第2の合成音声データを生成し、前記音声送信手段は、前記第2の合成音声データを前記サポータ端末に送信することを特徴とする。   According to a thirteenth aspect of the present invention, in the guidance server according to the second aspect of the present invention, the guidance server further comprises storage means for storing the alternative voice data used for generating the first synthesized voice data. When the voice recognition process determines that the secret word is included in the second voice data which is partial voice data of the user voice data different from the first voice data, Using the substitute voice data stored in the storage means, the second synthesized voice data is generated by replacing the secret voice data in the second voice data with the substitute voice data, and the voice sending means The second synthesized voice data is transmitted to the supporter terminal.

請求項14の発明は、請求項1の発明に係る案内サーバにおいて、前記音声受信手段は、前記サポータにより発せられた音声のデータを含むサポータ音声データを受信し、前記音声認識手段は、前記サポータ音声データに対する音声認識処理によって、1又は複数の秘匿ワードのいずれかに対応する一の代替ワードが前記サポータ音声データに含まれるか否かを判定し、前記音声生成手段は、前記一の代替ワードが前記サポータ音声データに含まれる場合に、前記サポータ音声データ内の前記一の代替ワードの音声データである第2の代替音声データを、前記一の代替ワードに対応する秘匿ワードの音声データである第2の秘匿音声データに置き換えた合成サポータ音声データを生成し、前記音声送信手段は、前記合成サポータ音声データを前記画像形成装置に送信することを特徴とする。   According to a fourteenth aspect of the present invention, in the guidance server according to the first aspect of the invention, the voice receiving means receives supporter voice data including voice data generated by the supporter, and the voice recognition means is the supporter. It is determined whether or not one substitute word corresponding to one or a plurality of secret words is included in the supporter voice data by voice recognition processing on the voice data, and the voice generation means Is included in the supporter voice data, the second alternative voice data that is the voice data of the one alternative word in the supporter voice data is the voice data of the secret word corresponding to the one alternative word. The synthesized supporter voice data replaced with the second secret voice data is generated, and the voice transmitting means converts the synthesized supporter voice data into And transmits the serial image forming apparatus.

請求項15の発明は、請求項14の発明に係る案内サーバにおいて、音声データを格納する格納手段、をさらに備え、前記音声生成手段は、前記ユーザ音声データに基づき前記合成ユーザ音声データを生成する際に、前記ユーザ音声データから抽出した前記秘匿音声データを前記格納手段に格納しておき、前記格納手段に格納された前記秘匿音声データを前記第2の秘匿音声データとして用いて前記合成サポータ音声データを生成することを特徴とする。   According to a fifteenth aspect of the present invention, in the guidance server according to the fourteenth aspect of the present invention, the guidance server further comprises storage means for storing voice data, and the voice generation means generates the synthesized user voice data based on the user voice data. In this case, the secret voice data extracted from the user voice data is stored in the storage means, and the secret voice data stored in the storage means is used as the second secret voice data. It is characterized by generating data.

請求項16の発明は、請求項2ないし請求項4のいずれかの発明に係る案内サーバにおいて、前記音声認識手段は、前記ユーザ音声データに所定時間以上の無音部分が存在する場合には、前記ユーザ音声データのうち、前記所定時間の無音状態が経過した時点を終端とするように区分した部分音声データを、前記第1の音声データとして抽出することを特徴とする。   According to a sixteenth aspect of the present invention, in the guidance server according to any one of the second to fourth aspects of the invention, the voice recognizing unit is configured so that the user voice data includes a silent portion of a predetermined time or longer. Of the user voice data, partial voice data divided so as to end at the point in time when the silent state for the predetermined time has elapsed is extracted as the first voice data.

請求項17の発明は、請求項16の発明に係る案内サーバにおいて、前記画像受信手段は、前記第1の表示画像データとは異なる第2の表示画像データをも前記画像形成装置から受信し、前記音声認識手段は、前記ユーザ音声データの音声認識処理中に前記第2の表示画像データが前記画像受信手段により受信される場合には、前記ユーザ音声データのうち、前記第2の表示画像データの受信時点を終端とするように区分した部分音声データを、前記第1の音声データとして抽出することを特徴とする。 According to a seventeenth aspect of the present invention, in the guidance server according to the sixteenth aspect of the invention, the image receiving means also receives second display image data different from the first display image data from the image forming apparatus, When the second display image data is received by the image receiving means during the voice recognition process of the user voice data, the voice recognition means includes the second display image data of the user voice data. The partial audio data divided so as to end at the reception time of is extracted as the first audio data.

請求項18の発明は、請求項1の発明に係る案内サーバにおいて、前記第1の表示画像は、前記画像形成装置のボックスに格納されたファイルに関する情報表示画面の画像であり、前記秘匿ワードは、前記ファイルのファイル名、作成者、日付、およびファイル本文の見出しの少なくとも1つを示すワードを含み、前記画像生成手段は、当該秘匿ワードを前記代替ワードに置き換えた前記第1の合成画像データを生成し、前記音声生成手段は、前記ユーザ音声データに当該秘匿ワードが含まれる場合に、前記秘匿音声データを前記代替音声データに置き換えた合成ユーザ音声データを生成することを特徴とする。 The invention according to claim 18 is the guidance server according to claim 1, wherein the first display image is an image of an information display screen related to a file stored in a box of the image forming apparatus, and the secret word is , the file name, the creator of the file, including the date, and the word indicating at least one of heading file body, the image generation means, the first composite image by replacing an equivalent the secret word in the alternative word When the user voice data includes the secret word, the voice generation unit generates synthesized user voice data in which the secret voice data is replaced with the alternative voice data.

請求項19の発明は、請求項18の発明に係る案内サーバにおいて、前記秘匿ワードは、前記ファイル本文の見出しを示すワードを含み、前記画像生成手段は、当該秘匿ワードを前記代替ワードに置き換えた前記第1の合成画像データであって前記ファイル本文のうち前記ファイル本文の見出し以外の部分を判読回避画像に変換し前記第1の合成画像データを生成することを特徴とする。 According to a nineteenth aspect of the present invention, in the guidance server according to the eighteenth aspect of the present invention, the secret word includes a word indicating a heading of the file text, and the image generation means replaces the secret word with the substitute word. and generates the first composite image data obtained by converting the portion other than heading the files present statement read avoid image of the first said file present text a synthetic image data .

請求項20の発明は、操作案内システムにおける案内サーバに内蔵されたコンピュータに、a)ユーザの操作対象である画像形成装置の操作部に表示された第1の表示画像のデータである第1の表示画像データを前記画像形成装置から受信するステップと、b)秘匿ワードが前記第1の表示画像データに含まれる場合に、前記第1の表示画像における前記秘匿ワードを当該秘匿ワードに対応する代替ワードに置き換えた第1の合成画像のデータである第1の合成画像データを生成するステップと、c)前記ユーザを支援する人物であるサポータにより前記ユーザへの案内に利用されるサポータ端末に対して、前記サポータ端末での表示用データとして前記第1の合成画像データを送信するステップと、d)前記ユーザにより発せられた音声のデータを含むユーザ音声データを前記画像形成装置から受信するステップと、e)前記ユーザ音声データに対する音声認識処理によって、前記ユーザ音声データに前記秘匿ワードが含まれるか否かを判定するステップと、f)前記ユーザ音声データに前記秘匿ワードが含まれると判定される場合に、前記ユーザ音声データ内の前記秘匿ワードの音声データである秘匿音声データを、当該秘匿ワードに対応する前記代替ワードの音声データである代替音声データに置き換えたデータである合成ユーザ音声データを生成するステップと、g)前記サポータ端末での音声出力用データとして前記合成ユーザ音声データを前記サポータ端末に送信するステップと、を実行させるためのプログラムであることを特徴とする。 According to a twentieth aspect of the present invention, there is provided a first built-in image data displayed on an operation unit of an image forming apparatus, which is a user's operation target, on a computer built in a guidance server in the operation guidance system. A step of receiving display image data from the image forming apparatus; and b) an alternative corresponding to the secret word in the first display image when the secret word is included in the first display image data. A step of generating first composite image data which is data of a first composite image replaced with a word; and c) a supporter terminal used for guidance to the user by a supporter who is a person supporting the user. Transmitting the first composite image data as display data at the supporter terminal; and d) the voice uttered by the user Receiving a user voice data including over data from the image forming apparatus, e) by a speech recognition process on the user speech data, determining whether the contains the secret word to the user speech data, f) When it is determined that the secret word is included in the user voice data, the secret voice data that is the voice data of the secret word in the user voice data is converted to the voice of the alternative word corresponding to the secret word. Generating synthesized user voice data that is data replaced with alternative voice data that is data; and g) transmitting the synthesized user voice data to the supporter terminal as voice output data at the supporter terminal. It is a program for executing.

請求項21の発明は、操作案内システムであって、ユーザの操作対象である画像形成装置と、前記ユーザを支援する人物であるサポータにより前記ユーザへの画像形成装置の操作案内に利用されるサポータ端末と、前記画像形成装置と前記サポータ端末とを媒介する案内サーバと、を備え、前記案内サーバは、前記画像形成装置の操作部に表示された第1の表示画像のデータである第1の表示画像データを前記画像形成装置から受信する画像受信手段と、秘匿ワードが前記第1の表示画像データに含まれる場合に、前記第1の表示画像における前記秘匿ワードを当該秘匿ワードに対応する代替ワードに置き換えた第1の合成画像のデータである第1の合成画像データを生成する画像生成手段と、前記サポータ端末に対して、前記サポータ端末での表示用データとして前記第1の合成画像データを送信する画像送信手段と、前記ユーザにより発せられた音声のデータを含むユーザ音声データを前記画像形成装置から受信する音声受信手段と、前記ユーザ音声データに対する音声認識処理によって、前記ユーザ音声データに前記秘匿ワードが含まれるか否かを判定する音声認識手段と、前記ユーザ音声データに前記秘匿ワードが含まれると判定される場合に、前記ユーザ音声データ内の前記秘匿ワードの音声データである秘匿音声データを、当該秘匿ワードに対応する前記代替ワードの音声データである代替音声データに置き換えたデータである合成ユーザ音声データを生成する音声生成手段と、前記サポータ端末での音声出力用データとして前記合成ユーザ音声データを前記サポータ端末に送信する音声送信手段と、を有することを特徴とする。 According to a twenty-first aspect of the present invention, there is provided an operation guidance system, a supporter used for operation guidance of the image forming apparatus to the user by an image forming apparatus which is a user's operation target and a supporter who is a person supporting the user. A guidance server that mediates between the terminal and the image forming apparatus and the supporter terminal, wherein the guidance server is a first display image data displayed on an operation unit of the image forming apparatus. An image receiving unit that receives display image data from the image forming apparatus, and an alternative that corresponds to the secret word in the first display image when the secret word is included in the first display image data. Image generating means for generating first composite image data which is data of a first composite image replaced with a word, and the supporter terminal with respect to the supporter terminal An image transmitting means for transmitting said first combined image data as the display data, and voice receiving means for receiving user voice data from the image forming apparatus including a sound data emitted by the user, the user voice Voice recognition means for determining whether or not the user voice data includes the secret word by voice recognition processing on the data, and when it is determined that the user voice data includes the secret word, the user voice Voice generating means for generating synthesized user voice data, which is data obtained by replacing secret voice data that is voice data of the secret word in data with substitute voice data that is voice data of the alternative word corresponding to the secret word; The synthesized user voice data is used as voice output data at the supporter terminal. And having a, a sound transmission means for transmitting to the end.

請求項22の発明は、操作案内システムにおける画像形成装置であって、ユーザの操作対象である前記画像形成装置の操作部に表示された第1の表示画像のデータである第1の表示画像データを取得する画像取得手段と、秘匿ワードが前記第1の表示画像データに含まれる場合に、前記第1の表示画像における前記秘匿ワードを当該秘匿ワードに対応する代替ワードに置き換えた第1の合成画像のデータである第1の合成画像データを生成する画像生成手段と、前記ユーザを支援する人物であるサポータにより前記ユーザへの案内に利用されるサポータ端末に対して、前記サポータ端末での表示用データとして前記第1の合成画像データを送信する画像送信手段と、前記ユーザにより発せられた音声のデータを含むユーザ音声データを取得する音声取得手段と、前記ユーザ音声データに対する音声認識処理によって、前記ユーザ音声データに前記秘匿ワードが含まれるか否かを判定する音声認識手段と、前記ユーザ音声データに前記秘匿ワードが含まれると判定される場合に、前記ユーザ音声データ内の前記秘匿ワードの音声データである秘匿音声データを、当該秘匿ワードに対応する前記代替ワードの音声データである代替音声データに置き換えたデータである合成ユーザ音声データを生成する音声生成手段と、前記サポータ端末での音声出力用データとして前記合成ユーザ音声データを前記サポータ端末に送信する音声送信手段と、を備えることを特徴とする。   According to a twenty-second aspect of the present invention, there is provided an image forming apparatus in the operation guidance system, wherein the first display image data is data of a first display image displayed on the operation unit of the image forming apparatus that is a user's operation target. And a first composition in which, when a secret word is included in the first display image data, the secret word in the first display image is replaced with an alternative word corresponding to the secret word. Display on the supporter terminal with respect to a supporter terminal that is used for guidance to the user by an image generation unit that generates first composite image data that is image data and a supporter that is a person supporting the user Image transmission means for transmitting the first composite image data as data for use, and user voice data including voice data uttered by the user A voice recognition unit that determines whether or not the secret word is included in the user voice data by voice recognition processing for the user voice data; and that the secret word is included in the user voice data. If so, the synthesized user voice is data obtained by replacing the secret voice data that is the voice data of the secret word in the user voice data with the substitute voice data that is the voice data of the alternative word corresponding to the secret word. Voice generation means for generating data; and voice transmission means for transmitting the synthesized user voice data to the supporter terminal as voice output data at the supporter terminal.

請求項23の発明は、操作案内システムにおける画像形成装置に内蔵されたコンピュータに、a)ユーザの操作対象である前記画像形成装置の操作部に表示された第1の表示画像のデータである第1の表示画像データを取得するステップと、b)秘匿ワードが前記第1の表示画像データに含まれる場合に、前記第1の表示画像における前記秘匿ワードを当該秘匿ワードに対応する代替ワードに置き換えた第1の合成画像のデータである第1の合成画像データを生成するステップと、c)前記ユーザを支援する人物であるサポータにより前記ユーザへの案内に利用されるサポータ端末に対して、前記サポータ端末での表示用データとして前記第1の合成画像データを送信するステップと、d)前記ユーザにより発せられた音声のデータを含むユーザ音声データを取得するステップと、e)前記ユーザ音声データに対する音声認識処理によって、前記ユーザ音声データに前記秘匿ワードが含まれるか否かを判定するステップと、f)前記ユーザ音声データに前記秘匿ワードが含まれると判定される場合に、前記ユーザ音声データ内の前記秘匿ワードの音声データである秘匿音声データを、当該秘匿ワードに対応する前記代替ワードの音声データである代替音声データに置き換えたデータである合成ユーザ音声データを生成するステップと、g)前記サポータ端末での音声出力用データとして前記合成ユーザ音声データを前記サポータ端末に送信するステップと、実行させるためのプログラムであることを特徴とする。   According to a twenty-third aspect of the present invention, there is provided a computer built in the image forming apparatus in the operation guidance system, wherein a) data of the first display image displayed on the operation unit of the image forming apparatus which is a user's operation target. A step of obtaining one display image data, and b) when a secret word is included in the first display image data, the secret word in the first display image is replaced with an alternative word corresponding to the secret word. A step of generating first composite image data which is data of the first composite image; and c) a supporter terminal used for guidance to the user by a supporter who is a person supporting the user, Transmitting the first composite image data as display data on a supporter terminal; and d) a user including voice data uttered by the user. Obtaining voice data, e) determining whether or not the secret word is included in the user voice data by voice recognition processing on the user voice data, and f) the secret to the user voice data. When it is determined that a word is included, the confidential voice data that is the voice data of the secret word in the user voice data is replaced with the alternative voice data that is the voice data of the alternative word corresponding to the secret word Generating a synthesized user voice data as data; g) transmitting the synthesized user voice data as voice output data at the supporter terminal to the supporter terminal; and a program for executing the program. And

請求項1ないし請求項23に記載の発明によれば、ユーザとサポータとの間の操作案内において、ユーザの音声に含まれる機密情報の漏洩を回避することが可能である。   According to the first to twenty-third aspects of the present invention, it is possible to avoid leakage of confidential information included in the user's voice in the operation guidance between the user and the supporter.

特に、請求項2に記載の発明によれば、ユーザ音声データを区切った一の部分音声データである第1の音声データに関して、当該第1の音声データ内の秘匿音声データを代替音声データに置き換えた第1の合成音声データが生成され、当該第1の合成音声データがサポータ端末に送信される。したがって、第1の音声データに対応する第1の合成音声データは、ユーザ音声データのうち第1の音声データの次の部分に対する処理の終了を待つことなく、比較的早期にサポータ端末に送信され得る。その結果、サポータ端末への音声データの送信の遅延を抑制することが可能である。   In particular, according to the second aspect of the present invention, the secret audio data in the first audio data is replaced with the substitute audio data for the first audio data which is one partial audio data obtained by dividing the user audio data. The first synthesized voice data is generated, and the first synthesized voice data is transmitted to the supporter terminal. Therefore, the first synthesized voice data corresponding to the first voice data is transmitted to the supporter terminal relatively early without waiting for the end of the process for the next portion of the first voice data in the user voice data. obtain. As a result, it is possible to suppress a delay in transmitting audio data to the supporter terminal.

特に、請求項3に記載の発明によれば、第1の音声データの受信が開始されると第2の合成画像データの送信が許可されず、第1の合成音声データの送信完了時点以後において第2の合成画像データの送信が許可されるので、サポータ端末における第1の表示画像から第2の表示画像への変更は、第1の合成音声データの送信後に行われる。したがって、第1の表示画像を見ながら発せられたユーザの音声が、当該音声の到達遅延に起因して第1の表示画像の次の第2の表示画像の表示中にサポータ端末側で出力されることを抑制あるいは回避することが可能である。   In particular, according to the third aspect of the invention, when the reception of the first audio data is started, the transmission of the second synthesized image data is not permitted, and after the transmission completion time of the first synthesized audio data. Since the transmission of the second synthesized image data is permitted, the change from the first display image to the second display image in the supporter terminal is performed after the transmission of the first synthesized audio data. Therefore, the voice of the user uttered while viewing the first display image is output on the supporter terminal side during the display of the second display image next to the first display image due to the arrival delay of the voice. This can be suppressed or avoided.

特に、請求項4に記載の発明によれば、サポータ端末における第1の表示画像から第2の表示画像への変更は、第1の合成音声データの送信完了から第1の合成音声データの出力所要時間が経過した時点以後において行われる。したがって、第1の表示画像を見ながら発せられたユーザの音声が、当該音声の到達遅延に起因して第1の表示画像の次の第2の表示画像の表示中にサポータ端末側で出力されることをより抑制あるいは回避することが可能である。   In particular, according to the fourth aspect of the present invention, the change from the first display image to the second display image in the supporter terminal is performed when the first synthesized speech data is transmitted after the first synthesized speech data is transmitted. This is performed after the time required has elapsed. Therefore, the voice of the user uttered while viewing the first display image is output on the supporter terminal side during the display of the second display image next to the first display image due to the arrival delay of the voice. This can be further suppressed or avoided.

特に、請求項5に記載の発明によれば、複数の代替音声データの生成が合成ユーザ音声データの生成に先立つ所定の時点から開始されるとともに、生成された代替音声データが格納手段に格納される。そして、ユーザ音声データに秘匿ワードが含まれ且つ秘匿ワードに対応する代替音声データが格納手段に既に格納されている場合には、格納手段に格納されている代替音声データを用いて合成ユーザ音声データが生成され、合成ユーザ音声データがサポータ端末に送信される。したがって、ユーザ音声データに秘匿ワードが含まれると判定した時点から代替音声データの生成を常に開始する場合と比べて、合成音声データの生成に要する時間が短縮される。その結果、サポータ端末への合成音声データの送信の遅延を抑制することが可能である。   In particular, according to the fifth aspect of the invention, the generation of the plurality of alternative voice data is started from a predetermined time prior to the generation of the synthesized user voice data, and the generated alternative voice data is stored in the storage means. The If the user voice data includes a secret word and the alternative voice data corresponding to the secret word is already stored in the storage means, the synthesized user voice data using the alternative voice data stored in the storage means Is generated, and the synthesized user voice data is transmitted to the supporter terminal. Therefore, the time required for generating the synthesized voice data is shortened as compared to the case where the generation of the alternative voice data is always started from the time when it is determined that the user voice data includes the secret word. As a result, it is possible to suppress a delay in transmission of the synthesized voice data to the supporter terminal.

特に、請求項13に記載の発明によれば、第2の音声データに対する音声処理において、第1の合成音声データの生成に利用され格納されていた代替音声データを用いて第2の合成音声データが生成されるので、当該代替音声データの生成を再び行わずに済む。したがって、第2の合成音声データの生成に要する時間が短縮されるので、サポータ端末への第2の合成音声データの送信の遅延を抑制することが可能である。   In particular, according to the invention described in claim 13, in the audio processing for the second audio data, the second synthesized audio data is used by using the alternative audio data that has been used and stored for generating the first synthesized audio data. Therefore, it is not necessary to generate the alternative voice data again. Therefore, since the time required for generating the second synthesized voice data is shortened, it is possible to suppress a delay in the transmission of the second synthesized voice data to the supporter terminal.

特に、請求項14に記載の発明によれば、サポータにより発せられたサポータ音声データに含まれる代替ワードを、当該代替ワードに対応する第2の秘匿音声データに置き換えた合成サポータ音声データが、ユーザ側に送信されるので、サポータ音声データ内に含まれる代替ワードがユーザに伝わることがない。したがって、ユーザの知らない代替ワードが画像形成装置において音声出力されることに起因したユーザの混乱を回避することが可能である。   In particular, according to the invention described in claim 14, the synthesized supporter voice data obtained by replacing the substitute word included in the supporter voice data issued by the supporter with the second secret voice data corresponding to the substitute word is the user. Therefore, the alternative word included in the supporter voice data is not transmitted to the user. Therefore, it is possible to avoid the user's confusion caused by the alternative word that the user does not know is output as voice in the image forming apparatus.

特に、請求項15に記載の発明によれば、合成ユーザ音声データの生成の際に、ユーザにより過去に発せられた音声データが秘匿音声データとして格納手段に格納され、合成サポータ音声データの生成の際に、当該格納手段に既に格納されている秘匿音声データを第2の秘匿音声データとして用いて合成サポータ音声データが生成される。したがって、当該第2の秘匿音声データの生成を再び行わずに済むので、合成サポータ音声データの生成に要する時間が短縮される。その結果、画像形成装置への合成音声データの送信の遅延を抑制することが可能である。   In particular, according to the invention described in claim 15, when the synthesized user voice data is generated, the voice data issued in the past by the user is stored as the secret voice data in the storage means, and the generation of the synthesized supporter voice data is performed. At this time, synthesized supporter voice data is generated using the secret voice data already stored in the storage means as the second secret voice data. Therefore, since it is not necessary to generate the second secret audio data again, the time required for generating the synthesis supporter audio data is shortened. As a result, it is possible to suppress a delay in transmission of the synthesized audio data to the image forming apparatus.

操作案内システムの構成を示す図である。It is a figure which shows the structure of an operation guidance system. MFPの概略構成を示す機能ブロック図である。2 is a functional block diagram illustrating a schematic configuration of an MFP. FIG. 案内サーバの概略構成を示す機能ブロック図である。It is a functional block diagram which shows schematic structure of a guidance server. サポータ端末の概略構成を示す機能ブロック図である。It is a functional block diagram which shows schematic structure of a supporter terminal. 操作案内システムの動作の概要を示す図である。It is a figure which shows the outline | summary of operation | movement of an operation guidance system. 第1実施形態に係る画像データおよび音声データに関するタイミングを示す図である。It is a figure which shows the timing regarding the image data and audio | voice data which concern on 1st Embodiment. 操作案内システムの動作を示す図である。It is a figure which shows operation | movement of an operation guidance system. 画像データの画像処理等を示すフローチャートである。It is a flowchart which shows the image processing etc. of image data. 秘匿ワードと代替ワードとの対応(変換辞書)を示す図である。It is a figure which shows a response | compatibility (conversion dictionary) with a secret word and an alternative word. ユーザ音声データの音声処理等を示すフローチャートである。It is a flowchart which shows the audio | voice process etc. of user audio | voice data. 合成音声データの生成に関する音声処理を示す図である。It is a figure which shows the audio | voice process regarding the production | generation of synthetic | combination audio | voice data. 第1実施形態に係る画像データおよび音声データに関するタイミングを示す図である。It is a figure which shows the timing regarding the image data and audio | voice data which concern on 1st Embodiment. 第2実施形態に係る画像データおよび音声データに関するタイミングを示す図である。It is a figure which shows the timing regarding the image data and audio | voice data which concern on 2nd Embodiment. 第2実施形態に係る音声データの音声処理等を示すフローチャートである。It is a flowchart which shows the audio | voice process etc. of the audio | voice data which concern on 2nd Embodiment. 第2実施形態に係る画像データの画像処理等を示すフローチャートである。It is a flowchart which shows the image processing etc. of the image data which concern on 2nd Embodiment. 第2実施形態の変形例に係る画像データおよび音声データに関するタイミングを示す図である。It is a figure which shows the timing regarding the image data and audio | voice data which concern on the modification of 2nd Embodiment. 第2実施形態の変形例に係る音声データの音声処理等を示すフローチャートである。It is a flowchart which shows the audio | voice process etc. of the audio | voice data which concern on the modification of 2nd Embodiment. 第3実施形態に係る画像データおよび音声データに関するタイミングを示す図である。It is a figure which shows the timing regarding the image data and audio | voice data which concern on 3rd Embodiment. 第3実施形態に係る音声データの音声処理等を示すフローチャートである。It is a flowchart which shows the audio | voice process etc. of the audio | voice data which concern on 3rd Embodiment. 秘匿ワードと代替ワードとの対応(変換辞書)を示す図である。It is a figure which shows a response | compatibility (conversion dictionary) with a secret word and an alternative word. 第4実施形態に係る音声データの音声処理等を示すフローチャートである。It is a flowchart which shows the audio | voice process etc. of the audio | voice data which concern on 4th Embodiment. 第4実施形態に係る画像データおよび音声データに関するタイミングを示す図である。It is a figure which shows the timing regarding the image data and audio | voice data which concern on 4th Embodiment. 第4実施形態に係る操作案内システムの動作を示す図である。It is a figure which shows operation | movement of the operation guidance system which concerns on 4th Embodiment. 第4実施形態に係る操作案内システムの動作を示す図である。It is a figure which shows operation | movement of the operation guidance system which concerns on 4th Embodiment. 第5実施形態に係る画像データと合成画像データとを示す図である。It is a figure which shows the image data and composite image data which concern on 5th Embodiment. 第5実施形態に係る画像データと合成画像データとを示す図である。It is a figure which shows the image data and composite image data which concern on 5th Embodiment. 第5実施形態に係る秘匿ワードと代替ワードとの対応(変換辞書)を示す図である。It is a figure which shows a response | compatibility (conversion dictionary) with the secret word and alternative word which concern on 5th Embodiment. 変形例に係るサポータからユーザへの音声データの音声処理等を示すフローチャートである。It is a flowchart which shows the audio | voice processing etc. of the audio | voice data from the supporter which concerns on a modification to a user. 変形例に係る操作案内システムの動作を示す図である。It is a figure which shows operation | movement of the operation guidance system which concerns on a modification. 変形例に係る操作案内システムの動作を示す図である。It is a figure which shows operation | movement of the operation guidance system which concerns on a modification. 変形例に係る操作案内システムの動作を示す図である。It is a figure which shows operation | movement of the operation guidance system which concerns on a modification.

以下、本発明の実施形態を図面に基づいて説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

<1−1.システム概要>
図1は、操作案内システム1の構成を示す概略図である。
<1-1. System overview>
FIG. 1 is a schematic diagram showing the configuration of the operation guidance system 1.

図1に示すように、操作案内システム1は、画像形成装置10と案内サーバ50とサポータ端末70とを備えて形成されている。ここでは、画像形成装置10として、MFP(マルチ・ファンクション・ペリフェラル(Multi-Functional Peripheral))が例示される。   As shown in FIG. 1, the operation guidance system 1 includes an image forming apparatus 10, a guidance server 50, and a supporter terminal 70. Here, the image forming apparatus 10 is exemplified by an MFP (Multi-Functional Peripheral).

操作案内システム1における各要素10,50,70とは、ネットワーク108を介して互いに通信可能に接続される。なお、ネットワーク108は、LAN、WAN、インターネットなどによって構成される。また、ネットワーク108への接続形態は、有線接続であってもよく或いは無線接続であってもよい。   The elements 10, 50, and 70 in the operation guidance system 1 are connected to each other via a network 108 so as to communicate with each other. The network 108 is configured by a LAN, a WAN, the Internet, or the like. Further, the connection form to the network 108 may be wired connection or wireless connection.

操作案内システム1は、MFP(画像形成装置)10の操作案内を行うシステムである。MFP10のユーザ101からの依頼に応じて、サポータ102(ユーザ101を支援する人物)は、サポータ端末70を用いて当該ユーザ101に対して操作案内を行う。   The operation guidance system 1 is a system that provides operation guidance for an MFP (image forming apparatus) 10. In response to a request from the user 101 of the MFP 10, the supporter 102 (person who supports the user 101) provides operation guidance to the user 101 using the supporter terminal 70.

MFP10とサポータ端末70との間においては、画像データ300およびユーザ音声データ400(ユーザにより発せられた音声のデータ)に関する通信が案内サーバ50を介して行われる。案内サーバ50は、画像および音声の伝送に関して、MFP10とサポータ端末70とを媒介する機能を有している。   Communication between the MFP 10 and the supporter terminal 70 is performed via the guidance server 50 regarding the image data 300 and the user audio data 400 (audio data generated by the user). The guidance server 50 has a function of mediating between the MFP 10 and the supporter terminal 70 with respect to image and sound transmission.

サポータ端末70には、案内サーバ50を介したMFP10からの画像データ300に基づいて、MFP10の操作画面と同様の画面が表示される。これにより、サポータ102は、ユーザ101が見ている画面と同様の画面を見ながら、ユーザ101に対する操作案内を行うことができる。また、MFP10のマイクロホン18を介して入力されたユーザ101の音声は、案内サーバ50を介してサポータ端末70に送信される。これにより、サポータ102は、ユーザ101の音声を聞きながら、ユーザ101に対する操作案内を行うことができる。   On the supporter terminal 70, a screen similar to the operation screen of the MFP 10 is displayed based on the image data 300 from the MFP 10 via the guidance server 50. Thereby, the supporter 102 can perform operation guidance for the user 101 while viewing a screen similar to the screen that the user 101 is viewing. The voice of the user 101 input via the microphone 18 of the MFP 10 is transmitted to the supporter terminal 70 via the guidance server 50. Thereby, the supporter 102 can perform operation guidance for the user 101 while listening to the voice of the user 101.

ただし、案内サーバ50は、画像(詳細には、MFP10の操作案内画面)に関する変換処理を行う。たとえば、後述するように、案内サーバ50は、MFP10から送信されてきた(当該MFP10の)操作案内画面に秘匿ワード110(機密情報)が含まれる場合には、当該秘匿ワード110を適宜の代替ワード210に変換した画像を生成する。そして、案内サーバ50は、変換後の当該画像をサポータ端末70における表示用画像としてサポータ端末70に送信する。サポータ端末70では変換後の当該画像が操作案内用の画面として表示される。これによれば、操作案内用の画像から機密情報が漏洩することを回避することが可能である。   However, the guidance server 50 performs conversion processing relating to images (specifically, operation guidance screens of the MFP 10). For example, as will be described later, when the confidential information 110 (confidential information) is included in the operation guidance screen (of the MFP 10) transmitted from the MFP 10, the guidance server 50 converts the confidential word 110 into an appropriate alternative word. The image converted into 210 is generated. Then, the guidance server 50 transmits the converted image to the supporter terminal 70 as a display image on the supporter terminal 70. On the supporter terminal 70, the converted image is displayed as an operation guidance screen. According to this, it is possible to avoid leakage of confidential information from the operation guidance image.

さらに、案内サーバ50は、音声に関する変換処理をも行う。たとえば、後述するように、案内サーバ50は、MFP10から送信されてきたユーザ音声に秘匿ワード110(機密情報)が含まれる場合には、当該秘匿ワード110を適宜の代替ワード210に変換した音声データを生成して、当該変換後の音声データをサポータ端末70に送信する。サポータ端末70では変換後の当該音声データに基づく音声が出力される。これによれば、ユーザ101の音声から機密情報が漏洩することを回避することが可能である。   Furthermore, the guidance server 50 also performs conversion processing related to voice. For example, as will be described later, when the confidential voice 110 (confidential information) is included in the user voice transmitted from the MFP 10, the guidance server 50 converts the confidential data 110 into an appropriate alternative word 210. And the converted voice data is transmitted to the supporter terminal 70. The supporter terminal 70 outputs sound based on the converted sound data. According to this, it is possible to avoid leakage of confidential information from the voice of the user 101.

以下、このような操作案内システムについて詳細に説明する。   Hereinafter, such an operation guidance system will be described in detail.

<1−2.MFPの構成>
図2は、MFP10の概略構成を示す機能ブロック図である。MFP10は、スキャン機能、コピー機能、ファクシミリ機能およびボックス格納機能などを備える装置(複合機とも称する)である。MFPは、複数の動作モード(具体的には、コピーモード、スキャンモード、ファクシミリ送信モード、ボックスモード)を有しており、各モードにおいて対応機能の動作が実行される。
<1-2. Configuration of MFP>
FIG. 2 is a functional block diagram illustrating a schematic configuration of the MFP 10. The MFP 10 is a device (also referred to as a multi-function device) having a scan function, a copy function, a facsimile function, a box storage function, and the like. The MFP has a plurality of operation modes (specifically, a copy mode, a scan mode, a facsimile transmission mode, and a box mode), and the operation of the corresponding function is executed in each mode.

図2の機能ブロック図に示すように、このMFP10は、画像読取部2、印刷出力部3、通信部4、格納部5、操作部6、コントローラ9、スピーカ17およびマイクロホン18等を備えており、これらの各部を複合的に動作させることによって、各種の機能を実現する。なお、MFP10は、画像形成装置あるいは印刷出力装置などとも表現される。   As shown in the functional block diagram of FIG. 2, the MFP 10 includes an image reading unit 2, a print output unit 3, a communication unit 4, a storage unit 5, an operation unit 6, a controller 9, a speaker 17, a microphone 18, and the like. Various functions are realized by operating these parts in a complex manner. The MFP 10 is also expressed as an image forming apparatus or a print output apparatus.

画像読取部2は、MFP10の所定の位置に載置された原稿を光学的に読み取って(すなわちスキャンして)、当該原稿の画像データ(原稿画像ないしスキャン画像とも称する)を生成する処理部である。この画像読取部2は、スキャン部であるとも称される。   The image reading unit 2 is a processing unit that optically reads (that is, scans) a document placed at a predetermined position of the MFP 10 and generates image data of the document (also referred to as a document image or a scanned image). is there. The image reading unit 2 is also referred to as a scanning unit.

印刷出力部3は、印刷対象に関するデータに基づいて紙などの各種の媒体に画像を印刷出力する出力部である。なお、印刷出力部3は、各種の媒体上に画像を形成する画像形成部とも称される。   The print output unit 3 is an output unit that prints out an image on various media such as paper based on data related to a print target. The print output unit 3 is also referred to as an image forming unit that forms images on various media.

通信部4は、公衆回線等を介したファクシミリ通信を行うことが可能な処理部である。さらに、通信部4は、ネットワーク108を介したネットワーク通信が可能である。このネットワーク通信では、TCP/IP(Transmission Control Protocol / Internet Protocol)およびFTP(File Transfer Protocol)等の各種のプロトコルが利用される。当該ネットワーク通信を利用することによって、MFP10は、所望の相手先との間で各種のデータを授受することが可能である。通信部4は、各種データを送信する送信部4aと各種データを受信する受信部4bとを有する。   The communication unit 4 is a processing unit capable of performing facsimile communication via a public line or the like. Further, the communication unit 4 can perform network communication via the network 108. In this network communication, various protocols such as TCP / IP (Transmission Control Protocol / Internet Protocol) and FTP (File Transfer Protocol) are used. By using the network communication, the MFP 10 can exchange various data with a desired destination. The communication unit 4 includes a transmission unit 4a that transmits various data and a reception unit 4b that receives various data.

格納部5は、ハードディスクドライブ(HDD)等の記憶装置で構成される。また、格納部5には、各ユーザ向けに複数のボックス(フォルダ)が設けられており、各ボックスには、電子文書データ(文書ファイル)等が保存される。   The storage unit 5 includes a storage device such as a hard disk drive (HDD). The storage unit 5 is provided with a plurality of boxes (folders) for each user, and electronic document data (document files) and the like are stored in each box.

操作部6は、MFP10に対する入力を受け付ける操作入力部6aと、各種情報の表示出力を行う表示部6bとを備えている。詳細には、MFP10には操作パネル6c(図1参照)が設けられている。この操作パネル(タッチスクリーン)6cは、その正面側にタッチパネル25を有している。タッチパネル25は、液晶表示パネルに圧電センサ等が埋め込まれて構成され、各種情報を表示するとともに操作者からの操作入力を受け付けることが可能である。タッチパネル25は、操作入力部6aの一部としても機能するとともに、表示部6bの一部としても機能する。   The operation unit 6 includes an operation input unit 6a that receives input to the MFP 10 and a display unit 6b that displays and outputs various types of information. Specifically, the MFP 10 is provided with an operation panel 6c (see FIG. 1). The operation panel (touch screen) 6c has a touch panel 25 on the front side. The touch panel 25 is configured by embedding a piezoelectric sensor or the like in a liquid crystal display panel, and can display various kinds of information and accept an operation input from an operator. The touch panel 25 functions as a part of the operation input unit 6a and also functions as a part of the display unit 6b.

コントローラ9は、MFP10に内蔵され、MFP10を統括的に制御する制御装置である。コントローラ9は、CPUおよび各種の半導体メモリ(RAMおよびROM)等を備えるコンピュータシステムとして構成される。コントローラ9は、CPUにおいて、ROM(例えば、EEPROM(登録商標))内に格納されている所定のソフトウエアプログラム(以下、単にプログラムとも称する)を実行することによって、各種の処理部を実現する。なお、当該プログラムは、USBメモリなどの可搬性の記録媒体、あるいはネットワーク等を介してMFP10にインストールされるようにしてもよい。 The controller 9 is a control device that is built in the MFP 10 and controls the MFP 10 in an integrated manner. The controller 9 is configured as a computer system including a CPU and various semiconductor memories (RAM and ROM). The controller 9 implements various processing units by executing a predetermined software program (hereinafter also simply referred to as a program) stored in a ROM (for example, EEPROM (registered trademark) ) in the CPU. The program may be installed in the MFP 10 via a portable recording medium such as a USB memory or a network.

図2に示すように、コントローラ9は、通信制御部11と入力制御部12と表示制御部13と格納制御部14とを含む各種の処理部を実現する。   As shown in FIG. 2, the controller 9 implements various processing units including a communication control unit 11, an input control unit 12, a display control unit 13, and a storage control unit 14.

通信制御部11は、他の装置(案内サーバ50等)との間の通信動作を制御する処理部である。たとえば、通信制御部11は、通信部4等と協働して、案内サーバ50からの各種指令を受信する。   The communication control unit 11 is a processing unit that controls communication operations with other devices (such as the guidance server 50). For example, the communication control unit 11 receives various commands from the guidance server 50 in cooperation with the communication unit 4 and the like.

入力制御部12は、操作入力部6aに対する操作入力動作を制御する制御部である。たとえば、入力制御部12は、操作画面に対する操作入力を受け付ける動作を制御する。   The input control unit 12 is a control unit that controls an operation input operation with respect to the operation input unit 6a. For example, the input control unit 12 controls an operation for receiving an operation input on the operation screen.

表示制御部13は、表示部6bにおける表示動作を制御する処理部である。たとえば、表示制御部13は、MFP10を操作するための操作画面等を表示部6bに表示させる。   The display control unit 13 is a processing unit that controls the display operation in the display unit 6b. For example, the display control unit 13 displays an operation screen or the like for operating the MFP 10 on the display unit 6b.

格納制御部14は、格納ジョブに関するデータ格納処理等を制御する処理部である。   The storage control unit 14 is a processing unit that controls data storage processing related to a storage job.

スピーカ17は、音声データに基づき音を発する装置である。また、スピーカ17は、MFP10に内蔵されるものであってもよく、MFP10に対して端子を介して取り付けられるものであってもよい。   The speaker 17 is a device that emits sound based on audio data. The speaker 17 may be built into the MFP 10 or may be attached to the MFP 10 via a terminal.

マイクロホン18は、ユーザの音声等を電気信号(アナログ信号)に変換する装置である。また、マイクロホン18は、MFP10に内蔵されるものであってもよく、MFP10に対して端子を介して取り付けられるものであってもよい。なお、電気信号(アナログ信号)はコントローラ9によってデジタルデータ化(音声データに変換)される。   The microphone 18 is a device that converts a user's voice or the like into an electrical signal (analog signal). The microphone 18 may be built in the MFP 10 or may be attached to the MFP 10 via a terminal. The electrical signal (analog signal) is converted into digital data (converted into audio data) by the controller 9.

<1−3.案内サーバの構成>
図3は、案内サーバ50の概略構成を示す機能ブロック図である。
<1-3. Guide server configuration>
FIG. 3 is a functional block diagram illustrating a schematic configuration of the guidance server 50.

案内サーバ50は、MFP10の操作案内に関して、MFP10とサポータ端末70とを媒介(ないし中継)する装置である。   The guidance server 50 is a device that mediates (or relays) the MFP 10 and the supporter terminal 70 with respect to the operation guidance of the MFP 10.

また、案内サーバ50は、CPUおよび各種の半導体メモリ(RAMおよびROM等)等を備えるコンピュータシステムとして構成される。処理制御部60は、CPUにおいて、ROM(たとえば、EEPROM(登録商標)等)内に格納されている所定のソフトウエアプログラムを実行することによって、各種の処理部を実現する。なお、当該プログラムは、USBメモリなどの可搬性の記録媒体、あるいはネットワーク等を介して案内サーバ50にインストールされるようにしてもよい。 The guidance server 50 is configured as a computer system including a CPU and various semiconductor memories (such as RAM and ROM). In the CPU, the processing control unit 60 implements various processing units by executing predetermined software programs stored in a ROM (for example, EEPROM (registered trademark) ). The program may be installed in the guide server 50 via a portable recording medium such as a USB memory or a network.

具体的には、案内サーバ50は、当該プログラムの実行に伴って、画像処理部60a、音声処理部60bおよび通信制御部67を含む各種の処理部を実現する。   Specifically, the guidance server 50 realizes various processing units including the image processing unit 60a, the audio processing unit 60b, and the communication control unit 67 in accordance with the execution of the program.

画像処理部60aは、受信した画像データの各種画像処理を行う処理部である。   The image processing unit 60a is a processing unit that performs various types of image processing on received image data.

図3に示すように、画像処理部60aは、画像生成部61を有する。画像生成部61は、操作画面に関する画像合成処理(画像生成処理)を行う。   As illustrated in FIG. 3, the image processing unit 60 a includes an image generation unit 61. The image generation unit 61 performs image composition processing (image generation processing) related to the operation screen.

音声処理部60bは、受信した音声データの各種音声処理を行う処理部である。   The audio processing unit 60b is a processing unit that performs various types of audio processing on received audio data.

図3に示すように、音声処理部60bは、音声認識部64と音声生成部65とを有する。音声認識部64は、受信した音声データ等に対する音声認識処理を行う。また、音声生成部65は、受信した音声データ等を加工して音声合成処理(機械音声生成処理)を行う。   As shown in FIG. 3, the voice processing unit 60 b includes a voice recognition unit 64 and a voice generation unit 65. The voice recognition unit 64 performs voice recognition processing on the received voice data and the like. The voice generation unit 65 processes the received voice data and performs voice synthesis processing (mechanical voice generation processing).

通信制御部67は、通信部54と協働して、通信相手先(たとえば、MFP10)との間のデータの送受信動作を制御する処理部である。   The communication control unit 67 is a processing unit that controls data transmission / reception operations with a communication partner (for example, the MFP 10) in cooperation with the communication unit 54.

案内サーバ50の格納部55は、ハードディスクドライブ(HDD)等の記憶装置で構成される。   The storage unit 55 of the guidance server 50 includes a storage device such as a hard disk drive (HDD).

また、案内サーバ50は、通信部54をさらに備えている。   The guidance server 50 further includes a communication unit 54.

通信部54は、ネットワーク108を介したネットワーク通信が可能である。このネットワーク通信では、TCP/IP(Transmission Control Protocol / Internet Protocol)およびFTP(File Transfer Protocol)等の各種のプロトコルが利用される。当該ネットワーク通信を利用することによって、案内サーバ50は、所望の相手先との間で各種のデータを授受することが可能である。通信部44は、各種データを送信する送信部54aと各種データを受信する受信部54bとを有する。送信部54aは、画像データの送信を行う画像送信部と音声データの送信を行う音声送信部とを有し、受信部54bは、画像データの受信を行う画像受信部と音声データの受信を行う音声受信部とを有する。   The communication unit 54 can perform network communication via the network 108. In this network communication, various protocols such as TCP / IP (Transmission Control Protocol / Internet Protocol) and FTP (File Transfer Protocol) are used. By using the network communication, the guidance server 50 can exchange various data with a desired destination. The communication unit 44 includes a transmission unit 54a that transmits various data and a reception unit 54b that receives various data. The transmission unit 54a includes an image transmission unit that transmits image data and an audio transmission unit that transmits audio data. The reception unit 54b receives audio data from an image reception unit that receives image data. And an audio receiving unit.

<1−4.サポータ端末の構成>
図4は、サポータ端末70の概略構成を示す機能ブロック図である。
<1-4. Supporter terminal configuration>
FIG. 4 is a functional block diagram showing a schematic configuration of the supporter terminal 70.

サポータ端末70は、いわゆるパーソナルコンピュータとして構成される。また、サポータ端末70は、サポータにより操作され、ユーザへの案内に利用される補助装置である。   The supporter terminal 70 is configured as a so-called personal computer. Further, the supporter terminal 70 is an auxiliary device that is operated by the supporter and used for guidance to the user.

サポータ端末70は、操作部76を備えている。操作部76は、サポータ端末70に対する操作入力を受け付ける操作入力部76aと、各種データの表示出力を行う表示部76bとを有している。また、サポータ端末70は、MFP10を遠隔操作することが可能であり、表示部76bには、MFP10の表示部6bに対応する表示画面が表示される。   The supporter terminal 70 includes an operation unit 76. The operation unit 76 includes an operation input unit 76a that receives an operation input to the supporter terminal 70, and a display unit 76b that performs display output of various data. Further, the supporter terminal 70 can remotely operate the MFP 10, and a display screen corresponding to the display unit 6 b of the MFP 10 is displayed on the display unit 76 b.

また、サポータ端末70は、CPUおよび半導体メモリ等を備えている。サポータ端末70は、そのCPUにおいて、所定のソフトウエアプログラムを実行することによって、各種の処理部を実現する。具体的には、図4に示されるように、サポータ端末70は、通信制御部71および入力制御部72等の各種処理部を実現する。   The supporter terminal 70 includes a CPU, a semiconductor memory, and the like. The supporter terminal 70 implements various processing units by executing predetermined software programs in the CPU. Specifically, as shown in FIG. 4, the supporter terminal 70 realizes various processing units such as a communication control unit 71 and an input control unit 72.

通信制御部71は、通信部74と協働して、通信宛先(たとえば、案内サーバ50等)との間のデータの送受信動作を制御する処理部である。   The communication control unit 71 is a processing unit that controls data transmission / reception operations with a communication destination (for example, the guide server 50) in cooperation with the communication unit 74.

入力制御部72は、操作入力部76aに対する操作入力動作を制御する制御部である。   The input control unit 72 is a control unit that controls an operation input operation with respect to the operation input unit 76a.

スピーカ77は、案内サーバ50等からの音声データに基づき音を発する装置である。また、スピーカ77は、サポータ端末70に内蔵されるものであってもよく、サポータ端末70に対して端子を介して取り付けられるものであってもよい。   The speaker 77 is a device that emits sound based on voice data from the guidance server 50 or the like. The speaker 77 may be built in the supporter terminal 70 or may be attached to the supporter terminal 70 via a terminal.

マイクロホン78は、ユーザの音声等を電気信号(アナログ信号)に変換する装置である。また、マイクロホン78は、MFP10に内蔵されるものであってもよく、MFP10に対して外部接続により取り付けられるものであってもよい。なお、電気信号(アナログ信号)はコントローラ9によってデジタルデータ化(音声データに変換)される。   The microphone 78 is a device that converts a user's voice or the like into an electric signal (analog signal). The microphone 78 may be built in the MFP 10 or may be attached to the MFP 10 by external connection. The electrical signal (analog signal) is converted into digital data (converted into audio data) by the controller 9.

<1−5.動作>
つぎに、第1実施形態に係る操作案内システム1の動作について図5〜図11を参照しながら説明する。
<1-5. Operation>
Next, the operation of the operation guidance system 1 according to the first embodiment will be described with reference to FIGS.

図5は、操作案内システム1の動作を示す図である。案内サーバ50は、MFP10から画像データ300(表示画像データ300)を受信する。そして、当該画像データ301に秘匿ワード110(後述)が含まれる場合には、案内サーバ50は、画像処理(画像変換処理等)により合成画像データ350を生成し、合成画像データ350をサポータ端末70に送信する。また、案内サーバ50は、MFP10からユーザ音声データ400を受信する。当該ユーザ音声データ400に秘匿ワード110が含まれる場合には、案内サーバ50は、音声処理により合成音声データ450(合成ユーザ音声データ450)を生成し、合成音声データ450をサポータ端末70に送信する。   FIG. 5 is a diagram illustrating the operation of the operation guidance system 1. The guidance server 50 receives the image data 300 (display image data 300) from the MFP 10. When the secret word 110 (described later) is included in the image data 301, the guidance server 50 generates the composite image data 350 by image processing (image conversion processing or the like), and the composite image data 350 is stored in the supporter terminal 70. Send to. Further, the guidance server 50 receives the user voice data 400 from the MFP 10. When the confidential voice 110 is included in the user voice data 400, the guidance server 50 generates synthesized voice data 450 (synthesized user voice data 450) by voice processing, and transmits the synthesized voice data 450 to the supporter terminal 70. .

これにより、画像データ300(301)およびユーザ音声データ400に含まれる秘匿ワード110がサポータ102に漏洩することを回避することが可能である。   Thereby, it is possible to avoid the secret word 110 included in the image data 300 (301) and the user voice data 400 from leaking to the supporter 102.

図6を参照して画像処理および音声処理についてより詳細に説明する。図6は、第1実施形態に係る画像データおよび音声データに関するタイミングを示す図である。   Image processing and sound processing will be described in more detail with reference to FIG. FIG. 6 is a diagram illustrating timing related to image data and audio data according to the first embodiment.

MFP10は、タッチパネル25に表示された画像データ300(301)を案内サーバ50に送信する。また、MFP10は、ユーザ101により発せられた音声のデータを含むユーザ音声データ400を案内サーバ50に送信する。   The MFP 10 transmits the image data 300 (301) displayed on the touch panel 25 to the guidance server 50. In addition, the MFP 10 transmits user voice data 400 including voice data uttered by the user 101 to the guidance server 50.

案内サーバ50は、MFP10から画像データ301を受信すると、画像処理(後述)により合成画像データ350(351)を生成し、サポータ端末70に送信する。また、案内サーバ50は、ユーザ音声データ400の一部である部分音声データ430(後述)を抽出する。そして、案内サーバ50は、音声処理(後述)により合成音声データ450(451)を生成し、サポータ端末70に送信する。   Upon receiving the image data 301 from the MFP 10, the guidance server 50 generates composite image data 350 (351) by image processing (described later) and transmits it to the supporter terminal 70. Further, the guidance server 50 extracts partial voice data 430 (described later) that is a part of the user voice data 400. Then, the guidance server 50 generates synthesized voice data 450 (451) by voice processing (described later), and transmits it to the supporter terminal 70.

サポータ端末70は、案内サーバ50から合成画像データ351を受信すると、表示部76bに表示する。また、サポータ端末70は、案内サーバ50から合成音声データ451を受信すると、合成音声データ451を出力(再生)する。   When the supporter terminal 70 receives the composite image data 351 from the guidance server 50, the supporter terminal 70 displays it on the display unit 76b. Further, when the supporter terminal 70 receives the synthesized voice data 451 from the guidance server 50, the supporter terminal 70 outputs (reproduces) the synthesized voice data 451.

以下において、このような第1実施形態に係る画像処理および音声処理について、より具体的に説明する。   Hereinafter, such image processing and sound processing according to the first embodiment will be described more specifically.

まず、画像処理に関して、図7等を参照して説明する。図7は、第1実施形態における案内サーバ50の動作を示す図である。図7では、MFP10を操作している或るユーザ101が、MFP10のスキャン機能に関する操作方法についてサポートセンターに問い合わせを行う状況を想定する。   First, image processing will be described with reference to FIG. FIG. 7 is a diagram illustrating the operation of the guidance server 50 in the first embodiment. In FIG. 7, it is assumed that a user 101 operating the MFP 10 makes an inquiry to the support center regarding the operation method related to the scan function of the MFP 10.

図7に示すように、ユーザ101が、MFP10のタッチパネル25に表示された表示画像のデータである表示画像データ301を見ながら、サポートセンターに対してサポート依頼の問い合わせを行う。具体的には、ユーザ101が、スキャン画像送信における宛先指定画面を見ながら、MFP10の操作パネル6cに配設されたヘルプボタン(不図示)を押下する。ヘルプボタンがユーザ101により押下されると、MFP10(具体的には、送信部4a)は、ユーザ101からの操作案内の発生を示すサポート依頼の信号を案内サーバ50へと送信する。   As illustrated in FIG. 7, the user 101 makes a support request inquiry to the support center while viewing the display image data 301 that is display image data displayed on the touch panel 25 of the MFP 10. Specifically, the user 101 presses a help button (not shown) provided on the operation panel 6c of the MFP 10 while looking at the destination designation screen for scanning image transmission. When the help button is pressed by the user 101, the MFP 10 (specifically, the transmission unit 4 a) transmits a support request signal indicating the generation of operation guidance from the user 101 to the guidance server 50.

図8は、当該サポート依頼の信号が案内サーバ50により受信された後の画像処理に関する動作を示すフローチャートである。   FIG. 8 is a flowchart showing an operation related to image processing after the support request signal is received by the guidance server 50.

案内サーバ50の受信部54bがMFP10からのサポート依頼の信号を受信すると、案内サーバ50の送信部54aはサポータ端末70へとサポート依頼の信号を送信する(ステップS11)。   When the reception unit 54b of the guidance server 50 receives the support request signal from the MFP 10, the transmission unit 54a of the guidance server 50 transmits a support request signal to the supporter terminal 70 (step S11).

その後、サポータ102がサポータ端末70の案内開始ボタン(不図示)を押下すると、操作案内を開始すべき旨の信号(開始信号)がサポータ端末70から案内サーバ50へと送信され、案内サーバ50は当該操作案内の開始信号をMFP10に送信する。これにより、MFP10とサポータ端末70とは操作案内モードに遷移する。   Thereafter, when the supporter 102 presses a guidance start button (not shown) of the supporter terminal 70, a signal (start signal) indicating that the operation guidance should be started is transmitted from the supporter terminal 70 to the guidance server 50. The guidance server 50 The operation guidance start signal is transmitted to the MFP 10. As a result, the MFP 10 and the supporter terminal 70 transition to the operation guidance mode.

操作案内の開始信号を受信したMFP10(具体的には、送信部4a)は、タッチパネル25に表示中の画像データ301を案内サーバ50に送信し、案内サーバ50(具体的には、受信部54b)はMFP10から画像データ301を受信する(ステップS12)。そして、案内サーバ50(具体的には、画像生成部61)は、画像データ301に秘匿ワード110(後述)が含まれるか否かを判定する(ステップS13)。より詳細には、画像生成部61は、画像データ301に対するOCR処理によって文字認識を行い、秘匿ワード110が含まれるか否かを判定する。   Receiving the operation guidance start signal, the MFP 10 (specifically, the transmission unit 4a) transmits the image data 301 being displayed on the touch panel 25 to the guidance server 50, and the guidance server 50 (specifically, the reception unit 54b). ) Receives the image data 301 from the MFP 10 (step S12). Then, the guidance server 50 (specifically, the image generation unit 61) determines whether or not a secret word 110 (described later) is included in the image data 301 (step S13). More specifically, the image generation unit 61 performs character recognition by OCR processing on the image data 301 and determines whether or not the secret word 110 is included.

画像データ301の受信に際して、案内サーバ50は、画像データ301に含まれる秘匿ワード110のリストである秘匿ワードリスト601(図9参照)をもMFP10から受信する。秘匿ワードリスト601には、宛先指定画面(画像データ301)に含まれる宛先が秘匿ワード110として抽出され、登録されている。そして、案内サーバ50は、当該秘匿ワードリスト601に基づいて変換辞書651を生成する。生成された変換辞書651には、秘匿ワード110と、当該秘匿ワード110に対応する代替ワード210とが登録されている。   When receiving the image data 301, the guide server 50 also receives from the MFP 10 a secret word list 601 (see FIG. 9) that is a list of the secret words 110 included in the image data 301. In the secret word list 601, a destination included in the destination designation screen (image data 301) is extracted and registered as the secret word 110. Then, the guidance server 50 generates a conversion dictionary 651 based on the secret word list 601. In the generated conversion dictionary 651, the secret word 110 and the alternative word 210 corresponding to the secret word 110 are registered.

変換辞書651について、具体的には、「長谷不動産」(111(110))、「高橋電器」(112(110))および「松原工務店」(113(110))が秘匿ワード110として登録されている。さらに、秘匿ワード111「長谷不動産」に対応する代替ワード211(210)として「ABC」が登録され、秘匿ワード112「高橋電器」に対応する代替ワード212(210)として「DEF」が登録され、秘匿ワード113「松原工務店」に対応する代替ワード213(210)として「GHIJ」が登録されている。各代替ワード210は、案内サーバ50によって自動的に生成される。   Regarding the conversion dictionary 651, specifically, “Hase Real Estate” (111 (110)), “Takahashi Electric” (112 (110)) and “Matsubara Corporation” (113 (110)) are registered as the secret word 110. ing. Furthermore, “ABC” is registered as an alternative word 211 (210) corresponding to the secret word 111 “Hase Real Estate”, and “DEF” is registered as an alternative word 212 (210) corresponding to the secret word 112 “Takahashi Electric”. “GHIJ” is registered as an alternative word 213 (210) corresponding to the secret word 113 “Matsubara Corporation”. Each alternative word 210 is automatically generated by the guidance server 50.

ここにおいて、秘匿ワード110は、ユーザの秘匿すべき情報等を示す語句(ワード)である。また、本実施形態においては、タッチパネル25に表示中の画像データ301に含まれる秘匿すべきワード(より詳細には、スキャン画像送信における宛先指定画面の送信宛先)が秘匿ワード110として案内サーバ50により決定される。   Here, the secret word 110 is a word (word) indicating information to be kept secret by the user. In the present embodiment, the word to be concealed (more specifically, the transmission destination of the destination designation screen in scan image transmission) included in the image data 301 displayed on the touch panel 25 is the concealment word 110 by the guide server 50. It is determined.

秘匿ワード110が画像データ301に含まれる旨がステップS13において判定される場合には、案内サーバ50は、変換辞書651に基づいて、当該秘匿ワード110を、当該秘匿ワード110に対応する代替ワード210に置き換えた合成画像のデータである合成画像データ351を生成する(ステップS14)。合成画像データ351が生成されると、案内サーバ50は、当該合成画像データ351をサポータ端末70での表示用データとしてサポータ端末70に送信する(ステップS15)。合成画像データ351を受信したサポータ端末70の表示部76bには、画像データ301に代えて合成画像データ351が表示される(図7参照)。   When it is determined in step S <b> 13 that the secret word 110 is included in the image data 301, the guide server 50 converts the secret word 110 into the substitute word 210 corresponding to the secret word 110 based on the conversion dictionary 651. The composite image data 351 that is the composite image data replaced with is generated (step S14). When the composite image data 351 is generated, the guidance server 50 transmits the composite image data 351 to the supporter terminal 70 as display data on the supporter terminal 70 (step S15). The display unit 76b of the supporter terminal 70 that has received the composite image data 351 displays composite image data 351 instead of the image data 301 (see FIG. 7).

一方、画像データ301に秘匿ワード110が含まれない旨が判定される場合には、案内サーバ50は、ステップS14の処理を行わず、ステップS15では、画像データ301がそのまま合成画像データ351として利用される。すなわち、画像データ301がサポータ端末70に送信されて、表示部76bに画像データ301がそのまま表示される。   On the other hand, if it is determined that the secret word 110 is not included in the image data 301, the guidance server 50 does not perform the process of step S14, and the image data 301 is used as it is as the composite image data 351 in step S15. Is done. That is, the image data 301 is transmitted to the supporter terminal 70, and the image data 301 is displayed as it is on the display unit 76b.

つぎに、音声処理に関して説明する。   Next, audio processing will be described.

MFP10は、操作案内の開始信号を受信すると、ユーザ音声データ400の送信を開始する。   Upon receiving the operation guidance start signal, the MFP 10 starts transmitting the user voice data 400.

図7では、ユーザ101が、MFP10のタッチパネル25に表示中の画像データ301を見ながら、MFP10に対して「ファイルをスキャンして長谷不動産に送りたいのです。」との音声を発した状況が想定される。   In FIG. 7, the user 101 utters a voice saying “I want to scan a file and send it to Hase Real Estate” to the MFP 10 while watching the image data 301 being displayed on the touch panel 25 of the MFP 10. is assumed.

ユーザ101により発せられた音声が、マイクロホン18を介してMFP10に入力されると、MFP10は、当該音声のデータであるユーザ音声データ400を案内サーバ50に送信する。ここにおいて、ユーザ音声データ400は、リアルタイムで(随時)案内サーバ50に送信されている。   When voice uttered by the user 101 is input to the MFP 10 via the microphone 18, the MFP 10 transmits user voice data 400 that is data of the voice to the guidance server 50. Here, the user voice data 400 is transmitted to the guidance server 50 in real time (as needed).

当該ユーザ音声データ400が案内サーバ50により受信された後の動作を図10のフローチャートを参照して説明する。案内サーバ50(具体的には、受信部54b)がユーザ音声データ400を受信すると(ステップS20)、音声認識部64は、ユーザ音声データ400に非無音部分が存在するか否かを判定する(ステップS21)。非無音部分が存在していることが判定されると、つぎに音声認識部64は、ユーザ音声データ400に所定時間以上の無音部分が存在するか否かを判定する(ステップS22)。   The operation after the user voice data 400 is received by the guidance server 50 will be described with reference to the flowchart of FIG. When the guidance server 50 (specifically, the receiving unit 54b) receives the user voice data 400 (step S20), the voice recognition unit 64 determines whether or not the user voice data 400 includes a non-silence portion ( Step S21). If it is determined that a non-silence portion exists, the voice recognition unit 64 next determines whether or not a silence portion of a predetermined time or longer exists in the user voice data 400 (step S22).

ユーザ音声データ400に所定時間以上の無音部分が存在していることが判定される場合に、音声認識部64は、ユーザ音声データ400の一部の音声データである部分音声データ430を抽出する(ステップS23)。換言すれば、ユーザ音声データ400のうち、所定時間の無音状態が経過した時点を終端とするように区分した部分音声データが部分音声データ430として抽出される。   When it is determined that there is a silent part for a predetermined time or longer in the user voice data 400, the voice recognition unit 64 extracts partial voice data 430 that is a part of the voice data of the user voice data 400 ( Step S23). In other words, from the user voice data 400, partial voice data that is segmented so as to end at a point in time when a silent state for a predetermined time has elapsed is extracted as the partial voice data 430.

ここにおいて、部分音声データ430は、ユーザ音声データ400のうち、非無音部分の開始時点と、当該非無音部分の終端時点から所定時間の無音状態が経過した時点とに挟まれた区間(期間)の音声データである。ユーザ音声データ400には無音部分と非無音部分とが存在し、ユーザ音声データ400は当該無音部分等によって複数の部分音声データ430に区分される。   Here, the partial audio data 430 is a section (period) sandwiched between the start time of the non-silence part and the time when a silence state for a predetermined time has elapsed from the end time of the non-silence part in the user sound data 400. Voice data. The user voice data 400 includes a silent part and a non-silent part, and the user voice data 400 is divided into a plurality of partial voice data 430 by the silent part.

なお、当該無音部分の存否判定のための所定時間は、比較的短い期間(たとえば0.5秒)に設定されることが好ましい。当該無音部分の所定時間が比較的短い期間に設定されることによれば、部分音声データ430も比較的短い期間のデータとして音声認識部64により抽出される。その結果、部分音声データ430に対応する合成音声データ450のサポータ端末70への送信遅延を抑制することが可能である(後述)。   In addition, it is preferable that the predetermined time for the presence / absence determination of the silent portion is set to a relatively short period (for example, 0.5 seconds). When the predetermined time of the silent part is set to a relatively short period, the partial voice data 430 is also extracted by the voice recognition unit 64 as data of a relatively short period. As a result, it is possible to suppress a transmission delay of the synthesized voice data 450 corresponding to the partial voice data 430 to the supporter terminal 70 (described later).

部分音声データ430がステップS23において抽出されると、案内サーバ50(具体的には、音声生成部65)は、部分音声データ430に対する音声認識処理によって、当該部分音声データ430に秘匿ワード110が含まれるか否かを判定する(ステップS24)。   When the partial voice data 430 is extracted in step S23, the guidance server 50 (specifically, the voice generation unit 65) includes the secret word 110 in the partial voice data 430 by voice recognition processing on the partial voice data 430. It is determined whether or not (step S24).

部分音声データ430内に秘匿ワード110が含まれる旨が音声認識部64によって判定される場合には、音声生成部65は、変換辞書651(図9参照)に基づいて、秘匿ワード110に対応する代替ワード210の音声データである代替音声データ250を生成する(ステップS25)。   When the voice recognition unit 64 determines that the secret word 110 is included in the partial voice data 430, the voice generation unit 65 corresponds to the secret word 110 based on the conversion dictionary 651 (see FIG. 9). Alternative voice data 250, which is voice data of alternative word 210, is generated (step S25).

より詳細には、ステップS24では、音声生成部65は、ユーザ101により発せられた部分音声データ430に秘匿ワード111「長谷不動産」が含まれる旨を、変換辞書651に基づいて判定する。そして、この判定に応じて、ステップS25では、音声生成部65は、秘匿ワード111「長谷不動産」に対応する代替ワード211「ABC」の代替音声データ250(251)を機械音声生成処理により生成する。なお、代替音声データ250は、人間の声を模して人工的に生成された音声データ(機械音声データ)である。   More specifically, in step S <b> 24, the voice generation unit 65 determines based on the conversion dictionary 651 that the secret word 111 “Hase Real Estate” is included in the partial voice data 430 issued by the user 101. In response to this determination, in step S25, the voice generation unit 65 generates the alternative voice data 250 (251) of the alternative word 211 “ABC” corresponding to the secret word 111 “Hase Real Estate” by the machine voice generation process. . The alternative voice data 250 is voice data (mechanical voice data) artificially generated by imitating a human voice.

代替音声データ251がステップS25において生成されると、音声生成部65は、部分音声データ430内の秘匿ワード110の音声データである秘匿音声データ150(151を)、当該代替音声データ251に置き換えたデータである合成音声データ450(451)を生成する(ステップS26)。そして、案内サーバ50は、合成音声データ450をサポータ端末70での音声出力用データとしてサポータ端末70に送信する(ステップS27)。なお、秘匿音声データ150は、MFP10において録音されたユーザ101の音声(秘匿ワード110に対応する音声)の音声データ(録音音声データ)である。   When the substitute voice data 251 is generated in step S25, the voice generation unit 65 replaces the secret voice data 150 (151), which is the voice data of the secret word 110 in the partial voice data 430, with the substitute voice data 251. Synthetic voice data 450 (451), which is data, is generated (step S26). Then, the guidance server 50 transmits the synthesized voice data 450 to the supporter terminal 70 as voice output data at the supporter terminal 70 (step S27). The secret voice data 150 is voice data (recorded voice data) of the voice of the user 101 (voice corresponding to the secret word 110) recorded in the MFP 10.

一方、部分音声データ430に秘匿ワード110が含まれない旨が判定される場合には、音声生成部65は、ステップS25およびS26の処理を行わず、部分音声データ430をそのまま合成音声データ450として利用する。すなわち、部分音声データ430がサポータ端末70に送信されて、部分音声データ430がそのまま出力される。   On the other hand, when it is determined that the secret word 110 is not included in the partial voice data 430, the voice generation unit 65 does not perform the processes of steps S25 and S26, and uses the partial voice data 430 as the synthesized voice data 450 as it is. Use. That is, the partial audio data 430 is transmitted to the supporter terminal 70, and the partial audio data 430 is output as it is.

合成音声データ450(451)を受信したサポータ端末70は、スピーカ77を介して、部分音声データ430に代えて合成音声データ450(451)を出力する。具体的には、サポータ端末70において、ユーザ101の発した音声のうち、「ファイルをスキャンして」および「に送りたいのです。」は、ユーザ101の発した音声により出力され、秘匿ワード111である「長谷不動産」は、代替音声データ251による「ABC」に変更されて出力される。   The supporter terminal 70 that has received the synthesized voice data 450 (451) outputs the synthesized voice data 450 (451) instead of the partial voice data 430 via the speaker 77. Specifically, among the voices uttered by the user 101 in the supporter terminal 70, “I want to scan a file” and “I want to send it to” are output by the voice uttered by the user 101 and the secret word 111. “Hase Real Estate” is changed to “ABC” by the alternative voice data 251 and output.

図11は、合成音声データ451の生成に関する音声処理を示す図である。図11において、ユーザ101により発せられた音声である「ファイルをスキャンして長谷不動産に送りたいのです。」の部分音声データ431(430)には、秘匿ワード111「長谷不動産」が含まれる。この場合において、音声生成部65は、部分音声データ431に含まれる秘匿ワード111「長谷不動産」の秘匿音声データ150(151)を、秘匿ワード111に対応する代替ワード211「ABC」の代替音声データ250(251)に置き換えて、合成音声データ451(450)を生成する。換言すると、音声生成部65は、部分音声データ430(431)のうち秘匿ワード111を除いた部分の音声データと、代替音声データ250(251)とを合成して合成音声データ450(451)を生成する。   FIG. 11 is a diagram illustrating audio processing related to generation of the synthesized audio data 451. In FIG. 11, the partial voice data 431 (430) of “I want to scan a file and send it to Hase Real Estate” which is a voice uttered by the user 101 includes the secret word 111 “Hase Real Estate”. In this case, the voice generation unit 65 converts the secret voice data 150 (151) of the secret word 111 “Hase Real Estate” included in the partial voice data 431 into the alternative voice data of the alternative word 211 “ABC” corresponding to the secret word 111. In place of 250 (251), synthesized voice data 451 (450) is generated. In other words, the voice generation unit 65 synthesizes the synthesized voice data 450 (451) by synthesizing the voice data of the partial voice data 430 (431) excluding the secret word 111 and the alternative voice data 250 (251). Generate.

以上のような動作によれば、ユーザ101により操作されるMFP10の表示画面内に秘匿ワード110が含まれる場合に、秘匿ワード110を代替ワード210に置き換えた合成画像データ350(351)がサポータ端末70に送信されるので、当該秘匿ワード110がサポータ端末70の表示部76bに表示されない。したがって、ユーザ101により操作されるMFP10の表示画面内に含まれる機密情報の漏洩を回避することが可能である。   According to the above operation, when the secret word 110 is included in the display screen of the MFP 10 operated by the user 101, the composite image data 350 (351) in which the secret word 110 is replaced with the alternative word 210 is the supporter terminal. 70, the secret word 110 is not displayed on the display unit 76b of the supporter terminal 70. Therefore, leakage of confidential information included in the display screen of the MFP 10 operated by the user 101 can be avoided.

また、特に、ユーザ101の発した音声の部分音声データ430内に秘匿ワード110が含まれる旨が判定される場合に、部分音声データ430(431)内の秘匿音声データ150(151)を代替音声データ251に置き換えた合成音声データ450(451)がサポータ端末70に送信される。したがって、ユーザ101により発せられた秘匿ワード110の音声がサポータ端末70へとそのまま送信されない。その結果、ユーザ101の音声に含まれる機密情報の漏洩を回避することが可能である。   In particular, when it is determined that the secret word 110 is included in the partial voice data 430 of the voice uttered by the user 101, the secret voice data 150 (151) in the partial voice data 430 (431) is used as the substitute voice. The synthesized voice data 450 (451) replaced with the data 251 is transmitted to the supporter terminal 70. Therefore, the voice of the secret word 110 uttered by the user 101 is not transmitted to the supporter terminal 70 as it is. As a result, it is possible to avoid leakage of confidential information included in the voice of the user 101.

また、仮に、ユーザ101により発せられた音声のユーザ音声データ400から部分音声データ430を抽出しない場合には、ユーザ音声データ400の長さ(ユーザ101の音声の時間)が大きくなり、サポータ端末70への合成音声データ450の送信が大きく遅延する。一方、第1実施形態においては、ユーザ101の発した音声のユーザ音声データ400が比較的短い期間で区切られ、ユーザ音声データ400から複数の部分音声データ430が順次に抽出され、当該複数の部分音声データ430がサポータ端末70に順次に送信される。すなわち、部分音声データ430に対応する合成音声データ450は、ユーザ音声データ400のうち部分音声データ430の次の部分に対する処理の終了を待つことなく、比較的早期にサポータ端末70に送信され得る。したがって、サポータ端末70への音声データの送信の遅延を抑制することが可能である。   Further, if the partial audio data 430 is not extracted from the user audio data 400 of the audio uttered by the user 101, the length of the user audio data 400 (the time of the audio of the user 101) increases, and the supporter terminal 70 The transmission of the synthesized voice data 450 is greatly delayed. On the other hand, in the first embodiment, the user voice data 400 of the voice uttered by the user 101 is divided in a relatively short period, and a plurality of partial voice data 430 is sequentially extracted from the user voice data 400, and the plurality of parts The audio data 430 is sequentially transmitted to the supporter terminal 70. That is, the synthesized voice data 450 corresponding to the partial voice data 430 can be transmitted to the supporter terminal 70 relatively early without waiting for the end of the process for the next part of the partial voice data 430 in the user voice data 400. Therefore, it is possible to suppress a delay in transmission of audio data to the supporter terminal 70.

<第2実施形態>
第2実施形態は、第1実施形態の変形例である。以下では、第1実施形態との相違点を中心に説明する。
Second Embodiment
The second embodiment is a modification of the first embodiment. Below, it demonstrates centering on difference with 1st Embodiment.

第1実施形態においては、画像生成部61による合成画像データ351の生成が完了した直後に、合成音声データ451の送信タイミングを考慮することなく、当該合成画像データ350が案内サーバ50からサポータ端末70に送信される。そのため、図12に示すような問題が生じ得る。   In the first embodiment, immediately after the generation of the synthesized image data 351 by the image generating unit 61 is completed, the synthesized image data 350 is transferred from the guidance server 50 to the supporter terminal 70 without considering the transmission timing of the synthesized audio data 451. Sent to. Therefore, a problem as shown in FIG. 12 may occur.

図12においては、ユーザ101による発声中(詳細には部分音声データ430の生成中(録音中))に、ユーザ101の操作に応じて、MFP10のタッチパネル25の表示画像が画像データ301に基づく画像から画像データ302(後述)に基づく画像へと切り替えられている。たとえば、ユーザ101が画像データ301に基づく画像を見ながら喋っているにもかかわらず、喋っている途中で先回りして操作画面を切り換える操作をも行うような状況が想定される。   In FIG. 12, during the utterance by the user 101 (specifically, during generation of the partial audio data 430 (during recording)), the display image on the touch panel 25 of the MFP 10 is an image based on the image data 301 according to the operation of the user 101. To an image based on image data 302 (described later). For example, a situation may be assumed in which the user 101 performs an operation of switching the operation screen in advance while speaking while the user 101 is speaking while viewing an image based on the image data 301.

また、図12においては、画像データ302に関する合成画像データ352の生成が完了した直後に、合成音声データ451の送信タイミングとの関係を考慮することなく、合成画像データ352が案内サーバ50からサポータ端末70に送信されている。そして、この送信動作に応じて、サポータ端末70における表示画像は、合成画像データ351に基づく画像から合成画像データ352に基づく画像へと変更される。さらに、当該表示画像の変更後(換言すれば、新たな合成画像データ352に基づく画像の表示中)において、部分音声データ430に対応する合成音声データ451がサポータ端末70にて出力される。   In FIG. 12, immediately after the generation of the synthesized image data 352 related to the image data 302 is completed, the synthesized image data 352 is transferred from the guidance server 50 to the supporter terminal without considering the relationship with the transmission timing of the synthesized audio data 451. 70. In accordance with this transmission operation, the display image on the supporter terminal 70 is changed from an image based on the composite image data 351 to an image based on the composite image data 352. Further, after the display image is changed (in other words, during display of an image based on the new synthesized image data 352), the synthesized voice data 451 corresponding to the partial voice data 430 is output from the supporter terminal 70.

その結果、元の画像データ301に基づく画像を見ながら発せられた音声に対応する合成音声データ451が、本来は合成画像データ351の表示中に出力されるべきであるにもかかわらず、合成画像データ352(画像データ301の次の画像データ302に対応する合成画像データ)の表示中に出力される。このような画像と音声との「ずれ」に起因して、サポータ102の混乱が生じる可能性がある。   As a result, the synthesized voice data 451 corresponding to the voice uttered while viewing the image based on the original image data 301 should be output during the display of the synthesized image data 351, although it should be output. It is output during display of data 352 (composite image data corresponding to image data 302 next to image data 301). There is a possibility that the supporter 102 may be confused due to such a “deviation” between the image and the sound.

なお、画像データ302は、表示画像データ301に基づく表示画像に引き続いてMFP10のタッチパネル25に表示された表示画像の画像データである。   Note that the image data 302 is image data of a display image displayed on the touch panel 25 of the MFP 10 following the display image based on the display image data 301.

第2実施形態では、このような問題に鑑みて、合成音声データ451の送信完了後の所定時点まで(詳細には、合成音声データ451の送信完了から合成音声データ451の出力所要時間が経過する時点まで)、合成画像データ352の送信を停止させる態様を例示する。   In the second embodiment, in view of such a problem, a required output time of the synthesized voice data 451 elapses from the completion of the transmission of the synthesized voice data 451 until a predetermined time after the transmission of the synthesized voice data 451 is completed. The mode of stopping transmission of the composite image data 352 is illustrated.

図13は、第2実施形態に係る画像データ300および部分音声データ430の送信タイミング等を示すタイミングチャートである。   FIG. 13 is a timing chart showing transmission timings and the like of the image data 300 and the partial audio data 430 according to the second embodiment.

第2実施形態では、ユーザ101による発声中(詳細には、部分音声データ430の生成中)に、ユーザ101が先回りして操作画面の切換操作を行い、ユーザ101の操作に応じて、MFP10のタッチパネル25の表示画像が画像データ301に基づく画像から画像データ302に基づく画像へと切り替えられた状況を想定する。また、部分音声データ430は、画像データ301の表示中にユーザ101により発せられた音声をその冒頭部分等に含む音声データである。以下、音声処理および画像処理に関して順次に説明する。   In the second embodiment, during the utterance by the user 101 (specifically, during the generation of the partial audio data 430), the user 101 performs a switching operation of the operation screen in advance, and the MFP 10 performs the switching operation according to the operation of the user 101. Assume that the display image on the touch panel 25 is switched from an image based on the image data 301 to an image based on the image data 302. Also, the partial audio data 430 is audio data that includes the audio uttered by the user 101 during the display of the image data 301 in the beginning portion thereof. Hereinafter, audio processing and image processing will be sequentially described.

まず、音声処理に関して、図14を参照し、図10と比較しながら説明する。図14は、第2実施形態に係るユーザ音声データ400の音声処理等を示すフローチャートである。   First, voice processing will be described with reference to FIG. 14 and comparison with FIG. FIG. 14 is a flowchart showing voice processing and the like of the user voice data 400 according to the second embodiment.

図14においては、ステップS21とステップS22との間にステップS41が設けられ、ステップS27の後にステップS42とステップS43とが設けられている。具体的には、案内サーバ50は、非無音部分がユーザ音声データ400内に存在する旨が音声認識部64により判定されると(ステップS21)、停止フラグFGをオン(ON)に変更する(ステップS41)。   In FIG. 14, step S41 is provided between step S21 and step S22, and step S42 and step S43 are provided after step S27. Specifically, the guidance server 50 changes the stop flag FG to ON (ON) when the voice recognition unit 64 determines that a non-silence portion exists in the user voice data 400 (step S21) ( Step S41).

ここにおいて、停止フラグFGは、格納部55に格納されるフラグ情報であり、音声認識部64あるいは音声生成部65により制御される。停止フラグFGは、オン(ON)またはオフ(OFF)に設定(変更)される。案内サーバ50の送信部54aは、当該停止フラグFGがONであるかOFFであるかによって画像の送信を行うか否かを決定する。停止フラグFGがONであれば、送信部54aは画像を送信しない。停止フラグFGがOFFであれば、送信部54aは画像を送信する。   Here, the stop flag FG is flag information stored in the storage unit 55, and is controlled by the voice recognition unit 64 or the voice generation unit 65. The stop flag FG is set (changed) to ON (ON) or OFF (OFF). The transmission unit 54a of the guidance server 50 determines whether or not to transmit an image depending on whether the stop flag FG is ON or OFF. If the stop flag FG is ON, the transmission unit 54a does not transmit an image. If the stop flag FG is OFF, the transmission unit 54a transmits an image.

この停止フラグFGがONに変更された後、案内サーバ50は、図10と同様に、ステップS22〜S27の各処理を実行する。これにより、部分音声データ430に対応する合成音声データ450がサポータ端末70に送信される。   After the stop flag FG is changed to ON, the guidance server 50 executes steps S22 to S27 as in FIG. Thereby, the synthesized voice data 450 corresponding to the partial voice data 430 is transmitted to the supporter terminal 70.

案内サーバ50がサポータ端末70に合成音声データ450を送信すると、サポータ端末70は合成音声データ450を出力する。そして、案内サーバ50による合成音声データ450の送信完了から合成音声データ450の出力所要時間が経過すると(ステップS42)、案内サーバ50は停止フラグFGをOFFに変更する(ステップS43)。   When the guidance server 50 transmits the synthesized voice data 450 to the supporter terminal 70, the supporter terminal 70 outputs the synthesized voice data 450. When the required output time of the synthesized voice data 450 elapses after the transmission of the synthesized voice data 450 by the guidance server 50 (step S42), the guidance server 50 changes the stop flag FG to OFF (step S43).

なお、出力所要時間(再生所要時間)は、合成音声データ450の出力(再生)に要する時間である。当該出力所要時間は、部分音声データ430(合成音声データ450)の録音時間であるとも表現される。出力所要時間は、音声認識部64によって取得されればよい。ただし、これに限定されず、合成音声データ450の生成中に音声生成部65が出力所要時間を算出してもよい。あるいは、合成音声データ450の出力が終了した旨の信号をサポータ端末70が案内サーバ50に送信し、当該出力所要時間が経過したことがサポータ端末70から案内サーバ50に通知されるようにしてもよい。   The required output time (required reproduction time) is the time required for outputting (reproducing) the synthesized voice data 450. The output required time is also expressed as the recording time of the partial sound data 430 (synthesized sound data 450). The output required time may be acquired by the voice recognition unit 64. However, the present invention is not limited to this, and the voice generation unit 65 may calculate the required output time during the generation of the synthesized voice data 450. Alternatively, the supporter terminal 70 transmits a signal to the effect that the output of the synthesized voice data 450 is completed to the guidance server 50 so that the guidance server 50 is notified from the supporter terminal 70 that the required output time has elapsed. Good.

このようにして、合成音声データ450が案内サーバ50からサポータ端末70に送信され、サポータ端末70にて合成音声データ450が出力される。ユーザ音声データ400における非無音部分の検出時点(部分音声データ430(431)の開始時点)と、当該部分音声データ430(431)に対応する合成音声データ450(451)の送信完了から当該合成音声データ450(451)の出力所要時間(再生所要時間)が経過した時点との間の期間T1(図13参照)においては、停止フラグFGはオン(ON)に設定される。一方、それ以外の期間(たとえばユーザ音声データ400における無音部分(部分音声データ430ではないと判定される部分)の受信期間)においては、停止フラグFGはオフ(OFF)に設定される。   In this way, the synthesized voice data 450 is transmitted from the guidance server 50 to the supporter terminal 70, and the synthesized voice data 450 is output from the supporter terminal 70. From the detection time of the non-silence portion in the user audio data 400 (start time of the partial audio data 430 (431)) and the completion of transmission of the synthetic audio data 450 (451) corresponding to the partial audio data 430 (431) In the period T1 (see FIG. 13) between the time when the required output time (reproduction required time) of the data 450 (451) has elapsed, the stop flag FG is set to ON. On the other hand, the stop flag FG is set to OFF (OFF) in other periods (for example, a reception period of a silent part (a part determined not to be partial voice data 430) in the user voice data 400).

つぎに、画像処理に関して、図15を参照し、図8と比較しながら説明する。図15は、第2実施形態に係る画像処理等を示すフローチャートである。以下では、図15を参照しながら、画像データ301の次の画像データ302に関する画像処理について説明する。画像データ301に関する画像処理は、第1実施形態と同様の動作(図8参照)により既に終了しているものとする。   Next, image processing will be described with reference to FIG. 15 and a comparison with FIG. FIG. 15 is a flowchart showing image processing and the like according to the second embodiment. Hereinafter, image processing relating to image data 302 next to image data 301 will be described with reference to FIG. It is assumed that the image processing relating to the image data 301 has already been completed by the same operation (see FIG. 8) as in the first embodiment.

図15に示すように、ステップS32〜S35の各処理は、図8におけるステップS12〜S15の各処理と同様である。なお、サポート依頼の信号の送受信動作は画像データ301の送信前に既に終了しているので、図8のステップS11の処理は図15においては記載されていない。   As shown in FIG. 15, each process of step S32-S35 is the same as each process of step S12-S15 in FIG. Since the support request signal transmission / reception operation has already ended before the transmission of the image data 301, the process of step S11 in FIG. 8 is not described in FIG.

図15では、ステップS34とステップS35との間にステップS36が設けられている。ステップS36では、画像生成部61により生成された合成画像データ352をサポータ端末70に送信する前に、案内サーバ50(具体的には、送信部54a)が、図14の音声処理にて設定された停止フラグFGの値(ONであるかOFFであるか)を認識する。   In FIG. 15, step S36 is provided between step S34 and step S35. In step S36, before transmitting the composite image data 352 generated by the image generation unit 61 to the supporter terminal 70, the guidance server 50 (specifically, the transmission unit 54a) is set by the audio processing of FIG. The value of the stop flag FG (whether it is ON or OFF) is recognized.

停止フラグFGがOFFであると認識される場合には、案内サーバ50は、合成画像データ352の送信を許可し、合成画像データ352をサポータ端末70に送信する(ステップS35)。一方、停止フラグFGがONであると認識される場合には(具体的には、ステップS22〜S27,S41〜S43の処理を案内サーバ50が行っている場合には)、案内サーバ50は、合成画像データ352の送信を禁止し、合成画像データ352はサポータ端末70に送信されない。   If it is recognized that the stop flag FG is OFF, the guidance server 50 permits transmission of the composite image data 352 and transmits the composite image data 352 to the supporter terminal 70 (step S35). On the other hand, when it is recognized that the stop flag FG is ON (specifically, when the guidance server 50 performs the processes of steps S22 to S27 and S41 to S43), the guidance server 50 Transmission of the composite image data 352 is prohibited, and the composite image data 352 is not transmitted to the supporter terminal 70.

上述のように、期間T1(図13参照)においては、停止フラグFGがオン(ON)に設定されている。そのため、図13に示すように、上述の期間T1内に新たな画像データ302を受信した案内サーバ50は、画像処理により合成画像データ352を生成するものの、期間T1内においてはサポータ端末70に合成画像データ352を送信しない。   As described above, the stop flag FG is set to ON (ON) in the period T1 (see FIG. 13). Therefore, as shown in FIG. 13, the guidance server 50 that has received the new image data 302 within the above-described period T1 generates composite image data 352 by image processing, but within the period T1, combines it with the supporter terminal 70. The image data 352 is not transmitted.

その後、期間T1が終了し、停止フラグFGがオン(ON)からオフ(OFF)に変更されると、案内サーバ50は合成画像データ352をサポータ端末70に送信する。   Thereafter, when the period T1 ends and the stop flag FG is changed from on (ON) to off (OFF), the guidance server 50 transmits the composite image data 352 to the supporter terminal 70.

このように、当該期間T1(図13参照)に、案内サーバ50が新たな画像データ302を受信する場合には、案内サーバ50(具体的には、送信部54a)は、当該期間T1の終了時点までは新たな合成画像データ352の送信を許可せず且つ当該期間T1の終了後に合成画像データ352の送信を許可する。   Thus, when the guidance server 50 receives new image data 302 during the period T1 (see FIG. 13), the guidance server 50 (specifically, the transmission unit 54a) ends the period T1. Until the time point, transmission of new composite image data 352 is not permitted, and transmission of composite image data 352 is permitted after the end of the period T1.

以上のような動作によれば、案内サーバ50は、部分音声データ430の受信が開始されると新たな合成画像データ352の送信を許可せず、合成音声データ450(451)の送信完了時点以後の所定の時点において合成画像データ352の送信を許可するので、サポータ端末70の表示部76bにおける合成画像データ351から合成画像データ352への画像の変更は、合成音声データ450の送信完了後に行われる。したがって、画像データ301を見ながら発せられたユーザ101の音声が、当該音声の伝達の遅延に起因して合成画像データ352(画像データ301の次の画像データ302に対応する画像)の表示中にサポータ端末側で出力されることを抑制あるいは回避することが可能である。   According to the operation as described above, the guidance server 50 does not permit transmission of new synthesized image data 352 when reception of the partial audio data 430 is started, and after the completion of transmission of the synthesized audio data 450 (451). Since the transmission of the synthesized image data 352 is permitted at a predetermined time, the image change from the synthesized image data 351 to the synthesized image data 352 in the display unit 76b of the supporter terminal 70 is performed after the transmission of the synthesized audio data 450 is completed. . Accordingly, the sound of the user 101 uttered while viewing the image data 301 is displayed during the display of the composite image data 352 (an image corresponding to the next image data 302 of the image data 301) due to the delay in the transmission of the sound. It is possible to suppress or avoid output on the supporter terminal side.

端的に言えば、サポータ端末70において、合成画像データ351に基づく画像の表示のタイミングと合成音声データ451に基づく音声の出力のタイミングとのずれを抑制あるいは回避することが可能である。その結果、サポータ102が混乱することなくユーザ101に的確な操作案内をすることが可能である。   In short, in the supporter terminal 70, it is possible to suppress or avoid a shift between the image display timing based on the synthesized image data 351 and the audio output timing based on the synthesized audio data 451. As a result, it is possible to provide accurate operation guidance to the user 101 without the supporter 102 being confused.

また、特に、合成音声データ451の送信完了から当該合成音声データ451の出力所要時間(再生所要時間)が経過した時点以後において、停止フラグFGがオンからオフに変更され合成画像データ352の送信が許可されることが好ましい。これによれば、合成画像データ351に基づく画像の表示のタイミングと合成音声データ451に基づく音声の出力のタイミングとのずれを更に抑制あるいは回避することが可能である。   In particular, the stop flag FG is changed from on to off and the synthesized image data 352 is transmitted after the time required for outputting the synthesized speech data 451 (required playback time) has elapsed since the completion of the transmission of the synthesized speech data 451. Preferably it is allowed. According to this, it is possible to further suppress or avoid the shift between the timing of image display based on the synthesized image data 351 and the timing of outputting audio based on the synthesized audio data 451.

なお、この第2実施形態等においては、ユーザ音声データ400に所定時間以上の無音部分が存在する場合に、音声認識部64は、ユーザ音声データ400の非無音部分の開始時点から次の無音部分の開始時点までの音声データを部分音声データ430として抽出することを例示した。しかしながら、本発明は、これに限定されない。   In the second embodiment or the like, when the user voice data 400 includes a silent part for a predetermined time or longer, the voice recognition unit 64 starts the next silent part from the start point of the silent part of the user voice data 400. The example of extracting the voice data up to the start time of as the partial voice data 430 is exemplified. However, the present invention is not limited to this.

たとえば、第2実施形態(あるいは第1実施形態)において、案内サーバ50により合成画像データ350が受信された時点を終端とするように区分した部分の音声データがユーザ音声データ400から部分音声データ430として抽出されるようにしてもよい。換言すれば、ユーザ101による操作画面の切換時点でユーザ音声データ400が区切られて、ユーザ音声データ400の一部の音声データである部分音声データ430が抽出されるようにしてもよい。   For example, in the second embodiment (or the first embodiment), the audio data of a part divided so as to end at the time when the synthesized image data 350 is received by the guidance server 50 is changed from the user audio data 400 to the partial audio data 430. May be extracted. In other words, the user voice data 400 may be divided at the time when the operation screen is switched by the user 101, and the partial voice data 430 that is a part of the user voice data 400 may be extracted.

図17は、このような改変例の動作を示すフローチャートである。   FIG. 17 is a flowchart showing the operation of such a modification.

図17においては、ステップS22の判定処理に加えてステップS44の判定処理も行われる。両判定処理(ステップS22,S44)のいずれかで「YES」と判定されるとステップS23に進み、部分音声データ430が抽出される。なお、ステップS44では、新たな画像データを受信したか否かが判定される。   In FIG. 17, in addition to the determination process of step S22, the determination process of step S44 is also performed. If “YES” is determined in either of the determination processes (steps S22 and S44), the process proceeds to step S23, and the partial audio data 430 is extracted. In step S44, it is determined whether new image data has been received.

たとえば、所定時間以上の無音部分が存在しない旨がステップS22で判定されたとしても、新たな画像データ302が受信された旨がステップS44で判定されると、ステップS23に進む。このステップS23では、音声認識部64は、ユーザ音声データ400のうち、新たな表示画像の画像データ302の受信時点を終端とするように区分した部分音声データを、部分音声データ430として抽出する。   For example, even if it is determined in step S22 that there is no silent part longer than a predetermined time, if it is determined in step S44 that new image data 302 has been received, the process proceeds to step S23. In step S <b> 23, the voice recognition unit 64 extracts, as the partial voice data 430, the partial voice data that is divided from the user voice data 400 so that the reception time of the image data 302 of the new display image ends.

図16は、この態様に係る動作のタイミング等を示すタイミングチャートである。   FIG. 16 is a timing chart showing operation timing and the like according to this aspect.

図16に示すように、MFP10において画像データ301に基づく画像を見ながら発せられたユーザ101のユーザ音声データ400は、画像データ302が案内サーバ50により受信された時点で区切られる。案内サーバ50の音声認識部64は、MFP10から送信されるユーザ音声データ400のうち、ユーザ音声データ400の非無音部分の開始時点から新たな画像データ302を受信した時点までの部分の音声データを部分音声データ431(430)として抽出する。   As shown in FIG. 16, the user voice data 400 of the user 101 that is uttered while viewing an image based on the image data 301 in the MFP 10 is divided when the image data 302 is received by the guidance server 50. The voice recognition unit 64 of the guidance server 50 includes the voice data of the user voice data 400 transmitted from the MFP 10 from the start time of the non-silent part of the user voice data 400 to the time when new image data 302 is received. Extracted as partial audio data 431 (430).

案内サーバ50は、当該部分音声データ431に関する合成音声データ451を生成し、合成音声データ451をサポータ端末70に送信する。そして、サポータ端末70において合成音声データ451が出力される。   The guidance server 50 generates synthesized voice data 451 related to the partial voice data 431 and transmits the synthesized voice data 451 to the supporter terminal 70. Then, the synthesized voice data 451 is output from the supporter terminal 70.

一方、新たな画像データ302は、案内サーバ50による画像処理によって合成画像データ352に変更される。そして、案内サーバ50は、合成音声データ451の送信が完了してから合成音声データ451の出力所要時間が経過した後に、合成画像データ352をサポータ端末70に送信する。その後、サポータ端末70の表示部76bにおいて合成画像データ352に基づく画像が表示される。   On the other hand, the new image data 302 is changed to composite image data 352 by image processing by the guidance server 50. Then, the guide server 50 transmits the synthesized image data 352 to the supporter terminal 70 after the required output time of the synthesized voice data 451 has elapsed after the transmission of the synthesized voice data 451 is completed. Thereafter, an image based on the composite image data 352 is displayed on the display unit 76 b of the supporter terminal 70.

これによれば、ユーザ101の音声が画像データ301から画像データ302への変更時点で区切られるので、比較的短い期間を有する部分音声データ431を抽出することができる。したがって、合成音声データ451のサポータ端末70への送信遅延を更に抑制することが可能である。   According to this, since the voice of the user 101 is divided at the time of change from the image data 301 to the image data 302, the partial voice data 431 having a relatively short period can be extracted. Therefore, it is possible to further suppress the transmission delay of the synthesized voice data 451 to the supporter terminal 70.

また、部分音声データ431には、画像データ301を閲覧しながら発せられた音声のみが含まれる(次の画像データ302を閲覧しながら発せられた音声は含まれない)。したがって、サポータ端末70において、表示される画像(合成画像データ351に基づく画像)と出力される音声(合成音声データ451に基づく音声)とのずれを更に抑制あるいは回避することが可能である。   Further, the partial sound data 431 includes only the sound uttered while viewing the image data 301 (the sound uttered while viewing the next image data 302 is not included). Therefore, in the supporter terminal 70, it is possible to further suppress or avoid the deviation between the displayed image (image based on the synthesized image data 351) and the output sound (sound based on the synthesized speech data 451).

<第3実施形態>
第3実施形態は、第1実施形態の変形例である。以下では、第1実施形態との相違点を中心に説明する。
<Third Embodiment>
The third embodiment is a modification of the first embodiment. Below, it demonstrates centering on difference with 1st Embodiment.

第1実施形態においては、ユーザ101により発せられた音声のユーザ音声データ400を案内サーバ50が受信すると、音声生成部65は、当該音声に含まれる秘匿ワード110に対応する代替音声データ250(251)を生成し、当該代替音声データ250を利用して合成音声データ450(451)を生成する態様を例示した。第1実施形態においては、音声生成部65は代替音声データ250を逐次生成し、生成された代替音声データ251は格納されない。   In the first embodiment, when the guidance server 50 receives the user voice data 400 of the voice uttered by the user 101, the voice generation unit 65 replaces the substitute voice data 250 (251 corresponding to the secret word 110 included in the voice). ) And the synthesized voice data 450 (451) is generated using the alternative voice data 250. In the first embodiment, the sound generation unit 65 sequentially generates the substitute sound data 250, and the generated substitute sound data 251 is not stored.

第3実施形態では、合成音声データ450の生成に先立つ所定の時点(具体的には、サポート依頼信号を案内サーバ50が受信した時点)で、複数の秘匿ワード110に対応する複数の代替音声データ250の生成が音声生成部65により開始され、生成された代替音声データ250が案内サーバ50の格納部55に予め格納される。そして、ユーザ音声データ400に秘匿ワード110が含まれ且つ秘匿ワード110に対応する代替音声データ250が格納部55に既に格納されている場合には、格納部55に予め格納されている代替音声データ250を用いて合成音声データ450が音声生成部65により生成される。   In the third embodiment, a plurality of alternative voice data corresponding to a plurality of secret words 110 at a predetermined time (specifically, when the guide server 50 receives a support request signal) prior to the generation of the synthesized voice data 450. The generation of 250 is started by the voice generation unit 65, and the generated alternative voice data 250 is stored in advance in the storage unit 55 of the guidance server 50. If the user voice data 400 includes the secret word 110 and the alternative voice data 250 corresponding to the secret word 110 is already stored in the storage unit 55, the alternative voice data stored in the storage unit 55 in advance is stored. The synthesized voice data 450 is generated by the voice generation unit 65 using 250.

図18は、第3実施形態に係る動作に関するタイミングを示す図であり、図19は、第3実施形態に係るユーザ101のユーザ音声データ400に対する音声処理を示すフローチャートである。図18および図19を参照して具体的に説明する。   FIG. 18 is a diagram illustrating timing related to the operation according to the third embodiment, and FIG. 19 is a flowchart illustrating audio processing on the user audio data 400 of the user 101 according to the third embodiment. This will be specifically described with reference to FIGS. 18 and 19.

サポートセンターに対するサポート依頼のために、ユーザ101が、MFP10の操作パネル6cに配設されたヘルプボタン(不図示)を押下すると、MFP10は、ユーザ101からの操作案内の発生を示すサポート依頼の信号を案内サーバ50に送信する。   When the user 101 presses a help button (not shown) provided on the operation panel 6c of the MFP 10 for a support request to the support center, the MFP 10 displays a support request signal indicating the occurrence of operation guidance from the user 101. Is transmitted to the guidance server 50.

案内サーバ50は、MFP10からサポート依頼信号を受信すると(ステップS11(図19))、複数の秘匿ワード110(後述)のリストである秘匿ワードリスト602(図20参照)をもMFP10から受信する。   When the guidance server 50 receives a support request signal from the MFP 10 (step S11 (FIG. 19)), the guidance server 50 also receives a secret word list 602 (see FIG. 20), which is a list of a plurality of secret words 110 (described later), from the MFP 10.

当該秘匿ワードリスト602には、当該複数の秘匿ワード110が登録されている。そして、案内サーバ50は、当該秘匿ワードリスト602に基づいて変換辞書652(図20参照)を生成する。生成された変換辞書652では、秘匿ワード110と、当該秘匿ワード110にそれぞれ対応する代替ワード210とが登録されている。   In the secret word list 602, the plurality of secret words 110 are registered. Then, the guidance server 50 generates a conversion dictionary 652 (see FIG. 20) based on the secret word list 602. In the generated conversion dictionary 652, the secret word 110 and the alternative words 210 respectively corresponding to the secret word 110 are registered.

ここにおいて、複数の秘匿ワード110は、MFP10のスキャン画像送信における宛先指定画面内の送信宛先を示す語句(ワード)と、MFP10のファクシミリ送信における宛先指定画面に含まれる送信宛先を示す語句と、MFP10のボックスに格納されたファイルに関する情報表示画面に表示されるファイル情報を示す語句とを含む。換言すれば、当該複数の秘匿ワード110には、複数の動作モードのそれぞれにて秘匿すべき複数の種類の語句が含まれる。ただし、秘匿ワード110は、これらの語句の全てを含むことを要さず、これらの語句の一部を含むものであってもよい。   Here, the plurality of concealment words 110 are words (words) indicating a transmission destination in the destination designation screen in the scan image transmission of the MFP 10, words and phrases indicating a transmission destination included in the destination designation screen in the facsimile transmission of the MFP 10, and the MFP 10. And a word / phrase indicating file information displayed on the information display screen relating to the file stored in the box. In other words, the plurality of secret words 110 include a plurality of types of words / phrases to be concealed in each of the plurality of operation modes. However, the secret word 110 does not need to include all of these phrases, and may include a part of these phrases.

案内サーバ50によるサポート依頼信号の受信に応答して、音声生成部65は、変換辞書652に基づいて、複数の秘匿ワード110に対応する代替音声データ250の生成を開始する(ステップS51)(図18も参照)。また、案内サーバ50は、生成した代替音声データ250を案内サーバ50の格納部55に順次に格納する(ステップS52)。   In response to the reception of the support request signal by the guidance server 50, the voice generation unit 65 starts generating the alternative voice data 250 corresponding to the plurality of secret words 110 based on the conversion dictionary 652 (step S51) (FIG. 18). Further, the guidance server 50 sequentially stores the generated substitute voice data 250 in the storage unit 55 of the guidance server 50 (step S52).

操作案内の開始信号の送受信に伴う所定の時点において、案内サーバ50は、画像データ300(301)をMFP10から受信し、変換辞書652に基づいて画像処理を行い、合成画像データ350(351)を生成する。そして、案内サーバ50は、生成した合成画像データ350(351)をサポータ端末70に送信する(図18参照)。   At a predetermined time point accompanying transmission / reception of the operation guidance start signal, the guidance server 50 receives the image data 300 (301) from the MFP 10, performs image processing based on the conversion dictionary 652, and generates composite image data 350 (351). Generate. Then, the guidance server 50 transmits the generated composite image data 350 (351) to the supporter terminal 70 (see FIG. 18).

複数の代替音声データ250の生成中あるいは生成完了後において、案内サーバ50は、ユーザ音声データ400を受信し(ステップS20)、ステップS21〜S24の各処理を実行する(図19参照)。その後、部分音声データ430に秘匿ワード110が含まれていることがステップS24において判定されると、ステップS53に進む。   During or after the generation of the plurality of alternative voice data 250, the guidance server 50 receives the user voice data 400 (step S20), and executes each process of steps S21 to S24 (see FIG. 19). Thereafter, when it is determined in step S24 that the secret voice 110 is included in the partial voice data 430, the process proceeds to step S53.

ステップS53では、秘匿ワード110に対応する代替音声データ250が案内サーバ50の格納部55に格納されているか否かが音声生成部65により判定される。   In step S <b> 53, the voice generation unit 65 determines whether the alternative voice data 250 corresponding to the secret word 110 is stored in the storage unit 55 of the guidance server 50.

秘匿ワード110に対応する代替音声データ250が格納部55に格納されていることが判定される場合には、音声生成部65は、既に格納されている代替音声データ250(251)を格納部55から取得する(ステップS54)。そして、音声生成部65は当該代替音声データ251を用いて合成音声データ450(451)を生成し(ステップS26)、案内サーバ50は合成音声データ450をサポータ端末70に送信する(ステップS27)。   When it is determined that the alternative voice data 250 corresponding to the secret word 110 is stored in the storage unit 55, the voice generation unit 65 stores the alternative voice data 250 (251) already stored in the storage unit 55. (Step S54). Then, the voice generation unit 65 generates synthesized voice data 450 (451) using the alternative voice data 251 (step S26), and the guidance server 50 transmits the synthesized voice data 450 to the supporter terminal 70 (step S27).

たとえば、秘匿ワード111「長谷不動産」に対応する代替音声データ251「ABC」(図20)が格納部55に格納されていることが判定される場合には、音声生成部65は、格納されている代替音声データ251「ABC」を格納部55から取得する。そして、音声生成部65は、当該代替音声データ251「ABC」を用いて合成音声データ451を生成し、案内サーバ50は合成音声データ451をサポータ端末70に送信する。合成音声データ451を受信したサポータ端末70においては、合成音声データ451に基づく音声が出力される。   For example, when it is determined that the alternative voice data 251 “ABC” (FIG. 20) corresponding to the secret word 111 “Hase Real Estate” is stored in the storage unit 55, the voice generation unit 65 is stored. The alternative voice data 251 “ABC” is acquired from the storage unit 55. Then, the voice generation unit 65 generates synthesized voice data 451 using the alternative voice data 251 “ABC”, and the guidance server 50 transmits the synthesized voice data 451 to the supporter terminal 70. The supporter terminal 70 that has received the synthesized voice data 451 outputs a voice based on the synthesized voice data 451.

一方、代替音声データ250が格納部55に格納されていないことがステップS54において判定される場合には、音声生成部65は、秘匿ワード110に対応する代替音声データ250を機械音声生成処理により生成する(ステップS25)。そして、音声生成部65は、生成した代替音声データ250を格納部55に格納し(ステップS55)、ステップS26に進む。ステップS26では、ステップS25で生成された代替音声データ250を用いて合成音声データ450が生成される。   On the other hand, when it is determined in step S54 that the alternative voice data 250 is not stored in the storage unit 55, the voice generation unit 65 generates the alternative voice data 250 corresponding to the secret word 110 by the machine voice generation process. (Step S25). Then, the voice generation unit 65 stores the generated alternative voice data 250 in the storage unit 55 (step S55), and proceeds to step S26. In step S26, synthesized voice data 450 is generated using the alternative voice data 250 generated in step S25.

以上のような動作によれば、ユーザ101からのサポート依頼信号を案内サーバ50が受信すると、複数の代替音声データ250の生成が開始され、生成された代替音声データ250が格納部55に予め格納される。そして、ユーザ音声データ400に秘匿ワード110が含まれ且つ代替音声データ250が既に格納部55に格納されている旨が判定される場合には、格納されている代替音声データ250(251)を用いて合成音声データ450(451)が生成される。この場合、既に存在する代替音声データ250が利用されるため、代替音声データ250(251)が新たに生成されることを要しない。したがって、たとえばユーザ音声データ400に秘匿ワード110が含まれる旨が判定された時点から代替音声データ250(251)の生成を開始する場合と比べて、代替音声データ251の準備時間が短縮され、合成音声データ451の生成に要する時間が短縮される。その結果、サポータ端末70への合成音声データ451の送信の遅延を抑制することが可能である。   According to the operation as described above, when the guidance server 50 receives a support request signal from the user 101, generation of a plurality of alternative voice data 250 is started, and the generated alternative voice data 250 is stored in the storage unit 55 in advance. Is done. When it is determined that the secret voice 110 is included in the user voice data 400 and the alternative voice data 250 is already stored in the storage unit 55, the stored alternative voice data 250 (251) is used. Thus, synthesized voice data 450 (451) is generated. In this case, since the alternative voice data 250 that already exists is used, it is not necessary to newly generate the alternative voice data 250 (251). Therefore, for example, the preparation time of the alternative voice data 251 is shortened compared to when the generation of the alternative voice data 250 (251) is started from the time when it is determined that the user voice data 400 includes the secret word 110, and the synthesis is performed. The time required for generating the audio data 451 is reduced. As a result, it is possible to suppress a delay in transmission of the synthesized voice data 451 to the supporter terminal 70.

また、上記第3実施形態では、MFP10における複数の動作モード(スキャンモード、ファクシミリ送信モード、ボックスモード等)で表示され得る複数の秘匿ワード110に対応する複数の代替音声データ250が順次に生成されている。上記においては、複数の代替音声データ250の生成順序については特に言及していないが、次述するような優先順序で複数の代替音声データ250が生成されるようにしてもよい。   In the third embodiment, a plurality of alternative voice data 250 corresponding to a plurality of secret words 110 that can be displayed in a plurality of operation modes (scan mode, facsimile transmission mode, box mode, etc.) in the MFP 10 are sequentially generated. ing. In the above description, the generation order of the plurality of alternative sound data 250 is not particularly mentioned, but the plurality of alternative sound data 250 may be generated in the priority order as described below.

たとえば、MFP10における複数の動作モードで表示され得る複数の秘匿ワード110のうち、ユーザ101により操作されているMFP10の現在の動作モードにて表示され得る秘匿ワード110に対応する代替音声データ250が優先的に生成されるようにしてもよい。   For example, among the plurality of secret words 110 that can be displayed in a plurality of operation modes in the MFP 10, the alternative voice data 250 corresponding to the secret word 110 that can be displayed in the current operation mode of the MFP 10 operated by the user 101 has priority. May be generated automatically.

より具体的には、MFP10の現在の動作モードがスキャンモードであるときには、音声生成部65は、複数の秘匿ワード110のうち、スキャンモード(現モード)にて表示され得る1つまたは複数の画像(宛先指定画面301等)に含まれる秘匿ワード110を優先処理対象ワードとして決定する。そして、音声生成部65は、当該優先処理対象ワードに対応する代替音声データ250を生成し、生成した代替音声データ250を格納部55に格納する。   More specifically, when the current operation mode of the MFP 10 is the scan mode, the sound generation unit 65 includes one or more images that can be displayed in the scan mode (current mode) among the plurality of secret words 110. The secret word 110 included in the (address designation screen 301 or the like) is determined as the priority processing target word. Then, the voice generation unit 65 generates alternative voice data 250 corresponding to the priority processing target word, and stores the generated alternative voice data 250 in the storage unit 55.

これによれば、現在の動作モードにて表示され得る秘匿ワード110に対応する代替音声データ250が優先的に生成されるので、ユーザ101により発せられる可能性の高い秘匿ワード110に対応する代替音声データ250を予め生成しておくことが可能である。したがって、合成音声データ450の生成の際に、格納部55に格納されている代替音声データ250が用いられる可能性が高くなる。   According to this, since the alternative voice data 250 corresponding to the secret word 110 that can be displayed in the current operation mode is preferentially generated, the alternative voice corresponding to the secret word 110 that is likely to be emitted by the user 101. Data 250 can be generated in advance. Therefore, when the synthesized voice data 450 is generated, there is a high possibility that the alternative voice data 250 stored in the storage unit 55 is used.

あるいは、秘匿ワード110の使用頻度に基づく優先順位に従って、複数の代替音声データ250が順次に生成されるようにしてもよい。   Alternatively, a plurality of alternative voice data 250 may be sequentially generated according to the priority order based on the usage frequency of the secret word 110.

具体的には、秘匿ワードリスト602の受信に際して、案内サーバ50は、秘匿ワード110のそれぞれの使用頻度をもMFP10から受信し、当該秘匿ワードリスト602および使用頻度に基づいて変換辞書652を生成する(図20参照)。そして、音声生成部65は、変換辞書652に登録されている複数の秘匿ワード110のうち、使用頻度が多い秘匿ワード110から順に、対応する代替音声データ250を生成し、生成した代替音声データ250を格納部55に格納する。   Specifically, when receiving the secret word list 602, the guide server 50 also receives the usage frequency of each secret word 110 from the MFP 10 and generates the conversion dictionary 652 based on the secret word list 602 and the usage frequency. (See FIG. 20). Then, the voice generation unit 65 generates corresponding alternative voice data 250 in order from the secret word 110 having the highest use frequency among the plurality of secret words 110 registered in the conversion dictionary 652, and the generated alternative voice data 250. Is stored in the storage unit 55.

図20では、秘匿ワード111の「長谷不動産」の使用頻度は10であり、秘匿ワード112の「高橋電器」の使用頻度は20であり、秘匿ワード113の「松原工務店」の使用頻度は5である。この場合、3つの秘匿ワード112,111,113に着目すると、音声生成部65は、秘匿ワード112,111,113の順にそれぞれ対応する代替音声データ250を生成する。すなわち、代替音声データ252,251,253が、この順序で生成される。   In FIG. 20, the usage frequency of “Hase Real Estate” in the secret word 111 is 10, the usage frequency of “Takahashi Electric” in the secret word 112 is 20, and the usage frequency of “Matsubara Corporation” in the secret word 113 is 5. It is. In this case, paying attention to the three secret words 112, 111, and 113, the voice generation unit 65 generates alternative voice data 250 corresponding to the secret words 112, 111, and 113 in that order. That is, the alternative voice data 252 251 253 are generated in this order.

なお、変換辞書652に記述された秘匿ワード110の使用頻度は、MFP10を使用する複数のユーザによる秘匿ワード110の使用頻度(換言すれば、MFP10の使用頻度)であってもよく、あるいは、現在MFP10を操作しているユーザ101(ログインユーザ)による秘匿ワード110の使用頻度であってもよい。   Note that the usage frequency of the secret word 110 described in the conversion dictionary 652 may be the usage frequency of the secret word 110 by a plurality of users who use the MFP 10 (in other words, the usage frequency of the MFP 10). The usage frequency of the secret word 110 by the user 101 (logged-in user) who operates the MFP 10 may be used.

このように、秘匿ワード110の使用頻度に基づく優先順位(のみ)に従って、複数の代替音声データ250が順次に生成されるようにしてもよい。これによれば、ユーザ101により発せられる可能性の高い秘匿ワード110に対応する代替音声データ250を予め生成しておくことが可能である。したがって、合成音声データ450の生成の際に、格納部55に格納されている代替音声データ250が用いられる可能性が高くなる。   As described above, a plurality of alternative voice data 250 may be sequentially generated according to the priority (only) based on the usage frequency of the secret word 110. According to this, it is possible to generate in advance the alternative voice data 250 corresponding to the secret word 110 that is likely to be issued by the user 101. Therefore, when the synthesized voice data 450 is generated, there is a high possibility that the alternative voice data 250 stored in the storage unit 55 is used.

さらには、現在のスキャンモードと使用頻度との双方を考慮した優先順位に従って、複数の代替音声データ250が順次に生成されるようにしてもよい。   Furthermore, a plurality of alternative audio data 250 may be sequentially generated in accordance with the priority order considering both the current scan mode and the usage frequency.

また、上記第3実施形態等においては、ユーザ101からのサポート依頼信号を案内サーバ50が受信したことに応答して、複数の代替音声データ250の生成が開始される態様が例示されているが、これに限定されない。   Moreover, in the said 3rd Embodiment etc., although the guidance server 50 received the support request signal from the user 101, the aspect in which the production | generation of the some alternative audio | voice data 250 is started is illustrated. However, the present invention is not limited to this.

たとえば、画像データ300を案内サーバ50が受信すると、当該画像データ300に含まれている秘匿ワード110に対応する代替音声データ250の生成が開始されるようにしてもよい。   For example, when the guidance server 50 receives the image data 300, the generation of the alternative voice data 250 corresponding to the secret word 110 included in the image data 300 may be started.

具体的には、案内サーバ50による画像データ300(301)の受信に応答して、音声生成部65は、当該画像データ300に含まれている複数の秘匿ワード110に対応する複数の代替音声データ250の生成を開始する。なお、生成された代替音声データ250は格納部55に格納される。たとえば、秘匿ワード111,112,113に対応する代替音声データ251,252,253が生成され、格納部55に随時格納される。   Specifically, in response to the reception of the image data 300 (301) by the guidance server 50, the sound generation unit 65 includes a plurality of alternative sound data corresponding to the plurality of secret words 110 included in the image data 300. 250 generation is started. The generated alternative audio data 250 is stored in the storage unit 55. For example, alternative voice data 251, 252, 253 corresponding to the secret words 111, 112, 113 are generated and stored in the storage unit 55 as needed.

これら複数の代替音声データ250の生成中あるいは生成完了後において、図19のステップS20以降の動作と同様の動作が実行される。具体的には、ユーザ音声データ400に秘匿ワード110が含まれ且つ秘匿ワード110に対応する代替音声データ250が格納部55に既に格納されている場合には、格納部55に格納されている当該代替音声データ250を用いて合成音声データ450が生成される。一方、ユーザ音声データ400に秘匿ワード110が含まれ且つ秘匿ワード110に対応する代替音声データ250が格納部55に格納されていない場合には、当該代替音声データ250が機械音声生成処理により生成され、生成された当該代替音声データ250を用いて合成ユーザ音声データが生成される。   During the generation of the plurality of alternative audio data 250 or after the generation is completed, the same operation as the operation after step S20 in FIG. 19 is executed. Specifically, when the user voice data 400 includes the secret word 110 and the alternative voice data 250 corresponding to the secret word 110 is already stored in the storage unit 55, the user voice data 400 stored in the storage unit 55 Synthetic voice data 450 is generated using alternative voice data 250. On the other hand, when the user voice data 400 includes the secret word 110 and the alternative voice data 250 corresponding to the secret word 110 is not stored in the storage unit 55, the alternative voice data 250 is generated by the machine voice generation process. Then, synthesized user voice data is generated using the generated alternative voice data 250.

これによれば、受信した画像データ300に含まれている秘匿ワード110に対応する代替音声データ250が優先的に生成されるので、ユーザ101により発せられる可能性が比較的高い秘匿ワード110に対応する代替音声データ250が予め生成され得る。したがって、合成音声データ450の生成の際に、格納部55に格納されている代替音声データ250が用いられる可能性を向上させることができる。   According to this, since the alternative voice data 250 corresponding to the secret word 110 included in the received image data 300 is preferentially generated, it corresponds to the secret word 110 that is likely to be emitted by the user 101. Alternative voice data 250 to be generated can be generated in advance. Therefore, it is possible to improve the possibility that the substitute voice data 250 stored in the storage unit 55 is used when the synthesized voice data 450 is generated.

また、このような改変例において、上述の使用頻度に基づく優先順位に従って、複数の代替音声データ250が順次に生成されるようにしてもよい。すなわち、受信した画像データ300に含まれる複数の秘匿ワードの使用頻度に基づく優先順位に従って、当該複数の秘匿ワード110に対応する複数の代替音声データ250が生成されるようにしてもよい。   In such a modification, a plurality of alternative audio data 250 may be sequentially generated in accordance with the priority order based on the above-described usage frequency. That is, a plurality of alternative sound data 250 corresponding to the plurality of secret words 110 may be generated in accordance with the priority order based on the use frequency of the plurality of secret words included in the received image data 300.

<第4実施形態>
第4実施形態は、第1実施形態の変形例である。以下では、第1実施形態との相違点を中心に説明する。
<Fourth embodiment>
The fourth embodiment is a modification of the first embodiment. Below, it demonstrates centering on difference with 1st Embodiment.

第1実施形態においては、部分音声データ430を案内サーバ50が受信すると、当該部分音声データ430に含まれた秘匿ワード110に対応する代替音声データ250(251)が、その都度、音声生成部65により生成される。そして、音声生成部65は、当該代替音声データ250を利用して合成音声データ450(451)を生成する。第1実施形態においては、音声生成部65は代替音声データ250を逐次生成し、生成された代替音声データ251は格納されない。   In the first embodiment, when the guidance server 50 receives the partial voice data 430, the alternative voice data 250 (251) corresponding to the secret word 110 included in the partial voice data 430 is converted into the voice generation unit 65 each time. Is generated by Then, the voice generation unit 65 generates synthesized voice data 450 (451) using the alternative voice data 250. In the first embodiment, the sound generation unit 65 sequentially generates the substitute sound data 250, and the generated substitute sound data 251 is not stored.

この第4実施形態では、音声生成部65により生成された(すなわち、合成音声データ450の生成に利用された)代替音声データ250が案内サーバ50の格納部55に格納される。そして、格納部55に格納されている代替音声データ250を用いて合成音声データ450が生成される。   In the fourth embodiment, the alternative voice data 250 generated by the voice generation unit 65 (that is, used for generating the synthesized voice data 450) is stored in the storage unit 55 of the guidance server 50. Then, synthesized voice data 450 is generated using the substitute voice data 250 stored in the storage unit 55.

第4実施形態では、ユーザ101により発せられたユーザ音声データ400のうち、部分音声データ431とは異なる部分音声データ432(後述)を案内サーバ50が受信した状況を想定する。格納部55に予め格納された代替音声データ250に対応する秘匿ワード110が当該部分音声データ432内に含まれる場合には、音声生成部65は、当該格納された代替音声データ250を用いて合成音声データ452を生成する。   In the fourth embodiment, it is assumed that the guidance server 50 receives partial voice data 432 (described later) different from the partial voice data 431 among the user voice data 400 emitted by the user 101. When the secret word 110 corresponding to the alternative voice data 250 stored in advance in the storage unit 55 is included in the partial voice data 432, the voice generation unit 65 synthesizes using the stored alternative voice data 250. Audio data 452 is generated.

ここにおいて、部分音声データ432は、ユーザ音声データ400のうち、部分音声データ431の次に音声認識部64が抽出した部分の音声データである。   Here, the partial voice data 432 is voice data of a part extracted by the voice recognition unit 64 next to the partial voice data 431 in the user voice data 400.

図21は、第4実施形態に係る案内サーバ50の音声処理に関する動作を示すフローチャートである。   FIG. 21 is a flowchart showing an operation related to voice processing of the guidance server 50 according to the fourth embodiment.

案内サーバ50はユーザ音声データ400を受信し(ステップS21)、ステップS21〜S23の処理を実行することにより音声認識部64は部分音声データ430を抽出する。その後、音声認識部64は、当該部分音声データ430に対する音声認識処理によって、部分音声データ430に秘匿ワード110が含まれるか否かを判定する(ステップS24)。そして、部分音声データ430内に秘匿ワード110が含まれる旨が判定される場合には、音声生成部65は、当該秘匿ワード110に対応する代替音声データ250が格納部55に格納されているか否かを判定する(ステップS62)。   The guidance server 50 receives the user voice data 400 (step S21), and the voice recognition unit 64 extracts the partial voice data 430 by executing the processes of steps S21 to S23. Thereafter, the voice recognition unit 64 determines whether or not the secret word 110 is included in the partial voice data 430 by voice recognition processing on the partial voice data 430 (step S24). When it is determined that the secret word 110 is included in the partial voice data 430, the voice generation unit 65 determines whether the alternative voice data 250 corresponding to the secret word 110 is stored in the storage unit 55. Is determined (step S62).

秘匿ワード110に対応する代替音声データ250が格納部55に格納されていないことが判定される場合には、音声生成部65は、秘匿ワード110に対応する代替音声データ250を生成し(ステップS25)、生成した代替音声データ250を格納部55に格納する(ステップS64)。そして、音声生成部65は、部分音声データ430内の秘匿音声データ150を、生成した代替音声データ250に置き換えた合成音声データ450を生成する(ステップS26)。当該合成音声データ450はサポータ端末70に送信される(ステップS27)。   When it is determined that the alternative voice data 250 corresponding to the secret word 110 is not stored in the storage unit 55, the voice generation unit 65 generates the alternative voice data 250 corresponding to the secret word 110 (step S25). ), And the generated alternative voice data 250 is stored in the storage unit 55 (step S64). Then, the voice generation unit 65 generates synthesized voice data 450 in which the secret voice data 150 in the partial voice data 430 is replaced with the generated alternative voice data 250 (step S26). The synthesized voice data 450 is transmitted to the supporter terminal 70 (step S27).

一方、当該代替音声データ250が格納部55に格納されていることが判定される場合には、音声生成部65は、格納されていた代替音声データ250を格納部55から取得する(ステップS63)。   On the other hand, when it is determined that the alternative voice data 250 is stored in the storage unit 55, the voice generation unit 65 acquires the stored alternative voice data 250 from the storage unit 55 (step S63). .

そして、音声生成部65は、部分音声データ430内の秘匿音声データ150を、取得した代替音声データ250に置き換えた合成音声データ450を生成する(ステップS26)。当該合成音声データ450はサポータ端末70に送信される(ステップS27)。   Then, the voice generation unit 65 generates synthesized voice data 450 in which the secret voice data 150 in the partial voice data 430 is replaced with the acquired alternative voice data 250 (step S26). The synthesized voice data 450 is transmitted to the supporter terminal 70 (step S27).

図22は、第4実施形態における画像データ300および部分音声データ431,432に関するタイミングを示す図である。また、図23は、或る合成音声データ450(451)の生成に利用された代替音声データ250(251)が格納部55へ格納される状況を示す図であり、図24は、別の合成音声データ450(452)の生成の際に、既に格納されている代替音声データ250(251)が用いられる状況を示す図である。   FIG. 22 is a diagram illustrating timings related to the image data 300 and the partial audio data 431 and 432 according to the fourth embodiment. FIG. 23 is a diagram showing a situation in which the substitute voice data 250 (251) used for generating a certain synthesized voice data 450 (451) is stored in the storage unit 55, and FIG. It is a figure which shows the condition where the alternative voice data 250 (251) already stored is used in the case of the production | generation of the audio | voice data 450 (452).

図22〜図24をも参照しながら、或る合成音声データ451の生成に際して利用された代替音声データ251が予め格納部55に格納され、格納済みの代替音声データ251を用いて別の合成音声データ452が生成される動作について説明する。   With reference to FIGS. 22 to 24 as well, alternative voice data 251 used in generating a certain synthesized voice data 451 is stored in the storage unit 55 in advance, and another synthesized voice is stored using the stored alternative voice data 251. An operation for generating the data 452 will be described.

まず、案内サーバ50は、ユーザ音声データ400から部分音声データ431を抽出する(ステップS23)。たとえば、図23では、ユーザ101により発せられた音声のうち、「ファイルをスキャンして長谷不動産に送りたいのです。」の部分の音声のデータが部分音声データ431として抽出される状況が示されている。   First, the guidance server 50 extracts partial voice data 431 from the user voice data 400 (step S23). For example, FIG. 23 shows a situation in which voice data of the part “I want to scan a file and send it to Hase Real Estate” among the voices uttered by the user 101 is extracted as the partial voice data 431. ing.

その後、音声認識部64は、部分音声データ431内に秘匿ワード111「長谷不動産」が含まれる旨を判定する(ステップS24)。この時点では、秘匿ワード111に対応する代替音声データ250は、格納部55には格納されていないので、ステップS24からステップS62を経てステップS25に進む。そして、音声生成部65は、秘匿ワード111「長谷不動産」に対応する代替ワード211「ABC」の代替音声データ251を生成し(ステップS25)、生成した代替音声データ251(「ABC」)を案内サーバ50の格納部55に格納する(ステップS64)。   Thereafter, the voice recognition unit 64 determines that the secret word 111 “Hase Real Estate” is included in the partial voice data 431 (step S24). At this time, since the alternative voice data 250 corresponding to the secret word 111 is not stored in the storage unit 55, the process proceeds from step S24 to step S62 to step S25. Then, the voice generation unit 65 generates the alternative voice data 251 of the alternative word 211 “ABC” corresponding to the secret word 111 “Hase Real Estate” (step S25), and guides the generated alternative voice data 251 (“ABC”). The data is stored in the storage unit 55 of the server 50 (step S64).

そして、音声生成部65は、生成した代替音声データ251(「ABC」)を用いて合成音声データ451を生成し(ステップS26)、案内サーバ50は当該合成音声データ451をサポータ端末70に送信する(ステップS27)。サポータ端末70は、受信した合成音声データ451に基づく音声(「ファイルをスキャンしてABCに送りたいのです。」)を出力する。   Then, the voice generation unit 65 generates synthesized voice data 451 using the generated alternative voice data 251 (“ABC”) (step S26), and the guidance server 50 transmits the synthesized voice data 451 to the supporter terminal 70. (Step S27). The supporter terminal 70 outputs a voice based on the received synthesized voice data 451 (“I want to scan a file and send it to ABC”).

その後、案内サーバ50は、ユーザ音声データ400から、別の部分の音声データである部分音声データ432を抽出する(ステップS23)。たとえば、図24では、ユーザ101により発せられた音声のうち、「長谷不動産をタッチしましたが、次はどうすれば良いですか?」の部分の音声のデータが新たな部分音声データ432として抽出される状況が示されている。   Thereafter, the guidance server 50 extracts partial voice data 432, which is voice data of another part, from the user voice data 400 (step S23). For example, in FIG. 24, the voice data of the portion “Hase Real Estate has been touched, what should I do next?” In the voice uttered by the user 101 is extracted as new partial voice data 432. The status is shown.

音声認識部64は、部分音声データ432に秘匿ワード110(秘匿ワード111「長谷不動産」)が含まれている旨を判定し、当該秘匿ワード110(111)に対応する代替ワード211「ABC」を求める。また、当該代替ワード211「ABC」に対応する代替音声データ251(「ABC」)が格納部55に既に格納されているか否かが判定される。この時点では、当該代替音声データ251(「ABC」)が格納部55に既に格納されている旨が判定される。換言すれば、既に格納部55に格納されている代替音声データ251(「ABC」)に対応する秘匿ワード110(「長谷不動産」)が部分音声データ432内に含まれている旨が判定される。   The voice recognition unit 64 determines that the secret word 110 (the secret word 111 “Hase Real Estate”) is included in the partial voice data 432, and determines the alternative word 211 “ABC” corresponding to the secret word 110 (111). Ask. Further, it is determined whether or not the alternative voice data 251 (“ABC”) corresponding to the alternative word 211 “ABC” is already stored in the storage unit 55. At this time, it is determined that the alternative voice data 251 (“ABC”) is already stored in the storage unit 55. In other words, it is determined that the secret voice 110 (“Hase Real Estate”) corresponding to the alternative voice data 251 (“ABC”) already stored in the storage unit 55 is included in the partial voice data 432. .

そして、音声生成部65は、当該格納された代替音声データ251を格納部55から取得する(ステップS63)。ここでは、秘匿ワード111「長谷不動産」に対応する代替ワード211「ABC」の代替音声データ251が格納部55から取得される。音声生成部65は、格納部55から取得された当該代替音声データ251を用いて合成音声データ452を生成する(ステップS26)。その後、案内サーバ50は、生成された合成音声データ452をサポータ端末70に送信し(ステップS27)、サポータ端末70は、受信した合成音声データ452に基づく音声(「ABCをタッチしましたが、次はどうすれば良いですか?」)を出力する。   Then, the voice generation unit 65 acquires the stored alternative voice data 251 from the storage unit 55 (step S63). Here, the alternative voice data 251 of the alternative word 211 “ABC” corresponding to the secret word 111 “Hase Real Estate” is acquired from the storage unit 55. The voice generation unit 65 generates synthesized voice data 452 using the alternative voice data 251 acquired from the storage unit 55 (step S26). Thereafter, the guidance server 50 transmits the generated synthesized voice data 452 to the supporter terminal 70 (step S27), and the supporter terminal 70 touches the voice based on the received synthesized voice data 452 (“ABC is touched, "What should I do?") Is output.

以上のような動作によれば、或る合成音声データ451の生成に際して利用された代替音声データ251が予め格納されて、次の合成音声データ452の生成の際に利用される。そのため、当該代替音声データ251の生成を再び行わずに済む。したがって、合成音声データ452の生成に要する時間が短縮されるので、サポータ端末70への合成音声データ452の送信の遅延を抑制することが可能である。   According to the operation as described above, the alternative voice data 251 used when generating a certain synthesized voice data 451 is stored in advance and used when the next synthesized voice data 452 is generated. Therefore, it is not necessary to generate the alternative audio data 251 again. Therefore, since the time required for generating the synthesized speech data 452 is shortened, it is possible to suppress a delay in transmitting the synthesized speech data 452 to the supporter terminal 70.

<第5実施形態>
第5実施形態は、第1実施形態の変形例である。以下では、第1実施形態との相違点を中心に説明する。
<Fifth Embodiment>
The fifth embodiment is a modification of the first embodiment. Below, it demonstrates centering on difference with 1st Embodiment.

第1実施形態では、スキャンモードにおいて、画像データ300(301)に含まれる送信宛先が秘匿ワード110として決定される態様が例示されている。より詳細には、MFP10から受信した秘匿ワードリスト601において、画像データ300に基づく画像に含まれる送信宛先が秘匿ワード110として登録されている。そのような登録内容に基づいて秘匿ワードが決定される。   The first embodiment exemplifies a mode in which the transmission destination included in the image data 300 (301) is determined as the secret word 110 in the scan mode. More specifically, in the secret word list 601 received from the MFP 10, the transmission destination included in the image based on the image data 300 is registered as the secret word 110. A secret word is determined based on such registered contents.

第5実施形態では、ボックスモードにおいて、MFP10のボックスに格納されたファイル550のファイル名、作成者、日付、およびファイル本文の見出しを示す語句(ワード)が秘匿ワード110として決定される態様を例示する。この第5実施形態では、MFP10のボックスに格納されたファイル550に関する情報の表示画面を見ながら操作案内が行われる。以下、第5実施形態における画像処理および音声処理に関して順次に説明する。   The fifth embodiment exemplifies a mode in which the word (word) indicating the file name, creator, date, and heading of the file body of the file 550 stored in the box of the MFP 10 is determined as the secret word 110 in the box mode. To do. In the fifth embodiment, operation guidance is performed while viewing the display screen of information relating to the file 550 stored in the box of the MFP 10. Hereinafter, image processing and sound processing in the fifth embodiment will be described in order.

まず、ユーザ101からのサポート依頼信号の受信に際して、案内サーバ50は、秘匿ワードリスト603をもMFP10から受信する(図27参照)。ここでは、秘匿ワード110として、MFP10のボックスに格納されたファイル550のファイル名(「パテント」等)、作成者(「山田太郎」等)、日付(「2013/03/11」等)、およびファイル本文の見出し(「画像形成装置」および「発明概要」等)を示す各語句(ワード)が秘匿ワードリスト603に登録されている。そして、案内サーバ50は、当該秘匿ワードリスト603に基づいて、変換辞書653を生成する。   First, when receiving a support request signal from the user 101, the guidance server 50 also receives the secret word list 603 from the MFP 10 (see FIG. 27). Here, as the secret word 110, the file name (such as “patent”) of the file 550 stored in the box of the MFP 10, the creator (such as “Taro Yamada”), the date (such as “2013/03/11”), and the like Each word (word) indicating the heading (“image forming apparatus”, “invention summary”, etc.) of the file text is registered in the secret word list 603. Then, the guide server 50 generates a conversion dictionary 653 based on the secret word list 603.

図25および図26を参照して第5実施形態における画像処理に関して説明する。   Image processing in the fifth embodiment will be described with reference to FIGS.

ここでは、図25に示すように、ファイル550に関する情報表示画面である画像データ303(300)がMFP10のタッチパネル25に表示されているものとする。当該画像データ303を案内サーバ50が受信すると、変換辞書653に基づく画像処理によって、合成画像データ353(350)が生成される。そして、サポータ端末70の表示部76bにおいて合成画像データ353が表示される。   Here, as shown in FIG. 25, it is assumed that image data 303 (300), which is an information display screen related to file 550, is displayed on touch panel 25 of MFP 10. When the guide server 50 receives the image data 303, composite image data 353 (350) is generated by image processing based on the conversion dictionary 653. Then, the composite image data 353 is displayed on the display unit 76b of the supporter terminal 70.

具体的には、MFP10のタッチパネル25においては、3つのアイコン500(501〜503)を有する画像データ303が表示されている。これらの各アイコン500(501〜503)の下方には、それぞれ対応するファイル550(551〜553)のファイル名「パテント1」〜「パテント3」が表示されている。そして、画像データ303を案内サーバ50が受信すると、変換辞書653に基づく画像処理によって、合成画像データ353が生成され、合成画像データ353はサポータ端末70に送信される。そして、サポータ端末70の表示部76bに合成画像データ353が表示される。合成画像データ353においては、各ファイル551〜553のファイル名「XYZ1」〜「XYZ3」(代替ワードを用いて表現されたファイル名)が、対応するアイコン501〜503の下方に表示されている。   Specifically, the touch panel 25 of the MFP 10 displays image data 303 having three icons 500 (501 to 503). Below these icons 500 (501 to 503), file names “Patent 1” to “Patent 3” of the corresponding files 550 (551 to 553) are displayed. When the guide server 50 receives the image data 303, the composite image data 353 is generated by image processing based on the conversion dictionary 653, and the composite image data 353 is transmitted to the supporter terminal 70. Then, the composite image data 353 is displayed on the display unit 76b of the supporter terminal 70. In the composite image data 353, the file names “XYZ1” to “XYZ3” (file names expressed using alternative words) of the files 551 to 553 are displayed below the corresponding icons 501 to 503.

つぎに、ファイル551「パテント1」に対応するアイコン501がユーザ101により押下される状況を想定する。ファイル551に対応するアイコン501がユーザ101により押下されると、画像データ304に基づく画像がMFP10のタッチパネル25に表示される(図26左側参照)。そして、画像データ304はMFP10から案内サーバ50に送信される。   Next, it is assumed that the user 101 presses the icon 501 corresponding to the file 551 “Patent 1”. When the icon 501 corresponding to the file 551 is pressed by the user 101, an image based on the image data 304 is displayed on the touch panel 25 of the MFP 10 (see the left side of FIG. 26). Then, the image data 304 is transmitted from the MFP 10 to the guidance server 50.

案内サーバ50は、画像データ304を受信すると、変換辞書653(図27参照)に基づいて、画像データ304内に秘匿ワード110が含まれるか否かを判定する。   When receiving the image data 304, the guidance server 50 determines whether or not the secret word 110 is included in the image data 304 based on the conversion dictionary 653 (see FIG. 27).

画像データ304内に秘匿ワード110が含まれる旨が判定される場合には、画像生成部61は、当該秘匿ワード110を代替ワード210に置き換えた合成画像データ354を生成する。   When it is determined that the secret word 110 is included in the image data 304, the image generation unit 61 generates composite image data 354 in which the secret word 110 is replaced with the alternative word 210.

具体的には、画像データ304には、ファイル551のファイル名(「パテント1」)、作成者(「山田太郎」)、日付(「2013/03/11」)の秘匿ワード110、ならびにファイル551の本文の見出し(「画像形成装置」および「発明概要」)の秘匿ワード110が含まれる旨が判定される。画像生成部61は、当該秘匿ワード110をそれぞれ対応する代替ワード210に置き換えた合成画像データ354(図26右側参照)を生成する。たとえば、画像データ304内の秘匿ワード111(110)である「パテント」は、合成画像データ354の生成に際して、代替ワード211(210)である「abcd」に置き換えられる。   Specifically, the image data 304 includes the file name (“patent 1”) of the file 551, the creator (“Taro Yamada”), the secret word 110 of the date (“2013/03/11”), and the file 551. It is determined that the secret word 110 of the headline (“image forming apparatus” and “invention summary”) is included. The image generation unit 61 generates composite image data 354 (see the right side of FIG. 26) in which the secret word 110 is replaced with the corresponding alternative word 210. For example, “patent” that is the secret word 111 (110) in the image data 304 is replaced with “abcd” that is the alternative word 211 (210) when the composite image data 354 is generated.

そして、案内サーバ50は、生成した合成画像データ354をサポータ端末70に送信し、サポータ端末70は、表示部76bに合成画像データ354を表示する。   Then, the guidance server 50 transmits the generated composite image data 354 to the supporter terminal 70, and the supporter terminal 70 displays the composite image data 354 on the display unit 76b.

この実施形態では、上述のように、画像データ300に含まれるファイル550のファイル名、作成者、日付およびファイル550の本文の見出しが秘匿ワード110として決定される。一方、ファイル550の本文に含まれる語句(ワード)のうち当該見出し以外のワードは、秘匿ワード110として決定されない。   In this embodiment, as described above, the file name, creator, date, and heading of the text of the file 550 included in the image data 300 are determined as the secret word 110. On the other hand, words other than the heading among words (words) included in the text of the file 550 are not determined as the secret word 110.

ただし、当該見出し以外のワードを秘匿ワード110として決定せず、そのままサポータ端末70において表示される場合には、ファイル550の本文に含まれる語句(ワード)から漏洩する恐れがある。このような問題を回避するため、画像生成部61は、当該見出し以外の部分を判読回避画像(当該部分を判読することが不可能な画像)に変換する。   However, when a word other than the heading is not determined as the secret word 110 and is displayed as it is on the supporter terminal 70, there is a risk of leakage from a word (word) included in the text of the file 550. In order to avoid such a problem, the image generation unit 61 converts a part other than the heading into a reading avoidance image (an image in which the part cannot be read).

また、ファイル550の本文には非常に多数のワードが含まれている可能性が高く、これらのワードの全てに対して個別の変換処理(各ワードを個別の代替ワードに変換する処理)を伴う画像処理を行うことは効率的とは言えない。   In addition, there is a high possibility that the body of the file 550 contains a very large number of words, and individual conversion processing (processing for converting each word into an individual alternative word) is performed on all of these words. Performing image processing is not efficient.

当該多数のワードに対する秘匿化を効率的に行うため、この判読回避画像は、個別の変換処理(各ワードを個別の代替ワードに変換する処理)を伴わない画像処理によって生成される画像であることが好ましい。判読回避画像は、たとえば、ファイル本文の表示領域のうち当該本文の見出し以外の全領域に亘って一律に行われる定型的な画像処理によって生成されればよい。   In order to efficiently conceal the large number of words, the interpretation avoidance image is an image generated by image processing that does not involve individual conversion processing (processing for converting each word into individual substitute words). Is preferred. The interpretation avoidance image may be generated by, for example, standard image processing performed uniformly over the entire area other than the heading of the text in the display area of the file text.

具体的には、ファイル551の本文に含まれるワードのうち、当該見出し以外の部分の画像を、その内容を判読することが不可能である「DUMMY」の文字を羅列させた判読回避画像に変換する(図26参照)。なお、本実施形態では、判読回避画像として「DUMMY」の文字を繰り返し表示する画像を用いているが、これに限定されず、たとえば、「***(アスタリスク)」などの他の文字を繰り返し表示する画像などであってもよい。また、判読回避画像として、空白画像を用いるようにしてもよい(換言すれば、当該見出し以外の部分の画像を削除するようにしてもよい)。   Specifically, among the words included in the body of the file 551, the image of the portion other than the heading is converted into an interpretation avoidance image in which the characters “DUMMY” that cannot be interpreted are enumerated. (See FIG. 26). In this embodiment, an image that repeatedly displays the characters “DUMMY” is used as the interpretation avoidance image. However, the present invention is not limited to this, and other characters such as “*** (asterisk)” are repeated. It may be an image to be displayed. Further, a blank image may be used as the interpretation avoidance image (in other words, an image of a portion other than the heading may be deleted).

つぎに、第5実施形態における音声処理に関して説明する。   Next, sound processing in the fifth embodiment will be described.

案内サーバ50がユーザ音声データ400を受信すると、音声認識部64は、当該ユーザ音声データ400に秘匿ワード110が含まれるか否かを判定する。   When the guidance server 50 receives the user voice data 400, the voice recognition unit 64 determines whether or not the secret voice 110 is included in the user voice data 400.

ここにおいて、秘匿ワード110は、上述のように、ファイル550のファイル名、作成者、日付、およびファイル本文の見出しを示す語句(ワード)である(図27参照)。   Here, the secret word 110 is a word (word) indicating the file name, creator, date, and heading of the file text of the file 550 as described above (see FIG. 27).

ユーザ音声データ400内に秘匿ワード110が含まれる旨が判定される場合には、音声生成部65は、当該秘匿ワード110に対応する代替ワード210の代替音声データ250を生成し、当該代替音声データ250を用いて合成音声データ450を生成する。   When it is determined that the secret word 110 is included in the user voice data 400, the voice generation unit 65 generates the substitute voice data 250 of the substitute word 210 corresponding to the secret word 110, and the substitute voice data 250 is used to generate synthesized speech data 450.

案内サーバ50は当該合成音声データ450をサポータ端末70に送信し、サポータ端末70において当該合成音声データ450が出力される。   The guidance server 50 transmits the synthesized voice data 450 to the supporter terminal 70, and the synthesized voice data 450 is output from the supporter terminal 70.

たとえば、ユーザ101が画像データ304を見ながら発したユーザ音声データ400に秘匿ワード112(110)「山田太郎」が含まれていることが判定される場合には、秘匿ワード112「山田太郎」に対応する代替ワード212「abcd」(図27参照)の代替音声データ250が生成される。その後、生成した代替音声データ250を用いて合成音声データ450が生成され、合成音声データ450がサポータ端末に送信される。合成音声データ450を受信したサポータ端末70は、当該合成音声データ450に基づく音声を出力する。   For example, when it is determined that the confidential voice word 112 (110) “Taro Yamada” is included in the user voice data 400 issued while the user 101 looks at the image data 304, the confidential word 112 “Taro Yamada” Alternative voice data 250 of the corresponding alternative word 212 “abcd” (see FIG. 27) is generated. Thereafter, synthesized voice data 450 is generated using the generated alternative voice data 250, and the synthesized voice data 450 is transmitted to the supporter terminal. The supporter terminal 70 that has received the synthesized voice data 450 outputs a voice based on the synthesized voice data 450.

以上のような動作によれば、ファイル550のファイル名、作成者、日付を示す語句が秘匿ワード110として決定されて、当該秘匿ワード110に対する画像処理(画像変換処理等)および音声処理(音声変換処理等)が行われる。したがって、MFP10のボックスモードにおける表示画面内に含まれる秘匿ワード(機密情報)の漏洩を回避することが可能である。詳細には、ファイル550のファイル名、作成者、日付を示す語句に関しては、視覚を通じて機密情報が漏洩することを防止することが可能であるとともに、聴覚を通じて機密情報が漏洩することをも防止することが可能である。   According to the operation as described above, the phrase indicating the file name, creator, and date of the file 550 is determined as the secret word 110, and image processing (image conversion processing, etc.) and voice processing (voice conversion) for the secret word 110 are performed. Processing). Accordingly, it is possible to avoid leakage of a secret word (confidential information) included in the display screen in the box mode of the MFP 10. Specifically, regarding the words and phrases that indicate the file name, creator, and date of the file 550, it is possible to prevent confidential information from being leaked through vision and to prevent leakage of confidential information through hearing. It is possible.

同様に、ファイル550の本文の見出しも秘匿ワード110として決定されるので、見出しに関して、聴覚および/または視覚を通じて機密情報が漏洩することを防止することが可能である。   Similarly, since the headline of the text of the file 550 is also determined as the secret word 110, it is possible to prevent confidential information from leaking through hearing and / or vision.

また、ファイル550の本文の見出し以外の部分に関しては、当該部分が判読回避画像に変換されるので、少なくとも視覚を通じて機密情報が漏洩することを防止することが可能である。   Further, regarding the part other than the heading of the text of the file 550, the part is converted into the interpretation avoidance image, so that it is possible to prevent leakage of confidential information at least visually.

また、仮に、ファイル550の本文の見出し以外の部分に関しても変換処理(音声変換処理および/または画像変換処理)を行うときには、非常に多数のワードに関する当該変換処理に多大な時間を要する。一方、上記態様では、当該見出し以外の部分の音声に関する変換処理(音声変換処理)が行われないので、音声変換処理に要する時間を抑制することが可能である。また、画像に関しても、当該見出し以外の部分は、秘匿ワード110と判定されず、代替ワード210への画像変換処理が行われないので、画像変換処理に要する時間を抑制することが可能である。   In addition, if the conversion process (speech conversion process and / or image conversion process) is performed on a part other than the heading of the body of the file 550, the conversion process for a very large number of words takes a lot of time. On the other hand, in the above aspect, since the conversion process (speech conversion process) related to the voice other than the heading is not performed, the time required for the voice conversion process can be suppressed. Also for the image, the portion other than the heading is not determined as the secret word 110, and the image conversion process to the alternative word 210 is not performed, so that the time required for the image conversion process can be suppressed.

<変形例等>
以上、この発明の実施の形態について説明したが、この発明は上記説明した内容のものに限定されるものではない。
<Modifications>
Although the embodiments of the present invention have been described above, the present invention is not limited to the contents described above.

上記各実施形態においては、MFP10からサポータ端末70への音声伝達処理について例示したが、これに限定されない。たとえば、サポータ端末70からMFP10への音声伝達処理も同様にして実施される。図28のフローチャートを参照して、サポータ端末70からMFP10への音声伝達処理について説明する。   In each of the above embodiments, the voice transmission process from the MFP 10 to the supporter terminal 70 has been exemplified, but the present invention is not limited to this. For example, the voice transmission process from the supporter terminal 70 to the MFP 10 is performed in the same manner. With reference to the flowchart of FIG. 28, the audio | voice transmission process from the supporter terminal 70 to MFP10 is demonstrated.

サポータ102により発せられたサポータ音声データ410はサポータ端末70により案内サーバ50へと送信される。案内サーバ50がサポータ音声データ410を受信すると(ステップS70)、音声認識部64は、サポータ音声データ410に非無音部分が存在するか否かを判定する(ステップS71)。その後、音声認識部64は、サポータ音声データ410に所定時間以上の無音部分が存在するか否かを判定する(ステップS72)。   The supporter voice data 410 issued by the supporter 102 is transmitted to the guidance server 50 by the supporter terminal 70. When the guidance server 50 receives the supporter voice data 410 (step S70), the voice recognition unit 64 determines whether or not a non-silent part exists in the supporter voice data 410 (step S71). After that, the voice recognition unit 64 determines whether or not the supporter voice data 410 includes a silent part for a predetermined time or longer (step S72).

サポータ音声データ410に所定時間以上の無音部分が存在する旨が判定される場合に、音声認識部64は、サポータ音声データ410の一部である部分音声データ440を抽出する(ステップS73)。   When it is determined that there is a silent part for a predetermined time or longer in the supporter voice data 410, the voice recognition unit 64 extracts the partial voice data 440 that is a part of the supporter voice data 410 (step S73).

そして、音声生成部65は、部分音声データ440に対する音声認識処理によって、サポータ音声データ410内に、秘匿ワードリスト601(図9参照)に含まれる秘匿ワード110のいずれかに対応する代替ワード210が含まれるか否かを判定する(ステップS74)。   Then, the voice generation unit 65 performs a voice recognition process on the partial voice data 440 to generate an alternative word 210 corresponding to one of the secret words 110 included in the secret word list 601 (see FIG. 9) in the supporter voice data 410. It is determined whether it is included (step S74).

部分音声データ440に当該代替ワード210が含まれる旨が判定される場合に、音声生成部65は、代替ワード210に対応する秘匿ワード110の秘匿音声データ161を生成する(ステップS75)。   When it is determined that the alternative word 210 is included in the partial voice data 440, the voice generation unit 65 generates the secret voice data 161 of the secret word 110 corresponding to the substitute word 210 (step S75).

そして、音声生成部65は、部分音声データ440に含まれる代替ワード210の音声データである代替音声データ261を当該秘匿音声データ161に置き換えた合成音声データ460(合成サポータ音声データ460)を生成する(ステップS76)。   Then, the voice generation unit 65 generates synthesized voice data 460 (synthesized supporter voice data 460) in which the substitute voice data 261 that is the voice data of the substitute word 210 included in the partial voice data 440 is replaced with the secret voice data 161. (Step S76).

その後、案内サーバ50は合成音声データ460をMFP10に送信し(ステップS77)、MFP10において、当該合成音声データ460が出力される。   Thereafter, the guidance server 50 transmits the synthesized voice data 460 to the MFP 10 (step S77), and the synthesized voice data 460 is output in the MFP 10.

図29は、サポータ端末70からMFP10への音声伝達処理の一例を示す図である。図29を参照して具体的に説明する。   FIG. 29 is a diagram illustrating an example of a voice transmission process from the supporter terminal 70 to the MFP 10. This will be specifically described with reference to FIG.

図29では、図7の音声伝達処理に引き続いてサポータ102が、「ABCをタッチしてください。」との音声を発した状況を想定する。   In FIG. 29, it is assumed that the supporter 102 utters a voice “Please touch ABC” following the voice transmission process of FIG. 7.

音声認識部64は、まず、「ABCをタッチしてください。」との音声を含む音声データを部分音声データ441として認識する。また、音声認識部64は、当該部分音声データ441(440)内に、変換辞書651(図9参照)に登録されている複数の秘匿ワード110(111〜113)のいずれかに対応する代替ワード210(211〜213)が含まれるか否かを判定する。具体的には、部分音声データ441の「ABCをタッチしてください。」には、秘匿ワード111「長谷不動産」に対応する代替ワード211「ABC」が含まれる旨が判定される。   First, the voice recognition unit 64 recognizes voice data including a voice “Please touch ABC” as partial voice data 441. In addition, the voice recognition unit 64 includes an alternative word corresponding to one of the plurality of secret words 110 (111 to 113) registered in the conversion dictionary 651 (see FIG. 9) in the partial voice data 441 (440). Whether 210 (211 to 213) is included is determined. Specifically, it is determined that the alternative word 211 “ABC” corresponding to the secret word 111 “Hase Real Estate” is included in “Please touch ABC” in the partial audio data 441.

そして、音声生成部65は、代替ワード211「ABC」に対応する秘匿ワード111「長谷不動産」の秘匿音声データ161(160)を生成する。なお、秘匿音声データ161(160)は、人間の声を模して人工的に生成された音声データ(機械音声データ)である。   Then, the voice generation unit 65 generates the secret voice data 161 (160) of the secret word 111 “Hase Real Estate” corresponding to the alternative word 211 “ABC”. The secret voice data 161 (160) is voice data (mechanical voice data) artificially generated by imitating a human voice.

その後、部分音声データ441に含まれる代替ワード211「ABC」の代替音声データ261を当該秘匿音声データ161(「長谷不動産」)に置き換えた合成音声データ461(460)を生成する。そして、案内サーバ50は、当該合成音声データ461をMFP10に送信する。   Thereafter, synthesized voice data 461 (460) is generated by replacing the substitute voice data 261 of the substitute word 211 “ABC” included in the partial voice data 441 with the secret voice data 161 (“Hase Real Estate”). Then, the guidance server 50 transmits the synthesized voice data 461 to the MFP 10.

合成音声データ461を受信したMFP10は、当該合成音声データ461を出力する。具体的には、MFP10において、合成音声データ461に基づく音声である「長谷不動産をタッチしてください。」が出力される。   The MFP 10 that has received the synthesized voice data 461 outputs the synthesized voice data 461. Specifically, the MFP 10 outputs “Please touch Hase Real Estate.” Which is a voice based on the synthesized voice data 461.

ここにおいて、ユーザ101は代替ワード210の内容を知らず、サポータ102は秘匿ワード110の内容を知らない。   Here, the user 101 does not know the content of the alternative word 210, and the supporter 102 does not know the content of the secret word 110.

このため、仮に、サポータ102により発せられたサポータ音声データ410がそのままMFP10に対して送信されると、ユーザ101の知らない代替ワード210がユーザ101に伝達されるので、ユーザ101に混乱が生じる恐れがある。   For this reason, if the supporter voice data 410 generated by the supporter 102 is transmitted to the MFP 10 as it is, the alternative word 210 that the user 101 does not know is transmitted to the user 101, which may cause confusion to the user 101. There is.

一方、上記態様によれば、サポータ102により発せられたサポータ音声データ410に含まれる代替ワード210が秘匿音声データ160に置き換えられて合成音声データ460が生成され、当該合成音声データ460がユーザ101に送信されるので、ユーザ101の混乱を回避することが可能である。   On the other hand, according to the aspect described above, the substitute word 210 included in the supporter voice data 410 issued by the supporter 102 is replaced with the secret voice data 160 to generate the synthesized voice data 460, and the synthesized voice data 460 is transmitted to the user 101. Since it is transmitted, confusion of the user 101 can be avoided.

また、特定の秘匿ワード110(111)の秘匿音声データ160(人工音声)がサポータ音声データ410(サポータ音声)に含まれている(人工音声がサポータ音声に含まれている)ので、サポータ音声データ410のうち特定の秘匿ワード110(111)に対応する音声部分に対して何らかの処理が施されていることをユーザ101は知得できる。ユーザ101が幾つかの秘匿ワードに関する変換処理が施されていることを知っている場合において、特定の秘匿ワード110(たとえば111)に対して何らかの変換処理が施されていることをも知得したユーザ101は、当該特定の秘匿ワード110(111)がサポータ102に伝わっていないことを確認(推測)できる。換言すれば、特定の秘匿ワードに関する機密情報が漏洩していないことを確認できる。   Further, since the secret voice data 160 (artificial voice) of the specific secret word 110 (111) is included in the supporter voice data 410 (supporter voice) (the artificial voice is included in the supporter voice), the supporter voice data The user 101 can know that some processing has been performed on the voice portion corresponding to the specific secret word 110 (111) out of 410. In the case where the user 101 knows that conversion processing related to some secret words has been performed, the user 101 has also learned that some conversion processing has been performed on a specific secret word 110 (for example, 111). The user 101 can confirm (guess) that the specific secret word 110 (111) is not transmitted to the supporter 102. In other words, it can be confirmed that confidential information regarding a specific secret word is not leaked.

また、上記態様においては、サポータ102側からユーザ101側への音声伝達において、秘匿音声データ161(サポータ音声データ410に含まれていた代替ワード210に対応する秘匿ワード110の音声データ)が逐一生成され、当該秘匿音声データ161(機械音声)を用いてサポータ音声に対する変換処理(代替ワード210を秘匿ワード110に変換(逆変換)する処理)が行われている。   Further, in the above aspect, the secret voice data 161 (the voice data of the secret word 110 corresponding to the alternative word 210 included in the supporter voice data 410) is generated one by one in the voice transmission from the supporter 102 side to the user 101 side. Then, conversion processing for the supporter speech (processing for converting the alternative word 210 to the secret word 110 (inverse conversion)) is performed using the confidential speech data 161 (machine speech).

しかしながら、本発明はこれに限定されない。たとえば、まずユーザ101側からサポータ102側への音声伝達においてユーザ101の音声データ(秘匿音声データ151)を格納部55に予め格納しておき(図30参照)、次にサポータ102側からユーザ101側への音声伝達がなされた場合に、当該格納部55に既に格納されている秘匿音声データ151を用いて、サポータ音声に対する変換処理が行われる(図31参照)ようにしてもよい。   However, the present invention is not limited to this. For example, the voice data of the user 101 (secret voice data 151) is first stored in the storage unit 55 in advance in voice transmission from the user 101 side to the supporter 102 side (see FIG. 30), and then the user 101 from the supporter 102 side. When the voice transmission to the side is performed, the conversion process for the supporter voice may be performed using the secret voice data 151 already stored in the storage unit 55 (see FIG. 31).

図30および図31を参照して具体的に説明する。図30は、ユーザ101からサポータ102への音声伝達処理を示す図である。図31は、サポータ102からユーザ101への音声伝達処理がなされる状況を示す図である。   This will be specifically described with reference to FIGS. 30 and 31. FIG. FIG. 30 is a diagram illustrating a voice transmission process from the user 101 to the supporter 102. FIG. 31 is a diagram illustrating a situation in which voice transmission processing from the supporter 102 to the user 101 is performed.

図30では、ユーザ101が「ファイルをスキャンして長谷不動産に送りたいのです。」との音声を発した状況が想定されている。   In FIG. 30, it is assumed that the user 101 has issued a voice saying “I want to scan a file and send it to Hase Real Estate”.

ユーザ音声データ400を受信した案内サーバ50は、ユーザ音声データ400から部分音声データ431(430)を抽出する。そして、変換辞書651(図9参照)に基づいて、部分音声データ431内に秘匿ワード110が含まれるか否かを判定する。   The guidance server 50 that has received the user voice data 400 extracts partial voice data 431 (430) from the user voice data 400. Then, based on the conversion dictionary 651 (see FIG. 9), it is determined whether or not the secret word 110 is included in the partial voice data 431.

具体的には、部分音声データ431「ファイルをスキャンして長谷不動産に送りたいのです。」には、秘匿ワード111「長谷不動産」が含まれる旨が音声認識部64によって判定される。   Specifically, the voice recognition unit 64 determines that the partial voice data 431 “I want to scan a file and send it to Hase Real Estate” includes the secret word 111 “Hase Real Estate”.

そして、音声生成部65は、ユーザ101により発せられた秘匿ワード111「長谷不動産」の秘匿音声データ151を抽出し、案内サーバ50の格納部55に格納する。   Then, the voice generation unit 65 extracts the secret voice data 151 of the secret word 111 “Hase Real Estate” issued by the user 101 and stores it in the storage unit 55 of the guidance server 50.

その後、音声生成部65は、秘匿ワード111「長谷不動産」に対応する代替ワード211「ABC」の代替音声データ251を用いて、合成音声データ451を生成する。生成された合成音声データ451はサポータ端末70に送信され、サポータ端末70において出力される。   Thereafter, the voice generation unit 65 generates the synthesized voice data 451 by using the alternative voice data 251 of the alternative word 211 “ABC” corresponding to the secret word 111 “Hase Real Estate”. The generated synthesized voice data 451 is transmitted to the supporter terminal 70 and output from the supporter terminal 70.

このように、この態様では、合成音声データ450(451)を生成する際に、ユーザ音声データ400(部分音声データ430(431))から出した秘匿音声データ150(151)を格納部に予め格納しておく。   As described above, in this aspect, when the synthesized voice data 450 (451) is generated, the secret voice data 150 (151) output from the user voice data 400 (partial voice data 430 (431)) is stored in the storage unit in advance. Keep it.

つぎに、図31を参照しながら、サポータ端末70からMFP10への音声伝達処理について説明する。図31では、ユーザ101からサポータ102への音声伝達処理の次に、サポータ102が、「ABCをタッチしてください。」との音声を発した状況を想定している。   Next, an audio transmission process from the supporter terminal 70 to the MFP 10 will be described with reference to FIG. In FIG. 31, it is assumed that, after the voice transmission process from the user 101 to the supporter 102, the supporter 102 emits a voice “Please touch ABC”.

サポータ音声データ410を受信した案内サーバ50は、サポータ音声データ410から部分音声データ441(440)を抽出する。そして、変換辞書651(図9参照)に基づいて、部分音声データ441内に格納済みの秘匿音声データ151(150)に対応する代替ワード210が含まれるか否かを判定する。   The guide server 50 that has received the supporter voice data 410 extracts the partial voice data 441 (440) from the supporter voice data 410. Then, based on the conversion dictionary 651 (see FIG. 9), it is determined whether or not the alternative word 210 corresponding to the stored secret voice data 151 (150) is included in the partial voice data 441.

具体的には、格納済みの秘匿音声データ151(より詳細には、ユーザ101により発せられた秘匿ワード111「長谷不動産」の音声データ)に対応する代替ワード211「ABC」が、部分音声データ441に基づく音声「ABCをタッチしてください。」に含まれる旨が、音声認識部64により判定される。   Specifically, the alternative word 211 “ABC” corresponding to the stored secret voice data 151 (more specifically, the voice data of the secret word 111 “Hase Real Estate” issued by the user 101) is the partial voice data 441. The voice recognition unit 64 determines that it is included in the voice “Please touch ABC.”

そして、音声生成部65は、部分音声データ441内の代替ワード211「ABC」に対応する代替音声データ261(260)を、格納済みの秘匿音声データ151(150)に置き換えた合成音声データ461(460)を生成する。この合成音声データ461の生成に際しては、秘匿音声データ161(代替ワード211「ABC」に対応する秘匿ワード111「長谷不動産」の機械音声データ)ではなく、秘匿音声データ151(格納部55に格納されていたユーザ101の録音音声データ)が用いられる。換言すれば、予め格納された秘匿音声データ150が、部分音声データ441内の代替ワード211「ABC」に対応する秘匿音声データとして利用され、合成音声データ461が生成される。   Then, the voice generation unit 65 replaces the substitute voice data 261 (260) corresponding to the substitute word 211 “ABC” in the partial voice data 441 with the stored secret voice data 151 (150), and the synthesized voice data 461 ( 460). When this synthesized voice data 461 is generated, not the secret voice data 161 (the machine voice data of the secret word 111 “Hase Real Estate” corresponding to the alternative word 211 “ABC”) but the secret voice data 151 (stored in the storage unit 55). Recorded voice data of the user 101). In other words, the secret voice data 150 stored in advance is used as the secret voice data corresponding to the alternative word 211 “ABC” in the partial voice data 441, and the synthesized voice data 461 is generated.

その後、案内サーバ50は、合成音声データ461(460)をサポータ端末70に送信し、サポータ端末70において、「長谷不動産をタッチしてください。」の音声が合成音声データ461に基づいて出力される。この合成音声データ461に含まれる音声「長谷不動産」は、ユーザ101の音声を用いて出力され、当該合成音声データ461に含まれる音声「をタッチしてください」は、サポータ102の音声を用いて出力される。   Thereafter, the guidance server 50 transmits the synthesized voice data 461 (460) to the supporter terminal 70, and the voice of “Please touch Hase Real Estate” is output based on the synthesized voice data 461 at the supporter terminal 70. . The voice “Hase Real Estate” included in the synthesized voice data 461 is output using the voice of the user 101, and the voice “Please touch” contained in the synthesized voice data 461 is used using the voice of the supporter 102. Is output.

このような改変例によれば、サポータ102により発せられたサポータ音声データ410(部分音声データ441)に含まれる代替ワード210を、予め格納された秘匿音声データ150に置き換えた合成音声データ460が音声出力用データとしてユーザ101側のMFP10に送信される。したがって、ユーザ101の知らない代替ワード210がユーザ101に伝達されることに起因したユーザ101の混乱を回避することが可能である。   According to such a modified example, the synthesized voice data 460 obtained by replacing the substitute word 210 included in the supporter voice data 410 (partial voice data 441) issued by the supporter 102 with the previously stored secret voice data 150 is voiced. The output data is transmitted to the MFP 10 on the user 101 side. Therefore, it is possible to avoid the confusion of the user 101 due to the substitution word 210 that the user 101 does not know is transmitted to the user 101.

また、ユーザ101により過去に発せられた音声データが秘匿音声データ150として格納部55に格納されており、当該格納部55に既に格納されている秘匿音声データ150を用いて合成音声データ460が生成される。したがって、一の代替ワード211「ABC」に対応する秘匿ワード111「長谷不動産」の音声データである秘匿音声データ160を再び生成することを要しないので、合成音声データ460の生成に要する時間が短縮される。その結果、MFP10への合成音声データ460の送信の遅延を抑制することが可能である。   In addition, voice data issued in the past by the user 101 is stored as the secret voice data 150 in the storage unit 55, and the synthesized voice data 460 is generated using the secret voice data 150 already stored in the storage unit 55. Is done. Accordingly, since it is not necessary to generate the secret voice data 160 that is the voice data of the secret word 111 “Hase Real Estate” corresponding to the one alternative word 211 “ABC”, the time required for generating the synthesized voice data 460 is shortened. Is done. As a result, it is possible to suppress delay in transmission of the synthesized voice data 460 to the MFP 10.

さらに、ユーザ101の発した特定の秘匿ワード110(111)の秘匿音声データ150がサポータ音声データ410に含まれている。したがって、ユーザ101は、サポータ音声データ410のうち特定の秘匿ワード110(111)に対応する音声部分に対して何らかの処理が施されていることを知得できる。   Further, the secret voice data 150 of the specific secret word 110 (111) issued by the user 101 is included in the supporter voice data 410. Therefore, the user 101 can know that some processing has been performed on the voice portion corresponding to the specific secret word 110 (111) in the supporter voice data 410.

なお、上記態様においては、ユーザ101の発した音声(秘匿ワード110に係る音声)のデータ(秘匿音声データ150)を格納部55に格納しておき、当該秘匿音声データ150をサポータ102側からユーザ101側への音声伝達処理において利用する態様が例示されているが、これに限定されない。   In the above aspect, the voice (voice related to the secret word 110) uttered by the user 101 (the secret voice data 150) is stored in the storage unit 55, and the secret voice data 150 is transmitted from the supporter 102 side to the user. Although the aspect utilized in the audio | voice transmission process to 101 side is illustrated, it is not limited to this.

たとえば、サポータ102の発した音声(代替ワード210に係る音声)のデータ(代替音声データ260)を格納部55に格納しておき、当該代替音声データ260をユーザ101側からサポータ102側への音声伝達処理において利用するようにしてもよい。   For example, data (substitute voice data 260) of voice (voice related to the substitute word 210) uttered by the supporter 102 is stored in the storage unit 55, and the substitute voice data 260 is voiced from the user 101 side to the supporter 102 side. You may make it utilize in a transmission process.

このような態様について、図31を参照して説明する。   Such an aspect will be described with reference to FIG.

まず、図31に示すように、サポータ102側からユーザ101側への音声伝達処理において、サポータ102が「ABCをタッチしてください。」との音声を発すると、案内サーバ50では、上記態様と同様の処理により、音声変換処理が施され、合成音声データ461(460)が生成される。この合成音声データ461の生成に際して、サポータ102により発せられた代替ワード211「ABC」の録音データである代替音声データ261が格納部55に格納される。   First, as shown in FIG. 31, in the voice transmission process from the supporter 102 side to the user 101 side, when the supporter 102 utters “Please touch ABC”, the guidance server 50 Through similar processing, voice conversion processing is performed, and synthesized voice data 461 (460) is generated. When the synthesized voice data 461 is generated, the substitute voice data 261 that is the recording data of the substitute word 211 “ABC” issued by the supporter 102 is stored in the storage unit 55.

その後、ユーザ101側からサポータ102側への音声伝達処理がなされる場合に、音声生成部65は、当該格納されている代替音声データ260(261)を用いて合成音声データ450を生成する。   Thereafter, when voice transmission processing from the user 101 side to the supporter 102 side is performed, the voice generation unit 65 generates synthesized voice data 450 using the stored alternative voice data 260 (261).

詳細には、たとえば「長谷不動産のボタンを押しますね?」との音声をユーザ101が発する場合において、当該音声を含む部分音声データ433(不図示)がユーザ音声データ400から抽出される。そして、部分音声データ433に秘匿ワード111「長谷不動産」が含まれる旨が音声認識部64によって判定されると、合成音声データ453が生成される。このとき、秘匿ワード111「長谷不動産」に対応する代替ワード211「ABC」の代替音声データ(置換用の音声データ)として、格納部55に既に格納されている上述の代替音声データ260(261)が利用されて、合成音声データ453が生成される。生成された合成音声データ453はサポータ端末70に送信され、サポータ端末70において出力される。   Specifically, for example, when the user 101 utters a voice saying “Do you want to press the Hase Real Estate button?”, Partial voice data 433 (not shown) including the voice is extracted from the user voice data 400. When the voice recognition unit 64 determines that the secret word 111 “Hase Real Estate” is included in the partial voice data 433, synthesized voice data 453 is generated. At this time, the alternative voice data 260 (261) already stored in the storage unit 55 as alternative voice data (substitution voice data) of the alternative word 211 “ABC” corresponding to the secret word 111 “Hase Real Estate” Is used to generate synthesized speech data 453. The generated synthesized voice data 453 is transmitted to the supporter terminal 70 and output from the supporter terminal 70.

このような態様によれば、特に、合成音声データ453の生成に際して、格納部55に予め格納されている代替音声データ260が利用されるので、機械音声生成処理によって代替音声データを改めて生成することを要しない。   According to such an aspect, particularly, when the synthesized voice data 453 is generated, the alternative voice data 260 stored in advance in the storage unit 55 is used. Therefore, the alternative voice data is generated again by the machine voice generation process. Is not required.

また、上記各実施形態においては、案内サーバ50が画像処理および音声処理を行うことが例示されているが、これに限定されない。たとえば、上記案内サーバ50の動作がMFP10により実行されてもよい。具体的には、MFP10が案内サーバ50の画像処理部60aおよび音声処理部60bの動作と同様の動作を行うようにすればよい。   Moreover, in each said embodiment, although the guidance server 50 performs image processing and an audio | voice process is illustrated, it is not limited to this. For example, the operation of the guide server 50 may be executed by the MFP 10. Specifically, the MFP 10 may perform the same operation as that of the image processing unit 60a and the audio processing unit 60b of the guidance server 50.

1 操作案内システム
10 MFP(画像形成装置)
50 案内サーバ
70 サポータ端末
101 ユーザ
102 サポータ
110〜113 秘匿ワード
210〜213 代替ワード
300〜304 画像データ
350〜354 合成画像データ
400 ユーザ音声データ
430〜432 部分音声データ
150〜152,160 秘匿音声データ
250,251,260 代替音声データ
450〜452,460,461 合成音声データ
651〜653 変換辞書
1 Operation Guidance System 10 MFP (Image Forming Device)
DESCRIPTION OF SYMBOLS 50 Guide server 70 Supporter terminal 101 User 102 Supporter 110-113 Secret word 210-213 Alternative word 300-304 Image data 350-354 Composite image data 400 User voice data 430-432 Partial voice data 150-152,160 Secret voice data 250 , 251, 260 Alternative voice data 450 to 452, 460, 461 Synthetic voice data 651 to 653 Conversion dictionary

Claims (23)

操作案内システムにおける案内サーバであって、
ユーザの操作対象である画像形成装置の操作部に表示された第1の表示画像のデータである第1の表示画像データを前記画像形成装置から受信する画像受信手段と、
秘匿ワードが前記第1の表示画像データに含まれる場合に、前記第1の表示画像における前記秘匿ワードを当該秘匿ワードに対応する代替ワードに置き換えた第1の合成画像のデータである第1の合成画像データを生成する画像生成手段と、
前記ユーザを支援する人物であるサポータにより前記ユーザへの操作案内に利用されるサポータ端末に対して、前記サポータ端末での表示用データとして前記第1の合成画像データを送信する画像送信手段と、
前記ユーザにより発せられた音声のデータを含むユーザ音声データを前記画像形成装置から受信する音声受信手段と、
前記ユーザ音声データに対する音声認識処理によって、前記ユーザ音声データに前記秘匿ワードが含まれるか否かを判定する音声認識手段と、
前記ユーザ音声データに前記秘匿ワードが含まれると判定される場合に、前記ユーザ音声データ内の前記秘匿ワードの音声データである秘匿音声データを、当該秘匿ワードに対応する前記代替ワードの音声データである代替音声データに置き換えたデータである合成ユーザ音声データを生成する音声生成手段と、
前記サポータ端末での音声出力用データとして前記合成ユーザ音声データを前記サポータ端末に送信する音声送信手段と、
を備えることを特徴とする案内サーバ。
A guidance server in the operation guidance system,
Image receiving means for receiving, from the image forming apparatus, first display image data which is data of a first display image displayed on an operation unit of the image forming apparatus which is a user's operation target;
When a secret word is included in the first display image data, the first synthesized image data is obtained by replacing the secret word in the first display image with an alternative word corresponding to the secret word. Image generating means for generating composite image data;
Image transmitting means for transmitting the first combined image data as display data on the supporter terminal to a supporter terminal used for operation guidance to the user by a supporter who is a person supporting the user;
Sound receiving means for receiving user sound data including sound data emitted by the user from the image forming apparatus ;
Voice recognition means for determining whether or not the secret word is included in the user voice data by voice recognition processing on the user voice data;
When it is determined that the secret word is included in the user voice data, the secret voice data that is the voice data of the secret word in the user voice data is the voice data of the alternative word corresponding to the secret word. Voice generating means for generating synthesized user voice data which is data replaced with certain alternative voice data;
Voice transmitting means for transmitting the synthesized user voice data to the supporter terminal as voice output data at the supporter terminal;
A guidance server comprising:
請求項1に記載の案内サーバにおいて、
前記ユーザ音声データは、複数の部分音声データに区分され、
前記音声生成手段は、前記ユーザ音声データにおける一の部分音声データである第1の音声データ内に前記秘匿ワードが含まれる旨が前記音声認識処理によって判定される場合に、前記第1の音声データ内の前記秘匿音声データを前記代替音声データに置き換えた第1の合成音声データを生成し、
前記音声送信手段は、前記第1の合成音声データを前記サポータ端末に送信することを特徴とする案内サーバ。
In the guidance server according to claim 1,
The user voice data is divided into a plurality of partial voice data,
When the voice recognition process determines that the secret word is included in the first voice data that is one partial voice data in the user voice data, the voice generation unit is configured to output the first voice data. Generating the first synthesized voice data by replacing the secret voice data in the substitute voice data,
The guidance server characterized in that the voice transmitting means transmits the first synthesized voice data to the supporter terminal.
請求項2に記載の案内サーバにおいて、
前記第1の音声データは、前記第1の表示画像の表示中に前記ユーザにより発せられた音声を含み、
前記画像受信手段は、前記第1の表示画像に引き続いて前記操作部に表示される第2の表示画像のデータである第2の表示画像データを、前記第1の表示画像データの受信完了後に前記画像形成装置から受信し、
前記画像生成手段は、秘匿ワードが前記第2の表示画像データに含まれる場合に、前記第2の表示画像データ内の前記秘匿ワードを当該秘匿ワードに対応する代替ワードに置き換えた第2の合成画像のデータである第2の合成画像データを生成し、
前記画像送信手段は、前記第1の音声データの受信が開始されると前記第2の合成画像データの送信を許可せず、前記第1の音声データに基づき生成された前記第1の合成音声データの送信完了時点以後において前記第2の合成画像データの送信を許可することを特徴とする案内サーバ。
In the guidance server according to claim 2,
The first audio data includes audio uttered by the user during display of the first display image,
The image receiving means receives second display image data, which is data of a second display image displayed on the operation unit subsequent to the first display image, after completion of reception of the first display image data. Received from the image forming apparatus,
The image generation means replaces the secret word in the second display image data with an alternative word corresponding to the secret word when a secret word is included in the second display image data. Generating second composite image data which is image data;
When the reception of the first audio data is started, the image transmission means does not permit transmission of the second synthesized image data, and the first synthesized audio generated based on the first audio data A guide server that permits transmission of the second composite image data after the data transmission is completed.
請求項3に記載の案内サーバにおいて、
前記画像送信手段は、前記第1の音声データの受信開始時点と前記第1の合成音声データの送信完了から前記第1の合成音声データの出力所要時間が経過した時点との間の期間である第1の期間内に前記画像受信手段により前記第2の表示画像データが受信される場合には、前記第1の期間の終了時点までは前記第2の合成画像データの送信を許可せず且つ前記第1の期間の終了後に前記第2の合成画像データの送信を許可することを特徴とする案内サーバ。
In the guidance server according to claim 3,
The image transmission means is a period between a reception start time of the first audio data and a time when an output required time of the first synthetic audio data has elapsed since the completion of transmission of the first synthetic audio data. If the second display image data is received by the image receiving means within the first period, transmission of the second composite image data is not permitted until the end of the first period and A guide server that permits transmission of the second composite image data after the end of the first period.
請求項1に記載の案内サーバにおいて、
音声データを格納する格納手段、
をさらに備え、
前記音声生成手段は、
複数の秘匿ワードに対応する代替ワードの音声データである複数の代替音声データの生成を前記合成ユーザ音声データの生成に先立つ所定の時点から開始するとともに、生成された代替音声データを前記格納手段に格納し、
前記ユーザ音声データに前記秘匿ワードが含まれ且つ前記秘匿ワードに対応する前記代替音声データが前記格納手段に格納されていない場合には、前記代替音声データを機械音声生成処理により生成し、生成された当該代替音声データを用いて前記合成ユーザ音声データを生成し、
前記ユーザ音声データに前記秘匿ワードが含まれ且つ前記秘匿ワードに対応する前記代替音声データが前記格納手段に既に格納されている場合には、前記格納手段に格納されている前記代替音声データを用いて前記合成ユーザ音声データを生成することを特徴とする案内サーバ。
In the guidance server according to claim 1,
Storage means for storing audio data;
Further comprising
The voice generation means includes
Generation of a plurality of alternative voice data, which are voice data of alternative words corresponding to a plurality of secret words, is started from a predetermined time prior to the generation of the synthesized user voice data, and the generated alternative voice data is stored in the storage means. Store and
When the user voice data includes the secret word and the alternative voice data corresponding to the secret word is not stored in the storage unit, the alternative voice data is generated by a machine voice generation process. Generating the synthesized user voice data using the alternative voice data,
When the user voice data includes the secret word and the alternative voice data corresponding to the secret word is already stored in the storage unit, the alternative voice data stored in the storage unit is used. And generating the synthesized user voice data.
請求項5に記載の案内サーバにおいて、
前記音声生成手段は、前記ユーザからの操作案内の依頼の発生を示すサポート依頼信号を前記案内サーバが受信することに応答して、前記複数の代替音声データの生成を開始することを特徴とする案内サーバ。
In the guidance server according to claim 5,
The voice generation means starts generating the plurality of alternative voice data in response to the guide server receiving a support request signal indicating the generation of an operation guidance request from the user. Information server.
請求項6に記載の案内サーバにおいて、
前記複数の秘匿ワードは、前記画像形成装置のスキャン画像送信における宛先指定画面内の送信宛先を示す語句と前記画像形成装置のファクシミリ送信における宛先指定画面に含まれる送信宛先を示す語句との少なくとも一方を含むことを特徴とする案内サーバ。
In the guidance server according to claim 6,
The plurality of concealment words are at least one of a word indicating a transmission destination in a destination designation screen in scan image transmission of the image forming apparatus and a word indicating a transmission destination included in a destination designation screen in facsimile transmission of the image forming apparatus A guide server characterized by including:
請求項6に記載の案内サーバにおいて、
前記複数の秘匿ワードは、前記画像形成装置のボックスに格納されたファイルに関する情報表示画面に表示されるファイル情報を示す語句を含むことを特徴とする案内サーバ。
In the guidance server according to claim 6,
The guide server, wherein the plurality of secret words include a phrase indicating file information displayed on an information display screen related to a file stored in a box of the image forming apparatus.
請求項5に記載の案内サーバにおいて、
前記音声生成手段は、前記複数の代替音声データのうち、前記画像形成装置の現在の動作モードにて表示され得る秘匿ワードに対応する代替音声データを優先的に生成することを特徴とする案内サーバ。
In the guidance server according to claim 5,
The guidance server preferentially generates alternative voice data corresponding to a secret word that can be displayed in the current operation mode of the image forming apparatus among the plurality of alternative voice data. .
請求項9に記載の案内サーバにおいて、
前記画像形成装置の現在の動作モードは、スキャンモードとファクシミリ送信モードとボックスモードとを含む複数のモードのうちのいずれかであることを特徴とする案内サーバ。
In the guidance server according to claim 9,
A guide server characterized in that a current operation mode of the image forming apparatus is one of a plurality of modes including a scan mode, a facsimile transmission mode, and a box mode.
請求項1に記載の案内サーバにおいて、
音声データを格納する格納手段、
をさらに備え、
前記音声生成手段は、
前記第1の表示画像データが前記画像受信手段によって受信されると、複数の秘匿ワードに対応する代替ワードの音声データである複数の代替音声データの生成を開始し、生成された代替音声データを前記格納手段に格納し、
前記ユーザ音声データに前記秘匿ワードが含まれ且つ前記秘匿ワードに対応する前記代替音声データが前記格納手段に格納されていない場合には、前記代替音声データを機械音声生成処理により生成し、生成された当該代替音声データを用いて前記合成ユーザ音声データを生成し、
前記ユーザ音声データに前記秘匿ワードが含まれ且つ前記秘匿ワードに対応する前記代替音声データが前記格納手段に既に格納されている場合には、前記格納手段に格納されている前記代替音声データを用いて前記合成ユーザ音声データを生成することを特徴とする案内サーバ。
In the guidance server according to claim 1,
Storage means for storing audio data;
Further comprising
The voice generation means includes
When the first display image data is received by the image receiving means, generation of a plurality of alternative voice data which are voice data of alternative words corresponding to a plurality of secret words is started, and the generated alternative voice data is Storing in the storage means;
When the user voice data includes the secret word and the alternative voice data corresponding to the secret word is not stored in the storage unit, the alternative voice data is generated by a machine voice generation process. Generating the synthesized user voice data using the alternative voice data,
When the user voice data includes the secret word and the alternative voice data corresponding to the secret word is already stored in the storage unit, the alternative voice data stored in the storage unit is used. And generating the synthesized user voice data.
請求項5ないし請求項11のいずれかに記載の案内サーバにおいて、
前記音声生成手段は、前記複数の秘匿ワードの使用頻度に基づく優先順位に従って、前記複数の代替音声データを生成することを特徴とする案内サーバ。
In the guidance server in any one of Claims 5 thru | or 11,
The guidance server, wherein the voice generation means generates the plurality of alternative voice data according to a priority order based on a frequency of use of the plurality of secret words.
請求項2に記載の案内サーバにおいて、
前記第1の合成音声データの生成に利用された前記代替音声データを格納する格納手段、
をさらに備え、
前記音声生成手段は、前記ユーザ音声データのうち前記第1の音声データとは異なる部分の部分音声データである第2の音声データ内に前記秘匿ワードが含まれる旨が前記音声認識処理によって判定される場合に、前記格納手段に格納されていた前記代替音声データを用いて、前記第2の音声データ内の前記秘匿音声データを前記代替音声データに置き換えた第2の合成音声データを生成し、
前記音声送信手段は、前記第2の合成音声データを前記サポータ端末に送信することを特徴とする案内サーバ。
In the guidance server according to claim 2,
Storage means for storing the substitute voice data used for generating the first synthesized voice data;
Further comprising
The voice generation means determines that the secret word is included in the second voice data, which is partial voice data of the user voice data different from the first voice data, by the voice recognition process. And generating the second synthesized voice data in which the secret voice data in the second voice data is replaced with the substitute voice data using the substitute voice data stored in the storage means,
The guidance server characterized in that the voice transmitting means transmits the second synthesized voice data to the supporter terminal.
請求項1に記載の案内サーバにおいて、
前記音声受信手段は、前記サポータにより発せられた音声のデータを含むサポータ音声データを受信し、
前記音声認識手段は、前記サポータ音声データに対する音声認識処理によって、1又は複数の秘匿ワードのいずれかに対応する一の代替ワードが前記サポータ音声データに含まれるか否かを判定し、
前記音声生成手段は、前記一の代替ワードが前記サポータ音声データに含まれる場合に、前記サポータ音声データ内の前記一の代替ワードの音声データである第2の代替音声データを、前記一の代替ワードに対応する秘匿ワードの音声データである第2の秘匿音声データに置き換えた合成サポータ音声データを生成し、
前記音声送信手段は、前記合成サポータ音声データを前記画像形成装置に送信することを特徴とする案内サーバ。
In the guidance server according to claim 1,
The voice receiving means receives supporter voice data including voice data emitted by the supporter,
The voice recognition means determines whether or not one support word corresponding to one or a plurality of secret words is included in the supporter voice data by voice recognition processing on the supporter voice data,
When the one alternative word is included in the supporter voice data, the voice generation means converts the second alternative voice data, which is the voice data of the one alternative word in the supporter voice data, into the one alternative. Generating synthesized supporter voice data replaced with second secret voice data which is voice data of the secret word corresponding to the word;
The guidance server characterized in that the voice transmitting means transmits the synthesized supporter voice data to the image forming apparatus.
請求項14に記載の案内サーバにおいて、
音声データを格納する格納手段、
をさらに備え、
前記音声生成手段は、
前記ユーザ音声データに基づき前記合成ユーザ音声データを生成する際に、前記ユーザ音声データから抽出した前記秘匿音声データを前記格納手段に格納しておき、
前記格納手段に既に格納されている前記秘匿音声データを前記第2の秘匿音声データとして用いて前記合成サポータ音声データを生成することを特徴とする案内サーバ。
In the guidance server according to claim 14,
Storage means for storing audio data;
Further comprising
The voice generation means includes
When generating the synthesized user voice data based on the user voice data, the secret voice data extracted from the user voice data is stored in the storage means,
A guidance server that generates the synthesized supporter voice data by using the secret voice data already stored in the storage means as the second secret voice data.
請求項2ないし請求項4のいずれかに記載の案内サーバにおいて、
前記音声認識手段は、前記ユーザ音声データに所定時間以上の無音部分が存在する場合には、前記ユーザ音声データのうち、前記所定時間の無音状態が経過した時点を終端とするように区分した部分音声データを、前記第1の音声データとして抽出することを特徴とする案内サーバ。
In the guidance server according to any one of claims 2 to 4,
The voice recognition means, when there is a silent part for a predetermined time or more in the user voice data, a part of the user voice data that is classified so as to end when the silent state for the predetermined time has elapsed A guidance server that extracts voice data as the first voice data.
請求項16に記載の案内サーバにおいて、
前記画像受信手段は、前記第1の表示画像データとは異なる第2の表示画像データをも前記画像形成装置から受信し、
前記音声認識手段は、前記ユーザ音声データの音声認識処理中に前記第2の表示画像データが前記画像受信手段により受信される場合には、前記ユーザ音声データのうち、前記第2の表示画像データの受信時点を終端とするように区分した部分音声データを、前記第1の音声データとして抽出することを特徴とする案内サーバ。
The guidance server according to claim 16, wherein
The image receiving means also receives second display image data different from the first display image data from the image forming apparatus;
When the second display image data is received by the image receiving means during the voice recognition process of the user voice data, the voice recognition means includes the second display image data of the user voice data. A guidance server that extracts partial voice data divided so as to end at the reception time of the first voice data.
請求項1に記載の案内サーバにおいて、
前記第1の表示画像は、前記画像形成装置のボックスに格納されたファイルに関する情報表示画面の画像であり、
前記秘匿ワードは、前記ファイルのファイル名、作成者、日付、およびファイル本文の見出しの少なくとも1つを示すワードを含み、
前記画像生成手段は、当該秘匿ワードを前記代替ワードに置き換えた前記第1の合成画像データを生成し、
前記音声生成手段は、前記ユーザ音声データに当該秘匿ワードが含まれる場合に、前記秘匿音声データを前記代替音声データに置き換えた合成ユーザ音声データを生成することを特徴とする案内サーバ。
In the guidance server according to claim 1,
The first display image is an image of an information display screen related to a file stored in a box of the image forming apparatus,
The secret word includes a word indicating at least one of a file name, an author, a date, and a file body header of the file ;
Wherein the image generating means generates the first synthesized image data by replacing the person the secret word in the alternative word,
The said voice production | generation means produces | generates the synthetic | combination user audio | voice data which replaced the said confidential audio | voice data with the said alternative audio | speech data, when the said confidential word is contained in the said user audio | voice data.
請求項18に記載の案内サーバにおいて、
前記秘匿ワードは、前記ファイル本文の見出しを示すワードを含み、
前記画像生成手段は、当該秘匿ワードを前記代替ワードに置き換えた前記第1の合成画像データであって前記ファイル本文のうち前記ファイル本文の見出し以外の部分を判読回避画像に変換し前記第1の合成画像データを生成することを特徴とする案内サーバ。
The guide server according to claim 18, wherein
The secret word includes a word indicating a heading of the file body ,
The image generating unit converts the confidential words the portion other than heading the files present statements of the file the statement a first synthesized image data is replaced with the alternative word read avoid image A guide server for generating the first composite image data.
操作案内システムにおける案内サーバに内蔵されたコンピュータに、
a)ユーザの操作対象である画像形成装置の操作部に表示された第1の表示画像のデータである第1の表示画像データを前記画像形成装置から受信するステップと、
b)秘匿ワードが前記第1の表示画像データに含まれる場合に、前記第1の表示画像における前記秘匿ワードを当該秘匿ワードに対応する代替ワードに置き換えた第1の合成画像のデータである第1の合成画像データを生成するステップと、
c)前記ユーザを支援する人物であるサポータにより前記ユーザへの案内に利用されるサポータ端末に対して、前記サポータ端末での表示用データとして前記第1の合成画像データを送信するステップと、
d)前記ユーザにより発せられた音声のデータを含むユーザ音声データを前記画像形成装置から受信するステップと、
e)前記ユーザ音声データに対する音声認識処理によって、前記ユーザ音声データに前記秘匿ワードが含まれるか否かを判定するステップと、
f)前記ユーザ音声データに前記秘匿ワードが含まれると判定される場合に、前記ユーザ音声データ内の前記秘匿ワードの音声データである秘匿音声データを、当該秘匿ワードに対応する前記代替ワードの音声データである代替音声データに置き換えたデータである合成ユーザ音声データを生成するステップと、
g)前記サポータ端末での音声出力用データとして前記合成ユーザ音声データを前記サポータ端末に送信するステップと、
を実行させるためのプログラム。
In the computer built in the guidance server in the operation guidance system,
a) receiving, from the image forming apparatus, first display image data that is data of a first display image displayed on an operation unit of the image forming apparatus that is an operation target of the user;
b) First composite image data obtained by replacing the secret word in the first display image with an alternative word corresponding to the secret word when a secret word is included in the first display image data. Generating one composite image data;
c) transmitting the first composite image data as display data on the supporter terminal to a supporter terminal used for guidance to the user by a supporter who is a person supporting the user;
d) receiving user audio data including audio data uttered by the user from the image forming apparatus ;
e) determining whether or not the secret word is included in the user voice data by voice recognition processing on the user voice data;
f) When it is determined that the secret word is included in the user voice data, the secret voice data that is the voice data of the secret word in the user voice data is converted to the voice of the alternative word corresponding to the secret word. Generating synthesized user voice data that is data replaced with alternative voice data that is data;
g) transmitting the synthesized user voice data as voice output data at the supporter terminal to the supporter terminal;
A program for running
操作案内システムであって、
ユーザの操作対象である画像形成装置と、
前記ユーザを支援する人物であるサポータにより前記ユーザへの画像形成装置の操作案内に利用されるサポータ端末と、
前記画像形成装置と前記サポータ端末とを媒介する案内サーバと、
を備え、
前記案内サーバは、
前記画像形成装置の操作部に表示された第1の表示画像のデータである第1の表示画像データを前記画像形成装置から受信する画像受信手段と、
秘匿ワードが前記第1の表示画像データに含まれる場合に、前記第1の表示画像における前記秘匿ワードを当該秘匿ワードに対応する代替ワードに置き換えた第1の合成画像のデータである第1の合成画像データを生成する画像生成手段と、
前記サポータ端末に対して、前記サポータ端末での表示用データとして前記第1の合成画像データを送信する画像送信手段と、
前記ユーザにより発せられた音声のデータを含むユーザ音声データを前記画像形成装置から受信する音声受信手段と、
前記ユーザ音声データに対する音声認識処理によって、前記ユーザ音声データに前記秘匿ワードが含まれるか否かを判定する音声認識手段と、
前記ユーザ音声データに前記秘匿ワードが含まれると判定される場合に、前記ユーザ音声データ内の前記秘匿ワードの音声データである秘匿音声データを、当該秘匿ワードに対応する前記代替ワードの音声データである代替音声データに置き換えたデータである合成ユーザ音声データを生成する音声生成手段と、
前記サポータ端末での音声出力用データとして前記合成ユーザ音声データを前記サポータ端末に送信する音声送信手段と、
を有することを特徴とする操作案内システム。
An operation guidance system,
An image forming apparatus to be operated by the user;
A supporter terminal used for operation guidance of the image forming apparatus to the user by a supporter who is a person supporting the user;
A guidance server that mediates between the image forming apparatus and the supporter terminal;
With
The guidance server is
Image receiving means for receiving, from the image forming apparatus, first display image data which is data of a first display image displayed on the operation unit of the image forming apparatus;
When a secret word is included in the first display image data, the first synthesized image data is obtained by replacing the secret word in the first display image with an alternative word corresponding to the secret word. Image generating means for generating composite image data;
Image transmitting means for transmitting the first composite image data as display data at the supporter terminal to the supporter terminal;
Sound receiving means for receiving user sound data including sound data emitted by the user from the image forming apparatus ;
Voice recognition means for determining whether or not the secret word is included in the user voice data by voice recognition processing on the user voice data;
When it is determined that the secret word is included in the user voice data, the secret voice data that is the voice data of the secret word in the user voice data is the voice data of the alternative word corresponding to the secret word. Voice generating means for generating synthesized user voice data which is data replaced with certain alternative voice data;
Voice transmitting means for transmitting the synthesized user voice data to the supporter terminal as voice output data at the supporter terminal;
An operation guidance system comprising:
操作案内システムにおける画像形成装置であって、
ユーザの操作対象である前記画像形成装置の操作部に表示された第1の表示画像のデータである第1の表示画像データを取得する画像取得手段と、
秘匿ワードが前記第1の表示画像データに含まれる場合に、前記第1の表示画像における前記秘匿ワードを当該秘匿ワードに対応する代替ワードに置き換えた第1の合成画像のデータである第1の合成画像データを生成する画像生成手段と、
前記ユーザを支援する人物であるサポータにより前記ユーザへの案内に利用されるサポータ端末に対して、前記サポータ端末での表示用データとして前記第1の合成画像データを送信する画像送信手段と、
前記ユーザにより発せられた音声のデータを含むユーザ音声データを取得する音声取得手段と、
前記ユーザ音声データに対する音声認識処理によって、前記ユーザ音声データに前記秘匿ワードが含まれるか否かを判定する音声認識手段と、
前記ユーザ音声データに前記秘匿ワードが含まれると判定される場合に、前記ユーザ音声データ内の前記秘匿ワードの音声データである秘匿音声データを、当該秘匿ワードに対応する前記代替ワードの音声データである代替音声データに置き換えたデータである合成ユーザ音声データを生成する音声生成手段と、
前記サポータ端末での音声出力用データとして前記合成ユーザ音声データを前記サポータ端末に送信する音声送信手段と、
を備えることを特徴とする画像形成装置。
An image forming apparatus in an operation guidance system,
Image acquisition means for acquiring first display image data which is data of a first display image displayed on the operation unit of the image forming apparatus which is a user's operation target;
When a secret word is included in the first display image data, the first synthesized image data is obtained by replacing the secret word in the first display image with an alternative word corresponding to the secret word. Image generating means for generating composite image data;
Image transmitting means for transmitting the first composite image data as display data on the supporter terminal to a supporter terminal used for guidance to the user by a supporter who is a person supporting the user;
Voice acquisition means for acquiring user voice data including voice data generated by the user;
Voice recognition means for determining whether or not the secret word is included in the user voice data by voice recognition processing on the user voice data;
When it is determined that the secret word is included in the user voice data, the secret voice data that is the voice data of the secret word in the user voice data is the voice data of the alternative word corresponding to the secret word. Voice generating means for generating synthesized user voice data which is data replaced with certain alternative voice data;
Voice transmitting means for transmitting the synthesized user voice data to the supporter terminal as voice output data at the supporter terminal;
An image forming apparatus comprising:
操作案内システムにおける画像形成装置に内蔵されたコンピュータに、
a)ユーザの操作対象である前記画像形成装置の操作部に表示された第1の表示画像のデータである第1の表示画像データを取得するステップと、
b)秘匿ワードが前記第1の表示画像データに含まれる場合に、前記第1の表示画像における前記秘匿ワードを当該秘匿ワードに対応する代替ワードに置き換えた第1の合成画像のデータである第1の合成画像データを生成するステップと、
c)前記ユーザを支援する人物であるサポータにより前記ユーザへの案内に利用されるサポータ端末に対して、前記サポータ端末での表示用データとして前記第1の合成画像データを送信するステップと、
d)前記ユーザにより発せられた音声のデータを含むユーザ音声データを取得するステップと、
e)前記ユーザ音声データに対する音声認識処理によって、前記ユーザ音声データに前記秘匿ワードが含まれるか否かを判定するステップと、
f)前記ユーザ音声データに前記秘匿ワードが含まれると判定される場合に、前記ユーザ音声データ内の前記秘匿ワードの音声データである秘匿音声データを、当該秘匿ワードに対応する前記代替ワードの音声データである代替音声データに置き換えたデータである合成ユーザ音声データを生成するステップと、
g)前記サポータ端末での音声出力用データとして前記合成ユーザ音声データを前記サポータ端末に送信するステップと、
を実行させるためのプログラム。
In the computer built in the image forming apparatus in the operation guidance system,
a) acquiring first display image data which is data of a first display image displayed on the operation unit of the image forming apparatus which is an operation target of the user;
b) First composite image data obtained by replacing the secret word in the first display image with an alternative word corresponding to the secret word when a secret word is included in the first display image data. Generating one composite image data;
c) transmitting the first composite image data as display data on the supporter terminal to a supporter terminal used for guidance to the user by a supporter who is a person supporting the user;
d) obtaining user voice data including voice data uttered by the user;
e) determining whether or not the secret word is included in the user voice data by voice recognition processing on the user voice data;
f) When it is determined that the secret word is included in the user voice data, the secret voice data that is the voice data of the secret word in the user voice data is converted to the voice of the alternative word corresponding to the secret word. Generating synthesized user voice data that is data replaced with alternative voice data that is data;
g) transmitting the synthesized user voice data as voice output data at the supporter terminal to the supporter terminal;
A program for running
JP2013225254A 2013-10-30 2013-10-30 Operation guidance server, operation guidance system, image forming apparatus, and program Active JP6229433B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013225254A JP6229433B2 (en) 2013-10-30 2013-10-30 Operation guidance server, operation guidance system, image forming apparatus, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013225254A JP6229433B2 (en) 2013-10-30 2013-10-30 Operation guidance server, operation guidance system, image forming apparatus, and program

Publications (2)

Publication Number Publication Date
JP2015088890A JP2015088890A (en) 2015-05-07
JP6229433B2 true JP6229433B2 (en) 2017-11-15

Family

ID=53051271

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013225254A Active JP6229433B2 (en) 2013-10-30 2013-10-30 Operation guidance server, operation guidance system, image forming apparatus, and program

Country Status (1)

Country Link
JP (1) JP6229433B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6731609B2 (en) * 2016-05-13 2020-07-29 パナソニックIpマネジメント株式会社 Data processing device, data processing system, data processing method, and data processing program
JP7180330B2 (en) * 2018-11-30 2022-11-30 株式会社リコー Information processing system, information processing device, and method

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004246610A (en) * 2003-02-13 2004-09-02 Canon Inc Information provision/exchange service system
JP2010055153A (en) * 2008-08-26 2010-03-11 Fujitsu Ltd Non-displaying method of secret information
JP2010273159A (en) * 2009-05-22 2010-12-02 Sharp Corp Apparatus and system for processing image
JP5553721B2 (en) * 2010-10-04 2014-07-16 株式会社Nttドコモ Display device, disclosure control device, disclosure control method, and program

Also Published As

Publication number Publication date
JP2015088890A (en) 2015-05-07

Similar Documents

Publication Publication Date Title
US10917369B2 (en) Information processing apparatus, information processing system, and information processing method
JP4811507B2 (en) Image processing system, image processing apparatus, and information processing apparatus
JP5146429B2 (en) Image processing apparatus, speech recognition processing apparatus, control method for speech recognition processing apparatus, and computer program
JP2006330576A (en) Apparatus operation system, speech recognition device, electronic apparatus, information processor, program, and recording medium
US11140284B2 (en) Image forming system equipped with interactive agent function, method of controlling same, and storage medium
JP2019092153A (en) Compound machine control system and method based on natural language
US8773696B2 (en) Method and system for generating document using speech data and image forming apparatus including the system
JP6229433B2 (en) Operation guidance server, operation guidance system, image forming apparatus, and program
JP7263869B2 (en) Information processing device and program
JP2010224890A (en) Operation screen control device, image forming apparatus, and computer program
JP4702936B2 (en) Information processing apparatus, control method, and program
JP6832503B2 (en) Information presentation method, information presentation program and information presentation system
US20200366800A1 (en) Apparatus
JP2021092982A (en) Image processing system, image processing device, and image processing method
JP2011086123A (en) Information processing apparatus, conference system, information processing method, and computer program
US20100247063A1 (en) Moving image recording/reproducing apparatus, moving image recording/reproducing method, and computer readable recording medium having moving image recording/reproducing program recorded thereon
JP7314499B2 (en) Information processing system, information processing device, job control method and job control program
JP2009187386A (en) Information processor and image forming apparatus
US11700338B2 (en) Information processing system that receives audio operations on multifunction peripheral, as well as image processing apparatus and control method therefor
JP2020038348A (en) Voice interactive device, its control method, and program
JP2005084861A (en) Email sending device, image forming system, program and storage medium
JP7327939B2 (en) Information processing system, information processing device, control method, program
JP6531427B2 (en) PROCESSING SYSTEM, TERMINAL DEVICE, PROCESSING DEVICE, PROCESSING DEVICE CONTROL METHOD, AND COMPUTER PROGRAM
JP7251549B2 (en) Information processing device, information processing method and program
JP7375427B2 (en) Audio setting system, audio setting support program, and audio setting support device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160720

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170526

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170711

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170905

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170919

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171002

R150 Certificate of patent or registration of utility model

Ref document number: 6229433

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150