JP6229433B2 - Operation guidance server, operation guidance system, image forming apparatus, and program - Google Patents
Operation guidance server, operation guidance system, image forming apparatus, and program Download PDFInfo
- Publication number
- JP6229433B2 JP6229433B2 JP2013225254A JP2013225254A JP6229433B2 JP 6229433 B2 JP6229433 B2 JP 6229433B2 JP 2013225254 A JP2013225254 A JP 2013225254A JP 2013225254 A JP2013225254 A JP 2013225254A JP 6229433 B2 JP6229433 B2 JP 6229433B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- voice data
- voice
- user
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Accessory Devices And Overall Control Thereof (AREA)
- Facsimiles In General (AREA)
- Editing Of Facsimile Originals (AREA)
Description
本発明は、操作案内システムおよびそれに関連する技術に関する。 The present invention relates to an operation guidance system and related technology.
近年、MFP(マルチ・ファンクション・ペリフェラル(Multi-Functional Peripheral))などの画像形成装置は、多機能化および高機能化しており、その操作が煩雑になっている。そのため、ユーザは、画像形成装置の操作方法をサポートセンターに問い合わせ、サポータ(サポートセンターにおいてユーザを支援する人物)にその操作の案内を依頼することがある。 In recent years, an image forming apparatus such as an MFP (Multi-Functional Peripheral) has become multifunctional and highly functional, and its operation has become complicated. For this reason, the user may inquire of the support center about the operation method of the image forming apparatus and request a supporter (a person who supports the user at the support center) to guide the operation.
その際、ユーザは、自己が操作している画像形成装置の表示画像に基づいてサポータから操作案内を受けることがあり、表示画像に含まれるユーザの機密情報がサポータの端末にそのまま表示されることによりユーザの機密情報が漏洩する恐れがある。 At that time, the user may receive operation guidance from the supporter based on the display image of the image forming apparatus operated by the user, and the confidential information of the user included in the display image is displayed as it is on the supporter terminal. As a result, the confidential information of the user may be leaked.
特許文献1においては、このような問題に鑑みて、画像形成装置の表示部に表示されたユーザの機密情報をダミー画像に置き換えてサポータのパーソナルコンピュータに表示させることにより、ユーザの機密情報がサポータ側にそのまま表示されることを防止することが記載されている。
In
ところで、ユーザとサポータとの間の操作案内においては、表示画像を用いた操作案内のみならず、音声を用いた操作案内も行われることが想定される。 By the way, in operation guidance between a user and a supporter, it is assumed that not only operation guidance using a display image but also operation guidance using voice is performed.
しかしながら、表示画像および音声を用いた操作案内を行う際において、上記の従来技術を用いると、ユーザの発した音声に含まれる機密情報はサポータの端末にそのまま伝達され、ユーザの機密情報がサポータに漏洩してしまう恐れがある。 However, when performing the operation guidance using the display image and the sound, if the above-described conventional technology is used, the confidential information included in the voice uttered by the user is directly transmitted to the terminal of the supporter, and the confidential information of the user is transmitted to the supporter. There is a risk of leakage.
そこで、この発明は、ユーザとサポータとの間の操作案内において、ユーザの音声に含まれる機密情報の漏洩を回避することが可能な技術を提供することを課題とする。 Therefore, an object of the present invention is to provide a technique capable of avoiding leakage of confidential information included in a user's voice in operation guidance between the user and a supporter.
上記課題を解決すべく、請求項1の発明は、操作案内システムにおける案内サーバであって、ユーザの操作対象である画像形成装置の操作部に表示された第1の表示画像のデータである第1の表示画像データを前記画像形成装置から受信する画像受信手段と、秘匿ワードが前記第1の表示画像データに含まれる場合に、前記第1の表示画像における前記秘匿ワードを当該秘匿ワードに対応する代替ワードに置き換えた第1の合成画像のデータである第1の合成画像データを生成する画像生成手段と、前記ユーザを支援する人物であるサポータにより前記ユーザへの操作案内に利用されるサポータ端末に対して、前記サポータ端末での表示用データとして前記第1の合成画像データを送信する画像送信手段と、前記ユーザにより発せられた音声のデータを含むユーザ音声データを前記画像形成装置から受信する音声受信手段と、前記ユーザ音声データに対する音声認識処理によって、前記ユーザ音声データに前記秘匿ワードが含まれるか否かを判定する音声認識手段と、前記ユーザ音声データに前記秘匿ワードが含まれると判定される場合に、前記ユーザ音声データ内の前記秘匿ワードの音声データである秘匿音声データを、当該秘匿ワードに対応する前記代替ワードの音声データである代替音声データに置き換えたデータである合成ユーザ音声データを生成する音声生成手段と、前記サポータ端末での音声出力用データとして前記合成ユーザ音声データを前記サポータ端末に送信する音声送信手段と、を備えることを特徴とする。
In order to solve the above problem, the invention of
請求項2の発明は、請求項1の発明に係る案内サーバにおいて、前記ユーザ音声データは、複数の部分音声データに区分され、前記音声生成手段は、前記ユーザ音声データにおける一の部分音声データである第1の音声データ内に前記秘匿ワードが含まれる旨が前記音声認識処理によって判定される場合に、前記第1の音声データ内の前記秘匿音声データを前記代替音声データに置き換えた第1の合成音声データを生成し、前記音声送信手段は、前記第1の合成音声データを前記サポータ端末に送信することを特徴とする。 According to a second aspect of the present invention, in the guidance server according to the first aspect of the invention, the user voice data is divided into a plurality of partial voice data, and the voice generation means is one partial voice data in the user voice data. When the voice recognition process determines that the secret word is included in certain first voice data, the first voice data in which the secret voice data in the first voice data is replaced with the alternative voice data. The synthesized voice data is generated, and the voice transmitting means transmits the first synthesized voice data to the supporter terminal.
請求項3の発明は、請求項2の発明に係る案内サーバにおいて、前記第1の音声データは、前記第1の表示画像の表示中に前記ユーザにより発せられた音声を含み、前記画像受信手段は、前記第1の表示画像に引き続いて前記操作部に表示される第2の表示画像のデータである第2の表示画像データを、前記第1の表示画像データの受信完了後に前記画像形成装置から受信し、前記画像生成手段は、秘匿ワードが前記第2の表示画像データに含まれる場合に、前記第2の表示画像データ内の前記秘匿ワードを当該秘匿ワードに対応する代替ワードに置き換えた第2の合成画像のデータである第2の合成画像データを生成し、前記画像送信手段は、前記第1の音声データの受信が開始されると前記第2の合成画像データの送信を許可せず、前記第1の音声データに基づき生成された前記第1の合成音声データの送信完了時点以後において前記第2の合成画像データの送信を許可することを特徴とする。 According to a third aspect of the present invention, in the guidance server according to the second aspect of the invention, the first voice data includes a voice uttered by the user during display of the first display image, and the image receiving means. The second display image data, which is the data of the second display image displayed on the operation unit subsequent to the first display image, is converted into the image forming apparatus after the reception of the first display image data is completed. And when the secret word is included in the second display image data, the image generation means replaces the secret word in the second display image data with an alternative word corresponding to the secret word. Second composite image data, which is data of a second composite image, is generated, and the image transmission means permits transmission of the second composite image data when reception of the first audio data is started. The above And permits the transmission of the second synthesized image data in the transmission completion time after the first synthesized speech data generated based on one of the audio data.
請求項4の発明は、請求項3の発明に係る案内サーバにおいて、前記画像送信手段は、前記第1の音声データの受信開始時点と前記第1の合成音声データの送信完了から前記第1の合成音声データの出力所要時間が経過した時点との間の期間である第1の期間内に前記画像受信手段により前記第2の表示画像データが受信される場合には、前記第1の期間の終了時点までは前記第2の合成画像データの送信を許可せず且つ前記第1の期間の終了後に前記第2の合成画像データの送信を許可することを特徴とする。 According to a fourth aspect of the present invention, in the guidance server according to the third aspect of the present invention, the image transmission means is configured to receive the first voice data from the reception start time of the first voice data and completion of the transmission of the first synthesized voice data. When the second display image data is received by the image receiving means within a first period that is a period between the time when the output time of the synthesized voice data has elapsed, Transmission of the second composite image data is not permitted until the end point, and transmission of the second composite image data is permitted after the end of the first period.
請求項5の発明は、請求項1の発明に係る案内サーバにおいて、音声データを格納する格納手段、をさらに備え、前記音声生成手段は、複数の秘匿ワードに対応する代替ワードの音声データである複数の代替音声データの生成を前記合成ユーザ音声データの生成に先立つ所定の時点から開始するとともに、生成された代替音声データを前記格納手段に格納し、前記ユーザ音声データに前記秘匿ワードが含まれ且つ前記秘匿ワードに対応する前記代替音声データが前記格納手段に格納されていない場合には、前記代替音声データを機械音声生成処理により生成し、生成された当該代替音声データを用いて前記合成ユーザ音声データを生成し、前記ユーザ音声データに前記秘匿ワードが含まれ且つ前記秘匿ワードに対応する前記代替音声データが前記格納手段に既に格納されている場合には、前記格納手段に格納されている前記代替音声データを用いて前記合成ユーザ音声データを生成することを特徴とする。 A fifth aspect of the present invention is the guidance server according to the first aspect of the present invention, further comprising storage means for storing voice data, wherein the voice generating means is voice data of alternative words corresponding to a plurality of secret words. Generation of a plurality of alternative voice data is started from a predetermined time prior to the generation of the synthesized user voice data, and the generated alternative voice data is stored in the storage means, and the secret word is included in the user voice data When the alternative voice data corresponding to the secret word is not stored in the storage unit, the alternative voice data is generated by a machine voice generation process, and the synthesized user is generated using the generated alternative voice data. Voice data is generated, and the user voice data includes the secret word and the alternative voice data corresponding to the secret word is If already stored in the serial storage means, and generating said composite user speech data using the substitute audio data stored in said storage means.
請求項6の発明は、請求項5の発明に係る案内サーバにおいて、前記音声生成手段は、前記ユーザからの操作案内の依頼の発生を示すサポート依頼信号を前記案内サーバが受信することに応答して、前記複数の代替音声データの生成を開始することを特徴とする。 According to a sixth aspect of the present invention, in the guidance server according to the fifth aspect of the invention, the voice generating means is responsive to the guidance server receiving a support request signal indicating the occurrence of a request for operation guidance from the user. Then, the generation of the plurality of alternative voice data is started.
請求項7の発明は、請求項6の発明に係る案内サーバにおいて、前記複数の秘匿ワードは、前記画像形成装置のスキャン画像送信における宛先指定画面内の送信宛先を示す語句と前記画像形成装置のファクシミリ送信における宛先指定画面に含まれる送信宛先を示す語句との少なくとも一方を含むことを特徴とする。 According to a seventh aspect of the present invention, in the guidance server according to the sixth aspect of the invention, the plurality of secret words include a phrase indicating a transmission destination in a destination designation screen in the scan image transmission of the image forming apparatus, and the image forming apparatus. It includes at least one of a phrase indicating a transmission destination included in a destination designation screen in facsimile transmission.
請求項8の発明は、請求項6の発明に係る案内サーバにおいて、前記複数の秘匿ワードは、前記画像形成装置のボックスに格納されたファイルに関する情報表示画面に表示されるファイル情報を示す語句を含むことを特徴とする。
The invention of
請求項9の発明は、請求項5の発明に係る案内サーバにおいて、前記音声生成手段は、前記複数の代替音声データのうち、前記画像形成装置の現在の動作モードにおける表示画像に含まれ得る秘匿ワードに対応する代替音声データを優先的に生成することを特徴とする。 According to a ninth aspect of the present invention, in the guidance server according to the fifth aspect of the invention, the voice generation unit may include a secret that may be included in a display image in the current operation mode of the image forming apparatus among the plurality of alternative voice data. Alternative voice data corresponding to a word is preferentially generated.
請求項10の発明は、請求項9の発明に係る案内サーバにおいて、前記画像形成装置の現在の動作モードは、スキャンモードとファクシミリ送信モードとボックスモードとを含む複数のモードのうちのいずれかであることを特徴とする。 According to a tenth aspect of the present invention, in the guide server according to the ninth aspect, the current operation mode of the image forming apparatus is any one of a plurality of modes including a scan mode, a facsimile transmission mode, and a box mode. It is characterized by being.
請求項11の発明は、請求項1の発明に係る案内サーバにおいて、音声データを格納する格納手段、をさらに備え、前記音声生成手段は、前記第1の表示画像データが前記画像受信手段によって受信されると、複数の秘匿ワードに対応する代替ワードの音声データである複数の代替音声データの生成を開始し、生成された代替音声データを前記格納手段に格納し、前記ユーザ音声データに前記秘匿ワードが含まれ且つ前記秘匿ワードに対応する前記代替音声データが前記格納手段に格納されていない場合には、前記代替音声データを機械音声生成処理により生成し、生成された当該代替音声データを用いて前記合成ユーザ音声データを生成し、前記ユーザ音声データに前記秘匿ワードが含まれ且つ前記秘匿ワードに対応する前記代替音声データが前記格納手段に既に格納されている場合には、前記格納手段に格納されている前記代替音声データを用いて前記合成ユーザ音声データを生成することを特徴とする。
The invention of
請求項12の発明は、請求項5ないし請求項11のいずれかの発明に係る案内サーバにおいて、前記音声生成手段は、前記複数の秘匿ワードの使用頻度に基づく優先順位に従って、前記複数の代替音声データを生成することを特徴とする。 According to a twelfth aspect of the present invention, in the guidance server according to any one of the fifth to eleventh aspects, the voice generation unit is configured to perform the plurality of alternative voices according to a priority order based on the frequency of use of the plurality of secret words. It is characterized by generating data.
請求項13の発明は、請求項2の発明に係る案内サーバにおいて、前記第1の合成音声データの生成に利用された前記代替音声データを格納する格納手段、をさらに備え、前記音声生成手段は、前記ユーザ音声データのうち前記第1の音声データとは異なる部分の部分音声データである第2の音声データ内に前記秘匿ワードが含まれる旨が前記音声認識処理によって判定される場合に、前記格納手段に格納されていた前記代替音声データを用いて、前記第2の音声データ内の前記秘匿音声データを前記代替音声データに置き換えた第2の合成音声データを生成し、前記音声送信手段は、前記第2の合成音声データを前記サポータ端末に送信することを特徴とする。 According to a thirteenth aspect of the present invention, in the guidance server according to the second aspect of the present invention, the guidance server further comprises storage means for storing the alternative voice data used for generating the first synthesized voice data. When the voice recognition process determines that the secret word is included in the second voice data which is partial voice data of the user voice data different from the first voice data, Using the substitute voice data stored in the storage means, the second synthesized voice data is generated by replacing the secret voice data in the second voice data with the substitute voice data, and the voice sending means The second synthesized voice data is transmitted to the supporter terminal.
請求項14の発明は、請求項1の発明に係る案内サーバにおいて、前記音声受信手段は、前記サポータにより発せられた音声のデータを含むサポータ音声データを受信し、前記音声認識手段は、前記サポータ音声データに対する音声認識処理によって、1又は複数の秘匿ワードのいずれかに対応する一の代替ワードが前記サポータ音声データに含まれるか否かを判定し、前記音声生成手段は、前記一の代替ワードが前記サポータ音声データに含まれる場合に、前記サポータ音声データ内の前記一の代替ワードの音声データである第2の代替音声データを、前記一の代替ワードに対応する秘匿ワードの音声データである第2の秘匿音声データに置き換えた合成サポータ音声データを生成し、前記音声送信手段は、前記合成サポータ音声データを前記画像形成装置に送信することを特徴とする。 According to a fourteenth aspect of the present invention, in the guidance server according to the first aspect of the invention, the voice receiving means receives supporter voice data including voice data generated by the supporter, and the voice recognition means is the supporter. It is determined whether or not one substitute word corresponding to one or a plurality of secret words is included in the supporter voice data by voice recognition processing on the voice data, and the voice generation means Is included in the supporter voice data, the second alternative voice data that is the voice data of the one alternative word in the supporter voice data is the voice data of the secret word corresponding to the one alternative word. The synthesized supporter voice data replaced with the second secret voice data is generated, and the voice transmitting means converts the synthesized supporter voice data into And transmits the serial image forming apparatus.
請求項15の発明は、請求項14の発明に係る案内サーバにおいて、音声データを格納する格納手段、をさらに備え、前記音声生成手段は、前記ユーザ音声データに基づき前記合成ユーザ音声データを生成する際に、前記ユーザ音声データから抽出した前記秘匿音声データを前記格納手段に格納しておき、前記格納手段に格納された前記秘匿音声データを前記第2の秘匿音声データとして用いて前記合成サポータ音声データを生成することを特徴とする。 According to a fifteenth aspect of the present invention, in the guidance server according to the fourteenth aspect of the present invention, the guidance server further comprises storage means for storing voice data, and the voice generation means generates the synthesized user voice data based on the user voice data. In this case, the secret voice data extracted from the user voice data is stored in the storage means, and the secret voice data stored in the storage means is used as the second secret voice data. It is characterized by generating data.
請求項16の発明は、請求項2ないし請求項4のいずれかの発明に係る案内サーバにおいて、前記音声認識手段は、前記ユーザ音声データに所定時間以上の無音部分が存在する場合には、前記ユーザ音声データのうち、前記所定時間の無音状態が経過した時点を終端とするように区分した部分音声データを、前記第1の音声データとして抽出することを特徴とする。 According to a sixteenth aspect of the present invention, in the guidance server according to any one of the second to fourth aspects of the invention, the voice recognizing unit is configured so that the user voice data includes a silent portion of a predetermined time or longer. Of the user voice data, partial voice data divided so as to end at the point in time when the silent state for the predetermined time has elapsed is extracted as the first voice data.
請求項17の発明は、請求項16の発明に係る案内サーバにおいて、前記画像受信手段は、前記第1の表示画像データとは異なる第2の表示画像データをも前記画像形成装置から受信し、前記音声認識手段は、前記ユーザ音声データの音声認識処理中に前記第2の表示画像データが前記画像受信手段により受信される場合には、前記ユーザ音声データのうち、前記第2の表示画像データの受信時点を終端とするように区分した部分音声データを、前記第1の音声データとして抽出することを特徴とする。 According to a seventeenth aspect of the present invention, in the guidance server according to the sixteenth aspect of the invention, the image receiving means also receives second display image data different from the first display image data from the image forming apparatus, When the second display image data is received by the image receiving means during the voice recognition process of the user voice data, the voice recognition means includes the second display image data of the user voice data. The partial audio data divided so as to end at the reception time of is extracted as the first audio data.
請求項18の発明は、請求項1の発明に係る案内サーバにおいて、前記第1の表示画像は、前記画像形成装置のボックスに格納されたファイルに関する情報表示画面の画像であり、前記秘匿ワードは、前記ファイルのファイル名、作成者、日付、およびファイル本文の見出しの少なくとも1つを示すワードを含み、前記画像生成手段は、当該秘匿ワードを前記代替ワードに置き換えた前記第1の合成画像データを生成し、前記音声生成手段は、前記ユーザ音声データに当該秘匿ワードが含まれる場合に、前記秘匿音声データを前記代替音声データに置き換えた合成ユーザ音声データを生成することを特徴とする。
The invention according to
請求項19の発明は、請求項18の発明に係る案内サーバにおいて、前記秘匿ワードは、前記ファイル本文の見出しを示すワードを含み、前記画像生成手段は、当該秘匿ワードを前記代替ワードに置き換えた前記第1の合成画像データであって前記ファイル本文のうち前記ファイル本文の見出し以外の部分を判読回避画像に変換した前記第1の合成画像データを生成することを特徴とする。 According to a nineteenth aspect of the present invention, in the guidance server according to the eighteenth aspect of the present invention, the secret word includes a word indicating a heading of the file text, and the image generation means replaces the secret word with the substitute word. and generates the first composite image data obtained by converting the portion other than heading the files present statement read avoid image of the first said file present text a synthetic image data .
請求項20の発明は、操作案内システムにおける案内サーバに内蔵されたコンピュータに、a)ユーザの操作対象である画像形成装置の操作部に表示された第1の表示画像のデータである第1の表示画像データを前記画像形成装置から受信するステップと、b)秘匿ワードが前記第1の表示画像データに含まれる場合に、前記第1の表示画像における前記秘匿ワードを当該秘匿ワードに対応する代替ワードに置き換えた第1の合成画像のデータである第1の合成画像データを生成するステップと、c)前記ユーザを支援する人物であるサポータにより前記ユーザへの案内に利用されるサポータ端末に対して、前記サポータ端末での表示用データとして前記第1の合成画像データを送信するステップと、d)前記ユーザにより発せられた音声のデータを含むユーザ音声データを前記画像形成装置から受信するステップと、e)前記ユーザ音声データに対する音声認識処理によって、前記ユーザ音声データに前記秘匿ワードが含まれるか否かを判定するステップと、f)前記ユーザ音声データに前記秘匿ワードが含まれると判定される場合に、前記ユーザ音声データ内の前記秘匿ワードの音声データである秘匿音声データを、当該秘匿ワードに対応する前記代替ワードの音声データである代替音声データに置き換えたデータである合成ユーザ音声データを生成するステップと、g)前記サポータ端末での音声出力用データとして前記合成ユーザ音声データを前記サポータ端末に送信するステップと、を実行させるためのプログラムであることを特徴とする。 According to a twentieth aspect of the present invention, there is provided a first built-in image data displayed on an operation unit of an image forming apparatus, which is a user's operation target, on a computer built in a guidance server in the operation guidance system. A step of receiving display image data from the image forming apparatus; and b) an alternative corresponding to the secret word in the first display image when the secret word is included in the first display image data. A step of generating first composite image data which is data of a first composite image replaced with a word; and c) a supporter terminal used for guidance to the user by a supporter who is a person supporting the user. Transmitting the first composite image data as display data at the supporter terminal; and d) the voice uttered by the user Receiving a user voice data including over data from the image forming apparatus, e) by a speech recognition process on the user speech data, determining whether the contains the secret word to the user speech data, f) When it is determined that the secret word is included in the user voice data, the secret voice data that is the voice data of the secret word in the user voice data is converted to the voice of the alternative word corresponding to the secret word. Generating synthesized user voice data that is data replaced with alternative voice data that is data; and g) transmitting the synthesized user voice data to the supporter terminal as voice output data at the supporter terminal. It is a program for executing.
請求項21の発明は、操作案内システムであって、ユーザの操作対象である画像形成装置と、前記ユーザを支援する人物であるサポータにより前記ユーザへの画像形成装置の操作案内に利用されるサポータ端末と、前記画像形成装置と前記サポータ端末とを媒介する案内サーバと、を備え、前記案内サーバは、前記画像形成装置の操作部に表示された第1の表示画像のデータである第1の表示画像データを前記画像形成装置から受信する画像受信手段と、秘匿ワードが前記第1の表示画像データに含まれる場合に、前記第1の表示画像における前記秘匿ワードを当該秘匿ワードに対応する代替ワードに置き換えた第1の合成画像のデータである第1の合成画像データを生成する画像生成手段と、前記サポータ端末に対して、前記サポータ端末での表示用データとして前記第1の合成画像データを送信する画像送信手段と、前記ユーザにより発せられた音声のデータを含むユーザ音声データを前記画像形成装置から受信する音声受信手段と、前記ユーザ音声データに対する音声認識処理によって、前記ユーザ音声データに前記秘匿ワードが含まれるか否かを判定する音声認識手段と、前記ユーザ音声データに前記秘匿ワードが含まれると判定される場合に、前記ユーザ音声データ内の前記秘匿ワードの音声データである秘匿音声データを、当該秘匿ワードに対応する前記代替ワードの音声データである代替音声データに置き換えたデータである合成ユーザ音声データを生成する音声生成手段と、前記サポータ端末での音声出力用データとして前記合成ユーザ音声データを前記サポータ端末に送信する音声送信手段と、を有することを特徴とする。 According to a twenty-first aspect of the present invention, there is provided an operation guidance system, a supporter used for operation guidance of the image forming apparatus to the user by an image forming apparatus which is a user's operation target and a supporter who is a person supporting the user. A guidance server that mediates between the terminal and the image forming apparatus and the supporter terminal, wherein the guidance server is a first display image data displayed on an operation unit of the image forming apparatus. An image receiving unit that receives display image data from the image forming apparatus, and an alternative that corresponds to the secret word in the first display image when the secret word is included in the first display image data. Image generating means for generating first composite image data which is data of a first composite image replaced with a word, and the supporter terminal with respect to the supporter terminal An image transmitting means for transmitting said first combined image data as the display data, and voice receiving means for receiving user voice data from the image forming apparatus including a sound data emitted by the user, the user voice Voice recognition means for determining whether or not the user voice data includes the secret word by voice recognition processing on the data, and when it is determined that the user voice data includes the secret word, the user voice Voice generating means for generating synthesized user voice data, which is data obtained by replacing secret voice data that is voice data of the secret word in data with substitute voice data that is voice data of the alternative word corresponding to the secret word; The synthesized user voice data is used as voice output data at the supporter terminal. And having a, a sound transmission means for transmitting to the end.
請求項22の発明は、操作案内システムにおける画像形成装置であって、ユーザの操作対象である前記画像形成装置の操作部に表示された第1の表示画像のデータである第1の表示画像データを取得する画像取得手段と、秘匿ワードが前記第1の表示画像データに含まれる場合に、前記第1の表示画像における前記秘匿ワードを当該秘匿ワードに対応する代替ワードに置き換えた第1の合成画像のデータである第1の合成画像データを生成する画像生成手段と、前記ユーザを支援する人物であるサポータにより前記ユーザへの案内に利用されるサポータ端末に対して、前記サポータ端末での表示用データとして前記第1の合成画像データを送信する画像送信手段と、前記ユーザにより発せられた音声のデータを含むユーザ音声データを取得する音声取得手段と、前記ユーザ音声データに対する音声認識処理によって、前記ユーザ音声データに前記秘匿ワードが含まれるか否かを判定する音声認識手段と、前記ユーザ音声データに前記秘匿ワードが含まれると判定される場合に、前記ユーザ音声データ内の前記秘匿ワードの音声データである秘匿音声データを、当該秘匿ワードに対応する前記代替ワードの音声データである代替音声データに置き換えたデータである合成ユーザ音声データを生成する音声生成手段と、前記サポータ端末での音声出力用データとして前記合成ユーザ音声データを前記サポータ端末に送信する音声送信手段と、を備えることを特徴とする。 According to a twenty-second aspect of the present invention, there is provided an image forming apparatus in the operation guidance system, wherein the first display image data is data of a first display image displayed on the operation unit of the image forming apparatus that is a user's operation target. And a first composition in which, when a secret word is included in the first display image data, the secret word in the first display image is replaced with an alternative word corresponding to the secret word. Display on the supporter terminal with respect to a supporter terminal that is used for guidance to the user by an image generation unit that generates first composite image data that is image data and a supporter that is a person supporting the user Image transmission means for transmitting the first composite image data as data for use, and user voice data including voice data uttered by the user A voice recognition unit that determines whether or not the secret word is included in the user voice data by voice recognition processing for the user voice data; and that the secret word is included in the user voice data. If so, the synthesized user voice is data obtained by replacing the secret voice data that is the voice data of the secret word in the user voice data with the substitute voice data that is the voice data of the alternative word corresponding to the secret word. Voice generation means for generating data; and voice transmission means for transmitting the synthesized user voice data to the supporter terminal as voice output data at the supporter terminal.
請求項23の発明は、操作案内システムにおける画像形成装置に内蔵されたコンピュータに、a)ユーザの操作対象である前記画像形成装置の操作部に表示された第1の表示画像のデータである第1の表示画像データを取得するステップと、b)秘匿ワードが前記第1の表示画像データに含まれる場合に、前記第1の表示画像における前記秘匿ワードを当該秘匿ワードに対応する代替ワードに置き換えた第1の合成画像のデータである第1の合成画像データを生成するステップと、c)前記ユーザを支援する人物であるサポータにより前記ユーザへの案内に利用されるサポータ端末に対して、前記サポータ端末での表示用データとして前記第1の合成画像データを送信するステップと、d)前記ユーザにより発せられた音声のデータを含むユーザ音声データを取得するステップと、e)前記ユーザ音声データに対する音声認識処理によって、前記ユーザ音声データに前記秘匿ワードが含まれるか否かを判定するステップと、f)前記ユーザ音声データに前記秘匿ワードが含まれると判定される場合に、前記ユーザ音声データ内の前記秘匿ワードの音声データである秘匿音声データを、当該秘匿ワードに対応する前記代替ワードの音声データである代替音声データに置き換えたデータである合成ユーザ音声データを生成するステップと、g)前記サポータ端末での音声出力用データとして前記合成ユーザ音声データを前記サポータ端末に送信するステップと、実行させるためのプログラムであることを特徴とする。 According to a twenty-third aspect of the present invention, there is provided a computer built in the image forming apparatus in the operation guidance system, wherein a) data of the first display image displayed on the operation unit of the image forming apparatus which is a user's operation target. A step of obtaining one display image data, and b) when a secret word is included in the first display image data, the secret word in the first display image is replaced with an alternative word corresponding to the secret word. A step of generating first composite image data which is data of the first composite image; and c) a supporter terminal used for guidance to the user by a supporter who is a person supporting the user, Transmitting the first composite image data as display data on a supporter terminal; and d) a user including voice data uttered by the user. Obtaining voice data, e) determining whether or not the secret word is included in the user voice data by voice recognition processing on the user voice data, and f) the secret to the user voice data. When it is determined that a word is included, the confidential voice data that is the voice data of the secret word in the user voice data is replaced with the alternative voice data that is the voice data of the alternative word corresponding to the secret word Generating a synthesized user voice data as data; g) transmitting the synthesized user voice data as voice output data at the supporter terminal to the supporter terminal; and a program for executing the program. And
請求項1ないし請求項23に記載の発明によれば、ユーザとサポータとの間の操作案内において、ユーザの音声に含まれる機密情報の漏洩を回避することが可能である。 According to the first to twenty-third aspects of the present invention, it is possible to avoid leakage of confidential information included in the user's voice in the operation guidance between the user and the supporter.
特に、請求項2に記載の発明によれば、ユーザ音声データを区切った一の部分音声データである第1の音声データに関して、当該第1の音声データ内の秘匿音声データを代替音声データに置き換えた第1の合成音声データが生成され、当該第1の合成音声データがサポータ端末に送信される。したがって、第1の音声データに対応する第1の合成音声データは、ユーザ音声データのうち第1の音声データの次の部分に対する処理の終了を待つことなく、比較的早期にサポータ端末に送信され得る。その結果、サポータ端末への音声データの送信の遅延を抑制することが可能である。 In particular, according to the second aspect of the present invention, the secret audio data in the first audio data is replaced with the substitute audio data for the first audio data which is one partial audio data obtained by dividing the user audio data. The first synthesized voice data is generated, and the first synthesized voice data is transmitted to the supporter terminal. Therefore, the first synthesized voice data corresponding to the first voice data is transmitted to the supporter terminal relatively early without waiting for the end of the process for the next portion of the first voice data in the user voice data. obtain. As a result, it is possible to suppress a delay in transmitting audio data to the supporter terminal.
特に、請求項3に記載の発明によれば、第1の音声データの受信が開始されると第2の合成画像データの送信が許可されず、第1の合成音声データの送信完了時点以後において第2の合成画像データの送信が許可されるので、サポータ端末における第1の表示画像から第2の表示画像への変更は、第1の合成音声データの送信後に行われる。したがって、第1の表示画像を見ながら発せられたユーザの音声が、当該音声の到達遅延に起因して第1の表示画像の次の第2の表示画像の表示中にサポータ端末側で出力されることを抑制あるいは回避することが可能である。 In particular, according to the third aspect of the invention, when the reception of the first audio data is started, the transmission of the second synthesized image data is not permitted, and after the transmission completion time of the first synthesized audio data. Since the transmission of the second synthesized image data is permitted, the change from the first display image to the second display image in the supporter terminal is performed after the transmission of the first synthesized audio data. Therefore, the voice of the user uttered while viewing the first display image is output on the supporter terminal side during the display of the second display image next to the first display image due to the arrival delay of the voice. This can be suppressed or avoided.
特に、請求項4に記載の発明によれば、サポータ端末における第1の表示画像から第2の表示画像への変更は、第1の合成音声データの送信完了から第1の合成音声データの出力所要時間が経過した時点以後において行われる。したがって、第1の表示画像を見ながら発せられたユーザの音声が、当該音声の到達遅延に起因して第1の表示画像の次の第2の表示画像の表示中にサポータ端末側で出力されることをより抑制あるいは回避することが可能である。 In particular, according to the fourth aspect of the present invention, the change from the first display image to the second display image in the supporter terminal is performed when the first synthesized speech data is transmitted after the first synthesized speech data is transmitted. This is performed after the time required has elapsed. Therefore, the voice of the user uttered while viewing the first display image is output on the supporter terminal side during the display of the second display image next to the first display image due to the arrival delay of the voice. This can be further suppressed or avoided.
特に、請求項5に記載の発明によれば、複数の代替音声データの生成が合成ユーザ音声データの生成に先立つ所定の時点から開始されるとともに、生成された代替音声データが格納手段に格納される。そして、ユーザ音声データに秘匿ワードが含まれ且つ秘匿ワードに対応する代替音声データが格納手段に既に格納されている場合には、格納手段に格納されている代替音声データを用いて合成ユーザ音声データが生成され、合成ユーザ音声データがサポータ端末に送信される。したがって、ユーザ音声データに秘匿ワードが含まれると判定した時点から代替音声データの生成を常に開始する場合と比べて、合成音声データの生成に要する時間が短縮される。その結果、サポータ端末への合成音声データの送信の遅延を抑制することが可能である。 In particular, according to the fifth aspect of the invention, the generation of the plurality of alternative voice data is started from a predetermined time prior to the generation of the synthesized user voice data, and the generated alternative voice data is stored in the storage means. The If the user voice data includes a secret word and the alternative voice data corresponding to the secret word is already stored in the storage means, the synthesized user voice data using the alternative voice data stored in the storage means Is generated, and the synthesized user voice data is transmitted to the supporter terminal. Therefore, the time required for generating the synthesized voice data is shortened as compared to the case where the generation of the alternative voice data is always started from the time when it is determined that the user voice data includes the secret word. As a result, it is possible to suppress a delay in transmission of the synthesized voice data to the supporter terminal.
特に、請求項13に記載の発明によれば、第2の音声データに対する音声処理において、第1の合成音声データの生成に利用され格納されていた代替音声データを用いて第2の合成音声データが生成されるので、当該代替音声データの生成を再び行わずに済む。したがって、第2の合成音声データの生成に要する時間が短縮されるので、サポータ端末への第2の合成音声データの送信の遅延を抑制することが可能である。
In particular, according to the invention described in
特に、請求項14に記載の発明によれば、サポータにより発せられたサポータ音声データに含まれる代替ワードを、当該代替ワードに対応する第2の秘匿音声データに置き換えた合成サポータ音声データが、ユーザ側に送信されるので、サポータ音声データ内に含まれる代替ワードがユーザに伝わることがない。したがって、ユーザの知らない代替ワードが画像形成装置において音声出力されることに起因したユーザの混乱を回避することが可能である。
In particular, according to the invention described in
特に、請求項15に記載の発明によれば、合成ユーザ音声データの生成の際に、ユーザにより過去に発せられた音声データが秘匿音声データとして格納手段に格納され、合成サポータ音声データの生成の際に、当該格納手段に既に格納されている秘匿音声データを第2の秘匿音声データとして用いて合成サポータ音声データが生成される。したがって、当該第2の秘匿音声データの生成を再び行わずに済むので、合成サポータ音声データの生成に要する時間が短縮される。その結果、画像形成装置への合成音声データの送信の遅延を抑制することが可能である。 In particular, according to the invention described in claim 15, when the synthesized user voice data is generated, the voice data issued in the past by the user is stored as the secret voice data in the storage means, and the generation of the synthesized supporter voice data is performed. At this time, synthesized supporter voice data is generated using the secret voice data already stored in the storage means as the second secret voice data. Therefore, since it is not necessary to generate the second secret audio data again, the time required for generating the synthesis supporter audio data is shortened. As a result, it is possible to suppress a delay in transmission of the synthesized audio data to the image forming apparatus.
以下、本発明の実施形態を図面に基づいて説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
<1−1.システム概要>
図1は、操作案内システム1の構成を示す概略図である。
<1-1. System overview>
FIG. 1 is a schematic diagram showing the configuration of the
図1に示すように、操作案内システム1は、画像形成装置10と案内サーバ50とサポータ端末70とを備えて形成されている。ここでは、画像形成装置10として、MFP(マルチ・ファンクション・ペリフェラル(Multi-Functional Peripheral))が例示される。
As shown in FIG. 1, the
操作案内システム1における各要素10,50,70とは、ネットワーク108を介して互いに通信可能に接続される。なお、ネットワーク108は、LAN、WAN、インターネットなどによって構成される。また、ネットワーク108への接続形態は、有線接続であってもよく或いは無線接続であってもよい。
The
操作案内システム1は、MFP(画像形成装置)10の操作案内を行うシステムである。MFP10のユーザ101からの依頼に応じて、サポータ102(ユーザ101を支援する人物)は、サポータ端末70を用いて当該ユーザ101に対して操作案内を行う。
The
MFP10とサポータ端末70との間においては、画像データ300およびユーザ音声データ400(ユーザにより発せられた音声のデータ)に関する通信が案内サーバ50を介して行われる。案内サーバ50は、画像および音声の伝送に関して、MFP10とサポータ端末70とを媒介する機能を有している。
Communication between the
サポータ端末70には、案内サーバ50を介したMFP10からの画像データ300に基づいて、MFP10の操作画面と同様の画面が表示される。これにより、サポータ102は、ユーザ101が見ている画面と同様の画面を見ながら、ユーザ101に対する操作案内を行うことができる。また、MFP10のマイクロホン18を介して入力されたユーザ101の音声は、案内サーバ50を介してサポータ端末70に送信される。これにより、サポータ102は、ユーザ101の音声を聞きながら、ユーザ101に対する操作案内を行うことができる。
On the
ただし、案内サーバ50は、画像(詳細には、MFP10の操作案内画面)に関する変換処理を行う。たとえば、後述するように、案内サーバ50は、MFP10から送信されてきた(当該MFP10の)操作案内画面に秘匿ワード110(機密情報)が含まれる場合には、当該秘匿ワード110を適宜の代替ワード210に変換した画像を生成する。そして、案内サーバ50は、変換後の当該画像をサポータ端末70における表示用画像としてサポータ端末70に送信する。サポータ端末70では変換後の当該画像が操作案内用の画面として表示される。これによれば、操作案内用の画像から機密情報が漏洩することを回避することが可能である。
However, the
さらに、案内サーバ50は、音声に関する変換処理をも行う。たとえば、後述するように、案内サーバ50は、MFP10から送信されてきたユーザ音声に秘匿ワード110(機密情報)が含まれる場合には、当該秘匿ワード110を適宜の代替ワード210に変換した音声データを生成して、当該変換後の音声データをサポータ端末70に送信する。サポータ端末70では変換後の当該音声データに基づく音声が出力される。これによれば、ユーザ101の音声から機密情報が漏洩することを回避することが可能である。
Furthermore, the
以下、このような操作案内システムについて詳細に説明する。 Hereinafter, such an operation guidance system will be described in detail.
<1−2.MFPの構成>
図2は、MFP10の概略構成を示す機能ブロック図である。MFP10は、スキャン機能、コピー機能、ファクシミリ機能およびボックス格納機能などを備える装置(複合機とも称する)である。MFPは、複数の動作モード(具体的には、コピーモード、スキャンモード、ファクシミリ送信モード、ボックスモード)を有しており、各モードにおいて対応機能の動作が実行される。
<1-2. Configuration of MFP>
FIG. 2 is a functional block diagram illustrating a schematic configuration of the
図2の機能ブロック図に示すように、このMFP10は、画像読取部2、印刷出力部3、通信部4、格納部5、操作部6、コントローラ9、スピーカ17およびマイクロホン18等を備えており、これらの各部を複合的に動作させることによって、各種の機能を実現する。なお、MFP10は、画像形成装置あるいは印刷出力装置などとも表現される。
As shown in the functional block diagram of FIG. 2, the
画像読取部2は、MFP10の所定の位置に載置された原稿を光学的に読み取って(すなわちスキャンして)、当該原稿の画像データ(原稿画像ないしスキャン画像とも称する)を生成する処理部である。この画像読取部2は、スキャン部であるとも称される。
The
印刷出力部3は、印刷対象に関するデータに基づいて紙などの各種の媒体に画像を印刷出力する出力部である。なお、印刷出力部3は、各種の媒体上に画像を形成する画像形成部とも称される。
The
通信部4は、公衆回線等を介したファクシミリ通信を行うことが可能な処理部である。さらに、通信部4は、ネットワーク108を介したネットワーク通信が可能である。このネットワーク通信では、TCP/IP(Transmission Control Protocol / Internet Protocol)およびFTP(File Transfer Protocol)等の各種のプロトコルが利用される。当該ネットワーク通信を利用することによって、MFP10は、所望の相手先との間で各種のデータを授受することが可能である。通信部4は、各種データを送信する送信部4aと各種データを受信する受信部4bとを有する。
The
格納部5は、ハードディスクドライブ(HDD)等の記憶装置で構成される。また、格納部5には、各ユーザ向けに複数のボックス(フォルダ)が設けられており、各ボックスには、電子文書データ(文書ファイル)等が保存される。
The
操作部6は、MFP10に対する入力を受け付ける操作入力部6aと、各種情報の表示出力を行う表示部6bとを備えている。詳細には、MFP10には操作パネル6c(図1参照)が設けられている。この操作パネル(タッチスクリーン)6cは、その正面側にタッチパネル25を有している。タッチパネル25は、液晶表示パネルに圧電センサ等が埋め込まれて構成され、各種情報を表示するとともに操作者からの操作入力を受け付けることが可能である。タッチパネル25は、操作入力部6aの一部としても機能するとともに、表示部6bの一部としても機能する。
The
コントローラ9は、MFP10に内蔵され、MFP10を統括的に制御する制御装置である。コントローラ9は、CPUおよび各種の半導体メモリ(RAMおよびROM)等を備えるコンピュータシステムとして構成される。コントローラ9は、CPUにおいて、ROM(例えば、EEPROM(登録商標))内に格納されている所定のソフトウエアプログラム(以下、単にプログラムとも称する)を実行することによって、各種の処理部を実現する。なお、当該プログラムは、USBメモリなどの可搬性の記録媒体、あるいはネットワーク等を介してMFP10にインストールされるようにしてもよい。
The controller 9 is a control device that is built in the
図2に示すように、コントローラ9は、通信制御部11と入力制御部12と表示制御部13と格納制御部14とを含む各種の処理部を実現する。
As shown in FIG. 2, the controller 9 implements various processing units including a
通信制御部11は、他の装置(案内サーバ50等)との間の通信動作を制御する処理部である。たとえば、通信制御部11は、通信部4等と協働して、案内サーバ50からの各種指令を受信する。
The
入力制御部12は、操作入力部6aに対する操作入力動作を制御する制御部である。たとえば、入力制御部12は、操作画面に対する操作入力を受け付ける動作を制御する。
The
表示制御部13は、表示部6bにおける表示動作を制御する処理部である。たとえば、表示制御部13は、MFP10を操作するための操作画面等を表示部6bに表示させる。
The
格納制御部14は、格納ジョブに関するデータ格納処理等を制御する処理部である。
The
スピーカ17は、音声データに基づき音を発する装置である。また、スピーカ17は、MFP10に内蔵されるものであってもよく、MFP10に対して端子を介して取り付けられるものであってもよい。
The
マイクロホン18は、ユーザの音声等を電気信号(アナログ信号)に変換する装置である。また、マイクロホン18は、MFP10に内蔵されるものであってもよく、MFP10に対して端子を介して取り付けられるものであってもよい。なお、電気信号(アナログ信号)はコントローラ9によってデジタルデータ化(音声データに変換)される。
The
<1−3.案内サーバの構成>
図3は、案内サーバ50の概略構成を示す機能ブロック図である。
<1-3. Guide server configuration>
FIG. 3 is a functional block diagram illustrating a schematic configuration of the
案内サーバ50は、MFP10の操作案内に関して、MFP10とサポータ端末70とを媒介(ないし中継)する装置である。
The
また、案内サーバ50は、CPUおよび各種の半導体メモリ(RAMおよびROM等)等を備えるコンピュータシステムとして構成される。処理制御部60は、CPUにおいて、ROM(たとえば、EEPROM(登録商標)等)内に格納されている所定のソフトウエアプログラムを実行することによって、各種の処理部を実現する。なお、当該プログラムは、USBメモリなどの可搬性の記録媒体、あるいはネットワーク等を介して案内サーバ50にインストールされるようにしてもよい。
The
具体的には、案内サーバ50は、当該プログラムの実行に伴って、画像処理部60a、音声処理部60bおよび通信制御部67を含む各種の処理部を実現する。
Specifically, the
画像処理部60aは、受信した画像データの各種画像処理を行う処理部である。
The
図3に示すように、画像処理部60aは、画像生成部61を有する。画像生成部61は、操作画面に関する画像合成処理(画像生成処理)を行う。
As illustrated in FIG. 3, the
音声処理部60bは、受信した音声データの各種音声処理を行う処理部である。
The
図3に示すように、音声処理部60bは、音声認識部64と音声生成部65とを有する。音声認識部64は、受信した音声データ等に対する音声認識処理を行う。また、音声生成部65は、受信した音声データ等を加工して音声合成処理(機械音声生成処理)を行う。
As shown in FIG. 3, the
通信制御部67は、通信部54と協働して、通信相手先(たとえば、MFP10)との間のデータの送受信動作を制御する処理部である。
The
案内サーバ50の格納部55は、ハードディスクドライブ(HDD)等の記憶装置で構成される。
The
また、案内サーバ50は、通信部54をさらに備えている。
The
通信部54は、ネットワーク108を介したネットワーク通信が可能である。このネットワーク通信では、TCP/IP(Transmission Control Protocol / Internet Protocol)およびFTP(File Transfer Protocol)等の各種のプロトコルが利用される。当該ネットワーク通信を利用することによって、案内サーバ50は、所望の相手先との間で各種のデータを授受することが可能である。通信部44は、各種データを送信する送信部54aと各種データを受信する受信部54bとを有する。送信部54aは、画像データの送信を行う画像送信部と音声データの送信を行う音声送信部とを有し、受信部54bは、画像データの受信を行う画像受信部と音声データの受信を行う音声受信部とを有する。
The
<1−4.サポータ端末の構成>
図4は、サポータ端末70の概略構成を示す機能ブロック図である。
<1-4. Supporter terminal configuration>
FIG. 4 is a functional block diagram showing a schematic configuration of the
サポータ端末70は、いわゆるパーソナルコンピュータとして構成される。また、サポータ端末70は、サポータにより操作され、ユーザへの案内に利用される補助装置である。
The
サポータ端末70は、操作部76を備えている。操作部76は、サポータ端末70に対する操作入力を受け付ける操作入力部76aと、各種データの表示出力を行う表示部76bとを有している。また、サポータ端末70は、MFP10を遠隔操作することが可能であり、表示部76bには、MFP10の表示部6bに対応する表示画面が表示される。
The
また、サポータ端末70は、CPUおよび半導体メモリ等を備えている。サポータ端末70は、そのCPUにおいて、所定のソフトウエアプログラムを実行することによって、各種の処理部を実現する。具体的には、図4に示されるように、サポータ端末70は、通信制御部71および入力制御部72等の各種処理部を実現する。
The
通信制御部71は、通信部74と協働して、通信宛先(たとえば、案内サーバ50等)との間のデータの送受信動作を制御する処理部である。
The
入力制御部72は、操作入力部76aに対する操作入力動作を制御する制御部である。
The
スピーカ77は、案内サーバ50等からの音声データに基づき音を発する装置である。また、スピーカ77は、サポータ端末70に内蔵されるものであってもよく、サポータ端末70に対して端子を介して取り付けられるものであってもよい。
The
マイクロホン78は、ユーザの音声等を電気信号(アナログ信号)に変換する装置である。また、マイクロホン78は、MFP10に内蔵されるものであってもよく、MFP10に対して外部接続により取り付けられるものであってもよい。なお、電気信号(アナログ信号)はコントローラ9によってデジタルデータ化(音声データに変換)される。
The
<1−5.動作>
つぎに、第1実施形態に係る操作案内システム1の動作について図5〜図11を参照しながら説明する。
<1-5. Operation>
Next, the operation of the
図5は、操作案内システム1の動作を示す図である。案内サーバ50は、MFP10から画像データ300(表示画像データ300)を受信する。そして、当該画像データ301に秘匿ワード110(後述)が含まれる場合には、案内サーバ50は、画像処理(画像変換処理等)により合成画像データ350を生成し、合成画像データ350をサポータ端末70に送信する。また、案内サーバ50は、MFP10からユーザ音声データ400を受信する。当該ユーザ音声データ400に秘匿ワード110が含まれる場合には、案内サーバ50は、音声処理により合成音声データ450(合成ユーザ音声データ450)を生成し、合成音声データ450をサポータ端末70に送信する。
FIG. 5 is a diagram illustrating the operation of the
これにより、画像データ300(301)およびユーザ音声データ400に含まれる秘匿ワード110がサポータ102に漏洩することを回避することが可能である。
Thereby, it is possible to avoid the secret word 110 included in the image data 300 (301) and the
図6を参照して画像処理および音声処理についてより詳細に説明する。図6は、第1実施形態に係る画像データおよび音声データに関するタイミングを示す図である。 Image processing and sound processing will be described in more detail with reference to FIG. FIG. 6 is a diagram illustrating timing related to image data and audio data according to the first embodiment.
MFP10は、タッチパネル25に表示された画像データ300(301)を案内サーバ50に送信する。また、MFP10は、ユーザ101により発せられた音声のデータを含むユーザ音声データ400を案内サーバ50に送信する。
The
案内サーバ50は、MFP10から画像データ301を受信すると、画像処理(後述)により合成画像データ350(351)を生成し、サポータ端末70に送信する。また、案内サーバ50は、ユーザ音声データ400の一部である部分音声データ430(後述)を抽出する。そして、案内サーバ50は、音声処理(後述)により合成音声データ450(451)を生成し、サポータ端末70に送信する。
Upon receiving the
サポータ端末70は、案内サーバ50から合成画像データ351を受信すると、表示部76bに表示する。また、サポータ端末70は、案内サーバ50から合成音声データ451を受信すると、合成音声データ451を出力(再生)する。
When the
以下において、このような第1実施形態に係る画像処理および音声処理について、より具体的に説明する。 Hereinafter, such image processing and sound processing according to the first embodiment will be described more specifically.
まず、画像処理に関して、図7等を参照して説明する。図7は、第1実施形態における案内サーバ50の動作を示す図である。図7では、MFP10を操作している或るユーザ101が、MFP10のスキャン機能に関する操作方法についてサポートセンターに問い合わせを行う状況を想定する。
First, image processing will be described with reference to FIG. FIG. 7 is a diagram illustrating the operation of the
図7に示すように、ユーザ101が、MFP10のタッチパネル25に表示された表示画像のデータである表示画像データ301を見ながら、サポートセンターに対してサポート依頼の問い合わせを行う。具体的には、ユーザ101が、スキャン画像送信における宛先指定画面を見ながら、MFP10の操作パネル6cに配設されたヘルプボタン(不図示)を押下する。ヘルプボタンがユーザ101により押下されると、MFP10(具体的には、送信部4a)は、ユーザ101からの操作案内の発生を示すサポート依頼の信号を案内サーバ50へと送信する。
As illustrated in FIG. 7, the
図8は、当該サポート依頼の信号が案内サーバ50により受信された後の画像処理に関する動作を示すフローチャートである。
FIG. 8 is a flowchart showing an operation related to image processing after the support request signal is received by the
案内サーバ50の受信部54bがMFP10からのサポート依頼の信号を受信すると、案内サーバ50の送信部54aはサポータ端末70へとサポート依頼の信号を送信する(ステップS11)。
When the
その後、サポータ102がサポータ端末70の案内開始ボタン(不図示)を押下すると、操作案内を開始すべき旨の信号(開始信号)がサポータ端末70から案内サーバ50へと送信され、案内サーバ50は当該操作案内の開始信号をMFP10に送信する。これにより、MFP10とサポータ端末70とは操作案内モードに遷移する。
Thereafter, when the
操作案内の開始信号を受信したMFP10(具体的には、送信部4a)は、タッチパネル25に表示中の画像データ301を案内サーバ50に送信し、案内サーバ50(具体的には、受信部54b)はMFP10から画像データ301を受信する(ステップS12)。そして、案内サーバ50(具体的には、画像生成部61)は、画像データ301に秘匿ワード110(後述)が含まれるか否かを判定する(ステップS13)。より詳細には、画像生成部61は、画像データ301に対するOCR処理によって文字認識を行い、秘匿ワード110が含まれるか否かを判定する。
Receiving the operation guidance start signal, the MFP 10 (specifically, the transmission unit 4a) transmits the
画像データ301の受信に際して、案内サーバ50は、画像データ301に含まれる秘匿ワード110のリストである秘匿ワードリスト601(図9参照)をもMFP10から受信する。秘匿ワードリスト601には、宛先指定画面(画像データ301)に含まれる宛先が秘匿ワード110として抽出され、登録されている。そして、案内サーバ50は、当該秘匿ワードリスト601に基づいて変換辞書651を生成する。生成された変換辞書651には、秘匿ワード110と、当該秘匿ワード110に対応する代替ワード210とが登録されている。
When receiving the
変換辞書651について、具体的には、「長谷不動産」(111(110))、「高橋電器」(112(110))および「松原工務店」(113(110))が秘匿ワード110として登録されている。さらに、秘匿ワード111「長谷不動産」に対応する代替ワード211(210)として「ABC」が登録され、秘匿ワード112「高橋電器」に対応する代替ワード212(210)として「DEF」が登録され、秘匿ワード113「松原工務店」に対応する代替ワード213(210)として「GHIJ」が登録されている。各代替ワード210は、案内サーバ50によって自動的に生成される。
Regarding the
ここにおいて、秘匿ワード110は、ユーザの秘匿すべき情報等を示す語句(ワード)である。また、本実施形態においては、タッチパネル25に表示中の画像データ301に含まれる秘匿すべきワード(より詳細には、スキャン画像送信における宛先指定画面の送信宛先)が秘匿ワード110として案内サーバ50により決定される。
Here, the secret word 110 is a word (word) indicating information to be kept secret by the user. In the present embodiment, the word to be concealed (more specifically, the transmission destination of the destination designation screen in scan image transmission) included in the
秘匿ワード110が画像データ301に含まれる旨がステップS13において判定される場合には、案内サーバ50は、変換辞書651に基づいて、当該秘匿ワード110を、当該秘匿ワード110に対応する代替ワード210に置き換えた合成画像のデータである合成画像データ351を生成する(ステップS14)。合成画像データ351が生成されると、案内サーバ50は、当該合成画像データ351をサポータ端末70での表示用データとしてサポータ端末70に送信する(ステップS15)。合成画像データ351を受信したサポータ端末70の表示部76bには、画像データ301に代えて合成画像データ351が表示される(図7参照)。
When it is determined in step S <b> 13 that the secret word 110 is included in the
一方、画像データ301に秘匿ワード110が含まれない旨が判定される場合には、案内サーバ50は、ステップS14の処理を行わず、ステップS15では、画像データ301がそのまま合成画像データ351として利用される。すなわち、画像データ301がサポータ端末70に送信されて、表示部76bに画像データ301がそのまま表示される。
On the other hand, if it is determined that the secret word 110 is not included in the
つぎに、音声処理に関して説明する。 Next, audio processing will be described.
MFP10は、操作案内の開始信号を受信すると、ユーザ音声データ400の送信を開始する。
Upon receiving the operation guidance start signal, the
図7では、ユーザ101が、MFP10のタッチパネル25に表示中の画像データ301を見ながら、MFP10に対して「ファイルをスキャンして長谷不動産に送りたいのです。」との音声を発した状況が想定される。
In FIG. 7, the
ユーザ101により発せられた音声が、マイクロホン18を介してMFP10に入力されると、MFP10は、当該音声のデータであるユーザ音声データ400を案内サーバ50に送信する。ここにおいて、ユーザ音声データ400は、リアルタイムで(随時)案内サーバ50に送信されている。
When voice uttered by the
当該ユーザ音声データ400が案内サーバ50により受信された後の動作を図10のフローチャートを参照して説明する。案内サーバ50(具体的には、受信部54b)がユーザ音声データ400を受信すると(ステップS20)、音声認識部64は、ユーザ音声データ400に非無音部分が存在するか否かを判定する(ステップS21)。非無音部分が存在していることが判定されると、つぎに音声認識部64は、ユーザ音声データ400に所定時間以上の無音部分が存在するか否かを判定する(ステップS22)。
The operation after the
ユーザ音声データ400に所定時間以上の無音部分が存在していることが判定される場合に、音声認識部64は、ユーザ音声データ400の一部の音声データである部分音声データ430を抽出する(ステップS23)。換言すれば、ユーザ音声データ400のうち、所定時間の無音状態が経過した時点を終端とするように区分した部分音声データが部分音声データ430として抽出される。
When it is determined that there is a silent part for a predetermined time or longer in the
ここにおいて、部分音声データ430は、ユーザ音声データ400のうち、非無音部分の開始時点と、当該非無音部分の終端時点から所定時間の無音状態が経過した時点とに挟まれた区間(期間)の音声データである。ユーザ音声データ400には無音部分と非無音部分とが存在し、ユーザ音声データ400は当該無音部分等によって複数の部分音声データ430に区分される。
Here, the
なお、当該無音部分の存否判定のための所定時間は、比較的短い期間(たとえば0.5秒)に設定されることが好ましい。当該無音部分の所定時間が比較的短い期間に設定されることによれば、部分音声データ430も比較的短い期間のデータとして音声認識部64により抽出される。その結果、部分音声データ430に対応する合成音声データ450のサポータ端末70への送信遅延を抑制することが可能である(後述)。
In addition, it is preferable that the predetermined time for the presence / absence determination of the silent portion is set to a relatively short period (for example, 0.5 seconds). When the predetermined time of the silent part is set to a relatively short period, the
部分音声データ430がステップS23において抽出されると、案内サーバ50(具体的には、音声生成部65)は、部分音声データ430に対する音声認識処理によって、当該部分音声データ430に秘匿ワード110が含まれるか否かを判定する(ステップS24)。
When the
部分音声データ430内に秘匿ワード110が含まれる旨が音声認識部64によって判定される場合には、音声生成部65は、変換辞書651(図9参照)に基づいて、秘匿ワード110に対応する代替ワード210の音声データである代替音声データ250を生成する(ステップS25)。
When the
より詳細には、ステップS24では、音声生成部65は、ユーザ101により発せられた部分音声データ430に秘匿ワード111「長谷不動産」が含まれる旨を、変換辞書651に基づいて判定する。そして、この判定に応じて、ステップS25では、音声生成部65は、秘匿ワード111「長谷不動産」に対応する代替ワード211「ABC」の代替音声データ250(251)を機械音声生成処理により生成する。なお、代替音声データ250は、人間の声を模して人工的に生成された音声データ(機械音声データ)である。
More specifically, in step S <b> 24, the
代替音声データ251がステップS25において生成されると、音声生成部65は、部分音声データ430内の秘匿ワード110の音声データである秘匿音声データ150(151を)、当該代替音声データ251に置き換えたデータである合成音声データ450(451)を生成する(ステップS26)。そして、案内サーバ50は、合成音声データ450をサポータ端末70での音声出力用データとしてサポータ端末70に送信する(ステップS27)。なお、秘匿音声データ150は、MFP10において録音されたユーザ101の音声(秘匿ワード110に対応する音声)の音声データ(録音音声データ)である。
When the
一方、部分音声データ430に秘匿ワード110が含まれない旨が判定される場合には、音声生成部65は、ステップS25およびS26の処理を行わず、部分音声データ430をそのまま合成音声データ450として利用する。すなわち、部分音声データ430がサポータ端末70に送信されて、部分音声データ430がそのまま出力される。
On the other hand, when it is determined that the secret word 110 is not included in the
合成音声データ450(451)を受信したサポータ端末70は、スピーカ77を介して、部分音声データ430に代えて合成音声データ450(451)を出力する。具体的には、サポータ端末70において、ユーザ101の発した音声のうち、「ファイルをスキャンして」および「に送りたいのです。」は、ユーザ101の発した音声により出力され、秘匿ワード111である「長谷不動産」は、代替音声データ251による「ABC」に変更されて出力される。
The
図11は、合成音声データ451の生成に関する音声処理を示す図である。図11において、ユーザ101により発せられた音声である「ファイルをスキャンして長谷不動産に送りたいのです。」の部分音声データ431(430)には、秘匿ワード111「長谷不動産」が含まれる。この場合において、音声生成部65は、部分音声データ431に含まれる秘匿ワード111「長谷不動産」の秘匿音声データ150(151)を、秘匿ワード111に対応する代替ワード211「ABC」の代替音声データ250(251)に置き換えて、合成音声データ451(450)を生成する。換言すると、音声生成部65は、部分音声データ430(431)のうち秘匿ワード111を除いた部分の音声データと、代替音声データ250(251)とを合成して合成音声データ450(451)を生成する。
FIG. 11 is a diagram illustrating audio processing related to generation of the synthesized
以上のような動作によれば、ユーザ101により操作されるMFP10の表示画面内に秘匿ワード110が含まれる場合に、秘匿ワード110を代替ワード210に置き換えた合成画像データ350(351)がサポータ端末70に送信されるので、当該秘匿ワード110がサポータ端末70の表示部76bに表示されない。したがって、ユーザ101により操作されるMFP10の表示画面内に含まれる機密情報の漏洩を回避することが可能である。
According to the above operation, when the secret word 110 is included in the display screen of the
また、特に、ユーザ101の発した音声の部分音声データ430内に秘匿ワード110が含まれる旨が判定される場合に、部分音声データ430(431)内の秘匿音声データ150(151)を代替音声データ251に置き換えた合成音声データ450(451)がサポータ端末70に送信される。したがって、ユーザ101により発せられた秘匿ワード110の音声がサポータ端末70へとそのまま送信されない。その結果、ユーザ101の音声に含まれる機密情報の漏洩を回避することが可能である。
In particular, when it is determined that the secret word 110 is included in the
また、仮に、ユーザ101により発せられた音声のユーザ音声データ400から部分音声データ430を抽出しない場合には、ユーザ音声データ400の長さ(ユーザ101の音声の時間)が大きくなり、サポータ端末70への合成音声データ450の送信が大きく遅延する。一方、第1実施形態においては、ユーザ101の発した音声のユーザ音声データ400が比較的短い期間で区切られ、ユーザ音声データ400から複数の部分音声データ430が順次に抽出され、当該複数の部分音声データ430がサポータ端末70に順次に送信される。すなわち、部分音声データ430に対応する合成音声データ450は、ユーザ音声データ400のうち部分音声データ430の次の部分に対する処理の終了を待つことなく、比較的早期にサポータ端末70に送信され得る。したがって、サポータ端末70への音声データの送信の遅延を抑制することが可能である。
Further, if the
<第2実施形態>
第2実施形態は、第1実施形態の変形例である。以下では、第1実施形態との相違点を中心に説明する。
Second Embodiment
The second embodiment is a modification of the first embodiment. Below, it demonstrates centering on difference with 1st Embodiment.
第1実施形態においては、画像生成部61による合成画像データ351の生成が完了した直後に、合成音声データ451の送信タイミングを考慮することなく、当該合成画像データ350が案内サーバ50からサポータ端末70に送信される。そのため、図12に示すような問題が生じ得る。
In the first embodiment, immediately after the generation of the
図12においては、ユーザ101による発声中(詳細には部分音声データ430の生成中(録音中))に、ユーザ101の操作に応じて、MFP10のタッチパネル25の表示画像が画像データ301に基づく画像から画像データ302(後述)に基づく画像へと切り替えられている。たとえば、ユーザ101が画像データ301に基づく画像を見ながら喋っているにもかかわらず、喋っている途中で先回りして操作画面を切り換える操作をも行うような状況が想定される。
In FIG. 12, during the utterance by the user 101 (specifically, during generation of the partial audio data 430 (during recording)), the display image on the
また、図12においては、画像データ302に関する合成画像データ352の生成が完了した直後に、合成音声データ451の送信タイミングとの関係を考慮することなく、合成画像データ352が案内サーバ50からサポータ端末70に送信されている。そして、この送信動作に応じて、サポータ端末70における表示画像は、合成画像データ351に基づく画像から合成画像データ352に基づく画像へと変更される。さらに、当該表示画像の変更後(換言すれば、新たな合成画像データ352に基づく画像の表示中)において、部分音声データ430に対応する合成音声データ451がサポータ端末70にて出力される。
In FIG. 12, immediately after the generation of the
その結果、元の画像データ301に基づく画像を見ながら発せられた音声に対応する合成音声データ451が、本来は合成画像データ351の表示中に出力されるべきであるにもかかわらず、合成画像データ352(画像データ301の次の画像データ302に対応する合成画像データ)の表示中に出力される。このような画像と音声との「ずれ」に起因して、サポータ102の混乱が生じる可能性がある。
As a result, the
なお、画像データ302は、表示画像データ301に基づく表示画像に引き続いてMFP10のタッチパネル25に表示された表示画像の画像データである。
Note that the
第2実施形態では、このような問題に鑑みて、合成音声データ451の送信完了後の所定時点まで(詳細には、合成音声データ451の送信完了から合成音声データ451の出力所要時間が経過する時点まで)、合成画像データ352の送信を停止させる態様を例示する。
In the second embodiment, in view of such a problem, a required output time of the synthesized
図13は、第2実施形態に係る画像データ300および部分音声データ430の送信タイミング等を示すタイミングチャートである。
FIG. 13 is a timing chart showing transmission timings and the like of the
第2実施形態では、ユーザ101による発声中(詳細には、部分音声データ430の生成中)に、ユーザ101が先回りして操作画面の切換操作を行い、ユーザ101の操作に応じて、MFP10のタッチパネル25の表示画像が画像データ301に基づく画像から画像データ302に基づく画像へと切り替えられた状況を想定する。また、部分音声データ430は、画像データ301の表示中にユーザ101により発せられた音声をその冒頭部分等に含む音声データである。以下、音声処理および画像処理に関して順次に説明する。
In the second embodiment, during the utterance by the user 101 (specifically, during the generation of the partial audio data 430), the
まず、音声処理に関して、図14を参照し、図10と比較しながら説明する。図14は、第2実施形態に係るユーザ音声データ400の音声処理等を示すフローチャートである。
First, voice processing will be described with reference to FIG. 14 and comparison with FIG. FIG. 14 is a flowchart showing voice processing and the like of the
図14においては、ステップS21とステップS22との間にステップS41が設けられ、ステップS27の後にステップS42とステップS43とが設けられている。具体的には、案内サーバ50は、非無音部分がユーザ音声データ400内に存在する旨が音声認識部64により判定されると(ステップS21)、停止フラグFGをオン(ON)に変更する(ステップS41)。
In FIG. 14, step S41 is provided between step S21 and step S22, and step S42 and step S43 are provided after step S27. Specifically, the
ここにおいて、停止フラグFGは、格納部55に格納されるフラグ情報であり、音声認識部64あるいは音声生成部65により制御される。停止フラグFGは、オン(ON)またはオフ(OFF)に設定(変更)される。案内サーバ50の送信部54aは、当該停止フラグFGがONであるかOFFであるかによって画像の送信を行うか否かを決定する。停止フラグFGがONであれば、送信部54aは画像を送信しない。停止フラグFGがOFFであれば、送信部54aは画像を送信する。
Here, the stop flag FG is flag information stored in the
この停止フラグFGがONに変更された後、案内サーバ50は、図10と同様に、ステップS22〜S27の各処理を実行する。これにより、部分音声データ430に対応する合成音声データ450がサポータ端末70に送信される。
After the stop flag FG is changed to ON, the
案内サーバ50がサポータ端末70に合成音声データ450を送信すると、サポータ端末70は合成音声データ450を出力する。そして、案内サーバ50による合成音声データ450の送信完了から合成音声データ450の出力所要時間が経過すると(ステップS42)、案内サーバ50は停止フラグFGをOFFに変更する(ステップS43)。
When the
なお、出力所要時間(再生所要時間)は、合成音声データ450の出力(再生)に要する時間である。当該出力所要時間は、部分音声データ430(合成音声データ450)の録音時間であるとも表現される。出力所要時間は、音声認識部64によって取得されればよい。ただし、これに限定されず、合成音声データ450の生成中に音声生成部65が出力所要時間を算出してもよい。あるいは、合成音声データ450の出力が終了した旨の信号をサポータ端末70が案内サーバ50に送信し、当該出力所要時間が経過したことがサポータ端末70から案内サーバ50に通知されるようにしてもよい。
The required output time (required reproduction time) is the time required for outputting (reproducing) the synthesized
このようにして、合成音声データ450が案内サーバ50からサポータ端末70に送信され、サポータ端末70にて合成音声データ450が出力される。ユーザ音声データ400における非無音部分の検出時点(部分音声データ430(431)の開始時点)と、当該部分音声データ430(431)に対応する合成音声データ450(451)の送信完了から当該合成音声データ450(451)の出力所要時間(再生所要時間)が経過した時点との間の期間T1(図13参照)においては、停止フラグFGはオン(ON)に設定される。一方、それ以外の期間(たとえばユーザ音声データ400における無音部分(部分音声データ430ではないと判定される部分)の受信期間)においては、停止フラグFGはオフ(OFF)に設定される。
In this way, the
つぎに、画像処理に関して、図15を参照し、図8と比較しながら説明する。図15は、第2実施形態に係る画像処理等を示すフローチャートである。以下では、図15を参照しながら、画像データ301の次の画像データ302に関する画像処理について説明する。画像データ301に関する画像処理は、第1実施形態と同様の動作(図8参照)により既に終了しているものとする。
Next, image processing will be described with reference to FIG. 15 and a comparison with FIG. FIG. 15 is a flowchart showing image processing and the like according to the second embodiment. Hereinafter, image processing relating to image
図15に示すように、ステップS32〜S35の各処理は、図8におけるステップS12〜S15の各処理と同様である。なお、サポート依頼の信号の送受信動作は画像データ301の送信前に既に終了しているので、図8のステップS11の処理は図15においては記載されていない。
As shown in FIG. 15, each process of step S32-S35 is the same as each process of step S12-S15 in FIG. Since the support request signal transmission / reception operation has already ended before the transmission of the
図15では、ステップS34とステップS35との間にステップS36が設けられている。ステップS36では、画像生成部61により生成された合成画像データ352をサポータ端末70に送信する前に、案内サーバ50(具体的には、送信部54a)が、図14の音声処理にて設定された停止フラグFGの値(ONであるかOFFであるか)を認識する。
In FIG. 15, step S36 is provided between step S34 and step S35. In step S36, before transmitting the
停止フラグFGがOFFであると認識される場合には、案内サーバ50は、合成画像データ352の送信を許可し、合成画像データ352をサポータ端末70に送信する(ステップS35)。一方、停止フラグFGがONであると認識される場合には(具体的には、ステップS22〜S27,S41〜S43の処理を案内サーバ50が行っている場合には)、案内サーバ50は、合成画像データ352の送信を禁止し、合成画像データ352はサポータ端末70に送信されない。
If it is recognized that the stop flag FG is OFF, the
上述のように、期間T1(図13参照)においては、停止フラグFGがオン(ON)に設定されている。そのため、図13に示すように、上述の期間T1内に新たな画像データ302を受信した案内サーバ50は、画像処理により合成画像データ352を生成するものの、期間T1内においてはサポータ端末70に合成画像データ352を送信しない。
As described above, the stop flag FG is set to ON (ON) in the period T1 (see FIG. 13). Therefore, as shown in FIG. 13, the
その後、期間T1が終了し、停止フラグFGがオン(ON)からオフ(OFF)に変更されると、案内サーバ50は合成画像データ352をサポータ端末70に送信する。
Thereafter, when the period T1 ends and the stop flag FG is changed from on (ON) to off (OFF), the
このように、当該期間T1(図13参照)に、案内サーバ50が新たな画像データ302を受信する場合には、案内サーバ50(具体的には、送信部54a)は、当該期間T1の終了時点までは新たな合成画像データ352の送信を許可せず且つ当該期間T1の終了後に合成画像データ352の送信を許可する。
Thus, when the
以上のような動作によれば、案内サーバ50は、部分音声データ430の受信が開始されると新たな合成画像データ352の送信を許可せず、合成音声データ450(451)の送信完了時点以後の所定の時点において合成画像データ352の送信を許可するので、サポータ端末70の表示部76bにおける合成画像データ351から合成画像データ352への画像の変更は、合成音声データ450の送信完了後に行われる。したがって、画像データ301を見ながら発せられたユーザ101の音声が、当該音声の伝達の遅延に起因して合成画像データ352(画像データ301の次の画像データ302に対応する画像)の表示中にサポータ端末側で出力されることを抑制あるいは回避することが可能である。
According to the operation as described above, the
端的に言えば、サポータ端末70において、合成画像データ351に基づく画像の表示のタイミングと合成音声データ451に基づく音声の出力のタイミングとのずれを抑制あるいは回避することが可能である。その結果、サポータ102が混乱することなくユーザ101に的確な操作案内をすることが可能である。
In short, in the
また、特に、合成音声データ451の送信完了から当該合成音声データ451の出力所要時間(再生所要時間)が経過した時点以後において、停止フラグFGがオンからオフに変更され合成画像データ352の送信が許可されることが好ましい。これによれば、合成画像データ351に基づく画像の表示のタイミングと合成音声データ451に基づく音声の出力のタイミングとのずれを更に抑制あるいは回避することが可能である。
In particular, the stop flag FG is changed from on to off and the
なお、この第2実施形態等においては、ユーザ音声データ400に所定時間以上の無音部分が存在する場合に、音声認識部64は、ユーザ音声データ400の非無音部分の開始時点から次の無音部分の開始時点までの音声データを部分音声データ430として抽出することを例示した。しかしながら、本発明は、これに限定されない。
In the second embodiment or the like, when the
たとえば、第2実施形態(あるいは第1実施形態)において、案内サーバ50により合成画像データ350が受信された時点を終端とするように区分した部分の音声データがユーザ音声データ400から部分音声データ430として抽出されるようにしてもよい。換言すれば、ユーザ101による操作画面の切換時点でユーザ音声データ400が区切られて、ユーザ音声データ400の一部の音声データである部分音声データ430が抽出されるようにしてもよい。
For example, in the second embodiment (or the first embodiment), the audio data of a part divided so as to end at the time when the
図17は、このような改変例の動作を示すフローチャートである。 FIG. 17 is a flowchart showing the operation of such a modification.
図17においては、ステップS22の判定処理に加えてステップS44の判定処理も行われる。両判定処理(ステップS22,S44)のいずれかで「YES」と判定されるとステップS23に進み、部分音声データ430が抽出される。なお、ステップS44では、新たな画像データを受信したか否かが判定される。
In FIG. 17, in addition to the determination process of step S22, the determination process of step S44 is also performed. If “YES” is determined in either of the determination processes (steps S22 and S44), the process proceeds to step S23, and the
たとえば、所定時間以上の無音部分が存在しない旨がステップS22で判定されたとしても、新たな画像データ302が受信された旨がステップS44で判定されると、ステップS23に進む。このステップS23では、音声認識部64は、ユーザ音声データ400のうち、新たな表示画像の画像データ302の受信時点を終端とするように区分した部分音声データを、部分音声データ430として抽出する。
For example, even if it is determined in step S22 that there is no silent part longer than a predetermined time, if it is determined in step S44 that
図16は、この態様に係る動作のタイミング等を示すタイミングチャートである。 FIG. 16 is a timing chart showing operation timing and the like according to this aspect.
図16に示すように、MFP10において画像データ301に基づく画像を見ながら発せられたユーザ101のユーザ音声データ400は、画像データ302が案内サーバ50により受信された時点で区切られる。案内サーバ50の音声認識部64は、MFP10から送信されるユーザ音声データ400のうち、ユーザ音声データ400の非無音部分の開始時点から新たな画像データ302を受信した時点までの部分の音声データを部分音声データ431(430)として抽出する。
As shown in FIG. 16, the
案内サーバ50は、当該部分音声データ431に関する合成音声データ451を生成し、合成音声データ451をサポータ端末70に送信する。そして、サポータ端末70において合成音声データ451が出力される。
The
一方、新たな画像データ302は、案内サーバ50による画像処理によって合成画像データ352に変更される。そして、案内サーバ50は、合成音声データ451の送信が完了してから合成音声データ451の出力所要時間が経過した後に、合成画像データ352をサポータ端末70に送信する。その後、サポータ端末70の表示部76bにおいて合成画像データ352に基づく画像が表示される。
On the other hand, the
これによれば、ユーザ101の音声が画像データ301から画像データ302への変更時点で区切られるので、比較的短い期間を有する部分音声データ431を抽出することができる。したがって、合成音声データ451のサポータ端末70への送信遅延を更に抑制することが可能である。
According to this, since the voice of the
また、部分音声データ431には、画像データ301を閲覧しながら発せられた音声のみが含まれる(次の画像データ302を閲覧しながら発せられた音声は含まれない)。したがって、サポータ端末70において、表示される画像(合成画像データ351に基づく画像)と出力される音声(合成音声データ451に基づく音声)とのずれを更に抑制あるいは回避することが可能である。
Further, the
<第3実施形態>
第3実施形態は、第1実施形態の変形例である。以下では、第1実施形態との相違点を中心に説明する。
<Third Embodiment>
The third embodiment is a modification of the first embodiment. Below, it demonstrates centering on difference with 1st Embodiment.
第1実施形態においては、ユーザ101により発せられた音声のユーザ音声データ400を案内サーバ50が受信すると、音声生成部65は、当該音声に含まれる秘匿ワード110に対応する代替音声データ250(251)を生成し、当該代替音声データ250を利用して合成音声データ450(451)を生成する態様を例示した。第1実施形態においては、音声生成部65は代替音声データ250を逐次生成し、生成された代替音声データ251は格納されない。
In the first embodiment, when the
第3実施形態では、合成音声データ450の生成に先立つ所定の時点(具体的には、サポート依頼信号を案内サーバ50が受信した時点)で、複数の秘匿ワード110に対応する複数の代替音声データ250の生成が音声生成部65により開始され、生成された代替音声データ250が案内サーバ50の格納部55に予め格納される。そして、ユーザ音声データ400に秘匿ワード110が含まれ且つ秘匿ワード110に対応する代替音声データ250が格納部55に既に格納されている場合には、格納部55に予め格納されている代替音声データ250を用いて合成音声データ450が音声生成部65により生成される。
In the third embodiment, a plurality of alternative voice data corresponding to a plurality of secret words 110 at a predetermined time (specifically, when the
図18は、第3実施形態に係る動作に関するタイミングを示す図であり、図19は、第3実施形態に係るユーザ101のユーザ音声データ400に対する音声処理を示すフローチャートである。図18および図19を参照して具体的に説明する。
FIG. 18 is a diagram illustrating timing related to the operation according to the third embodiment, and FIG. 19 is a flowchart illustrating audio processing on the
サポートセンターに対するサポート依頼のために、ユーザ101が、MFP10の操作パネル6cに配設されたヘルプボタン(不図示)を押下すると、MFP10は、ユーザ101からの操作案内の発生を示すサポート依頼の信号を案内サーバ50に送信する。
When the
案内サーバ50は、MFP10からサポート依頼信号を受信すると(ステップS11(図19))、複数の秘匿ワード110(後述)のリストである秘匿ワードリスト602(図20参照)をもMFP10から受信する。
When the
当該秘匿ワードリスト602には、当該複数の秘匿ワード110が登録されている。そして、案内サーバ50は、当該秘匿ワードリスト602に基づいて変換辞書652(図20参照)を生成する。生成された変換辞書652では、秘匿ワード110と、当該秘匿ワード110にそれぞれ対応する代替ワード210とが登録されている。
In the
ここにおいて、複数の秘匿ワード110は、MFP10のスキャン画像送信における宛先指定画面内の送信宛先を示す語句(ワード)と、MFP10のファクシミリ送信における宛先指定画面に含まれる送信宛先を示す語句と、MFP10のボックスに格納されたファイルに関する情報表示画面に表示されるファイル情報を示す語句とを含む。換言すれば、当該複数の秘匿ワード110には、複数の動作モードのそれぞれにて秘匿すべき複数の種類の語句が含まれる。ただし、秘匿ワード110は、これらの語句の全てを含むことを要さず、これらの語句の一部を含むものであってもよい。
Here, the plurality of concealment words 110 are words (words) indicating a transmission destination in the destination designation screen in the scan image transmission of the
案内サーバ50によるサポート依頼信号の受信に応答して、音声生成部65は、変換辞書652に基づいて、複数の秘匿ワード110に対応する代替音声データ250の生成を開始する(ステップS51)(図18も参照)。また、案内サーバ50は、生成した代替音声データ250を案内サーバ50の格納部55に順次に格納する(ステップS52)。
In response to the reception of the support request signal by the
操作案内の開始信号の送受信に伴う所定の時点において、案内サーバ50は、画像データ300(301)をMFP10から受信し、変換辞書652に基づいて画像処理を行い、合成画像データ350(351)を生成する。そして、案内サーバ50は、生成した合成画像データ350(351)をサポータ端末70に送信する(図18参照)。
At a predetermined time point accompanying transmission / reception of the operation guidance start signal, the
複数の代替音声データ250の生成中あるいは生成完了後において、案内サーバ50は、ユーザ音声データ400を受信し(ステップS20)、ステップS21〜S24の各処理を実行する(図19参照)。その後、部分音声データ430に秘匿ワード110が含まれていることがステップS24において判定されると、ステップS53に進む。
During or after the generation of the plurality of
ステップS53では、秘匿ワード110に対応する代替音声データ250が案内サーバ50の格納部55に格納されているか否かが音声生成部65により判定される。
In step S <b> 53, the
秘匿ワード110に対応する代替音声データ250が格納部55に格納されていることが判定される場合には、音声生成部65は、既に格納されている代替音声データ250(251)を格納部55から取得する(ステップS54)。そして、音声生成部65は当該代替音声データ251を用いて合成音声データ450(451)を生成し(ステップS26)、案内サーバ50は合成音声データ450をサポータ端末70に送信する(ステップS27)。
When it is determined that the
たとえば、秘匿ワード111「長谷不動産」に対応する代替音声データ251「ABC」(図20)が格納部55に格納されていることが判定される場合には、音声生成部65は、格納されている代替音声データ251「ABC」を格納部55から取得する。そして、音声生成部65は、当該代替音声データ251「ABC」を用いて合成音声データ451を生成し、案内サーバ50は合成音声データ451をサポータ端末70に送信する。合成音声データ451を受信したサポータ端末70においては、合成音声データ451に基づく音声が出力される。
For example, when it is determined that the
一方、代替音声データ250が格納部55に格納されていないことがステップS54において判定される場合には、音声生成部65は、秘匿ワード110に対応する代替音声データ250を機械音声生成処理により生成する(ステップS25)。そして、音声生成部65は、生成した代替音声データ250を格納部55に格納し(ステップS55)、ステップS26に進む。ステップS26では、ステップS25で生成された代替音声データ250を用いて合成音声データ450が生成される。
On the other hand, when it is determined in step S54 that the
以上のような動作によれば、ユーザ101からのサポート依頼信号を案内サーバ50が受信すると、複数の代替音声データ250の生成が開始され、生成された代替音声データ250が格納部55に予め格納される。そして、ユーザ音声データ400に秘匿ワード110が含まれ且つ代替音声データ250が既に格納部55に格納されている旨が判定される場合には、格納されている代替音声データ250(251)を用いて合成音声データ450(451)が生成される。この場合、既に存在する代替音声データ250が利用されるため、代替音声データ250(251)が新たに生成されることを要しない。したがって、たとえばユーザ音声データ400に秘匿ワード110が含まれる旨が判定された時点から代替音声データ250(251)の生成を開始する場合と比べて、代替音声データ251の準備時間が短縮され、合成音声データ451の生成に要する時間が短縮される。その結果、サポータ端末70への合成音声データ451の送信の遅延を抑制することが可能である。
According to the operation as described above, when the
また、上記第3実施形態では、MFP10における複数の動作モード(スキャンモード、ファクシミリ送信モード、ボックスモード等)で表示され得る複数の秘匿ワード110に対応する複数の代替音声データ250が順次に生成されている。上記においては、複数の代替音声データ250の生成順序については特に言及していないが、次述するような優先順序で複数の代替音声データ250が生成されるようにしてもよい。
In the third embodiment, a plurality of
たとえば、MFP10における複数の動作モードで表示され得る複数の秘匿ワード110のうち、ユーザ101により操作されているMFP10の現在の動作モードにて表示され得る秘匿ワード110に対応する代替音声データ250が優先的に生成されるようにしてもよい。
For example, among the plurality of secret words 110 that can be displayed in a plurality of operation modes in the
より具体的には、MFP10の現在の動作モードがスキャンモードであるときには、音声生成部65は、複数の秘匿ワード110のうち、スキャンモード(現モード)にて表示され得る1つまたは複数の画像(宛先指定画面301等)に含まれる秘匿ワード110を優先処理対象ワードとして決定する。そして、音声生成部65は、当該優先処理対象ワードに対応する代替音声データ250を生成し、生成した代替音声データ250を格納部55に格納する。
More specifically, when the current operation mode of the
これによれば、現在の動作モードにて表示され得る秘匿ワード110に対応する代替音声データ250が優先的に生成されるので、ユーザ101により発せられる可能性の高い秘匿ワード110に対応する代替音声データ250を予め生成しておくことが可能である。したがって、合成音声データ450の生成の際に、格納部55に格納されている代替音声データ250が用いられる可能性が高くなる。
According to this, since the
あるいは、秘匿ワード110の使用頻度に基づく優先順位に従って、複数の代替音声データ250が順次に生成されるようにしてもよい。
Alternatively, a plurality of
具体的には、秘匿ワードリスト602の受信に際して、案内サーバ50は、秘匿ワード110のそれぞれの使用頻度をもMFP10から受信し、当該秘匿ワードリスト602および使用頻度に基づいて変換辞書652を生成する(図20参照)。そして、音声生成部65は、変換辞書652に登録されている複数の秘匿ワード110のうち、使用頻度が多い秘匿ワード110から順に、対応する代替音声データ250を生成し、生成した代替音声データ250を格納部55に格納する。
Specifically, when receiving the
図20では、秘匿ワード111の「長谷不動産」の使用頻度は10であり、秘匿ワード112の「高橋電器」の使用頻度は20であり、秘匿ワード113の「松原工務店」の使用頻度は5である。この場合、3つの秘匿ワード112,111,113に着目すると、音声生成部65は、秘匿ワード112,111,113の順にそれぞれ対応する代替音声データ250を生成する。すなわち、代替音声データ252,251,253が、この順序で生成される。
In FIG. 20, the usage frequency of “Hase Real Estate” in the
なお、変換辞書652に記述された秘匿ワード110の使用頻度は、MFP10を使用する複数のユーザによる秘匿ワード110の使用頻度(換言すれば、MFP10の使用頻度)であってもよく、あるいは、現在MFP10を操作しているユーザ101(ログインユーザ)による秘匿ワード110の使用頻度であってもよい。
Note that the usage frequency of the secret word 110 described in the
このように、秘匿ワード110の使用頻度に基づく優先順位(のみ)に従って、複数の代替音声データ250が順次に生成されるようにしてもよい。これによれば、ユーザ101により発せられる可能性の高い秘匿ワード110に対応する代替音声データ250を予め生成しておくことが可能である。したがって、合成音声データ450の生成の際に、格納部55に格納されている代替音声データ250が用いられる可能性が高くなる。
As described above, a plurality of
さらには、現在のスキャンモードと使用頻度との双方を考慮した優先順位に従って、複数の代替音声データ250が順次に生成されるようにしてもよい。
Furthermore, a plurality of
また、上記第3実施形態等においては、ユーザ101からのサポート依頼信号を案内サーバ50が受信したことに応答して、複数の代替音声データ250の生成が開始される態様が例示されているが、これに限定されない。
Moreover, in the said 3rd Embodiment etc., although the
たとえば、画像データ300を案内サーバ50が受信すると、当該画像データ300に含まれている秘匿ワード110に対応する代替音声データ250の生成が開始されるようにしてもよい。
For example, when the
具体的には、案内サーバ50による画像データ300(301)の受信に応答して、音声生成部65は、当該画像データ300に含まれている複数の秘匿ワード110に対応する複数の代替音声データ250の生成を開始する。なお、生成された代替音声データ250は格納部55に格納される。たとえば、秘匿ワード111,112,113に対応する代替音声データ251,252,253が生成され、格納部55に随時格納される。
Specifically, in response to the reception of the image data 300 (301) by the
これら複数の代替音声データ250の生成中あるいは生成完了後において、図19のステップS20以降の動作と同様の動作が実行される。具体的には、ユーザ音声データ400に秘匿ワード110が含まれ且つ秘匿ワード110に対応する代替音声データ250が格納部55に既に格納されている場合には、格納部55に格納されている当該代替音声データ250を用いて合成音声データ450が生成される。一方、ユーザ音声データ400に秘匿ワード110が含まれ且つ秘匿ワード110に対応する代替音声データ250が格納部55に格納されていない場合には、当該代替音声データ250が機械音声生成処理により生成され、生成された当該代替音声データ250を用いて合成ユーザ音声データが生成される。
During the generation of the plurality of
これによれば、受信した画像データ300に含まれている秘匿ワード110に対応する代替音声データ250が優先的に生成されるので、ユーザ101により発せられる可能性が比較的高い秘匿ワード110に対応する代替音声データ250が予め生成され得る。したがって、合成音声データ450の生成の際に、格納部55に格納されている代替音声データ250が用いられる可能性を向上させることができる。
According to this, since the
また、このような改変例において、上述の使用頻度に基づく優先順位に従って、複数の代替音声データ250が順次に生成されるようにしてもよい。すなわち、受信した画像データ300に含まれる複数の秘匿ワードの使用頻度に基づく優先順位に従って、当該複数の秘匿ワード110に対応する複数の代替音声データ250が生成されるようにしてもよい。
In such a modification, a plurality of
<第4実施形態>
第4実施形態は、第1実施形態の変形例である。以下では、第1実施形態との相違点を中心に説明する。
<Fourth embodiment>
The fourth embodiment is a modification of the first embodiment. Below, it demonstrates centering on difference with 1st Embodiment.
第1実施形態においては、部分音声データ430を案内サーバ50が受信すると、当該部分音声データ430に含まれた秘匿ワード110に対応する代替音声データ250(251)が、その都度、音声生成部65により生成される。そして、音声生成部65は、当該代替音声データ250を利用して合成音声データ450(451)を生成する。第1実施形態においては、音声生成部65は代替音声データ250を逐次生成し、生成された代替音声データ251は格納されない。
In the first embodiment, when the
この第4実施形態では、音声生成部65により生成された(すなわち、合成音声データ450の生成に利用された)代替音声データ250が案内サーバ50の格納部55に格納される。そして、格納部55に格納されている代替音声データ250を用いて合成音声データ450が生成される。
In the fourth embodiment, the
第4実施形態では、ユーザ101により発せられたユーザ音声データ400のうち、部分音声データ431とは異なる部分音声データ432(後述)を案内サーバ50が受信した状況を想定する。格納部55に予め格納された代替音声データ250に対応する秘匿ワード110が当該部分音声データ432内に含まれる場合には、音声生成部65は、当該格納された代替音声データ250を用いて合成音声データ452を生成する。
In the fourth embodiment, it is assumed that the
ここにおいて、部分音声データ432は、ユーザ音声データ400のうち、部分音声データ431の次に音声認識部64が抽出した部分の音声データである。
Here, the
図21は、第4実施形態に係る案内サーバ50の音声処理に関する動作を示すフローチャートである。
FIG. 21 is a flowchart showing an operation related to voice processing of the
案内サーバ50はユーザ音声データ400を受信し(ステップS21)、ステップS21〜S23の処理を実行することにより音声認識部64は部分音声データ430を抽出する。その後、音声認識部64は、当該部分音声データ430に対する音声認識処理によって、部分音声データ430に秘匿ワード110が含まれるか否かを判定する(ステップS24)。そして、部分音声データ430内に秘匿ワード110が含まれる旨が判定される場合には、音声生成部65は、当該秘匿ワード110に対応する代替音声データ250が格納部55に格納されているか否かを判定する(ステップS62)。
The
秘匿ワード110に対応する代替音声データ250が格納部55に格納されていないことが判定される場合には、音声生成部65は、秘匿ワード110に対応する代替音声データ250を生成し(ステップS25)、生成した代替音声データ250を格納部55に格納する(ステップS64)。そして、音声生成部65は、部分音声データ430内の秘匿音声データ150を、生成した代替音声データ250に置き換えた合成音声データ450を生成する(ステップS26)。当該合成音声データ450はサポータ端末70に送信される(ステップS27)。
When it is determined that the
一方、当該代替音声データ250が格納部55に格納されていることが判定される場合には、音声生成部65は、格納されていた代替音声データ250を格納部55から取得する(ステップS63)。
On the other hand, when it is determined that the
そして、音声生成部65は、部分音声データ430内の秘匿音声データ150を、取得した代替音声データ250に置き換えた合成音声データ450を生成する(ステップS26)。当該合成音声データ450はサポータ端末70に送信される(ステップS27)。
Then, the
図22は、第4実施形態における画像データ300および部分音声データ431,432に関するタイミングを示す図である。また、図23は、或る合成音声データ450(451)の生成に利用された代替音声データ250(251)が格納部55へ格納される状況を示す図であり、図24は、別の合成音声データ450(452)の生成の際に、既に格納されている代替音声データ250(251)が用いられる状況を示す図である。
FIG. 22 is a diagram illustrating timings related to the
図22〜図24をも参照しながら、或る合成音声データ451の生成に際して利用された代替音声データ251が予め格納部55に格納され、格納済みの代替音声データ251を用いて別の合成音声データ452が生成される動作について説明する。
With reference to FIGS. 22 to 24 as well,
まず、案内サーバ50は、ユーザ音声データ400から部分音声データ431を抽出する(ステップS23)。たとえば、図23では、ユーザ101により発せられた音声のうち、「ファイルをスキャンして長谷不動産に送りたいのです。」の部分の音声のデータが部分音声データ431として抽出される状況が示されている。
First, the
その後、音声認識部64は、部分音声データ431内に秘匿ワード111「長谷不動産」が含まれる旨を判定する(ステップS24)。この時点では、秘匿ワード111に対応する代替音声データ250は、格納部55には格納されていないので、ステップS24からステップS62を経てステップS25に進む。そして、音声生成部65は、秘匿ワード111「長谷不動産」に対応する代替ワード211「ABC」の代替音声データ251を生成し(ステップS25)、生成した代替音声データ251(「ABC」)を案内サーバ50の格納部55に格納する(ステップS64)。
Thereafter, the
そして、音声生成部65は、生成した代替音声データ251(「ABC」)を用いて合成音声データ451を生成し(ステップS26)、案内サーバ50は当該合成音声データ451をサポータ端末70に送信する(ステップS27)。サポータ端末70は、受信した合成音声データ451に基づく音声(「ファイルをスキャンしてABCに送りたいのです。」)を出力する。
Then, the
その後、案内サーバ50は、ユーザ音声データ400から、別の部分の音声データである部分音声データ432を抽出する(ステップS23)。たとえば、図24では、ユーザ101により発せられた音声のうち、「長谷不動産をタッチしましたが、次はどうすれば良いですか?」の部分の音声のデータが新たな部分音声データ432として抽出される状況が示されている。
Thereafter, the
音声認識部64は、部分音声データ432に秘匿ワード110(秘匿ワード111「長谷不動産」)が含まれている旨を判定し、当該秘匿ワード110(111)に対応する代替ワード211「ABC」を求める。また、当該代替ワード211「ABC」に対応する代替音声データ251(「ABC」)が格納部55に既に格納されているか否かが判定される。この時点では、当該代替音声データ251(「ABC」)が格納部55に既に格納されている旨が判定される。換言すれば、既に格納部55に格納されている代替音声データ251(「ABC」)に対応する秘匿ワード110(「長谷不動産」)が部分音声データ432内に含まれている旨が判定される。
The
そして、音声生成部65は、当該格納された代替音声データ251を格納部55から取得する(ステップS63)。ここでは、秘匿ワード111「長谷不動産」に対応する代替ワード211「ABC」の代替音声データ251が格納部55から取得される。音声生成部65は、格納部55から取得された当該代替音声データ251を用いて合成音声データ452を生成する(ステップS26)。その後、案内サーバ50は、生成された合成音声データ452をサポータ端末70に送信し(ステップS27)、サポータ端末70は、受信した合成音声データ452に基づく音声(「ABCをタッチしましたが、次はどうすれば良いですか?」)を出力する。
Then, the
以上のような動作によれば、或る合成音声データ451の生成に際して利用された代替音声データ251が予め格納されて、次の合成音声データ452の生成の際に利用される。そのため、当該代替音声データ251の生成を再び行わずに済む。したがって、合成音声データ452の生成に要する時間が短縮されるので、サポータ端末70への合成音声データ452の送信の遅延を抑制することが可能である。
According to the operation as described above, the
<第5実施形態>
第5実施形態は、第1実施形態の変形例である。以下では、第1実施形態との相違点を中心に説明する。
<Fifth Embodiment>
The fifth embodiment is a modification of the first embodiment. Below, it demonstrates centering on difference with 1st Embodiment.
第1実施形態では、スキャンモードにおいて、画像データ300(301)に含まれる送信宛先が秘匿ワード110として決定される態様が例示されている。より詳細には、MFP10から受信した秘匿ワードリスト601において、画像データ300に基づく画像に含まれる送信宛先が秘匿ワード110として登録されている。そのような登録内容に基づいて秘匿ワードが決定される。
The first embodiment exemplifies a mode in which the transmission destination included in the image data 300 (301) is determined as the secret word 110 in the scan mode. More specifically, in the
第5実施形態では、ボックスモードにおいて、MFP10のボックスに格納されたファイル550のファイル名、作成者、日付、およびファイル本文の見出しを示す語句(ワード)が秘匿ワード110として決定される態様を例示する。この第5実施形態では、MFP10のボックスに格納されたファイル550に関する情報の表示画面を見ながら操作案内が行われる。以下、第5実施形態における画像処理および音声処理に関して順次に説明する。
The fifth embodiment exemplifies a mode in which the word (word) indicating the file name, creator, date, and heading of the file body of the file 550 stored in the box of the
まず、ユーザ101からのサポート依頼信号の受信に際して、案内サーバ50は、秘匿ワードリスト603をもMFP10から受信する(図27参照)。ここでは、秘匿ワード110として、MFP10のボックスに格納されたファイル550のファイル名(「パテント」等)、作成者(「山田太郎」等)、日付(「2013/03/11」等)、およびファイル本文の見出し(「画像形成装置」および「発明概要」等)を示す各語句(ワード)が秘匿ワードリスト603に登録されている。そして、案内サーバ50は、当該秘匿ワードリスト603に基づいて、変換辞書653を生成する。
First, when receiving a support request signal from the
図25および図26を参照して第5実施形態における画像処理に関して説明する。 Image processing in the fifth embodiment will be described with reference to FIGS.
ここでは、図25に示すように、ファイル550に関する情報表示画面である画像データ303(300)がMFP10のタッチパネル25に表示されているものとする。当該画像データ303を案内サーバ50が受信すると、変換辞書653に基づく画像処理によって、合成画像データ353(350)が生成される。そして、サポータ端末70の表示部76bにおいて合成画像データ353が表示される。
Here, as shown in FIG. 25, it is assumed that image data 303 (300), which is an information display screen related to file 550, is displayed on
具体的には、MFP10のタッチパネル25においては、3つのアイコン500(501〜503)を有する画像データ303が表示されている。これらの各アイコン500(501〜503)の下方には、それぞれ対応するファイル550(551〜553)のファイル名「パテント1」〜「パテント3」が表示されている。そして、画像データ303を案内サーバ50が受信すると、変換辞書653に基づく画像処理によって、合成画像データ353が生成され、合成画像データ353はサポータ端末70に送信される。そして、サポータ端末70の表示部76bに合成画像データ353が表示される。合成画像データ353においては、各ファイル551〜553のファイル名「XYZ1」〜「XYZ3」(代替ワードを用いて表現されたファイル名)が、対応するアイコン501〜503の下方に表示されている。
Specifically, the
つぎに、ファイル551「パテント1」に対応するアイコン501がユーザ101により押下される状況を想定する。ファイル551に対応するアイコン501がユーザ101により押下されると、画像データ304に基づく画像がMFP10のタッチパネル25に表示される(図26左側参照)。そして、画像データ304はMFP10から案内サーバ50に送信される。
Next, it is assumed that the
案内サーバ50は、画像データ304を受信すると、変換辞書653(図27参照)に基づいて、画像データ304内に秘匿ワード110が含まれるか否かを判定する。
When receiving the
画像データ304内に秘匿ワード110が含まれる旨が判定される場合には、画像生成部61は、当該秘匿ワード110を代替ワード210に置き換えた合成画像データ354を生成する。
When it is determined that the secret word 110 is included in the
具体的には、画像データ304には、ファイル551のファイル名(「パテント1」)、作成者(「山田太郎」)、日付(「2013/03/11」)の秘匿ワード110、ならびにファイル551の本文の見出し(「画像形成装置」および「発明概要」)の秘匿ワード110が含まれる旨が判定される。画像生成部61は、当該秘匿ワード110をそれぞれ対応する代替ワード210に置き換えた合成画像データ354(図26右側参照)を生成する。たとえば、画像データ304内の秘匿ワード111(110)である「パテント」は、合成画像データ354の生成に際して、代替ワード211(210)である「abcd」に置き換えられる。
Specifically, the
そして、案内サーバ50は、生成した合成画像データ354をサポータ端末70に送信し、サポータ端末70は、表示部76bに合成画像データ354を表示する。
Then, the
この実施形態では、上述のように、画像データ300に含まれるファイル550のファイル名、作成者、日付およびファイル550の本文の見出しが秘匿ワード110として決定される。一方、ファイル550の本文に含まれる語句(ワード)のうち当該見出し以外のワードは、秘匿ワード110として決定されない。
In this embodiment, as described above, the file name, creator, date, and heading of the text of the file 550 included in the
ただし、当該見出し以外のワードを秘匿ワード110として決定せず、そのままサポータ端末70において表示される場合には、ファイル550の本文に含まれる語句(ワード)から漏洩する恐れがある。このような問題を回避するため、画像生成部61は、当該見出し以外の部分を判読回避画像(当該部分を判読することが不可能な画像)に変換する。
However, when a word other than the heading is not determined as the secret word 110 and is displayed as it is on the
また、ファイル550の本文には非常に多数のワードが含まれている可能性が高く、これらのワードの全てに対して個別の変換処理(各ワードを個別の代替ワードに変換する処理)を伴う画像処理を行うことは効率的とは言えない。 In addition, there is a high possibility that the body of the file 550 contains a very large number of words, and individual conversion processing (processing for converting each word into an individual alternative word) is performed on all of these words. Performing image processing is not efficient.
当該多数のワードに対する秘匿化を効率的に行うため、この判読回避画像は、個別の変換処理(各ワードを個別の代替ワードに変換する処理)を伴わない画像処理によって生成される画像であることが好ましい。判読回避画像は、たとえば、ファイル本文の表示領域のうち当該本文の見出し以外の全領域に亘って一律に行われる定型的な画像処理によって生成されればよい。 In order to efficiently conceal the large number of words, the interpretation avoidance image is an image generated by image processing that does not involve individual conversion processing (processing for converting each word into individual substitute words). Is preferred. The interpretation avoidance image may be generated by, for example, standard image processing performed uniformly over the entire area other than the heading of the text in the display area of the file text.
具体的には、ファイル551の本文に含まれるワードのうち、当該見出し以外の部分の画像を、その内容を判読することが不可能である「DUMMY」の文字を羅列させた判読回避画像に変換する(図26参照)。なお、本実施形態では、判読回避画像として「DUMMY」の文字を繰り返し表示する画像を用いているが、これに限定されず、たとえば、「***(アスタリスク)」などの他の文字を繰り返し表示する画像などであってもよい。また、判読回避画像として、空白画像を用いるようにしてもよい(換言すれば、当該見出し以外の部分の画像を削除するようにしてもよい)。
Specifically, among the words included in the body of the
つぎに、第5実施形態における音声処理に関して説明する。 Next, sound processing in the fifth embodiment will be described.
案内サーバ50がユーザ音声データ400を受信すると、音声認識部64は、当該ユーザ音声データ400に秘匿ワード110が含まれるか否かを判定する。
When the
ここにおいて、秘匿ワード110は、上述のように、ファイル550のファイル名、作成者、日付、およびファイル本文の見出しを示す語句(ワード)である(図27参照)。 Here, the secret word 110 is a word (word) indicating the file name, creator, date, and heading of the file text of the file 550 as described above (see FIG. 27).
ユーザ音声データ400内に秘匿ワード110が含まれる旨が判定される場合には、音声生成部65は、当該秘匿ワード110に対応する代替ワード210の代替音声データ250を生成し、当該代替音声データ250を用いて合成音声データ450を生成する。
When it is determined that the secret word 110 is included in the
案内サーバ50は当該合成音声データ450をサポータ端末70に送信し、サポータ端末70において当該合成音声データ450が出力される。
The
たとえば、ユーザ101が画像データ304を見ながら発したユーザ音声データ400に秘匿ワード112(110)「山田太郎」が含まれていることが判定される場合には、秘匿ワード112「山田太郎」に対応する代替ワード212「abcd」(図27参照)の代替音声データ250が生成される。その後、生成した代替音声データ250を用いて合成音声データ450が生成され、合成音声データ450がサポータ端末に送信される。合成音声データ450を受信したサポータ端末70は、当該合成音声データ450に基づく音声を出力する。
For example, when it is determined that the confidential voice word 112 (110) “Taro Yamada” is included in the
以上のような動作によれば、ファイル550のファイル名、作成者、日付を示す語句が秘匿ワード110として決定されて、当該秘匿ワード110に対する画像処理(画像変換処理等)および音声処理(音声変換処理等)が行われる。したがって、MFP10のボックスモードにおける表示画面内に含まれる秘匿ワード(機密情報)の漏洩を回避することが可能である。詳細には、ファイル550のファイル名、作成者、日付を示す語句に関しては、視覚を通じて機密情報が漏洩することを防止することが可能であるとともに、聴覚を通じて機密情報が漏洩することをも防止することが可能である。
According to the operation as described above, the phrase indicating the file name, creator, and date of the file 550 is determined as the secret word 110, and image processing (image conversion processing, etc.) and voice processing (voice conversion) for the secret word 110 are performed. Processing). Accordingly, it is possible to avoid leakage of a secret word (confidential information) included in the display screen in the box mode of the
同様に、ファイル550の本文の見出しも秘匿ワード110として決定されるので、見出しに関して、聴覚および/または視覚を通じて機密情報が漏洩することを防止することが可能である。 Similarly, since the headline of the text of the file 550 is also determined as the secret word 110, it is possible to prevent confidential information from leaking through hearing and / or vision.
また、ファイル550の本文の見出し以外の部分に関しては、当該部分が判読回避画像に変換されるので、少なくとも視覚を通じて機密情報が漏洩することを防止することが可能である。 Further, regarding the part other than the heading of the text of the file 550, the part is converted into the interpretation avoidance image, so that it is possible to prevent leakage of confidential information at least visually.
また、仮に、ファイル550の本文の見出し以外の部分に関しても変換処理(音声変換処理および/または画像変換処理)を行うときには、非常に多数のワードに関する当該変換処理に多大な時間を要する。一方、上記態様では、当該見出し以外の部分の音声に関する変換処理(音声変換処理)が行われないので、音声変換処理に要する時間を抑制することが可能である。また、画像に関しても、当該見出し以外の部分は、秘匿ワード110と判定されず、代替ワード210への画像変換処理が行われないので、画像変換処理に要する時間を抑制することが可能である。 In addition, if the conversion process (speech conversion process and / or image conversion process) is performed on a part other than the heading of the body of the file 550, the conversion process for a very large number of words takes a lot of time. On the other hand, in the above aspect, since the conversion process (speech conversion process) related to the voice other than the heading is not performed, the time required for the voice conversion process can be suppressed. Also for the image, the portion other than the heading is not determined as the secret word 110, and the image conversion process to the alternative word 210 is not performed, so that the time required for the image conversion process can be suppressed.
<変形例等>
以上、この発明の実施の形態について説明したが、この発明は上記説明した内容のものに限定されるものではない。
<Modifications>
Although the embodiments of the present invention have been described above, the present invention is not limited to the contents described above.
上記各実施形態においては、MFP10からサポータ端末70への音声伝達処理について例示したが、これに限定されない。たとえば、サポータ端末70からMFP10への音声伝達処理も同様にして実施される。図28のフローチャートを参照して、サポータ端末70からMFP10への音声伝達処理について説明する。
In each of the above embodiments, the voice transmission process from the
サポータ102により発せられたサポータ音声データ410はサポータ端末70により案内サーバ50へと送信される。案内サーバ50がサポータ音声データ410を受信すると(ステップS70)、音声認識部64は、サポータ音声データ410に非無音部分が存在するか否かを判定する(ステップS71)。その後、音声認識部64は、サポータ音声データ410に所定時間以上の無音部分が存在するか否かを判定する(ステップS72)。
The supporter voice data 410 issued by the
サポータ音声データ410に所定時間以上の無音部分が存在する旨が判定される場合に、音声認識部64は、サポータ音声データ410の一部である部分音声データ440を抽出する(ステップS73)。
When it is determined that there is a silent part for a predetermined time or longer in the supporter voice data 410, the
そして、音声生成部65は、部分音声データ440に対する音声認識処理によって、サポータ音声データ410内に、秘匿ワードリスト601(図9参照)に含まれる秘匿ワード110のいずれかに対応する代替ワード210が含まれるか否かを判定する(ステップS74)。
Then, the
部分音声データ440に当該代替ワード210が含まれる旨が判定される場合に、音声生成部65は、代替ワード210に対応する秘匿ワード110の秘匿音声データ161を生成する(ステップS75)。
When it is determined that the alternative word 210 is included in the
そして、音声生成部65は、部分音声データ440に含まれる代替ワード210の音声データである代替音声データ261を当該秘匿音声データ161に置き換えた合成音声データ460(合成サポータ音声データ460)を生成する(ステップS76)。
Then, the
その後、案内サーバ50は合成音声データ460をMFP10に送信し(ステップS77)、MFP10において、当該合成音声データ460が出力される。
Thereafter, the
図29は、サポータ端末70からMFP10への音声伝達処理の一例を示す図である。図29を参照して具体的に説明する。
FIG. 29 is a diagram illustrating an example of a voice transmission process from the
図29では、図7の音声伝達処理に引き続いてサポータ102が、「ABCをタッチしてください。」との音声を発した状況を想定する。
In FIG. 29, it is assumed that the
音声認識部64は、まず、「ABCをタッチしてください。」との音声を含む音声データを部分音声データ441として認識する。また、音声認識部64は、当該部分音声データ441(440)内に、変換辞書651(図9参照)に登録されている複数の秘匿ワード110(111〜113)のいずれかに対応する代替ワード210(211〜213)が含まれるか否かを判定する。具体的には、部分音声データ441の「ABCをタッチしてください。」には、秘匿ワード111「長谷不動産」に対応する代替ワード211「ABC」が含まれる旨が判定される。
First, the
そして、音声生成部65は、代替ワード211「ABC」に対応する秘匿ワード111「長谷不動産」の秘匿音声データ161(160)を生成する。なお、秘匿音声データ161(160)は、人間の声を模して人工的に生成された音声データ(機械音声データ)である。
Then, the
その後、部分音声データ441に含まれる代替ワード211「ABC」の代替音声データ261を当該秘匿音声データ161(「長谷不動産」)に置き換えた合成音声データ461(460)を生成する。そして、案内サーバ50は、当該合成音声データ461をMFP10に送信する。
Thereafter, synthesized voice data 461 (460) is generated by replacing the substitute voice data 261 of the
合成音声データ461を受信したMFP10は、当該合成音声データ461を出力する。具体的には、MFP10において、合成音声データ461に基づく音声である「長谷不動産をタッチしてください。」が出力される。
The
ここにおいて、ユーザ101は代替ワード210の内容を知らず、サポータ102は秘匿ワード110の内容を知らない。
Here, the
このため、仮に、サポータ102により発せられたサポータ音声データ410がそのままMFP10に対して送信されると、ユーザ101の知らない代替ワード210がユーザ101に伝達されるので、ユーザ101に混乱が生じる恐れがある。
For this reason, if the supporter voice data 410 generated by the
一方、上記態様によれば、サポータ102により発せられたサポータ音声データ410に含まれる代替ワード210が秘匿音声データ160に置き換えられて合成音声データ460が生成され、当該合成音声データ460がユーザ101に送信されるので、ユーザ101の混乱を回避することが可能である。
On the other hand, according to the aspect described above, the substitute word 210 included in the supporter voice data 410 issued by the
また、特定の秘匿ワード110(111)の秘匿音声データ160(人工音声)がサポータ音声データ410(サポータ音声)に含まれている(人工音声がサポータ音声に含まれている)ので、サポータ音声データ410のうち特定の秘匿ワード110(111)に対応する音声部分に対して何らかの処理が施されていることをユーザ101は知得できる。ユーザ101が幾つかの秘匿ワードに関する変換処理が施されていることを知っている場合において、特定の秘匿ワード110(たとえば111)に対して何らかの変換処理が施されていることをも知得したユーザ101は、当該特定の秘匿ワード110(111)がサポータ102に伝わっていないことを確認(推測)できる。換言すれば、特定の秘匿ワードに関する機密情報が漏洩していないことを確認できる。
Further, since the secret voice data 160 (artificial voice) of the specific secret word 110 (111) is included in the supporter voice data 410 (supporter voice) (the artificial voice is included in the supporter voice), the supporter voice data The
また、上記態様においては、サポータ102側からユーザ101側への音声伝達において、秘匿音声データ161(サポータ音声データ410に含まれていた代替ワード210に対応する秘匿ワード110の音声データ)が逐一生成され、当該秘匿音声データ161(機械音声)を用いてサポータ音声に対する変換処理(代替ワード210を秘匿ワード110に変換(逆変換)する処理)が行われている。
Further, in the above aspect, the secret voice data 161 (the voice data of the secret word 110 corresponding to the alternative word 210 included in the supporter voice data 410) is generated one by one in the voice transmission from the
しかしながら、本発明はこれに限定されない。たとえば、まずユーザ101側からサポータ102側への音声伝達においてユーザ101の音声データ(秘匿音声データ151)を格納部55に予め格納しておき(図30参照)、次にサポータ102側からユーザ101側への音声伝達がなされた場合に、当該格納部55に既に格納されている秘匿音声データ151を用いて、サポータ音声に対する変換処理が行われる(図31参照)ようにしてもよい。
However, the present invention is not limited to this. For example, the voice data of the user 101 (secret voice data 151) is first stored in the
図30および図31を参照して具体的に説明する。図30は、ユーザ101からサポータ102への音声伝達処理を示す図である。図31は、サポータ102からユーザ101への音声伝達処理がなされる状況を示す図である。
This will be specifically described with reference to FIGS. 30 and 31. FIG. FIG. 30 is a diagram illustrating a voice transmission process from the
図30では、ユーザ101が「ファイルをスキャンして長谷不動産に送りたいのです。」との音声を発した状況が想定されている。
In FIG. 30, it is assumed that the
ユーザ音声データ400を受信した案内サーバ50は、ユーザ音声データ400から部分音声データ431(430)を抽出する。そして、変換辞書651(図9参照)に基づいて、部分音声データ431内に秘匿ワード110が含まれるか否かを判定する。
The
具体的には、部分音声データ431「ファイルをスキャンして長谷不動産に送りたいのです。」には、秘匿ワード111「長谷不動産」が含まれる旨が音声認識部64によって判定される。
Specifically, the
そして、音声生成部65は、ユーザ101により発せられた秘匿ワード111「長谷不動産」の秘匿音声データ151を抽出し、案内サーバ50の格納部55に格納する。
Then, the
その後、音声生成部65は、秘匿ワード111「長谷不動産」に対応する代替ワード211「ABC」の代替音声データ251を用いて、合成音声データ451を生成する。生成された合成音声データ451はサポータ端末70に送信され、サポータ端末70において出力される。
Thereafter, the
このように、この態様では、合成音声データ450(451)を生成する際に、ユーザ音声データ400(部分音声データ430(431))から出した秘匿音声データ150(151)を格納部に予め格納しておく。 As described above, in this aspect, when the synthesized voice data 450 (451) is generated, the secret voice data 150 (151) output from the user voice data 400 (partial voice data 430 (431)) is stored in the storage unit in advance. Keep it.
つぎに、図31を参照しながら、サポータ端末70からMFP10への音声伝達処理について説明する。図31では、ユーザ101からサポータ102への音声伝達処理の次に、サポータ102が、「ABCをタッチしてください。」との音声を発した状況を想定している。
Next, an audio transmission process from the
サポータ音声データ410を受信した案内サーバ50は、サポータ音声データ410から部分音声データ441(440)を抽出する。そして、変換辞書651(図9参照)に基づいて、部分音声データ441内に格納済みの秘匿音声データ151(150)に対応する代替ワード210が含まれるか否かを判定する。
The
具体的には、格納済みの秘匿音声データ151(より詳細には、ユーザ101により発せられた秘匿ワード111「長谷不動産」の音声データ)に対応する代替ワード211「ABC」が、部分音声データ441に基づく音声「ABCをタッチしてください。」に含まれる旨が、音声認識部64により判定される。
Specifically, the
そして、音声生成部65は、部分音声データ441内の代替ワード211「ABC」に対応する代替音声データ261(260)を、格納済みの秘匿音声データ151(150)に置き換えた合成音声データ461(460)を生成する。この合成音声データ461の生成に際しては、秘匿音声データ161(代替ワード211「ABC」に対応する秘匿ワード111「長谷不動産」の機械音声データ)ではなく、秘匿音声データ151(格納部55に格納されていたユーザ101の録音音声データ)が用いられる。換言すれば、予め格納された秘匿音声データ150が、部分音声データ441内の代替ワード211「ABC」に対応する秘匿音声データとして利用され、合成音声データ461が生成される。
Then, the
その後、案内サーバ50は、合成音声データ461(460)をサポータ端末70に送信し、サポータ端末70において、「長谷不動産をタッチしてください。」の音声が合成音声データ461に基づいて出力される。この合成音声データ461に含まれる音声「長谷不動産」は、ユーザ101の音声を用いて出力され、当該合成音声データ461に含まれる音声「をタッチしてください」は、サポータ102の音声を用いて出力される。
Thereafter, the
このような改変例によれば、サポータ102により発せられたサポータ音声データ410(部分音声データ441)に含まれる代替ワード210を、予め格納された秘匿音声データ150に置き換えた合成音声データ460が音声出力用データとしてユーザ101側のMFP10に送信される。したがって、ユーザ101の知らない代替ワード210がユーザ101に伝達されることに起因したユーザ101の混乱を回避することが可能である。
According to such a modified example, the
また、ユーザ101により過去に発せられた音声データが秘匿音声データ150として格納部55に格納されており、当該格納部55に既に格納されている秘匿音声データ150を用いて合成音声データ460が生成される。したがって、一の代替ワード211「ABC」に対応する秘匿ワード111「長谷不動産」の音声データである秘匿音声データ160を再び生成することを要しないので、合成音声データ460の生成に要する時間が短縮される。その結果、MFP10への合成音声データ460の送信の遅延を抑制することが可能である。
In addition, voice data issued in the past by the
さらに、ユーザ101の発した特定の秘匿ワード110(111)の秘匿音声データ150がサポータ音声データ410に含まれている。したがって、ユーザ101は、サポータ音声データ410のうち特定の秘匿ワード110(111)に対応する音声部分に対して何らかの処理が施されていることを知得できる。
Further, the
なお、上記態様においては、ユーザ101の発した音声(秘匿ワード110に係る音声)のデータ(秘匿音声データ150)を格納部55に格納しておき、当該秘匿音声データ150をサポータ102側からユーザ101側への音声伝達処理において利用する態様が例示されているが、これに限定されない。
In the above aspect, the voice (voice related to the secret word 110) uttered by the user 101 (the secret voice data 150) is stored in the
たとえば、サポータ102の発した音声(代替ワード210に係る音声)のデータ(代替音声データ260)を格納部55に格納しておき、当該代替音声データ260をユーザ101側からサポータ102側への音声伝達処理において利用するようにしてもよい。
For example, data (substitute voice data 260) of voice (voice related to the substitute word 210) uttered by the
このような態様について、図31を参照して説明する。 Such an aspect will be described with reference to FIG.
まず、図31に示すように、サポータ102側からユーザ101側への音声伝達処理において、サポータ102が「ABCをタッチしてください。」との音声を発すると、案内サーバ50では、上記態様と同様の処理により、音声変換処理が施され、合成音声データ461(460)が生成される。この合成音声データ461の生成に際して、サポータ102により発せられた代替ワード211「ABC」の録音データである代替音声データ261が格納部55に格納される。
First, as shown in FIG. 31, in the voice transmission process from the
その後、ユーザ101側からサポータ102側への音声伝達処理がなされる場合に、音声生成部65は、当該格納されている代替音声データ260(261)を用いて合成音声データ450を生成する。
Thereafter, when voice transmission processing from the
詳細には、たとえば「長谷不動産のボタンを押しますね?」との音声をユーザ101が発する場合において、当該音声を含む部分音声データ433(不図示)がユーザ音声データ400から抽出される。そして、部分音声データ433に秘匿ワード111「長谷不動産」が含まれる旨が音声認識部64によって判定されると、合成音声データ453が生成される。このとき、秘匿ワード111「長谷不動産」に対応する代替ワード211「ABC」の代替音声データ(置換用の音声データ)として、格納部55に既に格納されている上述の代替音声データ260(261)が利用されて、合成音声データ453が生成される。生成された合成音声データ453はサポータ端末70に送信され、サポータ端末70において出力される。
Specifically, for example, when the
このような態様によれば、特に、合成音声データ453の生成に際して、格納部55に予め格納されている代替音声データ260が利用されるので、機械音声生成処理によって代替音声データを改めて生成することを要しない。
According to such an aspect, particularly, when the synthesized voice data 453 is generated, the alternative voice data 260 stored in advance in the
また、上記各実施形態においては、案内サーバ50が画像処理および音声処理を行うことが例示されているが、これに限定されない。たとえば、上記案内サーバ50の動作がMFP10により実行されてもよい。具体的には、MFP10が案内サーバ50の画像処理部60aおよび音声処理部60bの動作と同様の動作を行うようにすればよい。
Moreover, in each said embodiment, although the
1 操作案内システム
10 MFP(画像形成装置)
50 案内サーバ
70 サポータ端末
101 ユーザ
102 サポータ
110〜113 秘匿ワード
210〜213 代替ワード
300〜304 画像データ
350〜354 合成画像データ
400 ユーザ音声データ
430〜432 部分音声データ
150〜152,160 秘匿音声データ
250,251,260 代替音声データ
450〜452,460,461 合成音声データ
651〜653 変換辞書
1
DESCRIPTION OF
Claims (23)
ユーザの操作対象である画像形成装置の操作部に表示された第1の表示画像のデータである第1の表示画像データを前記画像形成装置から受信する画像受信手段と、
秘匿ワードが前記第1の表示画像データに含まれる場合に、前記第1の表示画像における前記秘匿ワードを当該秘匿ワードに対応する代替ワードに置き換えた第1の合成画像のデータである第1の合成画像データを生成する画像生成手段と、
前記ユーザを支援する人物であるサポータにより前記ユーザへの操作案内に利用されるサポータ端末に対して、前記サポータ端末での表示用データとして前記第1の合成画像データを送信する画像送信手段と、
前記ユーザにより発せられた音声のデータを含むユーザ音声データを前記画像形成装置から受信する音声受信手段と、
前記ユーザ音声データに対する音声認識処理によって、前記ユーザ音声データに前記秘匿ワードが含まれるか否かを判定する音声認識手段と、
前記ユーザ音声データに前記秘匿ワードが含まれると判定される場合に、前記ユーザ音声データ内の前記秘匿ワードの音声データである秘匿音声データを、当該秘匿ワードに対応する前記代替ワードの音声データである代替音声データに置き換えたデータである合成ユーザ音声データを生成する音声生成手段と、
前記サポータ端末での音声出力用データとして前記合成ユーザ音声データを前記サポータ端末に送信する音声送信手段と、
を備えることを特徴とする案内サーバ。 A guidance server in the operation guidance system,
Image receiving means for receiving, from the image forming apparatus, first display image data which is data of a first display image displayed on an operation unit of the image forming apparatus which is a user's operation target;
When a secret word is included in the first display image data, the first synthesized image data is obtained by replacing the secret word in the first display image with an alternative word corresponding to the secret word. Image generating means for generating composite image data;
Image transmitting means for transmitting the first combined image data as display data on the supporter terminal to a supporter terminal used for operation guidance to the user by a supporter who is a person supporting the user;
Sound receiving means for receiving user sound data including sound data emitted by the user from the image forming apparatus ;
Voice recognition means for determining whether or not the secret word is included in the user voice data by voice recognition processing on the user voice data;
When it is determined that the secret word is included in the user voice data, the secret voice data that is the voice data of the secret word in the user voice data is the voice data of the alternative word corresponding to the secret word. Voice generating means for generating synthesized user voice data which is data replaced with certain alternative voice data;
Voice transmitting means for transmitting the synthesized user voice data to the supporter terminal as voice output data at the supporter terminal;
A guidance server comprising:
前記ユーザ音声データは、複数の部分音声データに区分され、
前記音声生成手段は、前記ユーザ音声データにおける一の部分音声データである第1の音声データ内に前記秘匿ワードが含まれる旨が前記音声認識処理によって判定される場合に、前記第1の音声データ内の前記秘匿音声データを前記代替音声データに置き換えた第1の合成音声データを生成し、
前記音声送信手段は、前記第1の合成音声データを前記サポータ端末に送信することを特徴とする案内サーバ。 In the guidance server according to claim 1,
The user voice data is divided into a plurality of partial voice data,
When the voice recognition process determines that the secret word is included in the first voice data that is one partial voice data in the user voice data, the voice generation unit is configured to output the first voice data. Generating the first synthesized voice data by replacing the secret voice data in the substitute voice data,
The guidance server characterized in that the voice transmitting means transmits the first synthesized voice data to the supporter terminal.
前記第1の音声データは、前記第1の表示画像の表示中に前記ユーザにより発せられた音声を含み、
前記画像受信手段は、前記第1の表示画像に引き続いて前記操作部に表示される第2の表示画像のデータである第2の表示画像データを、前記第1の表示画像データの受信完了後に前記画像形成装置から受信し、
前記画像生成手段は、秘匿ワードが前記第2の表示画像データに含まれる場合に、前記第2の表示画像データ内の前記秘匿ワードを当該秘匿ワードに対応する代替ワードに置き換えた第2の合成画像のデータである第2の合成画像データを生成し、
前記画像送信手段は、前記第1の音声データの受信が開始されると前記第2の合成画像データの送信を許可せず、前記第1の音声データに基づき生成された前記第1の合成音声データの送信完了時点以後において前記第2の合成画像データの送信を許可することを特徴とする案内サーバ。 In the guidance server according to claim 2,
The first audio data includes audio uttered by the user during display of the first display image,
The image receiving means receives second display image data, which is data of a second display image displayed on the operation unit subsequent to the first display image, after completion of reception of the first display image data. Received from the image forming apparatus,
The image generation means replaces the secret word in the second display image data with an alternative word corresponding to the secret word when a secret word is included in the second display image data. Generating second composite image data which is image data;
When the reception of the first audio data is started, the image transmission means does not permit transmission of the second synthesized image data, and the first synthesized audio generated based on the first audio data A guide server that permits transmission of the second composite image data after the data transmission is completed.
前記画像送信手段は、前記第1の音声データの受信開始時点と前記第1の合成音声データの送信完了から前記第1の合成音声データの出力所要時間が経過した時点との間の期間である第1の期間内に前記画像受信手段により前記第2の表示画像データが受信される場合には、前記第1の期間の終了時点までは前記第2の合成画像データの送信を許可せず且つ前記第1の期間の終了後に前記第2の合成画像データの送信を許可することを特徴とする案内サーバ。 In the guidance server according to claim 3,
The image transmission means is a period between a reception start time of the first audio data and a time when an output required time of the first synthetic audio data has elapsed since the completion of transmission of the first synthetic audio data. If the second display image data is received by the image receiving means within the first period, transmission of the second composite image data is not permitted until the end of the first period and A guide server that permits transmission of the second composite image data after the end of the first period.
音声データを格納する格納手段、
をさらに備え、
前記音声生成手段は、
複数の秘匿ワードに対応する代替ワードの音声データである複数の代替音声データの生成を前記合成ユーザ音声データの生成に先立つ所定の時点から開始するとともに、生成された代替音声データを前記格納手段に格納し、
前記ユーザ音声データに前記秘匿ワードが含まれ且つ前記秘匿ワードに対応する前記代替音声データが前記格納手段に格納されていない場合には、前記代替音声データを機械音声生成処理により生成し、生成された当該代替音声データを用いて前記合成ユーザ音声データを生成し、
前記ユーザ音声データに前記秘匿ワードが含まれ且つ前記秘匿ワードに対応する前記代替音声データが前記格納手段に既に格納されている場合には、前記格納手段に格納されている前記代替音声データを用いて前記合成ユーザ音声データを生成することを特徴とする案内サーバ。 In the guidance server according to claim 1,
Storage means for storing audio data;
Further comprising
The voice generation means includes
Generation of a plurality of alternative voice data, which are voice data of alternative words corresponding to a plurality of secret words, is started from a predetermined time prior to the generation of the synthesized user voice data, and the generated alternative voice data is stored in the storage means. Store and
When the user voice data includes the secret word and the alternative voice data corresponding to the secret word is not stored in the storage unit, the alternative voice data is generated by a machine voice generation process. Generating the synthesized user voice data using the alternative voice data,
When the user voice data includes the secret word and the alternative voice data corresponding to the secret word is already stored in the storage unit, the alternative voice data stored in the storage unit is used. And generating the synthesized user voice data.
前記音声生成手段は、前記ユーザからの操作案内の依頼の発生を示すサポート依頼信号を前記案内サーバが受信することに応答して、前記複数の代替音声データの生成を開始することを特徴とする案内サーバ。 In the guidance server according to claim 5,
The voice generation means starts generating the plurality of alternative voice data in response to the guide server receiving a support request signal indicating the generation of an operation guidance request from the user. Information server.
前記複数の秘匿ワードは、前記画像形成装置のスキャン画像送信における宛先指定画面内の送信宛先を示す語句と前記画像形成装置のファクシミリ送信における宛先指定画面に含まれる送信宛先を示す語句との少なくとも一方を含むことを特徴とする案内サーバ。 In the guidance server according to claim 6,
The plurality of concealment words are at least one of a word indicating a transmission destination in a destination designation screen in scan image transmission of the image forming apparatus and a word indicating a transmission destination included in a destination designation screen in facsimile transmission of the image forming apparatus A guide server characterized by including:
前記複数の秘匿ワードは、前記画像形成装置のボックスに格納されたファイルに関する情報表示画面に表示されるファイル情報を示す語句を含むことを特徴とする案内サーバ。 In the guidance server according to claim 6,
The guide server, wherein the plurality of secret words include a phrase indicating file information displayed on an information display screen related to a file stored in a box of the image forming apparatus.
前記音声生成手段は、前記複数の代替音声データのうち、前記画像形成装置の現在の動作モードにて表示され得る秘匿ワードに対応する代替音声データを優先的に生成することを特徴とする案内サーバ。 In the guidance server according to claim 5,
The guidance server preferentially generates alternative voice data corresponding to a secret word that can be displayed in the current operation mode of the image forming apparatus among the plurality of alternative voice data. .
前記画像形成装置の現在の動作モードは、スキャンモードとファクシミリ送信モードとボックスモードとを含む複数のモードのうちのいずれかであることを特徴とする案内サーバ。 In the guidance server according to claim 9,
A guide server characterized in that a current operation mode of the image forming apparatus is one of a plurality of modes including a scan mode, a facsimile transmission mode, and a box mode.
音声データを格納する格納手段、
をさらに備え、
前記音声生成手段は、
前記第1の表示画像データが前記画像受信手段によって受信されると、複数の秘匿ワードに対応する代替ワードの音声データである複数の代替音声データの生成を開始し、生成された代替音声データを前記格納手段に格納し、
前記ユーザ音声データに前記秘匿ワードが含まれ且つ前記秘匿ワードに対応する前記代替音声データが前記格納手段に格納されていない場合には、前記代替音声データを機械音声生成処理により生成し、生成された当該代替音声データを用いて前記合成ユーザ音声データを生成し、
前記ユーザ音声データに前記秘匿ワードが含まれ且つ前記秘匿ワードに対応する前記代替音声データが前記格納手段に既に格納されている場合には、前記格納手段に格納されている前記代替音声データを用いて前記合成ユーザ音声データを生成することを特徴とする案内サーバ。 In the guidance server according to claim 1,
Storage means for storing audio data;
Further comprising
The voice generation means includes
When the first display image data is received by the image receiving means, generation of a plurality of alternative voice data which are voice data of alternative words corresponding to a plurality of secret words is started, and the generated alternative voice data is Storing in the storage means;
When the user voice data includes the secret word and the alternative voice data corresponding to the secret word is not stored in the storage unit, the alternative voice data is generated by a machine voice generation process. Generating the synthesized user voice data using the alternative voice data,
When the user voice data includes the secret word and the alternative voice data corresponding to the secret word is already stored in the storage unit, the alternative voice data stored in the storage unit is used. And generating the synthesized user voice data.
前記音声生成手段は、前記複数の秘匿ワードの使用頻度に基づく優先順位に従って、前記複数の代替音声データを生成することを特徴とする案内サーバ。 In the guidance server in any one of Claims 5 thru | or 11,
The guidance server, wherein the voice generation means generates the plurality of alternative voice data according to a priority order based on a frequency of use of the plurality of secret words.
前記第1の合成音声データの生成に利用された前記代替音声データを格納する格納手段、
をさらに備え、
前記音声生成手段は、前記ユーザ音声データのうち前記第1の音声データとは異なる部分の部分音声データである第2の音声データ内に前記秘匿ワードが含まれる旨が前記音声認識処理によって判定される場合に、前記格納手段に格納されていた前記代替音声データを用いて、前記第2の音声データ内の前記秘匿音声データを前記代替音声データに置き換えた第2の合成音声データを生成し、
前記音声送信手段は、前記第2の合成音声データを前記サポータ端末に送信することを特徴とする案内サーバ。 In the guidance server according to claim 2,
Storage means for storing the substitute voice data used for generating the first synthesized voice data;
Further comprising
The voice generation means determines that the secret word is included in the second voice data, which is partial voice data of the user voice data different from the first voice data, by the voice recognition process. And generating the second synthesized voice data in which the secret voice data in the second voice data is replaced with the substitute voice data using the substitute voice data stored in the storage means,
The guidance server characterized in that the voice transmitting means transmits the second synthesized voice data to the supporter terminal.
前記音声受信手段は、前記サポータにより発せられた音声のデータを含むサポータ音声データを受信し、
前記音声認識手段は、前記サポータ音声データに対する音声認識処理によって、1又は複数の秘匿ワードのいずれかに対応する一の代替ワードが前記サポータ音声データに含まれるか否かを判定し、
前記音声生成手段は、前記一の代替ワードが前記サポータ音声データに含まれる場合に、前記サポータ音声データ内の前記一の代替ワードの音声データである第2の代替音声データを、前記一の代替ワードに対応する秘匿ワードの音声データである第2の秘匿音声データに置き換えた合成サポータ音声データを生成し、
前記音声送信手段は、前記合成サポータ音声データを前記画像形成装置に送信することを特徴とする案内サーバ。 In the guidance server according to claim 1,
The voice receiving means receives supporter voice data including voice data emitted by the supporter,
The voice recognition means determines whether or not one support word corresponding to one or a plurality of secret words is included in the supporter voice data by voice recognition processing on the supporter voice data,
When the one alternative word is included in the supporter voice data, the voice generation means converts the second alternative voice data, which is the voice data of the one alternative word in the supporter voice data, into the one alternative. Generating synthesized supporter voice data replaced with second secret voice data which is voice data of the secret word corresponding to the word;
The guidance server characterized in that the voice transmitting means transmits the synthesized supporter voice data to the image forming apparatus.
音声データを格納する格納手段、
をさらに備え、
前記音声生成手段は、
前記ユーザ音声データに基づき前記合成ユーザ音声データを生成する際に、前記ユーザ音声データから抽出した前記秘匿音声データを前記格納手段に格納しておき、
前記格納手段に既に格納されている前記秘匿音声データを前記第2の秘匿音声データとして用いて前記合成サポータ音声データを生成することを特徴とする案内サーバ。 In the guidance server according to claim 14,
Storage means for storing audio data;
Further comprising
The voice generation means includes
When generating the synthesized user voice data based on the user voice data, the secret voice data extracted from the user voice data is stored in the storage means,
A guidance server that generates the synthesized supporter voice data by using the secret voice data already stored in the storage means as the second secret voice data.
前記音声認識手段は、前記ユーザ音声データに所定時間以上の無音部分が存在する場合には、前記ユーザ音声データのうち、前記所定時間の無音状態が経過した時点を終端とするように区分した部分音声データを、前記第1の音声データとして抽出することを特徴とする案内サーバ。 In the guidance server according to any one of claims 2 to 4,
The voice recognition means, when there is a silent part for a predetermined time or more in the user voice data, a part of the user voice data that is classified so as to end when the silent state for the predetermined time has elapsed A guidance server that extracts voice data as the first voice data.
前記画像受信手段は、前記第1の表示画像データとは異なる第2の表示画像データをも前記画像形成装置から受信し、
前記音声認識手段は、前記ユーザ音声データの音声認識処理中に前記第2の表示画像データが前記画像受信手段により受信される場合には、前記ユーザ音声データのうち、前記第2の表示画像データの受信時点を終端とするように区分した部分音声データを、前記第1の音声データとして抽出することを特徴とする案内サーバ。 The guidance server according to claim 16, wherein
The image receiving means also receives second display image data different from the first display image data from the image forming apparatus;
When the second display image data is received by the image receiving means during the voice recognition process of the user voice data, the voice recognition means includes the second display image data of the user voice data. A guidance server that extracts partial voice data divided so as to end at the reception time of the first voice data.
前記第1の表示画像は、前記画像形成装置のボックスに格納されたファイルに関する情報表示画面の画像であり、
前記秘匿ワードは、前記ファイルのファイル名、作成者、日付、およびファイル本文の見出しの少なくとも1つを示すワードを含み、
前記画像生成手段は、当該秘匿ワードを前記代替ワードに置き換えた前記第1の合成画像データを生成し、
前記音声生成手段は、前記ユーザ音声データに当該秘匿ワードが含まれる場合に、前記秘匿音声データを前記代替音声データに置き換えた合成ユーザ音声データを生成することを特徴とする案内サーバ。 In the guidance server according to claim 1,
The first display image is an image of an information display screen related to a file stored in a box of the image forming apparatus,
The secret word includes a word indicating at least one of a file name, an author, a date, and a file body header of the file ;
Wherein the image generating means generates the first synthesized image data by replacing the person the secret word in the alternative word,
The said voice production | generation means produces | generates the synthetic | combination user audio | voice data which replaced the said confidential audio | voice data with the said alternative audio | speech data, when the said confidential word is contained in the said user audio | voice data.
前記秘匿ワードは、前記ファイル本文の見出しを示すワードを含み、
前記画像生成手段は、当該秘匿ワードを前記代替ワードに置き換えた前記第1の合成画像データであって前記ファイル本文のうち前記ファイル本文の見出し以外の部分を判読回避画像に変換した前記第1の合成画像データを生成することを特徴とする案内サーバ。 The guide server according to claim 18, wherein
The secret word includes a word indicating a heading of the file body ,
The image generating unit converts the confidential words the portion other than heading the files present statements of the file the statement a first synthesized image data is replaced with the alternative word read avoid image A guide server for generating the first composite image data.
a)ユーザの操作対象である画像形成装置の操作部に表示された第1の表示画像のデータである第1の表示画像データを前記画像形成装置から受信するステップと、
b)秘匿ワードが前記第1の表示画像データに含まれる場合に、前記第1の表示画像における前記秘匿ワードを当該秘匿ワードに対応する代替ワードに置き換えた第1の合成画像のデータである第1の合成画像データを生成するステップと、
c)前記ユーザを支援する人物であるサポータにより前記ユーザへの案内に利用されるサポータ端末に対して、前記サポータ端末での表示用データとして前記第1の合成画像データを送信するステップと、
d)前記ユーザにより発せられた音声のデータを含むユーザ音声データを前記画像形成装置から受信するステップと、
e)前記ユーザ音声データに対する音声認識処理によって、前記ユーザ音声データに前記秘匿ワードが含まれるか否かを判定するステップと、
f)前記ユーザ音声データに前記秘匿ワードが含まれると判定される場合に、前記ユーザ音声データ内の前記秘匿ワードの音声データである秘匿音声データを、当該秘匿ワードに対応する前記代替ワードの音声データである代替音声データに置き換えたデータである合成ユーザ音声データを生成するステップと、
g)前記サポータ端末での音声出力用データとして前記合成ユーザ音声データを前記サポータ端末に送信するステップと、
を実行させるためのプログラム。 In the computer built in the guidance server in the operation guidance system,
a) receiving, from the image forming apparatus, first display image data that is data of a first display image displayed on an operation unit of the image forming apparatus that is an operation target of the user;
b) First composite image data obtained by replacing the secret word in the first display image with an alternative word corresponding to the secret word when a secret word is included in the first display image data. Generating one composite image data;
c) transmitting the first composite image data as display data on the supporter terminal to a supporter terminal used for guidance to the user by a supporter who is a person supporting the user;
d) receiving user audio data including audio data uttered by the user from the image forming apparatus ;
e) determining whether or not the secret word is included in the user voice data by voice recognition processing on the user voice data;
f) When it is determined that the secret word is included in the user voice data, the secret voice data that is the voice data of the secret word in the user voice data is converted to the voice of the alternative word corresponding to the secret word. Generating synthesized user voice data that is data replaced with alternative voice data that is data;
g) transmitting the synthesized user voice data as voice output data at the supporter terminal to the supporter terminal;
A program for running
ユーザの操作対象である画像形成装置と、
前記ユーザを支援する人物であるサポータにより前記ユーザへの画像形成装置の操作案内に利用されるサポータ端末と、
前記画像形成装置と前記サポータ端末とを媒介する案内サーバと、
を備え、
前記案内サーバは、
前記画像形成装置の操作部に表示された第1の表示画像のデータである第1の表示画像データを前記画像形成装置から受信する画像受信手段と、
秘匿ワードが前記第1の表示画像データに含まれる場合に、前記第1の表示画像における前記秘匿ワードを当該秘匿ワードに対応する代替ワードに置き換えた第1の合成画像のデータである第1の合成画像データを生成する画像生成手段と、
前記サポータ端末に対して、前記サポータ端末での表示用データとして前記第1の合成画像データを送信する画像送信手段と、
前記ユーザにより発せられた音声のデータを含むユーザ音声データを前記画像形成装置から受信する音声受信手段と、
前記ユーザ音声データに対する音声認識処理によって、前記ユーザ音声データに前記秘匿ワードが含まれるか否かを判定する音声認識手段と、
前記ユーザ音声データに前記秘匿ワードが含まれると判定される場合に、前記ユーザ音声データ内の前記秘匿ワードの音声データである秘匿音声データを、当該秘匿ワードに対応する前記代替ワードの音声データである代替音声データに置き換えたデータである合成ユーザ音声データを生成する音声生成手段と、
前記サポータ端末での音声出力用データとして前記合成ユーザ音声データを前記サポータ端末に送信する音声送信手段と、
を有することを特徴とする操作案内システム。 An operation guidance system,
An image forming apparatus to be operated by the user;
A supporter terminal used for operation guidance of the image forming apparatus to the user by a supporter who is a person supporting the user;
A guidance server that mediates between the image forming apparatus and the supporter terminal;
With
The guidance server is
Image receiving means for receiving, from the image forming apparatus, first display image data which is data of a first display image displayed on the operation unit of the image forming apparatus;
When a secret word is included in the first display image data, the first synthesized image data is obtained by replacing the secret word in the first display image with an alternative word corresponding to the secret word. Image generating means for generating composite image data;
Image transmitting means for transmitting the first composite image data as display data at the supporter terminal to the supporter terminal;
Sound receiving means for receiving user sound data including sound data emitted by the user from the image forming apparatus ;
Voice recognition means for determining whether or not the secret word is included in the user voice data by voice recognition processing on the user voice data;
When it is determined that the secret word is included in the user voice data, the secret voice data that is the voice data of the secret word in the user voice data is the voice data of the alternative word corresponding to the secret word. Voice generating means for generating synthesized user voice data which is data replaced with certain alternative voice data;
Voice transmitting means for transmitting the synthesized user voice data to the supporter terminal as voice output data at the supporter terminal;
An operation guidance system comprising:
ユーザの操作対象である前記画像形成装置の操作部に表示された第1の表示画像のデータである第1の表示画像データを取得する画像取得手段と、
秘匿ワードが前記第1の表示画像データに含まれる場合に、前記第1の表示画像における前記秘匿ワードを当該秘匿ワードに対応する代替ワードに置き換えた第1の合成画像のデータである第1の合成画像データを生成する画像生成手段と、
前記ユーザを支援する人物であるサポータにより前記ユーザへの案内に利用されるサポータ端末に対して、前記サポータ端末での表示用データとして前記第1の合成画像データを送信する画像送信手段と、
前記ユーザにより発せられた音声のデータを含むユーザ音声データを取得する音声取得手段と、
前記ユーザ音声データに対する音声認識処理によって、前記ユーザ音声データに前記秘匿ワードが含まれるか否かを判定する音声認識手段と、
前記ユーザ音声データに前記秘匿ワードが含まれると判定される場合に、前記ユーザ音声データ内の前記秘匿ワードの音声データである秘匿音声データを、当該秘匿ワードに対応する前記代替ワードの音声データである代替音声データに置き換えたデータである合成ユーザ音声データを生成する音声生成手段と、
前記サポータ端末での音声出力用データとして前記合成ユーザ音声データを前記サポータ端末に送信する音声送信手段と、
を備えることを特徴とする画像形成装置。 An image forming apparatus in an operation guidance system,
Image acquisition means for acquiring first display image data which is data of a first display image displayed on the operation unit of the image forming apparatus which is a user's operation target;
When a secret word is included in the first display image data, the first synthesized image data is obtained by replacing the secret word in the first display image with an alternative word corresponding to the secret word. Image generating means for generating composite image data;
Image transmitting means for transmitting the first composite image data as display data on the supporter terminal to a supporter terminal used for guidance to the user by a supporter who is a person supporting the user;
Voice acquisition means for acquiring user voice data including voice data generated by the user;
Voice recognition means for determining whether or not the secret word is included in the user voice data by voice recognition processing on the user voice data;
When it is determined that the secret word is included in the user voice data, the secret voice data that is the voice data of the secret word in the user voice data is the voice data of the alternative word corresponding to the secret word. Voice generating means for generating synthesized user voice data which is data replaced with certain alternative voice data;
Voice transmitting means for transmitting the synthesized user voice data to the supporter terminal as voice output data at the supporter terminal;
An image forming apparatus comprising:
a)ユーザの操作対象である前記画像形成装置の操作部に表示された第1の表示画像のデータである第1の表示画像データを取得するステップと、
b)秘匿ワードが前記第1の表示画像データに含まれる場合に、前記第1の表示画像における前記秘匿ワードを当該秘匿ワードに対応する代替ワードに置き換えた第1の合成画像のデータである第1の合成画像データを生成するステップと、
c)前記ユーザを支援する人物であるサポータにより前記ユーザへの案内に利用されるサポータ端末に対して、前記サポータ端末での表示用データとして前記第1の合成画像データを送信するステップと、
d)前記ユーザにより発せられた音声のデータを含むユーザ音声データを取得するステップと、
e)前記ユーザ音声データに対する音声認識処理によって、前記ユーザ音声データに前記秘匿ワードが含まれるか否かを判定するステップと、
f)前記ユーザ音声データに前記秘匿ワードが含まれると判定される場合に、前記ユーザ音声データ内の前記秘匿ワードの音声データである秘匿音声データを、当該秘匿ワードに対応する前記代替ワードの音声データである代替音声データに置き換えたデータである合成ユーザ音声データを生成するステップと、
g)前記サポータ端末での音声出力用データとして前記合成ユーザ音声データを前記サポータ端末に送信するステップと、
を実行させるためのプログラム。 In the computer built in the image forming apparatus in the operation guidance system,
a) acquiring first display image data which is data of a first display image displayed on the operation unit of the image forming apparatus which is an operation target of the user;
b) First composite image data obtained by replacing the secret word in the first display image with an alternative word corresponding to the secret word when a secret word is included in the first display image data. Generating one composite image data;
c) transmitting the first composite image data as display data on the supporter terminal to a supporter terminal used for guidance to the user by a supporter who is a person supporting the user;
d) obtaining user voice data including voice data uttered by the user;
e) determining whether or not the secret word is included in the user voice data by voice recognition processing on the user voice data;
f) When it is determined that the secret word is included in the user voice data, the secret voice data that is the voice data of the secret word in the user voice data is converted to the voice of the alternative word corresponding to the secret word. Generating synthesized user voice data that is data replaced with alternative voice data that is data;
g) transmitting the synthesized user voice data as voice output data at the supporter terminal to the supporter terminal;
A program for running
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013225254A JP6229433B2 (en) | 2013-10-30 | 2013-10-30 | Operation guidance server, operation guidance system, image forming apparatus, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013225254A JP6229433B2 (en) | 2013-10-30 | 2013-10-30 | Operation guidance server, operation guidance system, image forming apparatus, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015088890A JP2015088890A (en) | 2015-05-07 |
JP6229433B2 true JP6229433B2 (en) | 2017-11-15 |
Family
ID=53051271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013225254A Active JP6229433B2 (en) | 2013-10-30 | 2013-10-30 | Operation guidance server, operation guidance system, image forming apparatus, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6229433B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6731609B2 (en) * | 2016-05-13 | 2020-07-29 | パナソニックIpマネジメント株式会社 | Data processing device, data processing system, data processing method, and data processing program |
JP7180330B2 (en) * | 2018-11-30 | 2022-11-30 | 株式会社リコー | Information processing system, information processing device, and method |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004246610A (en) * | 2003-02-13 | 2004-09-02 | Canon Inc | Information provision/exchange service system |
JP2010055153A (en) * | 2008-08-26 | 2010-03-11 | Fujitsu Ltd | Non-displaying method of secret information |
JP2010273159A (en) * | 2009-05-22 | 2010-12-02 | Sharp Corp | Apparatus and system for processing image |
JP5553721B2 (en) * | 2010-10-04 | 2014-07-16 | 株式会社Nttドコモ | Display device, disclosure control device, disclosure control method, and program |
-
2013
- 2013-10-30 JP JP2013225254A patent/JP6229433B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015088890A (en) | 2015-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10917369B2 (en) | Information processing apparatus, information processing system, and information processing method | |
JP4811507B2 (en) | Image processing system, image processing apparatus, and information processing apparatus | |
JP5146429B2 (en) | Image processing apparatus, speech recognition processing apparatus, control method for speech recognition processing apparatus, and computer program | |
JP2006330576A (en) | Apparatus operation system, speech recognition device, electronic apparatus, information processor, program, and recording medium | |
US11140284B2 (en) | Image forming system equipped with interactive agent function, method of controlling same, and storage medium | |
JP2019092153A (en) | Compound machine control system and method based on natural language | |
US8773696B2 (en) | Method and system for generating document using speech data and image forming apparatus including the system | |
JP6229433B2 (en) | Operation guidance server, operation guidance system, image forming apparatus, and program | |
JP7263869B2 (en) | Information processing device and program | |
JP2010224890A (en) | Operation screen control device, image forming apparatus, and computer program | |
JP4702936B2 (en) | Information processing apparatus, control method, and program | |
JP6832503B2 (en) | Information presentation method, information presentation program and information presentation system | |
US20200366800A1 (en) | Apparatus | |
JP2021092982A (en) | Image processing system, image processing device, and image processing method | |
JP2011086123A (en) | Information processing apparatus, conference system, information processing method, and computer program | |
US20100247063A1 (en) | Moving image recording/reproducing apparatus, moving image recording/reproducing method, and computer readable recording medium having moving image recording/reproducing program recorded thereon | |
JP7314499B2 (en) | Information processing system, information processing device, job control method and job control program | |
JP2009187386A (en) | Information processor and image forming apparatus | |
US11700338B2 (en) | Information processing system that receives audio operations on multifunction peripheral, as well as image processing apparatus and control method therefor | |
JP2020038348A (en) | Voice interactive device, its control method, and program | |
JP2005084861A (en) | Email sending device, image forming system, program and storage medium | |
JP7327939B2 (en) | Information processing system, information processing device, control method, program | |
JP6531427B2 (en) | PROCESSING SYSTEM, TERMINAL DEVICE, PROCESSING DEVICE, PROCESSING DEVICE CONTROL METHOD, AND COMPUTER PROGRAM | |
JP7251549B2 (en) | Information processing device, information processing method and program | |
JP7375427B2 (en) | Audio setting system, audio setting support program, and audio setting support device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160720 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170526 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170711 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170905 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170919 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171002 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6229433 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |