JP2021092924A - Voice operating system, image forming device, voice operating method, voice operating server, and voice operating program - Google Patents

Voice operating system, image forming device, voice operating method, voice operating server, and voice operating program Download PDF

Info

Publication number
JP2021092924A
JP2021092924A JP2019222362A JP2019222362A JP2021092924A JP 2021092924 A JP2021092924 A JP 2021092924A JP 2019222362 A JP2019222362 A JP 2019222362A JP 2019222362 A JP2019222362 A JP 2019222362A JP 2021092924 A JP2021092924 A JP 2021092924A
Authority
JP
Japan
Prior art keywords
voice
user
unit
display
control unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019222362A
Other languages
Japanese (ja)
Inventor
恵太 石原
Keita Ishihara
恵太 石原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2019222362A priority Critical patent/JP2021092924A/en
Publication of JP2021092924A publication Critical patent/JP2021092924A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Control Or Security For Electrophotography (AREA)

Abstract

To allow a user to confirm that those around a user cannot hear voice operating information the user wants to be secret about a voice operating system.SOLUTION: A voice operation system S comprises: a microphone 21 which inputs voice; a display unit 13 which displays information; a speaker 22 which outputs voice; and a response control unit 42 which selects whether to cause the speaker 22 to output voice or whether to cause the display unit 13 to display information on the basis of a user voice input to the microphone 21.SELECTED DRAWING: Figure 1

Description

本発明は、音声操作システム、画像形成装置、音声操作方法、音声操作サーバ、および、音声操作プログラムに関する。 The present invention relates to a voice operation system, an image forming apparatus, a voice operation method, a voice operation server, and a voice operation program.

複合機の音声操作において、ユーザが声で発した設定内容に従って操作を完了することが求められる。例えば、スキャンジョブの場合、複合機は、ユーザの音声に従ってスキャンジョブの設定を行い、ジョブを実行する。音声操作の場合、ユーザの発した音声が必ずしも操作に適切とは限らない。そのため、ユーザの音声を確認することが必要である。複合機とは、いわゆるMFP(Multi Function Peripheral)のことをいう。 In the voice operation of the multifunction device, it is required to complete the operation according to the setting contents uttered by the user. For example, in the case of a scan job, the multifunction device sets the scan job according to the voice of the user and executes the job. In the case of voice operation, the voice uttered by the user is not always appropriate for the operation. Therefore, it is necessary to confirm the user's voice. A multifunction device is a so-called MFP (Multi Function Peripheral).

ユーザの音声指示による設定内容の確認方法として、表示部(パネル)にユーザの音声指示を表示して、その設定内容を確認することが考えられる。しかし、複合機の設定内容は多岐に渡り、かつ、表示部に表示できる内容は限られるため、すべての設定内容を一つの画面に表示することは難しい。 As a method of confirming the setting contents by the user's voice instruction, it is conceivable to display the user's voice instruction on the display unit (panel) and confirm the setting contents. However, since the setting contents of the multifunction device are diverse and the contents that can be displayed on the display unit are limited, it is difficult to display all the setting contents on one screen.

ユーザの音声操作を簡単な設定項目に限定して、常に表示部だけにも表示することが考えられるが、設定項目が限定されてしまう。
多岐に渡る複合機の設定内容に対応するため、複合機のスピーカにて設定内容の復唱を行い、ユーザに確認を求める方法が考えられる。
It is conceivable to limit the user's voice operation to simple setting items and always display only on the display unit, but the setting items are limited.
In order to deal with a wide variety of settings of the multifunction device, it is conceivable to repeat the settings on the speaker of the multifunction device and ask the user for confirmation.

特開2018−194832号公報JP-A-2018-194832

しかしながら、複合機の設定内容には、社外の取引先のスキャン宛先や、公にしたくない個人ファイル名等の個人情報や、機密情報といった秘匿情報であって、周囲に出来る限り知られたくない場合がある。このような設定内容を音声操作(入力)する際、複合機に復唱され、秘匿にして置きたかったものが意図せずに公になってしまうおそれがある。 However, if the settings of the multifunction device include scan destinations of external business partners, personal information such as personal file names that you do not want to make public, or confidential information such as confidential information, and you do not want to be known to the surroundings as much as possible. There is. When such a setting content is voice-operated (input), it may be repeated by the multifunction device, and what was desired to be kept secret may be unintentionally made public.

そこで、音声操作時において、MFP(複合機)が、ユーザ音声の音量に応じて出力音量を制御することが考えられる(特許文献1)。しかし、ユーザは、周囲に聞かれたくない情報を、通常の小さな声より、さらに小さな声で音声入力する。そのため、複合機が復唱する音量は、小さすぎてユーザに聞こえないおそれがある。 Therefore, it is conceivable that the MFP (multifunction device) controls the output volume according to the volume of the user's voice during voice operation (Patent Document 1). However, the user inputs information that he / she does not want to be heard by voice in a quieter voice than in a normal quiet voice. Therefore, the volume that the multifunction device repeats may be too low for the user to hear.

出力音量が小さすぎるとユーザに聞こえなくなるために、複合機は、復唱時の出力音量を所定値よりも小さくしないことが考えられる。しかし、それでは秘匿効果が低く、複合機による復唱が周囲に聞こえてしまうおそれがある。 If the output volume is too low, the user cannot hear it. Therefore, it is conceivable that the multifunction device does not reduce the output volume at the time of recitation below a predetermined value. However, this has a low concealment effect, and there is a risk that the repetition by the multifunction device will be heard by the surroundings.

そこで、本発明は、音声操作システム、画像形成装置、音声操作方法、音声操作サーバ、および、音声操作プログラムについて、ユーザが、秘匿にしたい音声操作情報を周囲に聞こえないように確認することを課題とする。 Therefore, it is an object of the present invention to confirm that the user does not hear the voice operation information to be kept secret with respect to the voice operation system, the image forming apparatus, the voice operation method, the voice operation server, and the voice operation program. And.

すなわち、本発明の上記課題は、下記の構成により解決される。 That is, the above problem of the present invention is solved by the following configuration.

(1) 音声を入力する音声入力部と、
情報を表示する表示部と、
音声を出力する音声出力部と、
前記音声入力部に入力されたユーザの音声に基づいて、前記音声出力部による復唱を行うか、または/および、前記表示部に発話内容の確認応答を表示するかを選択する応答制御部と、
を有する音声操作システム。
(1) A voice input unit for inputting voice and
A display unit that displays information and
An audio output unit that outputs audio and
A response control unit that selects whether to repeat by the voice output unit or / or to display a confirmation response of the utterance content on the display unit based on the user's voice input to the voice input unit.
Voice operation system with.

(2) 前記応答制御部は、前記ユーザが発した音声の音量に基づいて、前記音声出力部による復唱の音量を変更する、
(1)に記載の音声操作システム。
(2) The response control unit changes the volume of the repeat by the voice output unit based on the volume of the voice emitted by the user.
The voice operation system according to (1).

(3) 前記応答制御部は、前記ユーザが発した音声の音量が閾値を超える場合には、前記音声出力部による復唱を行い、
前記ユーザが発した音声の音量が前記閾値以下である場合には、前記表示部に発話内容の確認応答を表示する、
(1)又は(2)に記載の音声操作システム。
(3) When the volume of the voice emitted by the user exceeds the threshold value, the response control unit repeats the voice output unit.
When the volume of the voice uttered by the user is equal to or lower than the threshold value, a confirmation response of the utterance content is displayed on the display unit.
The voice operation system according to (1) or (2).

(4) 前記ユーザを撮影する撮影部を有し、
前記応答制御部は、前記音声出力部による復唱の際の前記ユーザのポーズに応じて、次回の音声操作の際の前記音声出力部による復唱の音量を下げるか、前記表示部に発話内容の確認応答を表示するか、を選択可能な画面を前記表示部に表示させる、
(3)に記載の音声操作システム。
(4) It has a photographing unit for photographing the user, and has a photographing unit.
The response control unit lowers the volume of the repeat by the voice output unit in the next voice operation, or confirms the utterance content on the display unit, in response to the pause of the user when the voice output unit repeats. Display a screen on the display unit where you can select whether to display the response.
The voice operation system according to (3).

(5) 前記応答制御部は、前記表示部に発話内容の確認応答の表示を行わせる際に、ユーザに対して前記表示部の確認を誘導する音声を前記音声出力部に出力する、
(1)又は(2)に記載の音声操作システム。
(5) The response control unit outputs a voice for inducing the user to confirm the display unit to the voice output unit when the display unit displays the confirmation response of the utterance content.
The voice operation system according to (1) or (2).

(6) 前記ユーザとの距離を検知する距離センサを有し、
前記応答制御部は、更に前記距離センサが検知した前記ユーザとの距離に基づいて、前記音声出力部による復唱を行うか、又は、前記表示部に発話内容の確認応答を表示するかを選択する、
(1)又は(2)に記載の音声操作システム。
(6) It has a distance sensor that detects the distance to the user.
The response control unit further selects whether to repeat the voice output unit or display a confirmation response of the utterance content on the display unit based on the distance to the user detected by the distance sensor. ,
The voice operation system according to (1) or (2).

(7) 前記ユーザを撮影する撮影部を有し、
前記応答制御部は、更に前記ユーザの顔又は視線の向きに基づいて、前記音声出力部による復唱を行うか、または/および、前記表示部に発話内容の確認応答を表示するかを選択する、
(1)又は(2)に記載の音声操作システム。
(7) It has a photographing unit for photographing the user, and has a photographing unit.
The response control unit further selects whether to repeat the voice output unit or / or display a confirmation response of the utterance content on the display unit based on the direction of the user's face or line of sight.
The voice operation system according to (1) or (2).

(8) ユーザを撮影する撮影部を有し、
前記応答制御部は、更に前記撮影部が撮影したユーザのポーズに基づいて、前記音声出力部による復唱を行うか、または/および、前記表示部に発話内容の確認応答を表示するかを選択する、
(1)又は(2)に記載の音声操作システム。
(8) It has a shooting unit that shoots the user, and has a shooting unit.
The response control unit further selects whether to repeat the voice output unit or / or display a confirmation response of the utterance content on the display unit based on the pose of the user photographed by the photographing unit. ,
The voice operation system according to (1) or (2).

(9) 前記応答制御部は、更に前記ユーザが発した音声の発話内容の秘匿性に基づいて、前記音声出力部による復唱を行うか、または/および、前記表示部に発話内容の確認応答を表示するかを選択する、
(1)又は(2)に記載の音声操作システム。
(9) The response control unit further repeats by the voice output unit based on the confidentiality of the utterance content of the voice uttered by the user, or / or sends a confirmation response of the utterance content to the display unit. Select whether to display,
The voice operation system according to (1) or (2).

(10) 前記応答制御部は、更に前記ユーザが音声を発したときの前記表示部の画面種別に基づいて、前記音声出力部による復唱を行うか、または/および、前記表示部に発話内容の確認応答を表示するかを選択する、
(1)又は(2)に記載の音声操作システム。
(10) The response control unit further repeats the voice output unit based on the screen type of the display unit when the user emits a voice, or / or displays the utterance content on the display unit. Select whether to display an acknowledgment,
The voice operation system according to (1) or (2).

(11) 前記応答制御部は、前記ユーザが視覚障碍を有する場合、前記音声出力部による復唱を行う、
(1)又は(2)に記載の音声操作システム。
(11) The response control unit repeats the voice output unit when the user has a visual impairment.
The voice operation system according to (1) or (2).

(12) 前記応答制御部は、前記ユーザが視覚障碍を有する場合、前記表示部に発話内容の確認応答を表示することに代えて、前記音声出力部による復唱を最低音量で行う、
ことを特徴とする(11)に記載の音声操作システム。
(12) When the user has a visual impairment, the response control unit repeats the speech output unit at the lowest volume instead of displaying the confirmation response of the utterance content on the display unit.
The voice operation system according to (11).

(13) 原稿をスキャンするスキャン部を有し、
前記応答制御部は、前記スキャン部に置かれた原稿が複写禁止である場合には、前記音声出力部による所定音量以上での警告出力を行わせる、
請求項1又は2に記載の音声操作システム。
(13) It has a scanning unit for scanning documents, and has a scanning unit.
When the document placed on the scanning unit is prohibited from copying, the response control unit causes the voice output unit to output a warning at a predetermined volume or higher.
The voice operation system according to claim 1 or 2.

(14) 音声を入力する音声入力部と、
情報を表示する表示部と、
音声を出力する音声出力部と、
前記音声入力部に入力されたユーザの音声に基づいて、前記音声出力部による復唱を行うか、または/および、前記表示部に発話内容の確認応答を表示するかを選択する応答制御部と、
を有する画像形成装置。
(14) A voice input unit for inputting voice and
A display unit that displays information and
An audio output unit that outputs audio and
A response control unit that selects whether to repeat by the voice output unit or / or to display a confirmation response of the utterance content on the display unit based on the user's voice input to the voice input unit.
An image forming apparatus having.

(15) 音声を入力する音声入力部と、
情報を表示する表示部と、
音声を出力する音声出力部と、
応答制御部とを備えた装置の音声操作方法であって、
前記音声入力部が、ユーザの音声を入力し、
前記応答制御部が、前記ユーザの音声に基づいて、前記音声出力部による復唱を行うか、または/および、前記表示部に発話内容の確認応答を表示するかを選択する、
音声操作方法。
(15) A voice input unit for inputting voice and
A display unit that displays information and
An audio output unit that outputs audio and
It is a voice operation method of a device equipped with a response control unit.
The voice input unit inputs the user's voice and
The response control unit selects whether to repeat the voice output unit based on the user's voice, or / and to display a confirmation response of the utterance content on the display unit.
Voice operation method.

(16) 音声入力装置に入力されたユーザの音声を認識したテキストデータから、ユーザの指示内容を認識する指示内容認識部と、
前記音声に基づいて、音声出力装置による復唱を行わせるか、または/および、表示装置に発話内容の確認応答を表示させるかを選択する応答制御部と、
を有する音声操作サーバ。
(16) An instruction content recognition unit that recognizes the user's instruction content from the text data that recognizes the user's voice input to the voice input device, and
A response control unit that selects whether to repeat the voice by the voice output device based on the voice, and / or to display the confirmation response of the utterance content on the display device.
Voice operation server with.

(17) コンピュータに、
音声入力装置に入力されたユーザの音声を認識したテキストデータから、ユーザの指示内容を認識する手順、
前記音声に基づいて、音声出力装置による復唱を行わせるか、または/および、表示装置に発話内容の確認応答を表示させるかを選択する手順、
を実行させるための音声操作プログラム。
(17) On the computer
Procedure for recognizing the user's instruction content from the text data that recognizes the user's voice input to the voice input device,
A procedure for selecting whether to repeat the voice by the voice output device or / and display the confirmation response of the utterance content on the display device based on the voice.
A voice operation program for executing.

本発明によれば、ユーザが、秘匿にしたい音声操作情報を周囲に聞こえないように確認することが可能となる。 According to the present invention, it is possible for the user to confirm that the voice operation information to be kept secret is not heard by the surroundings.

本実施形態における音声操作システムの概略を示す構成図である。It is a block diagram which shows the outline of the voice operation system in this embodiment. 本実施形態における動作条件テーブルの一例を示す図である。It is a figure which shows an example of the operation condition table in this embodiment. 音声操作処理を示すフローチャート(その1)である。It is a flowchart (the 1) which shows the voice operation processing. 音声操作処理を示すフローチャート(その2)である。It is a flowchart (2) which shows the voice operation processing. 音声操作処理を示すフローチャート(その3)である。It is a flowchart (3) which shows the voice operation processing. 複写禁止原稿の確認応答画面の一例である。This is an example of a confirmation response screen for a copy-prohibited manuscript. 秘匿にすべき情報を含む確認応答画面の一例である。This is an example of an acknowledgment screen containing information that should be kept secret. 秘匿にすべき情報を含む確認応答画面の他の例である。This is another example of an acknowledgment screen that contains information that should be kept secret. 次回の応答の指示画面の他の例である。This is another example of the instruction screen for the next response. 設置環境の反響度合いを検知する処理を示すフローチャートである。It is a flowchart which shows the process of detecting the degree of reverberation of an installation environment. こっそりと話しかけるポーズを検知する処理を示すフローチャートである。It is a flowchart which shows the process which detects the pose which talks secretly. こっそりと話しかけるポーズの一例である。This is an example of a pose that talks secretly. 内緒のポーズを検知する処理を示すフローチャートである。It is a flowchart which shows the process of detecting a secret pose. 内緒のポーズの一例である。This is an example of a secret pose.

以降、本発明を実施するための形態を、各図を参照して詳細に説明する。
本発明の第1のポイントは、ユーザの音声の音量に応じて、複合機は、音声で応答するか、または表示部に応答を表示するかを切り替えて制御することである。
第2のポイントは、パスワード等の秘匿すべき情報ならば、複合機は、音量の大小に関らず、音声で応答せず、表示部に応答を表示することである。
Hereinafter, embodiments for carrying out the present invention will be described in detail with reference to each figure.
The first point of the present invention is to control the multifunction device by switching between responding by voice and displaying the response on the display unit according to the volume of the voice of the user.
The second point is that if the information should be kept secret such as a password, the multifunction device does not respond by voice regardless of the volume level, and displays the response on the display unit.

第3のポイントは、視覚障碍者に対して、複合機は最小閾値の音量の音声にて応答し、表示部に応答を表示しないことである。
第4のポイントは、複写禁止原稿がスキャン部に置かれていたならば、複合機は、ユーザ音声の音量の大小に関らず、所定音量の音声で応答することである。
The third point is that the multifunction device responds to a visually impaired person with a voice having a minimum threshold volume, and does not display the response on the display unit.
The fourth point is that if the copy-prohibited original is placed in the scanning unit, the multifunction device responds with a predetermined volume of voice regardless of the volume of the user's voice.

図1は、本実施形態における音声操作システムSの概略を示す構成図である。
音声操作システムSは、複合機1と、音声処理サーバ3と、複合機制御サーバ4とが不図示のネットワークによって相互に通信可能に接続されて構成される。以下、複合機制御サーバ4が主体となる動作を、複合機1を主体として記載する場合がある。
なお、このような構成限られず、音声処理サーバ3の各機能部や複合機制御サーバ4の各機能部が、複合機1の内部に設けられてもよい。
FIG. 1 is a configuration diagram showing an outline of the voice operation system S in the present embodiment.
The voice operation system S is configured by connecting the multifunction device 1, the voice processing server 3, and the multifunction device control server 4 so as to be able to communicate with each other by a network (not shown). Hereinafter, the operation in which the multifunction device control server 4 is the main body may be described with the multifunction device 1 as the main body.
The configuration is not limited to this, and each functional unit of the voice processing server 3 and each functional unit of the multifunction device control server 4 may be provided inside the multifunction device 1.

複合機1は、印刷機能とスキャン機能とファックス機能を有する画像形成装置であり、制御部11と、操作部12と、表示部13と、スキャン部14と、ファックス部10と、記憶部15と、印刷部17と、カードリーダ18とを備える。
制御部11は、この複合機1を統括制御する部位であり、例えば不図示のCPU(Central Processing Unit)とRAM(Random Access Memory)とROM(Read Only Memory)とを含んで構成される。
The multifunction device 1 is an image forming apparatus having a printing function, a scanning function, and a fax function, and includes a control unit 11, an operation unit 12, a display unit 13, a scanning unit 14, a fax unit 10, and a storage unit 15. A printing unit 17 and a card reader 18 are provided.
The control unit 11 is a portion that controls the multifunction device 1 in an integrated manner, and includes, for example, a CPU (Central Processing Unit), a RAM (Random Access Memory), and a ROM (Read Only Memory) (not shown).

操作部12は、この複合機1の操作情報を入力する部位であり、例えばタッチパネルディスプレイのタッチパネル部分である。
表示部13は、複合機1の設定内容等の情報を表示する表示部であり、例えばタッチパネルディスプレイのディスプレイ部分である。
The operation unit 12 is a portion for inputting operation information of the multifunction device 1, and is, for example, a touch panel portion of a touch panel display.
The display unit 13 is a display unit that displays information such as the setting contents of the multifunction device 1, and is, for example, a display unit of a touch panel display.

スキャン部14は、原稿を光学的に読み取る部位である。ファックス部10は、電話回線を介してファックスを送受信する部位である。記憶部15は、この複合機1の設定内容等を記憶する部位である。印刷部17は、記録媒体に画像を形成する部位である。カードリーダ18は、IDカードに記憶されたユーザの識別情報を読み取る部位である。カードリーダ18が読み取った識別情報に基づき、複合機1は、現在のユーザを識別可能である。 The scanning unit 14 is a portion for optically reading the document. The fax unit 10 is a portion for transmitting and receiving faxes via a telephone line. The storage unit 15 is a portion that stores the setting contents and the like of the multifunction device 1. The printing unit 17 is a portion that forms an image on a recording medium. The card reader 18 is a portion that reads the user's identification information stored in the ID card. Based on the identification information read by the card reader 18, the multifunction device 1 can identify the current user.

複合機1は更に、カメラ16と、距離センサ19と、マイク21と、スピーカ22とを備える。マイク21は、ユーザの音声を入力する音声入力部である。マイク21に入力された音声は、音声データと音量データとに変換されて、音声処理サーバ3に送信される。 The multifunction device 1 further includes a camera 16, a distance sensor 19, a microphone 21, and a speaker 22. The microphone 21 is a voice input unit for inputting a user's voice. The voice input to the microphone 21 is converted into voice data and volume data and transmitted to the voice processing server 3.

スピーカ22は、合成された音声を出力する音声出力部である。スピーカ22は、音声処理サーバ3から出力された音声データと音量データに基づく応答の音声を再生する。 The speaker 22 is a voice output unit that outputs the synthesized voice. The speaker 22 reproduces the voice of the response based on the voice data and the volume data output from the voice processing server 3.

カメラ16は、ユーザを撮影する撮影部である。カメラ16が撮影したユーザ画像に基づき、制御部11は、ユーザのポーズを抽出することができる。撮影画像に基づいて人のポーズを抽出するソフトウエアライブラリとして、例えば、カーネギーメロン大学のZhe Caoらが開発したOpenPoseがある。
距離センサ19は、マイク21とユーザとの距離を検知する部位である。
The camera 16 is a shooting unit that shoots the user. Based on the user image taken by the camera 16, the control unit 11 can extract the pose of the user. As a software library that extracts human poses based on captured images, for example, there is OpenPose developed by Zhe Cao et al. Of Carnegie Mellon University.
The distance sensor 19 is a portion that detects the distance between the microphone 21 and the user.

音声処理サーバ3と複合機制御サーバ4とは、不図示のCPUとRAMとROMとを含んで構成されるコンピュータである。不図示のCPUがプログラムを実行することにより、各機能部が具現化される。 The voice processing server 3 and the multifunction device control server 4 are computers including a CPU (not shown), a RAM, and a ROM (not shown). Each functional unit is embodied by executing a program by a CPU (not shown).

音声処理サーバ3には、音声認識部31と音声合成部32とが具現化されている。音声認識部31は、マイク21が収録した音声データを認識して、テキストデータに変換する部位である。音声認識部31が出力したテキストデータと音量データは、複合機制御サーバ4に出力される。
音声合成部32は、テキストデータから音声データを合成する部位である。音量データと、音声合成部32が合成した音声データは、スピーカ22に出力される。
The voice processing server 3 embodies a voice recognition unit 31 and a voice synthesis unit 32. The voice recognition unit 31 is a portion that recognizes the voice data recorded by the microphone 21 and converts it into text data. The text data and volume data output by the voice recognition unit 31 are output to the multifunction device control server 4.
The voice synthesis unit 32 is a part that synthesizes voice data from text data. The volume data and the voice data synthesized by the voice synthesis unit 32 are output to the speaker 22.

複合機制御サーバ4には、指示内容認識部41と応答制御部42とコマンド変換部43とが具現化されている。複合機制御サーバ4の不図示のCPUが、不図示の記憶部に格納された音声操作プログラムを実行することにより、音声による操作を実現する音声操作サーバとして機能する。
指示内容認識部41は、音声認識部31が認識したテキストデータから、ユーザの指示内容を認識する部位である。指示内容認識部41が認識した指示内容は、応答制御部42とコマンド変換部43に出力され、更に音量データが応答制御部42に出力される。
The multifunction device control server 4 embodies an instruction content recognition unit 41, a response control unit 42, and a command conversion unit 43. The CPU (not shown) of the multifunction device control server 4 functions as a voice operation server that realizes a voice operation by executing a voice operation program stored in a storage unit (not shown).
The instruction content recognition unit 41 is a portion that recognizes the user's instruction content from the text data recognized by the voice recognition unit 31. The instruction content recognized by the instruction content recognition unit 41 is output to the response control unit 42 and the command conversion unit 43, and the volume data is further output to the response control unit 42.

応答制御部42は、ユーザの指示内容とユーザの音声に係る音量とに基づき、どのような応答を返すかを制御する部位である。応答制御部42は、マイク21に入力されたユーザの音声に基づいて、スピーカ22による復唱を行わせるか、または/および、表示部13に発話内容の確認表示画面を表示させるのかを選択する。
応答制御部42は、音声合成部32に応答のテキストデータと音量データとを出力し、コマンド変換部43にメッセージの表示指示を出力する。
The response control unit 42 is a unit that controls what kind of response is returned based on the content of the user's instruction and the volume related to the user's voice. The response control unit 42 selects whether to repeat the speech by the speaker 22 based on the user's voice input to the microphone 21 or / or to display the confirmation display screen of the utterance content on the display unit 13.
The response control unit 42 outputs the text data and volume data of the response to the voice synthesis unit 32, and outputs a message display instruction to the command conversion unit 43.

コマンド変換部43は、指示内容認識部41が認識した指示内容や、応答制御部42が出力したメッセージの表示指示に基づき、複合機1の表示部13に所定表示を指示する部位である。 The command conversion unit 43 is a portion that instructs the display unit 13 of the multifunction device 1 to perform a predetermined display based on the instruction content recognized by the instruction content recognition unit 41 and the display instruction of the message output by the response control unit 42.

図2は、動作条件テーブル151の一例を示す図である。
動作条件テーブル151の左側4列は、複合機1に入力される様々な動作条件が記載されており、右側3列は、複合機1から出力される応答条件が記載されている。
FIG. 2 is a diagram showing an example of the operating condition table 151.
The four columns on the left side of the operating condition table 151 describe various operating conditions input to the multifunction device 1, and the three columns on the right side describe the response conditions output from the multifunction device 1.

第1列は、入力音量レベルが記載されている。入力音量レベル100%とは、入力音量が50%を超え、かつ100%以下であることを示している。入力音量レベル50%とは、入力音量が25%を超え、かつ50%以下であることを示している。入力音量レベル25%とは、入力音量が25%以下であることを示している。 The first column describes the input volume level. The input volume level of 100% means that the input volume exceeds 50% and is 100% or less. The input volume level of 50% means that the input volume exceeds 25% and is 50% or less. The input volume level of 25% indicates that the input volume is 25% or less.

第2列は、入力された音声情報にパスワードが含まれているか否かを示している。パスワードが含まれている場合が「〇」であり、パスワードが含まれていない場合が「−」である。 The second column indicates whether or not the input voice information includes a password. When the password is included, it is "○", and when the password is not included, it is "-".

第3列は、ユーザは視覚障碍者であるか否かを示している。視覚障碍者の場合は「〇」であり、視覚障碍者ではない場合が「−」である。 The third column shows whether or not the user is visually impaired. In the case of a visually impaired person, it is "○", and in the case of a non-visually impaired person, it is "-".

第4列は、複写禁止原稿が置かれているか否かを示している。複写禁止原稿が置かれている場合は「〇」であり、複写禁止原稿が置かれていない場合が「−」である。 The fourth column shows whether or not a copy-prohibited manuscript is placed. If a copy-prohibited manuscript is placed, it is "○", and if a copy-prohibited manuscript is not placed, it is "-".

第5列は、スピーカ22の出力音量レベルを示している。第6列は、スピーカ22が出力する応答内容を示している。第7列は、表示部13に表示される応答内容を示している。 The fifth column shows the output volume level of the speaker 22. The sixth column shows the response contents output by the speaker 22. The seventh column shows the response contents displayed on the display unit 13.

《ユーザの操作音声の入力音量に応じた制御》
動作条件テーブル151の第1行から第3行は、入力された音声情報にパスワードが含まれておらず、ユーザは視覚障碍者ではなく、複写禁止原稿が置かれていない場合の動作を示している。
<< Control according to the input volume of the user's operation voice >>
The first to third rows of the operating condition table 151 show the operation when the input voice information does not include the password, the user is not a visually impaired person, and the copy prohibited manuscript is not placed. There is.

第1行目は、ユーザが複合機1を音声で操作し、かつ入力音量が50%を超え、100%以下である場合を示している。このとき、複合機1は、出力音量レベル100%でユーザの操作音声を復唱し、表示部13に発話内容に関する確認内容を表示しない。 The first line shows a case where the user operates the multifunction device 1 by voice and the input volume exceeds 50% and is 100% or less. At this time, the multifunction device 1 repeats the user's operation voice at the output volume level of 100%, and does not display the confirmation content regarding the utterance content on the display unit 13.

第2行目は、ユーザが複合機1を音声で操作し、かつ入力音量が25%を超え、50%以下である場合を示している。このとき、複合機1は、出力音量レベル50%でユーザの操作音声を復唱し、表示部13に発話内容に関する確認内容を表示しない。 The second line shows a case where the user operates the multifunction device 1 by voice and the input volume exceeds 25% and is 50% or less. At this time, the multifunction device 1 repeats the user's operation voice at the output volume level of 50%, and does not display the confirmation content regarding the utterance content on the display unit 13.

第3行目は、ユーザが複合機1を音声で操作し、かつ入力音量が25%以下である場合を示している。このとき、複合機1は、出力音量レベル50%で「表示部をご確認ください」の音声を出力し、かつ表示部13に発話内容に関する確認内容を表示する。 The third line shows a case where the user operates the multifunction device 1 by voice and the input volume is 25% or less. At this time, the multifunction device 1 outputs the voice of "Please check the display unit" at the output volume level of 50%, and displays the confirmation content regarding the utterance content on the display unit 13.

即ち、ユーザが入力音量レベル25%以下の小声で周囲に聞えないように話しかけた場合、複合機1は、出力音声による復唱を行わず、代わりに表示部13に確認応答画面を表示している。応答制御部42は、マイク21に入力されたユーザの音声の入力音量に基づいて、スピーカ22による復唱を行わせるか、または/および、表示部13に発話内容の確認応答画面を表示させるのかを選択する。 That is, when the user speaks in a low voice with an input volume level of 25% or less so as not to be heard by the surroundings, the multifunction device 1 does not repeat the output voice, but instead displays a confirmation response screen on the display unit 13. .. The response control unit 42 determines whether to repeat the speech by the speaker 22 based on the input volume of the user's voice input to the microphone 21 or / or to display the confirmation response screen of the utterance content on the display unit 13. select.

これにより、ユーザが秘匿にしたい音声操作情報を、周囲に聞こえないように確認することができる。ここでは、入力音量レベル25%は、スピーカ22の合成音声に代わって、表示部13で応答するように切り替える閾値Tである。 As a result, it is possible to confirm that the voice operation information that the user wants to keep secret is not heard by the surroundings. Here, the input volume level of 25% is a threshold value T for switching to respond on the display unit 13 instead of the synthetic voice of the speaker 22.

《音声情報にパスワードが含まれる場合の例外》
動作条件テーブル151の第4行から第6行は、入力された音声情報にパスワードが含まれており、ユーザは視覚障碍者ではなく、複写禁止原稿が置かれていない場合の動作を示している。
<< Exception when voice information includes password >>
The 4th to 6th rows of the operating condition table 151 show the operation when the input voice information includes the password, the user is not a visually impaired person, and the copy prohibited manuscript is not placed. ..

第4行目は、ユーザが複合機1を音声で操作し、かつ入力音量が50%を超え、100%以下である場合を示している。このとき、複合機1は、出力音量100%で「表示部をご確認ください」の音声を出力し、かつ表示部13に発話内容に関する確認内容を表示する。 The fourth line shows a case where the user operates the multifunction device 1 by voice and the input volume exceeds 50% and is 100% or less. At this time, the multifunction device 1 outputs the voice of "Please check the display unit" at an output volume of 100%, and displays the confirmation content regarding the utterance content on the display unit 13.

第5行目は、ユーザが複合機1を音声で操作し、かつ入力音量が25%を超え、50%以下である場合を示している。このとき、複合機1は、出力音量50%で「表示部をご確認ください」の音声を出力し、かつ表示部13に発話内容に関する確認内容を表示する。 The fifth line shows a case where the user operates the multifunction device 1 by voice and the input volume exceeds 25% and is 50% or less. At this time, the multifunction device 1 outputs the voice of "Please check the display unit" at an output volume of 50%, and displays the confirmation content regarding the utterance content on the display unit 13.

第6行目は、ユーザが複合機1を音声で操作し、かつ入力音量が25%以下である場合を示している。このとき、複合機1は、出力音量レベル50%で「表示部をご確認ください」の音声を出力し、かつ表示部13に発話内容に関する確認内容を表示する。 The sixth line shows a case where the user operates the multifunction device 1 by voice and the input volume is 25% or less. At this time, the multifunction device 1 outputs the voice of "Please check the display unit" at the output volume level of 50%, and displays the confirmation content regarding the utterance content on the display unit 13.

即ち、パスワードのように周囲に秘匿すべき情報を音声入力した場合、複合機1は、入力音量レベルによらず、常に表示部13に確認内容を表示する。例えば、ユーザが音声で操作しようしているとき、表示部13にログイン画面が表示されていたならば、パスワードの音声入力と判定するとよい。 That is, when information to be kept secret is input by voice such as a password, the multifunction device 1 always displays the confirmation content on the display unit 13 regardless of the input volume level. For example, if the login screen is displayed on the display unit 13 when the user is trying to operate by voice, it may be determined that the password is input by voice.

秘匿が必要なパスワードを表示部13で確認させ、かつスピーカ22で発話内容を復唱しないので、パスワードを他の者から秘匿することができる。更にユーザは、表示部13を見ている時間を短くすることができる。 Since the password that needs to be kept secret is confirmed on the display unit 13 and the utterance content is not repeated on the speaker 22, the password can be kept secret from other people. Further, the user can shorten the time for viewing the display unit 13.

《ユーザが視覚障碍者の場合の例外》
動作条件テーブル151の第7行から第9行は、入力された音声情報にパスワードが含まれておらず、ユーザは視覚障碍者であり、複写禁止原稿が置かれていない場合の動作を示している。
<< Exception when the user is visually impaired >>
The 7th to 9th rows of the operating condition table 151 show the operation when the input voice information does not include the password, the user is visually impaired, and the copy prohibited manuscript is not placed. There is.

第7行目は、ユーザが複合機1を音声で操作し、かつ入力音量が50%を超え、100%以下である場合を示している。このとき、複合機1は、出力音量100%でユーザの操作音声を復唱し、表示部13に発話内容に関する確認内容を表示しない。 The seventh line shows a case where the user operates the multifunction device 1 by voice and the input volume exceeds 50% and is 100% or less. At this time, the multifunction device 1 repeats the user's operation voice at an output volume of 100%, and does not display the confirmation content regarding the utterance content on the display unit 13.

第8行目は、ユーザが複合機1を音声で操作し、かつ入力音量が25%を超え、50%以下である場合を示している。このとき、複合機1は、出力音量50%でユーザの操作音声を復唱し、表示部13に発話内容に関する確認内容を表示しない。 The eighth line shows a case where the user operates the multifunction device 1 by voice and the input volume exceeds 25% and is 50% or less. At this time, the multifunction device 1 repeats the user's operation voice at an output volume of 50%, and does not display the confirmation content regarding the utterance content on the display unit 13.

第9行目は、ユーザが複合機1を音声で操作し、かつ入力音量が25%以下である場合を示している。このとき、複合機1は、出力音量50%でユーザの操作音声を復唱し、表示部13には発話内容に関する確認内容を表示しない。 The ninth line shows a case where the user operates the multifunction device 1 by voice and the input volume is 25% or less. At this time, the multifunction device 1 repeats the user's operation voice at an output volume of 50%, and does not display the confirmation content regarding the utterance content on the display unit 13.

即ち、ユーザが視覚障碍者であった場合、複合機1は、入力音量レベルによらず、常にユーザの操作音声をスピーカ22で復唱し、表示部13には確認内容を表示しない。複合機1は、カードリーダ18によるユーザ認証と、ユーザ属性のデータベース(不図示)により、現在のユーザが視覚障碍者であるか否かを判定可能である。 That is, when the user is visually impaired, the multifunction device 1 always repeats the user's operation voice on the speaker 22 regardless of the input volume level, and does not display the confirmation content on the display unit 13. The multifunction device 1 can determine whether or not the current user is visually impaired by user authentication by the card reader 18 and a database of user attributes (not shown).

なお、ユーザが視覚障碍者であるか否かの判定は、ユーザ属性データベースの参照に限定されない。複合機1は、ユーザが歩行補助線を杖で確認しながら歩いて来たか、ユーザが点字部分を手でなぞった後に音声操作を開始したか、カメラ16でユーザの目を撮影した結果が視覚障碍の症例に合致するか、盲導犬を連れているか、のうち何れか1つまたは複数に該当する場合は、視覚障碍者であると判定するとよい。 The determination of whether or not the user is visually impaired is not limited to the reference of the user attribute database. In the multifunction device 1, the user walks while checking the walking assistance line with a cane, the user starts the voice operation after tracing the Braille part by hand, or the result of photographing the user's eyes with the camera 16 is visible. If one or more of the cases of the disability are met or the guide dog is carried, it is judged that the person is visually impaired.

なお、ユーザが視覚障碍者であった場合に限定されず、ユーザが表示部13を確認できない場合、入力音量レベルによらず、音声でユーザの操作音声を復唱してもよい。ユーザが表示部13を確認できない場合とは、例えばユーザが重たいものを持っていて直ぐにパネル前に来られない場合などである。 It should be noted that the present invention is not limited to the case where the user is visually impaired, and when the user cannot confirm the display unit 13, the user's operation voice may be repeated by voice regardless of the input volume level. The case where the user cannot confirm the display unit 13 is, for example, the case where the user has a heavy object and cannot immediately come to the front of the panel.

《複写禁止原稿に対する例外》
動作条件テーブル151の第10行から第12行は、入力された音声情報にパスワードが含まれておらず、ユーザは視覚障碍者ではなく、複写禁止原稿が置かれている場合の動作を示している。
<< Exceptions to copy-prohibited manuscripts >>
The 10th to 12th rows of the operating condition table 151 show the operation when the input voice information does not include the password, the user is not a visually impaired person, and the copy prohibited manuscript is placed. There is.

第10行目は、ユーザが複合機1を音声で操作し、かつ入力音量が50%を超え、100%以下である場合を示している。このとき、複合機1は、出力音量100%でユーザの操作音声を復唱し、表示部13には警告を表示する。 The tenth line shows a case where the user operates the multifunction device 1 by voice and the input volume exceeds 50% and is 100% or less. At this time, the multifunction device 1 repeats the user's operation voice at an output volume of 100%, and displays a warning on the display unit 13.

第11行目は、ユーザが複合機1を音声で操作し、かつ入力音量が25%を超え、50%以下である場合を示している。このとき、複合機1は、出力音量100%でユーザの操作音声を復唱し、表示部13には警告を表示する。 The eleventh line shows a case where the user operates the multifunction device 1 by voice and the input volume exceeds 25% and is 50% or less. At this time, the multifunction device 1 repeats the user's operation voice at an output volume of 100%, and displays a warning on the display unit 13.

第12行目は、ユーザが複合機1を音声で操作し、かつ入力音量が25%以下である場合を示している。このとき、複合機1は、出力音量100%でユーザの操作音声を復唱し、表示部13には警告を表示する。 The twelfth line shows a case where the user operates the multifunction device 1 by voice and the input volume is 25% or less. At this time, the multifunction device 1 repeats the user's operation voice at an output volume of 100%, and displays a warning on the display unit 13.

即ち、スキャン部14に複写禁止原稿が置かれていた場合、ユーザの操作音声が小音量であったとしても、複合機1は、周囲へ周知が出来るように、大音量でユーザの操作音声を復唱し、かつ、表示部13には警告を表示する。 That is, when a copy-prohibited document is placed on the scanning unit 14, even if the user's operation voice is low volume, the multifunction device 1 can transmit the user's operation voice at a high volume so that it can be known to the surroundings. It repeats and a warning is displayed on the display unit 13.

スキャン部14に原稿が置かれると、複合機1は、原稿サイズ自動検知時などのプレスキャンを行う。複合機1は、このプレスキャンデータにより、この原稿が複写禁止であるか否かを判定可能である。 When the document is placed on the scanning unit 14, the multifunction device 1 performs a pre-scan such as when the document size is automatically detected. The multifunction device 1 can determine whether or not the original is copy-prohibited from the pre-scan data.

スキャン部14に複写禁止原稿が置かれ、かつユーザが「〇×の設定でコピー」と口頭で操作指示した場合、複合機1は、「その原稿は禁止原稿です、スキャンを停止してください」と周囲に聞えるような音量で応答する。これにより、複合機1は、複写禁止原稿のスキャンやコピーを抑止することができる。 When a copy-prohibited document is placed on the scanning unit 14 and the user verbally instructs "copy with XX setting", the multifunction device 1 says, "The document is a prohibited document. Please stop scanning." Respond at a volume that can be heard around. As a result, the multifunction device 1 can suppress scanning and copying of the copy-prohibited original.

図3Aから図3Cは、音声操作処理を示すフローチャートである。
ステップS10において、ユーザが音声操作して、マイク21に音声が入力されると、複合機制御サーバ4による音声操作処理が開始する。
複合機制御サーバ4の指示内容認識部41は、複合機1にユーザとマイク21との距離の問い合わせコマンドを送信し、距離センサ19により、ユーザとマイク21との距離を検知する(S11)。そして、複合機1の制御部11は、検知した距離情報を、複合機制御サーバ4の指示内容認識部41に送信する。これにより指示内容認識部41は、ユーザとマイク21との距離の回答を得ることができる。
3A to 3C are flowcharts showing voice operation processing.
In step S10, when the user operates the voice and the voice is input to the microphone 21, the voice operation process by the multifunction device control server 4 starts.
The instruction content recognition unit 41 of the multifunction device control server 4 transmits an inquiry command for the distance between the user and the microphone 21 to the multifunction device 1, and the distance sensor 19 detects the distance between the user and the microphone 21 (S11). Then, the control unit 11 of the multifunction device 1 transmits the detected distance information to the instruction content recognition unit 41 of the multifunction device control server 4. As a result, the instruction content recognition unit 41 can obtain an answer of the distance between the user and the microphone 21.

そして複合機制御サーバ4の指示内容認識部41は、マイク21が検知した音量データと、ユーザとマイク21との距離情報などから音声の入力音量を算出する(S12)。
例えば、指示内容認識部41は、実際にマイク21に届いた音量Vmと、マイク21からの距離D1と雰囲気D2と声色D3と反響度合いD4とによる減算音量Dを加味して、音声の入力音量Vinを計算するとよい。
Then, the instruction content recognition unit 41 of the multifunction device control server 4 calculates the voice input volume from the volume data detected by the microphone 21 and the distance information between the user and the microphone 21 (S12).
For example, the instruction content recognition unit 41 adds the volume Vm that actually reaches the microphone 21, the subtraction volume D due to the distance D1 from the microphone 21, the atmosphere D2, the voice color D3, and the reverberation degree D4, and adds the voice input volume. Vin should be calculated.

距離D1は、マイク21からユーザの顔までの距離であり、例えば距離センサ19によって測定可能である。
雰囲気D2は、例えば手を添えて音が漏れないように発声しているか否かであり、後記する図9の処理によって判定可能である。
The distance D1 is the distance from the microphone 21 to the user's face, and can be measured by, for example, the distance sensor 19.
The atmosphere D2 is, for example, whether or not the sound is uttered with a hand so that the sound does not leak, and can be determined by the process of FIG. 9 described later.

声色D3は、内緒話のような声色か否かであり、入力音声のスペクトル分析により判定可能である。内緒話のような声色か否かは、ユーザの通常の声音を予め登録しておき、登録された声音とマイク21の入力音の声音が異なっているか否かで判定してもよい。
反響度合いD4は、周囲の静けさなどの環境音を考慮し、かつ環境の反響音を考慮したものであり、後記する図8の処理で算出可能である。
これらD1〜D4は固定値にしてもよく、程度によってレベル分けしてもよい。音声の入力音量Vinは、実際にマイク21に届いた音量Vmと、減算音量Dとから計算される。
The voice color D3 is whether or not the voice color is like a secret story, and can be determined by spectral analysis of the input voice. Whether or not the voice color is like a secret story may be determined by registering the user's normal voice sound in advance and determining whether or not the registered voice sound and the voice sound of the input sound of the microphone 21 are different.
The degree of reverberation D4 takes into consideration environmental sounds such as the quietness of the surroundings and also takes into consideration the reverberant sounds of the environment, and can be calculated by the process of FIG. 8 described later.
These D1 to D4 may be fixed values or may be divided into levels according to the degree. The voice input volume Vin is calculated from the volume Vm that actually reaches the microphone 21 and the subtraction volume D.

複合機制御サーバ4の応答制御部42は、複合機1に複写禁止原稿の有無の問い合わせコマンドを送信し、スキャン部14に複写禁止原稿が置かれているか否かを判定する(S13)。複合機1の制御部11は、ステップS13の判定結果を複合機制御サーバ4の応答制御部42に送信する。これにより応答制御部42は、複写禁止原稿の有無の回答を得ることができる。
ステップS14において、応答制御部42は、スキャン部14に複写禁止原稿が置かれているか否かを判定する。応答制御部42は、スキャン部14に複写禁止原稿が置かれていたならば(Yes)、出力応答(復唱)のテキストと通常音量の音量データを音声処理サーバ3へ送信して、スピーカ22により通常音量での出力応答(復唱)を行わせる(S15)。更に応答制御部42は、警告の表示コマンドを複合機1に送信して、複合機1の表示部13に警告を表示させる(S16)。ステップS16の処理が終了すると、この音声操作処理を終了する。
The response control unit 42 of the multifunction device control server 4 transmits an inquiry command for the presence or absence of a copy-prohibited document to the multifunction device 1 and determines whether or not a copy-prohibited document is placed in the scanning unit 14 (S13). The control unit 11 of the multifunction device 1 transmits the determination result of step S13 to the response control unit 42 of the multifunction device control server 4. As a result, the response control unit 42 can obtain an answer as to whether or not there is a copy prohibited document.
In step S14, the response control unit 42 determines whether or not a copy prohibited document is placed on the scanning unit 14. If the copy-prohibited document is placed in the scanning unit 14 (Yes), the response control unit 42 transmits the text of the output response (repeation) and the volume data of the normal volume to the voice processing server 3, and the speaker 22 transmits the text. An output response (repetition) is performed at a normal volume (S15). Further, the response control unit 42 transmits a warning display command to the multifunction device 1 to display the warning on the display unit 13 of the multifunction device 1 (S16). When the process of step S16 is completed, the voice operation process is completed.

図4は、ステップS16において表示部13に表示される警告画面51である。
警告画面51には、「複写が禁止されている原稿です。複写を実行しますか。」の文章が表示され、更にその下側に「はい」ボタン511と「いいえ」ボタン512とが表示されている。ユーザが「はい」ボタン511をタップすると、スキャン部14は、複写を実行する。ユーザが「いいえ」ボタン512をタップすると、スキャン部14は、複写を実行しない。
FIG. 4 is a warning screen 51 displayed on the display unit 13 in step S16.
On the warning screen 51, the text "This is a manuscript whose copying is prohibited. Do you want to copy?" Is displayed, and "Yes" button 511 and "No" button 512 are displayed below it. ing. When the user taps the "Yes" button 511, the scanning unit 14 executes copying. When the user taps the "No" button 512, the scanning unit 14 does not perform copying.

図3Aに戻り説明を続ける。ステップS14において、応答制御部42は、スキャン部14に複写禁止原稿が置かれていなかったならば(No)、ステップS17に進み、発話内容を判定する。
ステップS18において、応答制御部42は、発話内容が秘匿情報、例えばパスワードや秘密にしたい宛先情報であったならば(Yes)、図3BのステップS28に進む。応答制御部42は、コマンド変換部43を介して表示部13に、発話内容に関する確認応答の画面を表示させると(S28)、この音声操作処理を終了する。
The explanation will be continued by returning to FIG. 3A. In step S14, if the copy prohibited document is not placed in the scanning unit 14, the response control unit 42 proceeds to step S17 and determines the utterance content.
In step S18, if the utterance content is confidential information, for example, a password or destination information to be kept secret (Yes), the response control unit 42 proceeds to step S28 of FIG. 3B. When the response control unit 42 causes the display unit 13 to display the confirmation response screen regarding the utterance content via the command conversion unit 43 (S28), the voice operation process ends.

図5と図6は、ステップS28において表示部13に表示される確認応答画面の例である。図5の確認応答画面52には、「R社のSさんに対する送信でよろしいですか。」の文章が表示され、更にその下側に「はい」ボタン521と「いいえ」ボタン522とが表示されている。ここでR社のSさんの情報は、秘匿したい情報として、この音声操作システムSの不図示のデータベースに登録されている。 5 and 6 are examples of confirmation response screens displayed on the display unit 13 in step S28. On the confirmation response screen 52 of FIG. 5, the sentence "Are you sure you want to send to Mr. S of Company R?" Is displayed, and "Yes" button 521 and "No" button 522 are displayed below it. ing. Here, the information of Mr. S of Company R is registered in a database (not shown) of this voice operation system S as information to be kept secret.

ユーザが「はい」ボタン521をタップすると、ファックス部10は、ファックスの送信を実行する。ユーザが「いいえ」ボタン522をタップすると、ファックス部10は、ファックスの送信を実行しない。 When the user taps the "Yes" button 521, the fax unit 10 executes the transmission of the fax. When the user taps the "No" button 522, the fax unit 10 does not execute the fax transmission.

図6の確認応答画面53には、「パスワードは“tokkyotaro”でよろしいですか。」の文章が表示され、更にその下側に「はい」ボタン531と「いいえ」ボタン532とが表示されている。この画面の直前はパスワード入力画面なので、“tokkyotaro”は秘匿したい情報として判定可能である。 On the confirmation response screen 53 of FIG. 6, the sentence "Are you sure you want to use" tokkyotaro "for the password?" Is displayed, and "Yes" button 531 and "No" button 532 are displayed below it. .. Since the password input screen is immediately before this screen, "tokkyotaro" can be determined as information to be kept secret.

ユーザが「はい」ボタン531をタップすると、パスワード入力画面に遷移し、このパスワードによるログインが実行される。ユーザが「いいえ」ボタン532をタップすると、ログインは実行されない。 When the user taps the "Yes" button 531 to move to the password input screen, login with this password is executed. If the user taps the "No" button 532, no login will be performed.

図3Aに戻り説明を続ける。ステップS18において、応答制御部42は、発話内容が秘匿情報を含まないならば(No)、ステップS19に進み、表示部確認フラグがセットされているか否かを判定する。この表示部確認フラグは、後記する図7に示す確認応答画面54にて、「表示部で確認」ボタン542をタップすることでセットされる。
応答制御部42は、表示部確認フラグがセットされていたならば、図3BのステップS28に進む。応答制御部42は、コマンド変換部43を介して表示部13に、発話内容に関する応答を表示させ、この音声操作処理を終了する。応答制御部42は、表示部確認フラグがクリアされていたならば、ステップS20の処理に進む。
The explanation will be continued by returning to FIG. 3A. In step S18, if the utterance content does not include confidential information (No), the response control unit 42 proceeds to step S19 and determines whether or not the display unit confirmation flag is set. This display unit confirmation flag is set by tapping the "confirm on display unit" button 542 on the confirmation response screen 54 shown in FIG. 7, which will be described later.
If the display unit confirmation flag is set, the response control unit 42 proceeds to step S28 in FIG. 3B. The response control unit 42 causes the display unit 13 to display a response regarding the utterance content via the command conversion unit 43, and ends the voice operation process. If the display unit confirmation flag is cleared, the response control unit 42 proceeds to the process of step S20.

ステップS20において、複合機1の制御部11は、カメラ16で撮影したユーザ画像を応答制御部42に送信する。複合機制御サーバ4の応答制御部42は、カメラ16で撮影したユーザ画像から、ユーザのポーズを抽出する。なお、ポーズの抽出は複合機1側で行ってもよく、限定されない。
ステップS21において、複合機制御サーバ4の応答制御部42は、ユーザのポーズがこっそりと話しかけるポーズ、例えば手をメガホンのように口の前に翳すポーズであるか否かを判定する。応答制御部42は、ユーザがこっそりと話しかけるポーズならば(Yes)、図3BのステップS24に進む。応答制御部42は、ユーザがこっそりと話しかけるポーズでないならば(No)、ステップS22に進む。
In step S20, the control unit 11 of the multifunction device 1 transmits the user image captured by the camera 16 to the response control unit 42. The response control unit 42 of the multifunction device control server 4 extracts the user's pose from the user image taken by the camera 16. The pose extraction may be performed on the multifunction device 1 side, and is not limited.
In step S21, the response control unit 42 of the multifunction device control server 4 determines whether or not the pose of the user is a pose in which the user speaks secretly, for example, a pose in which the hand is held in front of the mouth like a megaphone. The response control unit 42 proceeds to step S24 of FIG. 3B if the user is in a pose to talk secretly (Yes). The response control unit 42 proceeds to step S22 if it is not a pose in which the user talks secretly (No).

ステップS22において、応答制御部42は、ユーザとマイク21との距離が閾値以内であるか否かを判定する。こっそりと話しかける場合、ユーザは、マイク21に近づいて小声で話しかけると考えられるためである。 In step S22, the response control unit 42 determines whether or not the distance between the user and the microphone 21 is within the threshold value. This is because when speaking secretly, the user is considered to approach the microphone 21 and speak in a quiet voice.

応答制御部42は、ユーザとマイク21との距離が閾値以内ならば(Yes)、図3BのステップS24に進む。応答制御部42は、ユーザとマイク21との距離が閾値を超えていたならば(No)、図3BのステップS23に進む。 If the distance between the user and the microphone 21 is within the threshold value (Yes), the response control unit 42 proceeds to step S24 in FIG. 3B. If the distance between the user and the microphone 21 exceeds the threshold value (No), the response control unit 42 proceeds to step S23 in FIG. 3B.

ステップS23において、応答制御部42は、入力音量が閾値以下であるか否かを判定する。応答制御部42は、入力音量が閾値以下ならば(Yes)、ステップS24に進み、入力音量が閾値を超えていたならば(No)、図3CのステップS29に進む。 In step S23, the response control unit 42 determines whether or not the input volume is equal to or less than the threshold value. If the input volume is below the threshold value (Yes), the response control unit 42 proceeds to step S24, and if the input volume exceeds the threshold value (No), proceeds to step S29 in FIG. 3C.

ステップS24において、応答制御部42は、現在のユーザが視覚障碍者であるか否かを判定する。応答制御部42は、現在のユーザが視覚障碍者ならば(Yes)、出力応答(復唱)のテキストと最低音量の音量データを音声処理サーバ3へ送信して、最低音量での出力応答(復唱)を行わせ(S25)、この音声操作処理を終了する。応答制御部42は、現在のユーザが視覚障碍者でないならば(No)、ステップS26に進む。 In step S24, the response control unit 42 determines whether or not the current user is visually impaired. If the current user is visually impaired (Yes), the response control unit 42 transmits the text of the output response (repeated) and the volume data of the lowest volume to the voice processing server 3, and outputs the output response (repeated) at the lowest volume. ) Is performed (S25), and this voice operation process is terminated. If the current user is not visually impaired (No), the response control unit 42 proceeds to step S26.

ステップS26において、複合機1の制御部11は、カメラ16で撮影したユーザ画像を応答制御部42に送信する。複合機制御サーバ4の応答制御部42は、カメラ16で撮影したユーザ画像から、現在のユーザが表示部13を注視しているか否かを判定する。応答制御部42は、現在のユーザが表示部13を注視していないならば(No)、「表示部を見てください」のテキストを音声処理サーバ3へ送信して、「表示部を見てください」の誘導音声をスピーカ22に出力させて(S27)、ステップS28の処理に進む。応答制御部42は、現在のユーザが表示部13を注視していたならば(Yes)、ステップS28の処理に進む。
ステップS28において、応答制御部42は、コマンド変換部43を介して、発話内容に関する応答の表示コマンドを複合機1に送信して、複合機1の表示部13に、発話内容に関する応答を表示させると、この音声操作処理を終了する。
In step S26, the control unit 11 of the multifunction device 1 transmits the user image captured by the camera 16 to the response control unit 42. The response control unit 42 of the multifunction device control server 4 determines whether or not the current user is gazing at the display unit 13 from the user image captured by the camera 16. If the current user is not gazing at the display unit 13 (No), the response control unit 42 transmits the text "Look at the display unit" to the voice processing server 3 and "looks at the display unit". The guidance voice of "Please" is output to the speaker 22 (S27), and the process proceeds to step S28. If the current user is gazing at the display unit 13 (Yes), the response control unit 42 proceeds to the process of step S28.
In step S28, the response control unit 42 transmits a response display command regarding the utterance content to the multifunction device 1 via the command conversion unit 43, and causes the display unit 13 of the multifunction device 1 to display the response regarding the utterance content. Then, this voice operation process is terminated.

図3CのステップS29において、応答制御部42は、発話音量に応じた出力応答(復唱)を行う。制御部11は、カメラ16によって復唱中のユーザを撮影すると、撮影したユーザ画像を応答制御部42に送信する。複合機制御サーバ4の応答制御部42は、カメラ16で撮影したユーザ画像から、ユーザのポーズを抽出する(S30)。なお、ポーズの抽出は複合機1側で行ってもよく、限定されない。ステップS30の詳細は、後記する図11で説明する。 In step S29 of FIG. 3C, the response control unit 42 performs an output response (repetition) according to the utterance volume. When the control unit 11 takes a picture of the user being repeated by the camera 16, the control unit 11 transmits the taken user image to the response control unit 42. The response control unit 42 of the multifunction device control server 4 extracts the user's pose from the user image taken by the camera 16 (S30). The pose extraction may be performed on the multifunction device 1 side, and is not limited. The details of step S30 will be described later with reference to FIG.

ステップS31において、応答制御部42は、ユーザが内緒のポーズ、例えば唇の前に人差し指を立てるポーズをしているか否かを判定する。後記する図12は、内緒のポーズの一例である。 In step S31, the response control unit 42 determines whether or not the user is in a secret pose, for example, a pose in which the index finger is raised in front of the lips. FIG. 12, which will be described later, is an example of a secret pose.

応答制御部42は、ユーザが内緒のポーズをしていなかったならば、この音声操作処理を終了する。応答制御部42は、ユーザが内緒のポーズをしていたならば(Yes)、次回の応答から音量を下げるか、または、表示部13で確認するかの選択の表示コマンドを複合機1に送信する。これにより、複合機1の表示部13には、次回の応答から音量を下げるか、または、表示部13で確認するかの選択が表示される(S32)。ステップS32の処理が終了すると、応答制御部42は、この音声操作処理を終了する。 If the user has not made a secret pose, the response control unit 42 ends this voice operation process. If the user is in a secret pause (Yes), the response control unit 42 transmits a display command for selecting whether to lower the volume from the next response or to confirm on the display unit 13 to the multifunction device 1. To do. As a result, the display unit 13 of the multifunction device 1 displays a selection of whether to lower the volume from the next response or to confirm on the display unit 13 (S32). When the process of step S32 is completed, the response control unit 42 ends this voice operation process.

図7は、ステップS32において表示部13に表示される確認応答画面54である。
確認応答画面54には、「次回の応答を指示してください。」の文章が表示され、その下側には「音量を小さく」ボタン541と「表示部で確認」ボタン542とが表示されている。ユーザが「音量を小さく」ボタン541をタップすると、次回の音声操作における音声応答の音量が小さくなる。ユーザが「表示部で確認」ボタン542をタップすると、表示部確認フラグがセットされる。これにより、次回の音声操作の応答は、表示部13の表示内容によって確認可能となる。
FIG. 7 is a confirmation response screen 54 displayed on the display unit 13 in step S32.
On the confirmation response screen 54, the sentence "Please specify the next response" is displayed, and below that, a "decrease volume" button 541 and a "confirm on display" button 542 are displayed. There is. When the user taps the "decrease volume" button 541, the volume of the voice response in the next voice operation is reduced. When the user taps the "confirm on display" button 542, the display confirmation flag is set. As a result, the response of the next voice operation can be confirmed by the display content of the display unit 13.

なお、ステップS32において、ユーザが、「もう少し音量下げて」と音声で指示した場合、複合機1は、次の応答からはスピーカ22の出力音量を下げるとよい。
スピーカ22の出力音量を下げるにあたり、複合機1は、ユーザの入力音量をVinとした場合、出力音量Voutを、入力音量Vinよりも5%低い値や、10%低い値のように、ユーザの入力音量Vinを基準として、出力音量Voutを微調整できるようにするとよい。但し、複合機1は、出力音量Voutが最低音量の閾値T(ここでは、25%)よりも小さくならないようにする。
In step S32, when the user gives a voice instruction to "lower the volume a little more", the multifunction device 1 may lower the output volume of the speaker 22 from the next response.
In lowering the output volume of the speaker 22, when the input volume of the user is Vin, the multifunction device 1 sets the output volume Vout to a value 5% lower or 10% lower than the input volume Vin. It is preferable that the output volume Vout can be finely adjusted based on the input volume Vin. However, the multifunction device 1 makes sure that the output volume Vout does not become smaller than the minimum volume threshold value T (here, 25%).

複合機1は、出力音量Voutを最低音量の閾値Tより小さくしたい場合は、表示部13による発話内容の確認応答の表示を推奨するとよい。更にユーザが表示部確認を選択し、かつ、前回の応答時の出力音量がBだった場合、出力音量Bが最低音量以下となるように、最低音量の閾値Tを変更するとよい。例えば、最低音量の閾値Tを、出力音量Bよりも5%高い値とすることである。 When the multifunction device 1 wants to make the output volume Vout smaller than the threshold value T of the minimum volume, it is recommended that the display unit 13 display the confirmation response of the utterance content. Further, when the user selects the display unit confirmation and the output volume at the time of the previous response is B, the threshold T of the minimum volume may be changed so that the output volume B is equal to or lower than the minimum volume. For example, the threshold T of the lowest volume is set to a value 5% higher than the output volume B.

逆に、ユーザが、スピーカ22の出力音声が聞えない素振りを見せていたら、閾値Tを上げるなど、ユーザごとにカスタマイズしてもよい。出力音声が聞えない素振りとは、例えばユーザが耳に手を翳すポーズなどである。 On the contrary, if the user is pretending that the output voice of the speaker 22 cannot be heard, the threshold value T may be increased or the like may be customized for each user. The gesture in which the output voice cannot be heard is, for example, a pose in which the user holds his / her hand over his / her ear.

図8は、設置環境の反響度合いを検知する処理を示すフローチャートである。
例えば深夜などのように、静寂な環境が期待できる時間帯おいて、制御部11は処理を開始する。
FIG. 8 is a flowchart showing a process of detecting the degree of reverberation in the installation environment.
The control unit 11 starts processing at a time zone in which a quiet environment can be expected, such as midnight.

ステップS40において、制御部11は、マイク21により音を検出する。ステップS41において、制御部11は、検出した音量が所定値以下であるか否かを判定する。制御部11は、検出した音量が所定値を超えたならば(No)、図8の処理を終了し、検出した音量が所定値以下ならば(Yes)、ステップS42に進む。 In step S40, the control unit 11 detects the sound by the microphone 21. In step S41, the control unit 11 determines whether or not the detected volume is equal to or less than a predetermined value. If the detected volume exceeds the predetermined value (No), the control unit 11 ends the process of FIG. 8, and if the detected volume is equal to or less than the predetermined value (Yes), the control unit 11 proceeds to step S42.

ステップS42において、制御部11は、スピーカ22からキャリブレーション音を出力する。制御部11は、このキャリブレーション音をマイク21にて検知する(S43)。 In step S42, the control unit 11 outputs a calibration sound from the speaker 22. The control unit 11 detects this calibration sound with the microphone 21 (S43).

ステップS42において、制御部11は、スピーカ22に出力したキャリブレーション音の音量とマイク21で検知した音量から、設置環境の反響度合いを算出する。ステップS42の処理が終了すると、制御部11は、図8の処理を終了する。 In step S42, the control unit 11 calculates the degree of reverberation of the installation environment from the volume of the calibration sound output to the speaker 22 and the volume detected by the microphone 21. When the process of step S42 is completed, the control unit 11 ends the process of FIG.

図9は、こっそりと話しかけるポーズを検知する処理を示すフローチャートである。
カメラ16は、発話中のユーザを撮像する(S50)。これにより、ユーザ画像を得ることができる。そして制御部11は、このユーザ画像から、ユーザのポーズを抽出する(S51)。
FIG. 9 is a flowchart showing a process of detecting a pose in which a person talks secretly.
The camera 16 captures a talking user (S50). Thereby, the user image can be obtained. Then, the control unit 11 extracts the pose of the user from the user image (S51).

制御部11は、抽出したユーザのポーズを、こっそりと話しかけるときのボーズのデータベースと照合し(S52)、ステップS53において、データベースの何れかのポーズと一致するか否かを判定する。図10は、こっそりと話しかけるときのユーザ画像の一例である。データベースには、このような多数のポーズが格納されている。 The control unit 11 collates the extracted user's pose with the Bose database when talking secretly (S52), and in step S53, determines whether or not the pose matches any of the databases. FIG. 10 is an example of a user image when talking secretly. The database stores a large number of such poses.

図9に戻り説明を続ける。制御部11は、何れかのポーズと一致するならば(Yes)、発話中のユーザのポーズを、こっそりと話しかけるときのポーズとして判定して(S54)、図9の処理を終了する。制御部11は、何れのポーズとも一致しないならば(No)、図9の処理を終了する。 The explanation will be continued by returning to FIG. If the pose matches any of the poses (Yes), the control unit 11 determines the pose of the user who is speaking as a pose for secretly speaking (S54), and ends the process of FIG. If the pose does not match any of the poses (No), the control unit 11 ends the process of FIG.

図11は、内緒のポーズを検知する処理を示すフローチャートである。
カメラ16は、発話中のユーザを撮像する(S60)。これにより、ユーザ画像を得ることができる。そして制御部11は、このユーザ画像から、ユーザのポーズを抽出する(S61)。
FIG. 11 is a flowchart showing a process of detecting a secret pose.
The camera 16 captures a talking user (S60). Thereby, the user image can be obtained. Then, the control unit 11 extracts the user's pose from this user image (S61).

制御部11は、抽出したユーザのポーズを、内緒のボーズのデータベースと照合し(S62)、ステップS63において、データベースの何れかのポーズと一致するか否かを判定する。図12は、内緒のポーズをとるユーザ画像の一例である。データベースには、このようなポーズが多数格納されている。 The control unit 11 collates the extracted user's pose with the secret Bose database (S62), and determines in step S63 whether or not it matches any of the database poses. FIG. 12 is an example of a user image that poses in secret. Many such poses are stored in the database.

図11に戻り説明を続ける。制御部11は、何れかのポーズと一致するならば(Yes)、発話中のユーザのポーズを、内緒のポーズとして判定して(S64)、図10の処理を終了する。制御部11は、何れのポーズとも一致しないならば(No)、図10の処理を終了する。 The explanation will be continued by returning to FIG. If the pose matches any of the poses (Yes), the control unit 11 determines the pose of the user who is speaking as a secret pose (S64), and ends the process of FIG. If the pose does not match any of the poses (No), the control unit 11 ends the process of FIG.

本実施形態の音声操作システムSは、スピーカ22による応答の出力音量を所定値以上として、必要に応じて音声操作内容の確認情報を表示部13に表示している。これによりユーザは、複合機1の応答が聞こえないということがなく、かつ、ユーザの秘匿にしたい情報を周囲に聞こえないようにするといった秘匿効果を得ることができる。 In the voice operation system S of the present embodiment, the output volume of the response by the speaker 22 is set to a predetermined value or more, and confirmation information of the voice operation content is displayed on the display unit 13 as necessary. As a result, the user can obtain a concealment effect such that the response of the multifunction device 1 is not inaudible and the information to be concealed by the user is not heard by the surroundings.

音声操作システムSは、音声操作の際の設定内容の確認方法を、表示部13で確認が推奨される秘匿項目のみに限定している。これにより、音声操作システムSは、かんたん音声操作モードのような簡単な設定項目に限定することなく、多岐に渡る設定項目にも対応することができる。 The voice operation system S limits the method of confirming the setting contents at the time of voice operation to only the secret items for which confirmation is recommended on the display unit 13. As a result, the voice operation system S can support a wide variety of setting items without being limited to simple setting items such as the simple voice operation mode.

(変形例)
本発明は、上記実施形態に限定されることなく、本発明の趣旨を逸脱しない範囲で、変更実施が可能であり、例えば、次の(a)〜(g)のようなものがある。
(Modification example)
The present invention is not limited to the above-described embodiment, and can be modified without departing from the spirit of the present invention. For example, there are the following (a) to (g).

(a) ユーザがこっそりと音声操作しようとしているか否かは、ユーザの声色で判定してもよい。具体的にいうと、ユーザの普段の声色を登録しておき、音声操作における声色が登録した声色と所定値以上違っていたならば、こっそりと音声操作しようとしていると判定してもよい。
(b) ユーザがこっそりと音声操作しようとしているか否かを人工知能などで機械学習しておいて、学習結果に基づいて判断してもよい。また、ユーザごとに学習させておいて、ユーザのクセに対応できるようにしてもよい。
(A) Whether or not the user is secretly trying to operate the voice may be determined by the voice of the user. Specifically, the user's usual voice color may be registered, and if the voice color in the voice operation differs from the registered voice color by a predetermined value or more, it may be determined that the user is secretly trying to perform the voice operation.
(B) Whether or not the user is secretly trying to perform voice operation may be machine-learned by artificial intelligence or the like, and a judgment may be made based on the learning result. In addition, it may be possible to learn for each user so that the user's habit can be dealt with.

(c) 音声操作システムは、ユーザをカメラで監視し、このユーザが表示部を見ながら音声操作しているか否かを判断してもよい。音声操作システムは、ユーザが表示部を見ているならば表示部のみで応答し、ユーザが表示部を見ていないならば誘導音声と表示部の双方で応答する。これにより、不要な音声操作を回避して、複合機の周辺環境の静粛性を向上させることができる。
(d) 音声操作システムは、表示部を見ることを促す誘導音声の音量を通常の音量(例えば、100%)としてもよく、所定の閾値(例えば50%)よりも下げないようにしてもよい。
(C) The voice operation system may monitor the user with a camera and determine whether or not the user is operating the voice while looking at the display unit. The voice operation system responds only with the display unit if the user is looking at the display unit, and responds with both the guidance voice and the display unit if the user is not looking at the display unit. As a result, unnecessary voice operations can be avoided and the quietness of the surrounding environment of the multifunction device can be improved.
(D) The voice operation system may set the volume of the guidance voice prompting to see the display unit to a normal volume (for example, 100%) and may not lower the volume below a predetermined threshold value (for example, 50%). ..

(e) 音声操作システムは、ユーザが音声操作を実施した際に、「音量下げて」の音声入力を受け付けてもよい。複合機1は、ユーザの入力音量Vinとした場合、出力音量を入力音量よりも5%低く、更に10%低く…のように、ユーザの入力音量Vinを基準として、出力音量Voutを微調整する。但し、出力音量Voutは、最低音量の閾値Tよりも小さくしない。最低音量の閾値Tより小さくしたい場合、音声操作システムは、ユーザに対し、表示部応答に切り替えることを推奨するとよい。 (E) The voice operation system may accept a voice input of "volume down" when the user performs a voice operation. When the user's input volume Vin is set, the multifunction device 1 finely adjusts the output volume Vout based on the user's input volume Vin, such as 5% lower than the input volume, 10% lower than the input volume, and so on. .. However, the output volume Vout is not made smaller than the minimum volume threshold T. If it is desired to make the volume lower than the minimum volume threshold T, the voice operation system may recommend the user to switch to the display response.

(f) 音声操作システムは、複合機などの画像形成装置に限定されず、例えばテレビ、録画装置、カメラ、ビデオレコーダ、ファックス、冷蔵庫、炊飯器、カーナビゲーションシステムなど任意の装置に適用してもよい。
(g) 距離センサに代わり、カメラによってユーザからマイクまでの距離を測定してもよい。
(F) The voice operation system is not limited to an image forming device such as a multifunction device, and may be applied to any device such as a television, a recording device, a camera, a video recorder, a fax machine, a refrigerator, a rice cooker, and a car navigation system. Good.
(G) Instead of the distance sensor, the distance from the user to the microphone may be measured by a camera.

S 音声操作システム
1 複合機 (画像形成装置)
10 ファックス部
11 制御部
12 操作部
13 表示部
14 スキャン部
15 記憶部
151 動作条件テーブル
16 カメラ
17 印刷部
18 カードリーダ
19 距離センサ
21 マイク (音声入力部)
22 スピーカ (音声出力部)
3 音声処理サーバ
31 音声認識部
32 音声合成部
4 複合機制御サーバ (音声操作サーバ)
41 指示内容認識部
42 応答制御部
43 コマンド変換部
51 警告画面
511 「はい」ボタン
512 「いいえ」ボタン
52 確認応答画面
521 「はい」ボタン
522 「いいえ」ボタン
53 確認応答画面
531 「はい」ボタン
532 「いいえ」ボタン
54 確認応答画面
541 「音量を小さく」ボタン
542 「表示部で確認」ボタン
S Voice operation system 1 Multifunction device (image forming device)
10 Fax unit 11 Control unit 12 Operation unit 13 Display unit 14 Scan unit 15 Storage unit 151 Operating condition table 16 Camera 17 Printing unit 18 Card reader 19 Distance sensor 21 Microphone (voice input unit)
22 Speaker (audio output section)
3 Voice processing server 31 Voice recognition unit 32 Voice synthesis unit 4 Multifunction device control server (voice operation server)
41 Instruction content recognition unit 42 Response control unit 43 Command conversion unit 51 Warning screen 511 "Yes" button 512 "No" button 52 Confirmation response screen 521 "Yes" button 522 "No" button 53 Confirmation response screen 531 "Yes" button 532 "No" button 54 Confirmation response screen 541 "Reduce volume" button 542 "Confirm on display" button

Claims (17)

音声を入力する音声入力部と、
情報を表示する表示部と、
音声を出力する音声出力部と、
前記音声入力部に入力されたユーザの音声に基づいて、前記音声出力部による復唱を行うか、または/および、前記表示部に発話内容の確認応答を表示するかを選択する応答制御部と、
を有する音声操作システム。
A voice input unit for inputting voice and
A display unit that displays information and
An audio output unit that outputs audio and
A response control unit that selects whether to repeat by the voice output unit or / or to display a confirmation response of the utterance content on the display unit based on the user's voice input to the voice input unit.
Voice operation system with.
前記応答制御部は、前記ユーザが発した音声の音量に基づいて、前記音声出力部による復唱の音量を変更する、
請求項1に記載の音声操作システム。
The response control unit changes the volume of the repeat by the voice output unit based on the volume of the voice emitted by the user.
The voice operation system according to claim 1.
前記応答制御部は、前記ユーザが発した音声の音量が閾値を超える場合には、前記音声出力部による復唱を行い、
前記ユーザが発した音声の音量が前記閾値以下である場合には、前記表示部に発話内容の確認応答を表示する、
請求項1又は2に記載の音声操作システム。
When the volume of the voice emitted by the user exceeds the threshold value, the response control unit repeats the voice output unit.
When the volume of the voice uttered by the user is equal to or lower than the threshold value, a confirmation response of the utterance content is displayed on the display unit.
The voice operation system according to claim 1 or 2.
前記ユーザを撮影する撮影部を有し、
前記応答制御部は、前記音声出力部による復唱の際の前記ユーザのポーズに応じて、次回の音声操作の際の前記音声出力部による復唱の音量を下げるか、前記表示部に発話内容の確認応答を表示するか、を選択可能な画面を前記表示部に表示させる、
請求項3に記載の音声操作システム。
It has a shooting unit that shoots the user,
The response control unit lowers the volume of the repeat by the voice output unit in the next voice operation, or confirms the utterance content on the display unit, in response to the pause of the user when the voice output unit repeats. Display a screen on the display unit where you can select whether to display the response.
The voice operation system according to claim 3.
前記応答制御部は、前記表示部に発話内容の確認応答の表示を行わせる際に、ユーザに対して前記表示部の確認を誘導する音声を前記音声出力部に出力する、
請求項1又は2に記載の音声操作システム。
The response control unit outputs a voice for inducing the user to confirm the display unit to the voice output unit when the display unit displays the confirmation response of the utterance content.
The voice operation system according to claim 1 or 2.
前記ユーザとの距離を検知する距離センサを有し、
前記応答制御部は、更に前記距離センサが検知した前記ユーザとの距離に基づいて、前記音声出力部による復唱を行うか、又は、前記表示部に発話内容の確認応答を表示するかを選択する、
請求項1又は2に記載の音声操作システム。
It has a distance sensor that detects the distance to the user,
The response control unit further selects whether to repeat the voice output unit or display a confirmation response of the utterance content on the display unit based on the distance to the user detected by the distance sensor. ,
The voice operation system according to claim 1 or 2.
前記ユーザを撮影する撮影部を有し、
前記応答制御部は、更に前記撮影部が撮影したユーザの顔又は視線の向きに基づいて、前記音声出力部による復唱を行うか、または/および、前記表示部に発話内容の確認応答を表示するかを選択する、
請求項1又は2に記載の音声操作システム。
It has a shooting unit that shoots the user,
The response control unit further repeats the voice output unit based on the direction of the user's face or line of sight photographed by the imaging unit, or / and displays a confirmation response of the utterance content on the display unit. To choose
The voice operation system according to claim 1 or 2.
ユーザを撮影する撮影部を有し、
前記応答制御部は、更に前記撮影部が撮影したユーザのポーズに基づいて、前記音声出力部による復唱を行うか、または/および、前記表示部に発話内容の確認応答を表示するかを選択する、
請求項1又は2に記載の音声操作システム。
It has a shooting unit that shoots the user,
The response control unit further selects whether to repeat the voice output unit or / or display a confirmation response of the utterance content on the display unit based on the pose of the user photographed by the photographing unit. ,
The voice operation system according to claim 1 or 2.
前記応答制御部は、更に前記ユーザが発した音声の発話内容の秘匿性に基づいて、前記音声出力部による復唱を行うか、または/および、前記表示部に発話内容の確認応答を表示するかを選択する、
請求項1又は2に記載の音声操作システム。
The response control unit further repeats by the voice output unit based on the confidentiality of the utterance content of the voice uttered by the user, or / and displays a confirmation response of the utterance content on the display unit. To select,
The voice operation system according to claim 1 or 2.
前記応答制御部は、更に前記ユーザが音声を発したときの前記表示部の画面種別に基づいて、前記音声出力部による復唱を行うか、または/および、前記表示部に発話内容の確認応答を表示するかを選択する、
請求項1又は2に記載の音声操作システム。
The response control unit further repeats the voice output unit based on the screen type of the display unit when the user emits a voice, or / or sends a confirmation response of the utterance content to the display unit. Select whether to display,
The voice operation system according to claim 1 or 2.
前記応答制御部は、前記ユーザが視覚障碍を有する場合、前記音声出力部による復唱を行う、
請求項1又は2に記載の音声操作システム。
When the user has a visual impairment, the response control unit repeats the voice output unit.
The voice operation system according to claim 1 or 2.
前記応答制御部は、前記ユーザが視覚障碍を有する場合、前記表示部に発話内容の確認応答を表示することに代えて、前記音声出力部による復唱を最低音量で行う、
ことを特徴とする請求項11に記載の音声操作システム。
When the user has a visual impairment, the response control unit repeats the speech output unit at the lowest volume instead of displaying the confirmation response of the utterance content on the display unit.
The voice operation system according to claim 11.
原稿をスキャンするスキャン部を有し、
前記応答制御部は、前記スキャン部に置かれた原稿が複写禁止である場合には、前記音声出力部による所定音量以上での警告出力を行わせる、
請求項1又は2に記載の音声操作システム。
It has a scanning unit that scans documents
When the document placed on the scanning unit is prohibited from copying, the response control unit causes the voice output unit to output a warning at a predetermined volume or higher.
The voice operation system according to claim 1 or 2.
音声を入力する音声入力部と、
情報を表示する表示部と、
音声を出力する音声出力部と、
前記音声入力部に入力されたユーザの音声に基づいて、前記音声出力部による復唱を行うか、または/および、前記表示部に発話内容の確認応答を表示するかを選択する応答制御部と、
を有する画像形成装置。
A voice input unit for inputting voice and
A display unit that displays information and
An audio output unit that outputs audio and
A response control unit that selects whether to repeat by the voice output unit or / or to display a confirmation response of the utterance content on the display unit based on the user's voice input to the voice input unit.
An image forming apparatus having.
音声を入力する音声入力部と、
情報を表示する表示部と、
音声を出力する音声出力部と、
応答制御部とを備えた装置の音声操作方法であって、
前記音声入力部が、ユーザの音声を入力し、
前記応答制御部が、前記ユーザの音声に基づいて、前記音声出力部による復唱を行うか、または/および、前記表示部に発話内容の確認応答を表示するかを選択する、
音声操作方法。
A voice input unit for inputting voice and
A display unit that displays information and
An audio output unit that outputs audio and
It is a voice operation method of a device equipped with a response control unit.
The voice input unit inputs the user's voice and
The response control unit selects whether to repeat the voice output unit based on the user's voice, or / and to display a confirmation response of the utterance content on the display unit.
Voice operation method.
音声入力装置に入力されたユーザの音声を認識したテキストデータから、ユーザの指示内容を認識する指示内容認識部と、
前記音声に基づいて、音声出力装置による復唱を行わせるか、または/および、表示装置に発話内容の確認応答を表示させるかを選択する応答制御部と、
を有する音声操作サーバ。
An instruction content recognition unit that recognizes the user's instruction content from the text data that recognizes the user's voice input to the voice input device, and
A response control unit that selects whether to repeat the voice by the voice output device based on the voice, and / or to display the confirmation response of the utterance content on the display device.
Voice operation server with.
コンピュータに、
音声入力装置に入力されたユーザの音声を認識したテキストデータから、ユーザの指示内容を認識する手順、
前記音声に基づいて、音声出力装置による復唱を行わせるか、または/および、表示装置に発話内容の確認応答を表示させるかを選択する手順、
を実行させるための音声操作プログラム。
On the computer
Procedure for recognizing the user's instruction content from the text data that recognizes the user's voice input to the voice input device,
A procedure for selecting whether to repeat the voice by the voice output device or / and display the confirmation response of the utterance content on the display device based on the voice.
A voice operation program for executing.
JP2019222362A 2019-12-09 2019-12-09 Voice operating system, image forming device, voice operating method, voice operating server, and voice operating program Pending JP2021092924A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019222362A JP2021092924A (en) 2019-12-09 2019-12-09 Voice operating system, image forming device, voice operating method, voice operating server, and voice operating program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019222362A JP2021092924A (en) 2019-12-09 2019-12-09 Voice operating system, image forming device, voice operating method, voice operating server, and voice operating program

Publications (1)

Publication Number Publication Date
JP2021092924A true JP2021092924A (en) 2021-06-17

Family

ID=76312422

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019222362A Pending JP2021092924A (en) 2019-12-09 2019-12-09 Voice operating system, image forming device, voice operating method, voice operating server, and voice operating program

Country Status (1)

Country Link
JP (1) JP2021092924A (en)

Similar Documents

Publication Publication Date Title
US6253184B1 (en) Interactive voice controlled copier apparatus
JP6819672B2 (en) Information processing equipment, information processing methods, and programs
JP7342862B2 (en) Information processing device, information processing method, and information processing system
CN104781782A (en) Information processing apparatus, information processing method, and program
JP7194507B2 (en) CONFERENCE SYSTEM, CONFERENCE SYSTEM CONTROL METHOD AND PROGRAM
KR20150128386A (en) display apparatus and method for performing videotelephony using the same
JP2002149302A (en) Interface device and recording medium with interface processing program recorded
JP2018034389A (en) Information processing device, information processing system, and program
JP6832503B2 (en) Information presentation method, information presentation program and information presentation system
US20200366800A1 (en) Apparatus
JP2021092924A (en) Voice operating system, image forming device, voice operating method, voice operating server, and voice operating program
JP2023098875A (en) Picture display device
US11170754B2 (en) Information processor, information processing method, and program
JP2009060220A (en) Communication system and communication program
WO2019142420A1 (en) Information processing device and information processing method
JP2981179B2 (en) Portable information transmission device
JP5554110B2 (en) Document processing method and document processing system
JP7383885B2 (en) Information processing device and program
JP7471979B2 (en) Meeting Support System
JP7208740B2 (en) Information processing device and program
JP2012248990A (en) Electronic apparatus and video telephone method
JP7196662B2 (en) Information processing device and program
WO2006106671A1 (en) Image processing device, image display device, reception device, transmission device, communication system, image processing method, image processing program, and recording medium containing the image processing program
WO2023165844A1 (en) Circuitry and method for visual speech processing
JP2006235040A (en) Image forming apparatus, program, and recording medium