JP2021092924A - Voice operating system, image forming device, voice operating method, voice operating server, and voice operating program - Google Patents
Voice operating system, image forming device, voice operating method, voice operating server, and voice operating program Download PDFInfo
- Publication number
- JP2021092924A JP2021092924A JP2019222362A JP2019222362A JP2021092924A JP 2021092924 A JP2021092924 A JP 2021092924A JP 2019222362 A JP2019222362 A JP 2019222362A JP 2019222362 A JP2019222362 A JP 2019222362A JP 2021092924 A JP2021092924 A JP 2021092924A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- user
- unit
- display
- control unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Control Or Security For Electrophotography (AREA)
Abstract
Description
本発明は、音声操作システム、画像形成装置、音声操作方法、音声操作サーバ、および、音声操作プログラムに関する。 The present invention relates to a voice operation system, an image forming apparatus, a voice operation method, a voice operation server, and a voice operation program.
複合機の音声操作において、ユーザが声で発した設定内容に従って操作を完了することが求められる。例えば、スキャンジョブの場合、複合機は、ユーザの音声に従ってスキャンジョブの設定を行い、ジョブを実行する。音声操作の場合、ユーザの発した音声が必ずしも操作に適切とは限らない。そのため、ユーザの音声を確認することが必要である。複合機とは、いわゆるMFP(Multi Function Peripheral)のことをいう。 In the voice operation of the multifunction device, it is required to complete the operation according to the setting contents uttered by the user. For example, in the case of a scan job, the multifunction device sets the scan job according to the voice of the user and executes the job. In the case of voice operation, the voice uttered by the user is not always appropriate for the operation. Therefore, it is necessary to confirm the user's voice. A multifunction device is a so-called MFP (Multi Function Peripheral).
ユーザの音声指示による設定内容の確認方法として、表示部(パネル)にユーザの音声指示を表示して、その設定内容を確認することが考えられる。しかし、複合機の設定内容は多岐に渡り、かつ、表示部に表示できる内容は限られるため、すべての設定内容を一つの画面に表示することは難しい。 As a method of confirming the setting contents by the user's voice instruction, it is conceivable to display the user's voice instruction on the display unit (panel) and confirm the setting contents. However, since the setting contents of the multifunction device are diverse and the contents that can be displayed on the display unit are limited, it is difficult to display all the setting contents on one screen.
ユーザの音声操作を簡単な設定項目に限定して、常に表示部だけにも表示することが考えられるが、設定項目が限定されてしまう。
多岐に渡る複合機の設定内容に対応するため、複合機のスピーカにて設定内容の復唱を行い、ユーザに確認を求める方法が考えられる。
It is conceivable to limit the user's voice operation to simple setting items and always display only on the display unit, but the setting items are limited.
In order to deal with a wide variety of settings of the multifunction device, it is conceivable to repeat the settings on the speaker of the multifunction device and ask the user for confirmation.
しかしながら、複合機の設定内容には、社外の取引先のスキャン宛先や、公にしたくない個人ファイル名等の個人情報や、機密情報といった秘匿情報であって、周囲に出来る限り知られたくない場合がある。このような設定内容を音声操作(入力)する際、複合機に復唱され、秘匿にして置きたかったものが意図せずに公になってしまうおそれがある。 However, if the settings of the multifunction device include scan destinations of external business partners, personal information such as personal file names that you do not want to make public, or confidential information such as confidential information, and you do not want to be known to the surroundings as much as possible. There is. When such a setting content is voice-operated (input), it may be repeated by the multifunction device, and what was desired to be kept secret may be unintentionally made public.
そこで、音声操作時において、MFP(複合機)が、ユーザ音声の音量に応じて出力音量を制御することが考えられる(特許文献1)。しかし、ユーザは、周囲に聞かれたくない情報を、通常の小さな声より、さらに小さな声で音声入力する。そのため、複合機が復唱する音量は、小さすぎてユーザに聞こえないおそれがある。 Therefore, it is conceivable that the MFP (multifunction device) controls the output volume according to the volume of the user's voice during voice operation (Patent Document 1). However, the user inputs information that he / she does not want to be heard by voice in a quieter voice than in a normal quiet voice. Therefore, the volume that the multifunction device repeats may be too low for the user to hear.
出力音量が小さすぎるとユーザに聞こえなくなるために、複合機は、復唱時の出力音量を所定値よりも小さくしないことが考えられる。しかし、それでは秘匿効果が低く、複合機による復唱が周囲に聞こえてしまうおそれがある。 If the output volume is too low, the user cannot hear it. Therefore, it is conceivable that the multifunction device does not reduce the output volume at the time of recitation below a predetermined value. However, this has a low concealment effect, and there is a risk that the repetition by the multifunction device will be heard by the surroundings.
そこで、本発明は、音声操作システム、画像形成装置、音声操作方法、音声操作サーバ、および、音声操作プログラムについて、ユーザが、秘匿にしたい音声操作情報を周囲に聞こえないように確認することを課題とする。 Therefore, it is an object of the present invention to confirm that the user does not hear the voice operation information to be kept secret with respect to the voice operation system, the image forming apparatus, the voice operation method, the voice operation server, and the voice operation program. And.
すなわち、本発明の上記課題は、下記の構成により解決される。 That is, the above problem of the present invention is solved by the following configuration.
(1) 音声を入力する音声入力部と、
情報を表示する表示部と、
音声を出力する音声出力部と、
前記音声入力部に入力されたユーザの音声に基づいて、前記音声出力部による復唱を行うか、または/および、前記表示部に発話内容の確認応答を表示するかを選択する応答制御部と、
を有する音声操作システム。
(1) A voice input unit for inputting voice and
A display unit that displays information and
An audio output unit that outputs audio and
A response control unit that selects whether to repeat by the voice output unit or / or to display a confirmation response of the utterance content on the display unit based on the user's voice input to the voice input unit.
Voice operation system with.
(2) 前記応答制御部は、前記ユーザが発した音声の音量に基づいて、前記音声出力部による復唱の音量を変更する、
(1)に記載の音声操作システム。
(2) The response control unit changes the volume of the repeat by the voice output unit based on the volume of the voice emitted by the user.
The voice operation system according to (1).
(3) 前記応答制御部は、前記ユーザが発した音声の音量が閾値を超える場合には、前記音声出力部による復唱を行い、
前記ユーザが発した音声の音量が前記閾値以下である場合には、前記表示部に発話内容の確認応答を表示する、
(1)又は(2)に記載の音声操作システム。
(3) When the volume of the voice emitted by the user exceeds the threshold value, the response control unit repeats the voice output unit.
When the volume of the voice uttered by the user is equal to or lower than the threshold value, a confirmation response of the utterance content is displayed on the display unit.
The voice operation system according to (1) or (2).
(4) 前記ユーザを撮影する撮影部を有し、
前記応答制御部は、前記音声出力部による復唱の際の前記ユーザのポーズに応じて、次回の音声操作の際の前記音声出力部による復唱の音量を下げるか、前記表示部に発話内容の確認応答を表示するか、を選択可能な画面を前記表示部に表示させる、
(3)に記載の音声操作システム。
(4) It has a photographing unit for photographing the user, and has a photographing unit.
The response control unit lowers the volume of the repeat by the voice output unit in the next voice operation, or confirms the utterance content on the display unit, in response to the pause of the user when the voice output unit repeats. Display a screen on the display unit where you can select whether to display the response.
The voice operation system according to (3).
(5) 前記応答制御部は、前記表示部に発話内容の確認応答の表示を行わせる際に、ユーザに対して前記表示部の確認を誘導する音声を前記音声出力部に出力する、
(1)又は(2)に記載の音声操作システム。
(5) The response control unit outputs a voice for inducing the user to confirm the display unit to the voice output unit when the display unit displays the confirmation response of the utterance content.
The voice operation system according to (1) or (2).
(6) 前記ユーザとの距離を検知する距離センサを有し、
前記応答制御部は、更に前記距離センサが検知した前記ユーザとの距離に基づいて、前記音声出力部による復唱を行うか、又は、前記表示部に発話内容の確認応答を表示するかを選択する、
(1)又は(2)に記載の音声操作システム。
(6) It has a distance sensor that detects the distance to the user.
The response control unit further selects whether to repeat the voice output unit or display a confirmation response of the utterance content on the display unit based on the distance to the user detected by the distance sensor. ,
The voice operation system according to (1) or (2).
(7) 前記ユーザを撮影する撮影部を有し、
前記応答制御部は、更に前記ユーザの顔又は視線の向きに基づいて、前記音声出力部による復唱を行うか、または/および、前記表示部に発話内容の確認応答を表示するかを選択する、
(1)又は(2)に記載の音声操作システム。
(7) It has a photographing unit for photographing the user, and has a photographing unit.
The response control unit further selects whether to repeat the voice output unit or / or display a confirmation response of the utterance content on the display unit based on the direction of the user's face or line of sight.
The voice operation system according to (1) or (2).
(8) ユーザを撮影する撮影部を有し、
前記応答制御部は、更に前記撮影部が撮影したユーザのポーズに基づいて、前記音声出力部による復唱を行うか、または/および、前記表示部に発話内容の確認応答を表示するかを選択する、
(1)又は(2)に記載の音声操作システム。
(8) It has a shooting unit that shoots the user, and has a shooting unit.
The response control unit further selects whether to repeat the voice output unit or / or display a confirmation response of the utterance content on the display unit based on the pose of the user photographed by the photographing unit. ,
The voice operation system according to (1) or (2).
(9) 前記応答制御部は、更に前記ユーザが発した音声の発話内容の秘匿性に基づいて、前記音声出力部による復唱を行うか、または/および、前記表示部に発話内容の確認応答を表示するかを選択する、
(1)又は(2)に記載の音声操作システム。
(9) The response control unit further repeats by the voice output unit based on the confidentiality of the utterance content of the voice uttered by the user, or / or sends a confirmation response of the utterance content to the display unit. Select whether to display,
The voice operation system according to (1) or (2).
(10) 前記応答制御部は、更に前記ユーザが音声を発したときの前記表示部の画面種別に基づいて、前記音声出力部による復唱を行うか、または/および、前記表示部に発話内容の確認応答を表示するかを選択する、
(1)又は(2)に記載の音声操作システム。
(10) The response control unit further repeats the voice output unit based on the screen type of the display unit when the user emits a voice, or / or displays the utterance content on the display unit. Select whether to display an acknowledgment,
The voice operation system according to (1) or (2).
(11) 前記応答制御部は、前記ユーザが視覚障碍を有する場合、前記音声出力部による復唱を行う、
(1)又は(2)に記載の音声操作システム。
(11) The response control unit repeats the voice output unit when the user has a visual impairment.
The voice operation system according to (1) or (2).
(12) 前記応答制御部は、前記ユーザが視覚障碍を有する場合、前記表示部に発話内容の確認応答を表示することに代えて、前記音声出力部による復唱を最低音量で行う、
ことを特徴とする(11)に記載の音声操作システム。
(12) When the user has a visual impairment, the response control unit repeats the speech output unit at the lowest volume instead of displaying the confirmation response of the utterance content on the display unit.
The voice operation system according to (11).
(13) 原稿をスキャンするスキャン部を有し、
前記応答制御部は、前記スキャン部に置かれた原稿が複写禁止である場合には、前記音声出力部による所定音量以上での警告出力を行わせる、
請求項1又は2に記載の音声操作システム。
(13) It has a scanning unit for scanning documents, and has a scanning unit.
When the document placed on the scanning unit is prohibited from copying, the response control unit causes the voice output unit to output a warning at a predetermined volume or higher.
The voice operation system according to
(14) 音声を入力する音声入力部と、
情報を表示する表示部と、
音声を出力する音声出力部と、
前記音声入力部に入力されたユーザの音声に基づいて、前記音声出力部による復唱を行うか、または/および、前記表示部に発話内容の確認応答を表示するかを選択する応答制御部と、
を有する画像形成装置。
(14) A voice input unit for inputting voice and
A display unit that displays information and
An audio output unit that outputs audio and
A response control unit that selects whether to repeat by the voice output unit or / or to display a confirmation response of the utterance content on the display unit based on the user's voice input to the voice input unit.
An image forming apparatus having.
(15) 音声を入力する音声入力部と、
情報を表示する表示部と、
音声を出力する音声出力部と、
応答制御部とを備えた装置の音声操作方法であって、
前記音声入力部が、ユーザの音声を入力し、
前記応答制御部が、前記ユーザの音声に基づいて、前記音声出力部による復唱を行うか、または/および、前記表示部に発話内容の確認応答を表示するかを選択する、
音声操作方法。
(15) A voice input unit for inputting voice and
A display unit that displays information and
An audio output unit that outputs audio and
It is a voice operation method of a device equipped with a response control unit.
The voice input unit inputs the user's voice and
The response control unit selects whether to repeat the voice output unit based on the user's voice, or / and to display a confirmation response of the utterance content on the display unit.
Voice operation method.
(16) 音声入力装置に入力されたユーザの音声を認識したテキストデータから、ユーザの指示内容を認識する指示内容認識部と、
前記音声に基づいて、音声出力装置による復唱を行わせるか、または/および、表示装置に発話内容の確認応答を表示させるかを選択する応答制御部と、
を有する音声操作サーバ。
(16) An instruction content recognition unit that recognizes the user's instruction content from the text data that recognizes the user's voice input to the voice input device, and
A response control unit that selects whether to repeat the voice by the voice output device based on the voice, and / or to display the confirmation response of the utterance content on the display device.
Voice operation server with.
(17) コンピュータに、
音声入力装置に入力されたユーザの音声を認識したテキストデータから、ユーザの指示内容を認識する手順、
前記音声に基づいて、音声出力装置による復唱を行わせるか、または/および、表示装置に発話内容の確認応答を表示させるかを選択する手順、
を実行させるための音声操作プログラム。
(17) On the computer
Procedure for recognizing the user's instruction content from the text data that recognizes the user's voice input to the voice input device,
A procedure for selecting whether to repeat the voice by the voice output device or / and display the confirmation response of the utterance content on the display device based on the voice.
A voice operation program for executing.
本発明によれば、ユーザが、秘匿にしたい音声操作情報を周囲に聞こえないように確認することが可能となる。 According to the present invention, it is possible for the user to confirm that the voice operation information to be kept secret is not heard by the surroundings.
以降、本発明を実施するための形態を、各図を参照して詳細に説明する。
本発明の第1のポイントは、ユーザの音声の音量に応じて、複合機は、音声で応答するか、または表示部に応答を表示するかを切り替えて制御することである。
第2のポイントは、パスワード等の秘匿すべき情報ならば、複合機は、音量の大小に関らず、音声で応答せず、表示部に応答を表示することである。
Hereinafter, embodiments for carrying out the present invention will be described in detail with reference to each figure.
The first point of the present invention is to control the multifunction device by switching between responding by voice and displaying the response on the display unit according to the volume of the voice of the user.
The second point is that if the information should be kept secret such as a password, the multifunction device does not respond by voice regardless of the volume level, and displays the response on the display unit.
第3のポイントは、視覚障碍者に対して、複合機は最小閾値の音量の音声にて応答し、表示部に応答を表示しないことである。
第4のポイントは、複写禁止原稿がスキャン部に置かれていたならば、複合機は、ユーザ音声の音量の大小に関らず、所定音量の音声で応答することである。
The third point is that the multifunction device responds to a visually impaired person with a voice having a minimum threshold volume, and does not display the response on the display unit.
The fourth point is that if the copy-prohibited original is placed in the scanning unit, the multifunction device responds with a predetermined volume of voice regardless of the volume of the user's voice.
図1は、本実施形態における音声操作システムSの概略を示す構成図である。
音声操作システムSは、複合機1と、音声処理サーバ3と、複合機制御サーバ4とが不図示のネットワークによって相互に通信可能に接続されて構成される。以下、複合機制御サーバ4が主体となる動作を、複合機1を主体として記載する場合がある。
なお、このような構成限られず、音声処理サーバ3の各機能部や複合機制御サーバ4の各機能部が、複合機1の内部に設けられてもよい。
FIG. 1 is a configuration diagram showing an outline of the voice operation system S in the present embodiment.
The voice operation system S is configured by connecting the
The configuration is not limited to this, and each functional unit of the voice processing server 3 and each functional unit of the multifunction device control server 4 may be provided inside the
複合機1は、印刷機能とスキャン機能とファックス機能を有する画像形成装置であり、制御部11と、操作部12と、表示部13と、スキャン部14と、ファックス部10と、記憶部15と、印刷部17と、カードリーダ18とを備える。
制御部11は、この複合機1を統括制御する部位であり、例えば不図示のCPU(Central Processing Unit)とRAM(Random Access Memory)とROM(Read Only Memory)とを含んで構成される。
The
The
操作部12は、この複合機1の操作情報を入力する部位であり、例えばタッチパネルディスプレイのタッチパネル部分である。
表示部13は、複合機1の設定内容等の情報を表示する表示部であり、例えばタッチパネルディスプレイのディスプレイ部分である。
The
The
スキャン部14は、原稿を光学的に読み取る部位である。ファックス部10は、電話回線を介してファックスを送受信する部位である。記憶部15は、この複合機1の設定内容等を記憶する部位である。印刷部17は、記録媒体に画像を形成する部位である。カードリーダ18は、IDカードに記憶されたユーザの識別情報を読み取る部位である。カードリーダ18が読み取った識別情報に基づき、複合機1は、現在のユーザを識別可能である。
The
複合機1は更に、カメラ16と、距離センサ19と、マイク21と、スピーカ22とを備える。マイク21は、ユーザの音声を入力する音声入力部である。マイク21に入力された音声は、音声データと音量データとに変換されて、音声処理サーバ3に送信される。
The
スピーカ22は、合成された音声を出力する音声出力部である。スピーカ22は、音声処理サーバ3から出力された音声データと音量データに基づく応答の音声を再生する。
The
カメラ16は、ユーザを撮影する撮影部である。カメラ16が撮影したユーザ画像に基づき、制御部11は、ユーザのポーズを抽出することができる。撮影画像に基づいて人のポーズを抽出するソフトウエアライブラリとして、例えば、カーネギーメロン大学のZhe Caoらが開発したOpenPoseがある。
距離センサ19は、マイク21とユーザとの距離を検知する部位である。
The
The
音声処理サーバ3と複合機制御サーバ4とは、不図示のCPUとRAMとROMとを含んで構成されるコンピュータである。不図示のCPUがプログラムを実行することにより、各機能部が具現化される。 The voice processing server 3 and the multifunction device control server 4 are computers including a CPU (not shown), a RAM, and a ROM (not shown). Each functional unit is embodied by executing a program by a CPU (not shown).
音声処理サーバ3には、音声認識部31と音声合成部32とが具現化されている。音声認識部31は、マイク21が収録した音声データを認識して、テキストデータに変換する部位である。音声認識部31が出力したテキストデータと音量データは、複合機制御サーバ4に出力される。
音声合成部32は、テキストデータから音声データを合成する部位である。音量データと、音声合成部32が合成した音声データは、スピーカ22に出力される。
The voice processing server 3 embodies a
The
複合機制御サーバ4には、指示内容認識部41と応答制御部42とコマンド変換部43とが具現化されている。複合機制御サーバ4の不図示のCPUが、不図示の記憶部に格納された音声操作プログラムを実行することにより、音声による操作を実現する音声操作サーバとして機能する。
指示内容認識部41は、音声認識部31が認識したテキストデータから、ユーザの指示内容を認識する部位である。指示内容認識部41が認識した指示内容は、応答制御部42とコマンド変換部43に出力され、更に音量データが応答制御部42に出力される。
The multifunction device control server 4 embodies an instruction
The instruction
応答制御部42は、ユーザの指示内容とユーザの音声に係る音量とに基づき、どのような応答を返すかを制御する部位である。応答制御部42は、マイク21に入力されたユーザの音声に基づいて、スピーカ22による復唱を行わせるか、または/および、表示部13に発話内容の確認表示画面を表示させるのかを選択する。
応答制御部42は、音声合成部32に応答のテキストデータと音量データとを出力し、コマンド変換部43にメッセージの表示指示を出力する。
The
The
コマンド変換部43は、指示内容認識部41が認識した指示内容や、応答制御部42が出力したメッセージの表示指示に基づき、複合機1の表示部13に所定表示を指示する部位である。
The
図2は、動作条件テーブル151の一例を示す図である。
動作条件テーブル151の左側4列は、複合機1に入力される様々な動作条件が記載されており、右側3列は、複合機1から出力される応答条件が記載されている。
FIG. 2 is a diagram showing an example of the operating condition table 151.
The four columns on the left side of the operating condition table 151 describe various operating conditions input to the
第1列は、入力音量レベルが記載されている。入力音量レベル100%とは、入力音量が50%を超え、かつ100%以下であることを示している。入力音量レベル50%とは、入力音量が25%を超え、かつ50%以下であることを示している。入力音量レベル25%とは、入力音量が25%以下であることを示している。 The first column describes the input volume level. The input volume level of 100% means that the input volume exceeds 50% and is 100% or less. The input volume level of 50% means that the input volume exceeds 25% and is 50% or less. The input volume level of 25% indicates that the input volume is 25% or less.
第2列は、入力された音声情報にパスワードが含まれているか否かを示している。パスワードが含まれている場合が「〇」であり、パスワードが含まれていない場合が「−」である。 The second column indicates whether or not the input voice information includes a password. When the password is included, it is "○", and when the password is not included, it is "-".
第3列は、ユーザは視覚障碍者であるか否かを示している。視覚障碍者の場合は「〇」であり、視覚障碍者ではない場合が「−」である。 The third column shows whether or not the user is visually impaired. In the case of a visually impaired person, it is "○", and in the case of a non-visually impaired person, it is "-".
第4列は、複写禁止原稿が置かれているか否かを示している。複写禁止原稿が置かれている場合は「〇」であり、複写禁止原稿が置かれていない場合が「−」である。 The fourth column shows whether or not a copy-prohibited manuscript is placed. If a copy-prohibited manuscript is placed, it is "○", and if a copy-prohibited manuscript is not placed, it is "-".
第5列は、スピーカ22の出力音量レベルを示している。第6列は、スピーカ22が出力する応答内容を示している。第7列は、表示部13に表示される応答内容を示している。
The fifth column shows the output volume level of the
《ユーザの操作音声の入力音量に応じた制御》
動作条件テーブル151の第1行から第3行は、入力された音声情報にパスワードが含まれておらず、ユーザは視覚障碍者ではなく、複写禁止原稿が置かれていない場合の動作を示している。
<< Control according to the input volume of the user's operation voice >>
The first to third rows of the operating condition table 151 show the operation when the input voice information does not include the password, the user is not a visually impaired person, and the copy prohibited manuscript is not placed. There is.
第1行目は、ユーザが複合機1を音声で操作し、かつ入力音量が50%を超え、100%以下である場合を示している。このとき、複合機1は、出力音量レベル100%でユーザの操作音声を復唱し、表示部13に発話内容に関する確認内容を表示しない。
The first line shows a case where the user operates the
第2行目は、ユーザが複合機1を音声で操作し、かつ入力音量が25%を超え、50%以下である場合を示している。このとき、複合機1は、出力音量レベル50%でユーザの操作音声を復唱し、表示部13に発話内容に関する確認内容を表示しない。
The second line shows a case where the user operates the
第3行目は、ユーザが複合機1を音声で操作し、かつ入力音量が25%以下である場合を示している。このとき、複合機1は、出力音量レベル50%で「表示部をご確認ください」の音声を出力し、かつ表示部13に発話内容に関する確認内容を表示する。
The third line shows a case where the user operates the
即ち、ユーザが入力音量レベル25%以下の小声で周囲に聞えないように話しかけた場合、複合機1は、出力音声による復唱を行わず、代わりに表示部13に確認応答画面を表示している。応答制御部42は、マイク21に入力されたユーザの音声の入力音量に基づいて、スピーカ22による復唱を行わせるか、または/および、表示部13に発話内容の確認応答画面を表示させるのかを選択する。
That is, when the user speaks in a low voice with an input volume level of 25% or less so as not to be heard by the surroundings, the
これにより、ユーザが秘匿にしたい音声操作情報を、周囲に聞こえないように確認することができる。ここでは、入力音量レベル25%は、スピーカ22の合成音声に代わって、表示部13で応答するように切り替える閾値Tである。
As a result, it is possible to confirm that the voice operation information that the user wants to keep secret is not heard by the surroundings. Here, the input volume level of 25% is a threshold value T for switching to respond on the
《音声情報にパスワードが含まれる場合の例外》
動作条件テーブル151の第4行から第6行は、入力された音声情報にパスワードが含まれており、ユーザは視覚障碍者ではなく、複写禁止原稿が置かれていない場合の動作を示している。
<< Exception when voice information includes password >>
The 4th to 6th rows of the operating condition table 151 show the operation when the input voice information includes the password, the user is not a visually impaired person, and the copy prohibited manuscript is not placed. ..
第4行目は、ユーザが複合機1を音声で操作し、かつ入力音量が50%を超え、100%以下である場合を示している。このとき、複合機1は、出力音量100%で「表示部をご確認ください」の音声を出力し、かつ表示部13に発話内容に関する確認内容を表示する。
The fourth line shows a case where the user operates the
第5行目は、ユーザが複合機1を音声で操作し、かつ入力音量が25%を超え、50%以下である場合を示している。このとき、複合機1は、出力音量50%で「表示部をご確認ください」の音声を出力し、かつ表示部13に発話内容に関する確認内容を表示する。
The fifth line shows a case where the user operates the
第6行目は、ユーザが複合機1を音声で操作し、かつ入力音量が25%以下である場合を示している。このとき、複合機1は、出力音量レベル50%で「表示部をご確認ください」の音声を出力し、かつ表示部13に発話内容に関する確認内容を表示する。
The sixth line shows a case where the user operates the
即ち、パスワードのように周囲に秘匿すべき情報を音声入力した場合、複合機1は、入力音量レベルによらず、常に表示部13に確認内容を表示する。例えば、ユーザが音声で操作しようしているとき、表示部13にログイン画面が表示されていたならば、パスワードの音声入力と判定するとよい。
That is, when information to be kept secret is input by voice such as a password, the
秘匿が必要なパスワードを表示部13で確認させ、かつスピーカ22で発話内容を復唱しないので、パスワードを他の者から秘匿することができる。更にユーザは、表示部13を見ている時間を短くすることができる。
Since the password that needs to be kept secret is confirmed on the
《ユーザが視覚障碍者の場合の例外》
動作条件テーブル151の第7行から第9行は、入力された音声情報にパスワードが含まれておらず、ユーザは視覚障碍者であり、複写禁止原稿が置かれていない場合の動作を示している。
<< Exception when the user is visually impaired >>
The 7th to 9th rows of the operating condition table 151 show the operation when the input voice information does not include the password, the user is visually impaired, and the copy prohibited manuscript is not placed. There is.
第7行目は、ユーザが複合機1を音声で操作し、かつ入力音量が50%を超え、100%以下である場合を示している。このとき、複合機1は、出力音量100%でユーザの操作音声を復唱し、表示部13に発話内容に関する確認内容を表示しない。
The seventh line shows a case where the user operates the
第8行目は、ユーザが複合機1を音声で操作し、かつ入力音量が25%を超え、50%以下である場合を示している。このとき、複合機1は、出力音量50%でユーザの操作音声を復唱し、表示部13に発話内容に関する確認内容を表示しない。
The eighth line shows a case where the user operates the
第9行目は、ユーザが複合機1を音声で操作し、かつ入力音量が25%以下である場合を示している。このとき、複合機1は、出力音量50%でユーザの操作音声を復唱し、表示部13には発話内容に関する確認内容を表示しない。
The ninth line shows a case where the user operates the
即ち、ユーザが視覚障碍者であった場合、複合機1は、入力音量レベルによらず、常にユーザの操作音声をスピーカ22で復唱し、表示部13には確認内容を表示しない。複合機1は、カードリーダ18によるユーザ認証と、ユーザ属性のデータベース(不図示)により、現在のユーザが視覚障碍者であるか否かを判定可能である。
That is, when the user is visually impaired, the
なお、ユーザが視覚障碍者であるか否かの判定は、ユーザ属性データベースの参照に限定されない。複合機1は、ユーザが歩行補助線を杖で確認しながら歩いて来たか、ユーザが点字部分を手でなぞった後に音声操作を開始したか、カメラ16でユーザの目を撮影した結果が視覚障碍の症例に合致するか、盲導犬を連れているか、のうち何れか1つまたは複数に該当する場合は、視覚障碍者であると判定するとよい。
The determination of whether or not the user is visually impaired is not limited to the reference of the user attribute database. In the
なお、ユーザが視覚障碍者であった場合に限定されず、ユーザが表示部13を確認できない場合、入力音量レベルによらず、音声でユーザの操作音声を復唱してもよい。ユーザが表示部13を確認できない場合とは、例えばユーザが重たいものを持っていて直ぐにパネル前に来られない場合などである。
It should be noted that the present invention is not limited to the case where the user is visually impaired, and when the user cannot confirm the
《複写禁止原稿に対する例外》
動作条件テーブル151の第10行から第12行は、入力された音声情報にパスワードが含まれておらず、ユーザは視覚障碍者ではなく、複写禁止原稿が置かれている場合の動作を示している。
<< Exceptions to copy-prohibited manuscripts >>
The 10th to 12th rows of the operating condition table 151 show the operation when the input voice information does not include the password, the user is not a visually impaired person, and the copy prohibited manuscript is placed. There is.
第10行目は、ユーザが複合機1を音声で操作し、かつ入力音量が50%を超え、100%以下である場合を示している。このとき、複合機1は、出力音量100%でユーザの操作音声を復唱し、表示部13には警告を表示する。
The tenth line shows a case where the user operates the
第11行目は、ユーザが複合機1を音声で操作し、かつ入力音量が25%を超え、50%以下である場合を示している。このとき、複合機1は、出力音量100%でユーザの操作音声を復唱し、表示部13には警告を表示する。
The eleventh line shows a case where the user operates the
第12行目は、ユーザが複合機1を音声で操作し、かつ入力音量が25%以下である場合を示している。このとき、複合機1は、出力音量100%でユーザの操作音声を復唱し、表示部13には警告を表示する。
The twelfth line shows a case where the user operates the
即ち、スキャン部14に複写禁止原稿が置かれていた場合、ユーザの操作音声が小音量であったとしても、複合機1は、周囲へ周知が出来るように、大音量でユーザの操作音声を復唱し、かつ、表示部13には警告を表示する。
That is, when a copy-prohibited document is placed on the
スキャン部14に原稿が置かれると、複合機1は、原稿サイズ自動検知時などのプレスキャンを行う。複合機1は、このプレスキャンデータにより、この原稿が複写禁止であるか否かを判定可能である。
When the document is placed on the
スキャン部14に複写禁止原稿が置かれ、かつユーザが「〇×の設定でコピー」と口頭で操作指示した場合、複合機1は、「その原稿は禁止原稿です、スキャンを停止してください」と周囲に聞えるような音量で応答する。これにより、複合機1は、複写禁止原稿のスキャンやコピーを抑止することができる。
When a copy-prohibited document is placed on the
図3Aから図3Cは、音声操作処理を示すフローチャートである。
ステップS10において、ユーザが音声操作して、マイク21に音声が入力されると、複合機制御サーバ4による音声操作処理が開始する。
複合機制御サーバ4の指示内容認識部41は、複合機1にユーザとマイク21との距離の問い合わせコマンドを送信し、距離センサ19により、ユーザとマイク21との距離を検知する(S11)。そして、複合機1の制御部11は、検知した距離情報を、複合機制御サーバ4の指示内容認識部41に送信する。これにより指示内容認識部41は、ユーザとマイク21との距離の回答を得ることができる。
3A to 3C are flowcharts showing voice operation processing.
In step S10, when the user operates the voice and the voice is input to the
The instruction
そして複合機制御サーバ4の指示内容認識部41は、マイク21が検知した音量データと、ユーザとマイク21との距離情報などから音声の入力音量を算出する(S12)。
例えば、指示内容認識部41は、実際にマイク21に届いた音量Vmと、マイク21からの距離D1と雰囲気D2と声色D3と反響度合いD4とによる減算音量Dを加味して、音声の入力音量Vinを計算するとよい。
Then, the instruction
For example, the instruction
距離D1は、マイク21からユーザの顔までの距離であり、例えば距離センサ19によって測定可能である。
雰囲気D2は、例えば手を添えて音が漏れないように発声しているか否かであり、後記する図9の処理によって判定可能である。
The distance D1 is the distance from the
The atmosphere D2 is, for example, whether or not the sound is uttered with a hand so that the sound does not leak, and can be determined by the process of FIG. 9 described later.
声色D3は、内緒話のような声色か否かであり、入力音声のスペクトル分析により判定可能である。内緒話のような声色か否かは、ユーザの通常の声音を予め登録しておき、登録された声音とマイク21の入力音の声音が異なっているか否かで判定してもよい。
反響度合いD4は、周囲の静けさなどの環境音を考慮し、かつ環境の反響音を考慮したものであり、後記する図8の処理で算出可能である。
これらD1〜D4は固定値にしてもよく、程度によってレベル分けしてもよい。音声の入力音量Vinは、実際にマイク21に届いた音量Vmと、減算音量Dとから計算される。
The voice color D3 is whether or not the voice color is like a secret story, and can be determined by spectral analysis of the input voice. Whether or not the voice color is like a secret story may be determined by registering the user's normal voice sound in advance and determining whether or not the registered voice sound and the voice sound of the input sound of the
The degree of reverberation D4 takes into consideration environmental sounds such as the quietness of the surroundings and also takes into consideration the reverberant sounds of the environment, and can be calculated by the process of FIG. 8 described later.
These D1 to D4 may be fixed values or may be divided into levels according to the degree. The voice input volume Vin is calculated from the volume Vm that actually reaches the
複合機制御サーバ4の応答制御部42は、複合機1に複写禁止原稿の有無の問い合わせコマンドを送信し、スキャン部14に複写禁止原稿が置かれているか否かを判定する(S13)。複合機1の制御部11は、ステップS13の判定結果を複合機制御サーバ4の応答制御部42に送信する。これにより応答制御部42は、複写禁止原稿の有無の回答を得ることができる。
ステップS14において、応答制御部42は、スキャン部14に複写禁止原稿が置かれているか否かを判定する。応答制御部42は、スキャン部14に複写禁止原稿が置かれていたならば(Yes)、出力応答(復唱)のテキストと通常音量の音量データを音声処理サーバ3へ送信して、スピーカ22により通常音量での出力応答(復唱)を行わせる(S15)。更に応答制御部42は、警告の表示コマンドを複合機1に送信して、複合機1の表示部13に警告を表示させる(S16)。ステップS16の処理が終了すると、この音声操作処理を終了する。
The
In step S14, the
図4は、ステップS16において表示部13に表示される警告画面51である。
警告画面51には、「複写が禁止されている原稿です。複写を実行しますか。」の文章が表示され、更にその下側に「はい」ボタン511と「いいえ」ボタン512とが表示されている。ユーザが「はい」ボタン511をタップすると、スキャン部14は、複写を実行する。ユーザが「いいえ」ボタン512をタップすると、スキャン部14は、複写を実行しない。
FIG. 4 is a
On the
図3Aに戻り説明を続ける。ステップS14において、応答制御部42は、スキャン部14に複写禁止原稿が置かれていなかったならば(No)、ステップS17に進み、発話内容を判定する。
ステップS18において、応答制御部42は、発話内容が秘匿情報、例えばパスワードや秘密にしたい宛先情報であったならば(Yes)、図3BのステップS28に進む。応答制御部42は、コマンド変換部43を介して表示部13に、発話内容に関する確認応答の画面を表示させると(S28)、この音声操作処理を終了する。
The explanation will be continued by returning to FIG. 3A. In step S14, if the copy prohibited document is not placed in the
In step S18, if the utterance content is confidential information, for example, a password or destination information to be kept secret (Yes), the
図5と図6は、ステップS28において表示部13に表示される確認応答画面の例である。図5の確認応答画面52には、「R社のSさんに対する送信でよろしいですか。」の文章が表示され、更にその下側に「はい」ボタン521と「いいえ」ボタン522とが表示されている。ここでR社のSさんの情報は、秘匿したい情報として、この音声操作システムSの不図示のデータベースに登録されている。
5 and 6 are examples of confirmation response screens displayed on the
ユーザが「はい」ボタン521をタップすると、ファックス部10は、ファックスの送信を実行する。ユーザが「いいえ」ボタン522をタップすると、ファックス部10は、ファックスの送信を実行しない。
When the user taps the "Yes"
図6の確認応答画面53には、「パスワードは“tokkyotaro”でよろしいですか。」の文章が表示され、更にその下側に「はい」ボタン531と「いいえ」ボタン532とが表示されている。この画面の直前はパスワード入力画面なので、“tokkyotaro”は秘匿したい情報として判定可能である。
On the
ユーザが「はい」ボタン531をタップすると、パスワード入力画面に遷移し、このパスワードによるログインが実行される。ユーザが「いいえ」ボタン532をタップすると、ログインは実行されない。
When the user taps the "Yes"
図3Aに戻り説明を続ける。ステップS18において、応答制御部42は、発話内容が秘匿情報を含まないならば(No)、ステップS19に進み、表示部確認フラグがセットされているか否かを判定する。この表示部確認フラグは、後記する図7に示す確認応答画面54にて、「表示部で確認」ボタン542をタップすることでセットされる。
応答制御部42は、表示部確認フラグがセットされていたならば、図3BのステップS28に進む。応答制御部42は、コマンド変換部43を介して表示部13に、発話内容に関する応答を表示させ、この音声操作処理を終了する。応答制御部42は、表示部確認フラグがクリアされていたならば、ステップS20の処理に進む。
The explanation will be continued by returning to FIG. 3A. In step S18, if the utterance content does not include confidential information (No), the
If the display unit confirmation flag is set, the
ステップS20において、複合機1の制御部11は、カメラ16で撮影したユーザ画像を応答制御部42に送信する。複合機制御サーバ4の応答制御部42は、カメラ16で撮影したユーザ画像から、ユーザのポーズを抽出する。なお、ポーズの抽出は複合機1側で行ってもよく、限定されない。
ステップS21において、複合機制御サーバ4の応答制御部42は、ユーザのポーズがこっそりと話しかけるポーズ、例えば手をメガホンのように口の前に翳すポーズであるか否かを判定する。応答制御部42は、ユーザがこっそりと話しかけるポーズならば(Yes)、図3BのステップS24に進む。応答制御部42は、ユーザがこっそりと話しかけるポーズでないならば(No)、ステップS22に進む。
In step S20, the
In step S21, the
ステップS22において、応答制御部42は、ユーザとマイク21との距離が閾値以内であるか否かを判定する。こっそりと話しかける場合、ユーザは、マイク21に近づいて小声で話しかけると考えられるためである。
In step S22, the
応答制御部42は、ユーザとマイク21との距離が閾値以内ならば(Yes)、図3BのステップS24に進む。応答制御部42は、ユーザとマイク21との距離が閾値を超えていたならば(No)、図3BのステップS23に進む。
If the distance between the user and the
ステップS23において、応答制御部42は、入力音量が閾値以下であるか否かを判定する。応答制御部42は、入力音量が閾値以下ならば(Yes)、ステップS24に進み、入力音量が閾値を超えていたならば(No)、図3CのステップS29に進む。
In step S23, the
ステップS24において、応答制御部42は、現在のユーザが視覚障碍者であるか否かを判定する。応答制御部42は、現在のユーザが視覚障碍者ならば(Yes)、出力応答(復唱)のテキストと最低音量の音量データを音声処理サーバ3へ送信して、最低音量での出力応答(復唱)を行わせ(S25)、この音声操作処理を終了する。応答制御部42は、現在のユーザが視覚障碍者でないならば(No)、ステップS26に進む。
In step S24, the
ステップS26において、複合機1の制御部11は、カメラ16で撮影したユーザ画像を応答制御部42に送信する。複合機制御サーバ4の応答制御部42は、カメラ16で撮影したユーザ画像から、現在のユーザが表示部13を注視しているか否かを判定する。応答制御部42は、現在のユーザが表示部13を注視していないならば(No)、「表示部を見てください」のテキストを音声処理サーバ3へ送信して、「表示部を見てください」の誘導音声をスピーカ22に出力させて(S27)、ステップS28の処理に進む。応答制御部42は、現在のユーザが表示部13を注視していたならば(Yes)、ステップS28の処理に進む。
ステップS28において、応答制御部42は、コマンド変換部43を介して、発話内容に関する応答の表示コマンドを複合機1に送信して、複合機1の表示部13に、発話内容に関する応答を表示させると、この音声操作処理を終了する。
In step S26, the
In step S28, the
図3CのステップS29において、応答制御部42は、発話音量に応じた出力応答(復唱)を行う。制御部11は、カメラ16によって復唱中のユーザを撮影すると、撮影したユーザ画像を応答制御部42に送信する。複合機制御サーバ4の応答制御部42は、カメラ16で撮影したユーザ画像から、ユーザのポーズを抽出する(S30)。なお、ポーズの抽出は複合機1側で行ってもよく、限定されない。ステップS30の詳細は、後記する図11で説明する。
In step S29 of FIG. 3C, the
ステップS31において、応答制御部42は、ユーザが内緒のポーズ、例えば唇の前に人差し指を立てるポーズをしているか否かを判定する。後記する図12は、内緒のポーズの一例である。
In step S31, the
応答制御部42は、ユーザが内緒のポーズをしていなかったならば、この音声操作処理を終了する。応答制御部42は、ユーザが内緒のポーズをしていたならば(Yes)、次回の応答から音量を下げるか、または、表示部13で確認するかの選択の表示コマンドを複合機1に送信する。これにより、複合機1の表示部13には、次回の応答から音量を下げるか、または、表示部13で確認するかの選択が表示される(S32)。ステップS32の処理が終了すると、応答制御部42は、この音声操作処理を終了する。
If the user has not made a secret pose, the
図7は、ステップS32において表示部13に表示される確認応答画面54である。
確認応答画面54には、「次回の応答を指示してください。」の文章が表示され、その下側には「音量を小さく」ボタン541と「表示部で確認」ボタン542とが表示されている。ユーザが「音量を小さく」ボタン541をタップすると、次回の音声操作における音声応答の音量が小さくなる。ユーザが「表示部で確認」ボタン542をタップすると、表示部確認フラグがセットされる。これにより、次回の音声操作の応答は、表示部13の表示内容によって確認可能となる。
FIG. 7 is a
On the
なお、ステップS32において、ユーザが、「もう少し音量下げて」と音声で指示した場合、複合機1は、次の応答からはスピーカ22の出力音量を下げるとよい。
スピーカ22の出力音量を下げるにあたり、複合機1は、ユーザの入力音量をVinとした場合、出力音量Voutを、入力音量Vinよりも5%低い値や、10%低い値のように、ユーザの入力音量Vinを基準として、出力音量Voutを微調整できるようにするとよい。但し、複合機1は、出力音量Voutが最低音量の閾値T(ここでは、25%)よりも小さくならないようにする。
In step S32, when the user gives a voice instruction to "lower the volume a little more", the
In lowering the output volume of the
複合機1は、出力音量Voutを最低音量の閾値Tより小さくしたい場合は、表示部13による発話内容の確認応答の表示を推奨するとよい。更にユーザが表示部確認を選択し、かつ、前回の応答時の出力音量がBだった場合、出力音量Bが最低音量以下となるように、最低音量の閾値Tを変更するとよい。例えば、最低音量の閾値Tを、出力音量Bよりも5%高い値とすることである。
When the
逆に、ユーザが、スピーカ22の出力音声が聞えない素振りを見せていたら、閾値Tを上げるなど、ユーザごとにカスタマイズしてもよい。出力音声が聞えない素振りとは、例えばユーザが耳に手を翳すポーズなどである。
On the contrary, if the user is pretending that the output voice of the
図8は、設置環境の反響度合いを検知する処理を示すフローチャートである。
例えば深夜などのように、静寂な環境が期待できる時間帯おいて、制御部11は処理を開始する。
FIG. 8 is a flowchart showing a process of detecting the degree of reverberation in the installation environment.
The
ステップS40において、制御部11は、マイク21により音を検出する。ステップS41において、制御部11は、検出した音量が所定値以下であるか否かを判定する。制御部11は、検出した音量が所定値を超えたならば(No)、図8の処理を終了し、検出した音量が所定値以下ならば(Yes)、ステップS42に進む。
In step S40, the
ステップS42において、制御部11は、スピーカ22からキャリブレーション音を出力する。制御部11は、このキャリブレーション音をマイク21にて検知する(S43)。
In step S42, the
ステップS42において、制御部11は、スピーカ22に出力したキャリブレーション音の音量とマイク21で検知した音量から、設置環境の反響度合いを算出する。ステップS42の処理が終了すると、制御部11は、図8の処理を終了する。
In step S42, the
図9は、こっそりと話しかけるポーズを検知する処理を示すフローチャートである。
カメラ16は、発話中のユーザを撮像する(S50)。これにより、ユーザ画像を得ることができる。そして制御部11は、このユーザ画像から、ユーザのポーズを抽出する(S51)。
FIG. 9 is a flowchart showing a process of detecting a pose in which a person talks secretly.
The
制御部11は、抽出したユーザのポーズを、こっそりと話しかけるときのボーズのデータベースと照合し(S52)、ステップS53において、データベースの何れかのポーズと一致するか否かを判定する。図10は、こっそりと話しかけるときのユーザ画像の一例である。データベースには、このような多数のポーズが格納されている。
The
図9に戻り説明を続ける。制御部11は、何れかのポーズと一致するならば(Yes)、発話中のユーザのポーズを、こっそりと話しかけるときのポーズとして判定して(S54)、図9の処理を終了する。制御部11は、何れのポーズとも一致しないならば(No)、図9の処理を終了する。
The explanation will be continued by returning to FIG. If the pose matches any of the poses (Yes), the
図11は、内緒のポーズを検知する処理を示すフローチャートである。
カメラ16は、発話中のユーザを撮像する(S60)。これにより、ユーザ画像を得ることができる。そして制御部11は、このユーザ画像から、ユーザのポーズを抽出する(S61)。
FIG. 11 is a flowchart showing a process of detecting a secret pose.
The
制御部11は、抽出したユーザのポーズを、内緒のボーズのデータベースと照合し(S62)、ステップS63において、データベースの何れかのポーズと一致するか否かを判定する。図12は、内緒のポーズをとるユーザ画像の一例である。データベースには、このようなポーズが多数格納されている。
The
図11に戻り説明を続ける。制御部11は、何れかのポーズと一致するならば(Yes)、発話中のユーザのポーズを、内緒のポーズとして判定して(S64)、図10の処理を終了する。制御部11は、何れのポーズとも一致しないならば(No)、図10の処理を終了する。
The explanation will be continued by returning to FIG. If the pose matches any of the poses (Yes), the
本実施形態の音声操作システムSは、スピーカ22による応答の出力音量を所定値以上として、必要に応じて音声操作内容の確認情報を表示部13に表示している。これによりユーザは、複合機1の応答が聞こえないということがなく、かつ、ユーザの秘匿にしたい情報を周囲に聞こえないようにするといった秘匿効果を得ることができる。
In the voice operation system S of the present embodiment, the output volume of the response by the
音声操作システムSは、音声操作の際の設定内容の確認方法を、表示部13で確認が推奨される秘匿項目のみに限定している。これにより、音声操作システムSは、かんたん音声操作モードのような簡単な設定項目に限定することなく、多岐に渡る設定項目にも対応することができる。
The voice operation system S limits the method of confirming the setting contents at the time of voice operation to only the secret items for which confirmation is recommended on the
(変形例)
本発明は、上記実施形態に限定されることなく、本発明の趣旨を逸脱しない範囲で、変更実施が可能であり、例えば、次の(a)〜(g)のようなものがある。
(Modification example)
The present invention is not limited to the above-described embodiment, and can be modified without departing from the spirit of the present invention. For example, there are the following (a) to (g).
(a) ユーザがこっそりと音声操作しようとしているか否かは、ユーザの声色で判定してもよい。具体的にいうと、ユーザの普段の声色を登録しておき、音声操作における声色が登録した声色と所定値以上違っていたならば、こっそりと音声操作しようとしていると判定してもよい。
(b) ユーザがこっそりと音声操作しようとしているか否かを人工知能などで機械学習しておいて、学習結果に基づいて判断してもよい。また、ユーザごとに学習させておいて、ユーザのクセに対応できるようにしてもよい。
(A) Whether or not the user is secretly trying to operate the voice may be determined by the voice of the user. Specifically, the user's usual voice color may be registered, and if the voice color in the voice operation differs from the registered voice color by a predetermined value or more, it may be determined that the user is secretly trying to perform the voice operation.
(B) Whether or not the user is secretly trying to perform voice operation may be machine-learned by artificial intelligence or the like, and a judgment may be made based on the learning result. In addition, it may be possible to learn for each user so that the user's habit can be dealt with.
(c) 音声操作システムは、ユーザをカメラで監視し、このユーザが表示部を見ながら音声操作しているか否かを判断してもよい。音声操作システムは、ユーザが表示部を見ているならば表示部のみで応答し、ユーザが表示部を見ていないならば誘導音声と表示部の双方で応答する。これにより、不要な音声操作を回避して、複合機の周辺環境の静粛性を向上させることができる。
(d) 音声操作システムは、表示部を見ることを促す誘導音声の音量を通常の音量(例えば、100%)としてもよく、所定の閾値(例えば50%)よりも下げないようにしてもよい。
(C) The voice operation system may monitor the user with a camera and determine whether or not the user is operating the voice while looking at the display unit. The voice operation system responds only with the display unit if the user is looking at the display unit, and responds with both the guidance voice and the display unit if the user is not looking at the display unit. As a result, unnecessary voice operations can be avoided and the quietness of the surrounding environment of the multifunction device can be improved.
(D) The voice operation system may set the volume of the guidance voice prompting to see the display unit to a normal volume (for example, 100%) and may not lower the volume below a predetermined threshold value (for example, 50%). ..
(e) 音声操作システムは、ユーザが音声操作を実施した際に、「音量下げて」の音声入力を受け付けてもよい。複合機1は、ユーザの入力音量Vinとした場合、出力音量を入力音量よりも5%低く、更に10%低く…のように、ユーザの入力音量Vinを基準として、出力音量Voutを微調整する。但し、出力音量Voutは、最低音量の閾値Tよりも小さくしない。最低音量の閾値Tより小さくしたい場合、音声操作システムは、ユーザに対し、表示部応答に切り替えることを推奨するとよい。
(E) The voice operation system may accept a voice input of "volume down" when the user performs a voice operation. When the user's input volume Vin is set, the
(f) 音声操作システムは、複合機などの画像形成装置に限定されず、例えばテレビ、録画装置、カメラ、ビデオレコーダ、ファックス、冷蔵庫、炊飯器、カーナビゲーションシステムなど任意の装置に適用してもよい。
(g) 距離センサに代わり、カメラによってユーザからマイクまでの距離を測定してもよい。
(F) The voice operation system is not limited to an image forming device such as a multifunction device, and may be applied to any device such as a television, a recording device, a camera, a video recorder, a fax machine, a refrigerator, a rice cooker, and a car navigation system. Good.
(G) Instead of the distance sensor, the distance from the user to the microphone may be measured by a camera.
S 音声操作システム
1 複合機 (画像形成装置)
10 ファックス部
11 制御部
12 操作部
13 表示部
14 スキャン部
15 記憶部
151 動作条件テーブル
16 カメラ
17 印刷部
18 カードリーダ
19 距離センサ
21 マイク (音声入力部)
22 スピーカ (音声出力部)
3 音声処理サーバ
31 音声認識部
32 音声合成部
4 複合機制御サーバ (音声操作サーバ)
41 指示内容認識部
42 応答制御部
43 コマンド変換部
51 警告画面
511 「はい」ボタン
512 「いいえ」ボタン
52 確認応答画面
521 「はい」ボタン
522 「いいえ」ボタン
53 確認応答画面
531 「はい」ボタン
532 「いいえ」ボタン
54 確認応答画面
541 「音量を小さく」ボタン
542 「表示部で確認」ボタン
S
10
22 Speaker (audio output section)
3
41 Instruction
Claims (17)
情報を表示する表示部と、
音声を出力する音声出力部と、
前記音声入力部に入力されたユーザの音声に基づいて、前記音声出力部による復唱を行うか、または/および、前記表示部に発話内容の確認応答を表示するかを選択する応答制御部と、
を有する音声操作システム。 A voice input unit for inputting voice and
A display unit that displays information and
An audio output unit that outputs audio and
A response control unit that selects whether to repeat by the voice output unit or / or to display a confirmation response of the utterance content on the display unit based on the user's voice input to the voice input unit.
Voice operation system with.
請求項1に記載の音声操作システム。 The response control unit changes the volume of the repeat by the voice output unit based on the volume of the voice emitted by the user.
The voice operation system according to claim 1.
前記ユーザが発した音声の音量が前記閾値以下である場合には、前記表示部に発話内容の確認応答を表示する、
請求項1又は2に記載の音声操作システム。 When the volume of the voice emitted by the user exceeds the threshold value, the response control unit repeats the voice output unit.
When the volume of the voice uttered by the user is equal to or lower than the threshold value, a confirmation response of the utterance content is displayed on the display unit.
The voice operation system according to claim 1 or 2.
前記応答制御部は、前記音声出力部による復唱の際の前記ユーザのポーズに応じて、次回の音声操作の際の前記音声出力部による復唱の音量を下げるか、前記表示部に発話内容の確認応答を表示するか、を選択可能な画面を前記表示部に表示させる、
請求項3に記載の音声操作システム。 It has a shooting unit that shoots the user,
The response control unit lowers the volume of the repeat by the voice output unit in the next voice operation, or confirms the utterance content on the display unit, in response to the pause of the user when the voice output unit repeats. Display a screen on the display unit where you can select whether to display the response.
The voice operation system according to claim 3.
請求項1又は2に記載の音声操作システム。 The response control unit outputs a voice for inducing the user to confirm the display unit to the voice output unit when the display unit displays the confirmation response of the utterance content.
The voice operation system according to claim 1 or 2.
前記応答制御部は、更に前記距離センサが検知した前記ユーザとの距離に基づいて、前記音声出力部による復唱を行うか、又は、前記表示部に発話内容の確認応答を表示するかを選択する、
請求項1又は2に記載の音声操作システム。 It has a distance sensor that detects the distance to the user,
The response control unit further selects whether to repeat the voice output unit or display a confirmation response of the utterance content on the display unit based on the distance to the user detected by the distance sensor. ,
The voice operation system according to claim 1 or 2.
前記応答制御部は、更に前記撮影部が撮影したユーザの顔又は視線の向きに基づいて、前記音声出力部による復唱を行うか、または/および、前記表示部に発話内容の確認応答を表示するかを選択する、
請求項1又は2に記載の音声操作システム。 It has a shooting unit that shoots the user,
The response control unit further repeats the voice output unit based on the direction of the user's face or line of sight photographed by the imaging unit, or / and displays a confirmation response of the utterance content on the display unit. To choose
The voice operation system according to claim 1 or 2.
前記応答制御部は、更に前記撮影部が撮影したユーザのポーズに基づいて、前記音声出力部による復唱を行うか、または/および、前記表示部に発話内容の確認応答を表示するかを選択する、
請求項1又は2に記載の音声操作システム。 It has a shooting unit that shoots the user,
The response control unit further selects whether to repeat the voice output unit or / or display a confirmation response of the utterance content on the display unit based on the pose of the user photographed by the photographing unit. ,
The voice operation system according to claim 1 or 2.
請求項1又は2に記載の音声操作システム。 The response control unit further repeats by the voice output unit based on the confidentiality of the utterance content of the voice uttered by the user, or / and displays a confirmation response of the utterance content on the display unit. To select,
The voice operation system according to claim 1 or 2.
請求項1又は2に記載の音声操作システム。 The response control unit further repeats the voice output unit based on the screen type of the display unit when the user emits a voice, or / or sends a confirmation response of the utterance content to the display unit. Select whether to display,
The voice operation system according to claim 1 or 2.
請求項1又は2に記載の音声操作システム。 When the user has a visual impairment, the response control unit repeats the voice output unit.
The voice operation system according to claim 1 or 2.
ことを特徴とする請求項11に記載の音声操作システム。 When the user has a visual impairment, the response control unit repeats the speech output unit at the lowest volume instead of displaying the confirmation response of the utterance content on the display unit.
The voice operation system according to claim 11.
前記応答制御部は、前記スキャン部に置かれた原稿が複写禁止である場合には、前記音声出力部による所定音量以上での警告出力を行わせる、
請求項1又は2に記載の音声操作システム。 It has a scanning unit that scans documents
When the document placed on the scanning unit is prohibited from copying, the response control unit causes the voice output unit to output a warning at a predetermined volume or higher.
The voice operation system according to claim 1 or 2.
情報を表示する表示部と、
音声を出力する音声出力部と、
前記音声入力部に入力されたユーザの音声に基づいて、前記音声出力部による復唱を行うか、または/および、前記表示部に発話内容の確認応答を表示するかを選択する応答制御部と、
を有する画像形成装置。 A voice input unit for inputting voice and
A display unit that displays information and
An audio output unit that outputs audio and
A response control unit that selects whether to repeat by the voice output unit or / or to display a confirmation response of the utterance content on the display unit based on the user's voice input to the voice input unit.
An image forming apparatus having.
情報を表示する表示部と、
音声を出力する音声出力部と、
応答制御部とを備えた装置の音声操作方法であって、
前記音声入力部が、ユーザの音声を入力し、
前記応答制御部が、前記ユーザの音声に基づいて、前記音声出力部による復唱を行うか、または/および、前記表示部に発話内容の確認応答を表示するかを選択する、
音声操作方法。 A voice input unit for inputting voice and
A display unit that displays information and
An audio output unit that outputs audio and
It is a voice operation method of a device equipped with a response control unit.
The voice input unit inputs the user's voice and
The response control unit selects whether to repeat the voice output unit based on the user's voice, or / and to display a confirmation response of the utterance content on the display unit.
Voice operation method.
前記音声に基づいて、音声出力装置による復唱を行わせるか、または/および、表示装置に発話内容の確認応答を表示させるかを選択する応答制御部と、
を有する音声操作サーバ。 An instruction content recognition unit that recognizes the user's instruction content from the text data that recognizes the user's voice input to the voice input device, and
A response control unit that selects whether to repeat the voice by the voice output device based on the voice, and / or to display the confirmation response of the utterance content on the display device.
Voice operation server with.
音声入力装置に入力されたユーザの音声を認識したテキストデータから、ユーザの指示内容を認識する手順、
前記音声に基づいて、音声出力装置による復唱を行わせるか、または/および、表示装置に発話内容の確認応答を表示させるかを選択する手順、
を実行させるための音声操作プログラム。 On the computer
Procedure for recognizing the user's instruction content from the text data that recognizes the user's voice input to the voice input device,
A procedure for selecting whether to repeat the voice by the voice output device or / and display the confirmation response of the utterance content on the display device based on the voice.
A voice operation program for executing.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019222362A JP2021092924A (en) | 2019-12-09 | 2019-12-09 | Voice operating system, image forming device, voice operating method, voice operating server, and voice operating program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019222362A JP2021092924A (en) | 2019-12-09 | 2019-12-09 | Voice operating system, image forming device, voice operating method, voice operating server, and voice operating program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021092924A true JP2021092924A (en) | 2021-06-17 |
Family
ID=76312422
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019222362A Pending JP2021092924A (en) | 2019-12-09 | 2019-12-09 | Voice operating system, image forming device, voice operating method, voice operating server, and voice operating program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021092924A (en) |
-
2019
- 2019-12-09 JP JP2019222362A patent/JP2021092924A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6253184B1 (en) | Interactive voice controlled copier apparatus | |
JP6819672B2 (en) | Information processing equipment, information processing methods, and programs | |
JP7342862B2 (en) | Information processing device, information processing method, and information processing system | |
CN104781782A (en) | Information processing apparatus, information processing method, and program | |
JP7194507B2 (en) | CONFERENCE SYSTEM, CONFERENCE SYSTEM CONTROL METHOD AND PROGRAM | |
KR20150128386A (en) | display apparatus and method for performing videotelephony using the same | |
JP2002149302A (en) | Interface device and recording medium with interface processing program recorded | |
JP2018034389A (en) | Information processing device, information processing system, and program | |
JP6832503B2 (en) | Information presentation method, information presentation program and information presentation system | |
US20200366800A1 (en) | Apparatus | |
JP2021092924A (en) | Voice operating system, image forming device, voice operating method, voice operating server, and voice operating program | |
JP2023098875A (en) | Picture display device | |
US11170754B2 (en) | Information processor, information processing method, and program | |
JP2009060220A (en) | Communication system and communication program | |
WO2019142420A1 (en) | Information processing device and information processing method | |
JP2981179B2 (en) | Portable information transmission device | |
JP5554110B2 (en) | Document processing method and document processing system | |
JP7383885B2 (en) | Information processing device and program | |
JP7471979B2 (en) | Meeting Support System | |
JP7208740B2 (en) | Information processing device and program | |
JP2012248990A (en) | Electronic apparatus and video telephone method | |
JP7196662B2 (en) | Information processing device and program | |
WO2006106671A1 (en) | Image processing device, image display device, reception device, transmission device, communication system, image processing method, image processing program, and recording medium containing the image processing program | |
WO2023165844A1 (en) | Circuitry and method for visual speech processing | |
JP2006235040A (en) | Image forming apparatus, program, and recording medium |