JP2014203024A - Control device, image forming apparatus, terminal device, control method, and control program - Google Patents
Control device, image forming apparatus, terminal device, control method, and control program Download PDFInfo
- Publication number
- JP2014203024A JP2014203024A JP2013081052A JP2013081052A JP2014203024A JP 2014203024 A JP2014203024 A JP 2014203024A JP 2013081052 A JP2013081052 A JP 2013081052A JP 2013081052 A JP2013081052 A JP 2013081052A JP 2014203024 A JP2014203024 A JP 2014203024A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- signal
- forming apparatus
- image forming
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Facsimiles In General (AREA)
- Accessory Devices And Overall Control Thereof (AREA)
Abstract
Description
この発明は制御装置、画像形成装置、端末装置、制御方法、および制御プログラムに関し、特に、音声にて指示可能な画像形成装置の制御装置、画像形成装置、端末装置、制御方法、および制御プログラムに関する。 The present invention relates to a control device, an image forming device, a terminal device, a control method, and a control program, and more particularly to a control device, an image forming device, a terminal device, a control method, and a control program for an image forming device that can be instructed by voice. .
プリンターやファクシミリや、それらの複合機であるMFP(Multi-Functional Peripheral)などの画像形成装置に対する指示を音声にて行なう操作方法がある。一例として、画像形成装置がマイクを備え、そのマイクで入力した音声を音声認識機能を用いて認識してコマンドに変換し、画像形成処理が行なわれる。 There is an operation method in which an instruction is given by voice to an image forming apparatus such as a printer, a facsimile, or an MFP (Multi-Functional Peripheral) which is a complex machine of them. As an example, the image forming apparatus includes a microphone, and voice input through the microphone is recognized using a voice recognition function and converted into a command, and image forming processing is performed.
しかしながら、画像形成装置が設置されている環境等によっては、音声認識の精度が低下することがあるという問題があった。たとえば、画像形成装置が工場やイベント会場などの騒音の多い環境に設置されていたり、画像形成装置が音の伴う動作を行なっている最中であったりすると、画像形成を指示する音声と共にノイズが入力されて、音声認識の精度が低下してしまう。 However, depending on the environment in which the image forming apparatus is installed, there is a problem that the accuracy of voice recognition may decrease. For example, if the image forming apparatus is installed in a noisy environment such as a factory or an event venue, or if the image forming apparatus is in the middle of an operation with sound, noise is generated along with the sound for instructing image formation. As a result, the accuracy of voice recognition is reduced.
画像形成装置自体の発する音に関しては、特開2004−226489号公報(特許文献1)は、音声認識作業の要求を受け付けると印刷動作を中断することで音声認識率の低下を防ぐ技術を開示しているが、印刷中のジョブ処理を中断することから、作業効率が低下してしまうことになる。 Regarding the sound generated by the image forming apparatus itself, Japanese Patent Laying-Open No. 2004-226489 (Patent Document 1) discloses a technique for preventing a decrease in voice recognition rate by interrupting a printing operation when a request for voice recognition work is received. However, since the job processing during printing is interrupted, work efficiency is reduced.
本発明はこのような問題に鑑みてなされたものであって、音声にて操作可能な画像形成装置において、音声による指示の精度を容易に向上させることのできる制御装置、画像形成装置、端末装置、制御方法、および制御プログラムを提供することを目的としている。 The present invention has been made in view of such problems, and in an image forming apparatus that can be operated by voice, a control apparatus, an image forming apparatus, and a terminal device that can easily improve the accuracy of voice instructions. It is an object to provide a control method and a control program.
上記目的を達成するために、本発明のある局面に従うと、制御装置は画像形成装置の制御装置であって、画像形成装置に接続されたマイクから入力された音声を表わす第1の音声信号の入力を受け付けるための第1の音声入力手段と、端末装置と通信するための通信手段と、端末装置と通信して、端末装置に接続されたマイクから入力された音声を表わす第2の音声信号の入力を受け付けるための第2の音声入力手段と、音声信号に基づく音声認識を行なうための音声認識手段と、音声認識手段での認識結果に関連付けられている画像処理を特定して、画像形成装置に画像処理を実行するよう制御するための制御手段と、制御手段が、第1の音声信号に基づく音声認識の結果を用いて画像形成装置を制御するか、第2の音声信号に基づく音声認識の結果を用いて画像形成装置を制御するか、を判断するための判断手段とを備える。制御手段は、第1の音声信号に基づく音声認識が成功の場合には第1の音声信号に基づく音声認識の結果を用いて画像形成装置を制御し、不成功の場合には第2の音声信号に基づく音声認識の結果を用いて画像形成装置を制御する。 In order to achieve the above object, according to one aspect of the present invention, the control device is a control device for an image forming apparatus, and the first sound signal representing sound input from a microphone connected to the image forming apparatus. A first voice input means for receiving an input; a communication means for communicating with the terminal apparatus; and a second voice signal that communicates with the terminal apparatus and represents the voice input from a microphone connected to the terminal apparatus. The second voice input means for receiving the input of the voice, the voice recognition means for performing voice recognition based on the voice signal, and the image processing associated with the recognition result by the voice recognition means, Control means for controlling the apparatus to perform image processing; and the control means controls the image forming apparatus using a result of voice recognition based on the first voice signal, or voice based on the second voice signal. And a determination means for determining, for controlling the image forming apparatus using the result of identification. The control means controls the image forming apparatus using the result of the voice recognition based on the first voice signal when the voice recognition based on the first voice signal is successful, and the second voice when the voice recognition based on the first voice signal is not successful. The image forming apparatus is controlled using the result of the speech recognition based on the signal.
好ましくは、判断手段は、さらに、音声認識手段での第1の音声信号に基づく音声認識に先だって、第1の音声信号に基づく音声認識の実行の適否を判断する。第1の音声信号に基づく音声認識の実行が適切でないと判断された場合に、制御手段は第2の音声信号に基づく音声認識の結果を用いて画像形成装置を制御する。 Preferably, the determination unit further determines whether or not the voice recognition based on the first voice signal is appropriate prior to the voice recognition based on the first voice signal by the voice recognition unit. When it is determined that the speech recognition based on the first speech signal is not appropriate, the control unit controls the image forming apparatus using the speech recognition result based on the second speech signal.
より好ましくは、判断手段は、第1の音声信号に含まれるノイズが規定量以上であるか否かを判断することで第1の音声信号に基づく音声認識の実行の適否を判断する。 More preferably, the determination unit determines whether or not the speech recognition based on the first voice signal is appropriate by determining whether or not the noise included in the first voice signal is equal to or greater than a predetermined amount.
好ましくは、判断手段は、画像形成装置に備えられるマイクで音声入力を受け付ける際に画像形成装置で実行中の画像処理に基づいて第1の音声信号に基づく音声認識の実行の適否を判断する。 Preferably, the determination unit determines whether sound recognition based on the first sound signal is appropriate based on image processing being executed in the image forming apparatus when receiving a sound input with a microphone provided in the image forming apparatus.
好ましくは、判断手段が、制御手段が第2の音声信号に基づく音声認識の結果を用いて画像形成装置を制御すると判断した場合、通信手段は端末装置との通信を確立して、第2の音声入力手段が第2の音声信号の入力を受け付ける。 Preferably, when the determination unit determines that the control unit controls the image forming apparatus using the result of the voice recognition based on the second audio signal, the communication unit establishes communication with the terminal device, and the second unit The voice input means receives the input of the second voice signal.
好ましくは、判断手段は、制御手段が第2の音声信号に基づく音声認識の結果を用いて画像形成装置を制御すると判断した場合、さらに、第2の音声信号に含まれるノイズが規定量以上であるか否かを判断し、通信手段は、第2の音声信号に含まれるノイズが規定量以上であった場合に、予め記憶しているメッセージを端末装置に対して送信する。 Preferably, when the determination unit determines that the control unit controls the image forming apparatus using the result of the voice recognition based on the second audio signal, the noise included in the second audio signal is more than a predetermined amount. The communication means transmits a message stored in advance to the terminal device when the noise included in the second audio signal is equal to or greater than a predetermined amount.
本発明の他の局面に従うと、画像形成装置は、接続されたマイクから入力された音声を表わす第1の音声信号の入力を受け付けるための第1の音声入力手段と、端末装置と通信するための通信手段と、端末装置と通信して、端末装置に接続されたマイクから入力された音声を表わす第2の音声信号の入力を受け付けるための第2の音声入力手段と、音声信号に基づく音声認識を行なうための音声認識手段と、音声認識手段での認識結果に関連付けられている画像処理を特定して、特定された画像処理を実行するための実行手段と、実行手段が、第1の音声信号に基づく音声認識の結果から特定される画像処理を実行するか、第2の音声信号に基づく音声認識の結果から特定される画像処理を実行するか、を判断するための判断手段とを備える。実行手段は、第1の音声信号に基づく音声認識が成功の場合には第1の音声信号に基づく音声認識の結果から特定される画像処理を実行し、不成功の場合には第2の音声信号に基づく音声認識の結果から特定される画像処理を実行する。 According to another aspect of the present invention, the image forming apparatus communicates with the terminal device and a first sound input means for receiving an input of a first sound signal representing a sound input from a connected microphone. Communication means, a second voice input means for communicating with the terminal device and receiving a second voice signal representing voice inputted from a microphone connected to the terminal device, and voice based on the voice signal A voice recognition unit for performing recognition, an execution unit for specifying the image processing associated with the recognition result of the voice recognition unit, and executing the specified image processing; Determining means for determining whether to perform image processing specified from a result of speech recognition based on a speech signal or to perform image processing specified from a result of speech recognition based on a second speech signal; PrepareThe execution means executes the image processing specified from the result of the voice recognition based on the first voice signal when the voice recognition based on the first voice signal is successful, and the second voice if not successful The image processing specified from the result of speech recognition based on the signal is executed.
本発明のさらに他の局面に従うと、端末装置は画像形成装置と通信可能な端末装置であって、接続されたマイクから入力された音声を表わす音声信号に基づく音声認識を行なうための音声認識手段と、音声認識手段での認識結果に関連付けられている画像処理を特定して、画像形成装置に画像処理を実行するよう制御信号を出力するための制御手段とを備える。 According to still another aspect of the present invention, the terminal device is a terminal device capable of communicating with the image forming apparatus, and is a voice recognition means for performing voice recognition based on a voice signal representing a voice input from a connected microphone. And control means for specifying the image processing associated with the recognition result of the voice recognition means and outputting a control signal to the image forming apparatus to execute the image processing.
好ましくは、端末装置は、画像形成装置と通信し、画像形成装置に接続されたマイクから入力された音声を表わす第1の音声信号の入力を受け付けるための音声入力手段と、端末装置に接続されたマイクから入力された音声を表わす音声信号を第2の音声信号として、制御手段が、第1の音声信号に基づく音声認識の結果を用いて画像形成装置を制御するか、第2の音声信号に基づく音声認識の結果を用いて画像形成装置を制御するか、を判断するための判断手段とをさらに備える。制御手段は、第1の音声信号に基づく音声認識が成功の場合には第1の音声信号に基づく音声認識の結果を用いて画像形成装置を制御し、不成功の場合には第2の音声信号に基づく音声認識の結果を用いて画像形成装置を制御する。 Preferably, the terminal device communicates with the image forming apparatus and is connected to the terminal device and a voice input means for receiving an input of a first voice signal representing a voice inputted from a microphone connected to the image forming apparatus. The control means controls the image forming apparatus using the result of voice recognition based on the first voice signal, or the second voice signal, with the voice signal representing the voice input from the microphone as the second voice signal. And a determination means for determining whether to control the image forming apparatus using the result of voice recognition based on the above. The control means controls the image forming apparatus using the result of the voice recognition based on the first voice signal when the voice recognition based on the first voice signal is successful, and the second voice when the voice recognition based on the first voice signal is not successful. The image forming apparatus is controlled using the result of the speech recognition based on the signal.
本発明のさらに他の局面に従うと、制御方法は音声を用いた画像形成装置の制御方法であって、画像形成装置に接続されたマイクから入力された音声を表わす第1の音声信号の入力を受け付けるステップと、第1の音声信号に基づく音声認識を行なうステップと、第1の音声信号に基づく音声認識が成功の場合に、第1の音声信号に基づく音声認識の結果に関連付けられている画像処理を特定して、画像形成装置に画像処理を実行させるステップと、第1の音声信号に基づく音声認識が不成功の場合に、端末装置に接続されたマイクから入力された音声を表わす第2の音声信号の入力を受け付けるステップと、第2の音声信号に基づく音声認識を行なうステップと、第2の音声信号に基づく音声認識の結果に関連付けられている画像処理を特定して、画像形成装置に画像処理を実行させるステップとを備える。 According to still another aspect of the present invention, the control method is a control method for an image forming apparatus using sound, and the first sound signal representing the sound input from the microphone connected to the image forming apparatus is input. An image associated with the result of the speech recognition based on the first speech signal when the step of accepting, the step of performing speech recognition based on the first speech signal, and the speech recognition based on the first speech signal are successful Specifying the processing and causing the image forming apparatus to execute the image processing; and a second representing the voice input from the microphone connected to the terminal device when voice recognition based on the first voice signal is unsuccessful Receiving a voice signal input, performing voice recognition based on the second voice signal, and image processing associated with the result of voice recognition based on the second voice signal. To, and a step of executing image processing on the image forming apparatus.
本発明のさらに他の局面に従うと、制御プログラムはコンピューターに画像形成装置の制御を行なわせるためのプログラムであって、画像形成装置に接続されたマイクから入力された音声を表わす第1の音声信号の入力を受け付けるステップと、第1の音声信号に基づく音声認識を行なうステップと、第1の音声信号に基づく音声認識が成功の場合に、第1の音声信号に基づく音声認識の結果に関連付けられている画像処理を特定して、画像形成装置に画像処理を実行させるステップと、第1の音声信号に基づく音声認識が不成功の場合に、端末装置と通信して、端末装置に接続されたマイクから入力された音声を表わす第2の音声信号の入力を受け付けるステップと、第2の音声信号に基づく音声認識を行なうステップと、第2の音声信号に基づく音声認識の結果に関連付けられている画像処理を特定して、画像形成装置に画像処理を実行させるステップとをコンピューターに実行させる。 According to still another aspect of the present invention, the control program is a program for causing a computer to control the image forming apparatus, and is a first sound signal representing sound input from a microphone connected to the image forming apparatus. When the voice recognition based on the first voice signal is successful, and the voice recognition based on the first voice signal is associated with the result of the voice recognition based on the first voice signal. The image forming apparatus is identified and the image forming apparatus executes the image processing, and when the voice recognition based on the first audio signal is unsuccessful, the terminal apparatus communicates with and is connected to the terminal apparatus. A step of receiving an input of a second voice signal representing a voice inputted from a microphone, a step of performing voice recognition based on the second voice signal, and a second voice signal Based identifies the image processing associated with the result of speech recognition, and a step of executing image processing on the image forming apparatus to the computer.
本発明のさらに他の局面に従うと、制御プログラムはコンピューターに端末装置の制御を行なわせるためのプログラムであって、端末装置に接続されたマイクから入力された音声を表わす音声信号の入力を受け付けるステップと、音声信号に基づく音声認識を行なうステップと、音声認識の結果に関連付けられている画像処理を特定して、画像形成装置に画像処理を実行するよう制御信号を出力するステップとをコンピューターに実行させる。 According to still another aspect of the present invention, the control program is a program for causing a computer to control the terminal device, and accepts an input of an audio signal representing audio input from a microphone connected to the terminal device. And a step of performing voice recognition based on the voice signal and a step of identifying the image processing associated with the result of the voice recognition and outputting a control signal to the image forming apparatus to perform the image processing. Let
好ましくは、制御プログラムは、画像形成装置と通信し、画像形成装置に接続されたマイクから入力された音声を表わす第1の音声信号の入力を受け付けるステップと、端末装置に接続されたマイクから入力された音声を表わす音声信号を第2の音声信号として、第1の音声信号に基づく音声認識の結果を用いて画像形成装置を制御するか、第2の音声信号に基づく音声認識の結果を用いて画像形成装置を制御するか、を判断するステップとをさらにコンピューターに実行させ、制御信号を出力するステップでは、第1の音声信号に基づく音声認識が成功の場合には第1の音声信号に基づく音声認識の結果を用いて画像形成装置を制御し、不成功の場合には第2の音声信号に基づく音声認識の結果を用いて画像形成装置を制御する。 Preferably, the control program communicates with the image forming apparatus, accepts an input of a first audio signal representing a sound input from a microphone connected to the image forming apparatus, and is input from a microphone connected to the terminal apparatus. The image forming apparatus is controlled by using the result of speech recognition based on the first speech signal, or the result of speech recognition based on the second speech signal is used as the second speech signal. Determining whether to control the image forming apparatus, and causing the computer to execute a control signal and outputting the control signal to the first voice signal when the voice recognition based on the first voice signal is successful. The image forming apparatus is controlled using the result of the speech recognition based on the voice recognition, and the image forming apparatus is controlled using the result of the voice recognition based on the second voice signal when the result is unsuccessful.
この発明によると、音声にて操作可能な画像形成装置において、音声による指示の精度を容易に向上させることができる。 According to the present invention, in an image forming apparatus that can be operated by voice, the accuracy of voice instructions can be easily improved.
以下に、図面を参照しつつ、本発明の実施の形態について説明する。以下の説明では、同一の部品および構成要素には同一の符号を付してある。それらの名称および機能も同じである。したがって、これらの説明は繰り返さない。 Embodiments of the present invention will be described below with reference to the drawings. In the following description, the same parts and components are denoted by the same reference numerals. Their names and functions are also the same. Therefore, these descriptions will not be repeated.
<システム構成>
図1は、本実施の形態にかかる画像処理システムの構成の具体例を示す図である。
<System configuration>
FIG. 1 is a diagram showing a specific example of the configuration of the image processing system according to the present embodiment.
図1を参照して、本実施の形態にかかる画像処理システムは、画像形成装置の一例としてのMFP(Multi-Function Peripheral)100と、端末装置の一例としての端末装置300とを含む。これらは、LAN(Local Area Network)などのネットワークで接続されている。画像処理システムは、図示されたように、さらにサーバー500を含んでもよい。
Referring to FIG. 1, the image processing system according to the present embodiment includes an MFP (Multi-Function Peripheral) 100 as an example of an image forming apparatus and a
ネットワークは有線であっても無線であってもよい。一例として、図1に示されるように、MFP100とサーバー500とが有線LANに接続され、端末装置300が無線で接続されている例が挙げられる。
The network may be wired or wireless. As an example, as illustrated in FIG. 1, an example in which the
MFP100は、画像形成機能を実現するための構成と、音声入力を受け付ける機能を実現するための構成としての音声入力装置(マイク)とを含む(図2)。本実施の形態にかかる画像処理システムに含まれる画像形成装置は、少なくともこれら機能を有するものであればMFPに限定されない。なお、音声入力を受け付ける機能を実現するための構成は、音声入力装置に限定されず、接続された音声入力装置から入力される音声信号を処理する処理装置も含む。後述する端末装置300でも同様である。
端末装置300は、携帯電話機や、スマートフォンなどと言われる携帯端末などであってよい。端末装置300は、音声入力を受け付ける機能を実現するための構成としての音声入力装置(マイク)と、情報を出力する機能を実現するための構成として表示装置(タッチパネル)や音声出力装置(スピーカー)とを含む(図3)。本実施の形態にかかる画像処理システムに含まれる端末装置は、少なくともこれら機能を有し、ユーザーが持ち運び可能なサイズであればどのような装置であってもよい。
The
<MFPの構成>
図2は、MFP100のハードウェア構成の具体例を示す図である。
<Configuration of MFP>
FIG. 2 is a diagram illustrating a specific example of the hardware configuration of the
図2を参照して、MFP100は、MFP100の制御装置として機能する演算装置であるCPU(Central Processing Unit)10と、メモリーとしての、CPU10で実行されるプログラムなどを記憶するためのROM(Read Only Memory)11、CPU10でプログラムを実行する際の作業領域として機能するためのRAM(Random Access Memory)12、および画像データーなどを保存するためのHD(ハードディスク)16と、図示しない原稿台に載置された原稿を光学的に読み取って画像データーを得るためのスキャナー13と、画像データーを印刷用紙上に固定するためのプリンター14と、表示装置および入力装置である操作パネル15と、上記ネットワークを介した通信を制御するためのネットワークコントローラー17と、マイク18とを含む。
Referring to FIG. 2,
操作パネル15は、図示しないタッチパネルと操作キー群とを含む。タッチパネルは、液晶表示装置などの表示装置と光学式タッチパネルや静電容量タッチパネルなどの位置指示装置とが重なって構成され、操作画面を表示して、その操作画面上の指示位置を特定する。CPU10は予め記憶されている画面表示をさせるためのデーターに基づいてタッチパネルに操作画面を表示させる。
The
特定されたタッチパネル上での指示位置(タッチされた位置)や、押下されたキーを示す操作信号はCPU10に入力される。CPU10は押下されたキー、または表示している操作画面と指示位置とから操作内容を特定し、それに基づいて処理を実行する。
The specified position (touched position) on the touch panel and the operation signal indicating the pressed key are input to the
<端末装置の構成>
図3は、端末装置300のハードウェア構成の具体例を示す図である。
<Configuration of terminal device>
FIG. 3 is a diagram illustrating a specific example of the hardware configuration of the
図3を参照して、端末装置300は、全体を制御するための演算装置であるCPU30と、メモリーとしての、CPU30で実行されるプログラムなどを記憶するためのROM31、およびCPU30でプログラムを実行する際の作業領域として機能するためのRAM32と、マイク33と、スピーカー34と、表示装置および入力装置であるタッチパネル35と、上記ネットワークを介した通信を制御するためネットワークコントローラー36とを含む。
Referring to FIG. 3,
端末装置300は、上述のように携帯電話機やスマートフォンなどのような電話機能を有する場合には、図3の装置構成に加えて、電話機能を実現するための構成をさらに含む。
When the
<サーバーの構成>
サーバー500は、パーソナルコンピューター等の、通常のコンピューターで実現することができる。そのため、そのハードウェア構成は、通常のコンピューターのハードウェア構成と同様とすることができる。そこで、ここでは、その構成の詳細な説明は行なわない。
<Server configuration>
The
<動作概要>
ユーザーは、本実施の形態にかかる画像処理システムを用いてMFP100に画像処理を実行させる際に、音声で指示する。すなわち、第1のステップとして、ユーザーは、MFP100に対して「コピー開始」などと音声で指示する。MFP100は、入力された「コピー開始」の音声に従って画像処理を実行する。
<Overview of operation>
The user gives a voice instruction when causing the
MFP100が工場やイベント会場などの騒音の多い環境に設置されていたり、MFP100が音の伴う動作を行なっている最中であったりすると、「コピー開始」の音声と共にノイズが入力されることがある。ノイズによって「コピー開始」の音声が適切に認識されないと、MFP100は、ユーザーの指示した画像処理を実行しない。
When the
そこで、本実施の形態にかかる画像処理システムでは、MFP100以外の他の装置である端末装置300でも音声の入力を受け付ける。MFP100で入力を受け付けた音声を第1の音声(第1の音声信号)とし、端末装置300で入力を受け付けた音声を第2の音声(第2の音声信号)とする。詳しくは、本実施の形態にかかる画像処理システムは、MFP100に入力された第1の音声の認識結果が画像処理の指示として適切でない場合には音声認識が不成功であったものとする。このとき、画像処理システムは、第2の音声を入力可能な状態として第2の音声の入力を受け付ける。そして、MFP100は、第2の音声に従って画像処理を実行する。
Therefore, in the image processing system according to the present embodiment, the
上記の動作を行なうため、本実施の形態にかかる画像処理システムは音声認識機能を備える。一例として、サーバー500が音声認識機能を含む。もちろん、サーバー500に替ってMFP100が、または、端末装置300が、音声認識機能を含んでもよい。
In order to perform the above operation, the image processing system according to the present embodiment includes a voice recognition function. As an example, the
図4は、画像処理システムでの動作概要を表わした図である。図4を参照して、MFP100は、マイク18で音声(第1の音声)の入力を受け付けると(ステップS1)、その音声を表わす音声信号(第1の音声信号)をサーバー500に送信する(ステップS2)。サーバー500は、第1の音声信号に基づく音声識別を実行し(ステップS3)、音声認識の結果をMFP100に返す(ステップS4)。サーバー500は、上記ステップS3で一例として音声をテキストに変換し、ステップS4で音声認識の結果として上記テキストをMFP100に送信する。
FIG. 4 is a diagram showing an outline of the operation in the image processing system. Referring to FIG. 4, when
MFP100は、第1の音声信号に基づく音声識別の結果(上記テキスト)を用いて画像処理を実行するか、端末装置300で入力を受け付けた音声を表わす第2の音声信号に基づく音声識別の結果を用いて画像処理を実行するかを判断する(ステップS5)。MFP100は、予め、実行可能な画像処理について、その画像処理を実行させるためのコマンドに関連付けてキーワードを記憶しておく。たとえば、MFP100は、画像処理であるコピー処理を実行させるためのコマンドに関連付けて、「コピー開始」、「コピー実行」、「コピースタート」、「複写開始」、などのキーワードを記憶しておく。MFP100は、上記ステップS5で、受信したテキストが記憶しているキーワードと一致するか否かを検索する。一致するキーワードがあった場合、MFP100は、音声認識が成功と判断する。そして、この場合、MFP100は、第1の音声信号に基づく音声識別の結果(上記テキスト)を用いて画像処理を実行すると判断する。
上記ステップS5で、受信したテキストと一致するキーワードがなかった場合、MFP100は、音声認識が不成功と判断する。そして、この場合、MFP100は、第2の音声信号に基づく音声識別の結果(端末装置300で受け付けた音声の認識結果)を用いて画像処理を実行すると判断する。好ましくは、MFP100は、音声認識が不成功と判断すると、再度、マイク18で音声(第1の音声)の入力を受け付ける。そして、好ましくは、MFP100は、予め規定された回数、音声認識が不成功であった場合に、第2の音声信号に基づく音声識別の結果(端末装置300で受け付けた音声の認識結果)を用いて画像処理を実行すると判断する。
If there is no keyword that matches the received text in step S5,
第2の音声信号に基づく音声識別の結果を用いて画像処理を実行すると判断すると、MFP100は、自動的に端末装置300との間の通信を確立する(ステップS6)。このとき、MFP100は、マイク18が音声入力を受け付けない状態となるようにマイク18をOFFとしてもよいし、マイク18は音声入力を受け付け可能な状態としたままでマイク18からの音声信号を処理しないようにしてもよい。
If it is determined that the image processing is to be executed using the result of the voice identification based on the second voice signal, the
上記ステップS6で、詳しくは、MFP100は、端末装置300に対する通信を開始して、端末装置300からの音声信号の送信を待機する。MFP100から端末装置300に対する通信は、上記ネットワークを介して端末装置300に対して信号(リクエスト)を送信することであってもよいし、双方が電話機能を有する場合には、MFP100から端末装置300に対して架電することであってもよい。MFP100から端末装置300に対する通信は、好ましくは、端末装置300のユーザーに対して音声入力を促すメッセージを含む。このメッセージは音声であってもテキストであってもよい。たとえば、MFP100は端末装置300に対して「端末装置から、もう一度、音声で指示して下さい」などの音声データーを送信し、端末装置300のスピーカー34からこの音声が出力されてもよい。
Specifically, in step S <b> 6, the
なお、MFP100と端末装置300との間の通信の確立は、上記のように、MFP100から端末装置300に対して要求されることで確立するものの他、その逆も含む。たとえば、MFP100は、第2の音声信号に基づく音声識別の結果を用いて画像処理を実行すると、端末装置300に対して、「MFPに電話をかけてください」などの音声データーを送信して、通信を終了してもよい。そして、端末装置300からMFP100に対して架電することでMFP100と端末装置300との間の通信が確立してもよい。
As described above, establishment of communication between
端末装置300は、マイク33で音声(第2の音声)の入力を受け付けると(ステップS7)、その音声を表わす音声信号(第2の音声信号)をサーバー500に送信する(ステップS8)。サーバー500は、上記ステップS4と同様にして第2の音声信号に基づく音声識別を実行し(ステップS9)、音声認識の結果(テキスト)をMFP100に返す(ステップS10)。MFP100は、サーバー500から受信した、第2の音声信号に基づく音声識別の結果(端末装置300で受け付けた音声の認識結果)を用いて画像処理を実行する(ステップS11)。
When
なお、MFP100は、好ましくは、第2の音声信号に基づく音声識別の結果(端末装置300で受け付けた音声の認識結果)についても上記ステップS5と同様にして、この音声識別が成功か不成功かを判断する。そして、第2の音声信号に基づく音声識別が不成功と判断すると、MFP100は、再度、端末装置300から音声(第2の音声)の入力を受け付けるところから、処理を繰り返す。
<機能構成>
図5は、上記動作を行なうためのMFP100の機能構成の具体例を示すブロック図である。図5の各機能は、MFP100のCPU10がROM11に記憶されているプログラムを読み出して実行することで、主に、CPU10が実現するものである。しかしながら、少なくとも一部が、図2に表わされたハードウェア構成、または、図2には示されていない電気回路等のハードウェア構成によって実現されてもよい。
<Functional configuration>
FIG. 5 is a block diagram showing a specific example of a functional configuration of
図5を参照して、HD16は、画像処理を実行させるためのコマンドごとに関連付けられたキーワードを記憶するための記憶領域であるコマンド記憶部161を含む。
Referring to FIG. 5,
さらに図5を参照して、CPU10は、マイクから入力された音声を表わす第1の音声信号の入力を受け付けるための第1音声入力部101と、ネットワークコントローラー17を介して端末装置300と通信することでマイク33から入力された音声を表わす第2の音声信号の入力を受け付けるための第2音声入力部102と、音声信号に基づく音声認識を行なうための音声認識部103と、音声認識部103での認識結果に関連付けられている画像処理を特定するための特定部109を含み、画像処理を実行するようスキャナー13やプリンター14を制御するための制御部108と、制御部108が第1の音声信号に基づく音声認識の結果を用いて制御するか、第2の音声信号に基づく音声認識の結果を用いて制御するか、を判断するための判断部106と、判断部106で第2の音声信号に基づく音声認識の結果を用いて制御すると判断した場合に端末装置300との間の通信を確立するための通信部107とを含む。制御部108は、音声認識部103が第1の音声信号に基づく音声認識に成功した場合には第1の音声信号に基づく音声認識の結果を用いて画像処理を実行するようスキャナー13やプリンター14を制御し、不成功の場合には第2の音声信号に基づく音声認識の結果を用いて制御する。
Further, referring to FIG. 5,
図4に示されたように、サーバー500が音声認識機能を有し、MFP100がその音声認識機能を利用する場合には、音声認識部103は、入力した音声をサーバー500に送信するための送信部104と、サーバー500からその認識結果の入力を受け付けるための認識結果入力部105とを含む。MFP100が音声認識機能を備えて、その音声認識機能を利用する場合には、音声認識部103は、音声認識処理を行なう。
As shown in FIG. 4, when
<動作フロー>
図6および図7は、MFP100での動作の流れの具体例を表わしたフローチャートである。図6および図7のフローチャートに表わされた動作は、MFP100のCPU10がROM11に記憶されたプログラムをRAM12上に読み出して実行し、図5の各機能を発揮することによって実現される。
<Operation flow>
6 and 7 are flowcharts showing specific examples of the flow of operations in
図6を参照して、CPU10はユーザー認証に成功し(ステップS101でYES)、音声認識機能を用いてMFP100を制御するモードとすると(ステップS103でYES)、CPU10に接続されているマイク18をONにして、マイク18からの音声入力を有効にする。また、音声認識が不成功であった回数をカウントするためのカウンターを初期化する(ステップS105)。
Referring to FIG. 6,
CPU10は、マイク18から入力された音声を表わす第1の音声信号をサーバー500に送信し(ステップS107)、サーバー500からその音声の認識結果を受信する(ステップS109)。音声認識が成功の場合(ステップS111でYES)、すなわち、音声識別の結果であるテキストが画像処理を実行させるためのコマンドに関連付けて記憶しているいずれかのキーワードに一致した場合、CPU10は、音声認識機能を用いてMFP100を制御するモードをOFFとして、カウンターをリセットする(ステップS113)。そして、図7を参照して、CPU10は、第1の音声信号に基づく音声識別の結果(上記テキスト)を用いて画像処理を実行する。すなわち、第1の音声の認識結果であるテキストに関連付けられているコマンドに従って画像処理を実行する(ステップS137)。
CPU10 transmits the 1st audio | voice signal showing the audio | voice input from the
図6に戻って、第1の音声信号に基づく音声認識が不成功の場合(ステップS111でNO)、すなわち、音声識別の結果であるテキストが画像処理を実行させるためのコマンドに関連付けて記憶しているいずれのキーワードとも一致しない場合、CPU10は、音声認識が不成功であった回数をカウントするためのカウンターを1、インクリメントする(ステップS115)。音声認識が不成功であった回数が予め規定された所定回数に達していない場合には(ステップS117でNO)、CPU10は、音声認識が不成功であった旨を操作パネル15に表示してユーザーに報知すると共に、再入力を促す(ステップS119)。そして、CPU10は、音声の再入力を受け付けて、上記ステップS107からの動作を繰り返す。
Returning to FIG. 6, when the speech recognition based on the first speech signal is unsuccessful (NO in step S111), that is, the text that is the result of speech identification is stored in association with the command for executing the image processing. If none of the keywords matches, the
音声認識が不成功であった回数が所定回数に達すると(ステップS117でYES)、CPU10はカウンターをリセットした上で(ステップS121)、音声入力をマイク18での入力から端末装置300での入力に切り替える処理を行なう(ステップS123)。なお、CPU10は、カウンターをリセットする際に、マイク18をOFFにしてもよい。
When the number of times of unsuccessful voice recognition reaches a predetermined number (YES in step S117), the
図7を参照して、CPU10は、端末装置300から第2の音声信号の入力を受け付けると(ステップS125でYES)、第2の音声信号をサーバー500に送信し(ステップS127)、サーバー500からその音声の認識結果を受信する(ステップS129)。音声認識が成功の場合(ステップS131でYES)、すなわち、音声識別の結果であるテキストが画像処理を実行させるためのコマンドに関連付けて記憶しているいずれかのキーワードに一致した場合、CPU10は、第2の音声信号に基づく音声識別の結果(上記テキスト)を用いて画像処理を実行する。すなわち、第2の音声の認識結果であるテキストに関連付けられているコマンドに従って画像処理を実行する(ステップS137)。このとき、CPU10は、画像処理の実行に先だって端末装置300との通信を切断するようにしてもよいし、それ以降に端末装置300との通信を切断してもよい(ステップS135)。
Referring to FIG. 7, when receiving the input of the second audio signal from terminal device 300 (YES in step S125),
第2の音声信号に基づく音声認識が不成功の場合(ステップS131でNO)、すなわち、音声識別の結果であるテキストが画像処理を実行させるためのコマンドに関連付けて記憶しているいずれのキーワードとも一致しない場合、CPU10は、音声認識が不成功であった旨と音声の再入力を促すメッセージとを、端末装置300に対して送信する(ステップS133)。好ましくは、CPU10は、音声認識が不成功であった旨と音声の再入力を促すメッセージとを、音声ガイダンスとして端末装置300に対して送信する。そして、CPU10は、端末装置300から音声の再入力を受け付けて、上記ステップS127からの動作を繰り返す。
If speech recognition based on the second speech signal is unsuccessful (NO in step S131), that is, any keyword stored in association with a command for executing text processing on the text that is the result of speech identification If they do not match, the
なお、CPU10は、端末装置300から第2の音声信号の入力がなかった場合には(ステップS125でNO)、音声認識機能を用いてMFP100を制御するモードをOFFとして(ステップS139)、一連の動作を終了する。
If the second audio signal is not input from the terminal device 300 (NO in step S125), the
好ましくは、CPU10は、端末装置300からのユーザーの音声入力を受け付けるよりも以前の周囲の音をノイズとして、端末装置300のマイク33から取り込む。そして、CPU10は、そのノイズと予め記憶しているレベルとを比較する。周囲のノイズが規定量以上のノイズであると判断した場合には、CPU10は、好ましくは、「静かなところへ移動して下さい」などの予め記憶しているメッセージを端末装置300に対して送信する。これにより、第2の音声信号に基づく音声認識の精度を向上させることができる。なお、後述するように、上記のノイズのレベルは、ログインユーザーごとに登録されていてもよい。ユーザーの声質によっては、ノイズが多少あっても音声認識しやすかったり、ノイズが少なくても音声認識が難しかったりするためである。さらに、CPU10は、所定レベルをステップS111の音声識別の判断結果から学習するようにしてもよい。
Preferably, the
図8は、上記ステップS123での、音声入力を切り替える処理の具体例を表わしたフローチャートである。図8を参照して、CPU10は、メモリーに記憶されている電話帳などのユーザー情報に、ログインユーザーに関連付けられた端末装置300のアクセス情報(たとえば電話番号など)が含まれている場合(ステップS201でYES)、その電話番号宛に架電するなどして、端末装置300との間の通信を開始する(ステップS203)。その他の例として、CPU10は、自身のアクセス情報(URLや電話番号など)を記載したメールを端末装置300に送信してもよい。
FIG. 8 is a flowchart showing a specific example of the process of switching the voice input in step S123. Referring to FIG. 8,
なお、上記の通信開始に先立って、CPU10は、操作パネル15に「Aさんの端末装置090−****−****へ通信を開始します」などの通信開始の通知と、その可否を指示するための「OK」「NG」などのボタンとを表示して、ログインユーザーの指示を受け付けるようにしてもよい。そして、CPU10は、この画面において「OK」ボタンが押された場合に端末装置300に対する通信を開始するようにしてもよい。
Prior to the start of the communication, the
MFP100からの通信に対して端末装置300から応答があった場合(ステップS207でYES)、すなわち、たとえば、上記の端末装置300への架電に対して端末装置300のユーザーが応答したり、上記の端末装置300へのメールに記載されたアクセス情報に基づいて端末装置300からMFP100に対してアクセスがあったりした場合、CPU10は、音声入力を依頼するメッセージを端末装置300に対して送信する(ステップS209)。電話で通信する例の場合、CPU10は、音声ガイダンスを送信してもよい。URLなどへのアクセスであった場合、CPU10は、テキストデータを送信してもよい。そして、CPU10は、その依頼に応じた端末装置300から音声信号を受信する(ステップS211)。
When there is a response from the
なお、ログインユーザーに関連付けられた端末装置300のアクセス情報がユーザー情報に含まれていない場合(ステップS201でNO)、CPU10は、端末装置300のアクセス情報を取得するための処理を実行する(ステップS205)。ステップS205では、たとえば、CPU10は、操作パネル15に「Aさんの端末装置の電話番号を入力してください」などを表示して、アクセス情報の直接入力を受け付けるようにしてもよい。または、CPU10は、操作パネル15に「Aさんの端末装置からMFP***−***−****に電話をかけて下さい」などのMFP100のアクセス情報(たとえば電話番号)を含んだメッセージを表示してMFP100へのアクセスを促してもよい。この場合、CPU10は、この表示から所定時間内に受け付けた自身へのアクセスを端末装置300からのアクセスとみなして、その発信元を端末装置300のアクセス情報として記憶するようにすればよい。このとき、CPU10は、端末装置300からMFP100へのアクセスを利用して音声入力を受け付けるようにしてもよい。しかしながら、好ましくは、CPU10は、端末装置300からの通信を用いて通信を開始せずに、いったん、その通信を切断し、取得した端末装置300のアクセス情報に基づいて通信を開始するようにする。このようにすることで、端末装置300への通信の課金を抑えることができる。
If the access information of the
<実施の形態の効果>
本実施の形態にかかるMFP100が上記の制御を実行することで、音声認識機能を利用して画像処理を指示する際に、周囲の騒音やノイズなどでMFP100のマイク18からの音声信号に基づく音声認識が正しくできない場合に、ユーザーの携帯電話機などの端末装置300で入力された音声を利用することができる。これにより、ユーザーの利便性を損なうことなく音声認識機能を利用した画像処理の指示の精度を向上させることができる。
<Effect of Embodiment>
When the
<変形例>
より好ましくは、CPU10は、マイク18で入力された音声を表わす第1の音声信号に基づく音声認識に先だって、第1の音声信号に基づく音声認識の適否を判断する。そして、この音声認識が適切でないと判断した場合、CPU10は、端末装置300からの音声信号である第2音音声信号に基づく音声認識の結果を用いて画像処理を実行する。
<Modification>
More preferably, the
上記判断の第1の例として、CPU10は、マイク18で音声入力を受け付ける際に実行中の画像処理に基づいて上記判断を行なう。たとえば、マイク18で音声入力を受け付ける際にプリント処理を実行中(印刷中)であったり、フィニッシャー処理(ステープル処理等)の実行中であったり、BGMや効果音などの音声出力を伴う処理中であったりした、大きな音が発生するジョブを実行中であった場合には、音声認識が不成功となる可能性が高い。そこで、CPU10は、マイク18で音声入力を受け付ける際にこれらの画像処理中であった場合には、第1の音声信号に基づく音声認識が適切でないと判断する。このため、一例として、CPU10は、予め上記のような大きな音のする処理を伴うジョブの種類を記憶しておき、その処理に該当するか否かを判断することで上記の判断を行なう。
As a first example of the above determination, the
図9および図10は、変形例にかかるMFP100の動作の、第1の例を表わしたフローチャートである。図9および図10のフローチャートは、図6および図7のフローチャートのステップS103の処理の後にステップS104の判断およびステップS120の処理が加わったものである。すなわち、図9を参照して、変形例の第1の例で、CPU10は、音声認識機能を用いてMFP100を制御するモードとした後、マイク18で音声入力を受け付けるためにマイク18をONするのに先だって、実行中のジョブが上記したような予め記憶している、大きな音のする処理を伴うジョブの種類に該当するか否かを判断する(ステップS104)。そして、実行中のジョブがそのようなジョブの種類に該当する場合(ステップS104でYES)、CPU10は、第1の音声入力を受け付けることなく端末装置300での入力に切り替える処理を行なう(ステップS123)。このとき、好ましくは、CPU10は、操作パネル15に、端末装置300からの音声入力に切り替える旨を表示する(ステップS120)。このように表示することで、ログインユーザーは、マイク18からの音声入力を行なうことなく端末装置300を用いた音声入力にスムーズに切り替えることができる。
9 and 10 are flowcharts illustrating a first example of the operation of
上記判断の第2の例として、CPU10は、第1の音声信号に含まれるノイズが、予め記憶している規定量以上であるか否かを判断することで上記判断を行なう。マイク18からの音声入力に先だって周囲の音を表わすノイズが大きい場合、音声認識が不成功となる可能性が高い。そこで、CPU10は、マイク18で音声入力を受け付けるに先だって周囲の音を表わすノイズが所定レベル以上である場合には、第1の音声信号に基づく音声認識が適切でないと判断する。このため、CPU10は、予め、ノイズのしきい値となる上記の所定レベルを記憶しておく。なお、この所定レベルは、ログインユーザーごとに登録されていてもよい。ユーザーの声質によっては、ノイズが多少あっても音声認識しやすかったり、ノイズが少なくても音声認識が難しかったりするためである。さらに、CPU10は、所定レベルをステップS111の音声識別の判断結果から学習するようにしてもよい。
As a second example of the above determination, the
図11および図12は、変形例にかかるMFP100の動作の、第2の例を表わしたフローチャートである。図11および図12のフローチャートは、図6および図7のフローチャートのステップS105の処理の後にステップS106−1の処理、ステップS106−2の判断、およびステップS120の処理が加わったものである。すなわち、図11を参照して、変形例の第2の例で、CPU10は、ステップS105でマイク18をONすると、ユーザーからの音声入力を受け付けるよりも以前の周囲の音をノイズとして、マイク18から取り込む(ステップS106−1)。そして、CPU10は、ノイズと予め記憶しているレベルとを比較し、所定レベルよりも高いノイズが発生しているか否かを判断する(ステップS106−2)。
11 and 12 are flowcharts showing a second example of the operation of
ノイズが予め記憶している所定レベルよりも高い場合(ステップS106−2でYES)、CPU10は、第1の音声入力を受け付けることなく端末装置300での入力に切り替える処理を行なう(ステップS123)。このとき、好ましくは、CPU10は、操作パネル15に、端末装置300からの音声入力に切り替える旨を表示する(ステップS120)。このように表示することで、ログインユーザーは、マイク18からの音声入力を行なうことなく端末装置300を用いた音声入力にスムーズに切り替えることができる。
If the noise is higher than a predetermined level stored in advance (YES in step S106-2),
変形例にかかるMFP100が上記の制御を実行することで、音声認識機能を利用して、効率的に画像処理を指示することができる。
When
なお、上の例では、音声認識をサーバー500が行なうものとしている。しかしながら、音声認識は、上述したようにMFP100で行なってもよい。または、端末装置300が予め、MFP100に画像処理を実行させるためのコマンドに関連付けたキーワードを記憶しておき、マイク33で受け付けた音声を表わす音声信号に基づく音声認識を行なってその結果からコマンドを特定して、MFP100に対してコマンドを送信するようにしてもよい。
In the above example, it is assumed that the
また、端末装置300が上記のサーバー500の機能を含み、MFP100からの第1の音声信号に基づく音声認識の結果を用いてMFP100を制御するか、マイク33からの第2の音声信号に基づく音声認識の結果を用いてMFP100を制御するかを判断し、その結果に基づいてMFP100を制御するようにしてもよい。つまり、図5に表わされた各機能は、画像処理システムに含まれるいずれの装置が有していてもよい。
In addition, the
さらに、上述の動作をMFP100のCPU10、端末装置300のCPU30などに実行させるためのプログラムを提供することもできる。このようなプログラムは、コンピューターに付属するフレキシブルディスク、CD−ROM(Compact Disk-Read Only Memory)、ROM、RAMおよびメモリカードなどのコンピューター読取り可能な記録媒体にて記録させて、プログラム製品として提供することもできる。あるいは、コンピューターに内蔵するハードディスクなどの記録媒体にて記録させて、プログラムを提供することもできる。また、ネットワークを介したダウンロードによって、プログラムを提供することもできる。
Furthermore, a program for causing the
なお、本発明にかかるプログラムは、コンピューターのオペレーティングシステム(OS)の一部として提供されるプログラムモジュールのうち、必要なモジュールを所定の配列で所定のタイミングで呼出して処理を実行させるものであってもよい。その場合、プログラム自体には上記モジュールが含まれずOSと協働して処理が実行される。このようなモジュールを含まないプログラムも、本発明にかかるプログラムに含まれ得る。 A program according to the present invention is a program module that is provided as a part of an operating system (OS) of a computer and that executes necessary processes by calling necessary modules in a predetermined arrangement at a predetermined timing. Also good. In that case, the program itself does not include the module, and the process is executed in cooperation with the OS. A program that does not include such a module can also be included in the program according to the present invention.
また、本発明にかかるプログラムは他のプログラムの一部に組込まれて提供されるものであってもよい。その場合にも、プログラム自体には上記他のプログラムに含まれるモジュールが含まれず、他のプログラムと協働して処理が実行される。このような他のプログラムに組込まれたプログラムも、本発明にかかるプログラムに含まれ得る。 The program according to the present invention may be provided by being incorporated in a part of another program. Even in this case, the program itself does not include the module included in the other program, and the process is executed in cooperation with the other program. Such a program incorporated in another program can also be included in the program according to the present invention.
提供されるプログラム製品は、ハードディスクなどのプログラム格納部にインストールされて実行される。なお、プログラム製品は、プログラム自体と、プログラムが記録された記録媒体とを含む。 The provided program product is installed in a program storage unit such as a hard disk and executed. The program product includes the program itself and a recording medium on which the program is recorded.
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。 The embodiment disclosed this time should be considered as illustrative in all points and not restrictive. The scope of the present invention is defined by the terms of the claims, rather than the description above, and is intended to include any modifications within the scope and meaning equivalent to the terms of the claims.
10,30 CPU、11,31 ROM、12,32 RAM、13 スキャナー、14 プリンター、15 操作パネル、16 HD、17,36 ネットワークコントローラー、18,33 マイク、34 スピーカー、35 タッチパネル、300 端末装置、100 MFP、101 第1音声入力部、102 第2音声入力部、103 音声認識部、104 送信部、105 認識結果入力部、106 判断部、107 通信部、108 制御部、109 特定部、161 コマンド記憶部、500 サーバー。 10, 30 CPU, 11, 31 ROM, 12, 32 RAM, 13 Scanner, 14 Printer, 15 Operation panel, 16 HD, 17, 36 Network controller, 18, 33 Microphone, 34 Speaker, 35 Touch panel, 300 Terminal device, 100 MFP, 101 First voice input unit, 102 Second voice input unit, 103 Voice recognition unit, 104 Transmission unit, 105 Recognition result input unit, 106 Judgment unit, 107 Communication unit, 108 Control unit, 109 Identification unit, 161 Command storage Department, 500 servers.
Claims (13)
前記画像形成装置に接続されたマイクから入力された音声を表わす第1の音声信号の入力を受け付けるための第1の音声入力手段と、
端末装置と通信するための通信手段と、
前記端末装置と通信して、前記端末装置に接続されたマイクから入力された音声を表わす第2の音声信号の入力を受け付けるための第2の音声入力手段と、
音声信号に基づく音声認識を行なうための音声認識手段と、
前記音声認識手段での認識結果に関連付けられている画像処理を特定して、前記画像形成装置に前記画像処理を実行するよう制御するための制御手段と、
前記制御手段が、前記第1の音声信号に基づく音声認識の結果を用いて前記画像形成装置を制御するか、前記第2の音声信号に基づく音声認識の結果を用いて前記画像形成装置を制御するか、を判断するための判断手段とを備え、
前記制御手段は、前記第1の音声信号に基づく音声認識が成功の場合には前記第1の音声信号に基づく音声認識の結果を用いて前記画像形成装置を制御し、不成功の場合には前記第2の音声信号に基づく音声認識の結果を用いて前記画像形成装置を制御する、制御装置。 A control device for an image forming apparatus,
First audio input means for receiving input of a first audio signal representing audio input from a microphone connected to the image forming apparatus;
A communication means for communicating with the terminal device;
A second voice input means for communicating with the terminal device and receiving an input of a second voice signal representing a voice inputted from a microphone connected to the terminal device;
Speech recognition means for performing speech recognition based on a speech signal;
Control means for specifying image processing associated with a recognition result by the voice recognition means and controlling the image forming apparatus to execute the image processing;
The control unit controls the image forming apparatus using a voice recognition result based on the first voice signal, or controls the image forming apparatus using a voice recognition result based on the second voice signal. And a determination means for determining whether to
The control unit controls the image forming apparatus using a result of speech recognition based on the first speech signal when speech recognition based on the first speech signal is successful, and when unsuccessful. A control device that controls the image forming apparatus using a result of voice recognition based on the second voice signal.
前記第1の音声信号に基づく音声認識の実行が適切でないと判断された場合に、前記制御手段は前記第2の音声信号に基づく音声認識の結果を用いて前記画像形成装置を制御する、請求項1に記載の制御装置。 The determination means further determines whether or not the voice recognition based on the first voice signal is appropriate prior to the voice recognition based on the first voice signal in the voice recognition means,
The control means controls the image forming apparatus using a result of voice recognition based on the second voice signal when it is determined that voice recognition based on the first voice signal is not appropriate. Item 2. The control device according to Item 1.
前記通信手段は、前記第2の音声信号に含まれるノイズが前記規定量以上であった場合に、予め記憶しているメッセージを前記端末装置に対して送信する、請求項1〜5のいずれかに記載の制御装置。 When the determination unit determines that the control unit controls the image forming apparatus using the result of the voice recognition based on the second audio signal, the noise included in the second audio signal further includes a specified amount. Determine whether or not
The said communication means transmits the message memorize | stored beforehand with respect to the said terminal device, when the noise contained in a said 2nd audio | voice signal is more than the said predetermined amount, The any one of Claims 1-5 The control device described in 1.
端末装置と通信するための通信手段と、
前記端末装置と通信して、前記端末装置に接続されたマイクから入力された音声を表わす第2の音声信号の入力を受け付けるための第2の音声入力手段と、
音声信号に基づく音声認識を行なうための音声認識手段と、
前記音声認識手段での認識結果に関連付けられている画像処理を特定して、前記特定された前記画像処理を実行するための実行手段と、
前記実行手段が、前記第1の音声信号に基づく音声認識の結果から特定される前記画像処理を実行するか、前記第2の音声信号に基づく音声認識の結果から特定される前記画像処理を実行するか、を判断するための判断手段とを備え、
前記実行手段は、前記第1の音声信号に基づく音声認識が成功の場合には前記第1の音声信号に基づく音声認識の結果から特定される前記画像処理を実行し、不成功の場合には前記第2の音声信号に基づく音声認識の結果から特定される前記画像処理を実行する、画像形成装置。 First voice input means for receiving input of a first voice signal representing voice input from a connected microphone;
A communication means for communicating with the terminal device;
A second voice input means for communicating with the terminal device and receiving an input of a second voice signal representing a voice inputted from a microphone connected to the terminal device;
Speech recognition means for performing speech recognition based on a speech signal;
An execution unit for specifying the image processing associated with the recognition result by the voice recognition unit and executing the specified image processing;
The execution means executes the image processing specified from the result of speech recognition based on the first sound signal, or executes the image processing specified from the result of speech recognition based on the second sound signal. And a determination means for determining whether to
The execution means executes the image processing specified from the result of speech recognition based on the first speech signal when speech recognition based on the first speech signal is successful, and when unsuccessful. An image forming apparatus that executes the image processing specified from a result of voice recognition based on the second voice signal.
接続されたマイクから入力された音声を表わす音声信号に基づく音声認識を行なうための音声認識手段と、
前記音声認識手段での認識結果に関連付けられている画像処理を特定して、前記画像形成装置に前記画像処理を実行するよう制御信号を出力するための制御手段とを備える、端末装置。 A terminal device capable of communicating with an image forming apparatus,
Speech recognition means for performing speech recognition based on a speech signal representing speech input from a connected microphone;
A terminal device comprising: control means for specifying image processing associated with a recognition result by the voice recognition means and outputting a control signal to the image forming apparatus to execute the image processing.
前記端末装置に接続された前記マイクから入力された音声を表わす前記音声信号を第2の音声信号として、前記制御手段が、前記第1の音声信号に基づく音声認識の結果を用いて前記画像形成装置を制御するか、前記第2の音声信号に基づく音声認識の結果を用いて前記画像形成装置を制御するか、を判断するための判断手段とをさらに備え、
前記制御手段は、前記第1の音声信号に基づく音声認識が成功の場合には前記第1の音声信号に基づく音声認識の結果を用いて前記画像形成装置を制御し、不成功の場合には前記第2の音声信号に基づく音声認識の結果を用いて前記画像形成装置を制御する、請求項8に記載の端末装置。 Audio input means for communicating with the image forming apparatus and receiving an input of a first audio signal representing audio input from a microphone connected to the image forming apparatus;
The control unit uses the result of voice recognition based on the first voice signal as the second voice signal, the voice signal representing the voice input from the microphone connected to the terminal device as the image formation. Determination means for determining whether to control the apparatus or to control the image forming apparatus using a result of voice recognition based on the second voice signal;
The control unit controls the image forming apparatus using a result of speech recognition based on the first speech signal when speech recognition based on the first speech signal is successful, and when unsuccessful. The terminal device according to claim 8, wherein the image forming apparatus is controlled using a result of voice recognition based on the second voice signal.
前記画像形成装置に接続されたマイクから入力された音声を表わす第1の音声信号の入力を受け付けるステップと、
前記第1の音声信号に基づく音声認識を行なうステップと、
前記第1の音声信号に基づく音声認識が成功の場合に、前記第1の音声信号に基づく音声認識の結果に関連付けられている画像処理を特定して、前記画像形成装置に前記画像処理を実行させるステップと、
前記第1の音声信号に基づく音声認識が不成功の場合に、端末装置に接続されたマイクから入力された音声を表わす第2の音声信号の入力を受け付けるステップと、
前記第2の音声信号に基づく音声認識を行なうステップと、
前記第2の音声信号に基づく音声認識の結果に関連付けられている画像処理を特定して、前記画像形成装置に前記画像処理を実行させるステップとを備える、制御方法。 A control method of an image forming apparatus using sound,
Receiving an input of a first audio signal representing audio input from a microphone connected to the image forming apparatus;
Performing speech recognition based on the first speech signal;
When speech recognition based on the first speech signal is successful, the image processing associated with the result of speech recognition based on the first speech signal is identified and the image processing is executed on the image forming apparatus Step to
Receiving voice signal input from a microphone connected to a terminal device when voice recognition based on the first voice signal is unsuccessful;
Performing speech recognition based on the second speech signal;
And a step of specifying image processing associated with a result of speech recognition based on the second audio signal and causing the image forming apparatus to execute the image processing.
前記画像形成装置に接続されたマイクから入力された音声を表わす第1の音声信号の入力を受け付けるステップと、
前記第1の音声信号に基づく音声認識を行なうステップと、
前記第1の音声信号に基づく音声認識が成功の場合に、前記第1の音声信号に基づく音声認識の結果に関連付けられている画像処理を特定して、前記画像形成装置に前記画像処理を実行させるステップと、
前記第1の音声信号に基づく音声認識が不成功の場合に、端末装置と通信して、前記端末装置に接続されたマイクから入力された音声を表わす第2の音声信号の入力を受け付けるステップと、
前記第2の音声信号に基づく音声認識を行なうステップと、
前記第2の音声信号に基づく音声認識の結果に関連付けられている画像処理を特定して、前記画像形成装置に前記画像処理を実行させるステップとを前記コンピューターに実行させる、制御プログラム。 A program for causing a computer to control an image forming apparatus,
Receiving an input of a first audio signal representing audio input from a microphone connected to the image forming apparatus;
Performing speech recognition based on the first speech signal;
When speech recognition based on the first speech signal is successful, the image processing associated with the result of speech recognition based on the first speech signal is identified and the image processing is executed on the image forming apparatus Step to
A step of communicating with a terminal device when voice recognition based on the first voice signal is unsuccessful and receiving an input of a second voice signal representing a voice input from a microphone connected to the terminal device; ,
Performing speech recognition based on the second speech signal;
A control program for causing the computer to execute the step of specifying the image processing associated with the result of speech recognition based on the second audio signal and causing the image forming apparatus to execute the image processing.
前記端末装置に接続されたマイクから入力された音声を表わす音声信号の入力を受け付けるステップと、
前記音声信号に基づく音声認識を行なうステップと、
前記音声認識の結果に関連付けられている画像処理を特定して、画像形成装置に前記画像処理を実行するよう制御信号を出力するステップとを前記コンピューターに実行させる、制御プログラム。 A program for causing a computer to control a terminal device,
Receiving an input of an audio signal representing an audio input from a microphone connected to the terminal device;
Performing speech recognition based on the speech signal;
A control program for causing the computer to execute the step of identifying image processing associated with the result of the speech recognition and outputting a control signal to the image forming apparatus to execute the image processing.
前記端末装置に接続された前記マイクから入力された音声を表わす前記音声信号を第2の音声信号として、前記第1の音声信号に基づく音声認識の結果を用いて前記画像形成装置を制御するか、前記第2の音声信号に基づく音声認識の結果を用いて前記画像形成装置を制御するか、を判断するステップとをさらに前記コンピューターに実行させ、
前記制御信号を出力するステップでは、前記第1の音声信号に基づく音声認識が成功の場合には前記第1の音声信号に基づく音声認識の結果を用いて前記画像形成装置を制御し、不成功の場合には前記第2の音声信号に基づく音声認識の結果を用いて前記画像形成装置を制御する、請求項12に記載の制御プログラム。 Communicating with the image forming apparatus and receiving an input of a first audio signal representing an audio input from a microphone connected to the image forming apparatus;
Whether to control the image forming apparatus using a voice recognition result based on the first voice signal, with the voice signal representing the voice inputted from the microphone connected to the terminal device as a second voice signal. And causing the computer to further execute a step of determining whether to control the image forming apparatus using a result of speech recognition based on the second speech signal,
In the step of outputting the control signal, if the speech recognition based on the first speech signal is successful, the image forming apparatus is controlled using the speech recognition result based on the first speech signal, 13. The control program according to claim 12, wherein the image forming apparatus is controlled using a result of speech recognition based on the second speech signal.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013081052A JP6171511B2 (en) | 2013-04-09 | 2013-04-09 | Control device, image forming apparatus, portable terminal device, control method, and control program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013081052A JP6171511B2 (en) | 2013-04-09 | 2013-04-09 | Control device, image forming apparatus, portable terminal device, control method, and control program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014203024A true JP2014203024A (en) | 2014-10-27 |
JP6171511B2 JP6171511B2 (en) | 2017-08-02 |
Family
ID=52353472
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013081052A Expired - Fee Related JP6171511B2 (en) | 2013-04-09 | 2013-04-09 | Control device, image forming apparatus, portable terminal device, control method, and control program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6171511B2 (en) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107112017A (en) * | 2015-02-16 | 2017-08-29 | 三星电子株式会社 | Operate the electronic equipment and method of speech identifying function |
WO2018207483A1 (en) * | 2017-05-11 | 2018-11-15 | シャープ株式会社 | Information processing device, electronic apparatus, control method, and control program |
JP2019074608A (en) * | 2017-10-13 | 2019-05-16 | 京セラドキュメントソリューションズ株式会社 | Image formation apparatus |
JP2020012927A (en) * | 2018-07-17 | 2020-01-23 | コニカミノルタ株式会社 | Image forming device, instruction receiving method, and computer program |
JP2020092342A (en) * | 2018-12-06 | 2020-06-11 | コニカミノルタ株式会社 | Image processing system, image processing apparatus, and program |
JP2020122834A (en) * | 2019-01-29 | 2020-08-13 | コニカミノルタ株式会社 | Image forming device, image forming system, and control method of image forming device |
JP2020134903A (en) * | 2019-02-26 | 2020-08-31 | コニカミノルタ株式会社 | System, image formation device, method, and program |
JP2020177261A (en) * | 2019-04-15 | 2020-10-29 | コニカミノルタ株式会社 | Operation acceptance device, control method, image formation system, and program |
JP2021091182A (en) * | 2019-12-12 | 2021-06-17 | コニカミノルタ株式会社 | Image processing device and control method |
JP2021149455A (en) * | 2020-03-18 | 2021-09-27 | 富士フイルムビジネスイノベーション株式会社 | Information processing device and program |
US11249696B2 (en) | 2018-05-31 | 2022-02-15 | Hewlett-Packard Development Company, L.P. | Converting voice command into text code blocks that support printing services |
US11355106B2 (en) | 2018-03-30 | 2022-06-07 | Ricoh Company, Ltd. | Information processing apparatus, method of processing information and storage medium comprising dot per inch resolution for scan or copy |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04240897A (en) * | 1991-01-25 | 1992-08-28 | Clarion Co Ltd | Speech recognizer |
-
2013
- 2013-04-09 JP JP2013081052A patent/JP6171511B2/en not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04240897A (en) * | 1991-01-25 | 1992-08-28 | Clarion Co Ltd | Speech recognizer |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107112017B (en) * | 2015-02-16 | 2021-04-27 | 三星电子株式会社 | Electronic device and method for operating voice recognition function |
CN107112017A (en) * | 2015-02-16 | 2017-08-29 | 三星电子株式会社 | Operate the electronic equipment and method of speech identifying function |
WO2018207483A1 (en) * | 2017-05-11 | 2018-11-15 | シャープ株式会社 | Information processing device, electronic apparatus, control method, and control program |
JPWO2018207483A1 (en) * | 2017-05-11 | 2020-01-23 | シャープ株式会社 | Information processing apparatus, electronic device, control method, and control program |
JP2019074608A (en) * | 2017-10-13 | 2019-05-16 | 京セラドキュメントソリューションズ株式会社 | Image formation apparatus |
US11355106B2 (en) | 2018-03-30 | 2022-06-07 | Ricoh Company, Ltd. | Information processing apparatus, method of processing information and storage medium comprising dot per inch resolution for scan or copy |
US11249696B2 (en) | 2018-05-31 | 2022-02-15 | Hewlett-Packard Development Company, L.P. | Converting voice command into text code blocks that support printing services |
JP2020012927A (en) * | 2018-07-17 | 2020-01-23 | コニカミノルタ株式会社 | Image forming device, instruction receiving method, and computer program |
JP7139743B2 (en) | 2018-07-17 | 2022-09-21 | コニカミノルタ株式会社 | IMAGE FORMING APPARATUS, INSTRUCTION RECEIVING METHOD, AND COMPUTER PROGRAM |
JP2020092342A (en) * | 2018-12-06 | 2020-06-11 | コニカミノルタ株式会社 | Image processing system, image processing apparatus, and program |
JP7131350B2 (en) | 2018-12-06 | 2022-09-06 | コニカミノルタ株式会社 | Image processing system, image processing device and program |
JP2020122834A (en) * | 2019-01-29 | 2020-08-13 | コニカミノルタ株式会社 | Image forming device, image forming system, and control method of image forming device |
JP7346827B2 (en) | 2019-01-29 | 2023-09-20 | コニカミノルタ株式会社 | Image forming apparatus, image forming system, and method for controlling the image forming apparatus |
JP2020134903A (en) * | 2019-02-26 | 2020-08-31 | コニカミノルタ株式会社 | System, image formation device, method, and program |
JP2020177261A (en) * | 2019-04-15 | 2020-10-29 | コニカミノルタ株式会社 | Operation acceptance device, control method, image formation system, and program |
JP7275795B2 (en) | 2019-04-15 | 2023-05-18 | コニカミノルタ株式会社 | OPERATION RECEIVING DEVICE, CONTROL METHOD, IMAGE FORMING SYSTEM AND PROGRAM |
US11722609B2 (en) | 2019-04-15 | 2023-08-08 | Konica Minolta, Inc. | Operation receiving apparatus, control method, image forming system, and recording medium that perform print setting based on voice and manual operations |
JP2021091182A (en) * | 2019-12-12 | 2021-06-17 | コニカミノルタ株式会社 | Image processing device and control method |
JP2021149455A (en) * | 2020-03-18 | 2021-09-27 | 富士フイルムビジネスイノベーション株式会社 | Information processing device and program |
JP7409179B2 (en) | 2020-03-18 | 2024-01-09 | 富士フイルムビジネスイノベーション株式会社 | Information processing device and program |
Also Published As
Publication number | Publication date |
---|---|
JP6171511B2 (en) | 2017-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6171511B2 (en) | Control device, image forming apparatus, portable terminal device, control method, and control program | |
US11736629B2 (en) | Mobile terminal capable of instructing transmission of fax, image forming apparatus, methods of controlling mobile terminal and image forming apparatus, communication system, and storage medium | |
JP6115152B2 (en) | Information processing system, information processing apparatus, information processing terminal, and program | |
JP5708589B2 (en) | Image processing linkage system, image processing linkage method, portable terminal device, image processing device, and linkage program | |
US11159339B2 (en) | Information processing apparatus, method of processing information and storage medium | |
US11140284B2 (en) | Image forming system equipped with interactive agent function, method of controlling same, and storage medium | |
JP6172074B2 (en) | Print system, print server, print control method, and print control program | |
JP2017010109A (en) | Mobile terminal device, image processing apparatus, system, information processing method, and program | |
KR102138228B1 (en) | Information processing apparatus, control method for information processing apparatus, and program | |
EP3291115B1 (en) | Information processing apparatus, information processing system, information processing method, and computer readable data carrier to assist visually impaired people | |
US10324669B2 (en) | Electronic apparatus providing voice assistance based on user information | |
JP2018125608A (en) | Image processing device, program of image processing device, and image processing system | |
JP2020012927A (en) | Image forming device, instruction receiving method, and computer program | |
US11789684B2 (en) | Information processing system, information processing device, image forming device, and control method therefor, and storage medium for displaying information | |
KR101450188B1 (en) | Apparatus and method for voice control in portable communication system | |
JP6123703B2 (en) | Information processing program and information processing apparatus | |
JP2020187663A (en) | Device | |
CN108370609B9 (en) | Communication apparatus and control method of communication apparatus | |
JP2016001282A (en) | Karaoke system, portable information processing device, and program | |
CN113726978A (en) | Printing system, method of controlling printing system, terminal device, and storage medium | |
US9294653B2 (en) | Image transmission apparatus, image transmission system, and non-transitory computer readable medium, and image transmission method | |
US20240064244A1 (en) | Information processing apparatus, image forming apparatus, information processing method, and storage medium | |
EP4161044A1 (en) | Data processing device, image forming device, control method therefor, computer program, and non-transitory computer-readable storage medium | |
JP7375369B2 (en) | image forming system | |
US20230109068A1 (en) | Information processing system and control method for controlling information processing system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20151221 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170118 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170131 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170331 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170606 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170619 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6171511 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |