JP2021091182A - 画像処理装置及び制御方法 - Google Patents

画像処理装置及び制御方法 Download PDF

Info

Publication number
JP2021091182A
JP2021091182A JP2019224219A JP2019224219A JP2021091182A JP 2021091182 A JP2021091182 A JP 2021091182A JP 2019224219 A JP2019224219 A JP 2019224219A JP 2019224219 A JP2019224219 A JP 2019224219A JP 2021091182 A JP2021091182 A JP 2021091182A
Authority
JP
Japan
Prior art keywords
voice
job
command
user
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019224219A
Other languages
English (en)
Inventor
小巻 由夫
Yoshio Komaki
由夫 小巻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2019224219A priority Critical patent/JP2021091182A/ja
Publication of JP2021091182A publication Critical patent/JP2021091182A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Facsimiles In General (AREA)
  • Accessory Devices And Overall Control Thereof (AREA)

Abstract

【課題】 早期に音声認識結果を取得して、実行中のジョブを停止させる画像処理装置を提供する。【解決手段】 利用者の音声指示に従ってジョブを実行する画像形成装置は、サーバー装置において利用者の音声に音声認識処理を施して生成した実行コマンドを受信する受信処理部115、利用者から音声の入力を受け付けるマイクロホン17、マイクロホン17により受け付けた音声に音声認識処理を施して停止コマンドを生成する専用音声操作部125及び停止コマンドにより、実行コマンドに基づき実行中のジョブを停止させるジョブ制御部122を備える。【選択図】図2

Description

本開示は、画像処理装置において、利用者の音声指示に従って生成されたコマンドによってジョブを実行する技術に関する。
近年、画像処理装置は、音声入力機能及び音声認識機能を備え、利用者の音声を認識することにより、音声による指示を受け付けるようになってきている(特許文献1、2)。
また、特許文献3には、クライアントとサーバーとからなる音声認識システムが開示されている。音声入力をクライアントで行い、クライアントで得た音声データをサーバーに送り、音声認識をサーバーで行なう。
特開2017−32844号公報 特開2019−83497号公報 特開2004−12653号公報
特許文献3により開示された技術のように、サーバー型の音声認識を行うと、一般的にサーバーは、高速の処理性能を有するので、サーバーにおいて音声認識に要する時間は、短くてすむ。一方、クライアントからサーバーに対して、音声データを送信するための時間、及び、サーバーからクライアントに対して、音声認識結果を送信するため時間を要する。
ここで、サーバー型の音声認識を行なう画像処理装置において、利用者が音声操作により、誤った設定をして、ジョブの実行を指示した場合を想定すると、その直後に、利用者が「キャンセル」と発話しても、画像処理装置がその発話内容をサーバーに送信し、サーバーから音声認識結果を取得するまでに、時間を要するため、「キャンセル」に対する認識結果を受け取った時点においては、ジョブが途中まで進行し、又は、既にジョブが完了している場合がある。
本開示の態様は、このような問題を解決するため、早期に音声認識結果を取得して、音声指示による実行中のジョブを停止させ、又は、音声指示を取り消すことができる画像処理装置及び制御方法を提供することを目的とする。
本開示の一態様は、利用者の音声指示に従って生成されたコマンドによってジョブを実行する画像処理装置であって、サーバー装置が利用者の第一音声に対して、音声を前記画像処理装置により認識できるテキストデータに変換する音声認識処理を施して生成した第一コマンドを受信する受信手段と、利用者の第二音声に前記音声認識処理を施して第二コマンドを生成する音声認識手段と、前記第二コマンドにより、前記第一コマンドに基づく実行中のジョブの停止、及び、ジョブを実行する前の当該ジョブに対する前記第一コマンドの取消しのいずれか一方を行う制御手段とを備えることを特徴とする。
ここで、さらに、利用者から音声の入力を受け付ける入力手段を備え、前記入力手段は、前記第一音声の入力を受け付けた後に、前記第二音声の入力を受け付け、前記第二音声は、前記第一音声による指示を取り消す指示である、としてもよい。
ここで、さらに、前記画像処理装置と直接、接続された外部の音声入力装置から、利用者の音声を受信する受信手段を備え、前記受信手段は、前記第一音声を受信した後に、前記第二音声を受信し、前記第二音声は、前記第一音声による指示を取り消す指示である、としてもよい。
ここで、さらに、ジョブの実行を管理する管理手段を備え、前記管理手段により、前記第一コマンドに基づくジョブが実行中として管理されている場合、前記制御手段は、前記第二コマンドにより、実行中の前記ジョブを停止させてもよい。
ここで、さらに、ジョブの実行を管理する管理手段を備え、前記制御手段は、前記管理手段により、前記第一コマンドに基づくジョブが実行中として管理されている場合、前記第二コマンドにより、実行中として管理されている全てのジョブを停止させてもよい。
ここで、前記第二コマンドの生成の後に、前記第一コマンドを受信する場合、前記制御手段は、前記第二コマンドにより、前記第一コマンドを取り消してもよい。
ここで、前記第一コマンドは、プリントジョブ、コピージョブ又はスキャンジョブの実行を指示する命令である、としてもよい。
ここで、前記第二音声は、感嘆詞を含み、前記音声認識手段は、利用者の発話内容を想定した語句として、感嘆詞を含む音声辞書を有し、前記音声認識手段は、前記第二音声に音声認識を施して文字列を生成し、音声辞書から、生成した前記文字列に対応する語句として、感嘆詞を抽出し、抽出された感嘆詞を用いて、前記第二コマンドを生成してもよい。
ここで、前記音声認識手段は、前記第二音声に音声認識を施して文字列を生成し、さらに、生成した前記文字列が所定の閾値より長いか否かを判断し、さらに、前記文字列が所定の閾値より長いと判断される場合、利用者に注意を喚起するメッセージを音声として出力する音声出力手段を備えてもよい。
ここで、さらに、前記制御手段により、前記第一コマンドに基づく実行中のジョブを停止させ、又は、前記第一コマンドを取り消す場合、その旨を示すメッセージを音声として出力する音声出力手段を備えてもよい。
ここで、前記音声認識手段は、前記第二音声に音声認識を施して文字列を生成し、音声辞書から、生成した前記文字列に対応する語句を検索し、さらに、前記音声認識手段により、前記音声辞書から、前記文字列に対応する語句を発見できない場合、前記第二音声に音声認識を施すために、前記第二音声を前記サーバー装置に対して送信する送信手段を備えてもよい。
ここで、さらに、前記サーバー装置から、受け付けた前記第二音声に対する音声認識処理の結果の語句を受信する受信手段と、受信した語句を前記音声辞書に登録する登録手段とを備えてもよい。
また、本開示の一態様は、利用者の音声指示に従って生成されたコマンドによってジョブを実行する画像処理装置で用いられる制御方法であって、サーバー装置が利用者の第一音声に対して、音声を前記画像処理装置により認識できるテキストデータに変換する音声認識処理を施して生成した第一コマンドを受信する受信ステップと、利用者の第二音声に前記音声認識処理を施して第二コマンドを生成する音声認識ステップと、前記第二コマンドにより、前記第一コマンドに基づく実行中のジョブの停止、及び、ジョブを実行する前の当該ジョブに対する前記第一コマンドの取消しのいずれか一方を行う制御ステップとを含むことを特徴とする。
上記の態様によると、早期に音声認識結果を取得して、音声指示による実行中のジョブを停止させ、又は、音声指示を取り消すことができるという優れた効果を奏する。
実施の形態1の通信システム1の構成を示す。 制御回路100の構成を示すブロック図である。 サーバー装置200の構成を示すブロック図である。 パターンリスト231のデータ構造を示す。 音声認識の手順を示す。 通信システム1の動作を示すフローチャートである。 (a) ジョブ制御部122の動作を示すフローチャートである。(b)応答メッセージを音声出力する動作を示すフローチャートである。 実施の形態1の通信システム1の各構成ユニットの時間経過に伴う動作を示すタイムチャートである。図9に続く。 実施の形態1の通信システム1の各構成ユニットの時間経過に伴う動作を示すタイムチャートである。 実施の形態2の通信システム1aの動作を示すフローチャートである。 実施の形態2のジョブ制御部122の動作を示すフローチャートである。 実施の形態2の通信システム1aの各構成ユニットの時間経過に伴う動作を示すタイムチャートである。 変形例(1)の単語辞書251を示す。 変形例(3)の動作を示すフローチャートである。 変形例(4)の動作を示すフローチャートである。 変形例(5)の動作を示すフローチャートである。 変形例(6)の通信システム1bの構成を示す。 変形例(6)のスマートスピーカー300の構成を示すブロック図である。
1 実施の形態1
本開示に係る実施の形態1としての通信システム1について図面を参照しながら説明する。
1.1 通信システム1
通信システム1は、図1に示すように、画像形成装置10(画像処理装置)とサーバー装置200とが、ネットワーク2(例えば、LAN:Local Area Network)を介して、相互に接続されて、構成されている。なお、ネットワーク2は、例えば、広域ネットワーク(WAN:Wide Area Network)としてもよい。
画像形成装置10は、利用者の音声(第一音声)により指示を受け付ける。通常、画像形成装置10は、音声データをサーバー装置200に送信する。サーバー装置200は、音声データに対して、画像形成装置10により認識できるテキストデータに変換する音声認識処理を施して、画像形成装置10を動作させる実行コマンドを生成し、生成した実行コマンドを画像形成装置10に返送する。画像形成装置10は、受け取った実行コマンド(第一コマンド)に従って、コピージョブ、プリントジョブ、スキャンジョブ等を実行する。利用者がその設定を誤るなどして、指示を取り消したい場合、画像形成装置10は、利用者の音声(第二音声)により、先の指示を取り消す指示を受け付ける。画像形成装置10は、利用者の音声(第二音声)を、サーバー装置200に送信することなく、自身で音声認識を行い、ジョブの停止を示す停止コマンド(第二コマンド)を生成し、停止コマンドにより、実行中のジョブを停止させる。
1.2 画像形成装置10
画像形成装置10は、図1に示すように、スキャナー、プリンター及びコピー機の機能を有するタンデム型のカラー複合機(MFP:MultiFunction Peripheral)である。
画像形成装置10は、この図に示すように、筐体底部に、記録シートを収容し、給送する給紙部13が設けられている。給紙部13の上方には、電子写真方式により画像を形成するプリンター12が設けられている。プリンター12のさらに上方に、原稿を読み取って画像データを生成するイメージリーダー11、及び、操作画面を表示し、利用者から入力操作を受け付ける操作パネル19が設けられている。
イメージリーダー11は、自動原稿搬送装置を有している。自動原稿搬送装置は、原稿トレイにセットされた原稿を、搬送路を介して、1枚ずつ原稿ガラス板へ搬送する。イメージリーダー11は、自動原稿搬送装置によって原稿ガラス板の所定位置に搬送された原稿、又は、利用者により原稿ガラス板の上に載置された画像をスキャナーの移動によって読み取り、レッド(R)、グリーン(G)、ブルー(B)の多値デジタル信号からなる画像データを得る。
イメージリーダー11で得られた各色成分の画像データは、制御回路100において各種のデータ処理を受け、更にイエロー(Y)、マゼンタ(M)、シアン(C)、ブラック(K)の各再現色の画像データに変換される。
プリンター12は、駆動ローラーと従動ローラーとバックアップローラーとにより張架される中間転写ベルト21、二次転写ローラー22、中間転写ベルト21に対向して中間転写ベルト21の走行方向Xに沿って所定間隔で配置された作像部20Y、20M、20C、20K、定着部50、制御回路100等からなる。
作像部20Y、20M、20C、20Kは、それぞれ、Y、M、C、K色のトナー像を作像する。具体的には、各作像部は、像担持体である感光体ドラム、感光体ドラム表面を露光走査するためのLEDアレイ、帯電チャージャー、現像器、クリーナー及び一次転写ローラーなどからなる。
給紙部13は、サイズの異なる記録シートを収容する給紙カセット60、61、62と、この記録シートを各給紙カセットから搬送路に繰り出すためのピックアップローラー63、64、65とから構成されている。
作像部20Y〜20Kのそれぞれにおいて、各感光体ドラムは、帯電チャージャーにより一様に帯電され、LEDアレイにより露光され、感光体ドラムの表面に静電潜像が形成される。各静電潜像は、対応する色の現像器により現像され、各感光体ドラムの表面にY〜K色のトナー像が形成され、トナー像は、中間転写ベルト21の裏面側に配設された各一次転写ローラーの静電作用により、中間転写ベルト21の表面上に順次転写される。
中間転写ベルト21上で、Y〜K色のトナー像が多重転写されるように、各色の作像タイミングがずらされている。
一方、給紙部13のいずれかの給紙カセットから、作像部20Y〜20Kによる作像動作に合わせて、記録シートが給送される。
記録シートは、二次転写ローラー22とバックアップローラーとが中間転写ベルト21を挟んで対向する二次転写位置へと搬送路上を搬送され、二次転写位置で、二次転写ローラー22の静電的作用により、中間転写ベルト21上で多重転写されたY〜K色のトナー像が記録シートへ二次転写される。Y〜K色のトナー像が二次転写された記録シートは、さらに定着部50まで搬送される。
記録シートの表面のトナー像は、定着部50の加熱ローラー51とこれに圧接された加圧ローラー52との間に形成される定着ニップを通過する際に、加熱及び加圧により、記録シートの表面に融着して定着され、記録シートは、定着部50を通過した後、排出トレイ15へ送出される。
操作パネル19には、液晶表示板などで構成される表示部が設けられ、利用者によって設定された内容や各種のメッセージを表示する。操作パネル19は、利用者からの、コピー開始の指示、コピー枚数の設定、複写条件の設定、データの出力先の設定などを受け付け、受け付けた内容を制御回路100に通知する。また、操作パネル19には、LEDランプ16、マイクロホン17及びスピーカー18が設けられている。また、操作パネル19は、複数の操作ボタンを備えている。複数の操作ボタンのうち、特定の一つの音声入力開始ボタンに対する押下の操作は、利用者による音声指示の開始を示す。また、操作パネル19に表示される特定の一つの音声入力開始アイコンに対する接触の操作がされたことにより、利用者による音声指示が開始される、としてもよい。
マイクロホン17(入力手段)は、音波を受けて振動する振動板とともに、磁界内でコイルが振動することにより、アナログ電気信号としての音声信号を生成する。マイクロホン17が受け取る音波は、利用者の音声であり、画像形成装置10に対する指示が含まれる。マイクロホン17は、生成した音声信号を音声入力回路111(後述する)に対して出力する。マイクロホン17は、ジョブの実行を指示する第一音声を受け付け、その後、第一音声による指示を取り消す指示である第二音声を受け付ける。
スピーカー18(音声出力手段)は、音声出力回路112(後述する。音声出力手段)からアナログ電気信号としての音声信号を受け取り、受け取った音声信号に従って振動板を振動させて、音波を出力する。
LEDランプ16は、サーバー装置200に対して、音声データを送信して音声認識処理を依頼している時間帯において、点灯する。それ以外の時間帯において、消灯する。
1.3 制御回路100
制御回路100は、図2に示すように、CPU101、ROM102、RAM103、画像メモリ104、画像処理回路105、ネットワーク通信回路106、スキャナー制御回路107、入出力回路108、プリンター制御回路109、記憶回路110、音声入力回路111及び音声出力回路112等から構成されている。
記憶回路110は、例えば、不揮発性の半導体メモリ等から構成されている。もちろん、記憶回路110は、ハードディスクから構成されている、としてもよい。
CPU101、ROM102及びRAM103は、主制御部101aを構成している。
RAM103は、各種の制御変数及び操作パネル19により設定されたコピー枚数などを一時記憶すると共に、CPU101によるプログラム実行時のワークエリアを提供する。
ROM102には、コピー動作などの各種ジョブを実行させるための制御プログラムなどが格納されている。
CPU101は、ROM102に記憶されている制御プログラムに従って動作する。
CPU101が、制御プログラムに従って動作することにより、主制御部101aは、機能的に、全体制御部121、ジョブ制御部122、音声入力切替部123、音声操作部124及び専用音声操作部125を構成する。
全体制御部121は、画像メモリ104、画像処理回路105、ネットワーク通信回路106、スキャナー制御回路107、入出力回路108、プリンター制御回路109、記憶回路110、音声入力回路111及び音声出力回路112等を統一的に制御する。
また、全体制御部121は、ジョブ制御部122、音声入力切替部123、音声操作部124及び専用音声操作部125を制御して、それぞれの動作を実行させる。
さらに、全体制御部121は、操作パネル19から、入出力回路108を介して、利用者の操作指示を受け付ける。また、全体制御部121は、マイクロホン17から、音声入力回路111を介して、利用者の音声指示を受け付ける。利用者の指示が、例えば、プリント指示である場合、全体制御部121は、プリンター制御回路109に対して、画像形成処理を実行させる。利用者の操作がその他の指示である場合、全体制御部121は、ネットワーク通信回路106、スキャナー制御回路107等に対して、その他の処理を実行させる。
画像メモリ104は、プリントジョブ等の画像データを一時的に記憶する。
画像処理回路105は、例えば、イメージリーダー11で得られたR、G、Bの各色成分の画像データに対して、各種のデータ処理を施して、Y、M、C、Kの各再現色の画像データに変換する。
ネットワーク通信回路106は、送信処理部114及び受信処理部115(受信手段)から構成されている。受信処理部115は、ネットワーク2介して、外部の装置からデータを受信する。また、送信処理部114は、ネットワーク2介して、外部の装置に対して、データを送信する。
スキャナー制御回路107は、イメージリーダー11を制御し、原稿の画像の読み取り動作を実行させる。
プリンター制御回路109は、プリンター12を制御し、画像形成を実行させる。
画像形成装置10に対する音声指示が開始された場合、音声入力回路111(入力手段)は、全体制御部121の制御により、マイクロホン17から受け取った音声信号をデジタル電気信号に変換し、さらに、符号化して符号化音声情報(以下、音声データ)を生成する。
音声出力回路112は、全体制御部121の制御により、音声データを、アナログの音声信号に変換して、音声信号をスピーカー18に対して、出力する。
ジョブ制御部122、音声入力切替部123、音声操作部124及び専用音声操作部125については、以下に説明する。
1.4 ジョブ制御部122、音声入力切替部123、音声操作部124及び専用音声操作部125
(1)ジョブ制御部122
ジョブ制御部122(制御手段、管理手段)は、サーバー装置200から実行コマンドを受信し、また、専用音声操作部125から停止コマンドを受信する。ここで、実行コマンドは、画像形成装置10において、ネットワークジョブ、コピージョブ、プリントジョブ、スキャンジョブ等を実行させるためのコマンドである。また、停止コマンドは、画像形成装置10において、実行中のジョブを停止させるコマンドである。
実行コマンドを受信すると、ジョブ制御部122は、全体制御部121の制御により、受信した実行コマンドを実行する。つまり、ジョブ制御部122は、受信した実行コマンドに従って、ネットワーク通信回路106、スキャナー制御回路107、プリンター制御回路109に対して、ネットワークジョブ、コピージョブ、プリントジョブ、スキャンジョブ等を実行させる。
また、取消コマンドを受信すると、ジョブ制御部122は、全体制御部121の制御により、受信した取消コマンドを実行する。つまり、ジョブ制御部122は、受信した取消コマンドに従って、ネットワーク通信回路106、スキャナー制御回路107、プリンター制御回路109に対して、ネットワークジョブ、コピージョブ、プリントジョブ、スキャンジョブ等の実行を停止させる。
ジョブ制御部122は、実行中のジョブを示す実行ジョブリストを記憶している。実行ジョブリストは、実行中のジョブを識別するジョブ識別番号を含んでいる。ジョブの実行が開始されると、ジョブ制御部122は、実行ジョブリストに、そのジョブを識別するジョブ識別番号を書き込む。また、ジョブの実行が完了すると、ジョブ制御部122は、実行ジョブリストから、そのジョブを識別するジョブ識別番号を削除する。
ジョブ制御部122は、音声入力切替部123からの要求に応じて、実行中のジョブを示す実行ジョブリストを、音声入力切替部123に対して、出力する。
(2)音声入力切替部123
音声入力切替部123は、ジョブ制御部122に対して、実行ジョブリストを要求する。ジョブ制御部122から、実行ジョブリストを受け取ると、実行ジョブリストを用いて、音声指示により実行中のジョブが存在するか否かを判断する。音声指示により実行中のジョブが存在しない場合、音声入力切替部123は、音声操作部124を選択する。一方、音声指示により実行中のジョブが存在する場合、音声入力切替部123は、専用音声操作部125を選択する。
音声入力切替部123は、音声入力回路111から、音声データを受け取る。次に、音声入力切替部123は、受け取った音声データを、選択した音声操作部124及び専用音声操作部125のいずれか一方に、出力する。
(3)音声操作部124
音声操作部124は、音声入力回路111から、音声入力切替部123を介して、音声データを受け取る。音声データを受け取ると、音声操作部124は、受け取った音声データを、送信処理部114、ネットワーク2を介して、サーバー装置200に対して送信する。
(4)専用音声操作部125
専用音声操作部125(音声認識手段)は、音声入力回路111から、音声入力切替部123を介して、音声データを受け取って、音声データをバッファリングする。音声データをバッファリングした後に、専用音声操作部125は、次に示すようにして(図5を参照)、受け取った音声データに対して、音声認識処理を施す。つまり、専用音声操作部125は、音声データにジョブの停止を指示する停止ワードが含まれるか否かという停止ワードの判定を行う。
専用音声操作部125は、受け取った音声データに対して、母音、子音、撥音の音素のパターンに一致する区間を特定し、音素を表す識別子の並びを生成する(図5のステップS11参照)。ここで、専用音声操作部125は、「ていし」との一致を判定するため、「ていし」に含まれる母音、子音、撥音の音素の特定のみを行うとしてもよい。これにより、処理時間が短縮でき、また、音声認識処理に必要なリソースを少なくすることができる。次に、専用音声操作部125は、内蔵する単語辞書(音声辞書)を参照して、識別子の並びから、単語を特定する(図5のステップS12参照)。単語辞書には、発話される内容を想定して、ジョブの停止に関係する「ていし」、「キャンセル」、「停止」、「ストップ」等の語句及びその他の語句が登録されている、としてもよい。次に、専用音声操作部125は、意味解析を行って、品詞を特定し、係り受けの判定を行う。例えば、専用音声操作部125は、「実行中のジョブ」を目的格と認識し、「停止せよ」を述部と認識する(図5のステップS13参照)。次に、専用音声操作部125は、処理の操作対象と動作等を特定する。図5に示す例においては、目的格である「実行中のジョブ」が処理の操作対象に相当し、述部である「停止せよ」が動作に相当する。こうして、専用音声操作部125は、特定した処理の操作対象と動作等を示すコマンドを生成する。
例えば、利用者の音声入力が、「実行中のジョブを停止して」である場合、生成されるコマンドは、停止コマンドであり、停止コマンドは、次のようになる。
停止コマンド=(「停止」、「実行中のジョブ」)
次に、専用音声操作部125は、生成した停止コマンドを、ジョブ制御部122に対して、出力する。
1.5 サーバー装置200
サーバー装置200は、画像形成装置10から、音声データを受信する。サーバー装置200は、受信した音声データに対して、音声認識処理を施して、実行コマンドを生成する。次に、サーバー装置200は、生成した実行コマンドを、画像形成装置10に対して、送信する。
サーバー装置200は、図3に示すように、主制御部201、記憶回路202及びネットワーク通信回路203から構成されている。
サーバー装置200は、具体的には、CPU、ROM、RAM、その他のデバイスから構成されるコンピューターシステムである。
(1)記憶回路202及びネットワーク通信回路203
(記憶回路202)
記憶回路202は、例えば、ハードディスク等から構成され、データを記憶するために用いられる。記憶回路202は、パターンリスト231を記憶している。
パターンリスト231は、画像形成装置10から受信する音声データのパターンを予め、記憶している。
パターンリスト231は、図4に示すように、複数のパターン情報232を含んで構成されている。各パターン情報232は、呼出方パターン233、操作対象234、動作235、パラメーター236及び応答メッセージ237を含んでいる。
呼出方パターン233は、利用者により発話される音声のひな型である。
操作対象234は、呼出方パターン233による操作の対象を示している。
動作235は、呼出方パターン233による動作を示している。
パラメーター236は、呼出方パターン233により操作される場合における設定値を示す。
応答メッセージ237は、呼出方パターン233に応答して、画像形成装置10において、音声出力すべき音声の例を示している。
(ネットワーク通信回路203)
ネットワーク通信回路203は、ネットワーク2を介して、外部の装置に接続されている。ネットワーク通信回路203は、送信処理部204及び受信処理部205から構成されている。
送信処理部204は、主制御部201の制御により、ネットワーク2を介して、外部の装置に対して、データを送信する。また、受信処理部205は、外部の装置から、ネットワーク2を介して、データを受信する。
(2)主制御部201
主制御部201は、ROMに記憶されている制御用のコンピュータープログラムに従って、CPUが動作することにより、機能的に、全体制御部211、音声認識部212、ジョブ生成管理部213及び音声合成部214を構成している。
(音声認識部212)
音声認識部212は、全体制御部211の制御により、以下に示すようにして、受信した音声データに音声認識処理を施して、実行コマンドを生成する。
音声認識部212は、受信した音声データに対して、母音、子音、撥音の音素のパターンに一致する区間を特定し、音素を表す識別子の並びを生成する。次に、音声認識部212は、内蔵する単語辞書を参照して、識別子の並びから、単語を特定する。次に、音声認識部212は、意味解析を行って、品詞を特定し、係り受けの判定を行う。次に、音声認識部212は、処理の操作対象と動作等を特定する。こうして、音声認識部212は、特定した処理の操作対象と動作等を示す文字列を生成する。
例えば、利用者の音声が、「販売停止リストを1部プリントして」である場合、操作対象は、「販売停止リスト」であり、動作は、「プリント」及び「1部」である。
音声認識部212は、生成した文字列をジョブ生成管理部213に対して出力する。
(ジョブ生成管理部213)
ジョブ生成管理部213は、音声認識部212から、文字列を受け取る。次に、ジョブ生成管理部213は、受け取った文字列から、処理の操作対象と動作等を示す実行コマンドを生成する。
例えば、利用者の音声入力が、「販売停止リストを1部プリントして」である場合、実行コマンドは、次のようになる。
実行コマンド=(「プリント」、「販売停止リスト」、「1部」)
ジョブ生成管理部213は、生成した実行コマンドを、送信処理部204及びネットワーク2を介して、画像形成装置10に対して、送信する。
(音声合成部214)
音声合成部214は、予め、メッセージに対応して、応答音声データを記憶している。応答音声データの一例は、「プリントします」である。
音声合成部214は、主制御部201の制御により、記憶している応答音声データを、送信処理部204及びネットワーク2を介して、画像形成装置10に対して、送信する。
(全体制御部211)
全体制御部211は、記憶回路202、ネットワーク通信回路203、音声認識部212、ジョブ生成管理部213、音声合成部214を統一的に制御する。
1.6 通信システム1における動作
(1)通信システム1における動作
通信システム1における動作について、図6に示すフローチャートを用いて、説明する。
操作パネル19は、音声入力開始ボタンの押下により、利用者から音声入力の開始を受け付ける(ステップS101)。
次に、音声入力回路111は、マイクロホン17から入力された音声を、音声データに変換し、音声入力切替部123に対して出力する(ステップS102)。
次に、音声入力切替部123は、音声データの音圧の変化が一定期間(例えば100ms)続く場合、発話が開始されたと判断とする。次に、音声入力切替部123は、ジョブ制御部122から、実行ジョブリストを取得し、実行ジョブリスト内に、音声入力から開始を指示した実行中のジョブがあるか否かを判断する(ステップS103)。
実行中のジョブがないと判断される場合(ステップS103で「NO」)、全体制御部121は、制御をステップS108へ移す。
実行中のジョブがあると判断される場合(ステップS103で「YES」)、音声入力切替部123は、専用音声操作部125に対して、音声データを出力する(ステップS104)。
次に、専用音声操作部125は、音声データから、音素を抽出して、母音、撥音、子音を特定して語句を抽出する(ステップS105)。次に、抽出された語句のうちのいずれかがに「ていし」に一致するか否かを判断する(ステップS106)。「ていし」に一致しないと判断される場合(ステップS106で「NO」)、全体制御部121は、制御をステップS102へ移す。意図せずに、利用者が不要な発話を行う場合、例えば、プリント開始の発話をした後に、不要な発話として、「プリントして」を繰り返すような場合、不要な発話に対して、反応することなく、音声認識処理を行わない。
一方、「ていし」に一致すると判断される場合(ステップS106で「YES」)、専用音声操作部125は、実行中のジョブを停止させる停止コマンドを生成し、ジョブ制御部122は、停止コマンドを実行して、実行中のジョブを停止させる(ステップS107)。次に、全体制御部121は、制御をステップS102へ移す。
実行中のジョブがないと判断される場合(ステップS103で「NO」)、音声入力切替部123は、音声操作部124に対して、音声データを出力する(ステップS108)。
画像形成装置10は、ネットワーク2を介して、サーバー装置200と通信を開始し(ステップS109)、音声操作部124は、ネットワーク2を介して、サーバー装置200に対して、音声データを送信する(ステップS110)。
画像形成装置10は、サーバー装置200からの応答を待ち、コマンドを受信する(ステップS111)。
音声操作部124は、サーバー装置200から送信されるコマンドの種類とその内容を判定し(ステップS112)、音声操作部124は、画像形成装置10において動作する実行コマンドを生成する(ステップS113)。次に、音声操作部124は、実行コマンドをジョブ制御部122に対して、出力し、ジョブ制御部122は、受け取った実行コマンドに従って、ジョブを実行する(ステップS114)。次に、全体制御部121は、制御をステップS102へ移す。
以上により、通信システム1における動作の説明を終了する。
上記の通り、音声入力したジョブの実行中に、利用者が、ジョブの停止を音声により指示した場合、画像形成装置10において音声認識を行うので、サーバー装置200との通信遅延が発生することなく、実行中のジョブを停止することができる。この場合、画像形成装置10は、利用者の発話の内容から、短く、短時間で発話できる停止ワード(例えば、「ていし」)を音声認識により抽出するので、音声認識に要する時間は短くてすむ。
なお、ここでは、停止ワードを「ていし」という語句としているが、停止を意味する言葉であればよく、「止まれ」、「やめて」、「キャンセル」、「ストップ」、「待て」等の様々な語句を利用できる。
音声認識処理において、音素を表す識別子の並びが、「ていし」と一致するか判断しているが、これには限定されない。利用者の発話の内容の一部に「ていし」という語句を含む場合でも、停止と判定してもよい。例えば、発話内容が「実行中のジョブをていしして」の場合、「ていし」を一部に含むため、停止と判定する。この場合、品詞、係り受けの判定を追加して、「ていし」が述語であるか判定することで、名詞の一部として「ていし」を含む場合(例えば、「販売停止商品リストをプリントして」)の誤判定を防止できる。
(2)ジョブ制御部122における動作
ジョブ制御部122における動作について、図7(a)に示すフローチャートを用いて説明する。ここで、以下に示す手順は、図6のステップS107及びS114の詳細である。
ジョブ制御部122は、コマンドを受け取る。受け取ったコマンドが実行コマンドである場合(ステップS301で「実行コマンド」)、ジョブ制御部122は、実行コマンドに従って、ジョブを実行させる(ステップS302)。次に、ジョブ制御部122は、ステップS301に制御を移す。
受け取ったコマンドが停止コマンドである場合(ステップS301で「停止コマンド」)、ジョブ制御部122は、停止コマンドに従って、実行中のジョブを停止させる(ステップS303)。次に、ジョブ制御部122は、ステップS301に制御を移す。
コマンドを受信しない場合(ステップS301で「無し」)、ジョブ制御部122は、コマンドの受信を待つため、ステップS301に制御を移す。
(3)応答メッセージの音声出力の動作
画像形成装置10において、以下に示すようにして、画像形成装置10における動作に応答して、応答メッセージを音声出力してもよい。
応答メッセージの音声出力の動作について、図7(b)に示すフローチャートを用いて説明する。ここで、以下に示す手順は、図6のステップS107に続く動作の詳細である。
図6のステップS107に続いて、全体制御部121は、応答メッセージを生成する。応答メッセージの一例は、「停止します」である(ステップS161)。次に、音声出力回路112は、応答メッセージを、スピーカー18に対して、出力する。スピーカー18は、応答メッセージを、音声出力する(ステップS162)。続いて、次の音声入力待ちに制御が移る。
ここで、説明した応答メッセージの音声出力を、後述する実施の形態2において、適用してもよい。
上記の通り、サーバー装置200を経由せずに、専用音声操作部125を用いて、ジョブ停止指示を受け付けた旨の応答メッセージを、スピーカー18により、音声出力している。
このように、応答メッセージを音声出力することにより、利用者は、画像形成装置10に対する指示が確実に実行されたことを知ることができる。
また、サーバー装置200の音声認識処理を利用する音声操作部124を用いる場合、画像形成装置10において、コマンドを受信したことを確認し、サーバー装置200において、その確認結果として、応答メッセージを音声合成するため、通信による遅延が発生する。応答メッセージが遅延すると、発話を言い直すタイミングが遅れる。そのために必要なジョブ停止ができない場合がある。専用音声操作部125では、サーバー装置200との通信を行うことなく、つまり、通信による遅延が発生することなく、応答メッセージを出力することができる。
1.7 通信システム1の各構成ユニットの時間経過に伴う動作
通信システム1の各構成ユニットの時間経過に伴う動作について、図8〜図9に示すタイムチャートを用いて説明する。
このタイムチャートにおいて、縦軸に、通信システム1の各構成ユニットを示し、横軸に時間経過を示す。
操作パネル19の音声入力開始ボタンは、押下を受け付ける(F001)。これにより、利用者の音声入力が開始される。
マイクロホン17は、利用者から音声入力(「販売停止リストを1部プリントして」)を受け付ける(F002)。同時に、音声入力回路111は、音声データを生成する(F003)。発話の開始から、音声データの音圧の変化が一定期間(例えば、100ms)続くと、発話が検出される(F004)。
発話が検出されると(F004)、音声入力切替部123は、ジョブ実行リストを要求し(F006)、ジョブ制御部122、ジョブ実行リストを読み出して(F007)、ジョブ実行リストを出力する(F008)。音声入力切替部123は、ジョブ実行リストを用いて、ジョブが実行されているか否かを判断し、ジョブが実行されていない場合、音声操作部124に対して発話を待つように要求する(F009)。音声操作部124は、送信処理部114、ネットワーク2、受信処理部205を介して、発話待ちを、全体制御部211に対して、送信する(F010〜F014)。
全体制御部211は、発話待ち状態に遷移し(F015)、発話の受け入れ準備が完了したことを示す受入れレディを、送信処理部204、ネットワーク2、受信処理部115を介して、音声操作部124に対して、通知する(F017〜F019)。音声操作部124は、発話終了待ちに遷移する(F020)。
発話が終了すると、例えば、無音区間が1秒以上続くと、音声入力回路111は、マイクロホン17をオフに設定する(F022)。また、操作パネル19は、LEDランプ16を点灯する(F023)。次に、音声入力回路111は、音声データを、送信処理部114、ネットワーク2、受信処理部205を介して、音声認識部212に対して、送信する(F025〜F027)。音声認識部212は、受信した音声データに音声認識を施して、操作対象と動作等を示す文字列を生成する(F029)。次に、ジョブ生成管理部213は、実行コマンド(例えば、プリントコマンド)を生成する(F030)。次に、ジョブ生成管理部213は、実行コマンドを、送信処理部204、ネットワーク2、受信処理部115を介して、音声操作部124に対して、送信する(F033〜F035)。音声操作部124は、受信した実行コマンドをジョブ制御部122に対して、出力し(F037)、ジョブ制御部122は、受信した実行コマンドを、画像形成装置10の実行コマンドに変換し、生成した実行コマンドに従って、ジョブの実行を開始する(F038)。ジョブは、期間F039中、実行される。
ジョブ制御部122は、ジョブの開始(例えば、プリント開始)を、送信処理部114、ネットワーク2、受信処理部205を介して、音声合成部214に通知する(F040、F041、F050、F051)。音声合成部214は、応答メッセージ(例えば、「プリントします」)を生成し(F053)、生成した応答メッセージを、送信処理部204、ネットワーク2、受信処理部115を介して、音声操作部124に対して、送信する(F054〜F057)。音声操作部124は、受信した応答メッセージを音声出力回路112に対して、出力し(F058)、音声出力回路112は、スピーカー18に対して、応答メッセージを出力し(F059)、スピーカー18は、応答メッセージを音声出力する(F061)。
スピーカー18による応答メッセージの音声出力が終了すると、音声入力回路111は、マイクロホン17をオンにする(F070)。
マイクロホン17は、利用者から音声入力(「実行中のジョブを停止して」)を受け付ける(F071)。同時に、音声入力回路111は、音声データを生成する(F072)。発話の開始から、音声データの音圧の変化が一定期間、続くと、発話が検出される(F073)。
発話が検出されると(F073)、音声入力切替部123は、ジョブ実行リストを要求し(F075)、ジョブ制御部122は、ジョブ実行リストを読み出して(F076)、ジョブ実行リストを出力する(F077)。音声入力切替部123は、ジョブ実行リストを用いて、ジョブが実行されているか否かを判断し、ジョブが実行されている場合、専用音声操作部125に対して、音声データを出力する(F078)。専用音声操作部125は、音声認識を行って、停止コマンドを生成する(F079)。
発話が終了すると、例えば、無音区間が1秒以上続くと、音声入力回路111は、マイクロホン17をオフに設定する(F080)。次に、専用音声操作部125は、停止コマンドをジョブ制御部122に対して出力し、ジョブ制御部122は、停止コマンドを受け取り、停止コマンドに従って、実行中のジョブを停止する(F090)。
次に、専用音声操作部125は、応答メッセージ(例えば、「停止します」)を生成し、生成した応答メッセージを音声出力回路112に対して出力する(F092、F093)。スピーカー18は、応答メッセージを音声出力する(F094)。次に、スピーカー18による応答メッセージの音声出力が終了すると、音声入力回路111は、マイクロホン17をオンに設定する(F095)
1.8 まとめ
以上説明したように、上記の実施の形態1によると、サーバー装置200において利用者の音声に音声認識処理を施して生成した実行コマンドに基づき実行中のジョブを、利用者の音声に画像形成装置10内で音声認識処理を施して生成した停止コマンドに従って、停止させる。この構成により、サーバー装置200において、音声認識処理を施して停止コマンドを生成し、画像形成装置10が停止コマンドを受信する場合と比較すると、早期に音声認識結果を取得できるので、先の指示によるジョブ実行を早期に停止させることができる。
2 実施の形態2
本開示に係る実施の形態2としての通信システム1a(図示していない)について説明する。
実施の形態2の通信システム1aは、実施の形態1の通信システム1と同様の構成を有している。通信システム1との相違点は、次の通りである。
通信システム1では、サーバー装置200において利用者の音声に音声認識処理を施して生成した実行コマンド(第一コマンド)に基づき実行中のジョブを、利用者の音声に画像形成装置10内で音声認識処理を施して生成した停止コマンド(第二コマンド)に従って、停止させる。
これに対して、通信システム1aでは、サーバー装置200において利用者の音声に音声認識処理を施して生成した実行コマンド(第一コマンド)に基づくジョブの実行前に、利用者の音声に画像形成装置10内で音声認識処理を施して生成した取消コマンド(第二コマンド)により、実行コマンドを取り消す。
以下において、通信システム1との相違点を中心として、説明する。
2.1 通信システム1aにおける構成
(ジョブ制御部122)
ジョブ制御部122は、サーバー依頼リストを記憶している。サーバー依頼リストは、サーバー装置200に対して、音声認識処理を依頼したか否か(サーバー処理中か否か)を示す依頼情報を記憶している。ジョブ制御部122は、音声入力切替部123に対して、サーバー依頼リストを出力する。
ジョブ制御部122は、コマンドを受け取る。ジョブ制御部122が受け取るコマンドには、実行コマンド、停止コマンド、キャンセル予約が含まれる。
受け取ったコマンドがキャンセル予約である場合、ジョブ制御部122は、キャンセル予約を記憶する。
受け取ったコマンドが実行コマンドである場合、ジョブ制御部122は、キャンセル予約を記憶しているか否かを判断する。キャンセル予約を記憶している場合、ジョブ制御部122は、受信した実行コマンドを取り消し、記憶しているキャンセル予約を削除する。一方、キャンセル予約を記憶していない場合、ジョブ制御部122は、受信した実行コマンドに従って、ジョブを実行する。
受け取ったコマンドが停止コマンドである場合、ジョブ制御部122は、実行中のジョブを停止させる。
(音声入力切替部123)
音声入力切替部123は、ジョブ制御部122から、サーバー依頼リストを取得し、サーバー依頼リスト内に、依頼情報が存在するか否かを判断する。依頼情報が存在する場合、専用音声操作部125を選択して、音声データを専用音声操作部125に対して、出力する。依頼情報が存在しない場合、音声操作部124を選択して、音声データを音声操作部124に対して、出力する。
(専用音声操作部125)
専用音声操作部125は、音声データを受け取り、受け取った音声データに対して、音声認識処理を施す。音声データには、例えば、「実行中のジョブを停止して」などの発話内容が含まれる。
専用音声操作部125は、ジョブ制御部122に対して、実行ジョブリストを要求する。ジョブ制御部122から、実行ジョブリストを受け取ると、実行ジョブリストを用いて、音声指示により実行中のジョブが存在するか否かを判断する。
実行中のジョブがないと判断される場合、専用音声操作部125は、音声データの認識結果から、ジョブのキャンセル予約を生成する。専用音声操作部125は、生成したキャンセル予約をジョブ制御部122に対して、出力する。
実行中のジョブがあると判断される場合、専用音声操作部125は、音声データの認識結果から、実行中のジョブを停止させる停止コマンドを生成する。専用音声操作部125は、生成した停止コマンドをジョブ制御部122に対して、出力する。
2.2 通信システム1aにおける動作
(1)通信システム1aにおける動作
通信システム1aにおける動作について、図10に示すフローチャートを用いて、説明する。
操作パネル19は、音声入力開始ボタンの押下により、利用者から音声入力の開始を受け付ける(ステップS101)。
次に、音声入力回路111は、マイクロホン17から入力された音声を、音声データに変換し、音声入力切替部123に対して出力する(ステップS102)。
次に、音声入力切替部123は、音声データの音圧の変化が一定期間、続く場合、発話が開始されたと判断とする。次に、音声入力切替部123は、ジョブ制御部122から、サーバー依頼リストを取得し、サーバー依頼リスト内に、依頼情報が存在するか否か(サーバー処理中か)を判断する(ステップS103a)。
依頼情報が存在しない(サーバー処理中ではない)と判断される場合(ステップS103aで「NO」)、全体制御部121は、制御をステップS108へ移す。
依頼情報が存在する(サーバー処理中である)と判断される場合(ステップS103aで「YES」)、音声入力切替部123は、専用音声操作部125に対して、音声データを出力する(ステップS104)。
次に、専用音声操作部125は、音声データから、音素を抽出して、母音、撥音、子音を特定して語句を抽出する(ステップS105)。次に、抽出された語句のうちのいずれかがに「ていし」に一致するか否かを判断する(ステップS106)。「ていし」に一致しないと判断される場合(ステップS106で「NO」)、全体制御部121は、制御をステップS102へ移す。
一方、「ていし」に一致すると判断される場合(ステップS106で「YES」)、専用音声操作部125は、ジョブ制御部122に対して、実行ジョブリストを要求する。専用音声操作部125は、ジョブ制御部122から、実行ジョブリストを受け取ると、実行ジョブリスト内に、音声入力から開始を指示した実行中のジョブがあるか否かを判断する(ステップS251)。
実行中のジョブがないと判断される場合(ステップS251で「NO」)、専用音声操作部125は、ジョブのキャンセル予約を生成する。専用音声操作部125は、生成したキャンセル予約をジョブ制御部122に対して、出力する。ジョブ制御部122は、キャンセル予約を記憶する(ステップS253)。次に、全体制御部121は、制御をステップS102へ移す。
実行中のジョブがあると判断される場合(ステップS251で「YES」)、専用音声操作部125は、実行中のジョブを停止させる停止コマンドを生成する。専用音声操作部125は、生成した停止コマンドをジョブ制御部122に対して、出力する。ジョブ制御部122は、停止コマンドを受け取る。ジョブ制御部122は、受け取った停止コマンドを実行して、実行中のジョブを停止させる(ステップS252)。次に、全体制御部121は、制御をステップS102へ移す。
依頼情報が存在しないと判断される場合(ステップS103aで「NO」)、音声入力切替部123は、音声操作部124に対して、音声データを出力する(ステップS108)。
画像形成装置10は、ネットワーク2を介して、サーバー装置200と通信を開始し(ステップS109)、音声操作部124は、ネットワーク2を介して、サーバー装置200に対して、音声データを送信する(ステップS110)。
画像形成装置10は、サーバー装置200からの応答を待ち、コマンドを受信する(ステップS111)。
音声操作部124は、サーバー装置200から送信されるコマンドの種類とその内容を判定し(ステップS112)、音声操作部124は、画像形成装置10において動作する実行コマンドを生成する(ステップS113)。次に、音声操作部124は、実行コマンドをジョブ制御部122に対して、出力し、ジョブ制御部122は、受け取った実行コマンドに従って、ジョブを実行する(ステップS114)。次に、全体制御部121は、制御をステップS102へ移す。
以上により、通信システム1aにおける動作の説明を終了する。
以上説明したように、実施の形態2において、音声入力切替部123は、サーバー依頼リスト内に、依頼情報が存在する(サーバー処理中)場合、つまり、ジョブ開始の発話が終わり、サーバー装置200において処理中を表すLEDランプ16が点灯している区間に、音声入力を受けた場合には、音声データを専用音声操作部125に対して出力してもよい。
また、音声データから得られた認識結果において、音素を表す識別子の並びが「ていし」に一致する場合、専用音声操作部125は、ジョブ制御部122から実行ジョブリストを取得し、取得した実行ジョブリスト中に、音声入力から開始を指示した実行中のジョブがある場合は、該当するジョブに対する停止コマンドを生成して、ジョブ制御部122へ出力する。取得した実行ジョブリスト中に、音声入力から開始を指示した実行中のジョブが無い場合は、専用音声操作部125は、ジョブ開始のキャンセル予約をジョブ制御部122へ通知する。
ジョブ制御部122は、音声操作部124からジョブの実行を開始する実行コマンドを受け取る。実行コマンドを受け取ると、ジョブ制御部122は、ジョブ開始のキャンセル予約があるかを確認して、キャンセル予約がある場合、実行コマンドをキャンセルする。キャンセル予約が無い場合、ジョブ制御部は、実行コマンドに従って、ジョブの実行を開始させる。
(2)ジョブ制御部122における動作
ジョブ制御部122における動作について、図11に示すフローチャートを用いて説明する。ここで、以下に示す手順は、図10のステップS252、S253及びS114の詳細である。
ジョブ制御部122は、コマンドを受け取る。受け取ったコマンドが実行コマンドである場合(ステップS311で「実行コマンド」)、ジョブ制御部122は、キャンセル予約を記憶しているか否かを判断する(ステップS312)。
キャンセル予約を記憶している場合(ステップS312で「YES」)、ジョブ制御部122は、受信した実行コマンドを取り消す(ステップS314)。次に、ジョブ制御部122は、記憶しているキャンセル予約を削除する(ステップS315)。次に、ジョブ制御部122は、制御をステップS311に移す。
キャンセル予約を記憶していない場合(ステップS312で「NO」)、ジョブ制御部122は、受信した実行コマンドに従って、ジョブを実行する(ステップS313)。次に、ジョブ制御部122は、制御をステップS311に移す。
受け取ったコマンドが停止コマンドである場合(ステップS311で「停止コマンド」)、ジョブ制御部122は、実行中のジョブを停止させる(ステップS316)。次に、ジョブ制御部122は、制御をステップS311に移す。
受け取ったコマンドがキャンセル予約である場合(ステップS311で「キャンセル予約」)、ジョブ制御部122は、キャンセル予約を記憶する(ステップS317)。次に、ジョブ制御部122は、制御をステップS311に移す。
コマンドを受信しない場合(ステップS311で「無し」)、ジョブ制御部122は、コマンドの受信を待つため、ステップS311に制御を移す。
2.3 通信システム1aの各構成ユニットの時間経過に伴う動作
通信システム1aの各構成ユニットの時間経過に伴う動作について、図12に示すタイムチャートを用いて説明する。
このタイムチャートにおいて、縦軸に、通信システム1aの各構成ユニットを示し、横軸に時間経過を示す。
操作パネル19の音声入力開始ボタンは、押下を受け付ける(F001)。これにより、利用者の音声入力が開始される。
マイクロホン17は、利用者から音声入力(「販売停止リストを1部プリントして」)を受け付ける(F002)。同時に、音声入力回路111は、音声データを生成する(F003)。発話の開始から、音声データの音圧の変化が一定期間、続くと、発話が検出される(F004)。
発話が検出されると(F004)、音声入力切替部123は、サーバー依頼リストを要求し(F006)、ジョブ制御部122、サーバー依頼リストを読み出して(F007)、サーバー依頼リストを出力する(F008)。音声入力切替部123は、サーバー依頼リストを用いて、サーバー処理中か否かを判断し、サーバー処理中でない場合、音声操作部124に対して発話を待つように要求する(F009)。音声操作部124は、送信処理部114、ネットワーク2、受信処理部205を介して、発話待ちを、全体制御部211に対して、送信する(F010〜F014)。
全体制御部211は、発話待ち状態に遷移し(F015)、発話の受け入れ準備が完了したことを示す受入れレディを、送信処理部204、ネットワーク2、受信処理部115を介して、音声操作部124に対して、通知する(F017〜F019)。音声操作部124は、発話終了待ちに遷移する(F020)。
発話が終了すると、例えば、無音区間が1秒以上続くと、音声入力回路111は、音声データを、送信処理部114、ネットワーク2、受信処理部205を介して、音声認識部212に対して、送信する(F025〜F027)。音声認識部212は、受信した音声データに音声認識を施して、操作対象と動作等を示す文字列を生成する(F029)。次に、ジョブ生成管理部213は、実行コマンド(例えば、プリントコマンド)を生成する(F030)。次に、ジョブ生成管理部213は、実行コマンドを、送信処理部204、ネットワーク2、受信処理部115を介して、音声操作部124に対して、送信する(F033〜F035)。音声操作部124は、受信した実行コマンドをジョブ制御部122に対して、出力する(F037)。
一方、マイクロホン17は、利用者から音声入力(「実行中のジョブを停止して」)を受け付ける(F102)。同時に、音声入力回路111は、音声データを生成する(F103)。発話の開始から、音声データの音圧の変化が一定期間、続くと、発話が検出される(F104)。
発話が検出されると(F104)、音声入力切替部123は、サーバー依頼リストを要求し(F106)、ジョブ制御部122、サーバー依頼リストを読み出して(F107)、サーバー依頼リストを出力する(F108)。音声入力切替部123は、サーバー依頼リストを用いて、サーバー処理中か否かを判断し、サーバー処理中である場合、専用音声操作部125に対して発話の終了を待つように要求する(F109)。
専用音声操作部125は、音声入力回路111から音声データを受信し、受信した音声データに音声認識処理を施して、「ていし」が含まれるか否かを判断(停止ワード判定)する。「ていし」が含まれる場合、専用音声操作部125は、キャンセル予約を生成する(F110)。
発話が終了すると、例えば、無音区間が1秒以上続くと、専用音声操作部125は、生成したキャンセル予約をジョブ制御部122に対して、出力する(F110)。ジョブ制御部122は、キャンセル予約を記憶する(F112)。
次に、専用音声操作部125は、応答メッセージ(例えば、「停止します」)を生成し、生成した応答メッセージを音声出力回路112に対して出力し(F113)、音声出力回路112は、応答メッセージをスピーカー18に対して出力する(F115)。スピーカー18は、応答メッセージを音声出力する(F117)。
ジョブ制御部122は、受け取った実行コマンドを、記憶しているキャンセル予約に基づいて、取り消す(F121)。次に、ジョブ制御部122は、実行コマンドの取り消しを示すキャンセル情報を、送信処理部114、ネットワーク2、受信処理部205を介して、全体制御部211に対して、送信する(F122〜F124)。全体制御部211は、キャンセル情報を受信して、応答メッセージの生成等を行うことなく、本実行コマンドに関する処理を終了する(F125)。
2.4 まとめ
以上説明したように、上記の実施の形態2によると、サーバー装置200において利用者の音声に音声認識処理を施して生成した実行コマンドを、利用者の音声に画像形成装置10内で音声認識処理を施して生成した取消コマンドに従って、取り消す。この構成により、サーバー装置200において、音声認識処理を施して取消コマンドを生成し、画像形成装置10が取消コマンドを受信する場合と比較すると、早期に音声認識結果を取得できるので、先の指示によるジョブの実行前に、実行コマンドを取り消すことができる。
3 その他の変形例
本開示の態様について、上記の実施の形態1及び2に基づいて説明しているが、実施の形態1及び2には、限定されない。以下に示すようにしてもよい。
(1)変形例(1)
上記の実施の形態1及び2の専用音声操作部125は、単語辞書を内蔵している。単語辞書には、発話される内容を想定して、ジョブの停止に関係する「キャンセル」、「ていし」、「停止」、「ストップ」等の語句及びその他の語句が含まれる、としている。しかし、これには、限定されない。
画像形成装置10に対して、発話により操作を行う場合、その発話内容は、操作対象と動作を含む必要がある。一方、利用者が緊急にジョブの停止を希望する場合、発話内容が、「あっ」、「うわっ」、「しまった」などの感嘆詞のみを含む場合がある。このような感嘆詞のみを含む発話の場合、操作対象と動作を含むという条件を満たさないので、音声認識処理において、判別不可能となる場合が多く、その場合には、利用者は、言い直す(再発話する)必要がある。言い直された発話内容は、サーバー装置200に対して、送信されて、音声認識処理が施される。
そこで、単語辞書は、ジョブの停止を意味する語句の他に、停止指示が必要となる状況において、利用者が発話すると想定される語句を含むとしてもよい。具体的には、図13に示すように、単語辞書251は、「停止」、「ストップ」、「中止」等の語句に加えて、「あっ」、「うわっ」、「しまった」などの感嘆詞等を含むとしてもよい。
このように、感嘆詞等のように、操作対象と動作を含むという条件を満たさない場合であっても、単語辞書が、このような語句を網羅的に含むことにより、画像形成装置10において、音声認識処理を行うことことができ、利用者の発話の言い直しに必要なサーバー装置200との間の通信時間を不要にできる。
(2)変形例(2)
実施の形態1では、利用者が停止の発話を行った時点で、音声入力で開始した実行中のジョブを停止の対象としている。しかし、これには限定されない。
利用者が音声入力以外で開始させた他のジョブを含めて、利用者の実行中の複数のジョブを同時に停止対象としてもよい。
図6に示すフローチャートのステップS106において、「ていし」に一致すると判断される場合、専用音声操作部125は、ジョブ制御部122から、実行ジョブリストを取得する。専用音声操作部125は、取得した実行ジョブリストから、利用者により開始された全ての実行中のジョブを特定して、特定した全てのジョブに対する停止コマンドを生成して、ジョブ制御部122へ出力する。ジョブ制御部122は、停止コマンドを実行して、特定した全ての実行中のジョブを停止させる。
サーバー装置200を利用して、音声認識処理を施す場合、利用者がジョブの停止の発話を行った時点において実行中のジョブと、サーバー装置200から画像形成装置10に対して、停止コマンドが発行された時点において実行中のジョブとが異なる場合が起こり得る。これは、発話からサーバー装置200を経由して画像形成装置10に停止コマンドを発行するまでの間の通信遅延が大きく、時間差があるためである。そのため音声操作において、音声操作以外で開始した他のジョブを指定できない場合がある。
変形例(2)においては、利用者に係る全ての実行中のジョブを停止させるので、誤った設定により実行されるジョブを確実に、停止させることができる。
また、利用者の権限が管理者権限を含むか否かを参照し、管理者権限を含む場合は、全ての実行中のジョブを停止させるモードを備えるようにしてもよい。ジョブの停止が必要となった時点において、音声入力で全ての実行中のジョブを停止させることができ、停止のタイミングを逃すことがない。
(3)変形例(3)
実行中のジョブに対する緊急の停止の指示が必要となる状況においては、発話の内容が冗長な言い方となってしまう場合が考えられる。
利用者の停止の指示をする際に、例えば、「昨日作成したBOXにおいたファイル名が計画書Xのプリントを直ぐにとめてほしい」のように、利用者の発話が長く続く音声となる場合がある。
このような長い発話の場合、サーバー装置200の音声認識部212は、利用者の発話が途切れるまで待ち続けることになる。この間に、必要なジョブの停止ができず、無駄な用紙出力などが発生する。
また、このような長い発話の場合、サーバー装置200は、利用者を補助するための音声メッセージを画像形成装置10に送信し、画像形成装置10において、音声メッセージを音声出力してもよいが、このような音声メッセージを送信する場合にも、遅延が発声する。
そこで、変形例(3)では、図6のフローチャートに示すステップS105〜S106における停止ワードの判定処理において、専用音声操作部125は、抽出される音素が、間がなく(無音区間なく)連続する個数を数える。連続する音素の個数が所定の閾値(例えば、50個)以上の場合、「ていし」に一致しないと判断する。この場合、専用音声操作部125は、応答メッセージ「停止しますか」を生成し、生成した応答メッセージを音声出力回路112へ出力し、スピーカー18は、応答メッセージを音声出力する。この際、応答メッセージの出力レベルを、利用者の発話と区別できる程度に大きくして、スピーカー18から音声出力してもよい。
変形例(3)における動作について、図14に示すフローチャートを用いて説明する。
図6に示すフローチャートのステップS106において、「ていし」に一致する場合、専用音声操作部125は、抽出される音素が、間がなく(無音区間なく)連続する個数を数える(ステップS151)。連続する音素の個数が所定の閾値(例えば、50個)以上の場合(ステップS152で「50以上」)、専用音声操作部125は、応答メッセージ「停止しますか」を生成する(ステップS153)。次に、専用音声操作部125は、生成した応答メッセージを音声出力回路112へ出力し、スピーカー18は、応答メッセージを音声出力する(ステップS154)。次に、全体制御部121は、制御を図6のフローチャートのステップS108へ移す。
連続する音素の個数が所定の閾値未満の場合(ステップS152で「50未満」)、全体制御部121は、制御を図6のフローチャートのステップS108へ移す。
ここで、連続する音素の個数が所定の閾値未満の場合、専用音声操作部125は、音声データに対して、音声認識処理を施してもよい。
変形例(3)によると、サーバー装置200を経由せず、専用音声操作部125を用いて、発話中の利用者に対して、タイムリーに、補助を行うことができる。この結果、利用者は、大きな遅延を発生させることなく、ジョブ停止のための言い直しを行うことができる。
(4)変形例(4)
上記の実施の形態1においては、図6のフローチャートのステップS106に示すように、「ていし」に一致しないと判断される場合、全体制御部121は、制御をステップS102へ移して、再度、音声入力待ちとしている。しかし、これには、限定されない。
「ていし」に一致しないと判断される場合、音声入力切替部123は、音声データを音声操作部124に対して、出力してもよい。
変形例(4)における動作について、図15に示すフローチャートを用いて説明する。
図6のフローチャートのステップS106において、「ていし」に一致しないと判断される場合(ステップS106で「NO」)、音声入力切替部123は、音声操作部124に対して、音声データを出力する(ステップS108)。画像形成装置10は、ネットワーク2を介して、サーバー装置200と通信を開始し(ステップS109)、音声操作部124は、ネットワーク2を介して、サーバー装置200に対して、音声データを送信する(ステップS110)。画像形成装置10は、サーバー装置200からの応答を待ち、コマンドを受信する(ステップS111)。音声操作部124は、サーバー装置200から送信されるコマンドの種類とその内容を判定し(ステップS112)、音声操作部124は、画像形成装置10において動作する実行コマンドを生成する(ステップS113)。次に、音声操作部124は、実行コマンドをジョブ制御部122に対して、出力し、ジョブ制御部122は、受け取った実行コマンドに従って、ジョブを実行する(ステップS114)。次に、全体制御部121は、制御を図6のフローチャートのステップS102へ移す。
一方、「ていし」に一致すると判断される場合(ステップS106で「YES」)、専用音声操作部125は、実行中のジョブを停止させる停止コマンドを生成し、ジョブ制御部122は、停止コマンドを実行して、実行中のジョブを停止させる(ステップS107)。次に、全体制御部121は、制御を図6のフローチャートのステップS102へ移す。
実施の形態1に記載したように、ジョブ実行中においても、サーバー装置200で音声認識処理中ではない場合、音声入力を受け付けることができる。しかし、専用音声操作部125により、停止ワードの判定がなされた音声データを、音声操作部124に対して出力した場合、専用音声操作部125において、既に判定された音声データに対する応答メッセージがスピーカー18により音声出力されることになる。応答メッセージが音声出力されると、その間は発話ができないため、ジョブ停止の発話ができない。
そこで、上記のように専用音声操作部125において、停止ワードの判定を行った音声データを除いて、音声データを音声操作部124へ出力して、サーバー装置200において音声認識処理を施させることにより、不要な応答メッセージが音声出力されないようにして、専用音声操作部125によるジョブ停止を可能としている。
(5)変形例(5)
変形例(4)では、専用音声操作部125における停止ワードの判定において、音声データの音声認識結果が「ていし」に一致しなかった場合に、その音声データを音声操作部124に出力し、その音声データに対して、サーバー装置200において音声認識処理を施させている。
このような場合に、サーバー装置200の音声認識部212において、音声データの音声認識結果に「ていし」が含まれると判定されることがある。このような場合、変形例(5)では、サーバー装置200から停止コマンドを受信したとき、専用音声操作部125(登録手段)は、受け取った音声データに対して、母音、子音、撥音の音素のパターンと一致する区間を特定して、音素を表す語句の並びに変換する。変換した音素を表す語句の並びを単語辞書に登録する。
次に、変形例(5)における動作について、図16に示すフローチャートを用いて説明する。
図6のフローチャートのステップS106において、「ていし」に一致しないと判断される場合(ステップS106で「NO」)、音声入力切替部123は、音声操作部124に対して、音声データを出力する(ステップS108)。画像形成装置10は、ネットワーク2を介して、サーバー装置200と通信を開始し(ステップS109)、音声操作部124は、ネットワーク2を介して、サーバー装置200に対して、音声データを送信する(ステップS110)。画像形成装置10は、サーバー装置200からの応答を待ち、コマンドを受信する(ステップS111)。音声操作部124は、サーバー装置200から送信されるコマンドの種類とその内容を判定し(ステップS112)、音声操作部124は、画像形成装置10において動作するコマンドを生成する(ステップS113)。次に、音声操作部124は、コマンドをジョブ制御部122に対して、出力し、ジョブ制御部122は、受け取ったコマンドに従って、処理を行う(ステップS114)。
ここで、受け取ったコマンドが停止コマンドである場合(ステップS171で「YES」)、専用音声操作部125は、受け取った音声データに対して、音声認識処理を施して得られた認識結果を単語辞書に登録する(ステップS172)。次に、全体制御部121は、制御を図6のフローチャートのステップS102へ移す。
以上説明したように、専用音声操作部125による音声認識処理の認識結果を単語辞書に登録することにより、次に、専用音声操作部125において音声認識処理を施す場合に、前回と同じ発話内容の音声データを受け取った場合に、専用音声操作部125における音声認識処理において、停止ワードの判定ができるようになる。この結果、音声データを音声操作部124に対して出力する必要がなくなり、音声データをサーバー装置200に対して送信する必要もなく、ジョブ停止の場合の遅延の発生を防ぐことができる。
(6)変形例(6)
変形例(6)の通信システム1bは、図17に示すように、画像形成装置10b、サーバー装置200b及びスマートスピーカー300(音声入力装置)から構成されている。
画像形成装置10b、サーバー装置200b及びスマートスピーカー300は、ネットワーク2bを介して、相互に接続されている。また、画像形成装置10b及びスマートスピーカー300は、ケーブル3により、接続されている。
画像形成装置10bは、実施の形態1の画像形成装置10と、略同じ構成を有している。画像形成装置10との相違点は、次の通りである。
音声入力回路111は、マイクロホン17に加えて、ケーブル3により、スマートスピーカー300に接続されている。また、音声出力回路112は、スピーカー18に加えて、ケーブル3により、スマートスピーカー300に接続されている。
サーバー装置200bは、実施の形態1のサーバー装置200と同じ構成を有している。
スマートスピーカー300は、図18に示すように、主制御部301、ネットワーク通信回路305、マイクロホン306、スピーカー307、入出力回路308、音声入力回路309及び音声出力回路310から構成されている。
主制御部301は、CPU302、ROM303及びRAM304から構成され、ROM303に記憶されているコンピュータープログラムに従って、CPU302が動作することにより、主制御部301は、その機能を果たす。RAM304は、CPU302が動作する際のワークエリアとして用いられ、また、その他のデータを記憶するために、用いられる。
ネットワーク通信回路305は、送信処理部311及び受信処理部312から構成されている。ネットワーク通信回路305は、サーバー装置200のネットワーク通信回路203と同様の構成を有している。
マイクロホン306、スピーカー307、音声入力回路309及び音声出力回路310は、それぞれ、画像形成装置10のマイクロホン17、スピーカー18、音声入力回路111及び音声出力回路112と同じ構成を有している。
入出力回路308は、ケーブル3を介して、画像形成装置10bに接続されている。
スマートスピーカー300のマイクロホン306は、利用者の音声により指示を受け付ける。マイクロホン306は、ジョブの実行を指示する第一音声を受け付け、その後、第一音声による指示を取り消す指示である第二音声を受け付ける。マイクロホン306は、入出力回路308を介して、音声データを画像形成装置10bに送信する。出力する。
画像形成装置10bは、マイクロホン306から、音声データを受信する受信回路(受信手段)を備えている。画像形成装置10bは、通常、マイクロホン306から受信した音声データをサーバー装置200bに対して送信する。
サーバー装置200bは、音声データに音声認識処理を施して、音声データに音声認識処理を施して、画像形成装置10bを動作させる実行コマンドを生成し、生成した実行コマンドを画像形成装置10bに送信する。画像形成装置10bは、受け取った実行コマンドに従って、コピージョブ、プリントジョブ、スキャンジョブ等を実行する。
利用者がその設定を誤るなどして、指示を取り消したい場合、画像形成装置10bは、音声データをサーバー装置200に送信することなく、画像形成装置10bの専用音声操作部125は、スマートスピーカー300から受信したジョブの停止の指示を示す音声データに対して音声認識を行い、ジョブの停止を示す停止コマンドを生成し、ジョブ制御部122は、停止コマンドにより、実行中のジョブを停止させる。
また、通信システム1bでは、サーバー装置200bにおいて利用者の音声に音声認識処理を施して生成した実行コマンドに基づくジョブの実行前に、画像形成装置10の専用音声操作部125は、スマートスピーカー300から受信した音声データに対して音声認識処理を施して取消コマンドを生成する。ジョブ制御部122は、取消コマンドにより、実行コマンドを取り消す。
このように、通信システム1bにおいても、通信システム1及び通信システム1aと同様に、早期に音声認識結果を取得して、実行中のジョブを停止させ、実行コマンドを取り消すことができる。
(7)変形例(7)
上記実施の形態1及び実施の形態2においては、画像形成装置10は、利用者の音声により指示を受け付け、音声データをサーバー装置200に送信する。サーバー装置200は、音声データに音声認識処理を施して、画像形成装置10を動作させる実行コマンドを生成し、生成した実行コマンドを画像形成装置10に返送する。画像形成装置10は、受け取った実行コマンドに従って、コピージョブ、プリントジョブ、スキャンジョブ等を実行する。利用者がその設定を誤るなどして、指示を取り消したい場合、画像形成装置10は、利用者の音声により、先の指示を取り消す指示を受け付ける。画像形成装置10は、利用者の音声を、サーバー装置200に送信することなく、自身で音声認識を行い、ジョブの停止を示す停止コマンドを生成し、停止コマンドにより、実行中のジョブを停止させ、又は、ジョブを実行する前の当該ジョブに対する実行コマンドを取り消す。
このように、停止コマンドにより、実行中のジョブを停止させ、又は、ジョブを実行する前の当該ジョブに対する実行コマンドを取り消した場合、その後、画像形成装置10は、利用者の音声により、停止させたジョブの再実行の指示、又は、取り消した実行コマンドの実行の指示を受け付ける、としてもよい。停止させたジョブの再実行の指示、又は、取り消した実行コマンドの実行の指示を受け付けた場合、画像形成装置10は、停止させたジョブを再実行させ、又は、取り消した実行コマンドを実行させる。
この構成により、先の指示を取り消す指示が誤っていた場合に、停止させたジョブを再実行させ、又は、取り消した実行コマンドを実行させることができる。
(8)上記実施の形態1及び2並びに上記変形例(1)〜(6)をそれぞれ組み合わせてもよい。
本開示に係る画像処理装置は、早期に音声認識結果を取得して、音声指示による実行中のジョブを停止させ、又は、音声指示を取り消すことができ、利用者の音声指示に従って、画像処理装置において、ジョブを実行する技術として有用である。
1、1a、1b 通信システム
2、2b ネットワーク
10、10b 画像形成装置
11 イメージリーダー
12 プリンター
13 給紙部
16 LEDランプ
17 マイクロホン
18 スピーカー
19 操作パネル
100 制御回路
101 CPU
101a 主制御部
102 ROM
103 RAM
104 画像メモリ
105 画像処理回路
106 ネットワーク通信回路
107 スキャナー制御回路
108 入出力回路
109 プリンター制御回路
110 記憶回路
111 音声入力回路
112 音声出力回路
114 送信処理部
115 受信処理部
121 全体制御部
122 ジョブ制御部
123 音声入力切替部
124 音声操作部
125 専用音声操作部
200、200b サーバー装置
201 主制御部
202 記憶回路
203 ネットワーク通信回路
204 送信処理部
205 受信処理部
211 全体制御部
212 音声認識部
213 ジョブ生成管理部
214 音声合成部
300 スマートスピーカー
301 主制御部
302 CPU
303 ROM
304 RAM
305 ネットワーク通信回路
306 マイクロホン
307 スピーカー
308 入出力回路
309 音声入力回路
310 音声出力回路
311 送信処理部
312 受信処理部

Claims (13)

  1. 利用者の音声指示に従って生成されたコマンドによってジョブを実行する画像処理装置であって、
    サーバー装置が利用者の第一音声に対して、音声を前記画像処理装置により認識できるテキストデータに変換する音声認識処理を施して生成した第一コマンドを受信する受信手段と、
    利用者の第二音声に前記音声認識処理を施して第二コマンドを生成する音声認識手段と、
    前記第二コマンドにより、前記第一コマンドに基づく実行中のジョブの停止、及び、ジョブを実行する前の当該ジョブに対する前記第一コマンドの取消しのいずれか一方を行う制御手段と
    を備えることを特徴とする画像処理装置。
  2. さらに、利用者から音声の入力を受け付ける入力手段を備え、
    前記入力手段は、前記第一音声の入力を受け付けた後に、前記第二音声の入力を受け付け、
    前記第二音声は、前記第一音声による指示を取り消す指示である
    ことを特徴とする請求項1に記載の画像処理装置。
  3. さらに、前記画像処理装置と直接、接続された外部の音声入力装置から、利用者の音声を受信する受信手段を備え、
    前記受信手段は、前記第一音声を受信した後に、前記第二音声を受信し、
    前記第二音声は、前記第一音声による指示を取り消す指示である
    ことを特徴とする請求項1に記載の画像処理装置。
  4. さらに、ジョブの実行を管理する管理手段を備え、
    前記管理手段により、前記第一コマンドに基づくジョブが実行中として管理されている場合、前記制御手段は、前記第二コマンドにより、実行中の前記ジョブを停止させる
    ことを特徴とする請求項2又は3に記載の画像処理装置。
  5. さらに、ジョブの実行を管理する管理手段を備え、
    前記制御手段は、前記管理手段により、前記第一コマンドに基づくジョブが実行中として管理されている場合、前記第二コマンドにより、実行中として管理されている全てのジョブを停止させる
    ことを特徴とする請求項2又は3に記載の画像処理装置。
  6. 前記第二コマンドの生成の後に、前記第一コマンドを受信する場合、前記制御手段は、前記第二コマンドにより、前記第一コマンドを取り消す
    ことを特徴とする請求項2又は3に記載の画像処理装置。
  7. 前記第一コマンドは、プリントジョブ、コピージョブ又はスキャンジョブの実行を指示する命令である
    ことを特徴とする請求項2又は3に記載の画像処理装置。
  8. 前記第二音声は、感嘆詞を含み、
    前記音声認識手段は、利用者の発話内容を想定した語句として、感嘆詞を含む音声辞書を有し、
    前記音声認識手段は、前記第二音声に音声認識を施して文字列を生成し、音声辞書から、生成した前記文字列に対応する語句として、感嘆詞を抽出し、抽出された感嘆詞を用いて、前記第二コマンドを生成する
    ことを特徴とする請求項2又は3に記載の画像処理装置。
  9. 前記音声認識手段は、前記第二音声に音声認識を施して文字列を生成し、さらに、生成した前記文字列が所定の閾値より長いか否かを判断し、
    さらに、前記文字列が所定の閾値より長いと判断される場合、利用者に注意を喚起するメッセージを音声として出力する音声出力手段を備える
    ことを特徴とする請求項2又は3に記載の画像処理装置。
  10. さらに、前記制御手段により、前記第一コマンドに基づく実行中のジョブを停止させ、又は、前記第一コマンドを取り消す場合、その旨を示すメッセージを音声として出力する音声出力手段を備える
    ことを特徴とする請求項2又は3に記載の画像処理装置。
  11. 前記音声認識手段は、前記第二音声に音声認識を施して文字列を生成し、音声辞書から、生成した前記文字列に対応する語句を検索し、
    さらに、前記音声認識手段により、前記音声辞書から、前記文字列に対応する語句を発見できない場合、前記第二音声に音声認識を施すために、前記第二音声を前記サーバー装置に対して送信する送信手段
    を備えることを特徴とする請求項2又は3に記載の画像処理装置。
  12. さらに、前記サーバー装置から、受け付けた前記第二音声に対する音声認識処理の結果の語句を受信する受信手段と、
    受信した語句を前記音声辞書に登録する登録手段と
    を備えることを特徴とする請求項11に記載の画像処理装置。
  13. 利用者の音声指示に従って生成されたコマンドによってジョブを実行する画像処理装置で用いられる制御方法であって、
    サーバー装置が利用者の第一音声に対して、音声を前記画像処理装置により認識できるテキストデータに変換する音声認識処理を施して生成した第一コマンドを受信する受信ステップと、
    利用者の第二音声に前記音声認識処理を施して第二コマンドを生成する音声認識ステップと、
    前記第二コマンドにより、前記第一コマンドに基づく実行中のジョブの停止、及び、ジョブを実行する前の当該ジョブに対する前記第一コマンドの取消しのいずれか一方を行う制御ステップと
    を含むことを特徴とする制御方法。
JP2019224219A 2019-12-12 2019-12-12 画像処理装置及び制御方法 Pending JP2021091182A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019224219A JP2021091182A (ja) 2019-12-12 2019-12-12 画像処理装置及び制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019224219A JP2021091182A (ja) 2019-12-12 2019-12-12 画像処理装置及び制御方法

Publications (1)

Publication Number Publication Date
JP2021091182A true JP2021091182A (ja) 2021-06-17

Family

ID=76311464

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019224219A Pending JP2021091182A (ja) 2019-12-12 2019-12-12 画像処理装置及び制御方法

Country Status (1)

Country Link
JP (1) JP2021091182A (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009277037A (ja) * 2008-05-15 2009-11-26 Konica Minolta Business Technologies Inc データ処理装置、音声変換方法および音声変換プログラム
JP2010147624A (ja) * 2008-12-17 2010-07-01 Konica Minolta Business Technologies Inc 通信装置、検索処理方法および検索処理プログラム
JP2014203024A (ja) * 2013-04-09 2014-10-27 コニカミノルタ株式会社 制御装置、画像形成装置、端末装置、制御方法、および制御プログラム
JP2019016068A (ja) * 2017-07-04 2019-01-31 富士ゼロックス株式会社 情報処理装置及びプログラム
JP2019144759A (ja) * 2018-02-19 2019-08-29 コニカミノルタ株式会社 画像処理装置、画像処理装置の制御方法、およびプログラム
JP2019526177A (ja) * 2016-05-13 2019-09-12 グーグル エルエルシー 媒体出力装置間での媒体転送
JP2019185734A (ja) * 2018-03-30 2019-10-24 株式会社リコー 情報処理システム、情報処理装置、情報処理方法及び情報処理プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009277037A (ja) * 2008-05-15 2009-11-26 Konica Minolta Business Technologies Inc データ処理装置、音声変換方法および音声変換プログラム
JP2010147624A (ja) * 2008-12-17 2010-07-01 Konica Minolta Business Technologies Inc 通信装置、検索処理方法および検索処理プログラム
JP2014203024A (ja) * 2013-04-09 2014-10-27 コニカミノルタ株式会社 制御装置、画像形成装置、端末装置、制御方法、および制御プログラム
JP2019526177A (ja) * 2016-05-13 2019-09-12 グーグル エルエルシー 媒体出力装置間での媒体転送
JP2019016068A (ja) * 2017-07-04 2019-01-31 富士ゼロックス株式会社 情報処理装置及びプログラム
JP2019144759A (ja) * 2018-02-19 2019-08-29 コニカミノルタ株式会社 画像処理装置、画像処理装置の制御方法、およびプログラム
JP2019185734A (ja) * 2018-03-30 2019-10-24 株式会社リコー 情報処理システム、情報処理装置、情報処理方法及び情報処理プログラム

Similar Documents

Publication Publication Date Title
US20200193991A1 (en) Image processing system, image forming apparatus, voice input inhibition determination method, and recording medium
JP2023051952A (ja) 音声操作システム及び音声操作方法
US9531907B2 (en) Method for selecting sheet feed portion for image formation, image forming apparatus, and information processing apparatus
JP3595665B2 (ja) 画像入出力装置および管理方法
JP2021091182A (ja) 画像処理装置及び制御方法
JP2006133858A (ja) 画像入出力装置、その制御法および記録媒体
JP6582977B2 (ja) 画像形成装置および画像形成装置の制御プログラム
JP2000086079A (ja) 画像形成装置
JP2005219374A (ja) 画像出力装置及びこれを用いた画像出力システム
JP7476527B2 (ja) サーバー装置、通信システム、制御方法及び制御用のコンピュータープログラム
JP2021081505A (ja) 画像処理装置及び制御方法
JP2021052220A (ja) 画像処理システム、音声応答処理方法及びプログラム
JP4507626B2 (ja) 画像出力装置、制御装置及びこれらを用いた画像出力システム
JP2020065199A (ja) ジョブ管理装置、複合機及びジョブ管理方法
US11368593B2 (en) Image forming system allowing voice operation, control method therefor, and storage medium storing control program therefor
JP7115259B2 (ja) 画像形成装置及びプログラム
JP2003326811A (ja) 画像形成装置
WO2016158966A1 (ja) 電子機器及び画像形成装置
JP2010243717A (ja) 画像処理装置
JP2021170154A (ja) 制御装置及びプログラム
JP2021129186A (ja) 画像形成装置及びその制御方法
JP2006081010A (ja) 画像形成システム
JPH0825759A (ja) 画像形成装置
JP2005267069A (ja) 画像形成装置及びこれに用いる制御装置
JP2008269234A (ja) 画像形成装置及びその制御方法、並びにプログラム及び記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221117

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230704

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20231226