JP2023007792A - 画像形成装置 - Google Patents
画像形成装置 Download PDFInfo
- Publication number
- JP2023007792A JP2023007792A JP2021110864A JP2021110864A JP2023007792A JP 2023007792 A JP2023007792 A JP 2023007792A JP 2021110864 A JP2021110864 A JP 2021110864A JP 2021110864 A JP2021110864 A JP 2021110864A JP 2023007792 A JP2023007792 A JP 2023007792A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- user
- processor
- function
- jobs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000015572 biosynthetic process Effects 0.000 title abstract 3
- 238000000034 method Methods 0.000 claims description 21
- 230000005236 sound signal Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 111
- 230000002093 peripheral effect Effects 0.000 description 48
- 238000012545 processing Methods 0.000 description 26
- 230000015654 memory Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 101100215341 Arabidopsis thaliana ACT12 gene Proteins 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/0035—User-machine interface; Control console
- H04N1/00352—Input means
- H04N1/00403—Voice input means, e.g. voice commands
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/00912—Arrangements for controlling a still picture apparatus or components thereof not otherwise provided for
- H04N1/00915—Assigning priority to, or interrupting, a particular operation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/0035—User-machine interface; Control console
- H04N1/00405—Output means
- H04N1/00488—Output means providing an audible output to the user
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/44—Secrecy systems
- H04N1/4406—Restricting access, e.g. according to user identity
- H04N1/442—Restricting access, e.g. according to user identity using a biometric data reading device
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Facsimiles In General (AREA)
- Accessory Devices And Overall Control Thereof (AREA)
Abstract
Description
本発明の実施形態は、画像形成装置に関する。
従来、デジタル複合機などの画像形成装置については、音声認識を用いてジョブの実行指示などの操作を音声で行える音声操作システムが提案されている。しかしながら、従来の画像形成装置に適用される音声操作システムは、音声操作を実行する話者を識別する機能がないものが多い。このため、音声操作システムを適用したデジタル複合機などの画像形成装置は、誰でも音声によってジョブの実行などを指示できてしまうという問題点がある。
また、音声操作システムにユーザを識別する機能を設けることで、個々のユーザに対する使用権限の確認することが可能となる。しかしながら、画像形成装置が音声での指示を受付けることで、複数のユーザが異なる複数のジョブを同時期に指示してしまうことが容易に起こり得る。このため、複数のユーザが同時期に音声でジョブを指示した場合であっても、複数のユーザから複数のジョブを円滑に処理できる画像形成装置が望まれている。
本発明が解決しようとする課題は、ユーザが音声で指示するジョブを円滑に運用することができる画像形成装置を提供することである。
実施形態によれば、画像形成装置は、音声入力インターフェースとプロセッサとを有する。音声入力インターフェースは、マイクが入力する入力音声を取得する。プロセッサは、前記音声入力インターフェースで取得する入力音声から音声で指示されたジョブの内容を認識すると共に前記入力音声から話者を識別し、同時期に複数の話者が発した音声を取得した場合、複数の話者が発した音声から認識した複数のジョブの実行順番を設定し、設定した実行順番で複数のジョブを実行する。
以下、本実施形態について、図面を参照しながら説明する。
まず、実施形態に係る画像形成装置としてのデジタル複合機(MFP,Multi-Functional Peripheral)1の構成について説明する。
図1は、実施形態に係る画像形成装置としてのデジタル複合機1の構成例を示すブロック図である。
図1に示すように、デジタル複合機1は、スキャナ2、プリンタ3、および、操作パネル4を有する。さらに、デジタル複合機1は、音声を入力するマイク6および音声を出力するスピーカ7を有する。
まず、実施形態に係る画像形成装置としてのデジタル複合機(MFP,Multi-Functional Peripheral)1の構成について説明する。
図1は、実施形態に係る画像形成装置としてのデジタル複合機1の構成例を示すブロック図である。
図1に示すように、デジタル複合機1は、スキャナ2、プリンタ3、および、操作パネル4を有する。さらに、デジタル複合機1は、音声を入力するマイク6および音声を出力するスピーカ7を有する。
スキャナ2は、デジタル複合機の本体上部に設置する。スキャナ2は、原稿の画像を光学的に読み取る装置である。スキャナ2は、制御部20および画像読取部21を備える。画像読取部21は、原稿台ガラス上にセットされた原稿の画像を読み取る。また、画像読取部21は、自動原稿送り装置(ADF:Auto Document Feeder)が搬送する原稿の画像を読み取る。
スキャナ2の制御部20は、スキャナ2の制御を司る。制御部20は、プロセッサおよびメモリなどで構成する。制御部20は、メモリが記憶するプログラムをプロセッサが実行することにより各種の処理を実現する。例えば、制御部20は、システム制御部5からの動作指示に応じて画像読取部21によるスキャン処理を実行する。
プリンタ3は、用紙などの媒体に画像を形成する。プリンタ3は、制御部30および画像形成部31を有する。画像形成部31は、給紙カセットから取り出した用紙に画像を形成する。画像形成部31は、どのような画像形成方式で画像を形成するものであっても良い。例えば、画像形成部31は、電子写真方式である場合、感光体ドラムなどの像担持体上に現像剤像を形成し、像担持体上の現像剤像を転写する。また、画像形成部31は、インクジェット方式である場合、インクジェットヘッドが吐出するインクによって用紙に画像を形成する。
プリンタ3の制御部30は、プリンタ3の制御を司る。制御部30は、プロセッサおよびメモリなどで構成する。制御部30は、メモリが記憶するプログラムをプロセッサが実行することにより各種の処理を実現する。例えば、制御部30は、システム制御部5からの動作指示に応じて画像形成部31による画像形成処理(印刷処理)を実行する。
操作パネル4は、ユーザインターフェースである。操作パネル4は、制御部40、表示部(ディスプレイ)41、タッチパネル42、および、操作ボタン43を有する。表示部41は、操作案内などを表示する。タッチパネル42は、表示部41の表示画面上に設ける。タッチパネル42は、表示部41の表示画面上においてユーザがタッチした部位を検知する。
操作パネル4の制御部40は、操作パネル4の制御を司る。制御部40は、プロセッサおよびメモリなどで構成する。制御部40は、メモリが記憶するプログラムをプロセッサが実行することにより各種の処理を実現する。例えば、制御部40は、システム制御部5からの指示に応じて表示部41の表示を制御する。
システム制御部5は、MFP1全体を制御する。システム制御部5は、プロセッサ50、ROM51、RAM52、記憶装置53、通信インターフェース(I/F)54、インターフェース55、および、インターフェース56などを有する。
プロセッサ50は、プログラムを実行することにより種々の処理機能を実現する。プロセッサ50は、例えば、CPUである。プロセッサ50は、インターフェースを介して、スキャナ2の制御部20、プリンタ3の制御部30、および操作パネル4の制御部40に接続する。
RAM52は、ワーキングメモリ或はバッファメモリとして機能する。ROM51は、書換え不可な不揮発性メモリである。ROM51は、プログラムを保存するプログラムメモリとして機能する。プロセッサ50は、RAM52を使用してROM51あるいは記憶装置53に記憶したプログラムを実行することにより種々の処理機能を実現する。
記憶装置53は、書換え可能な不揮発性のメモリである。例えば、記憶装置53は、HDD(ハードディスクドライブ)あるいはSSD(ソリッドステートドライブ)などの記憶装置で構成する。記憶装置53は、制御データ、制御プログラム、および、設定情報などのデータを記憶する。
記憶装置53は、記憶領域531、532、533を有する。記憶領域531は、種々のプログラムを記憶する。例えば、記憶領域531は、音声の内容を認識する音声認識プログラムおよび音声から話者を特定する人物識別(人物認証)プログラムを記憶する。プロセッサ50は、音声認識プログラムを実行することによって、マイク6などから入力した音声を認識する。また、プロセッサ50は、人物識別プログラムを実行することによって、入力した音声を発した人物を特定する個人(認証)識別を行う。
記憶領域532は、予め登録したユーザ(登録者)に関する情報(ユーザ情報)を格納するユーザ情報データベースを保存する。記憶領域533は、登録者が設定した音声認識によって実行する機能に関する情報を格納する登録機能データベースを保存する。記憶領域532に記憶するユーザ情報および記憶領域533に記憶する情報については、後で詳細に説明するものとする。
通信インターフェース54は、外部装置とデータ通信を行うためのインターフェースである。例えば、通信インターフェース54は、ネットワークを介してPCおよび携帯端末などのユーザ端末と通信する。通信インターフェース54は、PCなどのユーザ端末から画像の印刷(プリントジョブ)などをジョブの実行の指示する音声情報を入力するようにしても良い。
インターフェース55は、音声を入力するマイク6を接続する。インターフェース55は、音声入力インターフェースの一例である。インターフェース55は、マイク6が入力する音声(入力音声)を取得するためのインターフェースである。プロセッサ50は、インターフェース55を介してマイク6に入力された音声を取得する。なお、マイクがユーザ端末101に接続されるマイク106である場合、通信インターフェース54が音声入力インターフェースとして機能する。
インターフェース56は、音声を出力するスピーカ7を接続する。インターフェース56は、音声出力インターフェースの一例である。インターフェース56は、スピーカ7が発する音声の音声信号を出力するためのインターフェースである。プロセッサ50は、インターフェース56を介してスピーカ7が発する音声の音声信号を出力する。なお、スピーカがユーザ端末101に接続されるスピーカ107である場合、通信インターフェース54が音声出力インターフェースとして機能する。
図2は、デジタル複合機1にユーザ端末101が接続される処理システムの構成例を概略的に示す図である。
図2に示すネットワークシステムにおいて、デジタル複合機1には、複数のユーザ端末101が接続される。各ユーザ端末101は、パーソナルコンピュータ(PC)であっても良いし、スマートフォンやタブレットPCなどの携帯端末であっても良い。ユーザ端末101は、マイク106およびスピーカ107を備える。マイク106およびスピーカ107は、ユーザ端末101が備えるものであっても良いし、インターフェースを介して接続されるものであっても良い。
図2に示すネットワークシステムにおいて、デジタル複合機1には、複数のユーザ端末101が接続される。各ユーザ端末101は、パーソナルコンピュータ(PC)であっても良いし、スマートフォンやタブレットPCなどの携帯端末であっても良い。ユーザ端末101は、マイク106およびスピーカ107を備える。マイク106およびスピーカ107は、ユーザ端末101が備えるものであっても良いし、インターフェースを介して接続されるものであっても良い。
デジタル複合機1は、各ユーザ端末101からのジョブの実行指示を受付ける。例えば、デジタル複合機1は、ユーザ端末101のマイク106に入力された音声によるジョブの実行指示を取得する。また、デジタル複合機1は、ユーザ端末101のマイク106に入力された音声の認識結果に応じてジョブの実行内容を音声でスピーカ107から出力させるようにしても良い。
次に、実施形態に係る画像形成装置としてのデジタル複合機1の音声認識による動作について説明する。
図3は、デジタル複合機1が記憶領域532に保存するユーザ情報データベース(DB)の構成例を示す図である。
記憶領域532のユーザ情報データベースに記憶するユーザ情報は、デジタル複合機1に対して音声での動作(ジョブ)の実行指示を行う登録者に関する情報である。デジタル複合機1は、ユーザ情報データベースにユーザ情報が登録されているユーザに対して音声指示によるジョブの実行を許可する。また、デジタル複合機1は、ユーザ情報DBに格納する情報に基づいてユーザに対して許容される処理を制限する機能も有する。
図3は、デジタル複合機1が記憶領域532に保存するユーザ情報データベース(DB)の構成例を示す図である。
記憶領域532のユーザ情報データベースに記憶するユーザ情報は、デジタル複合機1に対して音声での動作(ジョブ)の実行指示を行う登録者に関する情報である。デジタル複合機1は、ユーザ情報データベースにユーザ情報が登録されているユーザに対して音声指示によるジョブの実行を許可する。また、デジタル複合機1は、ユーザ情報DBに格納する情報に基づいてユーザに対して許容される処理を制限する機能も有する。
図3に示す例では、ユーザ情報データベースは、ユーザID、ユーザ名、音声データ、実行権限、使用量の上限、機能ID、機能名、優先度などの情報をユーザ情報としてユーザごとに格納する。
ユーザIDは、ユーザを識別するための識別情報である。ユーザ名は、ユーザの名称である。音声データは、当該ユーザを入力音声から識別するための人物識別用の音声データである。音声データは、音声から抽出される音声の特徴データであっても良い。実行権限は、当該ユーザに対して当該デジタル複合機1での実行が許可されている機能を示す情報である。使用量の上限は、当該ユーザに使用が許可されている使用量又は使用条件を示す情報である。
ユーザIDは、ユーザを識別するための識別情報である。ユーザ名は、ユーザの名称である。音声データは、当該ユーザを入力音声から識別するための人物識別用の音声データである。音声データは、音声から抽出される音声の特徴データであっても良い。実行権限は、当該ユーザに対して当該デジタル複合機1での実行が許可されている機能を示す情報である。使用量の上限は、当該ユーザに使用が許可されている使用量又は使用条件を示す情報である。
機能IDおよび機能名は、当該ユーザが登録した音声で実行する機能(音声実行機能)を示す情報である。機能IDは、当該ユーザが登録した音声実行機能を識別するための識別情報である。機能名は、当該ユーザが登録した音声実行機能の名称である。優先度は、ユーザが指示するジョブの実行に係る優先度を示す情報である。優先度は、シリアルに設定した優先順番であって良いし、優先順番を判定するための情報(グループ名、役職など)であっても良い。
例えば、ユーザIDが「USER1」のユーザは、ユーザ名が「AAAA」であり、コピー(Copy)、スキャン(Scan)、印刷(Print)などのジョブを実行する権限を有する。また、「USER1」のユーザは、カラー印刷が100枚までに制限され、モノクロ印刷には枚数制限がない。さらに、「USER1」のユーザは、機能名が「節約コピー」で機能IDが「FUNC1」の機能を、音声指示によって実行可能な登録済みの機能(登録済み機能)として登録する。また、「USER1」のユーザは、優先度が「1」であるため、他のユーザよりも優先して先にジョブが実行される。
また、図3に示す例において、ユーザIDが「USER2」のユーザは、ユーザ名が「BBBB」であり、コピーおよびプリントの実行権限を有する。また、「USER2」のユーザは、カラー印刷が50枚、モノクロ印刷が50枚までに制限される。さらに、「USER2」のユーザは、機能名が「会議資料用コピー」で機能IDが「FUNC2」の機能を、音声指示によって実行可能な登録済みの機能(登録済み機能)として登録する。また、「USER2」のユーザは、優先度が「2」であるため、ジョブの実行順番が優先度が「1」のユーザの次に優先して設定される。
図4は、デジタル複合機1が記憶領域533に保存する機能データベース(DB)の構成例を示す図である。
図4に示す記憶領域533に保存する機能データベースは、デジタル複合機1がユーザからの音声指示によって実行可能とする機能(音声実行機能)に関する情報を格納する。デジタル複合機1は、音声による話者の識別によって特定したユーザからの音声指示に応じて実行すべき音声実行機能を機能データベースに登録した情報から特定する。
図4に示す記憶領域533に保存する機能データベースは、デジタル複合機1がユーザからの音声指示によって実行可能とする機能(音声実行機能)に関する情報を格納する。デジタル複合機1は、音声による話者の識別によって特定したユーザからの音声指示に応じて実行すべき音声実行機能を機能データベースに登録した情報から特定する。
図4に示す例において、機能データベースは、機能ID、機能名、および、設定値などの情報を格納する。機能IDは、音声実行機能を識別するための識別情報である。機能名は、ユーザが登録した音声実行機能の名称である。設定値は、音声実行機能の内容を示す設定情報である。
図4に示す例において、機能IDが「FUNC1」の音声実行機能は、機能名が「節約コピー」であり、設定値で示される実行内容のコピージョブである。具体的には、機能IDが「FUNC1」の機能の設定値は、カラーモードがモノクロ、濃度が自動、用紙がA4、両面モードが片面から両面、Nin1モードが2in1である。これにより、機能IDが「FUNC1」の音声実行機能は、モノクロの自動濃度設定で、A4の用紙の両面に原稿の画像を2in1で印刷するコピージョブに設定される。
また、機能IDが「FUNC2」の機能は、機能名が「会議資料用コピー」であり、設定値で示される実行内容のコピージョブである。機能IDが「FUNC2」の機能の設定値は、カラーモードがカラー、濃度が自動、用紙がA4、両面モードが片面から両面、Nin1モードが「なし」である。これにより、機能IDが「FUNC2」の音声実行機能は、カラーの自動濃度設定で、A4の用紙の両面に原稿の画像を印刷するコピージョブに設定される。
次に、デジタル複合機1においてユーザが音声で実行を指示する音声実行機能の登録処理について説明する。
図5は、デジタル複合機1においてユーザが音声で実行する音声実行機能の登録処理の動作例を説明するためのフローチャートである。
まず、デジタル複合機1のプロセッサ50は、ユーザからの音声指示に応じて当該ユーザに対する音声実行機能の登録処理を受付ける。ユーザ情報を登録済みのユーザは、マイク6又はユーザ端末101のマイク106に向けてデジタル複合機1に音声で実行を指示する機能の登録処理を指示する。デジタル複合機1は、ユーザが発した音声実行機能の登録を指示する音声指示を入力音声として取得する。デジタル複合機1は、入力音声を認識して音声実行機能の登録指示を認識し、認識した内容で音声実行機能を登録する。
図5は、デジタル複合機1においてユーザが音声で実行する音声実行機能の登録処理の動作例を説明するためのフローチャートである。
まず、デジタル複合機1のプロセッサ50は、ユーザからの音声指示に応じて当該ユーザに対する音声実行機能の登録処理を受付ける。ユーザ情報を登録済みのユーザは、マイク6又はユーザ端末101のマイク106に向けてデジタル複合機1に音声で実行を指示する機能の登録処理を指示する。デジタル複合機1は、ユーザが発した音声実行機能の登録を指示する音声指示を入力音声として取得する。デジタル複合機1は、入力音声を認識して音声実行機能の登録指示を認識し、認識した内容で音声実行機能を登録する。
プロセッサ50は、ユーザがマイク6(又はマイク106)に入力した音声実行機能の登録指示を含む音声(入力音声)を取得する(ACT11)。入力音声を取得すると、プロセッサ50は、入力音声に対して音声認識と人物識別とを実行する。
すなわち、プロセッサ50は、音声認識プログラムを実行することにより入力音声の内容を認識する(ACT12)。プロセッサ50は、音声認識した入力音声の内容に応じた処理を実行する。ここでは、ACT11で取得した入力音声の内容が音声実行機能の登録指示であったものとする。
また、プロセッサ50は、人物識別プログラムを実行することにより入力音声の話者を識別する(ACT13)。ここでは、プロセッサ50は、入力音声の話者がユーザ情報データベースに登録されたどのユーザであるかを特定するものとする。例えば、プロセッサ50は、入力音声の特徴量とユーザ情報データベースに登録されている各ユーザの音声データ(人物識別用の音声データ)の特徴量との類似度を算出する。プロセッサ50は、入力音声の特徴量との類似度が所定値以上となった音声データがある場合、当該音声データのユーザが入力音声の話者であると判定する。
プロセッサ50は、入力音声の話者がユーザ情報データベースに音声データを登録済みのユーザであると特定できなかった場合(ACT14、NO)、機能の登録処理を終了する。
入力音声の話者がユーザ情報データベースに登録済みのユーザであることが特定できた場合(ACT14、YES)、プロセッサ50は、当該ユーザに対して音声実行機能の登録を実行する(ACT15)。例えば、プロセッサ50は、当該ユーザがマイク6に向けて発する音声実行機能の内容を含む入力音声を取得する。プロセッサ50は、音声認識プログラムを実行することによりユーザが発生した音声から音声実行機能の内容を認識する。
プロセッサ50は、入力音声の認識結果からユーザが登録を指示した音声実行機能の内容を特定する。プロセッサ50は、特定した音声実行機能の内容が当該ユーザが実施可能な機能であれば、音声実行機能に対して機能IDを発行する。プロセッサ50は、発行した機能IDと機能名とを当該ユーザのユーザ情報としてユーザ情報データベースに登録する。また、プロセッサ50は、特定した音声実行機能の内容を示す設定値を決定し、機能IDと機能名とに対応づけて音声実行機能の内容を示す設定値を機能データベースに登録する。
例えば、登録済みのユーザがマイク6に向けて「MFPに機能を登録」、「機能名は「節約コピー」、両面、モノクロ、2in1で登録」という音声を発したものとする。すると、プロセッサ50は、マイク6からユーザが「MFPに機能を登録」と発した音声をマイク6が集音し、マイク6が集音した音声を入力音声として入力する。プロセッサ50は、音声認識プログラムを実行することにより入力音声の内容が「MFPに機能を登録」であることを認識する。また、プロセッサ50は、人物識別プログラムを実行することにより入力音声の話者であるユーザを特定する。
さらに、プロセッサ50は、音声認識によって入力音声から「機能名は「節約コピー」、両面、モノクロ、2in1で登録」という音声実行機能の内容を特定する。プロセッサ50は、特定した音声実行機能の内容が当該ユーザが実施可能な機能であれば、機能IDを発行する。プロセッサ50は、発行した機能IDと機能名とを当該ユーザに対応づけてユーザ情報データベースに登録する。また、プロセッサ50は、特定した音声実行機能の内容を示す設定値を機能IDと機能名とに対応づけて機能データベースに登録する。
次に、実施形態に係る画像形成装置としてのデジタル複合機1がユーザからの音声指示に応じて処理を実行する動作について説明する。
図6は、実施形態に係る画像形成装置としてのデジタル複合機1がユーザからの音声指示に応じて各種の機能を実行する動作例を説明するためのフローチャートである。
デジタル複合機1のプロセッサ50は、ユーザからの音声指示に応じて各ユーザが指示するジョブの処理を実行する。ユーザ情報を登録済みのユーザは、マイク6又はユーザ端末101のマイク106に向けて、デジタル複合機1で実行するジョブを音声で発声する。デジタル複合機1は、ユーザが発したジョブの実行を指示する音声指示を入力音声として取得する。デジタル複合機1は、入力音声を認識して音声指示の内容を認識し、認識した内容でジョブの実行を受付ける。
図6は、実施形態に係る画像形成装置としてのデジタル複合機1がユーザからの音声指示に応じて各種の機能を実行する動作例を説明するためのフローチャートである。
デジタル複合機1のプロセッサ50は、ユーザからの音声指示に応じて各ユーザが指示するジョブの処理を実行する。ユーザ情報を登録済みのユーザは、マイク6又はユーザ端末101のマイク106に向けて、デジタル複合機1で実行するジョブを音声で発声する。デジタル複合機1は、ユーザが発したジョブの実行を指示する音声指示を入力音声として取得する。デジタル複合機1は、入力音声を認識して音声指示の内容を認識し、認識した内容でジョブの実行を受付ける。
プロセッサ50は、インターフェース55によりユーザがマイク6(又はマイク106)に入力するジョブの実行指示を含む音声(入力音声)を取得する(ACT111)。例えば、ユーザは、ジョブの内容を音声で指示する。具体的には、ユーザは、「両面、モノクロ、2in1でコピー」と音声で発することによりジョブの内容を音声で指示する。また、ユーザは、音声実行機能として登録した機能の実行を音声で指示しても良い。例えば、「節約コピー」と音声を発することで、機能名を「節約コピー」として登録した音声実行機能の実行を音声で指示する。
プロセッサ50は、インターフェース55により入力音声を取得すると、入力音声に対して音声認識と人物識別とを実行する。プロセッサ50は、音声認識プログラムを実行することにより入力音声の内容を認識する(ACT112)。ここでは、ACT11で取得する入力音声の内容がジョブの実行指示であったものとする。
また、プロセッサ50は、人物識別プログラムを実行することにより入力音声のユーザ(話者)を識別する(ACT113)。例えば、プロセッサ50は、入力音声の特徴量とユーザ情報データベースに登録されている各ユーザの音声データ(人物識別用の音声データ)の特徴量との類似度によって話者を識別する。
プロセッサ50は、入力音声の話者がユーザ情報データベースに登録済みのユーザであると特定できなかった場合(ACT114、NO)、ジョブの実行を受付けないようにする。ただし、未登録のユーザ(登録済みのユーザと認識されなかったユーザ)に対しても、特定の機能のジョブは受付けるような運用としても良い。この場合、プロセッサ50は、入力音声から認識したジョブの内容が未登録のユーザに対して許可されるジョブ内容であれば、ACT115以降の処理を実行するようにすれば良い。
入力音声の話者がユーザ情報データベースに登録済みのユーザであることが特定できた場合(ACT114、YES)、プロセッサ50は、当該ユーザの実行権限を確認する(ACT115)。プロセッサ50は、入力音声から認識したジョブの内容に当該ユーザに実行権限がない機能が含まれていないかを判断する。例えば、入力音声から認識したジョブの内容に当該ユーザに実行権限がない機能が含まれている場合、プロセッサ50は、当該ジョブの実行権限なしと判断する。当該ユーザに実行権限がないと判断した場合(ACT115、NO)、プロセッサ50は、入力音声で指示されたジョブの実行を中止する。
音声指示されたジョブの実行権限があると判断した場合(ACT115、YES)、プロセッサ50は、音声指示されたジョブが当該ユーザに設定された使用量の上限以内となるか否かを判断する(ACT116)。プロセッサ50、音声指示されたジョブを実行した場合における当該ユーザの使用量を算出する。プロセッサ50は、算出した使用量が当該ユーザに設定された使用量の上限以内である否かを判断する。音声指示されたジョブの実行によって使用量が上限を超えると判断した場合(ACT116、NO)、プロセッサ50は、音声指示されたジョブの実行を中止する。
音声指示されたジョブを実行しても使用量が上限以内であると判断した場合(ACT116、YES)、プロセッサ50は、同時期に複数のユーザから複数のジョブが指示されているか否かを判断する(ACT117)。ジョブを音声で指示する場合、音声指示を完了するまでの間に別のユーザが別のジョブを指示することが想定される。
デジタル複合機1に対するジョブの音声指示は、1人のユーザが発話を開始してから発話を終了するまでに時間を要する。これに対して、デジタル複合機1のプロセッサ50は、複数のユーザが同時期に発する音声を各ユーザが発する音声ごとに認識する。これにより、同時期に複数のユーザがそれぞれ音声でジョブを指示した場合であっても、デジタル複合機1は、複数のユーザからのジョブの音声指示を受付けることが可能となる。
同時期に音声入力された複数のユーザからの複数のジョブを受付ける場合(ACT117)、プロセッサ50は、複数のジョブを実行するための処理手順(実行順番)を設定する(ACT118)。プロセッサ50は、同時期に複数の話者から指示された複数のジョブを実行する処理手順として、並行して実行する処理とシリアルに実行する処理の実行順番とを設定する。
プロセッサ50は、複数のジョブに対して並行して実施可能な処理を特定する。プロセッサ50は、並行して実行可能な処理を並行して実行するように複数のジョブの処理手順を設定する。例えば、プロセッサ50は、スキャナ2を用いた処理(スキャンジョブ)とプリンタ3を用いた処理(プリントジョブ)とを並行して実行するように処理手順を設定する。第1のユーザが音声指示でスキャンジョブした場合、プロセッサ50は、同時期に第2のユーザが指示したプリントジョブを第1のユーザのスキャンジョブと並行して実行するように設定する。
また、プロセッサ50は、複数のジョブにおいてシリアルに実行する処理に対する実行順番を設定する。例えば、複数のユーザから指示された複数のプリントジョブは、1つのプリンタを使用するため並列で実行することができない。このため、プロセッサ50は、複数のユーザから指示された複数のプリントジョブをシリアルに実行するための実行順番を設定する。
プロセッサ50は、複数のジョブを音声指示したユーザごとに設定される優先度に基づいて実行順番を設定する。図3に示す例では、ユーザIDが「USER1」のユーザ(ユーザ1とする)が優先度「1」でユーザIDが「USER1」のユーザ(ユーザ2とする)が優先度「2」である。このため、ユーザ1とユーザ2とが同時期にシリアルに実行するジョブを音声で指示した場合、プロセッサ50は、ユーザ1のジョブの次にユーザのジョブを実行するように実行順番を設定する。
また、プロセッサ50は、音声指示によって受付けた各ジョブに対する実行内容を決定する(ACT119)。1つのユーザからのジョブを受付けている場合、プロセッサ50は、ユーザによる音声指示の内容とデフォルトの設定などに従ってジョブの実行内容を設定する。
また、複数のユーザからの複数のジョブを受付けている場合、プロセッサ50は、各ユーザが複数のジョブの実行結果が分かり易くなるように、各ジョブの実行内容を決定する。例えば、同時期に複数のユーザからの複数のプリントジョブを受付けた場合、プロセッサ50は、各ユーザのプリントジョブごとに用紙の出力方法を設定する。
具体例として、プリンタ3が複数の出力トレイを備える場合、プロセッサ50は、各ユーザのプリントジョブの結果が異なる出力トレイに出力されるように各ジョブの実行内容を設定する。これにより、同時期に複数のユーザから指示されたプリントジョブの結果をそれぞれ異なる出力トレイに出力するようにできる。また、プリンタ3の出力トレイが移動可能な構成を備える場合、プロセッサ50は、各ユーザのプリントジョブの結果を出力ごとに出力トレイを移動させるように各ジョブの実行内容を設定する。これにより、同時期に複数のユーザから指示されたプリントジョブの結果が出力トレイ上の異なる場所(又は向き)に出力されるようにできる。
音声指示によって受付けた各ジョブの実行内容を決定した後、プロセッサ50は、実行内容を示す音声をスピーカ7から出力する(ACT120)。例えば、プロセッサ50は、同時期に複数のユーザからの複数のジョブに対する実行内容を決定した場合、各ジョブの実行順番および実行内容を示す音声をスピーカ7から出力する。これにより、音声でジョブを指示したユーザは、音声認識結果によって実行されるジョブの内容を音声で確認できる。
また、音声指示によって受付けた各ジョブの実行内容を決定した後、プロセッサ50は、設定した実行順番で設定した実行内容の各ジョブを実行する(ACT121)。
また、音声指示によって受付けた各ジョブの実行内容を決定した後、プロセッサ50は、設定した実行順番で設定した実行内容の各ジョブを実行する(ACT121)。
以上のような処理によれば、実施形態に係るデジタル複合機は、入力音声から音声で指示されたジョブの内容を認識すると共に入力音声のユーザを識別する。デジタル複合機は、同時期に複数のユーザが発した音声指示を取得した場合、複数のユーザが音声で指示した複数のジョブに対して実行順番を設定する。
これにより、実施形態によれば、同時期に複数のユーザが音声指示を行った場合であっても、各ユーザが指示したジョブを円滑に実行することができる。
これにより、実施形態によれば、同時期に複数のユーザが音声指示を行った場合であっても、各ユーザが指示したジョブを円滑に実行することができる。
また、実施形態に係るデジタル複合機は、同時期に複数のユーザが音声で指示した複数のジョブのうち並行して実行可能な処理を並行して実行するように実行順番を設定する。これにより、異なるユーザが指示したジョブであっても、並行して実施できる処理は並行して実行することで複数のジョブを円滑に処理できる。
また、実施形態に係るデジタル複合機は、同時期に複数のユーザが音声で指示した複数のジョブを各ユーザに設定される優先度に基づいて実行順番を設定する。これにより、複数のユーザが指示した複数のジョブを予め設定する優先度の順番で実行することができ、複数のジョブを円滑に処理できる。
また、実施形態に係るデジタル複合機は、同時期に複数のユーザが音声で指示した複数のジョブの結果を異なる出力方法で出力するように設定する。これにより、同時期に複数のユーザが音声で指示した複数のジョブをユーザごとに区別したし易いようにすることができる。
また、実施形態に係るデジタル複合機は、同時期に複数の話者が発した音声から認識した複数のジョブに対して実行可能な件数の上限件数を設定しても良い。同時期に複数の話者が発した音声から認識した複数のジョブの件数が上限件数を超えた場合、プロセッサ50は、所定件数を超えた分のジョブを実行不可とする。
この場合、プロセッサ50は、実行不可となったジョブをインターフェース56を介してスピーカ7から音声で出力させる。また、プロセッサ50は、操作パネル4の表示部などに実行不可となったジョブを示す情報を表示しても良い。また、プロセッサ50は、ログ情報として、実行不可となったジョブを示す情報を記憶装置などに記録しておくようにしても良い。
これにより、ユーザは、上限件数を超えたために実行不可となったジョブを認識することができる。
これにより、ユーザは、上限件数を超えたために実行不可となったジョブを認識することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1…デジタル複合機(MFP、画像形成装置)、2…スキャナ、3…プリンタ、4…操作パネル、5…システム制御部、6…マイク、7…スピーカ、20…制御部、21…画像読取部、30…制御部、31…画像形成部、50…プロセッサ、53…記憶装置、54…通信インターフェース、55…インターフェース(音声入力インターフェース)、56…インターフェース(音声出力インターフェース)、101…ユーザ端末、106…マイク、107…スピーカ。
Claims (5)
- マイクが入力する入力音声を取得する音声入力インターフェースと、
前記音声入力インターフェースで取得する入力音声から音声で指示されたジョブの内容を認識すると共に前記入力音声から話者を識別し、同時期に複数の話者が発した音声を取得した場合、複数の話者が発した音声から認識した複数のジョブの実行順番を設定し、設定した実行順番で複数のジョブを実行するプロセッサと、
を有する画像形成装置。 - 前記プロセッサは、前記複数のジョブのうち並行して実行可能な処理を並行して実行させる実行順番を設定する、
請求項1に記載の画像形成装置。 - 前記プロセッサは、前記複数の話者に対してそれぞれ設定される優先度に応じて前記複数のジョブを実行順番を設定する、
請求項1又は2の何れか1項に記載の画像形成装置。 - 前記プロセッサは、前記複数のジョブに複数の印刷ジョブを含まれる場合、複数の印刷ジョブに異なる排紙方法を設定する、
請求項1乃至3の何れか1項に記載の画像形成装置。 - さらに、スピーカが出力する音声信号を出力する音声出力インターフェースを有し、
前記プロセッサは、同時期に複数の話者が発した音声から認識した複数のジョブに対する実行内容を示す音声を前記音声出力インターフェースを介してスピーカから出力させる、
請求項1乃至4の何れか1項に記載の画像形成装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021110864A JP2023007792A (ja) | 2021-07-02 | 2021-07-02 | 画像形成装置 |
CN202210393495.3A CN115567647A (zh) | 2021-07-02 | 2022-04-15 | 图像形成装置 |
US17/748,061 US20230007135A1 (en) | 2021-07-02 | 2022-05-19 | Image forming apparatus |
US18/450,439 US20230388428A1 (en) | 2021-07-02 | 2023-08-16 | Image forming apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021110864A JP2023007792A (ja) | 2021-07-02 | 2021-07-02 | 画像形成装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023007792A true JP2023007792A (ja) | 2023-01-19 |
Family
ID=84738013
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021110864A Pending JP2023007792A (ja) | 2021-07-02 | 2021-07-02 | 画像形成装置 |
Country Status (3)
Country | Link |
---|---|
US (2) | US20230007135A1 (ja) |
JP (1) | JP2023007792A (ja) |
CN (1) | CN115567647A (ja) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3840244B2 (ja) * | 2003-11-12 | 2006-11-01 | キヤノン株式会社 | 印刷装置、ジョブ処理方法、記憶媒体、プログラム |
US7555310B2 (en) * | 2005-12-21 | 2009-06-30 | Kyocera Mita Corporation | Electronic apparatus and computer readable medium recorded voice operating program |
JP6880997B2 (ja) * | 2017-04-28 | 2021-06-02 | 株式会社リコー | 画像形成装置及び画像形成方法 |
KR102528466B1 (ko) * | 2017-12-19 | 2023-05-03 | 삼성전자주식회사 | 복수 화자의 음성 신호 처리 방법 및 그에 따른 전자 장치 |
US11140284B2 (en) * | 2018-09-04 | 2021-10-05 | Canon Kabushiki Kaisha | Image forming system equipped with interactive agent function, method of controlling same, and storage medium |
-
2021
- 2021-07-02 JP JP2021110864A patent/JP2023007792A/ja active Pending
-
2022
- 2022-04-15 CN CN202210393495.3A patent/CN115567647A/zh active Pending
- 2022-05-19 US US17/748,061 patent/US20230007135A1/en not_active Abandoned
-
2023
- 2023-08-16 US US18/450,439 patent/US20230388428A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
CN115567647A (zh) | 2023-01-03 |
US20230388428A1 (en) | 2023-11-30 |
US20230007135A1 (en) | 2023-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7159892B2 (ja) | 画像形成装置、画像形成システム、および情報処理方法 | |
US11302321B2 (en) | Audio-based operation system, method of processing information using audio-based operation and storage medium | |
US20190304453A1 (en) | Information processing apparatus, method of processing information and storage medium | |
CN110875993B (zh) | 带交互代理功能的图像形成系统及其控制方法和存储介质 | |
CN1932754A (zh) | 数据处理设备、数据处理方法、及其计算机程序 | |
CN107678706B (zh) | 图像形成装置及其控制方法、以及存储介质 | |
US20200193991A1 (en) | Image processing system, image forming apparatus, voice input inhibition determination method, and recording medium | |
JP2009194577A (ja) | 画像形成装置、音声案内方法及び音声案内プログラム | |
JP7206881B2 (ja) | 情報処理装置及びプログラム | |
US20230388427A1 (en) | Image processing system, image processing apparatus, and image processing method | |
JP5343652B2 (ja) | 操作画面制御装置、画像形成装置、およびコンピュータプログラム | |
JP2019201282A (ja) | 画像処理装置およびその制御プログラム | |
US11823672B2 (en) | Voice-operated system, controller, computer-readable recording medium, and processing device | |
US10606531B2 (en) | Image processing device, and operation control method thereof | |
JP7284455B2 (ja) | 装置 | |
US11647129B2 (en) | Image forming system equipped with interactive agent function, method of controlling same, and storage medium | |
JP2023007792A (ja) | 画像形成装置 | |
JP7409056B2 (ja) | 情報処理装置及びコンピュータプログラム | |
JP7127424B2 (ja) | 画像処理装置及びプログラム | |
JP7392486B2 (ja) | 画像形成装置、表示制御方法、およびプログラム | |
JP7081451B2 (ja) | 設定制御装置、設定制御装置の制御方法、およびプログラム | |
JP2021009243A (ja) | 画像形成装置およびそれを制御するためのプログラム | |
JP2020029059A (ja) | 画像形成システム、画像形成装置、情報処理装置、画像形成方法 | |
JP2002094712A (ja) | 画像処理装置及びその制御方法、並びに記憶媒体 | |
JP2021056633A (ja) | 音声設定システム、音声設定支援プログラムおよび音声設定支援装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20230104 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240610 |