JP2023007792A

JP2023007792A - 画像形成装置

Info

Publication number: JP2023007792A
Application number: JP2021110864A
Authority: JP
Inventors: 裕之加藤; Hiroyuki Kato
Original assignee: Toshiba TEC Corp
Current assignee: Toshiba TEC Corp
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2023-01-19
Also published as: CN115567647A; US20230388428A1; US20230007135A1

Abstract

【課題】ユーザが音声で指示するジョブをユーザごとに管理しながら円滑に運用することができる画像形成装置を提供する。
【解決手段】実施形態によれば、画像形成装置は、音声入力インターフェースとプロセッサとを有する。音声入力インターフェースは、マイクが入力する入力音声を取得する。プロセッサは、前記音声入力インターフェースで取得する入力音声から音声で指示されたジョブの内容を認識すると共に前記入力音声から話者を識別し、同時期に複数の話者が発した音声を取得した場合、複数の話者が発した音声から認識した複数のジョブの実行順番を設定し、設定した実行順番で複数のジョブを実行する。
【選択図】図１

Description

本発明の実施形態は、画像形成装置に関する。

従来、デジタル複合機などの画像形成装置については、音声認識を用いてジョブの実行指示などの操作を音声で行える音声操作システムが提案されている。しかしながら、従来の画像形成装置に適用される音声操作システムは、音声操作を実行する話者を識別する機能がないものが多い。このため、音声操作システムを適用したデジタル複合機などの画像形成装置は、誰でも音声によってジョブの実行などを指示できてしまうという問題点がある。

また、音声操作システムにユーザを識別する機能を設けることで、個々のユーザに対する使用権限の確認することが可能となる。しかしながら、画像形成装置が音声での指示を受付けることで、複数のユーザが異なる複数のジョブを同時期に指示してしまうことが容易に起こり得る。このため、複数のユーザが同時期に音声でジョブを指示した場合であっても、複数のユーザから複数のジョブを円滑に処理できる画像形成装置が望まれている。

特開２００７－１７１５３４号公報

本発明が解決しようとする課題は、ユーザが音声で指示するジョブを円滑に運用することができる画像形成装置を提供することである。

実施形態によれば、画像形成装置は、音声入力インターフェースとプロセッサとを有する。音声入力インターフェースは、マイクが入力する入力音声を取得する。プロセッサは、前記音声入力インターフェースで取得する入力音声から音声で指示されたジョブの内容を認識すると共に前記入力音声から話者を識別し、同時期に複数の話者が発した音声を取得した場合、複数の話者が発した音声から認識した複数のジョブの実行順番を設定し、設定した実行順番で複数のジョブを実行する。

図１は、実施形態に係る画像形成装置としてのデジタル複合機の構成例を示すブロック図である。図２は、実施形態に係る画像形成装置としてのデジタル複合機を含む処理システムの構成例を示す図である。図３は、実施形態に係る画像形成装置としてのデジタル複合機が保持するユーザ情報データベースの構成例を示す図である。図４は、実施形態に係る画像形成装置としてのデジタル複合機が保持する音声実行機能に関する情報を格納する機能データベースの構成例を示す図である。図５は、実施形態に係る画像形成装置としてのデジタル複合機による音声実行機能の登録処理を説明するためのフローチャートである。図６は、実施形態に係る画像形成装置としてのデジタル複合機による音声指示に応じたジョブの実行処理を説明するためのフローチャートである。

以下、本実施形態について、図面を参照しながら説明する。
まず、実施形態に係る画像形成装置としてのデジタル複合機（ＭＦＰ，Ｍｕｌｔｉ－ＦｕｎｃｔｉｏｎａｌＰｅｒｉｐｈｅｒａｌ）１の構成について説明する。
図１は、実施形態に係る画像形成装置としてのデジタル複合機１の構成例を示すブロック図である。
図１に示すように、デジタル複合機１は、スキャナ２、プリンタ３、および、操作パネル４を有する。さらに、デジタル複合機１は、音声を入力するマイク６および音声を出力するスピーカ７を有する。

スキャナ２は、デジタル複合機の本体上部に設置する。スキャナ２は、原稿の画像を光学的に読み取る装置である。スキャナ２は、制御部２０および画像読取部２１を備える。画像読取部２１は、原稿台ガラス上にセットされた原稿の画像を読み取る。また、画像読取部２１は、自動原稿送り装置（ＡＤＦ：ＡｕｔｏＤｏｃｕｍｅｎｔＦｅｅｄｅｒ）が搬送する原稿の画像を読み取る。

スキャナ２の制御部２０は、スキャナ２の制御を司る。制御部２０は、プロセッサおよびメモリなどで構成する。制御部２０は、メモリが記憶するプログラムをプロセッサが実行することにより各種の処理を実現する。例えば、制御部２０は、システム制御部５からの動作指示に応じて画像読取部２１によるスキャン処理を実行する。

プリンタ３は、用紙などの媒体に画像を形成する。プリンタ３は、制御部３０および画像形成部３１を有する。画像形成部３１は、給紙カセットから取り出した用紙に画像を形成する。画像形成部３１は、どのような画像形成方式で画像を形成するものであっても良い。例えば、画像形成部３１は、電子写真方式である場合、感光体ドラムなどの像担持体上に現像剤像を形成し、像担持体上の現像剤像を転写する。また、画像形成部３１は、インクジェット方式である場合、インクジェットヘッドが吐出するインクによって用紙に画像を形成する。

プリンタ３の制御部３０は、プリンタ３の制御を司る。制御部３０は、プロセッサおよびメモリなどで構成する。制御部３０は、メモリが記憶するプログラムをプロセッサが実行することにより各種の処理を実現する。例えば、制御部３０は、システム制御部５からの動作指示に応じて画像形成部３１による画像形成処理（印刷処理）を実行する。

操作パネル４は、ユーザインターフェースである。操作パネル４は、制御部４０、表示部（ディスプレイ）４１、タッチパネル４２、および、操作ボタン４３を有する。表示部４１は、操作案内などを表示する。タッチパネル４２は、表示部４１の表示画面上に設ける。タッチパネル４２は、表示部４１の表示画面上においてユーザがタッチした部位を検知する。

操作パネル４の制御部４０は、操作パネル４の制御を司る。制御部４０は、プロセッサおよびメモリなどで構成する。制御部４０は、メモリが記憶するプログラムをプロセッサが実行することにより各種の処理を実現する。例えば、制御部４０は、システム制御部５からの指示に応じて表示部４１の表示を制御する。

システム制御部５は、ＭＦＰ１全体を制御する。システム制御部５は、プロセッサ５０、ＲＯＭ５１、ＲＡＭ５２、記憶装置５３、通信インターフェース（Ｉ／Ｆ）５４、インターフェース５５、および、インターフェース５６などを有する。

プロセッサ５０は、プログラムを実行することにより種々の処理機能を実現する。プロセッサ５０は、例えば、ＣＰＵである。プロセッサ５０は、インターフェースを介して、スキャナ２の制御部２０、プリンタ３の制御部３０、および操作パネル４の制御部４０に接続する。

ＲＡＭ５２は、ワーキングメモリ或はバッファメモリとして機能する。ＲＯＭ５１は、書換え不可な不揮発性メモリである。ＲＯＭ５１は、プログラムを保存するプログラムメモリとして機能する。プロセッサ５０は、ＲＡＭ５２を使用してＲＯＭ５１あるいは記憶装置５３に記憶したプログラムを実行することにより種々の処理機能を実現する。

記憶装置５３は、書換え可能な不揮発性のメモリである。例えば、記憶装置５３は、ＨＤＤ（ハードディスクドライブ）あるいはＳＳＤ（ソリッドステートドライブ）などの記憶装置で構成する。記憶装置５３は、制御データ、制御プログラム、および、設定情報などのデータを記憶する。

記憶装置５３は、記憶領域５３１、５３２、５３３を有する。記憶領域５３１は、種々のプログラムを記憶する。例えば、記憶領域５３１は、音声の内容を認識する音声認識プログラムおよび音声から話者を特定する人物識別（人物認証）プログラムを記憶する。プロセッサ５０は、音声認識プログラムを実行することによって、マイク６などから入力した音声を認識する。また、プロセッサ５０は、人物識別プログラムを実行することによって、入力した音声を発した人物を特定する個人（認証）識別を行う。

記憶領域５３２は、予め登録したユーザ（登録者）に関する情報（ユーザ情報）を格納するユーザ情報データベースを保存する。記憶領域５３３は、登録者が設定した音声認識によって実行する機能に関する情報を格納する登録機能データベースを保存する。記憶領域５３２に記憶するユーザ情報および記憶領域５３３に記憶する情報については、後で詳細に説明するものとする。

通信インターフェース５４は、外部装置とデータ通信を行うためのインターフェースである。例えば、通信インターフェース５４は、ネットワークを介してＰＣおよび携帯端末などのユーザ端末と通信する。通信インターフェース５４は、ＰＣなどのユーザ端末から画像の印刷（プリントジョブ）などをジョブの実行の指示する音声情報を入力するようにしても良い。

インターフェース５５は、音声を入力するマイク６を接続する。インターフェース５５は、音声入力インターフェースの一例である。インターフェース５５は、マイク６が入力する音声（入力音声）を取得するためのインターフェースである。プロセッサ５０は、インターフェース５５を介してマイク６に入力された音声を取得する。なお、マイクがユーザ端末１０１に接続されるマイク１０６である場合、通信インターフェース５４が音声入力インターフェースとして機能する。

インターフェース５６は、音声を出力するスピーカ７を接続する。インターフェース５６は、音声出力インターフェースの一例である。インターフェース５６は、スピーカ７が発する音声の音声信号を出力するためのインターフェースである。プロセッサ５０は、インターフェース５６を介してスピーカ７が発する音声の音声信号を出力する。なお、スピーカがユーザ端末１０１に接続されるスピーカ１０７である場合、通信インターフェース５４が音声出力インターフェースとして機能する。

図２は、デジタル複合機１にユーザ端末１０１が接続される処理システムの構成例を概略的に示す図である。
図２に示すネットワークシステムにおいて、デジタル複合機１には、複数のユーザ端末１０１が接続される。各ユーザ端末１０１は、パーソナルコンピュータ（ＰＣ）であっても良いし、スマートフォンやタブレットＰＣなどの携帯端末であっても良い。ユーザ端末１０１は、マイク１０６およびスピーカ１０７を備える。マイク１０６およびスピーカ１０７は、ユーザ端末１０１が備えるものであっても良いし、インターフェースを介して接続されるものであっても良い。

デジタル複合機１は、各ユーザ端末１０１からのジョブの実行指示を受付ける。例えば、デジタル複合機１は、ユーザ端末１０１のマイク１０６に入力された音声によるジョブの実行指示を取得する。また、デジタル複合機１は、ユーザ端末１０１のマイク１０６に入力された音声の認識結果に応じてジョブの実行内容を音声でスピーカ１０７から出力させるようにしても良い。

次に、実施形態に係る画像形成装置としてのデジタル複合機１の音声認識による動作について説明する。
図３は、デジタル複合機１が記憶領域５３２に保存するユーザ情報データベース（ＤＢ）の構成例を示す図である。
記憶領域５３２のユーザ情報データベースに記憶するユーザ情報は、デジタル複合機１に対して音声での動作（ジョブ）の実行指示を行う登録者に関する情報である。デジタル複合機１は、ユーザ情報データベースにユーザ情報が登録されているユーザに対して音声指示によるジョブの実行を許可する。また、デジタル複合機１は、ユーザ情報ＤＢに格納する情報に基づいてユーザに対して許容される処理を制限する機能も有する。

図３に示す例では、ユーザ情報データベースは、ユーザＩＤ、ユーザ名、音声データ、実行権限、使用量の上限、機能ＩＤ、機能名、優先度などの情報をユーザ情報としてユーザごとに格納する。
ユーザＩＤは、ユーザを識別するための識別情報である。ユーザ名は、ユーザの名称である。音声データは、当該ユーザを入力音声から識別するための人物識別用の音声データである。音声データは、音声から抽出される音声の特徴データであっても良い。実行権限は、当該ユーザに対して当該デジタル複合機１での実行が許可されている機能を示す情報である。使用量の上限は、当該ユーザに使用が許可されている使用量又は使用条件を示す情報である。

機能ＩＤおよび機能名は、当該ユーザが登録した音声で実行する機能（音声実行機能）を示す情報である。機能ＩＤは、当該ユーザが登録した音声実行機能を識別するための識別情報である。機能名は、当該ユーザが登録した音声実行機能の名称である。優先度は、ユーザが指示するジョブの実行に係る優先度を示す情報である。優先度は、シリアルに設定した優先順番であって良いし、優先順番を判定するための情報（グループ名、役職など）であっても良い。

例えば、ユーザＩＤが「ＵＳＥＲ１」のユーザは、ユーザ名が「ＡＡＡＡ」であり、コピー（Ｃｏｐｙ）、スキャン（Ｓｃａｎ）、印刷（Ｐｒｉｎｔ）などのジョブを実行する権限を有する。また、「ＵＳＥＲ１」のユーザは、カラー印刷が１００枚までに制限され、モノクロ印刷には枚数制限がない。さらに、「ＵＳＥＲ１」のユーザは、機能名が「節約コピー」で機能ＩＤが「ＦＵＮＣ１」の機能を、音声指示によって実行可能な登録済みの機能（登録済み機能）として登録する。また、「ＵＳＥＲ１」のユーザは、優先度が「１」であるため、他のユーザよりも優先して先にジョブが実行される。

また、図３に示す例において、ユーザＩＤが「ＵＳＥＲ２」のユーザは、ユーザ名が「ＢＢＢＢ」であり、コピーおよびプリントの実行権限を有する。また、「ＵＳＥＲ２」のユーザは、カラー印刷が５０枚、モノクロ印刷が５０枚までに制限される。さらに、「ＵＳＥＲ２」のユーザは、機能名が「会議資料用コピー」で機能ＩＤが「ＦＵＮＣ２」の機能を、音声指示によって実行可能な登録済みの機能（登録済み機能）として登録する。また、「ＵＳＥＲ２」のユーザは、優先度が「２」であるため、ジョブの実行順番が優先度が「１」のユーザの次に優先して設定される。

図４は、デジタル複合機１が記憶領域５３３に保存する機能データベース（ＤＢ）の構成例を示す図である。
図４に示す記憶領域５３３に保存する機能データベースは、デジタル複合機１がユーザからの音声指示によって実行可能とする機能（音声実行機能）に関する情報を格納する。デジタル複合機１は、音声による話者の識別によって特定したユーザからの音声指示に応じて実行すべき音声実行機能を機能データベースに登録した情報から特定する。

図４に示す例において、機能データベースは、機能ＩＤ、機能名、および、設定値などの情報を格納する。機能ＩＤは、音声実行機能を識別するための識別情報である。機能名は、ユーザが登録した音声実行機能の名称である。設定値は、音声実行機能の内容を示す設定情報である。

図４に示す例において、機能ＩＤが「ＦＵＮＣ１」の音声実行機能は、機能名が「節約コピー」であり、設定値で示される実行内容のコピージョブである。具体的には、機能ＩＤが「ＦＵＮＣ１」の機能の設定値は、カラーモードがモノクロ、濃度が自動、用紙がＡ４、両面モードが片面から両面、Ｎｉｎ１モードが２ｉｎ１である。これにより、機能ＩＤが「ＦＵＮＣ１」の音声実行機能は、モノクロの自動濃度設定で、Ａ４の用紙の両面に原稿の画像を２ｉｎ１で印刷するコピージョブに設定される。

また、機能ＩＤが「ＦＵＮＣ２」の機能は、機能名が「会議資料用コピー」であり、設定値で示される実行内容のコピージョブである。機能ＩＤが「ＦＵＮＣ２」の機能の設定値は、カラーモードがカラー、濃度が自動、用紙がＡ４、両面モードが片面から両面、Ｎｉｎ１モードが「なし」である。これにより、機能ＩＤが「ＦＵＮＣ２」の音声実行機能は、カラーの自動濃度設定で、Ａ４の用紙の両面に原稿の画像を印刷するコピージョブに設定される。

次に、デジタル複合機１においてユーザが音声で実行を指示する音声実行機能の登録処理について説明する。
図５は、デジタル複合機１においてユーザが音声で実行する音声実行機能の登録処理の動作例を説明するためのフローチャートである。
まず、デジタル複合機１のプロセッサ５０は、ユーザからの音声指示に応じて当該ユーザに対する音声実行機能の登録処理を受付ける。ユーザ情報を登録済みのユーザは、マイク６又はユーザ端末１０１のマイク１０６に向けてデジタル複合機１に音声で実行を指示する機能の登録処理を指示する。デジタル複合機１は、ユーザが発した音声実行機能の登録を指示する音声指示を入力音声として取得する。デジタル複合機１は、入力音声を認識して音声実行機能の登録指示を認識し、認識した内容で音声実行機能を登録する。

プロセッサ５０は、ユーザがマイク６（又はマイク１０６）に入力した音声実行機能の登録指示を含む音声（入力音声）を取得する（ＡＣＴ１１）。入力音声を取得すると、プロセッサ５０は、入力音声に対して音声認識と人物識別とを実行する。

すなわち、プロセッサ５０は、音声認識プログラムを実行することにより入力音声の内容を認識する（ＡＣＴ１２）。プロセッサ５０は、音声認識した入力音声の内容に応じた処理を実行する。ここでは、ＡＣＴ１１で取得した入力音声の内容が音声実行機能の登録指示であったものとする。

また、プロセッサ５０は、人物識別プログラムを実行することにより入力音声の話者を識別する（ＡＣＴ１３）。ここでは、プロセッサ５０は、入力音声の話者がユーザ情報データベースに登録されたどのユーザであるかを特定するものとする。例えば、プロセッサ５０は、入力音声の特徴量とユーザ情報データベースに登録されている各ユーザの音声データ（人物識別用の音声データ）の特徴量との類似度を算出する。プロセッサ５０は、入力音声の特徴量との類似度が所定値以上となった音声データがある場合、当該音声データのユーザが入力音声の話者であると判定する。

プロセッサ５０は、入力音声の話者がユーザ情報データベースに音声データを登録済みのユーザであると特定できなかった場合（ＡＣＴ１４、ＮＯ）、機能の登録処理を終了する。

入力音声の話者がユーザ情報データベースに登録済みのユーザであることが特定できた場合（ＡＣＴ１４、ＹＥＳ）、プロセッサ５０は、当該ユーザに対して音声実行機能の登録を実行する（ＡＣＴ１５）。例えば、プロセッサ５０は、当該ユーザがマイク６に向けて発する音声実行機能の内容を含む入力音声を取得する。プロセッサ５０は、音声認識プログラムを実行することによりユーザが発生した音声から音声実行機能の内容を認識する。

プロセッサ５０は、入力音声の認識結果からユーザが登録を指示した音声実行機能の内容を特定する。プロセッサ５０は、特定した音声実行機能の内容が当該ユーザが実施可能な機能であれば、音声実行機能に対して機能ＩＤを発行する。プロセッサ５０は、発行した機能ＩＤと機能名とを当該ユーザのユーザ情報としてユーザ情報データベースに登録する。また、プロセッサ５０は、特定した音声実行機能の内容を示す設定値を決定し、機能ＩＤと機能名とに対応づけて音声実行機能の内容を示す設定値を機能データベースに登録する。

例えば、登録済みのユーザがマイク６に向けて「ＭＦＰに機能を登録」、「機能名は「節約コピー」、両面、モノクロ、２ｉｎ１で登録」という音声を発したものとする。すると、プロセッサ５０は、マイク６からユーザが「ＭＦＰに機能を登録」と発した音声をマイク６が集音し、マイク６が集音した音声を入力音声として入力する。プロセッサ５０は、音声認識プログラムを実行することにより入力音声の内容が「ＭＦＰに機能を登録」であることを認識する。また、プロセッサ５０は、人物識別プログラムを実行することにより入力音声の話者であるユーザを特定する。

さらに、プロセッサ５０は、音声認識によって入力音声から「機能名は「節約コピー」、両面、モノクロ、２ｉｎ１で登録」という音声実行機能の内容を特定する。プロセッサ５０は、特定した音声実行機能の内容が当該ユーザが実施可能な機能であれば、機能ＩＤを発行する。プロセッサ５０は、発行した機能ＩＤと機能名とを当該ユーザに対応づけてユーザ情報データベースに登録する。また、プロセッサ５０は、特定した音声実行機能の内容を示す設定値を機能ＩＤと機能名とに対応づけて機能データベースに登録する。

次に、実施形態に係る画像形成装置としてのデジタル複合機１がユーザからの音声指示に応じて処理を実行する動作について説明する。
図６は、実施形態に係る画像形成装置としてのデジタル複合機１がユーザからの音声指示に応じて各種の機能を実行する動作例を説明するためのフローチャートである。
デジタル複合機１のプロセッサ５０は、ユーザからの音声指示に応じて各ユーザが指示するジョブの処理を実行する。ユーザ情報を登録済みのユーザは、マイク６又はユーザ端末１０１のマイク１０６に向けて、デジタル複合機１で実行するジョブを音声で発声する。デジタル複合機１は、ユーザが発したジョブの実行を指示する音声指示を入力音声として取得する。デジタル複合機１は、入力音声を認識して音声指示の内容を認識し、認識した内容でジョブの実行を受付ける。

プロセッサ５０は、インターフェース５５によりユーザがマイク６（又はマイク１０６）に入力するジョブの実行指示を含む音声（入力音声）を取得する（ＡＣＴ１１１）。例えば、ユーザは、ジョブの内容を音声で指示する。具体的には、ユーザは、「両面、モノクロ、２ｉｎ１でコピー」と音声で発することによりジョブの内容を音声で指示する。また、ユーザは、音声実行機能として登録した機能の実行を音声で指示しても良い。例えば、「節約コピー」と音声を発することで、機能名を「節約コピー」として登録した音声実行機能の実行を音声で指示する。

プロセッサ５０は、インターフェース５５により入力音声を取得すると、入力音声に対して音声認識と人物識別とを実行する。プロセッサ５０は、音声認識プログラムを実行することにより入力音声の内容を認識する（ＡＣＴ１１２）。ここでは、ＡＣＴ１１で取得する入力音声の内容がジョブの実行指示であったものとする。

また、プロセッサ５０は、人物識別プログラムを実行することにより入力音声のユーザ（話者）を識別する（ＡＣＴ１１３）。例えば、プロセッサ５０は、入力音声の特徴量とユーザ情報データベースに登録されている各ユーザの音声データ（人物識別用の音声データ）の特徴量との類似度によって話者を識別する。

プロセッサ５０は、入力音声の話者がユーザ情報データベースに登録済みのユーザであると特定できなかった場合（ＡＣＴ１１４、ＮＯ）、ジョブの実行を受付けないようにする。ただし、未登録のユーザ（登録済みのユーザと認識されなかったユーザ）に対しても、特定の機能のジョブは受付けるような運用としても良い。この場合、プロセッサ５０は、入力音声から認識したジョブの内容が未登録のユーザに対して許可されるジョブ内容であれば、ＡＣＴ１１５以降の処理を実行するようにすれば良い。

入力音声の話者がユーザ情報データベースに登録済みのユーザであることが特定できた場合（ＡＣＴ１１４、ＹＥＳ）、プロセッサ５０は、当該ユーザの実行権限を確認する（ＡＣＴ１１５）。プロセッサ５０は、入力音声から認識したジョブの内容に当該ユーザに実行権限がない機能が含まれていないかを判断する。例えば、入力音声から認識したジョブの内容に当該ユーザに実行権限がない機能が含まれている場合、プロセッサ５０は、当該ジョブの実行権限なしと判断する。当該ユーザに実行権限がないと判断した場合（ＡＣＴ１１５、ＮＯ）、プロセッサ５０は、入力音声で指示されたジョブの実行を中止する。

音声指示されたジョブの実行権限があると判断した場合（ＡＣＴ１１５、ＹＥＳ）、プロセッサ５０は、音声指示されたジョブが当該ユーザに設定された使用量の上限以内となるか否かを判断する（ＡＣＴ１１６）。プロセッサ５０、音声指示されたジョブを実行した場合における当該ユーザの使用量を算出する。プロセッサ５０は、算出した使用量が当該ユーザに設定された使用量の上限以内である否かを判断する。音声指示されたジョブの実行によって使用量が上限を超えると判断した場合（ＡＣＴ１１６、ＮＯ）、プロセッサ５０は、音声指示されたジョブの実行を中止する。

音声指示されたジョブを実行しても使用量が上限以内であると判断した場合（ＡＣＴ１１６、ＹＥＳ）、プロセッサ５０は、同時期に複数のユーザから複数のジョブが指示されているか否かを判断する（ＡＣＴ１１７）。ジョブを音声で指示する場合、音声指示を完了するまでの間に別のユーザが別のジョブを指示することが想定される。

デジタル複合機１に対するジョブの音声指示は、１人のユーザが発話を開始してから発話を終了するまでに時間を要する。これに対して、デジタル複合機１のプロセッサ５０は、複数のユーザが同時期に発する音声を各ユーザが発する音声ごとに認識する。これにより、同時期に複数のユーザがそれぞれ音声でジョブを指示した場合であっても、デジタル複合機１は、複数のユーザからのジョブの音声指示を受付けることが可能となる。

同時期に音声入力された複数のユーザからの複数のジョブを受付ける場合（ＡＣＴ１１７）、プロセッサ５０は、複数のジョブを実行するための処理手順（実行順番）を設定する（ＡＣＴ１１８）。プロセッサ５０は、同時期に複数の話者から指示された複数のジョブを実行する処理手順として、並行して実行する処理とシリアルに実行する処理の実行順番とを設定する。

プロセッサ５０は、複数のジョブに対して並行して実施可能な処理を特定する。プロセッサ５０は、並行して実行可能な処理を並行して実行するように複数のジョブの処理手順を設定する。例えば、プロセッサ５０は、スキャナ２を用いた処理（スキャンジョブ）とプリンタ３を用いた処理（プリントジョブ）とを並行して実行するように処理手順を設定する。第１のユーザが音声指示でスキャンジョブした場合、プロセッサ５０は、同時期に第２のユーザが指示したプリントジョブを第１のユーザのスキャンジョブと並行して実行するように設定する。

また、プロセッサ５０は、複数のジョブにおいてシリアルに実行する処理に対する実行順番を設定する。例えば、複数のユーザから指示された複数のプリントジョブは、１つのプリンタを使用するため並列で実行することができない。このため、プロセッサ５０は、複数のユーザから指示された複数のプリントジョブをシリアルに実行するための実行順番を設定する。

プロセッサ５０は、複数のジョブを音声指示したユーザごとに設定される優先度に基づいて実行順番を設定する。図３に示す例では、ユーザＩＤが「ＵＳＥＲ１」のユーザ（ユーザ１とする）が優先度「１」でユーザＩＤが「ＵＳＥＲ１」のユーザ（ユーザ２とする）が優先度「２」である。このため、ユーザ１とユーザ２とが同時期にシリアルに実行するジョブを音声で指示した場合、プロセッサ５０は、ユーザ１のジョブの次にユーザのジョブを実行するように実行順番を設定する。

また、プロセッサ５０は、音声指示によって受付けた各ジョブに対する実行内容を決定する（ＡＣＴ１１９）。１つのユーザからのジョブを受付けている場合、プロセッサ５０は、ユーザによる音声指示の内容とデフォルトの設定などに従ってジョブの実行内容を設定する。

また、複数のユーザからの複数のジョブを受付けている場合、プロセッサ５０は、各ユーザが複数のジョブの実行結果が分かり易くなるように、各ジョブの実行内容を決定する。例えば、同時期に複数のユーザからの複数のプリントジョブを受付けた場合、プロセッサ５０は、各ユーザのプリントジョブごとに用紙の出力方法を設定する。

具体例として、プリンタ３が複数の出力トレイを備える場合、プロセッサ５０は、各ユーザのプリントジョブの結果が異なる出力トレイに出力されるように各ジョブの実行内容を設定する。これにより、同時期に複数のユーザから指示されたプリントジョブの結果をそれぞれ異なる出力トレイに出力するようにできる。また、プリンタ３の出力トレイが移動可能な構成を備える場合、プロセッサ５０は、各ユーザのプリントジョブの結果を出力ごとに出力トレイを移動させるように各ジョブの実行内容を設定する。これにより、同時期に複数のユーザから指示されたプリントジョブの結果が出力トレイ上の異なる場所（又は向き）に出力されるようにできる。

音声指示によって受付けた各ジョブの実行内容を決定した後、プロセッサ５０は、実行内容を示す音声をスピーカ７から出力する（ＡＣＴ１２０）。例えば、プロセッサ５０は、同時期に複数のユーザからの複数のジョブに対する実行内容を決定した場合、各ジョブの実行順番および実行内容を示す音声をスピーカ７から出力する。これにより、音声でジョブを指示したユーザは、音声認識結果によって実行されるジョブの内容を音声で確認できる。
また、音声指示によって受付けた各ジョブの実行内容を決定した後、プロセッサ５０は、設定した実行順番で設定した実行内容の各ジョブを実行する（ＡＣＴ１２１）。

以上のような処理によれば、実施形態に係るデジタル複合機は、入力音声から音声で指示されたジョブの内容を認識すると共に入力音声のユーザを識別する。デジタル複合機は、同時期に複数のユーザが発した音声指示を取得した場合、複数のユーザが音声で指示した複数のジョブに対して実行順番を設定する。
これにより、実施形態によれば、同時期に複数のユーザが音声指示を行った場合であっても、各ユーザが指示したジョブを円滑に実行することができる。

また、実施形態に係るデジタル複合機は、同時期に複数のユーザが音声で指示した複数のジョブのうち並行して実行可能な処理を並行して実行するように実行順番を設定する。これにより、異なるユーザが指示したジョブであっても、並行して実施できる処理は並行して実行することで複数のジョブを円滑に処理できる。

また、実施形態に係るデジタル複合機は、同時期に複数のユーザが音声で指示した複数のジョブを各ユーザに設定される優先度に基づいて実行順番を設定する。これにより、複数のユーザが指示した複数のジョブを予め設定する優先度の順番で実行することができ、複数のジョブを円滑に処理できる。

また、実施形態に係るデジタル複合機は、同時期に複数のユーザが音声で指示した複数のジョブの結果を異なる出力方法で出力するように設定する。これにより、同時期に複数のユーザが音声で指示した複数のジョブをユーザごとに区別したし易いようにすることができる。

また、実施形態に係るデジタル複合機は、同時期に複数の話者が発した音声から認識した複数のジョブに対して実行可能な件数の上限件数を設定しても良い。同時期に複数の話者が発した音声から認識した複数のジョブの件数が上限件数を超えた場合、プロセッサ５０は、所定件数を超えた分のジョブを実行不可とする。

この場合、プロセッサ５０は、実行不可となったジョブをインターフェース５６を介してスピーカ７から音声で出力させる。また、プロセッサ５０は、操作パネル４の表示部などに実行不可となったジョブを示す情報を表示しても良い。また、プロセッサ５０は、ログ情報として、実行不可となったジョブを示す情報を記憶装置などに記録しておくようにしても良い。
これにより、ユーザは、上限件数を超えたために実行不可となったジョブを認識することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１…デジタル複合機（ＭＦＰ、画像形成装置）、２…スキャナ、３…プリンタ、４…操作パネル、５…システム制御部、６…マイク、７…スピーカ、２０…制御部、２１…画像読取部、３０…制御部、３１…画像形成部、５０…プロセッサ、５３…記憶装置、５４…通信インターフェース、５５…インターフェース（音声入力インターフェース）、５６…インターフェース（音声出力インターフェース）、１０１…ユーザ端末、１０６…マイク、１０７…スピーカ。

Claims

マイクが入力する入力音声を取得する音声入力インターフェースと、
前記音声入力インターフェースで取得する入力音声から音声で指示されたジョブの内容を認識すると共に前記入力音声から話者を識別し、同時期に複数の話者が発した音声を取得した場合、複数の話者が発した音声から認識した複数のジョブの実行順番を設定し、設定した実行順番で複数のジョブを実行するプロセッサと、
を有する画像形成装置。
前記プロセッサは、前記複数のジョブのうち並行して実行可能な処理を並行して実行させる実行順番を設定する、
請求項１に記載の画像形成装置。
前記プロセッサは、前記複数の話者に対してそれぞれ設定される優先度に応じて前記複数のジョブを実行順番を設定する、
請求項１又は２の何れか１項に記載の画像形成装置。
前記プロセッサは、前記複数のジョブに複数の印刷ジョブを含まれる場合、複数の印刷ジョブに異なる排紙方法を設定する、
請求項１乃至３の何れか１項に記載の画像形成装置。
さらに、スピーカが出力する音声信号を出力する音声出力インターフェースを有し、
前記プロセッサは、同時期に複数の話者が発した音声から認識した複数のジョブに対する実行内容を示す音声を前記音声出力インターフェースを介してスピーカから出力させる、
請求項１乃至４の何れか１項に記載の画像形成装置。