JP2020102171A

JP2020102171A - 音声処理システム、ジョブ生成装置、ジョブ生成方法およびジョブ生成プログラム

Info

Publication number: JP2020102171A
Application number: JP2018241775A
Authority: JP
Inventors: 俊和川口; Toshikazu Kawaguchi; 智章中島; Tomoaki Nakajima; 一美澤柳; Kazumi Sawayanagi
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2018-12-25
Filing date: 2018-12-25
Publication date: 2020-07-02
Anticipated expiration: 2038-12-25
Also published as: JP7139937B2

Abstract

【課題】ジョブを設定する操作を容易にした音声処理システムを提供すること。【解決手段】音声処理システムは、音声を収集する複数の音声収集装置と、画像処理装置が実行するためのジョブを生成するジョブ生成装置と、を備え、複数の音声収集装置およびジョブ生成装置のいずれかは、発声したユーザーを特定するユーザー特定部２５５を備え、ジョブ生成装置は、複数の音声収集装置のうち第１装置で収集される音声であってユーザー特定部２５５により第１ユーザーが特定される音声および複数の音声収集装置のうち第１装置と異なる第２装置で収集される音声であってユーザー特定部２５５により第１ユーザーと異なる第２ユーザーが特定される音声に基づいて、第１ユーザーが第２ユーザーに実行を依頼した依頼ジョブをジョブとして生成するジョブ生成部２５７を備える。【選択図】図４

Description

この発明は、音声処理システム、ジョブ生成装置、ジョブ生成方法およびジョブ生成プログラムに関し、特に、音声に基づいてジョブを生成する音声処理システム、音声に基づいてジョブを生成するジョブ生成装置、その音声処理システムまたはそのジョブ生成装置で実行されるジョブ生成方法およびコンピューターに音声に基づいてジョブを生成させるジョブ生成プログラムに関する。

一般的に、オフィスに複合機（以下「ＭＦＰ」という）が配置されている。ユーザーは、画像データの印刷、原稿の複写、原稿の読取、画像データの記憶、画像データの送信などの処理をＭＦＰに実行させる。ＭＦＰに処理を実行させる作業が、依頼者から別の受諾者に依頼される場合がある。この場合、受諾者がＭＦＰを操作して作業することになる。受諾者は、依頼された作業をＭＦＰに実行させるために、ＭＦＰに動作条件を設定しなければならない。受諾者が、依頼者から伝達された作業の内容を誤って理解した場合、または、ＭＦＰに設定する動作条件を誤って設定する場合などは、依頼者が依頼した作業がＭＦＰにより実行されない場合がある。

例えば、特開２００３−１１４７７９号公報には、ユーザーが任意の設定項目についてのフリーワードを入力する手段と、前記入力されたフリーワードに応じて設定項目の設定を行なう手段と、前記設定された設定項目に応じて定義ファイルを生成し保存する定義ファイル生成保存手段とを有することを特徴とする画像形成装置の設定処理装置が記載されている。しかしながら、特開２００３−１１４７７９号公報に記載の設定処理装置によれば、１人の操作者がジョブを設定することができるが、複数のユーザーのうち一方のユーザーが他方のユーザーにジョブを依頼する場合、他方のユーザーは依頼内容に基づいてフリーワードを設定処理装置に入力しなおさなければならず、ジョブを設定する操作が煩雑になるといった問題がある。

特開２００３−１１４７７９号公報

この発明の目的の一つは、ジョブを設定する操作を容易にした音声処理システムを提供することである。

この発明の他の目的は、ジョブを設定する操作を容易にしたジョブ生成装置を提供することである。

この発明の他の目的は、ジョブを設定する操作を容易にしたジョブ生成方法を提供することである。

この発明の他の目的は、ジョブを設定する操作を容易にしたジョブ生成プログラムを提供することである。

この発明のある局面によれば、音声処理システムは、音声を収集する複数の音声収集装置と、画像処理装置が実行するためのジョブを生成するジョブ生成装置と、を備え、複数の音声収集装置およびジョブ生成装置のいずれかは、発声したユーザーを特定するユーザー特定手段を備え、ジョブ生成装置は、複数の音声収集装置のうち第１装置で収集される音声であってユーザー特定手段により第１ユーザーが特定される音声および複数の音声収集装置のうち第１装置と異なる第２装置で収集される音声であってユーザー特定手段により第１ユーザーと異なる第２ユーザーが特定される音声に基づいて、第１ユーザーが第２ユーザーに実行を依頼した依頼ジョブをジョブとして生成するジョブ生成手段を備える。

この局面に従えば、ジョブ生成装置により、第１装置で収集された音声から第１ユーザーが特定される場合、その音声および第２装置で収集される第２ユーザーが発声する音声に基づいて、第１ユーザーが第２ユーザーに実行を依頼した依頼ジョブが画像処理装置に実行させるためのジョブとして生成される。このため、離れた位置に存在する第１ユーザーおよび第２ユーザーの会話から依頼ジョブが生成されるので、ジョブを設定する操作を容易にした音声処理システムを提供することができる。

好ましくは、ジョブ生成装置は、さらに、ユーザー特定手段により第１ユーザーが特定される音声から予め登録された複数のユーザーいずれかを識別するためのユーザー識別情報が検出されることに応じて、第１ユーザーが特定される音声から検出されたユーザー識別情報で識別されるユーザーを第２ユーザーに決定し、他の１以上の音声収集装置のうち第２ユーザーが発声した音声を収集する音声収集装置を第２装置に決定する装置決定手段を、備える。

この局面に従えば、第１ユーザーが特定される音声から検出されたユーザー識別情報で識別されるユーザーが第２ユーザーに決定され、第２ユーザーが発声した音声を収集する音声収集装置が第２装置に決定される。このため、第１ユーザーと会話する第２ユーザーが発声した音声を収集する音声収集装置を容易に決定することができる。

好ましくは、装置決定手段は、第２ユーザーが発声した音声を収集する音声収集装置が複数の場合、第２ユーザーが発声した音声を収集する複数の音声収集装置のうちで収集される音声の音量が最大の音声収集装置を第２装置に決定する。

この局面に従えば、第２ユーザーが発声した音声を収集する複数の音声収集装置のうちで収集される音声の音量が最大の音声収集装置がペアリング装置に決定されるので、音声認識の精度を高めることができる。

好ましくは、ジョブ生成手段は、第２装置で収集される音声が許諾の内容を示す場合、依頼ジョブを生成する。

この局面に従えば、第１ユーザーによる依頼を第２ユーザーが受けない場合にジョブを生成しないようにすることができる。

好ましくは、ジョブ生成装置は、複数の音声収集装置のいずれかである。

好ましくは、ジョブ生成装置は、画像処理装置である。

この発明のさらに他の局面によれば、ジョブ生成装置は、画像処理装置が実行するためのジョブを生成するジョブ生成装置であって、音声を発声したユーザーを特定するユーザー特定手段と、複数の音声収集装置のうち第１装置で収集される音声であってユーザー特定手段により第１ユーザーが特定される音声と、複数の音声収集装置のうち第１装置と異なる第２装置で収集される音声であってユーザー特定手段により第１ユーザーと異なる第２ユーザーが特定される音声と、に基づいて第１ユーザーが第２ユーザーに実行を依頼した依頼ジョブをジョブとして生成するジョブ生成手段と、を備える。

この局面に従えば、第１装置で収集された音声から第１ユーザーが特定される場合、その音声および第２装置で収集される第２ユーザーが発声する音声に基づいて、第１ユーザーが第２ユーザーに実行を依頼した依頼ジョブが画像処理装置に実行させるためのジョブとして生成される。このため、離れた位置に存在する第１ユーザーおよび第２ユーザーの会話から依頼ジョブが生成されるので、ジョブを設定する操作を容易にしたジョブ生成装置を提供することができる。

好ましくは、ユーザー特定手段により第１ユーザーが特定される音声から予め登録された複数のユーザーのいずれかを識別するためのユーザー識別情報が検出されることに応じて、第１ユーザーが特定される音声から検出されたユーザー識別情報で識別されるユーザーを第２ユーザーに決定し、複数の音声収集装置のうち第２ユーザーが発声した音声を収集する音声収集装置を第２装置に決定する装置決定手段と、を備える。

好ましくは、装置決定手段は、第２ユーザーが発声した音声を収集する音声収集装置が複数の場合、第２ユーザーが発声した音声を収集する複数の音声収集装置のうち収集される音声の音量が最大の音声収集装置を第２装置に決定する。

この局面に従えば、第２ユーザーが発声した音声を収集する複数の音声収集装置のうちで収集される音声の音量が最大の音声収集装置が第２装置に決定されるので、音声認識の精度を高めることができる。

好ましくは、ジョブ生成手段は、第２装置で収集された音声が許諾の内容を示す場合、依頼ジョブを生成する。

この発明のさらに他の局面に従えば、ジョブ生成方法は、音声を収集する複数の音声収集装置と、画像処理装置が実行するためのジョブを生成するジョブ生成装置と、を備えた音声処理システムで実行されるジョブ制御方法であって、発声したユーザーを特定するユーザー特定ステップを、複数の音声収集装置およびジョブ生成装置のいずれかに実行させ、複数の音声収集装置のうち第１装置で収集される音声であってユーザー特定ステップにおいて第１ユーザーが特定される音声および複数の音声収集装置のうち第１装置とは異なる第２装置で収集される音声であってユーザー特定ステップにおいて第１ユーザーとは異なる第２ユーザーが特定される音声に基づいて、第１ユーザーが第２ユーザーに実行を依頼した依頼ジョブをジョブとして生成するジョブ生成ステップを、ジョブ生成装置に実行させる。

この局面に従えば、ジョブを設定する操作を容易にしたジョブ生成方法を提供することができる。

この発明のさらに他の局面に従えば、ジョブ生成方法は、画像処理装置が実行するためのジョブを生成するジョブ生成装置で実行されるジョブ生成方法であって、音声を発声したユーザーを特定するユーザー特定ステップと、複数の音声収集装置のうち第１装置で収集される音声であってユーザー特定ステップにおいて第１ユーザーが特定される音声と、複数の音声収集装置のうち第１装置とは異なる第２装置で収集される音声であってユーザー特定ステップにおいて第１ユーザーとは異なる第２ユーザーが特定される音声と、に基づいて第１ユーザーが第２ユーザーに実行を依頼した依頼ジョブを画像処理装置に実行させるジョブとして生成するジョブ生成ステップと、をジョブ生成装置に実行させる。

この発明のさらに他の局面に従えば、ジョブ生成プログラムは、画像処理装置が実行するためのジョブを生成するジョブ生成装置を制御するコンピューターにより実行されるジョブ生成プログラムであって、音声を発声したユーザーを特定するユーザー特定ステップと、複数の音声収集装置のうち第１装置で収集される音声であってユーザー特定ステップにおいて第１ユーザーが特定される音声と、複数の音声収集装置のうち第１装置とは異なる第２装置で収集される音声であってユーザー特定ステップにおいて第１ユーザーとは異なる第２ユーザーが特定される音声と、に基づいて第１ユーザーが第２ユーザーに実行を依頼した依頼ジョブをジョブとして生成するジョブ生成ステップと、をコンピューターに実行させる。

この局面に従えば、ジョブを設定する操作を容易にしたジョブ生成プログラムを提供することができる。

本発明の第１の実施の形態の１つにおける音声処理システムの全体概要を示す図である。第１の実施の形態におけるスマートスピーカーのハードウェア構成の概要の一例を示すブロック図である。第１の実施の形態におけるＭＦＰのハードウェア構成の概要を示すブロック図である。第１の実施の形態におけるスマートスピーカーが備えるＣＰＵが有する機能の一例を示すブロック図である。キーワードテーブルの一例を示す図である。第１の実施の形態におけるＭＦＰが備えるＣＰＵが有する機能の一例を示すブロック図である。ログイン画面の一例を示す図である。第１の実施の形態におけるジョブ生成の流れの一例を示すフローチャートである。ユーザー特定処理の流れの一例を示すフローチャートである。ペアリング処理の流れの一例を示すフローチャートである。ジョブ生成サブ処理の流れの一例を示すフローチャートである。ジョブ実行処理の流れの一例を示すフローチャートである。実行指示処理の流れの一例を示すフローチャートである。第２の実施の形態におけるスマートスピーカーが備えるＣＰＵが有する機能の一例を示すブロック図である。第２の実施の形態におけるＭＦＰが備えるＣＰＵが有する機能の一例を示すブロック図である。

以下、本発明の実施の形態について図面を参照して説明する。以下の説明では同一の部品には同一の符号を付してある。それらの名称および機能も同じである。従ってそれらについての詳細な説明は繰返さない。

＜第１の実施の形態＞
図１は、本発明の第１の実施の形態の１つにおける音声処理システムの全体概要を示す図である。図１を参照して、音声処理システム１は、ＭＦＰ（ＭｕｌｔｉＦｕｎｃｔｉｏｎＰｅｒｉｐｈｅｒａｌ）１００と、スマートスピーカー２００，２００Ａ，２００Ｂ，２００Ｃと、サーバー４００と、を含む。

ＭＦＰ１００は、画像処理装置の一例である。スマートスピーカー２００，２００Ａ，２００Ｂ，２００Ｃは、ジョブ生成装置の一例である。スマートスピーカー２００，２００Ａ，２００Ｂ，２００Ｃそれぞれは、ＭＦＰ１００に実行させる処理を定めたジョブを生成し、ＭＦＰ１００は、ジョブを実行する。ＭＦＰ１００は、ネットワーク３と接続されている。ネットワーク３には、アクセスポイント（ＡＰ）９、９Ａが接続されている。ＡＰ９、９Ａは、無線通信機能を有する中継装置である。スマートスピーカー２００，２００Ａそれぞれは、ＡＰ９と通信することによりネットワーク３に接続され、スマートスピーカー２００Ｂ，２００Ｃそれぞれは、ＡＰ９Ａと通信することによりネットワーク３に接続される。このため、スマートスピーカー２００，２００Ａ，２００Ｂ，２００Ｃそれぞれは、互いに通信可能であるとともに、ＭＦＰ１００と通信可能である。ネットワーク３は、例えば、ローカルエリアネットワーク（ＬＡＮ）である。ネットワーク３において、その接続形態は有線または無線を問わない。また、ネットワーク３は、ワイドエリアネットワーク（ＷＡＮ）、公衆交換電話網（ＰＳＴＮ）、インターネット等であってもよい。スマートスピーカー２００，２００Ａ，２００Ｂ，２００Ｃそれぞれの機能およびハードウェア構成は同じなので、ここでは、特に言及しない限りスマートスピーカー２００を例に説明する。

ゲートウェイ（Ｇ／Ｗ）装置７は、ネットワーク３に接続されるとともに、インターネット５に接続される。ゲートウェイ装置７は、ネットワーク３とインターネット５とを中継する。サーバー４００は、インターネット５に接続される。このため、ＭＦＰ１００、スマートスピーカー２００，２００Ａ，２００Ｂ，２００Ｃそれぞれは、ゲートウェイ装置７を介して、サーバー４００と通信可能である。

サーバー４００は、音声を発声したユーザーを認証する認証機能を有する。例えば、サーバー４００は、予め登録された複数のユーザーそれぞれの声紋を示す声紋情報を登録している。サーバー４００は、複数のユーザーの声紋を用いてユーザーを特定する。本実施の形態においては、スマートスピーカー２００，２００Ａ，２００Ｂ，２００Ｃは、それぞれで収集された音声の声紋をサーバー４００に送信する。サーバー４００は、スマートスピーカー２００，２００Ａ，２００Ｂ，２００Ｃそれぞれから送信される声紋に基づいて、その声紋のユーザーを特定し、スマートスピーカー２００，２００Ａ，２００Ｂ，２００Ｃそれぞれに返信する。

図２は、第１の実施の形態におけるスマートスピーカーのハードウェア構成の概要の一例を示すブロック図である。図２を参照して、スマートスピーカー２００は、スマートスピーカー２００の全体を制御するための中央演算処理装置（ＣＰＵ）２０１と、ＣＰＵ２０１が実行するためのプログラムを記憶するＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２０２と、ＣＰＵ２０１の作業領域として使用されるＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２０３と、データを不揮発的に記憶するＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）２０４と、ＣＰＵ２０１をネットワーク３に接続する通信部２０５と、情報を表示する表示部２０６と、ユーザーの操作の入力を受け付ける操作部２０７と、マイクロフォン２０８と、スピーカー２０９と、シリアルインターフェース２１０と、を含む。

ＣＰＵ２０１は、インターネット５に接続されたコンピューターからプログラムをダウンロードしてＥＰＲＯＭ２０４に記憶する。また、ネットワーク３に接続されたコンピューターがプログラムをＥＰＲＯＭ２０４に書込みする場合に、ＥＰＲＯＭ２０４にプログラムが記憶される。ＣＰＵ２０１は、ＥＰＲＯＭ２０４に記憶されたプログラムをＲＡＭ２０３にロードして実行する。

マイクロフォン２０８は、音声を収集し、収集した音声を電気信号に変換する。マイクロフォン２０８は、音声から電気信号に変換された音声データをＣＰＵ２０１に出力する。

シリアルインターフェース２１０は、外部の装置とシリアル通信するためのインターフェースである。ここでは、シリアル通信は、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）規格である。シリアルインターフェース２１０は、ＵＳＢ規格で通信可能な外部装置が接続可能である。ＣＰＵ１１１は、シリアルインターフェース２１０を介して外部装置にアクセス可能である。外部装置は、ＵＳＢメモリ２１１、ＣＤドライブ等の記憶装置を含む。ここでは、外部装置をＵＳＢメモリ２１１とする場合を例に説明する。ＵＳＢメモリ２１１は、ＥＰＲＯＭなどの半導体メモリと、シリアル通信回路と、を備えている。ＣＰＵ２０１は、シリアルインターフェース２１０に装着されたＵＳＢメモリ２１１に記録されたプログラムをＲＡＭ２０３にロードして実行する。

なお、ＣＰＵ２０１が実行するプログラムを記憶する媒体としては、ＵＳＢメモリ２１１に限られず、光ディスク（ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲＯＭ）、ＭＯ（ＭａｇｎｅｔｉｃＯｐｔｉｃａｌＤｉｓｃ）／ＭＤ（ＭｉｎｉＤｉｓｃ）／ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ））、光カード、マスクＲＯＭ、であってもよい。ここでいうプログラムは、ＣＰＵ２０１により直接実行可能なプログラムだけでなく、ソースプログラム、圧縮処理されたプログラム、暗号化されたプログラム等を含む。

図３は、第１の実施の形態におけるＭＦＰのハードウェア構成の概要を示すブロック図である。図３を参照して、ＭＦＰ１００は、メイン回路１１０と、原稿を読み取るための原稿読取部１３０と、原稿を原稿読取部１３０に搬送するための自動原稿搬送装置１２０と、原稿読取部１３０が原稿を読み取って出力する画像データに基づいて用紙等に画像を形成するための画像形成部１４０と、画像形成部１４０に用紙を供給するための給紙部１５０と、画像が形成された用紙を処理する後処理部１５５と、ユーザーインターフェースとしての操作パネル１６０とを含む。

後処理部１５５は、画像形成部１４０により画像が形成された１以上の用紙を並び替えて排紙するソート処理、パンチ穴加工するパンチ処理、ステープル針を打ち込むステープル処理を実行する。

メイン回路１１０は、ＣＰＵ１１１と、通信インターフェース（Ｉ／Ｆ）部１１２と、ＲＯＭ１１３と、ＲＡＭ１１４と、大容量記憶装置としてのハードディスクドライブ（ＨＤＤ）１１５と、ファクシミリ部１１６と、ＣＤ−ＲＯＭ１１８が装着される外部記憶装置１１７と、を含む。ＣＰＵ１１１は、自動原稿搬送装置１２０、原稿読取部１３０、画像形成部１４０、給紙部１５０、後処理部１５５および操作パネル１６０と接続され、ＭＦＰ１００の全体を制御する。

ＲＯＭ１１３は、ＣＰＵ１１１が実行するプログラム、またはそのプログラムを実行するために必要なデータを記憶する。ＲＡＭ１１４は、ＣＰＵ１１１がプログラムを実行する際の作業領域として用いられる。さらに、ＲＡＭ１１４は、原稿読取部１３０から連続的に送られてくる画像データを一時的に記憶する。

通信Ｉ／Ｆ部１１２は、ＭＦＰ１００をネットワーク３に接続するためのインターフェースである。ＣＰＵ１１１は、通信Ｉ／Ｆ部１１２を介して、スマートスピーカー２００との間で通信し、データを送受信する。また、通信Ｉ／Ｆ部１１２は、ネットワーク３を介してインターネット５に接続されたコンピューターと通信が可能である。

ファクシミリ部１１６は、公衆交換電話網（ＰＳＴＮ）に接続され、ＰＳＴＮにファクシミリデータを送信する、またはＰＳＴＮからファクシミリデータを受信する。ファクシミリ部１１６は、受信したファクシミリデータを、ＨＤＤ１１５に記憶する、または画像形成部１４０に出力する。画像形成部１４０は、ファクシミリ部１１６により受信されたファクシミリデータを用紙にプリントする。また、ファクシミリ部１１６は、ＨＤＤ１１５に記憶されたデータをファクシミリデータに変換して、ＰＳＴＮに接続されたファクシミリ装置に送信する。

外部記憶装置１１７は、ＣＤ−ＲＯＭ１１８が装着される。ＣＰＵ１１１は、外部記憶装置１１７を介してＣＤ−ＲＯＭ１１８にアクセス可能である。ＣＰＵ１１１は、外部記憶装置１１７に装着されたＣＤ−ＲＯＭ１１８に記録されたプログラムをＲＡＭ１１４にロードして実行する。なお、ＣＰＵ１１１が実行するプログラムを記憶する媒体としては、ＣＤ−ＲＯＭ１１８に限られず、光ディスク、ＩＣカード、光カード、マスクＲＯＭ、ＥＰＲＯＭなどの半導体メモリであってもよい。

また、ＣＰＵ１１１が実行するプログラムは、ＣＤ−ＲＯＭ１１８に記録されたプログラムに限られず、ＨＤＤ１１５に記憶されたプログラムをＲＡＭ１１４にロードして実行するようにしてもよい。この場合、ネットワーク３に接続された他のコンピューターが、ＭＦＰ１００のＨＤＤ１１５に記憶されたプログラムを書き換える、または、新たなプログラムを追加して書き込むようにしてもよい。さらに、ＭＦＰ１００が、ネットワーク３に接続された他のコンピューターからプログラムをダウンロードして、そのプログラムをＨＤＤ１１５に記憶するようにしてもよい。ここでいうプログラムは、ＣＰＵ１１１が直接実行可能なプログラムだけでなく、ソースプログラム、圧縮処理されたプログラム、暗号化されたプログラム等を含む。

操作パネル１６０は、ＭＦＰ１００の上面に設けられ、表示部１６１と操作部１６３とを含む。表示部１６１は、例えば、液晶表示装置（ＬＣＤ）または有機ＬＥ（ｅｌｅｃｔｒｏｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイであり、ユーザーに対する指示メニューや取得した画像データに関する情報等を表示する。操作部１６３は、タッチパネル１６５と、ハードキー部１６７とを含む。タッチパネル１６５は、表示部１６１の上面または下面に表示部１６１に重畳して設けられる。ハードキー部１６７は、複数のハードキーを含む。ハードキーは、例えば接点スイッチである。タッチパネル１６５は、表示部１６１の表示面中でユーザーにより指示された位置を検出する。

本実施の形態における音声処理システム１においては、スマートスピーカー２００，２００Ａ，２００Ｂ，２００Ｃが互いに異なる位置に配置される。このため、スマートスピーカー２００，２００Ａ，２００Ｂ，２００Ｃそれぞれは、異なるユーザーが発声する音声を収集する。ここでは、ユーザーＡとユーザーＢとが電話で会話する場合に、ユーザーＡが発声する音声がスマートスピーカー２００により収集され、ユーザーＢが発声する音声がスマートスピーカー２００Ｂにより収集される場合を例に説明する。

図４は、第１の実施の形態におけるスマートスピーカー２００が備えるＣＰＵ２０１が有する機能の一例を示すブロック図である。図４に示す機能は、ハードウェアで実現してもよいし、スマートスピーカー２００が備えるＣＰＵ２０１に、ＲＯＭ２０２、ＥＰＲＯＭ２０４またはＣＤ−ＲＯＭに記憶されたプログラムを実行させることにより、ＣＰＵ２０１で実現してもよい。ここで、スマートスピーカー２００が備えるＣＰＵ２０１にジョブ生成プログラムを実行させる場合を例に説明する。

図４を参照して、スマートスピーカー２００が備えるＣＰＵ２０１は、音声受付部２５１と、音声認識部２５３と、ユーザー特定部２５５と、ジョブ生成部２５７と、ジョブ送信部２５９と、応答部２６１と、通話者決定部２６３と、装置決定部２６５と、音声情報取得部２６７と、を含む。音声受付部２５１は、マイクロフォン２０８が出力する音声データを受け付ける。音声データは、ユーザーが発声している間だけマイクロフォン２０８から入力される。音声受付部２５１は、マイクロフォン２０８から入力される音声データと、その音声データが入力された時刻を示す時刻情報とを音声認識部２５３およびユーザー特定部２５５に出力する。

音声認識部２５３は、音声受付部２５１から音声データと時刻情報とが入力されるごとに、音声データで特定される音声を認識する。具体的には、音声認識部２５３は、音声データを文字で構成される音声情報に変換する。音声を認識する技術は公知なので、ここでは説明を繰り返さない。音声認識部２５３は、音声データを変換した音声情報と時刻情報との組をジョブ生成部２５７、応答部２６１および通話者決定部２６３に出力する。

ユーザー特定部２５５は、音声受付部２５１から音声データと時刻情報とが入力されるごとに、音声データで特定される音声を発声したユーザーを特定する。具体的には、ユーザー特定部２５５は、サーバー４００に音声データから抽出される声紋を送信し、サーバー４００にユーザーの特定を依頼する。なお、音声を発声したユーザーを特定する技術は公知なので、ここでは説明を繰り返さない。サーバー４００は、音声データのユーザーを特定する場合、そのユーザーを識別するためのユーザー識別情報を返信するので、ユーザー特定部２５５は、サーバー４００により特定されたユーザーのユーザー識別情報と時刻情報との組をジョブ生成部２５７および応答部２６１に出力する。ここでは、ユーザー特定部２５５は、ユーザーＡを特定する。なお、スマートスピーカー２００が認証機能を有する場合には、ユーザー特定部２５５が音声データの音声を発声したユーザーを特定してもよい。

ユーザー特定部２５５により特定されるユーザーと、他のスマートスピーカー２００Ａ，２００Ｂ，２００Ｃのいずれかにより特定されるユーザーとが同一の場合がある。例えば、スマートスピーカー２００とスマートスピーカー２００Ａとの距離が所定の距離以下の場合、スマートスピーカー２００とスマートスピーカー２００Ａとが一人のユーザーが発声した音声を同時に収集する場合がある。この場合、スマートスピーカー２００とスマートスピーカー２００Ａそれぞれは、サーバー４００から調停指示を受信する。サーバー４００がスマートスピーカー２００に送信する調停指示は、スマートスピーカー２００Ａの装置識別情報を含み、サーバー４００がスマートスピーカー２００Ａに送信する調停指示は、スマートスピーカー２００の装置識別情報を含む。

スマートスピーカー２００とスマートスピーカー２００Ａそれぞれは、収集された音声の音量が最大の装置でユーザーを特定するようにする。具体的には、ユーザー特定部２５５は、スマートスピーカー２００Ａからスマートスピーカー２００Ａで収集された音声の音量を取得し、自装置で収集された音声の音量と比較する。ユーザー特定部２５５は、自装置の音量がスマートスピーカー２００Ａから取得された音量より大きければユーザーを特定するが、自装置の音量がスマートスピーカー２００Ａから取得された音量より小さければユーザーを特定しない。また、ユーザー特定部２５５は、自装置の音量がスマートスピーカー２００Ａから取得された音量と同じ場合、スマートスピーカー２００Ａとの間でいずれか一方でユーザーを特定するようにする。例えば、ユーザー特定部２５５は、自装置がユーザーを特定する場合には、スマートスピーカー２００Ａにユーザーの特定を禁止する禁止信号を送信し、自装置がユーザーを特定する前にスマートスピーカー２００Ａからに禁止信号を受信する場合にユーザーを特定しない。

通話者決定部２７９は、音声認識部２５３から入力される音声情報に基づいて、音声を発したユーザーが会話する相手方のユーザーを通話者として決定する。通常、ユーザーが電話等で会話する場合、相手方を確認するなどのために通話の相手方の名前、呼称等を発声する。通話者決定部２７９は、音声情報から予め登録されたユーザーの名前または呼称が抽出される場合、抽出された名前または呼称のユーザーを通話者に決定する。通話者決定部２７９は、通話者に決定されたユーザーのユーザー識別情報を装置決定部２６５に出力する。ここでは、ユーザーＡがユーザーＢの名前を発声する場合を例に説明する。

装置決定部２６５は、他のスマートスピーカー２００Ａ，１００Ｂ，２００Ｃのうちから通話者の音声を集音する装置をペアリング装置に決定する。通話者のユーザー識別情報を含む音声を収集した装置が第１装置であり、通話者の音声を集音する装置が第２装置である。例えば、装置決定部２６５は、サーバー４００に通話者の音声を収集する装置を問い合わせることにより、通話者の音声を収集する装置を特定する。サーバー４００への問い合わせは、通話者のユーザー識別情報を含む。サーバー４００がスマートスピーカー２００，２００Ａ，１００Ｂ，２００Ｃそれぞれから受信される声紋に基づいて、スマートスピーカー２００，２００Ａ，１００Ｂ，２００Ｃそれぞれに対してユーザーを特定している。このため、サーバー４００は、スマートスピーカー２００，２００Ａ，１００Ｂ，２００Ｃのうちで、ユーザー識別情報で識別されるユーザーが発声する音声を収集している装置を特定することができる。装置決定部２６５は、サーバー４００により特定された装置をペアリング装置に決定する。装置決定部２６５は、ペアリング装置を識別するための装置識別情報を音声情報取得部２６７に出力する。ここでは、ユーザーＢの音声をスマートスピーカー２００Ｂが収集するので、装置決定部２６５は、スマートスピーカー２００Ｂをペアリング装置に決定する。装置決定部２６５は、ペアリング装置であるスマートスピーカー２００Ｂに音声情報の送信を依頼する。

応答部２６１は、自装置がペアリング装置の場合に機能する。換言すれば、応答部２６１は、通信部２０５が他のスマートスピーカー２００Ａ，２００Ｂ，２００Ｃのいずれかから音声情報の送信が依頼される場合に機能する。応答部２６１は、装置決定部２６５が音声認識部２５３から音声情報と時刻情報との組が入力され、ユーザー特定部２５５からユーザー識別情報と時刻情報との組が入力される。応答部２６１は、通信部２０５が他のスマートスピーカー２００Ａ，２００Ｂ，２００Ｃのいずれかから音声情報の送信が依頼される場合、その後に、時刻情報と、その時刻情報と組になる音声情報と、その時刻情報と組になるユーザー識別情報とを、スマートスピーカー２００Ａ，２００Ｂ，２００Ｃのうち音声情報の送信を依頼してきた装置に送信する。

なお、装置決定部２６５は、通信部２０５を制御して、スマートスピーカー２００Ａ，１００Ｂ，２００Ｃそれぞれに問合せコマンドを送信し、スマートスピーカー２００Ａ，１００Ｂ，２００Ｃのいずれかから応答を受信する場合に、応答してきた装置をペアリング装置に決定してもよい。問合せコマンドは、通話者のユーザー識別情報を含む。

応答部２６１は、通信部２０５が他のスマートスピーカー２００Ａ，２００Ｂ，２００Ｃのいずれかから問合せコマンドを受信する場合に機能する。応答部２６１は、装置決定部２６５が音声認識部２５３から音声情報と時刻情報との組が入力され、ユーザー特定部２５５からユーザー識別情報と時刻情報との組が入力される。応答部２６１は、通信部２０５が他のスマートスピーカー２００Ａ，２００Ｂ，２００Ｃのいずれかから問合せコマンドを受信する場合、問合せコマンドに含まれるユーザー識別情報とユーザー特定部２５５から入力されるユーザー識別情報とが一致すれば、問合せコマンドを送信してきた装置に応答する。応答部２６１は、問合せコマンドに応答する場合、その後に、時刻情報と、その時刻情報と組になる音声情報と、その時刻情報と組になるユーザー識別情報とを問合せコマンドを送信してきた装置に送信する。

ジョブ生成部２５７は、音声認識部２５３から音声情報と時刻情報との組が入力され、ユーザー特定部２５５からユーザー識別情報と時刻情報との組が入力される。ジョブ生成部２５７は、音声情報と時刻情報との組の複数とユーザー識別情報と時刻情報との組の複数とが入力される場合がある。ジョブ生成部２５７は、複数の音声情報を区別するために時刻情報を用いる。

ジョブ生成部２５７は、それぞれと組になる時刻情報が同じユーザー識別情報と音声情報とを関連付ける。換言すれば、ジョブ生成部２５７は、音声とその音声を発声したユーザーとを関連付ける。具体的には、ジョブ生成部２５７は、音声から変換された音声情報と、その音声を発声したユーザーのユーザー識別情報と、音声が発声された時刻を示す時刻情報と、を含む音声レコードを生成し、音声レコードをＥＰＲＯＭ２０４に記憶された音声テーブルに追加する。

音声情報取得部２６７は、装置決定部２６５から装置識別情報が入力された後、通信部２０５が装置識別情報で特定されるペアリング装置から受信される時刻情報と、音声情報とユーザー識別情報とを含む音声レコードを生成し、音声レコードをＥＰＲＯＭ２０４に記憶された音声テーブルに追加する。

ここでは、ペアリング装置をスマートスピーカー２００Ｂとしているので、音声テーブルには、自装置であるスマートスピーカー２００で収集された音声に対応する音声レコードと、ペアリング装置であるスマートスピーカー２００Ｂで収集された音声に対応する音声レコードとが登録される。スマートスピーカー２００で収集された音声に対応する音声レコードは、ユーザーＡのユーザー識別情報を含み、スマートスピーカー２００Ｂで収集された音声に対応する音声レコードは、ユーザーＢのユーザー識別情報を含む。

ジョブ生成部２５７は、音声テーブルに登録された音声情報に基づいてＭＦＰ１００に実行させる処理とその処理を実行するための条件と定めたジョブを生成する。ジョブ生成部２５７は、処理決定部２７１と、通常ジョブ生成部２７３と、依頼ジョブ生成部２７５と、キーワード抽出部２７７と、を含む。

処理決定部２７１は、音声情報に基づいて設定情報を決定する。設定情報は、ＭＦＰ１００に実行させる処理とその処理を実行するための条件とを示す情報である。処理決定部２７１は、音声情報がデータを識別するためのファイル名を含む場合、音声情報に含まれるファイル名で特定されるデータを処理の対象となるデータを示す設定情報に決定する。

キーワード抽出部２７７は、ＥＰＲＯＭ２０４に予め記憶されたキーワードテーブルを用いて、音声情報からキーワードを抽出する。キーワードテーブルは、設定情報にその設定情報に関連するキーワードを関連付ける。キーワードは、設定情報に関連する関連情報の１つである。

図５は、キーワードテーブルの一例を示す図である。キーワードテーブルは、キーワードと設定情報とを関連付ける複数のキーワードレコードを含む。設定情報は、ＭＦＰ１００に実行させる処理またはＭＦＰ１００が処理を実行する条件を定める。キーワードレコードは、キーワードの項目と設定情報の項目とを含む。キーワードレコードにおいて、キーワードの項目にはキーワードが設定され、設定情報の項目には処理の名称または／および処理を実行する条件が設定される。キーワードテーブルが、キーワードとＭＦＰ１００に実行させる処理とを関連付ける一例としては、キーワード「スキャン」を含むキーワードレコードは、キーワード「スキャン」に対してＭＦＰ１００に原稿を読み取らせるスキャン処理を関連付ける。キーワードテーブルは、１つのキーワードに対して処理と、その処理を実行するための条件とを関連付ける場合がある。例えば、キーワード「２ｉｎ１」を含むキーワードレコードは、キーワード「２ｉｎ１」に対して複数の画像を合成する合成処理と、合成処理を実行する条件として合成の元になる画像の数が２つであることを関連付ける。キーワードテーブルは、１つのキーワードに対して複数の処理を関連付ける場合がある。例えば、キーワード「コピー」を含むキーワードレコードは、キーワード「コピー」に対してコピー処理を関連付ける。コピー処理は、ＭＦＰ１００に原稿を読み取らせるスキャン処理と用紙に画像を形成するプリント処理とを含む。

キーワードテーブルが、キーワードとＭＦＰ１００が処理を実行する条件を関連付ける一例としては、キーワード「カラー」に対してＭＦＰ１００が実行するプリント処理の条件としてフルカラーを関連付ける。また、別の一例として、キーワード「太郎」に対して、ＭＦＰ１００がデータを送信する送信処理を実行する条件としてユーザーに対して割り当てられた宛先情報である電子メールアドレス「ｔａｒｏ＠ａａａ．ｃｐｍ」を関連付ける。宛先情報は、電子メールアドレスの他に、ファクシミリ番号、ＩＰアドレスが用いられる。なお、キーワード「太郎」は予め登録されたユーザーの名称を示す。

図４に戻って、キーワード抽出部２７７は、音声情報とキーワードテーブルに設定されている複数のキーワードとを比較し、音声情報の少なくとも一部と同一または類似する部分を含むキーワードが存在すれば、そのキーワードが設定されたキーワードレコードを抽出する。キーワード抽出部２７７は、抽出されたキーワードレコードに設定された設定情報を決定し、決定された設定情報を処理決定部２７１に出力する。

処理決定部２７１は、キーワード抽出部２７７により決定された設定情報に基づいて、ＭＦＰ１００に実行させる処理を定めたジョブを生成する。具体的には、処理決定部２７１は、設定情報で定まる処理を設定情報で定まる条件でＭＦＰ１００に実行させるジョブを生成する。

例えば、処理決定部２７１は、音声情報が「コピー」および「フルカラー」のキーワードを含む場合、キーワードテーブルによりキーワード「コピー」に関連付けられたスキャン処理およびプリント処理を定める設定情報を決定し、キーワード「フルカラー」に関連付けられたフルカラーでスキャン処理およびプリント処理を実行する条件を定める設定情報を決定する。処理決定部２７１は、原稿をフルカラーで読み取るスキャン処理と、スキャン処理が実行されて出力されるフルカラーの画像データの画像をフルカラーで用紙に形成するプリント処理とをＭＦＰ１００に実行させるジョブを決定する。

また、処理決定部２７１は、音声情報が「送る」および「Ｔａｒｏ」のキーワードを含む場合、キーワードテーブルによりキーワード「送る」に関連付けられたスキャン処理およびデータ送信処理が特定され、キーワードテーブルによりキーワード「Ｔａｒｏ」に関連付けられた宛先を示す設定情報が特定される。この場合、処理決定部２７１は、原稿をモノクロで読み取るスキャン処理と、スキャン処理が実行されて出力されるモノクロの画像データを、名称がＴａｒｏのユーザーに対して登録された電子メールアドレス宛ての電子メールに添付して送信するデータ送信処理と、をＭＦＰ１００に実行させるジョブを生成する。

なお、処理決定部２７１およびキーワード抽出部２７７がキーワードテーブルを用いて音声情報から設定情報の決定する例を説明したが、ニューラルネットワークなどを用いたディープラーニング技術を採用して、音声情報と設定情報との関係を学習したモデルを生成しておき、そのモデルを用いて音声情報から設定情報を決定してもよい。

処理決定部２７１は、ジョブを生成する場合、そのジョブを生成するために用いた１以上の音声情報とそれぞれ組になる１以上のユーザー識別情報を決定する。例えば、第１ユーザーのユーザー識別情報と組になる１以上の音声情報に基づいてジョブが生成される場合、第１ユーザーのユーザー識別情報を決定する。第１ユーザーのユーザー識別情報と組になる１以上の音声情報と第２ユーザーのユーザー識別情報と組になる１以上の音声情報とに基づいてジョブが生成される場合、第１ユーザーのユーザー識別情報と第２ユーザーのユーザー識別情報とを決定する。処理決定部２７１は、ジョブと、決定された１以上のユーザー識別情報との組を依頼ジョブ生成部２７５および通常ジョブ生成部２７３に出力する。ここでは、自装置であるスマートスピーカー２００が集音した音声を発声したユーザーＡが第１ユーザーであり、ペアリング装置であるスマートスピーカー２００Ｂが集音した音声を発声したユーザーＢが第２ユーザーである。

依頼ジョブ生成部２７５は、処理決定部２７１からジョブと、１以上のユーザー識別情報との組が入力され、依頼ジョブを生成する。依頼ジョブは、依頼者である第１ユーザーが許諾者である第２ユーザーに依頼した作業を第２ユーザーが実行するために、第２ユーザーがＭＦＰ１００に実行させるジョブである。換言すれば、依頼ジョブは、第２ユーザーによってＭＦＰ１００に実行が指示されるジョブである。このため、依頼ジョブは、処理決定部２７１から入力されるジョブに、ＭＦＰ１００がジョブにより定められた処理を実行するための開始条件として第２ユーザーによる指示が設定されたジョブである。開始条件として設定される指示は、認証されるために第２ユーザーが入力する操作を含む。

依頼ジョブ生成部２７５は、１以上の音声情報にそれぞれ含まれるユーザー識別情報が複数の場合であって、音声認識部２５３から入力される１以上の音声情報のうちに依頼文字列を含む音声情報が存在する場合に依頼ジョブを生成する。依頼文字列は、他人に作業を依頼する場合に用いる語を含む。例えば、依頼文字列は、「お願いします」、「して下さい」、「しろ」等を含む。依頼文字列は予め定めておけばよい。また、ＣＰＵ２０１にＭＦＰ１００を使用する複数のユーザー間の会話を学習させてＣＰＵ２０１が依頼文字列を決定してもよい。

ただし、依頼ジョブ生成部２７５は、音声認識部２５３から入力される１以上の音声情報のうちに許諾文字列を含む文字情報が存在しない場合は依頼ジョブを生成しない。許諾文字列は、他人からの依頼を受ける場合に用いる語を含む。許諾文字列は、「了解しました」、「わかりました」、「引き受けます」等を含む。許諾文字列は予め定めておけばよい。また、許諾文字列は、ＭＦＰ１００を使用する複数のユーザー間の会話を学習することにより決定されてもよい。

依頼ジョブ生成部２７５は、依頼文字列を含む音声情報が存在する場合、その音声情報と組になるユーザー識別情報を第１ユーザーのユーザー識別情報に特定する。ここでは、ユーザーＡがユーザーＢに電話で作業を依頼するので、ユーザーＡが第１ユーザーに決定される。また、依頼ジョブ生成部２７５は、許諾文字列を含む音声情報が存在する場合、その音声情報と組になるユーザー識別情報を第２ユーザーのユーザー識別情報に特定する。ここでは、ユーザーＢが第２ユーザーに決定される。依頼ジョブ生成部２７５は、処理決定部２７１から入力されるジョブに、ＭＦＰ１００がそのジョブにより定められた処理を実行するための開始条件として第２ユーザーによる指示を受け付けることを設定することにより、依頼ジョブを生成する。第２ユーザーによる指示の受け付けは、第２ユーザーが認証されることを含む。依頼ジョブ生成部２７５は、第１ユーザーのユーザー識別情報と依頼ジョブとの組をジョブ送信部２５９に出力する。

依頼ジョブ生成部２７５は、許諾文字列を含む音声情報が存在する場合に、その音声情報と組になる時刻情報で示される時刻よりも前の時刻を示す時刻情報と組になる音声情報を決定する。そして、依頼ジョブ生成部２７５は、決定された音声情報から依頼文字列を含む文字情報を抽出する。これにより、許諾文字列を含む音声情報が存在する場合に、依頼ジョブを生成すればよいので、音声情報のすべてからキーワードを抽出する必要がなく、負荷をできるだけ小さくすることができる。この場合は、許諾文字列を含む音声情報が存在することが確認された後にキーワードの抽出およびジョブの生成を開始するのが好ましい。

依頼ジョブ生成部２７５は、処理決定部２７１からジョブが入力されかつ依頼ジョブを生成しない場合、通常ジョブ生成部２７３に通常生成指示を出力する。通常ジョブ生成部２７３は、処理決定部２７１からジョブと１以上のユーザー識別情報との組が入力される。通常ジョブ生成部２７３は、依頼ジョブ生成部２７５から通常生成指示が入力される場合、処理決定部２７１から入力されるジョブと１以上のユーザー識別情報とに基づいて通常ジョブを生成する。通常ジョブは、依頼ジョブ以外のジョブである。

通常ジョブ生成部２７３は、処理決定部２７１から入力される１以上のユーザー識別情報のうち指示文字列を含む音声情報により関連付けられたユーザー識別情報のユーザーを、指示ユーザーに決定する。指示文字列は、処理の内容を指示する語であり。例えば、指示文字列は、「したい。」、「する。」等である。また、通常ジョブ生成部２７３は、処理決定部２７１から入力される１以上のユーザー識別情報のうち、キーワードの数が最大となるユーザー識別情報で特定されるユーザーを指示ユーザーに決定してもよい。この場合、処理決定部２７１がジョブを生成する際に用いた複数のキーワードをそれぞれ含む複数の音声情報を用いて、ユーザー識別情報ごとにそれに対応するキーワードを集計し、ユーザー識別情報に対するキーワードの数を求めるようにすればよい。通常ジョブ生成部２７３は、処理決定部２７１から入力されるジョブに、ＭＦＰ１００がジョブにより定められた処理を実行するための開始条件として指示ユーザーによる指示を設定することにより、通常ジョブを生成する。指示ユーザーによる指示の受け付けは、指示ユーザーが認証されることを含む。通常ジョブ生成部２７３は、通常ジョブをジョブ送信部２５９に出力する。これにより、ジョブ送信部２５９により通常ジョブがＭＦＰ１００に送信される。ＭＦＰ１００においては、スマートスピーカー２００から通常ジョブを受信すると通常ジョブをＨＤＤ１１５に記憶し、指示ユーザーが操作部１６３を操作すると通常ジョブを実行可能な状態に設定する。

ジョブ送信部２５９は、ＭＦＰ１００にジョブを送信する。ジョブ送信部２５９は、依頼ジョブ生成部２７５から依頼ジョブと第１ユーザーのユーザー識別情報との組が入力される場合、依頼ジョブと第１ユーザーのユーザー識別情報との組をＭＦＰ１００に送信する。また、ジョブ送信部２５９は、通常ジョブ生成部２７３から通常ジョブが入力される場合、通常ジョブをＭＦＰ１００に送信する。

ジョブ送信部２５９は、操作ユーザー通知部２８１を含む。操作ユーザー通知部２８１は、依頼ジョブと第１ユーザーのユーザー識別情報との組がＭＦＰ１００に送信される場合、第２ユーザーに依頼ジョブがＭＦＰ１００で実行可能なことを通知する。第２ユーザーは、依頼ジョブで開始条件として設定されている第２ユーザーのユーザー識別情報によって特定される。例えば、操作ユーザー通知部２８１は、通信部２０５を制御して、ＭＦＰ１００に実行可能な依頼ジョブが存在することを示すメッセージを含む電子メールを、第２ユーザーに送信する。第２ユーザーの電子メールアドレスは予め記憶されている。なお、通知方法は、電子メールに限らず、メッセージ送信であってもよい。これにより、第２ユーザーに、ＭＦＰ１００に依頼ジョブを実行させるための操作を入力すればよいことを通知することができる。

図６は、第１の実施の形態におけるＭＦＰ１００が備えるＣＰＵ１１１が有する機能の一例を示すブロック図である。図６に示す機能は、ハードウェアで実現してもよいし、ＭＦＰ１００が備えるＣＰＵ１１１が、ＲＯＭ１１３、ＨＤＤ１１５、ＣＤ−ＲＯＭ１１８に記憶されたジョブ制御プログラムを実行することにより、ＣＰＵ１１１により実現される機能である。ジョブ制御プログラムは、ジョブ生成プログラムの一部である。図６を参照して、ＣＰＵ１１１は、操作ユーザー特定部５１と、設定部５３と、ジョブ制御部５５と、依頼者通知部５７と、を含む。

ジョブ制御部５５は、ジョブ受信部８１と、関連付部８３と、ジョブ実行部８５と、を含む。ジョブ受信部８１は、通信Ｉ／Ｆ部１１２を制御し、スマートスピーカー２００が送信するジョブを受信する。ジョブ受信部８１は、スマートスピーカー２００から依頼ジョブと第１ユーザーのユーザー識別情報との組を受信する場合、依頼ジョブをＨＤＤ１１５に記憶する。また、ジョブ受信部８１は、スマートスピーカー２００から通常ジョブを受信する場合、通常ジョブをＨＤＤ１１５に記憶する。

関連付部８３は、通信Ｉ／Ｆ部１１２がスマートスピーカー２００から依頼ジョブと第１ユーザーのユーザー識別情報との組を受信する場合、依頼ジョブと第１ユーザーとを関連付ける。具体的には、関連付部８３は、ＨＤＤ１１５に記憶された依頼ジョブを識別するためのジョブ識別情報と第１ユーザーのユーザー識別情報とを含むユーザーレコードを生成し、ＨＤＤ１１５に記憶する。

ジョブ実行部８５は、ハードウェア資源を制御してジョブを実行する。ハードウェア資源は、通信Ｉ／Ｆ部１１２、ＨＤＤ１１５、ファクシミリ部１１６、自動原稿搬送装置１２０、原稿読取部１３０、画像形成部１４０、給紙部１５０、後処理部１５５および操作パネル１６０を含む。ジョブは、例えば、コピージョブ、プリントジョブ、スキャンジョブ、ファクシミリ送信ジョブ、データ送信ジョブを含む。なお、ジョブ実行部８５が実行可能なジョブは、これらに限定されることなく、他のジョブを含んでもよい。コピージョブは、原稿読取部１３０に原稿を読み取らせるスキャン処理と、原稿読取部１３０が原稿を読み取って出力するデータの画像を画像形成部１４０に形成させるプリント処理とを含む。プリントジョブは、画像形成部１４０に、ＨＤＤ１１５に記憶されたデータ、通信Ｉ／Ｆ部１１２が外部から受信するプリントデータの画像を用紙に形成させるプリント処理を含む。スキャンジョブは、原稿読取部１３０に原稿を読み取らせるスキャン処理と、原稿読取部１３０が原稿を読み取って出力する画像データを出力する出力処理を含む。出力処理は、データをＨＤＤ１１５に記憶させるデータ記憶処理と、データを通信Ｉ／Ｆ部１１２に外部に送信するデータ送信処理を含む。ファクシミリ送信ジョブは、原稿読取部１３０に原稿を読み取らせるスキャン処理と、原稿読取部１３０が原稿を読み取って出力するデータをファクシミリ部１１６に送信させるファクシミリ送信処理とを含む。データ送信ジョブは、ＨＤＤ１１５に記憶されたデータまたは原稿読取部１３０が原稿を読み取って出力するデータを、通信Ｉ／Ｆ部１１２を制御して他のコンピューターに送信するデータ送信処理を含む。

操作ユーザー特定部５１は、ＭＦＰ１００を操作する操作ユーザーを特定する。例えば、ユーザーが操作パネル１６０を操作する場合、そのユーザーがユーザー識別情報を操作部１６３に入力する場合に操作部１６３に入力されたユーザー識別情報で識別されるユーザーを操作ユーザーとして特定する。また、ＭＦＰ１００がカードリーダーを備える場合、操作ユーザー特定部５１は、カードリーダーがカードに記憶されたユーザー識別情報を読み取る場合、ユーザーがカードリーダーにカードに記憶されたユーザー識別情報を読み取らせる操作を受け付ける。操作ユーザー特定部５１は、カードリーダーが読み取ったユーザー識別情報で識別されるユーザーを操作ユーザーとして特定する。カードリーダーは、磁気カードリーダーであってもよいし、ＮＦＣ（Ｎｅａｒｆｉｅｌｄｃｏｍｍｕｎｉｃａｔｉｏｎ）規格で通信する無線通信装置であってもよい。操作ユーザー特定部５１は、操作ユーザーを特定する場合、操作ユーザーのユーザー識別情報を設定部５３に出力する。

設定部５３は、操作ユーザー特定部５１から操作ユーザーのユーザー識別情報が入力される場合、そのユーザー識別情報のユーザーによる指示が開始条件に設定されている依頼ジョブまたは通常ジョブがＨＤＤ１１５に記憶されているか否かを判断する。そのような依頼ジョブまたは通常ジョブがＨＤＤ１１５に記憶されている場合、設定部５３は、その依頼ジョブまたは通常ジョブを実行可能な状態に設定する。特に、設定部５３は、依頼ジョブを実行可能な状態に設定する場合、第２ユーザーによる指示を受け付けるための設定ボタンを表示部１６１に表示する。設定ボタンは、依頼ジョブを実行するコマンドが割り当てられる。

図７は、ログイン画面の一例を示す図である。図７に示すログイン画面５００は、第２ユーザーが操作部１６３を操作して、ＭＦＰ１００によりユーザーが特定される場合に表示部１６１に表示される。図７を参照して、ログイン画面５００は、種々の処理を選択するための複数の選択ボタン５０３と設定ボタン５０１とを含む。設定ボタン５０１は、第２ユーザーが操作部１６３を操作してＭＦＰ１００により第２ユーザーが特定される場合に表示される。したがって、ＨＤＤ１１５に依頼ジョブが記憶されていない場合には、ログイン画面５００に設定ボタン５０１は含まれない。設定ボタン５０１は、「作業依頼」の文字列と、「（××さん）」の文字列を含む。「（××さん）」の文字列は第１ユーザーのユーザー識別情報である第１ユーザー名を含む。したがって、設定ボタン５０１を見る第２ユーザーは、設定ボタン５０１が、第１ユーザーにより依頼された作業を遂行するための依頼ジョブを実行可能な状態にするためのボタンであることを知ることができる。

図６に戻って、設定部５３は、設定ボタン５０１を表示部１６１に表示するのに代えて、ＨＤＤ１１５に記憶されている１以上のジョブを識別するためのジョブ識別情報を選択可能に表示部１６１に表示してもよい。この場合、ＨＤＤ１１５に依頼ジョブまたは通常ジョブが記憶されている場合、表示部１６１に依頼ジョブおよび通常ジョブのジョブ識別情報が選択可能に表示される。設定部５３は、ユーザーが依頼ジョブのジョブ識別情報を選択する場合、設定ボタン５０１が指示された場合と同様に、依頼ジョブまたは通常ジョブを実行可能な状態に設定する。

設定部５３は、実行可能に設定したジョブの設定値を変更する操作を受け付ける場合、ジョブの設定値を変更する。これにより、第２ユーザーは、依頼ジョブに誤って設定されている設定値を正しい値に変更することができ、また、設定されていない設定値を追加して設定することができる。

また、第２ユーザーによる指示が開始条件に設定されている依頼ジョブが実行されることなくＨＤＤ１１５に記憶されてから所定の時間が経過する場合がある。この場合に設定部５３は、操作ユーザー特定部５１から第２ユーザーのユーザー識別情報が入力される場合であっても、依頼ジョブを実行可能な状態に設定しない。具体的には、設定部５３は、依頼ジョブの実行のユーザーによる指示を受け付けるための設定ボタン５０１を表示部１６１に表示しない。所定時間を経過しても依頼ジョブが実行されていない場合は、依頼ジョブの実行が不要となった確率が高く、不要となった依頼ジョブがＨＤＤ１１５に記憶された状態が継続しないようにするためである。不要なデータを削除することにより記憶資源を有効に利用することができる。

ジョブ制御部５５に含まれるジョブ実行部８５は、第２ユーザーが操作部１６３に入力する依頼ジョブの実行を指示する実行操作を受け付ける場合、依頼ジョブを実行する。また、ジョブ実行部８５は、指示ユーザーが操作部１６３に入力する通常ジョブの実行操作を受け付ける場合、通常ジョブを実行する。指示ユーザーは、通常ジョブのジョブ識別情報と関連付部８３により関連付けられたユーザー識別情報で特定される。

依頼者通知部５７は、依頼ジョブが実行されることに応じて、依頼ジョブが実行されたことを第１ユーザーに通知する。第１ユーザーは、依頼ジョブのジョブ識別情報と関連付部８３により関連付けられたユーザー識別情報で特定される。依頼者通知部５７は、第１ユーザーに対して予め登録された方法で依頼ジョブが実行されたことを通知する。例えば、依頼者通知部５７は、第２ユーザーにより依頼ジョブが実行されたことを示すメッセージを、第１ユーザーに対して予め登録された宛先に電子メールで送信する。

図８は、第１の実施の形態におけるジョブ生成の流れの一例を示すフローチャートである。ジョブ生成は、スマートスピーカー２００が備えるＣＰＵ２０１がＲＯＭ２０２、ＥＰＲＯＭ２０４に記憶されたジョブ制御プログラムを実行することにより、ＣＰＵ２０１により実行される処理である。ジョブ制御プログラムは、ジョブ生成プログラムの一部である。

図８を参照して、スマートスピーカー２００が備えるＣＰＵ２０１は、音声を受け付けたか否かを判断する。具体的には、ＣＰＵ２０１は、マイクロフォン２０８が出力する音声データを受け付ける場合、音声を受け付けたと判断する。ＣＰＵ２０１は、マイクロフォン２０８から音声データを受け付けたならば処理をステップＳ０２に進めるが、そうでなければ処理をステップＳ０７に進める。ここでは、ユーザーＡの音声を受け付ける場合を例に説明する。

ステップＳ０２においては、ＣＰＵ２０１は、音声認識し、処理をステップＳ０３に進める。具体的には、ＣＰＵ２０１は、ステップＳ０１において受け付けられた音声データで特定される音声を音声認識し、音声を文字で構成される音声情報に変換する。ステップＳ０３においては、音声から変換された音声情報が決定され、処理はステップＳ０４に進む。

ステップＳ０４においては、ユーザー特定処理が実行され、処理はステップＳ０５に進む。ユーザー特定処理の詳細は後述するが、音声データで特定される音声を発声したユーザーを特定する処理である。ここでは、ユーザーＡが特定される。ステップＳ０５においては、ＣＰＵ２０１は、音声レコードを生成し、処理をステップＳ０６に進める。具体的には、ＣＰＵ２０１は、ステップＳ０３で決定された音声情報とステップＳ０４において特定されたユーザーのユーザー識別情報と、音声データが受け付けられた日時と、を含む音声レコードを生成する。音声レコードは、音声から変換された音声情報とその音声を発声したユーザーのユーザー識別情報と、その音声が発声された日時と、を関連付ける情報である。ステップＳ０６においては、音声レコードがＨＤＤ１１５に記憶された音声テーブルに追加され、処理はステップＳ０９に進む。

ステップＳ０９においては、ステップＳ０３において決定された音声情報がユーザー識別情報を含むか否かが判断される。音声情報がユーザー識別情報を含むならば処理はステップＳ１０に進むが、そうでなければ処理はステップＳ１１に進む。ここでは、ユーザーＡがユーザーＢの名前を通話で発声するので、ユーザー識別情報としてユーザーＢの名前が音声情報から抽出される。ステップＳ１０においては、ペアリング処理が実行され、処理はステップＳ１１に進む。ペアリング処理の詳細は後述するが、ステップＳ０９において音声情報から抽出されるユーザー識別情報で特定されるユーザーが発声した音声を収集する装置をペアリング装置として決定する処理である。ここでは、スマートスピーカー２００Ｂがペアリング装置に決定される。

一方、ステップＳ０７においては、ペアリング装置が存在するか否かを判断する。ステップＳ１０が実行されてペアリング装置が決定されているならば処理はステップＳ０８に進むが、そうでなければ処理はステップＳ０１に戻る。ステップＳ０８においては、ペアリング装置から音声情報とユーザー識別情報と時刻情報とが取得され、処理はステップＳ０１に戻る。具体的には、ＣＰＵ１１１は、ペアリング装置であるスマートスピーカー２００Ｂに音声情報の送信を要求する。ペアリング装置であるスマートスピーカー２００Ｂは、音声情報の送信が要求されると、音声情報とユーザー識別情報と時刻情報とを返信するので、ＣＰＵ１１１は、それらを受信する場合、それらを含む音声レコードをＨＤＤ１１５に記憶された音声テーブルに追加する。

ステップＳ１１以降の処理が実行される場合、音声テーブルに登録された音声レコードが処理対象となる。具体的には、ステップＳ１１以降の処理では、ステップＳ１１が実行される前の段階までに、音声テーブルに新たに登録された音声レコードが処理対象となる。したがって、音声テーブルに登録されている音声レコードのすべてが処理対象となる。音声テーブルには、ステップＳ０３が実行されてスマートスピーカー２００で収集されたユーザーＡが発声した音声から決定された音声情報を含む音声レコードと、ステップＳ０８が実行されてペアリング装置であるスマートスピーカー２００Ａで収集されたユーザーＢが発声した音声から決定された音声情報を含む音声レコードとが登録されている。

ステップＳ１１においては、音声情報が許諾文字列を含むか否かが判断される。ステップＳ０７において取得された音声情報、換言すれば、ペアリング装置であるスマートスピーカー２００Ｂで収集された音声から決定された音声情報が許諾文字列を含む確率が高い。許諾文字列は、他人からの依頼を受ける場合に用いる言葉を含む文字列であり、予め定められている。具体的には、許諾文字列は、「了解」、「解る」「引き受け」等を含む。ステップＳ０８において取得された音声情報が許諾文字列を含むならば処理はステップＳ１２に進むが、そうでなければ処理はステップＳ１７に進む。

ステップＳ１２においては、許諾文字列と組みになるユーザー識別情報のユーザーが第２ユーザーに決定され、処理はステップＳ１３に進む。処理がステップＳ１３に処理が進む場合、処理対象の音声情報が許諾文字列を含む。このため、第２ユーザーは、許諾文字列を発声したユーザーであり、第１ユーザーからの作業の依頼を受諾する受諾者である。ここでは、ユーザーＢが第２ユーザーに決定される。

ステップＳ１３においては、ジョブ生成サブ処理が実行され、処理はステップＳ１４に進む。ジョブ生成サブ処理の詳細は後述するが、ＥＰＲＯＭ２０４に記憶された音声テーブルに含まれる１以上の音声レコードに基づいてジョブを生成するとともに、第２ユーザーに作業を依頼した第１ユーザーを決定する処理である。ここでは、ユーザーＡが第１ユーザーに決定される。ステップＳ１４においては、依頼ジョブが生成され、処理はステップＳ１５に進む。ジョブ生成サブ処理が実行されることにより生成されるジョブと、ステップＳ１２において決定された第２ユーザーとに基づいて依頼ジョブが生成される。依頼ジョブは、ＭＦＰ１００に依頼ジョブで定められる処理を実行させる開始条件として、第２ユーザーによる操作を受け付けることが設定されたジョブである。具体的には、ステップＳ１３において生成されたジョブに、開始条件としてステップＳ１２において決定された第２ユーザーによる操作を受け付けることが設定されることにより、依頼ジョブが生成される。次のステップＳ１５においては、ＣＰＵ２０１は、通信部２０５を制御して、依頼ジョブをＭＦＰ１００に送信し、処理をステップＳ１６に進める。ステップＳ１６においては、依頼ジョブの存在が第２ユーザーに通知され、処理は終了する。具体的には、ＭＦＰ１００に実行可能な依頼ジョブが蓄積されていることを示すメッセージを含み、宛先アドレスに第２ユーザーであるユーザーＢの電子メールアドレスを設定した電子メールは生成され、通信部２０５によりその電子メールが送信される。

一方、ステップＳ１７においては、音声情報が指示文字列を含むか否かが判断される。音声情報が指示文字列を含むならば処理はステップＳ１８に進むが、そうでなければ処理はステップＳ０１に戻る。ステップＳ１８においては、指示文字列を発声したユーザーが指示ユーザーに決定され、処理はステップＳ１９に進む。処理対象の音声情報に関連付けられたユーザー識別情報で特定されるユーザーが、指示文字列を発声した指示ユーザーに決定される。処理がステップＳ１８に処理が進む場合、ステップＳ０３において決定された音声情報、換言すれば、スマートスピーカー２００で収集された音声から決定された音声情報が許諾文字列を含む確率が高い。ステップＳ１９においては、ジョブ生成サブ処理が実行され、処理はステップＳ１６に進む。

ステップＳ２０においては、通常ジョブが生成され、処理はステップＳ２１に進む。通常ジョブは、ＭＦＰ１００に通常ジョブで定められる処理を実行させる開始条件として、指示ユーザーによる操作を受け付けることが設定されたジョブである。具体的には、ステップＳ１９において生成されたジョブを、開始条件としてステップＳ１８において決定された指示ユーザーによる操作を受け付けることが設定されることにより、通常ジョブが生成される。次のステップＳ２１においては、通信部２０５を制御して、通常ジョブがＭＦＰ１００に送信され、処理はステップＳ２２に進む。ステップＳ２２においては、通常ジョブの存在が指示ユーザーに通知され、処理は終了する。具体的には、ＭＦＰ１００に実行可能な通常ジョブが蓄積されていることを示すメッセージを含み、宛先アドレスに指示ユーザーの電子メールアドレスが設定された電子メールが生成され、通信部２０５によりその電子メールが送信される。

図９は、ユーザー特定処理の流れの一例を示すフローチャートである。ユーザー特定処理は、図８のステップＳ０４において実行される処理である。ユーザー特定処理が実行される前の段階で、音声が受け付けられている。図９を参照して、ＣＰＵ２０１は、音声を発声したユーザーをサーバー４００に問い合わせる（ステップＳ３１）。音声から声紋を抽出し、抽出された声紋をサーバー４００に送信することにより、その声紋のユーザーが誰であるかを問い合わせる。サーバー４００は、問合せに応じて、声紋で特定されるユーザーのユーザー識別情報を返信するので、ＣＰＵ２０１は、ステップＳ３２において、サーバー４００からユーザー識別情報を受信するまで待機状態となり（ステップＳ３２でＮＯ）、サーバー４００からユーザー識別情報を受信すると（ステップＳ３２でＹＥＳ）、処理をステップＳ３３に進める。

サーバー４００は、スマートスピーカー２００，２００Ａ，２００Ｂ，２００Ｃのうちで同一のユーザーの音声を収集する装置が複数の場合に、それらに調停指示を送信する。調停指示は、同一のユーザーの音声を収集する複数の装置を識別するための装置識別情報を含む。このため、ＣＰＵ２０１は、ステップＳ３３において、サーバー４００から調停指示を受信したか否かを判断する。調停指示を受信したならば処理はステップＳ３４に進み、そうでなければ処理はステップＳ３９に進む。

ステップＳ３４においては、音量が比較される。具体的には、ＣＰＵ２０１は、調停指示に含まれる装置識別情報で特定される装置のうち他の装置のすべてから音声情報に対応する音声の音量を取得する。ステップＳ３５においては、ＣＰＵ２０１は、自装置の音量が最大か否かを判断する。自装置の音量が最大ならば処理はステップＳ３９に進むが、そうでなければ処理はステップＳ３６に進む。ステップＳ３６においては音量が同一の装置が存在するか否かが判断される。音量が同一の装置が存在するならば処理はステップＳ３７に進むが、そうでなければ処理は終了する。

ステップＳ３７においては、他の装置のいずれかから禁止信号が受信されたか否かを判断する。禁止信号が受信されたならば処理は終了するが、そうでなければ処理はステップＳ３８に進む。ステップＳ３８においては、他の装置のすべてに禁止信号が送信され、処理はステップＳ３９に進む。ステップＳ３９においては、ステップＳ３２において受信されたユーザー識別情報で識別されるユーザーを特定し、処理はジョブ生成処理に戻る。

図１０は、ペアリング処理の流れの一例を示すフローチャートである。ペアリング処理は、図８のステップＳ１０において実行される処理である。ペアリング処理が実行される前のステップＳ０９において、音声情報からユーザー識別情報が抽出されている。図１０を参照して、ＣＰＵ２０１は、音声情報からユーザー識別情報で識別されるユーザーが発声する音声を収集する他の装置をサーバー４００に問い合わせる。具体的には、ＣＰＵ２０１は、ユーザー識別情報をサーバー４００に送信することにより、他の装置を問い合わせる。サーバー４００は、問合せに応じて、スマートスピーカー２００Ａ，２００Ｂ，２００Ｃのうちにユーザー識別情報で識別されるユーザーが発声する音声を収集する装置が存在すれば、その装置の装置識別情報を返信する。ＣＰＵ２０１は、ステップＳ４２において、サーバー４００から装置識別情報を受信したか否かを判断する。装置識別情報が受信されたならば処理はステップＳ４３に進むが、そうでなければ処理がジョブ生成処理に戻る。ステップＳ４３においては、サーバー４００から受信された装置識別情報で識別される装置がペアリング装置に決定され、処理はジョブ生成処理に戻る。

図１１は、ジョブ生成サブ処理の流れの一例を示すフローチャートである。ジョブ生成サブ処理は、図８のステップＳ１３およびステップＳ１９で実行される処理である。ジョブ生成サブ処理が実行される前のステップＳ０６において、許諾文字列を含む文字情報を含む音声レコードがＨＤＤ１１５に記憶され場合と、指示文字列を含む文字情報を含む音声レコードがＨＤＤ１１５に記憶される場合とがある。以下、許諾文字列を含む音声情報を含む音声レコードまたは指示文字列を含む音声情報を含む音声レコードを処理対象レコードという。

図１１を参照して、ＣＰＵ２０１は、処理対象レコードよりも１つ前の時刻の音声レコードを読出す（ステップＳ５１）。具体的には、ＣＰＵ２０１は、ＥＰＲＯＭ２０４に記憶されている音声テーブルに含まれる複数の音声レコードのうちから処理対象レコードに含まれる時刻情報で示される時刻より前で最も近い時刻を示す時刻情報を含む音声レコードを読出す。次のステップＳ５２においては、音声レコードに含まれる音声情報が特定される。

そして、音声情報が依頼文字列を含むか否かが判断される（ステップＳ５３）。依頼文字列は、他人に作業を依頼する場合に用いる語を含む。依頼文字列は予め定めておけばよい。音声情報が依頼文字列を含むならば処理はステップＳ５４に進むが、そうでなければ処理はステップＳ５５に進む。ステップＳ５４においては、依頼文字列を発声したユーザーが第１ユーザーに決定され、処理はステップＳ５５に進む。ステップＳ５１において読み出された音声レコードに含まれるユーザー識別情報で特定されるユーザーが第１ユーザーに決定される。

ステップＳ５５においては、音声情報から設定情報が決定されたか否かを判断する。音声情報が、処理の対象となるデータのファイル名を含む場合に、処理対象のデータを特定する設定情報が決定される。音声情報から設定情報が決定されたならば処理はステップＳ５８に進むが、そうでなければ処理はステップＳ５６に進む。

ステップＳ５６においては、音声情報はキーワードと比較され、処理はステップＳ５７に進む。具体的には、音声情報の少なくとも一部の発音と、ＥＰＲＯＭ２０４に記憶されているキーワードテーブルに登録されているキーワードの少なくとも一部の発音とが比較される。次のステップＳ５７においては、比較の結果、比較の結果、音声情報の少なくとも一部と発音が同一または類似の文字列を含むキーワードが存在するか否かが判断される。そのようなキーワードが存在すれば処理はステップＳ５８に進むが、存在しなれば処理はステップＳ５９に進む。

ステップＳ５８においては、設定情報が決定され、処理はステップＳ５９に進む。処理がステップＳ５５から進む場合は、ステップＳ５５において決定された設定情報が決定され、処理がステップＳ５７から進む場合は、キーワードに関連付けられた設定情報が設定される。

ステップＳ５９においては、ステップＳ５８において決定された設定情報に基づいて、処理が決定されるか否かが判断される。処理が決定されるならば処理がステップＳ６０に進むが、そうでなければ処理はステップＳ５１に戻る。

ステップＳ６０においては、ステップＳ５８において決定された設定情報で定まる条件で、ステップＳ５８において決定された設定情報で定まる処理をＭＦＰ１００に実行させるためのジョブが生成され、処理はステップＳ６１に進む。ステップＳ６１においては、ジョブが完成したか否かが判断する。ジョブが複数の処理を定める場合があり、複数の処理のすべてが定まる場合にジョブが完成されたと判断される。ジョブが完成したならば処理はジョブ生成処理に戻るが、そうでなければ処理はステップＳ５１に戻る。

図１２は、ジョブ実行処理の流れの一例を示すフローチャートである。ジョブ実行処理は、ＭＦＰ１００が備えるＣＰＵ１１１が、ＲＯＭ１１３、ＨＤＤ１１５、ＣＤ−ＲＯＭ１１８に記憶されたジョブ実行プログラムを実行することにより、ＣＰＵ１１１により実現される機能である。ジョブ実行プログラムはジョブ生成プログラムの一部である。図１１を参照して、ＭＦＰ１００が備えるＣＰＵ１１１は、依頼ジョブを受信したか否かを判断する（ステップＳ７１）。ＣＰＵ１１１は、通信Ｉ／Ｆ部１１２を制御して、スマートスピーカー２００から依頼ジョブと第１ユーザーのユーザー識別情報とを受信したか否かを判断する。依頼ジョブを受信したならば処理はステップＳ７２に進むが、そうでなければ処理はステップＳ７３に進む。ステップＳ７２においては、ＨＤＤ１１５に、依頼ジョブと依頼ジョブとともに受信される第１ユーザーのユーザー識別情報とが記憶され、処理はステップＳ７３に進む。ユーザー識別情報は、依頼ジョブと関連付けて記憶される。

ステップＳ７３において、通常ジョブが受信されたか否かが判断される。ＣＰＵ１１１は、通信Ｉ／Ｆ部１１２を制御して、スマートスピーカー２００から通常ジョブを受信したか否かを判断する。通常ジョブを受信したならば処理はステップＳ７４に進むが、そうでなければ処理はステップＳ７５に進む。ステップＳ７４においては、ＨＤＤ１１５に、通常ジョブが記憶され、処理はステップＳ７５に進む。

ステップＳ７５おいては、操作部１６３がユーザーにより入力される操作を受け付けたか否かが判断される。操作を受け付けたならば処理はステップＳ７６に進むが、そうでなければ処理はステップＳ７１に戻る。ステップＳ７６においては、操作部１６３を操作するユーザーが特定され、処理はステップＳ７７に進む。ユーザーが操作部１６３にユーザー識別情報を入力する場合に操作部１６３に入力されたユーザー識別情報で識別されるユーザーは操作ユーザーとして特定される。また、ユーザーがカードリーダーにカードに記憶されたユーザー識別情報を読み取らせる操作が受け付けられ、カードリーダーが読み取ったユーザー識別情報で識別されるユーザーは操作ユーザーとして特定される。

ステップＳ７７においては、特定されたユーザーに対応する依頼ジョブが存在するか否かが判断される。特定されたユーザーの指示が開始条件に設定されている依頼ジョブがＨＤＤ１１５に記憶されているか否かが判断される。依頼ジョブが存在するならば処理はステップＳ７８に進むが、そうでなければ処理はステップＳ８１に進む。

ステップＳ７８においては、依頼ジョブが受信されてからの経過時間が所定時間以内か否かは判断される。所定時間以内ならば処理はステップＳ７９に進むが、所定時間を経過していれば処理は終了する。所定時間は、予め定められた値である。依頼ジョブが受信されてから所定時間が経過した場合には依頼ジョブが不要となった確率が高い。このため、不要となった依頼ジョブが実行されないようにできる。

ステップＳ７９においては実行指示処理を実行し、処理はステップＳ８０に進む。実行指示処理の詳細は後述する。ステップＳ８０においては、依頼ジョブが実行されたことが第１ユーザーに通知され、処理は終了する。ステップＳ７７において特定された依頼ジョブとともにステップＳ７２においてＨＤＤ１１５に記憶されたユーザー識別情報を用いて、第１ユーザーは特定される。例えば、第２ユーザーにより依頼ジョブが実行されたことを示すメッセージを含み、第１ユーザーの電子メールアドレスを宛先に含む電子メールが生成され、通信Ｉ／Ｆ部１１２を介して電子メールが送信される。

ステップＳ８１においては、ステップＳ７６において特定されたユーザーに対応する通常ジョブが存在するか否かが判断される。特定されたユーザーの指示が開始条件に設定されている通常ジョブがＨＤＤ１１５に記憶されているか否かを判断する。通常ジョブが存在するならば処理はステップＳ８２に進むが、そうでなければ処理は終了する。ステップＳ８２においては通常ジョブが受信されてからの経過時間が所定時間以内か否かを判断する。所定時間以内ならば処理はステップＳ８３に進むが、そうでなければ処理は終了する。通常ジョブが受信されてから所定時間が経過した場合には通常ジョブが不要となった確率が高い。このため、不要となった通常ジョブが実行されないようにできる。ステップＳ８３においては、実行指示処理を実行し、処理は終了する。実行指示処理が実行される場合に通常ジョブが処理対象にされ、通常ジョブが実行される。

図１３は、実行指示処理の流れの一例を示すフローチャートである。実行指示処理は、図１２のステップＳ７９またはＳ８３において実行される処理である。実行指示処理が実行される前の段階で依頼ジョブが決定されている。図１２を参照して、ＣＰＵ１１１は、依頼ジョブが存在するか否かを判断する。ＭＦＰ１００を操作するユーザーとして特定されたユーザーに対応する依頼ジョブが存在するか否かが判断される（ステップＳ９１）。ＭＦＰ１００を操作するユーザーの指示が開始条件に設定されている依頼ジョブがＨＤＤ１１５に記憶されているか否かが判断される。依頼ジョブが存在するならば処理はステップＳ９３に進むが、そうでなければ処理はステップＳ９４に進む。

ステップＳ９２においては、表示部１６１に設定ボタン５０１が表示され、処理はステップＳ９３に進む。設定ボタン５０１は、依頼ジョブを実行可能な状態に設定する操作を受け付けるためのボタンであり、依頼ジョブを実行可能な状態に設定するコマンドが関連付けられている。ステップＳ９３においては、設定ボタン５０１が指示されたか否かが判断される。設定ボタン５０１が指示されるまで待機状態となり（ステップＳ９３でＮＯ）、設定ボタン５０１が指示されたならば（ステップＳ９３でＹＥＳ）、処理はステップＳ９５に進む。なお、設定ボタン５０１が表示されてから待機時間経過しても設定ボタン５０１が指示されない場合には、処理を終了してもよい。待機時間は予め定められた時間である。

一方、ステップＳ９４においては、通常ジョブが選択されたか否かが判断される。ＭＦＰ１００を操作するユーザーに関連付けられたジョブの一覧が表示されるジョブ選択画面が表示された状態で、通常ジョブが選択されたか否かを判断する。通常ジョブが選択されるまで待機状態となり、通常ジョブが選択されたならば処理はステップＳ９５に進む。なお、通常ジョブとは別のジョブが選択された場合に処理がステップＳ９５に進むようにしてもよい。また、ジョブ選択画面が表示されてから待機時間が経過しても通常ジョブが選択されない場合に処理を終了してもよい。待機時間は予め定められた時間である。

ステップＳ９５においては、設定値を設定するための設定画面が表示され、処理はステップＳ９６に進む。ステップＳ９６においては、ユーザーにより入力される操作によって処理が分岐する。ユーザーにより入力される操作が実行操作ならば処理はステップＳ９５に進み、設定操作ならば処理はステップＳ９８に進む。実行操作は、ジョブの実行を指示するための操作である。設定操作は、ジョブの設定値を設定するための操作である。ステップＳ９８においては、設定操作に従って設定値が設定され、処理はステップＳ９６に戻る。ステップＳ９７においては、依頼ジョブまたは通常ジョブが実行され、処理はジョブ実行処理に戻る。

以上説明したように第１の実施の形態における音声処理システム１において、音声処理システム１は、複数のスマートスピーカー２００，２００Ａ，２００Ｂ，２００Ｃを備え、複数のスマートスピーカー２００，２００Ａ，２００Ｂ，２００Ｃそれぞれ、例えば、スマートスピーカー２００は、マイクロフォン２０８により収集された音声を発声したユーザーを特定し、第１ユーザーが特定される音声および他のスマートスピーカー２００，２００Ａ，２００Ｂ，２００Ｃ、例えば、スマートスピーカー２００Ａで収集される第２ユーザーが発声する音声に基づいて、第１ユーザーが第２ユーザーに実行を依頼した依頼ジョブをＭＦＰ１００に実行させるためのジョブとして生成する。このため、マイクロフォン２０８により収集された音声およびスマートスピーカー２００Ａで収集される第２ユーザーが発声する音声に基づいて、第１ユーザーが第２ユーザーに実行を依頼した依頼ジョブが生成される。このため、離れた位置に存在する第１ユーザーおよび第２ユーザーの会話から依頼ジョブが生成されるので、ジョブを生成するための操作を簡略化することができる。

また、スマートスピーカー２００，２００Ａ，２００Ｂ，２００Ｃそれぞれは、例えば、スマートスピーカー２００は、さらに、第１ユーザーが特定される音声から予め登録された複数のユーザーいずれかのユーザー識別情報が検出されることに応じて、検出されたユーザー識別情報で識別されるユーザーを第２ユーザーに決定し、他のスマートスピーカー２００Ａ，２００Ｂ，２００Ｃのうち第２ユーザーが発声した音声を収集する音声収集装置、例えば、スマートスピーカー２００Ｂをペアリング装置に決定する。このため、第１ユーザーと会話する第２ユーザーが発声した音声を収集するスマートスピーカー２００Ｂを容易に決定することができる。

また、スマートスピーカー２００Ｂ，２００Ｃが第２ユーザーの発声する音声を収集する場合、スマートスピーカー２００Ｂ，２００Ｃそれぞれがいずれか一方のみを第２ユーザーが発声する音声を収集する装置に決定する。このため、スマートスピーカー２００Ｂ，２００Ｃが第２ユーザーの発声する音声を収集する状態で、スマートスピーカー２００が第２ユーザーの発声した音声を収集する音声収集装置を決定する場合、スマートスピーカー２００Ｂ，２００Ｃそれぞれで決定された一方が第２ユーザーの発声した音声を収集する音声収集装置に決定される。このため、音声認識の精度を高めることができる。

また、スマートスピーカー２００は、ペアリング装置であるスマートスピーカー２００Ｂで収集される音声が許諾の内容を示す場合、依頼ジョブを生成する。このため、第１ユーザーによる依頼を第２ユーザーが受けない場合にジョブを生成しないようにすることができる。

＜第２の実施の形態＞
第２の実施の形態におけるＭＦＰ１００は、第１の実施の形態におけるＭＦＰ１００と同様に画像処理装置として機能するとともに、ジョブ生成装置として機能する。第２の実施の形態における音声処理システム１の全体概要は、図１に示した第１の実施の形態における音声処理システム１の全体概要と同じである。第２の実施の形態におけるＭＦＰ１００のハードウェア構成は、図３に示したハードウェア構成と同じである。第２の実施の形態におけるスマートスピーカー２００，２００Ａ，２００Ｂ，２００Ｃそれぞれのハードウェア構成は、図２に示したハードウェア構成と同じである。したがって、それらについての説明は繰り返さない。

図１４は、第２の実施の形態におけるスマートスピーカー２００が備えるＣＰＵ２０１が有する機能の一例を示すブロック図である。図１４に示す機能が図４に示した機能と異なる点は、ジョブ生成部２５７、ジョブ送信部２５９、通話者決定部２６３、装置決定部２６５および音声情報取得部２６７が削除された点、音声情報送信部２９１が追加された点である。その他の機能は図４に示した機能と同じなので、ここでは説明は繰り返さない。音声情報送信部２９１は、音声認識部２５３から音声情報と時刻情報との組が入力され、ユーザー特定部２５５からユーザー識別情報と時刻情報との組が入力される。音声情報送信部２９１は、それぞれと組になる時刻情報が同じユーザー識別情報と音声情報と時刻情報とを、ＭＦＰ１００に送信する。具体的には、音声情報送信部２９１は、通信部２０５を制御して、ユーザー識別情報と音声情報と時刻情報とをＭＦＰ１００に送信する。

図１５は、第２の実施の形態におけるＭＦＰ１００が備えるＣＰＵ１１１が有する機能の一例を示すブロック図である。図１５に示す機能が図６に示した機能と異なる点は、音声情報取得部７１、ジョブ生成部２５７、通話者決定部２６３、装置決定部２６５および操作ユーザー通知部２８１が追加された点、ジョブ受信部８１がジョブ受付部８１Ａに変更された点である。その他の機能は図６に示した機能と同じなのでここでは説明を繰り返さない。

第２の実施の形態における音声情報取得部７１は、スマートスピーカー２００，２００Ａ，２００Ｂ，２００Ｃのいずれかから音声情報とユーザー識別情報と時刻情報を取得する。具体的には、第２の実施の形態における音声情報取得部７１は、通信Ｉ／Ｆ部１１２を制御して、通信Ｉ／Ｆ部１１２がスマートスピーカー２００，２００Ａ，２００Ｂ，２００Ｃのいずれかから受信する音声情報とユーザー識別情報と時刻情報とを取得する。第２の実施の形態における音声情報取得部７１は、スマートスピーカー２００，２００Ａ，２００Ｂ，２００Ｃそれぞれに対応する音声テーブルをＨＤＤ１１５に記憶する。このため、第２の実施の形態における音声情報取得部７１は、スマートスピーカー２００，２００Ａ，２００Ｂ，２００Ｃのいずれか、例えば、スマートスピーカー２００から受信される音声情報とユーザー識別情報と時刻情報とを含む音声レコードを、ＨＤＤ１１５に記憶されたスマートスピーカー２００に対応する音声テーブルに追加する。

また、第２の実施の形態における音声情報取得部７１は、装置決定部２６５により装置が特定される場合、ＨＤＤ１１５にスマートスピーカー２００，２００Ａ，２００Ｂ，２００Ｃごとに記憶されている音声テーブルのうち、特定された装置に対応する音声テーブルから音声レコードを取得する。

第２の実施の形態におけるジョブ生成部２５７、通話者決定部２６３、装置決定部２６５および操作ユーザー通知部２８１は、第１の実施の形態におけるスマートスピーカー２００が備えるＣＰＵ２０１が有するジョブ生成部２５７、通話者決定部２６３、装置決定部２６５および操作ユーザー通知部２８１とそれぞれ同様の機能を有する。すなわち、第２の実施の形態におけるジョブ生成部２５７は、スマートスピーカー２００，２００Ａ，２００Ｂ，２００Ｃいずれかに対応する音声テーブルに登録された音声情報、ユーザー識別情報および時刻情報に基づいて、依頼ジョブを生成するとともに、第１ユーザーを決定する。第２の実施の形態におけるジョブ生成部２５７は、依頼ジョブと第１ユーザーのユーザー識別情報とを、ジョブ制御部５５に出力する。また、第２の実施の形態におけるジョブ生成部２５７は、スマートスピーカー２００，２００Ａ，２００Ｂ，２００Ｃいずれかに対応する音声テーブルに登録された音声情報、ユーザー識別情報および時刻情報に基づいて、通常ジョブを生成し、通常ジョブをジョブ制御部５５に出力する。第２の実施の形態におけるジョブ制御部５５のジョブ受付部８１Ａは、ジョブ生成部７３が依頼ジョブを生成する場合に依頼ジョブと第１ユーザーのユーザー識別情報とを受け付け、第２の実施の形態におけるジョブ生成部７３が通常ジョブを生成する場合に通常ジョブを受け付ける。

第２の実施の形態における操作ユーザー通知部２８１は、第１の実施の形態におけるスマートスピーカー２００が備えるＣＰＵ２０１が有する操作ユーザー通知部２８１と同様の機能を有する。すなわち、第２の実施の形態における操作ユーザー通知部２８１は、第２の実施の形態におけるジョブ生成部２５７により依頼ジョブが生成される場合、第２ユーザーに依頼ジョブがＭＦＰ１００で実行可能なことを通知する。

第２の実施の形態における音声処理システム１においては、第１の実施の形態における音声処理システム１のスマートスピーカー２００の機能の一部をＭＦＰ１００が有する。このため、第２の実施の形態におけるスマートスピーカー２００，２００Ａ，２００Ｂ，２００Ｃそれぞれの機能が低くてよく、システム構成を簡略にすることができる。

＜第１の変形例＞
第１の変形例におけるサーバー４００は、第２の実施の形態におけるＭＦＰ１００の機能の一部を有する。第１の変形例におけるサーバー４００は、ジョブ生成装置として機能する。すなわち、第１の変形例におけるサーバー４００は、スマートスピーカー２００，２００Ａ，２００Ｂ，２００ＣのＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）アシスタントとして機能する。スマートスピーカー２００，２００Ａ，２００Ｂ，２００Ｃそれぞれには、サーバー４００が備えるＡＩアシスタントが予め登録されている。スマートスピーカー２００，２００Ａ，２００Ｂ，２００Ｃそれぞれは、マイクロフォン２０８と、通信部２０５と、を少なくとも備えるようにし、マイクロフォン２０８で集音した音声を電子データである音声データに変換し、サーバー４００に送信する。サーバー４００は、スマートスピーカー２００，２００Ａ，２００Ｂ，２００Ｃそれぞれから受信する音声データに基づいて、音声認識およびユーザーを特定し、音声情報とユーザー識別情報と時刻情報とをＭＦＰ１００に送信する。

第１の変形例における音声処理システム１においては、スマートスピーカー２００，２００Ａ，２００Ｂ，２００Ｃそれぞれの機能が低くてよく、システム構成を簡略にすることができる。

さらに、サーバー４００の機能を、ＭＦＰ１００が備えるようにしてもよい。この場合には、サーバー４００が不要となるので、システム構成を簡略にすることができる。

＜第２の変形例＞
第２の実施の形態におけるＭＦＰ１００は、音声情報を受信するごとにジョブをリアルタイムで生成するようにしたが、音声情報を音声テーブルに蓄積して、所定のタイミングでジョブを生成するバッチ処理としてもよい。例えば、ＭＦＰ１００は、所定時間間隔でジョブを生成してもよいし、音声テーブルに所定数の音声レコードが追加されるごとに、ジョブを生成してもよい。

以上説明したように第２の実施の形態における音声処理システム１において、スマートスピーカー２００，２００Ａ，２００Ｂ，２００ＣおよびＭＦＰ１００のいずれかが、音声を発声したユーザーを特定し、ＭＦＰ１００は、スマートスピーカー２００，２００Ａ，２００Ｂ，２００Ｃのうち第１装置で収集された音声から第１ユーザーが特定される場合、その音声およびスマートスピーカー２００，２００Ａ，２００Ｂ，２００Ｃのうち第２装置で収集される第２ユーザーが発声する音声に基づいて、第１ユーザーが第２ユーザーに実行を依頼した依頼ジョブをジョブとして生成する。このため、離れた位置に存在する第１ユーザーおよび第２ユーザーの会話から依頼ジョブが生成されるので、ジョブを生成するための操作を簡略化することができる。

また、第２の実施の形態におけるＭＦＰ１００は、さらに、第１ユーザーが特定される音声から予め登録された複数のユーザーいずれかのユーザー識別情報が検出されることに応じて、検出されたユーザー識別情報で識別されるユーザーを第２ユーザーに決定し、スマートスピーカー２００，２００Ａ，２００Ｂ，２００Ｃのうち第２ユーザーが発声した音声を収集する装置、例えば、スマートスピーカー２００Ｂを第２装置に決定する。このため、第１ユーザーと会話する第２ユーザーが発声した音声を収集するスマートスピーカー２００Ａを容易に決定することができる。

また、第２の実施の形態におけるＭＦＰ１００は、第２ユーザーが発声した音声を収集する音声収集装置が複数の場合、例えば、スマートスピーカー２００Ｂ，２００Ｃの場合、スマートスピーカー２００Ｂ，２００Ｃのうちで収集される音声の音量が最大の装置を第２装置に決定する。このため、音声認識の精度を高めることができる。

また、第２の実施の形態におけるＭＦＰ１００は、第２装置で収集された音声が許諾の内容を示す場合、依頼ジョブを生成するので、第１ユーザーによる依頼を第２ユーザーが受けない場合にジョブを生成しないようにすることができる。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上述した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

＜付記＞
（１）複数の前記音声収集装置それぞれから、前記音声収集装置により収集された音声を発声したユーザーを識別するためのユーザー識別情報と前記音声収集装置により収集された音声を認識して得られる音声情報とを取得する音声情報取得手段を、さらに備え、
前記ユーザー特定手段は、前記音声情報取得手段により複数の前記音声収集装置それぞれから取得される前記ユーザー識別情報に基づいてユーザーを特定する、請求項７に記載のジョブ生成装置。

１音声処理システム、１００ＭＦＰ、２００，２００Ａ，２００Ｂ，２００Ｃスマートスピーカー、４００サーバー、３ネットワーク、５インターネット、７ゲートウェイ装置、１１０メイン回路、１１１ＣＰＵ、１１２通信Ｉ／Ｆ部、１１３ＲＯＭ、１１４ＲＡＭ、１１５ＨＤＤ、１１６ファクシミリ部、１１７外部記憶装置、１１８、ＣＤ−ＲＯＭ、１２０自動原稿搬送装置、１３０原稿読取部、１４０画像形成部、１５０給紙部、１５５後処理部、１６０操作パネル、１６１表示部、１６３操作部、１６５タッチパネル、１６７ハードキー部、２０１ＣＰＵ、２０２ＲＯＭ、２０３ＲＡＭ、２０４ＥＰＲＯＭ、２０５通信部、２０６表示部、２０７操作部、２０８マイクロフォン、２０９スピーカー、２１０シリアルインターフェース、５１操作ユーザー特定部、５３設定部、５５ジョブ制御部、５７依頼者通知部、７１音声情報取得部、７３ジョブ生成部、８１ジョブ受信部、８１Ａジョブ受付部、８３関連付部、８５ジョブ実行部、２５１音声受付部、２５３音声認識部、２５５ユーザー特定部、２５７ジョブ生成部、２５９ジョブ送信部、２６１応答部、２６３通話者決定部、２６５装置決定部、２６７音声情報取得部、２７１処理決定部、２７３通常ジョブ生成部、２７５依頼ジョブ生成部、２７７キーワード抽出部、２７９通話者決定部、２８１操作ユーザー通知部、２９１音声情報送信部。

Claims

音声を収集する複数の音声収集装置と、
画像処理装置が実行するためのジョブを生成するジョブ生成装置と、を備え、
複数の前記音声収集装置および前記ジョブ生成装置のいずれかは、
発声したユーザーを特定するユーザー特定手段を備え、
前記ジョブ生成装置は、複数の前記音声収集装置のうち第１装置で収集される音声であって前記ユーザー特定手段により第１ユーザーが特定される音声および複数の前記音声収集装置のうち前記第１装置と異なる第２装置で収集される音声であって前記ユーザー特定手段により前記第１ユーザーと異なる第２ユーザーが特定される音声に基づいて、前記第１ユーザーが前記第２ユーザーに実行を依頼した依頼ジョブを前記ジョブとして生成するジョブ生成手段を備えた、音声処理システム。
前記ジョブ生成装置は、さらに、
前記ユーザー特定手段により前記第１ユーザーが特定される音声から予め登録された複数のユーザーいずれかを識別するためのユーザー識別情報が検出されることに応じて、前記第１ユーザーが特定される音声から検出された前記ユーザー識別情報で識別されるユーザーを前記第２ユーザーに決定し、他の１以上の前記音声収集装置のうち前記第２ユーザーが発声した音声を収集する前記音声収集装置を前記第２装置に決定する装置決定手段を、備える請求項１に記載の音声処理システム。
前記装置決定手段は、前記第２ユーザーが発声した音声を収集する前記音声収集装置が複数の場合、前記第２ユーザーが発声した音声を収集する複数の前記音声収集装置のうちで収集される音声の音量が最大の前記音声収集装置を前記第２装置に決定する、請求項２に記載の音声処理システム。
前記ジョブ生成手段は、前記第２装置で収集される音声が許諾の内容を示す場合、前記依頼ジョブを生成する、請求項２または３に記載の音声処理システム。
前記ジョブ生成装置は、複数の前記音声収集装置のいずれかである、請求項１〜４のいずれかに記載の音声処理システム。
前記ジョブ生成装置は、前記画像処理装置である、請求項１〜４のいずれかに記載の音声処理システム。
画像処理装置が実行するためのジョブを生成するジョブ生成装置であって、
音声を発声したユーザーを特定するユーザー特定手段と、
複数の音声収集装置のうち第１装置で収集される音声であって前記ユーザー特定手段により第１ユーザーが特定される音声と、複数の前記音声収集装置のうち前記第１装置と異なる第２装置で収集される音声であって前記ユーザー特定手段により前記第１ユーザーと異なる第２ユーザーが特定される音声と、に基づいて前記第１ユーザーが前記第２ユーザーに実行を依頼した依頼ジョブを前記ジョブとして生成するジョブ生成手段と、を備えたジョブ生成装置。
前記ユーザー特定手段により前記第１ユーザーが特定される音声から予め登録された複数のユーザーのいずれかを識別するためのユーザー識別情報が検出されることに応じて、前記第１ユーザーが特定される音声から検出された前記ユーザー識別情報で識別されるユーザーを前記第２ユーザーに決定し、複数の前記音声収集装置のうち前記第２ユーザーが発声した音声を収集する前記音声収集装置を前記第２装置に決定する装置決定手段と、を備える、請求項７に記載のジョブ生成装置。
前記装置決定手段は、前記第２ユーザーが発声した音声を収集する前記音声収集装置が複数の場合、前記第２ユーザーが発声した音声を収集する複数の前記音声収集装置のうち収集される音声の音量が最大の前記音声収集装置を前記第２装置に決定する、請求項８に記載のジョブ生成装置。
前記ジョブ生成手段は、前記第２装置で収集された音声が許諾の内容を示す場合、前記依頼ジョブを生成する、請求項７〜９のいずれかに記載のジョブ生成装置。
音声を収集する複数の音声収集装置と、
画像処理装置が実行するためのジョブを生成するジョブ生成装置と、を備えた音声処理システムで実行されるジョブ制御方法であって、
発声したユーザーを特定するユーザー特定ステップを、複数の前記音声収集装置および前記ジョブ生成装置のいずれかに実行させ、
複数の前記音声収集装置のうち第１装置で収集される音声であって前記ユーザー特定ステップにおいて第１ユーザーが特定される音声および複数の前記音声収集装置のうち前記第１装置とは異なる第２装置で収集される音声であって前記ユーザー特定ステップにおいて前記第１ユーザーとは異なる第２ユーザーが特定される音声に基づいて、前記第１ユーザーが前記第２ユーザーに実行を依頼した依頼ジョブを前記ジョブとして生成するジョブ生成ステップを、前記ジョブ生成装置に実行させるジョブ生成方法。
画像処理装置が実行するためのジョブを生成するジョブ生成装置で実行されるジョブ生成方法であって、
音声を発声したユーザーを特定するユーザー特定ステップと、
複数の音声収集装置のうち第１装置で収集される音声であって前記ユーザー特定ステップにおいて第１ユーザーが特定される音声と、複数の前記音声収集装置のうち前記第１装置とは異なる第２装置で収集される音声であって前記ユーザー特定ステップにおいて前記第１ユーザーとは異なる第２ユーザーが特定される音声と、に基づいて前記第１ユーザーが前記第２ユーザーに実行を依頼した依頼ジョブを前記ジョブとして生成するジョブ生成ステップと、をジョブ生成装置に実行させるジョブ生成方法。
画像処理装置が実行するためのジョブを生成するジョブ生成装置を制御するコンピューターにより実行されるジョブ生成プログラムであって、
音声を発声したユーザーを特定するユーザー特定ステップと、
複数の音声収集装置のうち第１装置で収集される音声であって前記ユーザー特定ステップにおいて第１ユーザーが特定される音声と、複数の前記音声収集装置のうち前記第１装置とは異なる第２装置で収集される音声であって前記ユーザー特定ステップにおいて前記第１ユーザーとは異なる第２ユーザーが特定される音声と、に基づいて前記第１ユーザーが前記第２ユーザーに実行を依頼した依頼ジョブを前記ジョブとして生成するジョブ生成ステップと、を前記コンピューターに実行させるジョブ生成プログラム。