JP7415350B2

JP7415350B2 - 音声操作システム、制御装置、および制御プログラム

Info

Publication number: JP7415350B2
Application number: JP2019126854A
Authority: JP
Inventors: 宏樹田島
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2019-07-08
Filing date: 2019-07-08
Publication date: 2024-01-17
Anticipated expiration: 2039-07-08
Also published as: US20210012771A1; JP2021012577A; EP3764351A1; EP3764351B1; CN112202981A; CN112202981B; US11823672B2

Description

本開示は、音声操作システム、制御装置、および制御プログラムに関するものである。

近年、音声操作に対応した処理装置が知られている。具体的には、処理装置と通信可能な制御装置が音声入力装置より入力された音声を基にユーザーの指示を反映させたコマンドを生成し、処理装置はそのコマンドを受信して実行する。これにより、処理装置では、設定が変更されたり、ジョブが実行されたりする。

特開２０１０－２２４８９０号公報（特許文献１）は、どの操作画面を表示した状態からでも、ユーザーに手間をかけることなくかつ短時間で目的の操作画面に音声によって遷移できる技術を開示している（［要約］参照）。

特開２０１０－２２４８９０号公報

処理装置で実行される処理は様々である。そのため、全ての処理を音声で実行できるようにするためには、膨大な数の実行コマンドを開発しなければならず、開発工数もコストもかかってしまう。一方で、音声で指示できる処理を実行頻度の高い処理に限定した場合には、開発工数やコストは抑えられるものの、実行頻度の低い処理は音声操作に対応しておらず、ユーザーの操作性が損なわれてしまう。そこで、操作性を極力損なうことなく開発工数を抑えた音声操作が必要とされている。

本開示は、係る実情に鑑みてなされたものであり、音声操作の操作性を極力損なうことなく開発工数を抑えることを一つの目的とする。

ある実施の形態に従う音声操作システムは、処理装置と、処理装置と通信可能な制御装置とを備える。処理装置は、処理装置で実行される処理を指示するための操作画面を表示し、ユーザーによる指示を受け付ける操作パネルと、制御装置から受信したコマンドに対応する処理を実行する実行部とを有する。制御装置は、入力された音声に基づいて処理装置に対するコマンドを生成するコマンド生成部と、コマンドを処理装置へ送信する送信部とを有する。コマンド生成部は、音声が処理装置に第１処理の実行を指示する音声である場合に、第１処理の実行を指示するための操作画面を操作パネルに表示することを指示する第１コマンドを生成し、音声が処理装置に第２処理の実行を指示する音声である場合に、第２処理の実行を指示する第２コマンドを生成する。

他の実施の形態に従うと、制御装置が提供される。制御装置は、入力された音声に基づいて処理装置に対するコマンドを生成するコマンド生成部と、コマンドを処理装置へ送信する送信部とを有する。コマンド生成部は、音声が処理装置に第１処理の実行を指示する音声である場合に、第１処理の実行を指示するための操作画面を処理装置の操作パネルに表示することを指示する第１コマンドを生成し、音声が処理装置に第２処理の実行を指示する音声である場合に、第２処理の実行を指示する第２コマンドを生成する。

他の実施の形態に従うと、制御プログラムが提供される。制御プログラムは、処理装置と通信可能なコンピューターにおいて実行される。制御プログラムは、コンピューターに、入力された音声に基づいて処理装置に対するコマンドを生成するステップと、コマンドを処理装置へ送信するステップとを実行させる。コマンドを生成するステップは、音声が処理装置に第１処理の実行を指示する音声である場合に、第１処理の実行を指示するための操作画面を処理装置の操作パネルに表示することを指示する第１コマンドを生成し、音声が処理装置に第２処理の実行を指示する音声である場合に、第２処理の実行を指示する第２コマンドを生成するステップとを含む。

他の実施の形態に従うと、処理装置が提供される。処理装置は、音声の入力を受け付ける音声受付部と、操作画面を表示する操作パネルと、入力された音声に基づいてコマンドを生成するコマンド生成部と、コマンドに対応する処理を実行する実行部とを備える。コマンド生成部は、音声が処理装置に第１処理の実行を指示する音声である場合に、第１処理の実行を指示するための操作画面を操作パネルに表示することを指示する第１コマンドを生成し、音声が処理装置に第２処理の実行を指示する音声である場合に、第２処理の実行を指示する第２コマンドを生成する。

本開示によれば、音声操作の操作性を極力損なうことなく開発工数を抑えることができる。

実施の形態１に従う音声操作システムを示す図である。スマートスピーカーのハードウェア構成を示すブロック図である。サーバーのハードウェア構成を示すブロック図である。画像形成装置のハードウェア構成を示すブロック図である。音声操作システムの機能的構成を示す図である。テーブルＡのデータ構造を示す図である。テーブルＢのデータ構造を示す図である。サーバーの全体処理を示すフローチャートである。コマンド生成処理を示すフローチャートである。音声出力を指示する処理を示すフローチャートである。登録処理を示すフローチャートである。音声受付処理を示すフローチャートである。音声出力処理を示すフローチャートである。実行処理を示すフローチャートである。画面ＩＤ送信処理を示すフローチャートである。指示キーワードがテーブルＢに含まれる場合の音声操作システムの一連の処理を説明するためのシーケンス図である。指示キーワードがテーブルＢに含まれないがテーブルＡに含まれる場合の音声操作システムの一連の処理を説明するためのシーケンス図である。指示キーワードに対応する遷移先の画面候補が１つではない場合の音声操作システムの一連の処理を説明するためのシーケンス図である。指示キーワードがテーブルＡとテーブルＢとのいずれにも含まれていない場合の音声操作システムの一連の処理を説明するためのシーケンス図である。実施の形態２におけるテーブルＢ１のデータ構造を示す図である。実施の形態２におけるコマンド生成処理を示すフローチャートである。実施の形態２におけるテーブルＢ２のデータ構造を示す図である。実施の形態２におけるコマンド生成処理を示すフローチャートである。実施の形態２におけるテーブルＢ３のデータ構造を示す図である。実施の形態２におけるコマンド生成処理を示すフローチャートである。実施の形態３におけるテーブルＣのデータ構造を示す図である。実施の形態３におけるコマンド生成処理を示すフローチャートである。実施の形態３におけるテーブルＤのデータ構造を示す図である。実施の形態３におけるコマンド生成処理を示すフローチャートである。実施の形態４における画像形成装置のハードウェア構成を示すブロック図である。実施の形態４における画像形成装置の機能的構成を示す図である。

以下、各実施の形態について、図面を参照しながら詳細に説明する。なお、図中の同一または相当部分については、同一符号を付してその説明は繰り返さない。

［実施の形態１］
図１は、実施の形態１に従う音声操作システム１を示す図である。音声操作システム１は、スマートスピーカー４００、サーバー５００、および画像形成装置１００を備える。スマートスピーカー４００は、対話型電子装置の一例である。サーバー５００は、制御装置の一例であり、クラウドサーバーを含む。画像形成装置１００は、処理装置の一例である。画像形成装置１００は、認証機能を備える複合機（ＭＦＰ：Multi Function Peripheral）である。ユーザーは、画像形成装置１００を使用するためには、操作パネル４０上でＩＤを入力して認証される必要がある。サーバー５００は、スマートスピーカー４００および画像形成装置１００とネットワーク９９を介して接続されており、相互に通信を行う。

スマートスピーカー４００は、対話型の音声操作に対応したスピーカーである。スマートスピーカー４００は、画像形成装置１００に対する指示を音声で受け付け、受け付けた音声のデータをサーバー５００へ送信する。スマートスピーカー４００は、サーバー５００が生成した音声データを音声化して出力する。

サーバー５００は、スマートスピーカー４００から送られてきた音声データを受信し、テキスト化する。サーバー５００は、テキストデータの中から指示キーワードを抽出する。指示キーワードとは、画像形成装置１００に対して処理の実行を指示するために用いられるキーワードである。サーバー５００は、予め画像形成装置１００に保存されている指示キーワードのテーブルを参照してコマンドを生成し、そのコマンドを画像形成装置１００へ送信する。

スマートスピーカー４００に音声出力させたい場合には、サーバー５００は、スマートスピーカー４００に出力させたい音声のデータをスマートスピーカー４００に送信する。ユーザーが操作パネル４０に表示される操作画面上で設定操作を行った場合には、サーバー５００は、その操作画面の画面ＩＤを画像形成装置１００から受信し、指示キーワードとその画面ＩＤと画像形成装置１００にログイン中のユーザーＩＤとを対応付けて登録する。

画像形成装置１００は、スキャナー機能、コピー機能、ファクシミリ機能、ネットワーク機能、ＢＯＸ機能といった複数の機能が搭載された複合機（ＭＦＰ：Multi Function Peripheral）である。画像形成装置１００は、サーバー５００から受信したコマンドに基づいて、処理を実行する。また、操作パネル４０上で設定操作が行われた場合には、画像形成装置１００は、ユーザーが操作した操作画面の画面ＩＤを、画像形成装置１００にログイン中のユーザーＩＤと対応付けてサーバー５００へ送信する。なお、画像形成装置１００は、複合機に限定されるものではなく、複写機、プリンター、またはファクシミリといったどのような形態で実装されてもよい。また、画像形成装置１００における認証形式は、ＩＤ入力に替えて、ＩＣカードによる認証や生体認証であってもよい。

図２は、スマートスピーカー４００のハードウェア構成を示すブロック図である。スマートスピーカー４００は、制御部４１０、マイク４２０、スピーカー４３０、および通信インターフェース４４０を備える。制御部４１０、マイク４２０、スピーカー４３０、および通信インターフェース４４０は、バス４５０を介して接続されている。

制御部４１０は、ＣＰＵ（Central Processing Unit）４１１、ＲＡＭ（Random Access Memory）４１２、およびＲＯＭ（Read Only Memory）４１３を備える。ＣＰＵ４１１は、ＲＯＭ４１３等に保存されている動作プログラムを実行することにより、スマートスピーカー４００全体を総括的に制御する。ＲＯＭ４１３は、ＣＰＵ４１１が実行するプログラムやその他のデータを記憶する。ＲＡＭ４１２は、ＣＰＵ４１１がプログラムを実行する際の作業領域となるものであり、プログラムやプログラムを実行する際のデータ等を一時的に記憶する。

マイク４２０は、画像形成装置１００に対する指示を音声で受け付ける。

スピーカー４３０は、サーバー５００が生成した音声データを音声化して出力する。

通信インターフェース４４０は、ネットワーク９９を介してサーバー５００と音声データを送受信する。

図３は、サーバー５００のハードウェア構成を示すブロック図である。サーバー５００は、制御部５１０、通信インターフェース５２０、およびハードディスク５３０を備える。制御部５１０、通信インターフェース５２０、およびハードディスク５３０は、バス５４０を介して接続されている。

制御部５１０は、ＣＰＵ５１１、ＲＡＭ５１２、およびＲＯＭ５１３を備える。ＣＰＵ５１１は、ＲＯＭ５１３等に保存されている動作プログラムを実行することにより、サーバー５００全体を総括的に制御する。ＲＯＭ５１３は、ＣＰＵ５１１が実行するプログラムやその他のデータを記憶する。ＲＡＭ５１２は、ＣＰＵ５１１がプログラムを実行する際の作業領域となるものであり、プログラムやプログラムを実行する際のデータ等を一時的に記憶する。

通信インターフェース５２０は、ネットワーク９９を介して、スマートスピーカー４００と音声データを送受信する。通信インターフェース５２０は、ネットワーク９９を介して、画像形成装置１００にコマンドを送信する。通信インターフェース５２０は、ユーザーが操作した操作画面の画面ＩＤをネットワーク９９を介して画像形成装置１００から受信する。

ハードディスク５３０は、各種テーブルを記憶する。各種テーブルは、例えば、テーブルＡやテーブルＢである。テーブルＡおよびテーブルＢの詳細は、図６および図７を参照して後述する。

図４は、画像形成装置１００のハードウェア構成を示すブロック図である。画像形成装置１００は、スキャナー１０、プリンター２０、給紙部３０、操作パネル４０、ファクシミリ５０、通信インターフェース６０、制御部７０、およびハードディスク８０を備える。スキャナー１０、プリンター２０、給紙部３０、操作パネル４０、ファクシミリ５０、通信インターフェース６０、制御部７０、およびハードディスク８０は、バス９０を介して接続されている。

スキャナー１０は、原稿を光学的に読み取って画像に変換する。

プリンター２０は、用紙に画像を印刷する。プリンター２０は、イエロー、マゼンタ、シアン、およびブラックのトナー像を形成するための感光体ドラムと露光装置とを備える。プリンター２０は、各色のトナー像を転写ベルトに重ねて転写し、重なったトナー像を給紙部３０から搬送されてきた用紙に転写する。トナー像が転写された用紙は、原稿排紙トレイへ排出される。

給紙部３０は、プリンター２０へ供給する用紙を収納する。

操作パネル４０は、ユーザーによる入力操作を受け付ける。操作パネル４０は、各種操作画面が表示されるタッチパネルディスプレイを備える。

ファクシミリ５０は、電話回線に接続し、他の装置との間で画像データを送受信する。

通信インターフェース６０は、ネットワーク９９を介してサーバー５００と通信する。通信インターフェース６０は、サーバー５００からコマンドを受信する。通信インターフェース６０は、ユーザーが操作した操作画面の画面ＩＤをサーバー５００へ送信する。

制御部７０は、ＣＰＵ７１、ＲＡＭ７２、およびＲＯＭ７３を備える。ＣＰＵ７１は、ＲＯＭ７３等に保存されている動作プログラムを実行することにより、画像形成装置１００全体を総括的に制御する。ＲＯＭ７３は、ＣＰＵ７１が実行するプログラムやその他のデータを記憶する。ＲＡＭ７２は、ＣＰＵ７１がプログラムを実行する際の作業領域となるものであり、プログラムやプログラムを実行する際のデータ等を一時的に記憶する。

ハードディスク８０は、プログラムや各種データを記憶する。各種データは、例えば、画像データである。

図５は、音声操作システム１の機能的構成を示す図である。音声操作システム１は、スマートスピーカー４００、サーバー５００、および画像形成装置１００から構成される。

スマートスピーカー４００における機能的構成について説明する。音声受付部４１０１は、マイク４２０を介して画像形成装置１００に対する指示を音声で受け付ける。音声受付部４１０１は、受け付けた音声を音声データに変換し、その音声データを通信インターフェース４４０を介してサーバー５００へ送信する。また、音声出力部４１０２は、サーバー５００から送られてきた音声データを通信インターフェース４４０を介して受信し、その音声データを音声化してスピーカー４３０を介して出力する。音声受付部４１０１および音声出力部４１０２で行われる処理は、ＣＰＵ４１１がＲＯＭ４１３に格納されている所定のプログラムを実行することにより実現される。

サーバー５００における機能的構成について説明する。音声認識部５１０１は、スマートスピーカー４００から送られてきた音声データを通信インターフェース５２０を介して受信し、その音声データに対応するテキストデータを生成する。また、音声認識部５１０１は、テキストデータ生成部５１０４で生成されたテキストデータを音声データに変換し、その音声データを通信インターフェース５２０を介してスマートスピーカー４００へ送信する。

抽出部５１０２は、生成されたテキストデータの中から指示キーワードを抽出する。

コマンド生成部５１０３は、ハードディスク５３０内のテーブルＡまたはテーブルＢを参照してコマンドを生成し、そのコマンドを画像形成装置１００に送信する。コマンド生成部５１０３で行われる処理の詳細は、図９を参照して後述する。

テキストデータ生成部５１０４は、コマンド生成部５１０３で画面遷移コマンドが生成された場合、または、コマンド生成部５１０３でいずれのコマンドも生成されなかった場合に、スマートスピーカー４００に出力させる音声のテキストデータを生成する。テキストデータ生成部５１０４および音声認識部５１０１で行われる、スマートスピーカー４００に音声出力を指示する処理の詳細は、図１０を参照して後述する。

登録部５１０５は、ユーザーが操作パネル４０に表示される操作画面上で設定操作を行った場合に、指示キーワードと、その操作画面の画面ＩＤと、画像形成装置１００にログイン中のユーザーＩＤとを対応付けて、ハードディスク５３０内のテーブルＺに保存する。テーブルＺは、ユーザー毎に設けられており、ユーザーごとの傾向（例えば、過去の設定操作）を記録したものである。登録部５１０５は、画像形成装置１００にログイン中のユーザーのテーブルＺを選択し、そのテーブルＺに指示キーワードと操作画面の画面ＩＤとを対応付けて保存する。テーブルＺに保存された情報は、次回、同一ユーザーが同一の指示キーワードを発した場合に、操作パネル４０に表示させる操作画面を特定する場合に参照される。登録部５１０５で行われる処理の詳細は、図１１を参照して後述する。

音声認識部５１０１、抽出部５１０２、コマンド生成部５１０３、テキストデータ生成部５１０４、および登録部５１０５で行われる処理は、ＣＰＵ５１１がＲＯＭ５１３に格納されている所定のプログラムを実行することにより実現される。

画像形成装置１００における機能的構成について説明する。特定部７００１は、サーバー５００から送られてきたコマンドを通信インターフェース６０を介して受信し、その処理内容を特定する。実行部７００２は、特定部７００１で特定された処理内容に基づいて処理を実行する。特定部７００１および実行部７００２で行われる処理の詳細は、図１４を参照して後述する。

画面ＩＤ送信部７００３は、ユーザーが操作パネル４０に表示される操作画面上で設定操作を行った場合に、その操作画面の画面ＩＤをログイン中のユーザーＩＤと対応付けて、通信インターフェース６０を介してサーバー５００へ送信する。画面ＩＤ送信部７００３で行われる処理の詳細は、図１５を参照して後述する。

特定部７００１、実行部７００２、および画面ＩＤ送信部７００３で行われる処理は、ＣＰＵ７１がＲＯＭ７３に格納されている所定のプログラムを実行することにより実現される。

図６は、テーブルＡのデータ構造を示す図である。テーブルＡは、ハードディスク５３０に予め格納され、コマンド生成部５１０３で行われる処理において参照される。

テーブルＡには、指示キーワードと画面ＩＤとが対応付けられている。画面ＩＤとは、操作パネル４０に表示される操作画面の識別情報である。指示キーワードに対応付けられている画面ＩＤは、ユーザーが指示キーワードに対応する処理の実行を指示する際に操作パネル４０に表示される操作画面の識別情報である。さらに、テーブルＡには、指示キーワードと上位画面の画面ＩＤとが対応付けられている。指示キーワードに対応付けられている上位画面の画面ＩＤとは、ユーザーが指示キーワードに対応する処理の実行を指示する際に操作パネル４０に表示される操作画面の上位の階層に位置する操作画面の識別情報である。「上位画面の画面ＩＤ」の欄には、上位画面の画面ＩＤが階層の浅い方から順に記載されている。

例えば、「コピーステープル」という指示キーワードに対応する操作画面の画面ＩＤは、「１２１２８」である。「コピーステープル」という指示キーワードに対応する操作画面の１階層上位に位置する操作画面の画面ＩＤは、「１２１００」である。「コピーステープル」という指示キーワードに対応する操作画面の２階層上位に位置する操作画面の画面ＩＤは、「１２０００」である。「コピーステープル」という指示キーワードに対応する操作画面の３階層上位に位置する操作画面の画面ＩＤは、「１００００」である。

図７は、テーブルＢのデータ構造を示す図である。テーブルＢは、ハードディスク５３０に予め格納され、コマンド生成部５１０３で行われる処理において参照される。

テーブルＢには、指示キーワードと実行コマンドとが対応付けられている。テーブルＢに保存されている指示キーワードは、テーブルＡに保存されている指示キーワードの中でも使用頻度の高い処理に対応する指示キーワードである。実行コマンドとは、指示キーワードに対応する処理の実行を画像形成装置１００に指示するためのコマンドである。例えば、「コピー２ｉｎ１」という指示キーワードに対応する実行コマンドは、「ＡＡＡ」である。

［サーバー５００の処理］
図８～図１１を参照して、サーバー５００で行われる処理について説明する。図８は、サーバー５００の全体処理を示すフローチャートである。図８に示す処理は、ＣＰＵ５１１がＲＯＭ５１３に格納されている所定のプログラムを実行することにより実現される。

まず、制御部５１０は、スマートスピーカー４００から音声データを受信したか否かを判定する（ステップＳ８１０）。制御部５１０は、スマートスピーカー４００から音声データを受信するまでステップＳ８１０を繰り返し、スマートスピーカー４００から音声データを受信した場合には（ステップＳ８１０においてＹＥＳ）、ステップＳ８２０に移行する。

ステップＳ８２０において、制御部５１０は、受信した音声データに対応するテキストデータを生成する。

次いで、制御部５１０は、テキストデータの中から指示キーワードを抽出する（ステップＳ８３０）。

次いで、制御部５１０は、コマンド生成処理を行う（ステップＳ８４０）。コマンド生成処理は、ステップＳ８３０で抽出した指示キーワードを基に、ハードディスク５３０内のテーブルＡまたはテーブルＢを参照してコマンドを生成し、そのコマンドを画像形成装置１００に送信する処理である。コマンド生成処理の詳細は、図９を参照して後述する。

次いで、制御部５１０は、音声出力を指示する処理を行う（ステップＳ８５０）。音声出力を指示する処理は、ステップＳ８４０で画面遷移コマンドが生成された場合、または、ステップＳ８４０でいずれのコマンドも生成されなかった場合に、スマートスピーカー４００に音声出力を指示する処理である。音声出力を指示する処理の詳細は、図１０を参照して後述する。

次いで、制御部５１０は、登録処理を行う（ステップＳ８６０）。登録処理は、ユーザーが操作パネル４０に表示される操作画面上で設定操作を行った場合に、指示キーワードと、その操作画面の画面ＩＤと、画像形成装置１００にログイン中のユーザーＩＤとを対応付けて、ハードディスク５３０内のテーブルＺに保存する処理である。登録処理の詳細は、図１１を参照して後述する。

制御部５１０は、ステップＳ８６０の後、図８に示す一連の処理を終了する。

図９は、コマンド生成処理を示すフローチャートである。図９に示す処理は、ＣＰＵ５１１がＲＯＭ５１３に格納されている所定のプログラムを実行することにより実現される。

まず、制御部５１０は、ステップＳ８３０で抽出した指示キーワードがテーブルＢに含まれるか否かを判定する（ステップＳ９１０）。ステップＳ８３０で抽出した指示キーワードがテーブルＢに含まれる場合には（ステップＳ９１０においてＹＥＳ）、制御部５１０は、ステップＳ９２０に移行する。一方、ステップＳ８３０で抽出した指示キーワードがテーブルＢに含まれない場合には（ステップＳ９１０においてＮＯ）、制御部５１０は、ステップＳ９３０に移行する。

ステップＳ９２０において、制御部５１０は、テーブルＢを参照して指示キーワードに対応する実行コマンドを生成する。例えば、指示キーワードが「コピー２ｉｎ１」である場合には、制御部５１０は、「ＡＡＡ」という実行コマンドを生成する。

ステップＳ９３０において、制御部５１０は、ステップＳ８３０で抽出した指示キーワードがテーブルＡに含まれるか否かを判定する。ステップＳ８３０で抽出した指示キーワードがテーブルＡに含まれる場合には（ステップＳ９３０においてＹＥＳ）、制御部５１０は、ステップＳ９４０に移行する。一方、ステップＳ８３０で抽出した指示キーワードがテーブルＡに含まれない場合には（ステップＳ９３０においてＮＯ）、制御部５１０は、図９に示す一連の処理を終了する。

ステップＳ９４０において、制御部５１０は、ステップＳ８３０で抽出した指示キーワードがテーブルＡに含まれる複数の指示キーワードに共通して含まれるか否かを判定する。例えば、ステップＳ８３０で抽出した指示キーワードが「カラー」である場合には、「カラー」が「カラーコピー」および「カラースキャン」に含まれているので、制御部５１０は、ステップＳ８３０で抽出した指示キーワードがテーブルＡに含まれる複数の指示キーワードに共通して含まれると判定する。ステップＳ８３０で抽出した指示キーワードがテーブルＡに含まれる複数の指示キーワードに共通して含まれる場合には（ステップＳ９４０においてＹＥＳ）、制御部５１０は、ステップＳ９４５に移行する。一方、ステップＳ８３０で抽出した指示キーワードがテーブルＡに含まれる複数の指示キーワードに共通して含まれていない場合には（ステップＳ９４０においてＮＯ）、制御部５１０は、ステップＳ９５０に移行する。

ステップＳ９４５において、制御部５１０は、テーブルＡに含まれる指示キーワードのうちステップＳ８３０で抽出した指示キーワードを共通して含む複数の指示キーワードの各々に対応付けられている画面ＩＤを指定した画面遷移コマンドを生成する。例えば、指示キーワードが「カラー」である場合には、制御部５１０は、「１２１２５」という画面ＩＤを指定した画面遷移コマンド、および、「１５１２５」という画面ＩＤを指定した画面遷移コマンドを生成する。なお、ステップＳ９４５において、制御部５１０は、テーブルＺを参照し、ステップＳ８３０で抽出した指示キーワードにユーザーがこれまでに操作した操作画面の画面ＩＤが対応付けられている場合には、その画面ＩＤを指定した画面遷移コマンドのみを生成してもよい。

ステップＳ９５０において、制御部５１０は、テーブルＡに含まれるステップＳ８３０で抽出した指示キーワードが１つであるか否かを判定する。テーブルＡに含まれるステップＳ８３０で抽出した指示キーワードが１つである場合には（ステップＳ９５０においてＹＥＳ）、制御部５１０は、ステップＳ９５５に移行する。一方、テーブルＡに含まれるステップＳ８３０で抽出した指示キーワードが１つではない場合には（ステップＳ９５０においてＮＯ）、制御部５１０は、ステップＳ９６０に移行する。

ステップＳ９５５において、制御部５１０は、テーブルＡにおいてステップＳ８３０で抽出した指示キーワードに対応付けられている画面ＩＤを指定した画面遷移コマンドを生成する。例えば、指示キーワードが「コピーステープル」である場合には、制御部５１０は、「１２１２８」という画面ＩＤを指定した画面遷移コマンドを生成する。

ステップＳ９６０において、制御部５１０は、テーブルＡにおいてステップＳ８３０で抽出した指示キーワードの各々に対応付けられている上位画面の画面ＩＤのうち共通する画面ＩＤを指定した画面遷移コマンドを生成する。共通する画面ＩＤが複数ある場合には、制御部５１０は、複数の共通する画面ＩＤのうち最下層の画面ＩＤを指定した画面遷移コマンドを生成する。例えば、指示キーワードが「カラーコピー」および「コピーステープル」である場合には、制御部５１０は、「１２１００」という画面ＩＤを指定した画面遷移コマンドを生成する。

制御部５１０は、ステップＳ９２０、ステップＳ９４５、ステップＳ９５５、またはステップＳ９６０の後、ステップＳ９７０に移行する。ステップＳ９７０において、制御部５１０は、実行コマンドまたは画面遷移コマンドを通信インターフェース５２０を介して画像形成装置１００に送信する。制御部５１０は、ステップＳ９７０の後、図９に示す一連の処理を終了する。

なお、実行コマンドは、「ＡＡＡ」のコマンドのように、原稿を「２ｉｎ１」で「コピー」するという複数のコマンドを含むのに対し、画面遷移コマンドは指定されている画面を操作パネル４０に表示するという１つのコマンドのみを含む。

また、実行コマンドは、画像形成装置１００に印刷処理の実行を指示するようなコマンドに限られない。実行コマンドは、画像形成装置１００に印刷条件を設定させるに留め、印刷処理の実行までは行わせないようなコマンドでもよい。例えば、「ＡＡＡ」のコマンドであれば、原稿を２ｉｎ１でコピーすることを画像形成装置１００に指示するコマンドであってもよいし、原稿を２ｉｎ１でコピーするという印刷条件の設定を画像形成装置１００に指示するコマンドでもよい。

また、ステップＳ８３０で複数の指示キーワードが抽出された場合に、テーブルＢに含まれる指示キーワードとテーブルＡにのみ含まれる指示キーワードとが混在する場合もあり得る。このような場合には、制御部５１０は、テーブルＢに含まれる指示キーワードに対しては実行コマンドを生成し、テーブルＡにのみ含まれる指示キーワードに対しては画面遷移コマンドを生成し、これらのコマンドを画像形成装置１００に送信してもよい。

図１０は、音声出力を指示する処理を示すフローチャートである。図１０に示す処理は、ＣＰＵ５１１がＲＯＭ５１３に格納されている所定のプログラムを実行することにより実現される。

まず、制御部５１０は、ステップＳ８４０で実行コマンドが生成されたか否かを判定する（ステップＳ１０１０）。ステップＳ８４０で実行コマンドが生成された場合には（ステップＳ１０１０においてＹＥＳ）、制御部５１０は、図１０に示す一連の処理を終了する。一方、ステップＳ８４０で実行コマンドが生成されなかった場合には（ステップＳ１０１０においてＮＯ）、制御部５１０は、ステップＳ１０２０に移行する。

ステップＳ１０２０において、制御部５１０は、ステップＳ８４０で画面遷移コマンドが生成されたか否かを判定する。ステップＳ８４０で画面遷移コマンドが生成された場合には（ステップＳ１０２０においてＹＥＳ）、制御部５１０は、ステップＳ１０３０に移行する。一方、ステップＳ８４０で画面遷移コマンドが生成されなかった場合には（ステップＳ１０２０においてＮＯ）、制御部５１０は、ステップＳ１０６０に移行する。

ステップＳ１０３０において、制御部５１０は、ステップＳ８４０で複数の画面遷移コマンドが生成された否かを判定する。ステップＳ８４０で複数の画面遷移コマンドが生成された場合には（ステップＳ１０３０においてＹＥＳ）、制御部５１０は、ステップＳ１０５０に移行する。一方、ステップＳ８４０で複数の画面遷移コマンドが生成されなかった場合には（ステップＳ１０３０においてＮＯ）、制御部５１０は、ステップＳ１０４０に移行する。

ステップＳ１０４０において、制御部５１０は、「操作パネル４０に関連する画面を表示したので設定して下さい」という内容のテキストデータを生成する。

ステップＳ１０５０において、制御部５１０は、「操作パネル４０に候補の画面を表示したので画面を選択して設定して下さい」という内容のテキストデータを生成する。

ステップＳ１０６０において、制御部５１０は、「操作パネル４０上で設定して下さい」という内容のテキストデータを生成する。

ステップＳ１０４０、ステップＳ１０５０、またはステップＳ１０６０の後、制御部５１０は、テキストデータに対応する音声データを生成する（ステップＳ１０７０）。

次いで、制御部５１０は、通信インターフェース５２０を介して音声データをスマートスピーカー４００へ送信する（ステップＳ１０８０）。スマートスピーカー４００では、サーバー５００から送られてきた音声データが音声化されて出力される。

制御部５１０は、ステップＳ１０８０の後、図１０に示す一連の処理を終了する。

図１１は、登録処理を示すフローチャートである。図１１に示す処理は、ＣＰＵ５１１がＲＯＭ５１３に格納されている所定のプログラムを実行することにより実現される。

まず、制御部５１０は、画像形成装置１００から画像形成装置１００にログイン中のユーザーＩＤおよびユーザーが操作した操作画面の画面ＩＤを受信したか否かを判定する（ステップＳ１１１０）。制御部５１０は、画像形成装置１００から画像形成装置１００にログイン中のユーザーＩＤおよびユーザーが操作した操作画面の画面ＩＤを受信するまでステップＳ１１１０を繰り返し、画像形成装置１００から画像形成装置１００にログイン中のユーザーＩＤおよびユーザーが操作した操作画面の画面ＩＤを受信した場合には（ステップＳ１１１０においてＹＥＳ）、ステップＳ１１２０へ移行する。

ステップＳ１１２０において、制御部５１０は、ステップＳ８３０で抽出した指示キーワードと、画像形成装置１００から送られてきた画面ＩＤと、画像形成装置１００から送られてきた画像形成装置１００にログイン中のユーザーＩＤとを対応付けて、ハードディスク５３０内のテーブルＺに保存する。制御部５１０は、画像形成装置１００にログイン中のユーザーのテーブルＺを選択し、そのテーブルＺに指示キーワードと操作画面の画面ＩＤとを対応付けて保存する。ハードディスク５３０に格納された情報は、次回、同一ユーザーが同一の指示キーワードを発した場合に、操作パネル４０に表示させる操作画面を特定する場合に参照される。

制御部５１０は、ステップＳ１１２０の後、図１１に示す一連の処理を終了する。

［スマートスピーカー４００の処理］
図１２および図１３を参照して、スマートスピーカー４００で行われる処理について説明する。図１２は、音声受付処理を示すフローチャートである。音声受付処理は、受け付けた音声を音声データに変換し、その音声データをサーバー５００へ送信する処理である。音声受付処理は、ＣＰＵ４１１がＲＯＭ４１３に格納されている所定のプログラムを実行することにより実現される。

まず、制御部４１０は、音声を受け付けたか否かを判定する（ステップＳ１２１０）。制御部４１０は、音声を受け付けるまでステップＳ１２１０を繰り返し、音声を受け付けた場合には（ステップＳ１２１０においてＹＥＳ）、制御部４１０は、ステップＳ１２２０に移行する。

ステップＳ１２２０において、制御部４１０は、受け付けた音声を音声データに変換する。

次いで、制御部４１０は、音声データを通信インターフェース４４０を介してサーバー５００へ送信する（ステップＳ１２３０）。制御部４１０は、ステップＳ１２３０の後、図１２に示す一連の処理を終了する。

図１３は、音声出力処理を示すフローチャートである。音声出力処理は、サーバー５００から受信した音声データを音声化して出力する処理である。音声出力処理は、ＣＰＵ４１１がＲＯＭ４１３に格納されている所定のプログラムを実行することにより実現される。

まず、制御部４１０は、サーバー５００から音声データを受信したか否かを判定する（ステップＳ１３１０）。制御部４１０は、サーバー５００から音声データを受信するまでステップＳ１３１０を繰り返し、サーバー５００から音声データを受信した場合には（ステップＳ１３１０においてＹＥＳ）、制御部４１０は、ステップＳ１３２０に移行する。

ステップＳ１３２０において、制御部４１０は、音声データを音声化する。

次いで、制御部４１０は、スピーカー４３０より音声を出力する（ステップＳ１３３０）。制御部４１０は、ステップＳ１３３０の後、図１３に示す一連の処理を終了する。

［画像形成装置１００の処理］
図１４および図１５を参照して、画像形成装置１００で行われる処理について説明する。図１４は、実行処理を示すフローチャートである。実行処理は、サーバー５００から送られてきたコマンドを実行する処理である。実行処理は、ＣＰＵ７１がＲＯＭ７３に格納されている所定のプログラムを実行することにより実現される。

まず、制御部７０は、サーバー５００からコマンドを受信したか否かを判定する（ステップＳ１４１０）。制御部７０は、サーバー５００からコマンドを受信するまでステップＳ１４１０を繰り返し、サーバー５００からコマンドを受信した場合には（ステップＳ１４１０においてＹＥＳ）、制御部７０は、ステップＳ１４２０に移行する。コマンドとは、ステップＳ８４０で生成されたコマンドであり、実行コマンドや画面遷移コマンドである。

ステップＳ１４２０において、制御部７０は、コマンドが示す処理内容をアプリケーションプログラミングインターフェース（ＡＰＩ）を介して特定する。

次いで、制御部７０は、特定した処理内容に従って処理を実行する（ステップＳ１４３０）。例えば、サーバー５００から送られてきたコマンドが「ＡＡＡ」という実行コマンドである場合には、制御部７０は、画像形成装置１００にセットされている原稿を２ｉｎ１でコピーする。他の例として、サーバー５００から受信したコマンドが「１２１２８」という画面ＩＤを指定した画面遷移コマンドである場合には、制御部７０は、コピーの操作画面のうちステープルの操作画面を操作パネル４０に表示する。

制御部７０は、ステップＳ１４３０の後、図１４に示す一連の処理を終了する。

図１５は、画面ＩＤ送信処理を示すフローチャートである。画面ＩＤ送信処理は、ユーザーによる操作パネル４０上での設定操作が完了した場合に、ユーザーが操作した操作画面の画面ＩＤをサーバー５００へ送信する処理である。画面ＩＤ送信処理は、ＣＰＵ７１がＲＯＭ７３に格納されている所定のプログラムを実行することにより実現される。

まず、制御部７０は、ユーザーによる操作パネル４０上での設定操作が完了したか否かを判定する（ステップＳ１５１０）。制御部７０は、ユーザーによる操作パネル４０上での設定操作が完了するまでステップＳ１５１０を繰り返し、ユーザーによる操作パネル４０上での設定操作が完了した場合には（ステップＳ１５１０においてＹＥＳ）、制御部７０は、ステップＳ１５２０に移行する。ユーザーが操作パネル４０上の「設定」や「ＯＫ」を押下した場合、または、ユーザーによる操作パネル４０上での操作の後に操作画面が他の画面に遷移した場合に、制御部７０はユーザーによる操作パネル４０上での設定操作が完了したと判定する。

ステップＳ１５２０において、制御部７０は、ユーザーが操作した操作画面の画面ＩＤと画像形成装置１００にログイン中のユーザーＩＤとを対応付けて、通信インターフェース６０を介してサーバー５００へ送信する。制御部７０は、ステップＳ１５２０の後、図１５に示す一連の処理を終了する。

図１５に示す一連の処理によって、サーバー５００がユーザーの発した指示キーワードから遷移先の画面を１つに特定することができず、ユーザーが操作パネル４０に表示されている遷移先の画面候補の中から一の画面を選択した場合に、ユーザーが選択した操作画面の画面ＩＤがユーザーＩＤと対応付けられてサーバー５００へ送信される。他の例としては、ユーザーが発した指示キーワードがテーブルＡとテーブルＢとのいずれにも含まれておらず、ユーザーが操作パネル４０上で設定操作を行った場合に、ユーザーが操作した操作画面の画面ＩＤがユーザーＩＤと対応付けられてサーバー５００へ送信される。

［音声操作システム１の一連の処理］
図１６～図１９を参照して、音声操作システム１の一連の処理を説明する。図１６は、指示キーワードがテーブルＢに含まれる場合の音声操作システム１の一連の処理を説明するためのシーケンス図である。

ユーザーが「２ｉｎ１でコピーして下さい」と発すると（Ｔ１６０５）、スマートスピーカー４００は音声を音声データに変換し（Ｔ１６１０）、その音声データをサーバー５００へ送信する（Ｔ１６１５）。

サーバー５００は、スマートスピーカー４００から送られてきた音声データをテキスト化し（Ｔ１６２０）、「コピー２ｉｎ１」という指示キーワードを抽出する（Ｔ１６２５）。サーバー５００は、テーブルＢを参照して、「ＡＡＡ」という実行コマンドを生成する（Ｔ１６３０）。サーバー５００は、「ＡＡＡ」という実行コマンドを画像形成装置１００に送信する（Ｔ１６３５）。

画像形成装置１００は、サーバー５００から送られてきたコマンドを受信し、コマンドが示す処理内容を特定し（Ｔ１６４０）、特定した処理内容に従って処理を実行する（Ｔ１６４５）。すなわち、画像形成装置１００は、画像形成装置１００にセットされている原稿を２ｉｎ１でコピーする。

音声操作システム１による上記一連の処理により、「２ｉｎ１でコピーして下さい」というユーザーの指示に対し、画像形成装置１００にセットされている原稿が２ｉｎ１でコピーされる。

図１７は、指示キーワードがテーブルＢに含まれないがテーブルＡに含まれる場合の音声操作システム１の一連の処理を説明するためのシーケンス図である。

ユーザーが「コピーしてステープルして下さい」と発すると（Ｔ１７０５）、スマートスピーカー４００は音声を音声データに変換し（Ｔ１７１０）、その音声データをサーバー５００へ送信する（Ｔ１７１５）。

サーバー５００は、スマートスピーカー４００から送られてきた音声データをテキスト化し（Ｔ１７２０）、「コピーステープル」という指示キーワードを抽出する（Ｔ１７２５）。サーバー５００は、テーブルＡを参照して、「１２１２８」という画面ＩＤを指定した画面遷移コマンドを生成する（Ｔ１７３０）。サーバー５００は、「１２１２８」という画面ＩＤを指定した画面遷移コマンドを画像形成装置１００に送信する（Ｔ１７３５）。

画像形成装置１００は、サーバー５００から送られてきたコマンドを受信し、コマンドが示す処理内容を特定し（Ｔ１７４０）、特定した処理内容に従って処理を実行する（Ｔ１７４５）。すなわち、画像形成装置１００は、コピーの操作画面のうちステープルの操作画面を操作パネル４０に表示する。

サーバー５００は、画像形成装置１００に対して画面遷移コマンドを送信する一方で、スマートスピーカー４００に対しては、音声データを送信する。具体的には、サーバー５００は、「操作パネル４０に関連する画面を表示したので設定して下さい」という内容のテキストデータを生成する（Ｔ１７５０）。サーバー５００は、そのテキストデータに対応する音声データを生成し（Ｔ１７５５）、スマートスピーカー４００に送信する（Ｔ１７６０）。

スマートスピーカー４００は、サーバー５００から送られてきた音声データを音声化し（Ｔ１７６５）、出力する（Ｔ１７７０）。

音声操作システム１による上記一連の処理により、「コピーしてステープルして下さい」というユーザーの指示に対し、操作パネル４０にコピーの操作画面のうちステープルの操作画面が表示される。

図１８は、指示キーワードに対応する遷移先の画面候補が１つではない場合の音声操作システム１の一連の処理を説明するためのシーケンス図である。

ユーザーが「カラーに設定して下さい」と発すると（Ｔ１８０５）、スマートスピーカー４００は音声を音声データに変換し（Ｔ１８１０）、その音声データをサーバー５００へ送信する（Ｔ１８１５）。

サーバー５００は、スマートスピーカー４００から送られてきた音声データをテキスト化し（Ｔ１８２０）、「カラー」という指示キーワードを抽出する（Ｔ１８２５）。サーバー５００は、テーブルＡを参照して、「１２１２５」という画面ＩＤを指定した画面遷移コマンド、および、「１５１２５」という画面ＩＤを指定した画面遷移コマンドを生成する（Ｔ１８３０）。これは、ユーザーが意図している設定が、「カラーコピー」と「カラースキャン」とのいずれであるのかが不明であるためである。サーバー５００は、「１２１２５」という画面ＩＤを指定した画面遷移コマンドと「１５１２５」という画面ＩＤを指定した画面遷移コマンドとを画像形成装置１００に送信する（Ｔ１８３５）。

画像形成装置１００は、サーバー５００から送られてきたコマンドを受信し、コマンドが示す処理内容を特定し（Ｔ１８４０）、特定した処理内容に従って処理を実行する（Ｔ１８４５）。すなわち、画像形成装置１００は、画面ＩＤが「１２１２５」の画面と画面ＩＤが「１５１２５」の画面とを操作パネル４０に表示する。すなわち、画像形成装置１００は、カラーコピーの操作画面と、カラースキャンの操作画面とを操作パネル４０に表示する。

サーバー５００は、画像形成装置１００に対して画面遷移コマンドを送信する一方で、スマートスピーカー４００に対しては、音声データを送信する。具体的には、サーバー５００は、「操作パネル４０に候補の画面を表示したので画面を選択して設定して下さい」という内容のテキストデータを生成する（Ｔ１８５０）。サーバー５００は、そのテキストデータに対応する音声データを生成し（Ｔ１８５５）、スマートスピーカー４００に送信する（Ｔ１８６０）。

スマートスピーカー４００は、サーバー５００から送られてきた音声データを音声化し（Ｔ１８６５）、出力する（Ｔ１８７０）。

ユーザーが操作パネル４０に表示されている候補画面の中から所望の画面を選択した場合には、画像形成装置１００は、選択された画面の画面ＩＤと、画像形成装置１００にログイン中のユーザーＩＤとを対応付けて、サーバー５００に送信する（Ｔ１８７５）。

サーバー５００は、Ｔ１８２５で抽出した指示キーワードと、画像形成装置１００から送られてきた画像形成装置１００にログイン中のユーザーＩＤと、画像形成装置１００から送られてきた画面ＩＤとを対応付けて、ハードディスク５３０内のテーブルＺに格納する（Ｔ１８８０）。

音声操作システム１による上記一連の処理により、「カラーに設定して下さい」というユーザーの指示に対し、操作パネル４０に候補の画面が表示される。これにより、ユーザーは、候補の画面の中から所望の画面を選択して設定することができる。また、次回、同一ユーザーが同一の指示キーワードを発した場合に、音声操作システム１は、操作パネル４０に表示させる操作画面を特定することができる。

図１９は、指示キーワードがテーブルＡとテーブルＢとのいずれにも含まれていない場合の音声操作システム１の一連の処理を説明するためのシーケンス図である。

ユーザーが「２ページを１ページに集約してコピーして下さい」と発すると（Ｔ１９０５）、スマートスピーカー４００は音声を音声データに変換し（Ｔ１９１０）、その音声データをサーバー５００へ送信する（Ｔ１９１５）。

サーバー５００は、スマートスピーカー４００から送られてきた音声データをテキスト化し（Ｔ１９２０）、「コピー集約」という指示キーワードを抽出する（Ｔ１９２５）。「コピー集約」という指示キーワードはテーブルＡとテーブルＢとのいずれにも含まれていないため、サーバー５００は、コマンドを生成することなく、「操作パネル４０上で設定して下さい」という内容のテキストデータを生成する（Ｔ１９３０）。サーバー５００は、そのテキストデータに対応する音声データを生成し（Ｔ１９３５）、スマートスピーカー４００に送信する（Ｔ１９４０）。

スマートスピーカー４００は、サーバー５００から送られてきた音声データを音声化し（Ｔ１９４５）、出力する（Ｔ１９５０）。

ユーザーが操作パネル４０上で設定操作を行った場合には、画像形成装置１００は、ユーザーが操作した操作画面の画面ＩＤと、画像形成装置１００にログイン中のユーザーＩＤとを対応付けて、サーバー５００に送信する（Ｔ１９５５）。

サーバー５００は、Ｔ１９２５で抽出した指示キーワードと、画像形成装置１００から送られてきた画像形成装置１００にログイン中のユーザーＩＤと、画像形成装置１００から送られてきた画面ＩＤとを対応付けて、ハードディスク５３０内のテーブルＺに格納する（Ｔ１９６０）。

音声操作システム１による上記一連の処理により、「２ページを１ページに集約してコピーして下さい」というユーザーの指示に対しては、ユーザーに操作パネル４０上での設定を促す音声が出力される。また、ユーザーが操作した操作画面の画面ＩＤと、ユーザーＩＤと、指示キーワードとが対応付けられてテーブルＺに保存されるので、次回、同一ユーザーが同一の指示キーワードを発した場合に、音声操作システム１は、操作パネル４０に表示させる操作画面を特定することができる。

このように、実施の形態１では、音声操作システム１は、使用頻度の高い処理についてのみ音声による実行を可能とする実行コマンドを備え、それ以外の処理については画面遷移コマンドを備えるにすぎない。これにより、開発する実行コマンドの数を抑えることができるので、開発工数を抑えることができる。

また、ユーザーが音声で指示した内容が実行コマンドの用意されていない処理に対する実行指示であった場合には、音声操作システム１は、ユーザーの指示に関連する画面を操作パネル４０に表示する。具体的には、指示キーワードに対応する画面が１つである場合には、音声操作システム１は、その画面を操作パネル４０に表示する。指示キーワードに対応する画面の候補が複数である場合には、音声操作システム１は、候補の画面を操作パネル４０に表示し、ユーザーに所望の画面を選択させる。指示キーワードが複数ある場合には、音声操作システム１は、各々の指示キーワードに対応する画面に共通する上位画面を操作パネル４０に表示する。これにより、ユーザーが音声で指示した内容が実行コマンドの用意されていない処理に対する実行指示であった場合であっても、ユーザーの操作性が損なわれずにすむ。

また、ユーザーが音声で指示した内容が実行コマンドも画面遷移コマンドも用意されていない処理に対する実行指示であった場合、または、遷移先の画面候補が複数であり、ユーザーに所望の画面を選択させた場合には、音声操作システム１は、指示キーワードと、画像形成装置１００にログイン中のユーザーＩＤと、画面ＩＤとを対応付けて、ハードディスク５３０内のテーブルＺに格納する。これにより、次回、同一ユーザーが同一の指示キーワードを発した場合に、音声操作システム１は、操作パネル４０に表示させる操作画面を特定することができる。

なお、音声操作システム１は、サーバー５００で行われる処理の全てまたは一部をクラウドサービスとして提供するようなものであってもよい。

ＣＰＵ４１１によって実行されるプログラムは、上記したようにＲＯＭ４１３に格納されている代わりに、スマートスピーカー４００が備えるハードディスクに格納されていてもよいし、スマートスピーカー４００に対して着脱可能な記憶媒体に格納されていてもよい。当該プログラムが格納される記憶媒体は、たとえば、ＣＤ－ＲＯＭ（Compact Disk Read Only Memory）、ＤＶＤ－ＲＯＭ（Digital Versatile Disc Read Only Memory）、ＵＳＢ（Universal Serial Bus）メモリー、メモリーカード、ＦＤ（Floppy Disk）、ハードディスク、ＳＳＤ（Solid State Drive）、磁気テープ、カセットテープ、ＭＯ（Magneto Optical Disc）、ＭＤ（Mini Disc）、ＩＣ（Integrated Circuit）カード（メモリーカードを除く）、光カード、マスクＲＯＭ（Read Only Memory）、ＥＰＲＯＭ（Erasable Programmable Read Only Memory）、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）などの、不揮発的にデータを格納する媒体が挙げられる。

ＣＰＵ５１１によって実行されるプログラムは、上記したようにＲＯＭ５１３に格納されている代わりに、ハードディスク５３０に格納されていてもよいし、サーバー５００に対して着脱可能な記憶媒体に格納されていてもよい。当該プログラムが格納される記憶媒体は、たとえば、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリー、メモリーカード、ＦＤ、ハードディスク、ＳＳＤ、磁気テープ、カセットテープ、ＭＯ、ＭＤ、ＩＣカード（メモリーカードを除く）、光カード、マスクＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭなどの、不揮発的にデータを格納する媒体が挙げられる。

ＣＰＵ７１によって実行されるプログラムは、上記したようにＲＯＭ７３に格納されている代わりに、ハードディスク８０に格納されていてもよいし、画像形成装置１００に対して着脱可能な記憶媒体に格納されていてもよい。当該プログラムが格納される記憶媒体は、たとえば、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリー、メモリーカード、ＦＤ、ハードディスク、ＳＳＤ、磁気テープ、カセットテープ、ＭＯ、ＭＤ、ＩＣカード（メモリーカードを除く）、光カード、マスクＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭなどの、不揮発的にデータを格納する媒体が挙げられる。

［実施の形態２］
次に、実施の形態２について説明する。実施の形態１では、抽出した指示キーワードがテーブルＢに含まれる場合には、音声操作システム１は、指示キーワードに対応する実行コマンドを生成した。これに対し、実施の形態２では、抽出した指示キーワードがテーブルＢに含まれる場合であっても、ユーザーが音声で指示した処理が特定の処理であった場合には、音声操作システムは、実行コマンドを生成せずに画面遷移コマンドを生成する。以下、実施の形態１と異なる点についてのみ説明し、実施の形態１と同様の構成については同じ符号を付して、その説明は繰り返さない。

特定の処理とは、実行指示そのものが誤っている可能性が高い処理のことである。例えば、特定の処理は、深い階層の操作画面上で実行を指示される処理、実行回数が所定回数以下の処理、中止回数が所定回数以上の処理等である。深い階層の操作画面上で実行を指示される処理はユーザーの使用頻度が低い傾向にあるため、実行指示そのものが誤っている可能性が考えられる。また、実行回数が所定回数以下の項目や、中止回数が所定回数以上の項目もユーザーの使用頻度が低い傾向にあるため、実行指示そのものが誤っている可能性が考えられる。そこで、ユーザーが音声で指示した処理が特定の処理である場合には、実施の形態２における音声操作システム１は、実行コマンドではなく画面遷移コマンドを生成し、処理の実行までは行わずに、画面遷移に留める。

図２０および図２１を参照して、特定の処理が深い階層の操作画面上で実行を指示される処理である場合について説明する。

図２０は、実施の形態２におけるテーブルＢ１のデータ構造を示す図である。テーブルＢ１は、ハードディスク５３０に格納され、コマンド生成部５１０３で行われる処理において参照される。テーブルＢ１には、指示キーワードと実行コマンドと画面階層とが対応付けられている。画面階層とは、指示キーワードに対応する処理の実行を指示するための操作画面の階層である。「画面階層」の欄の数値が大きい程、画面の階層が深くなる。階層の深い画面に表示される項目は、使用頻度が低くなる傾向にある。

図２１は、実施の形態２におけるコマンド生成処理を示すフローチャートである。図２１に示す処理は、ＣＰＵ５１１がＲＯＭ５１３に格納されている所定のプログラムを実行することにより実現される。

まず、制御部５１０は、ステップＳ８３０で抽出した指示キーワードがテーブルＢ１に含まれるか否かを判定する（ステップＳ２１１０Ａ）。ステップＳ８３０で抽出した指示キーワードがテーブルＢ１に含まれる場合には（ステップＳ２１１０ＡにおいてＹＥＳ）、制御部５１０は、ステップＳ２１１５Ａに移行する。一方、ステップＳ８３０で抽出した指示キーワードがテーブルＢ１に含まれない場合には（ステップＳ２１１０ＡにおいてＮＯ）、制御部５１０は、ステップＳ２１３０に移行する。

ステップＳ２１１５Ａにおいて、制御部５１０は、指示キーワードに対応する処理の実行を指示するための操作画面の階層の深さが所定階層以上の深さであるか否かを判定する。指示キーワードに対応する処理の実行を指示するための操作画面の階層の深さが所定階層以上の深さである場合には、（ステップＳ２１１５ＡにおいてＹＥＳ）、制御部５１０は、ステップＳ２１４０に移行する。一方、指示キーワードに対応する処理の実行を指示するための操作画面の階層の深さが所定階層未満の深さである場合には、（ステップＳ２１１５ＡにおいてＮＯ）、制御部５１０は、ステップＳ２１２０に移行する。

ステップＳ２１２０において、制御部５１０は、テーブルＢ１を参照して、指示キーワードに対応する実行コマンドを生成する。

ステップＳ２１３０において、制御部５１０は、ステップＳ８３０で抽出した指示キーワードがテーブルＡに含まれるか否かを判定する。ステップＳ８３０で抽出した指示キーワードがテーブルＡに含まれる場合には（ステップＳ２１３０においてＹＥＳ）、制御部５１０は、ステップＳ２１４０に移行する。一方、ステップＳ８３０で抽出した指示キーワードがテーブルＡに含まれない場合には（ステップＳ２１３０においてＮＯ）、制御部５１０は、図２１に示す一連の処理を終了する。

ステップＳ２１４０において、制御部５１０は、ステップＳ８３０で抽出した指示キーワードがテーブルＡに含まれる複数の指示キーワードに共通して含まれるか否かを判定する。例えば、ステップＳ８３０で抽出した指示キーワードが「カラー」である場合には、「カラー」が「カラーコピー」および「カラースキャン」に含まれているので、制御部５１０は、ステップＳ８３０で抽出した指示キーワードがテーブルＡに含まれる複数の指示キーワードに共通して含まれると判定する。ステップＳ８３０で抽出した指示キーワードがテーブルＡに含まれる複数の指示キーワードに共通して含まれる場合には（ステップＳ２１４０においてＹＥＳ）、制御部５１０は、ステップＳ２１４５に移行する。一方、ステップＳ８３０で抽出した指示キーワードがテーブルＡに含まれる複数の指示キーワードに共通して含まれていない場合には（ステップＳ２１４０においてＮＯ）、制御部５１０は、ステップＳ２１５０に移行する。

ステップＳ２１４５において、制御部５１０は、テーブルＡに含まれる指示キーワードのうちステップＳ８３０で抽出した指示キーワードを共通して含む複数の指示キーワードの各々に対応付けられている画面ＩＤを指定した画面遷移コマンドを生成する。例えば、指示キーワードが「カラー」である場合には、制御部５１０は、「１２１２５」という画面ＩＤを指定した画面遷移コマンド、および、「１５１２５」という画面ＩＤを指定した画面遷移コマンドを生成する。なお、ステップＳ２１４５において、制御部５１０は、テーブルＺを参照し、ステップＳ８３０で抽出した指示キーワードにユーザーがこれまでに操作した操作画面の画面ＩＤが対応付けられている場合には、その画面ＩＤを指定した画面遷移コマンドのみを生成してもよい。

ステップＳ２１５０において、制御部５１０は、テーブルＡに含まれるステップＳ８３０で抽出した指示キーワードが１つであるか否かを判定する。テーブルＡに含まれるステップＳ８３０で抽出した指示キーワードが１つである場合には（ステップＳ２１５０においてＹＥＳ）、制御部５１０は、ステップＳ２１５５に移行する。一方、テーブルＡに含まれるステップＳ８３０で抽出した指示キーワードが１つではない場合には（ステップＳ２１５０においてＮＯ）、制御部５１０は、ステップＳ２１６０に移行する。

ステップＳ２１５５において、制御部５１０は、テーブルＡにおいてステップＳ８３０で抽出した指示キーワードに対応付けられている画面ＩＤを指定した画面遷移コマンドを生成する。例えば、指示キーワードが「コピーステープル」である場合には、制御部５１０は、「１２１２８」という画面ＩＤを指定した画面遷移コマンドを生成する。

ステップＳ２１６０において、制御部５１０は、テーブルＡにおいてステップＳ８３０で抽出した指示キーワードの各々に対応付けられている上位画面の画面ＩＤのうち共通する画面ＩＤを指定した画面遷移コマンドを生成する。共通する画面ＩＤが複数ある場合には、制御部５１０は、複数の共通する画面ＩＤのうち最下層の画面ＩＤを指定した画面遷移コマンドを生成する。例えば、指示キーワードが「カラーコピー」および「コピーステープル」である場合には、制御部５１０は、「１２１００」という画面ＩＤを指定した画面遷移コマンドを生成する。

制御部５１０は、ステップＳ２１２０、ステップＳ２１４５、ステップＳ２１５５、またはステップＳ２１６０の後、ステップＳ２１７０に移行する。ステップＳ２１７０において、制御部５１０は、実行コマンドまたは画面遷移コマンドを通信インターフェース５２０を介して画像形成装置１００に送信する。制御部５１０は、ステップＳ２１７０の後、図２１に示す一連の処理を終了する。

図２２および図２３を参照して、特定の処理が実行回数が所定回数以下の処理である場合について説明する。

図２２は、実施の形態２におけるテーブルＢ２のデータ構造を示す図である。テーブルＢ２は、ハードディスク５３０に格納され、コマンド生成部５１０３で行われる処理において参照される。テーブルＢ２には、指示キーワードと実行コマンドと実行回数とが対応付けられている。実行回数とは、指示キーワードに対応する処理が実行された回数である。

図２３は、実施の形態２におけるコマンド生成処理を示すフローチャートである。図２３に示す処理は、ＣＰＵ５１１がＲＯＭ５１３に格納されている所定のプログラムを実行することにより実現される。図２３に示す処理は、図２１に示す処理とステップＳ２１１０ＢおよびステップＳ２１１５Ｂにおいて異なっている。

ステップＳ２１１０Ｂにおいて、制御部５１０は、ステップＳ８３０で抽出した指示キーワードがテーブルＢ２に含まれるか否かを判定する。ステップＳ８３０で抽出した指示キーワードがテーブルＢ２に含まれる場合には（ステップＳ２１１０ＢにおいてＹＥＳ）、制御部５１０は、ステップＳ２１１５Ｂに移行する。一方、ステップＳ８３０で抽出した指示キーワードがテーブルＢ２に含まれない場合には（ステップＳ２１１０ＢにおいてＮＯ）、制御部５１０は、ステップＳ２１３０に移行する。

ステップＳ２１１５Ｂにおいて、制御部５１０は、指示キーワードに対応する処理の実行回数が所定回数以下であるか否かを判定する。指示キーワードに対応する処理の実行回数が所定回数以下である場合には、（ステップＳ２１１５ＢにおいてＹＥＳ）、制御部５１０は、ステップＳ２１４０に移行する。一方、指示キーワードに対応する処理の実行回数が所定回数より多い場合には、（ステップＳ２１１５ＢにおいてＮＯ）、制御部５１０は、ステップＳ２１２０に移行する。

図２３に示す処理のうちステップＳ２１１０ＢおよびステップＳ２１１５Ｂを除く処理は、図２１に示す処理と同様であることから、説明を繰り返さない。なお、ステップＳ２１２０は、「制御部５１０は、テーブルＢ２を参照して、指示キーワードに対応する実行コマンドを生成する。」と読み替えるものとする。

図２４および図２５を参照して、特定の処理が中止回数が所定回数以上の処理である場合について説明する。

図２４は、実施の形態２におけるテーブルＢ３のデータ構造を示す図である。テーブルＢ３は、ハードディスク５３０に格納され、コマンド生成部５１０３で行われる処理において参照される。テーブルＢ３には、指示キーワードと実行コマンドと中止回数とが対応付けられている。中止回数とは、指示キーワードに対応する処理が中止された回数である。

図２５は、実施の形態２におけるコマンド生成処理を示すフローチャートである。図２５に示す処理は、ＣＰＵ５１１がＲＯＭ５１３に格納されている所定のプログラムを実行することにより実現される。図２５に示す処理は、図２１に示す処理とステップＳ２１１０ＣおよびステップＳ２１１５Ｃにおいて異なっている。

ステップＳ２１１０Ｃにおいて、制御部５１０は、ステップＳ８３０で抽出した指示キーワードがテーブルＢ３に含まれるか否かを判定する。ステップＳ８３０で抽出した指示キーワードがテーブルＢ３に含まれる場合には（ステップＳ２１１０ＣにおいてＹＥＳ）、制御部５１０は、ステップＳ２１１５Ｃに移行する。一方、ステップＳ８３０で抽出した指示キーワードがテーブルＢ３に含まれない場合には（ステップＳ２１１０ＣにおいてＮＯ）、制御部５１０は、ステップＳ２１３０に移行する。

ステップＳ２１１５Ｃにおいて、制御部５１０は、指示キーワードに対応する処理の中止回数が所定回数以上であるか否かを判定する。指示キーワードに対応する処理の中止回数が所定回数以上である場合には、（ステップＳ２１１５ＣにおいてＹＥＳ）、制御部５１０は、ステップＳ２１４０に移行する。一方、指示キーワードに対応する処理の中止回数が所定回数未満である場合には、（ステップＳ２１１５ＣにおいてＮＯ）、制御部５１０は、ステップＳ２１２０に移行する。

図２５に示す処理のうちステップＳ２１１０ＣおよびステップＳ２１１５Ｃを除く処理は、図２１に示す処理と同様であることから、説明を繰り返さない。なお、ステップＳ２１２０は、「制御部５１０は、テーブルＢ３を参照して、指示キーワードに対応する実行コマンドを生成する。」と読み替えるものとする。

このように、実施の形態２では、実行指示そのものが誤っている可能性が高い処理についての実行指示を受け付けた場合には、音声操作システム１は実行コマンドではなく画面遷移コマンドを生成する。これにより、画面遷移に留められ、処理が実行されないので、誤った処理が実行されることを避けることができる。

［実施の形態３］
次に、実施の形態３について説明する。実施の形態１では、音声操作システム１は、指示キーワードと操作画面の画面ＩＤとを対応付けているテーブルＡ、および、指示キーワードと実行コマンドとを対応付けているテーブルＢを１種類しか備えていなかった。これに対し、実施の形態３では、音声操作システムは、指示キーワードと操作画面の画面ＩＤとを対応付けているテーブル、および、指示キーワードと実行コマンドとを対応付けているテーブルを、画像形成装置の機種や画像形成装置に搭載されているアプリケーションのバージョン別に備えている。以下、実施の形態１と異なる点についてのみ説明し、実施の形態１と同様の構成については同じ符号を付して、その説明は繰り返さない。

図２６および図２７を参照して、音声操作システム１が、指示キーワードと操作画面の画面ＩＤとを対応付けているテーブルＡ、および、指示キーワードと実行コマンドとを対応付けているテーブルＢを、画像形成装置１００の機種別に備えている場合について説明する。

図２６は、実施の形態３におけるテーブルＣのデータ構造を示す図である。テーブルＣは、ハードディスク５３０に格納され、コマンド生成部５１０３で行われる処理において参照される。

テーブルＣには、画像形成装置１００の設置場所と、画像形成装置１００の機種名と、テーブルＡの名称と、テーブルＢの名称とが対応付けられている。「設置場所」の欄には、画像形成装置１００の設置場所が記載されている。「機種名」の欄には、画像形成装置１００の機種名が記載されている。「テーブルＡ」の欄には、指示キーワードと操作画面の画面ＩＤとを対応付けているテーブルのうち画像形成装置１００の機種名に対応したテーブルの名称が記載されている。「テーブルＢ」の欄には、指示キーワードと実行コマンドとを対応付けているテーブルのうち画像形成装置１００の機種名に対応したテーブルの名称が記載されている。テーブルＡａ、テーブルＡｂ、テーブルＡｃは、テーブルＡと同様のデータ構造を有する。テーブルＢａ、テーブルＢｂ、テーブルＢｃは、テーブルＢと同様のデータ構造を有する。

ユーザーが画像形成装置１００の設置場所または画像形成装置１００の機種名を指定した上でスマートスピーカー４００に向けて画像形成装置１００に対する指示を発すると、制御部５１０は、テーブルＣを参照して、指定された設置場所または機種名に対応するテーブルＡおよびテーブルＢを選択する。制御部５１０は、選択したテーブルを参照して、コマンドを生成する。なお、ユーザーが画像形成装置１００の設置場所または画像形成装置１００の機種名を指定する方法には、音声で指定する方法や操作パネル４０上で指定する方法がある。

図２７は、実施の形態３におけるコマンド生成処理を示すフローチャートである。図２７に示す処理は、ＣＰＵ５１１がＲＯＭ５１３に格納されている所定のプログラムを実行することにより実現される。

まず、制御部５１０は、テーブルＣを参照して、コマンド生成処理に用いるテーブルＡおよびテーブルＢを選択する（ステップＳ２７０５Ａ）。

次いで、制御部５１０は、ステップＳ８３０で抽出した指示キーワードがステップＳ２７０５Ａで選択したテーブルＢに含まれるか否かを判定する（ステップＳ２７１０）。ステップＳ８３０で抽出した指示キーワードがステップＳ２７０５Ａで選択したテーブルＢに含まれる場合には（ステップＳ２７１０においてＹＥＳ）、制御部５１０は、ステップＳ２７２０に移行する。一方、ステップＳ８３０で抽出した指示キーワードがステップＳ２７０５Ａで選択したテーブルＢに含まれない場合には（ステップＳ２７１０においてＮＯ）、制御部５１０は、ステップＳ２７３０に移行する。

ステップＳ２７２０において、制御部５１０は、ステップＳ２７０５Ａで選択したテーブルＢを参照して、指示キーワードに対応する実行コマンドを生成する。

ステップＳ２７３０において、制御部５１０は、ステップＳ８３０で抽出した指示キーワードがステップＳ２７０５Ａで選択したテーブルＡに含まれるか否かを判定する。ステップＳ８３０で抽出した指示キーワードがステップＳ２７０５Ａで選択したテーブルＡに含まれる場合には（ステップＳ２７３０においてＹＥＳ）、制御部５１０は、ステップＳ２７４０に移行する。ステップＳ８３０で抽出した指示キーワードがステップＳ２７０５Ａで選択したテーブルＡに含まれない場合には（ステップＳ２７３０においてＮＯ）、制御部５１０は、図２７に示す一連の処理を終了する。

ステップＳ２７４０において、制御部５１０は、ステップＳ８３０で抽出した指示キーワードがステップＳ２７０５Ａで選択したテーブルＡに含まれる複数の指示キーワードに共通して含まれるか否かを判定する。例えば、ステップＳ８３０で抽出した指示キーワードが「カラー」である場合には、「カラー」が「カラーコピー」および「カラースキャン」に含まれているので、制御部５１０は、ステップＳ８３０で抽出した指示キーワードがテーブルＡに含まれる複数の指示キーワードに共通して含まれると判定する。ステップＳ８３０で抽出した指示キーワードがステップＳ２７０５Ａで選択したテーブルＡに含まれる複数の指示キーワードに共通して含まれる場合には（ステップＳ２７４０においてＹＥＳ）、制御部５１０は、ステップＳ２７４５に移行する。一方、ステップＳ８３０で抽出した指示キーワードがステップＳ２７０５Ａで選択したテーブルＡに含まれる複数の指示キーワードに共通して含まれていない場合には（ステップＳ２７４０においてＮＯ）、制御部５１０は、ステップＳ２７５０に移行する。

ステップＳ２７４５において、制御部５１０は、ステップＳ２７０５Ａで選択したテーブルＡに含まれる指示キーワードのうちステップＳ８３０で抽出した指示キーワードを共通して含む複数の指示キーワードの各々に対応付けられている画面ＩＤを指定した画面遷移コマンドを生成する。例えば、指示キーワードが「カラー」である場合には、制御部５１０は、「１２１２５」という画面ＩＤを指定した画面遷移コマンド、および、「１５１２５」という画面ＩＤを指定した画面遷移コマンドを生成する。なお、ステップＳ２７４５において、制御部５１０は、テーブルＺを参照し、ステップＳ８３０で抽出した指示キーワードにユーザーがこれまでに操作した操作画面の画面ＩＤが対応付けられている場合には、その画面ＩＤを指定した画面遷移コマンドのみを生成してもよい。

ステップＳ２７５０において、制御部５１０は、ステップＳ２７０５Ａで選択したテーブルＡに含まれるステップＳ８３０で抽出した指示キーワードが１つであるか否かを判定する。ステップＳ２７０５Ａで選択したテーブルＡに含まれるステップＳ８３０で抽出した指示キーワードが１つである場合には（ステップＳ２７５０においてＹＥＳ）、制御部５１０は、ステップＳ２７５５に移行する。一方、ステップＳ２７０５Ａで選択したテーブルＡに含まれるステップＳ８３０で抽出した指示キーワードが１つではない場合には（ステップＳ２７５０においてＮＯ）、制御部５１０は、ステップＳ２７６０に移行する。

ステップＳ２７５５において、制御部５１０は、ステップＳ２７０５Ａで選択したテーブルＡにおいてステップＳ８３０で抽出した指示キーワードに対応付けられている画面ＩＤを指定した画面遷移コマンドを生成する。例えば、指示キーワードが「コピーステープル」である場合には、制御部５１０は、「１２１２８」という画面ＩＤを指定した画面遷移コマンドを生成する。

ステップＳ２７６０において、制御部５１０は、ステップＳ２７０５Ａで選択したテーブルＡにおいてステップＳ８３０で抽出した指示キーワードの各々に対応付けられている上位画面の画面ＩＤのうち共通する画面ＩＤを指定した画面遷移コマンドを生成する。共通する画面ＩＤが複数ある場合には、制御部５１０は、複数の共通する画面ＩＤのうち最下層の画面ＩＤを指定した画面遷移コマンドを生成する。例えば、指示キーワードが「カラーコピー」および「コピーステープル」である場合には、制御部５１０は、「１２１００」という画面ＩＤを指定した画面遷移コマンドを生成する。

制御部５１０は、ステップＳ２７２０、ステップＳ２７４５、ステップＳ２７５５、またはステップＳ２７６０の後、ステップＳ２７７０に移行する。ステップＳ２７７０において、制御部５１０は、実行コマンドまたは画面遷移コマンドを通信インターフェース５２０を介して画像形成装置１００に送信する。制御部５１０は、ステップＳ２７７０の後、図２７に示す一連の処理を終了する。

図２８および図２９を参照して、音声操作システム１が、指示キーワードと操作画面の画面ＩＤとを対応付けているテーブルＡ、および、指示キーワードと実行コマンドとを対応付けているテーブルＢを、画像形成装置１００に搭載されているアプリケーションのバージョン別に備えている場合について説明する。

図２８は、実施の形態３におけるテーブルＤのデータ構造を示す図である。テーブルＤは、ハードディスク５３０に格納され、コマンド生成部５１０３で行われる処理において参照される。

テーブルＤには、画像形成装置１００の設置場所と、画像形成装置１００に搭載されているアプリケーションのバージョンと、テーブルＡの名称と、テーブルＢの名称とが対応付けられている。「設置場所」の欄には、画像形成装置１００の設置場所が記載されている。「バージョン」の欄には、画像形成装置１００に搭載されているアプリケーションのバージョンが記載されている。「テーブルＡ」の欄には、指示キーワードと操作画面の画面ＩＤとを対応付けているテーブルのうち画像形成装置１００に搭載されているアプリケーションのバージョンに対応したテーブルの名称が記載されている。「テーブルＢ」の欄には、指示キーワードと実行コマンドとを対応付けているテーブルのうち画像形成装置１００に搭載されているアプリケーションのバージョンに対応したテーブルの名称が記載されている。テーブルＡ５１、テーブルＡ６２、テーブルＡ７１は、テーブルＡと同様のデータ構造を有する。テーブルＢ５１、テーブルＢ６２、テーブルＢ７１は、テーブルＢと同様のデータ構造を有する。

ユーザーが画像形成装置１００の設置場所または画像形成装置１００に搭載されているアプリケーションのバージョンを指定した上でスマートスピーカー４００に向けて画像形成装置１００に対する指示を発すると、制御部５１０は、テーブルＤを参照して、指定された設置場所または画像形成装置１００に搭載されているアプリケーションのバージョンに対応するテーブルＡおよびテーブルＢを選択する。制御部５１０は、選択したテーブルを参照して、コマンドを生成する。なお、ユーザーが画像形成装置１００の設置場所または画像形成装置１００に搭載されているアプリケーションのバージョンを指定する方法には、音声で指定する方法や操作パネル４０上で指定する方法がある。

図２９は、実施の形態３におけるコマンド生成処理を示すフローチャートである。図２９に示す処理は、ＣＰＵ５１１がＲＯＭ５１３に格納されている所定のプログラムを実行することにより実現される。図２９に示す処理は、図２７に示す処理とステップＳ２７０５Ｂにおいて異なっている。ステップＳ２７０５Ｂにおいて、制御部５１０は、テーブルＤを参照して、コマンド生成処理に用いるテーブルＡおよびテーブルＢを選択する。

図２９に示す処理のうちステップＳ２７０５Ｂを除く処理は、図２７に示す処理と同様であることから、説明を繰り返さない。なお、ステップＳ２７１０は、「制御部５１０は、ステップＳ８３０で抽出した指示キーワードがステップＳ２７０５Ｂで選択したテーブルＢに含まれるか否かを判定する」と読み替える。ステップＳ２７２０は、「制御部５１０は、ステップＳ２７０５Ｂで選択したテーブルＢを参照して、指示キーワードに対応する実行コマンドを生成する。」と読み替える。ステップＳ２７３０は、「制御部５１０は、ステップＳ８３０で抽出した指示キーワードがステップＳ２７０５Ｂで選択したテーブルＡに含まれるか否かを判定する。」と読み替える。ステップＳ２７４０は、「制御部５１０は、ステップＳ８３０で抽出した指示キーワードがステップＳ２７０５Ｂで選択したテーブルＡに含まれる複数の指示キーワードに共通して含まれるか否かを判定する。」と読み替える。ステップＳ２７４５は、「制御部５１０は、ステップＳ２７０５Ｂで選択したテーブルＡに含まれる指示キーワードのうちステップＳ８３０で抽出した指示キーワードを共通して含む複数の指示キーワードの各々に対応付けられている画面ＩＤを指定した画面遷移コマンドを生成する。」と読み替える。ステップＳ２７５０は、「制御部５１０は、ステップＳ２７０５Ｂで選択したテーブルＡに含まれるステップＳ８３０で抽出した指示キーワードが１つであるか否かを判定する。」と読み替える。ステップＳ２７５５は、「制御部５１０は、ステップＳ２７０５Ｂで選択したテーブルＡにおいてステップＳ８３０で抽出した指示キーワードに対応付けられている画面ＩＤを指定した画面遷移コマンドを生成する。」と読み替える。ステップＳ２７６０は、「制御部５１０は、ステップＳ２７０５Ｂで選択したテーブルＡにおいてステップＳ８３０で抽出した指示キーワードの各々に対応付けられている上位画面の画面ＩＤのうち共通する画面ＩＤを指定した画面遷移コマンドを生成する。」と読み替える。

このように、実施の形態３では、音声操作システム１は、画像形成装置１００の機種または画像形成装置１００に搭載されているアプリケーションのバージョンに合わせて、指示キーワードに対応するコマンドを生成することができる。一般的に、古い機種の画像形成装置１００や古いバージョンのアプリケーションが搭載されている画像形成装置１００では音声操作に対応していなかった指示キーワードが、新しい機種の画像形成装置１００や新しいバージョンのアプリケーションが搭載されている画像形成装置１００では音声操作に対応しているということがありうる。実施の形態３では、画像形成装置１００の機種または画像形成装置１００に搭載されているアプリケーションのバージョンに合わせてコマンド生成処理が行われるので、ユーザーの操作性がより向上する。

なお、音声操作システム１は、画像形成装置１００の機種および画像形成装置１００に搭載されているアプリケーションのバージョンに合わせて、コマンドを生成してもよい。

［実施の形態４］
次に、実施の形態４について説明する。実施の形態１では、音声操作システム１は、スマートスピーカー４００、サーバー５００、および画像形成装置１００を備えていた。これに対し、実施の形態４では、画像形成装置単体で音声操作に対応することができる。以下、実施の形態１と異なる点についてのみ説明し、実施の形態１と同様の構成については同じ符号を付して、その説明は繰り返さない。

図３０は、実施の形態４における画像形成装置１００Ａのハードウェア構成を示すブロック図である。画像形成装置１００Ａは、スキャナー１０、プリンター２０、給紙部３０、操作パネル４０、ファクシミリ５０、通信インターフェース６０、マイク６３、スピーカー６５、制御部７０Ａ、およびハードディスク８０を備える。スキャナー１０、プリンター２０、給紙部３０、操作パネル４０、ファクシミリ５０、通信インターフェース６０、マイク６３、スピーカー６５、制御部７０Ａ、およびハードディスク８０は、バス９０を介して接続されている。

マイク６３は、画像形成装置１００Ａに対する操作指示を音声で受け付ける。スピーカー６５は、制御部７０Ａが生成した音声データを音声化して出力する。制御部７０Ａは、ＣＰＵ７１Ａ、ＲＡＭ７２Ａ、およびＲＯＭ７３Ａを備える。ＣＰＵ７１Ａは、ＲＯＭ７３Ａ等に保存されている動作プログラムを実行することにより、画像形成装置１００Ａ全体を総括的に制御する。ＲＯＭ７３Ａは、ＣＰＵ７１Ａが実行するプログラムやその他のデータを記憶する。ＲＡＭ７２Ａは、ＣＰＵ７１Ａがプログラムを実行する際の作業領域となるものであり、プログラムやプログラムを実行する際のデータ等を一時的に記憶する。

図３１は、実施の形態４における画像形成装置１００Ａの機能的構成を示す図である。音声受付部７０１Ａ、音声認識部７０２Ａ、抽出部７０３Ａ、コマンド生成部７０４Ａ、実行部７０５Ａ、テキストデータ生成部７０６Ａ、音声出力部７０７Ａ、および登録部７０８Ａは、ＣＰＵ７１ＡがＲＯＭ７３Ａに格納されている所定のプログラムを実行することにより実現される。

音声受付部７０１Ａは、マイク６３を介して画像形成装置１００Ａに対する操作指示を音声で受け付ける。音声受付部７０１Ａは、受け付けた音声を音声データに変換する。

音声認識部７０２Ａは、音声受付部７０１Ａから音声データを受け取り、音声データに対応するテキストデータを生成する。また、音声認識部７０２Ａは、テキストデータ生成部７０６Ａで生成されたテキストデータを音声データに変換する。なお、音声認識部７０２Ａは、同様の機能を提供するクラウドサービスで代用されてもよい。

抽出部７０３Ａは、音声認識部７０２Ａで生成されたテキストデータの中から指示キーワードを抽出する。

コマンド生成部７０４Ａは、ハードディスク８０内のテーブルを参照して、抽出部７０３Ａで抽出された指示キーワードに対応するコマンドを生成する。コマンド生成部７０４Ａにおける処理は、実施の形態１で説明したコマンド生成処理と同様の処理である。実施の形態４では、指示キーワードと操作画面の画面ＩＤとを対応付けているテーブルＡ、および、指示キーワードと実行コマンドとを対応付けているテーブルＢは、ハードディスク８０に格納されている。なお、実施の形態４においては、コマンド生成処理のステップＳ９７０は「制御部７０Ａは、実行コマンドまたは画面遷移コマンドを実行部７０５Ａに送信する。」と読み替えるものとする。

実行部７０５Ａは、実行コマンドまたは画面遷移コマンドに基づいて処理を実行する。

テキストデータ生成部７０６Ａは、コマンド生成部７０４Ａで画面遷移コマンドが生成された場合、または、コマンド生成部７０４Ａでいずれのコマンドも生成されなかった場合に、スピーカー６５に出力させる音声のテキストデータを生成する。テキストデータ生成部７０６Ａおよび音声認識部７０２Ａで行われる、スピーカー６５に音声出力させる処理は、実施の形態１で説明した音声出力を指示する処理と同様の処理である。なお、実施の形態４においては、音声出力を指示する処理のステップＳ１０８０は、「制御部７０Ａは、音声データを音声出力部７０７Ａへ送信する」と読み替えるものとする。

音声出力部７０７Ａは、音声認識部７０２Ａから受け取った音声データを音声化してスピーカー６５を介して出力する。

登録部７０８Ａは、指示キーワードと、ユーザーが操作した操作画面の画面ＩＤと、画像形成装置１００Ａにログイン中のユーザーＩＤとを対応付けて、ハードディスク８０内のテーブルＺに保存する。テーブルＺは、ユーザー毎に設けられており、ユーザーごとの傾向（例えば、過去の設定操作）を記録したものである。登録部７０８Ａは、画像形成装置１００Ａにログイン中のユーザーのテーブルＺを選択し、そのテーブルＺに指示キーワードと操作画面の画面ＩＤとを対応付けて保存する。テーブルＺに保存された情報は、次回、同一ユーザーが同一の指示キーワードを発した場合に、操作パネル４０に表示させる操作画面を特定する場合に参照される。

このように、実施の形態４では、画像形成装置１００Ａ単体で音声操作に対応することができる。また、画像形成装置１００Ａは、使用頻度の高い処理についてのみ音声による実行を可能とする実行コマンドを備え、それ以外の処理については画面遷移コマンドを備えるにすぎない。これにより、開発する実行コマンドの数を抑えることができるので、開発工数を抑えることができる。

また、ユーザーが音声で指示した内容が実行コマンドの用意されていない処理に対する実行指示であった場合には、画像形成装置１００Ａは、ユーザーの指示に関連する画面を操作パネル４０に表示する。具体的には、指示キーワードに対応する画面が１つである場合には、画像形成装置１００Ａは、その画面を操作パネル４０に表示する。指示キーワードに対応する画面の候補が複数である場合には、画像形成装置１００Ａは、候補の画面を操作パネル４０に表示し、ユーザーに所望の画面を選択させる。指示キーワードが複数ある場合には、画像形成装置１００Ａは、各々の指示キーワードに対応する画面に共通する上位画面を操作パネル４０に表示する。これにより、ユーザーが音声で指示した内容が実行コマンドの用意されていない処理に対する実行指示であった場合であっても、ユーザーの操作性が損なわれずにすむ。

また、ユーザーが音声で指示した内容が実行コマンドも画面遷移コマンドも用意されていない処理に対する実行指示であった場合、または、遷移先の画面候補が複数あり、ユーザーに所望の画面を選択させた場合には、画像形成装置１００Ａは、指示キーワードと、画像形成装置１００Ａにログイン中のユーザーＩＤと、画面ＩＤとを対応付けて、ハードディスク８０内のテーブルＺに格納する。これにより、次回、同一ユーザーが同一の指示キーワードを発した場合に、画像形成装置１００Ａは、操作パネル４０に表示させる操作画面を特定することができる。

ＣＰＵ７１Ａによって実行されるプログラムは、上記したようにＲＯＭ７３Ａに格納されている代わりに、ハードディスク８０に格納されていてもよいし、画像形成装置１００Ａに対して着脱可能な記憶媒体に格納されていてもよい。当該プログラムが格納される記憶媒体は、たとえば、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリー、メモリーカード、ＦＤ、ハードディスク、ＳＳＤ、磁気テープ、カセットテープ、ＭＯ、ＭＤ、ＩＣカード（メモリーカードを除く）、光カード、マスクＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭなどの、不揮発的にデータを格納する媒体が挙げられる。

以上、各実施の形態について説明した。実施の形態１～実施の形態３は、任意に組み合わせてもよい。また、実施の形態２～実施の形態４も、任意に組み合わせてもよい。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

４０操作パネル、７０，７０Ａ，４１０，５１０制御部、６３，４２０マイク、６５，４３０スピーカー、８０，５３０ハードディスク。

Claims

処理装置と、前記処理装置と通信可能な制御装置とを備える音声操作システムであって、
前記処理装置は、
前記処理装置で実行される処理を指示するための操作画面を表示し、ユーザーによる指示を受け付ける操作パネルと、
前記制御装置から受信したコマンドに対応する処理を実行する実行部とを有し、
前記制御装置は、
入力された音声に基づいて前記処理装置に対する前記コマンドを生成するコマンド生成部と、
前記コマンドを前記処理装置へ送信する送信部とを有し、
前記コマンド生成部は、
前記音声が前記処理装置に第１処理の実行を指示する音声である場合に、前記第１処理の実行を指示するための前記操作画面を前記操作パネルに表示することを指示する第１コマンドを生成し、
前記音声が前記処理装置に第２処理の実行を指示する音声である場合に、前記第２処理の実行を指示する第２コマンドを生成し、
前記制御装置は、
指示キーワードと前記指示キーワードに対応する前記操作画面の識別番号とを対応付けた第１データと、複数の前記指示キーワードのうち特定の指示キーワードと前記特定の指示キーワードに対応する処理の実行を指示する前記第２コマンドとを対応付けた第２データとを記憶する記憶部をさらに有し、
前記コマンド生成部は、
前記音声に含まれる前記指示キーワードが前記第２データに含まれないが前記第１データに含まれる場合に、前記第１データを参照して前記第１コマンドを生成し、
前記音声に含まれる前記指示キーワードが前記第２データに含まれる場合に、前記第２データを参照して前記第２コマンドを生成する、音声操作システム。
前記制御装置は、前記音声に含まれる前記指示キーワードが前記第１データと前記第２データとのいずれにも含まれない場合に、前記処理装置が実行すべき処理を前記操作パネル上でユーザーに指示させる、請求項１に記載の音声操作システム。
前記制御装置は、前記処理装置の実行すべき処理が前記操作パネル上で指示された場合に、前記音声に含まれる前記指示キーワードと、ユーザーが操作した前記操作画面の識別番号と、ユーザー情報とを対応付けて記憶する、請求項２に記載の音声操作システム。
前記第１データでは、前記指示キーワードに、前記指示キーワードに対応する前記操作画面の上位の階層に位置する上位画面の情報がさらに対応付けられており、
前記コマンド生成部は、前記音声に複数の指示キーワードが含まれる場合に、前記複数の指示キーワードに共通する前記上位画面を前記操作パネルに表示することを指示する前記第１コマンドを生成する、請求項１～請求項３のいずれか１項に記載の音声操作システム。
前記制御装置は、前記音声に含まれる前記指示キーワードに対応する前記操作画面の候補が複数ある場合に、ユーザーに前記操作パネル上で前記操作画面の候補の中から一の操作画面を選択させる、請求項１～請求項４のいずれか１項に記載の音声操作システム。
前記制御装置は、前記一の操作画面が前記操作パネル上で選択された場合に、前記音声に含まれる前記指示キーワードと、前記一の操作画面の識別番号と、ユーザー情報とを対応付けて記憶する、請求項５に記載の音声操作システム。
前記コマンド生成部は、前記音声に含まれる前記指示キーワードが前記第２データに含まれる場合であっても、前記指示キーワードに対応する処理が特定の処理である場合には、前記第１データを参照して前記第１コマンドを生成する、請求項１～請求項６のいずれか１項に記載の音声操作システム。
前記第２データでは、前記指示キーワードに、前記指示キーワードに対応する前記操作画面の階層情報がさらに対応付けられており、
前記特定の処理は、前記特定の処理の実行を指示するための前記操作画面の階層の深さが所定階層以上の深さの処理である、請求項７に記載の音声操作システム。
前記第２データでは、前記指示キーワードに、前記指示キーワードに対応する処理の実行回数がさらに対応付けられており、
前記特定の処理は、前記実行回数が所定回数以下の処理である、請求項７に記載の音声操作システム。
前記第２データでは、前記指示キーワードに、前記指示キーワードに対応する処理の中止回数がさらに対応付けられており、
前記特定の処理は、前記中止回数が所定回数以上の処理である、請求項７に記載の音声操作システム。
前記記憶部は、前記処理装置の機種別に前記第１データおよび前記第２データを記憶し、
前記コマンド生成部は、
前記音声に含まれる前記指示キーワードが前記処理装置の機種に応じた前記第２データに含まれないが前記処理装置の機種に応じた前記第１データに含まれる場合に、前記処理装置の機種に応じた前記第１データを参照して前記第１コマンドを生成し、
前記音声に含まれる前記指示キーワードが前記処理装置の機種に応じた前記第２データに含まれる場合に、前記処理装置の機種に応じた前記第２データを参照して前記第２コマンドを生成する、請求項１～請求項１０のいずれか１項に記載の音声操作システム。
前記記憶部は、前記処理装置に搭載されているアプリケーションのバージョン別に前記第１データおよび前記第２データを記憶し、
前記コマンド生成部は、
前記音声に含まれる前記指示キーワードが前記アプリケーションのバージョンに応じた前記第２データに含まれないが前記アプリケーションのバージョンに応じた前記第１データに含まれる場合に、前記アプリケーションのバージョンに応じた前記第１データを参照して前記第１コマンドを生成し、
前記音声に含まれる前記指示キーワードが前記アプリケーションのバージョンに応じた前記第２データに含まれる場合に、前記アプリケーションのバージョンに応じた前記第２データを参照して前記第２コマンドを生成する、請求項１～請求項１１のいずれか１項に記載の音声操作システム。
処理装置と通信可能な制御装置であって、
前記制御装置は、
入力された音声に基づいて前記処理装置に対するコマンドを生成するコマンド生成部と、
前記コマンドを前記処理装置へ送信する送信部とを有し、
前記コマンド生成部は、
前記音声が前記処理装置に第１処理の実行を指示する音声である場合に、前記第１処理の実行を指示するための操作画面を前記処理装置の操作パネルに表示することを指示する第１コマンドを生成し、
前記音声が前記処理装置に第２処理の実行を指示する音声である場合に、前記第２処理の実行を指示する第２コマンドを生成し、
前記制御装置は、
指示キーワードと前記指示キーワードに対応する前記操作画面の識別番号とを対応付けた第１データと、複数の前記指示キーワードのうち特定の指示キーワードと前記特定の指示キーワードに対応する処理の実行を指示する前記第２コマンドとを対応付けた第２データとを記憶する記憶部をさらに有し、
前記コマンド生成部は、
前記音声に含まれる前記指示キーワードが前記第２データに含まれないが前記第１データに含まれる場合に、前記第１データを参照して前記第１コマンドを生成し、
前記音声に含まれる前記指示キーワードが前記第２データに含まれる場合に、前記第２データを参照して前記第２コマンドを生成する、制御装置。
処理装置と通信可能なコンピューターにおいて実行される制御プログラムであって、
前記コンピューターに、
入力された音声に基づいて前記処理装置に対するコマンドを生成するステップと、
前記コマンドを前記処理装置へ送信するステップとを実行させ、
前記コマンドを生成するステップは、
前記音声が前記処理装置に第１処理の実行を指示する音声である場合に、前記第１処理の実行を指示するための操作画面を前記処理装置の操作パネルに表示することを指示する第１コマンドを生成し、
前記音声が前記処理装置に第２処理の実行を指示する音声である場合に、前記第２処理の実行を指示する第２コマンドを生成するステップとを含み、
前記制御プログラムは、前記コンピューターに、
指示キーワードと前記指示キーワードに対応する前記操作画面の識別番号とを対応付けた第１データと、複数の前記指示キーワードのうち特定の指示キーワードと前記特定の指示キーワードに対応する処理の実行を指示する前記第２コマンドとを対応付けた第２データとを記憶するステップをさらに実行させ、
前記コマンドを生成するステップは、
前記音声に含まれる前記指示キーワードが前記第２データに含まれないが前記第１データに含まれる場合に、前記第１データを参照して前記第１コマンドを生成し、
前記音声に含まれる前記指示キーワードが前記第２データに含まれる場合に、前記第２データを参照して前記第２コマンドを生成することを含む、制御プログラム。