JP7353806B2

JP7353806B2 - 情報処理システム、情報処理装置、情報処理方法

Info

Publication number: JP7353806B2
Application number: JP2019106916A
Authority: JP
Inventors: 佑治名屋; 徹高橋; 武士松村
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-06-07
Filing date: 2019-06-07
Publication date: 2023-10-02
Anticipated expiration: 2039-06-07
Also published as: JP2020201627A

Description

本発明は、音声による操作が可能な情報処理システムに関する。情報処理システムが備える情報処理装置は、例えば、プリンタ、スキャナ、ファクシミリおよびこれらの機能を複数備える複合機の他、パーソナルコンピュータやモバイル端末として利用することができる。

昨今、音声認識技術の発展により、音声指示に応じた処理を実行する装置が普及している。特許文献１には、ユーザの声による印刷指示で印刷処理を実行するシステムが開示されている。

特開２０１９－６７２５８号公報

特許文献１では、印刷装置に対する印刷指示等の主要な指示を音声で行う方法を例示しているが、設定変更等の詳細な指示を音声で行う方法までは検討していない。また、こうした装置の設定項目の種類は多岐にわたり、その種類に応じて様々な画面構成・指示方法が存在する。したがって、より操作性に優れたシステムを提供するためには、設定画面の構成に応じた音声指示方法を検討することが望ましい。

本発明の目的は、設定画面の構成に応じた音声指示を行うことが可能な情報処理システムを提供することである。特に、スライダー状の操作オブジェクトを備える設定画面を操作するための音声指示が可能な情報処理システムを提供することを目的とする。

本発明は、情報処理システムにおいて、音を取得するマイクロフォンと、情報を表示するディスプレイと、複数のスライダー状の操作オブジェクトを備える画面をディスプレイに表示させる手段と前記マイクロフォンを介して取得された音声情報に基づき第１の情報と、第２の情報とを含むテキスト情報を取得する手段と、前記第１の情報に基づいて前記複数の操作オブジェクトから注目操作オブジェクトを特定し、前記注目操作オブジェクトが示す現在の指示位置に係る情報および前記第２の情報に少なくとも基づき指示位置が更新された注目操作オブジェクトを含む複数の操作オブジェクトを備える画面を前記ディスプレイに表示させる手段と、を有することを特徴とするものである。

本発明によれば、設定画面の構成に応じた音声指示を行うことが可能な情報処理システムを提供できる。特に、スライダー状の操作オブジェクトを備える設定画面を操作するための音声指示が可能な情報処理システムを提供できる。

システム構成図である。操作パネルの構成図である。音声制御装置のハード構成を説明する概念図である。サーバのハード構成を説明する概念図である。画像形成装置のハード構成を説明する概念図である。音声制御装置の制御プログラムの機能構成を説明する概念図である。図７（ａ）はサーバの制御プログラムの機能構成を説明する概念図である。図７（ｂ）はグループＩＤ判定部７０７がグループＩＤの判定に使うグループＩＤリストの例を示す図である。画像形成装置の制御プログラムの機能構成を説明する概念図である。システムを構成する装置間、および、各装置の制御プログラム間のシーケンスを説明するシーケンス図である。画像形成装置のデバイス制御プログラムの処理フローを説明する図である。制御プログラムが管理および利用するグループＩＤリストの一例を示す図である。図１２（ａ）は制御プログラムが表示する画面である。図１２（ｂ）は管理および利用する画面制御情報である。図１２（ｃ）は音声操作判定情報の一例を示す図である。画像形成装置の音声操作判定部の処理フローを説明する図である。図１４－１（ａ）は音声操作判定処理を説明する画面のスライダーが一つの例を示す図である。図１４－１（ｂ）は画面の構成情報を示す図である。音声操作判定処理を説明する画面のスライダーが一つの例を示す図である。画像形成装置の音声操作判定部のスライダーが複数ある場合の処理フローを説明する図である。音声操作判定処理を説明する画面のスライダーが複数ある例を示す図である。音声操作判定処理を説明する画面のスライダーが複数ある例を示す図である。システムとユーザ間のインタラクションのスライダーが一つの例を説明する図である。システムとユーザ間のインタラクションのスライダーが複数ある場合の例を説明する図である。画像形成装置における項目一覧を示す図である。画像形成装置における項目一覧を示す図である。画像形成装置における項目一覧を示す図である。図２２（ａ）～（ｆ）はスライダー移動の一例を示す図である。図２３（ａ）～（ｄ）はスライダー移動の一例を示す図である。スライダー状の操作オブジェクトを説明する図である。

以下、本発明を実施するための形態について実施例を挙げ、図面を用いて具体的に説明する。ただし、実施例で挙げる構成要素はあくまで例示であり、本発明の範囲を限定する趣旨のものではない。

（実施例１）
本実施例では、情報処理システムに用いられる情報処理装置の一例として画像形成装置を挙げ、画像形成装置のコピー機能に係る設定画面を音声操作する方法を説明する。特に、スライダーのようなオブジェクトを用いて設定値の変更を行う設定画面を音声操作する方法を説明する。

＜システムの構成＞
図１は、本実施例のシステム構成の一例を示す図である。図１に示すように、本実施例のシステムは、例えば、音声制御装置１００、画像形成装置１０１、サーバ１０２、クライアント端末１０３、ゲートウェイ１０５で構成される。

音声制御装置１００、画像形成装置１０１、クライアント端末１０３は、ゲートウェイ１０５およびネットワーク１０４を介して互いに通信可能である。なお、音声制御装置１００、画像形成装置１０１、クライアント端末１０３のそれぞれは、単一接続ではなく複数接続された構成であっても良い。また、音声制御装置１００、画像形成装置１０１、クライアント端末１０３は、ゲートウェイ１０５およびインターネットを介してサーバ１０２に通信可能である。

音声制御装置１００（音声入力デバイス）は、ユーザ１０６の音声操作開始指示に従い、ユーザ１０６の音声を取得してサーバ１０２へ符号化された音声データを送信する。音声制御装置１００は、例えば、スマートスピーカなどである。なお、本実施例では音声制御装置１００と画像形成装置１０１が独立した構成となっているが、この構成に限定するものではない。音声制御装置１００を構成するハードウェア（図３を用いて後述する各ハードブロック）、及び、ソフトウェア機能（図６を用いて後述する各ソフトブロック）の少なくとも一方が画像形成装置１０１の中に含まれていてもよい。

画像形成装置１０１（情報処理装置、画像処理装置）は、コピー機能、スキャン機能、プリント機能、ＦＡＸ機能等の複数の機能を備える複合機である。画像形成装置１０１は、単体の機能を備えるプリンタやスキャナであってもよい。なお、操作パネル５０９は図２及び図５で後述する。以下では、画像形成装置１０１をカラーレーザービーム複合機として説明する。

サーバ１０２（情報処理装置）は、音声制御装置１００で取得されたユーザ１０６の音声データの音声認識、及び、音声認識結果から画像形成装置１０１の設定操作・ジョブ実行に関わるワードを判定するための役割を有する。また、画像形成装置１０１は、音声認識結果またはワードの判定結果に応じてテキストを生成し、そのテキストの内容を音声制御装置１００で音声再生するための音声データの合成を行う。なお、ジョブとは、画像形成装置１０１がプリントエンジン５１３及びスキャナ５１５を用いて実現する一連の画像形成処理（例えばコピー、スキャン、プリントなど）の単位を示す。

クライアント端末１０３は、例えば、ユーザ１０６が使うパーソナル・コンピュータ（ＰＣ）である。クライアント端末１０３は、電子ファイルを画像形成装置１０１でプリントするためのプリントジョブを発行する。電子ファイルは、クライアント端末１０３に保存されていてもよいし、インターネット上の何処かのサーバ上（不図示）、あるいは、画像形成装置１０１の外部記憶装置５０５上などに保存されていてもよい。また、クライアント端末１０３は、画像形成装置１０１でスキャンされた画像データの受信を行うこともできる。クライアント端末１０３の動作は本実施例の主旨と直接的に関係しないため、これ以上の詳細な説明は割愛する。

ネットワーク１０４は、音声制御装置１００、画像形成装置１０１、クライアント端末１０３、ゲートウェイ１０５を互いに接続する。ネットワーク１０４は、音声制御装置１００で取得してサーバ１０２へ送信する音声データ、サーバ１０２から送信される各データ、及び、プリントジョブやスキャンジョブなどの各種データを送受信する。

ゲートウェイ１０５は、例えば、ＩＥＥＥ８０２．１１規格シリーズに準拠した無線ＬＡＮルータなどである。ゲートウェイ１０５、他の無線通信方式に従って動作する能力を有してもよい。また、無線ＬＡＮルータではなく、１０ＢＡＳＥ－Ｔ、１００ＢＡＳＥ－Ｔ、１０００ＢＡＳＥ－Ｔなどに代表されるＥｔｈｅｒｎｅｔ規格に準拠した有線ＬＡＮルータなどであってもよく、他の有線通信方式に従って動作する能力を有してもよい。なお、前記ＩＥＥＥ８０２．１１規格シリーズとは、ＩＥＥＥ８０２．１１ａやＩＥＥＥ８０２．１１ｂ等のように、ＩＥＥＥ８０２．１１に属する一連の規格を含む。

＜画像形成装置の操作パネル＞
図２は、画像形成装置１０１の操作パネル５０９の構成例を示す図である。

操作パネル５０９はＬＥＤ（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）やＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）ディスプレイを備え、ユーザ１０６の操作内容や装置の内部状態を表示する表示部である。また操作パネル５０９はユーザ１０６から操作を受け付ける受付部である。操作パネル５０９は、複数のハードキーを備えるだけでなく、ＬＣＤディスプレイと一体となったタッチパネル２００を備える。

ＬＣＤタッチパネル２００は、タッチ操作が可能なディスプレイであり、主なモード設定、状況表示はここで行われる。

ハードキー２０１～２１０は情報を入力する入力部であり、例えば、タクトスイッチが用いられる。

テンキー２０１は、０から９までの数値を入力するためのキーである。ＩＤキー２０２はＩＤキーであり、装置がユーザ／部門認証管理されている場合において、認証操作（ログイン／ログアウトの操作など）を行う際に使用されるものである。

リセットキー２０３は設定されたモードをリセットするためのキーである。ガイドキー２０４は各モードについての説明画面を表示するためのキーである。ユーザーモードキー２０５はユーザーモード画面に入るためのキーである。キー２０６は割り込みコピーを行うためのキーである。

スタートキー２０７はコピー動作をスタートさせるためのキーである。ストップキー２０８は実行中のコピージョブを中止させるためのキーである。

電源スイッチ２０９はソフトスイッチであり、押下することによりＬＣＤタッチパネル２００のバックライトが消え、装置は低電力状態に落ちる。節電キー２１０はキーであり、これを押下することで節電状態に入り、再度押下することで節電状態から復帰する。

調整キー２１４はＬＣＤタッチパネル２００のコントラストを調整するためのキーである。

カウンタ確認キー２１５はキーであり、このキーを押下することでそれまでに仕様したコピー枚数の集計を表示するカウント画面がＬＣＤタッチパネル２００上に表示される。

ＬＥＤ２１６はジョブの実行中、画像メモリへの画像蓄積中を示すＬＥＤである。ＬＥＤ２１７がジャム、ドアオープン等装置がエラー状態にあることを示すエラーＬＥＤである。ＬＥＤ２１８は装置のメインスイッチがＯＮになっていることを示す電源ＬＥＤである。

＜音声制御装置のハードウェア構成＞
図３は、音声制御装置１００のコントローラ部３００及び音声制御装置１００が内蔵しているデバイスのハードウェア構成例を示す図である。

図３に示すように、コントローラ部３００は、ＣＰＵ３０２、ＲＡＭ３０３、ＲＯＭ３０４、外部記憶装置３０５、ネットワークＩ／Ｆ３０６、マイクＩ／Ｆ３０７、オーディオコントローラ３０９、および表示コントローラ３１１を含む。これらの構成はシステムバス３０１に接続されており、互いに通信可能である。また、音声制御装置１００は、コントローラ部３００に付随するデバイスとして、マイクロフォン３０８、スピーカ３１０、ＬＥＤ３１２を含む。

ＣＰＵ３０２はコントローラ部３００全体の動作を制御する中央演算装置である。ＲＡＭ３０３は揮発性メモリである。ＲＯＭ３０４は不揮発性メモリであり、ＣＰＵ３０２の起動用プログラムが格納されている。外部記憶装置３０５はＲＡＭ３０３と比較して大容量な記憶デバイス（例えばＳＤカード）である。外部記憶装置３０５にはコントローラ部３００によって実行される、音声制御装置１００の制御用プログラムが格納されている。なお、外部記憶装置３０５はＳＤカード以外のフラッシュＲＯＭなどに置き換えてもよく、ＳＤカードと同等の機能を有する他の記憶デバイスに置き換えてもよい。

ＣＰＵ３０２は電源ＯＮ等の起動時、ＲＯＭ３０４に格納されている起動用プログラムを実行する。この起動用プログラムは、外部記憶装置３０５に格納されている制御用プログラムを読み出し、ＲＡＭ３０３上に展開するためのものである。ＣＰＵ３０２は起動用プログラムを実行すると、続けてＲＡＭ３０３上に展開した制御用プログラムを実行し、制御を行う。また、ＣＰＵ３０２は制御用プログラム実行時に用いるデータもＲＡＭ３０３上に格納して読み書きを行う。外部記憶装置３０５上には制御用プログラム実行時に必要な各種設定などを格納することができる。各種設定はＣＰＵ３０２によって読み書きされる。ＣＰＵ３０２はネットワークＩ／Ｆ３０６を介してネットワーク１０４上の他の機器との通信を行う。

ネットワークＩ／Ｆ３０６は、ＩＥＥＥ８０２．１１規格シリーズに準拠した無線通信方式に従って通信を行うための回路やアンテナを含んで構成される。ただし、無線通信方式でなくＥｔｈｅｒｎｅｔ規格に準拠した有線通信方式であってもよく、無線通信方式に限定するものではない。

マイクＩ／Ｆ３０７はマイクロフォン３０８に接続され、マイクロフォン３０８から入力されたユーザ１０６が発した音声を、符号化された音声データ（音声情報）に変換し、ＣＰＵ３０２の指示に応じてＲＡＭ３０３に保持する。

マイクロフォン３０８は、例えば、スマートフォンなどに搭載される小型のＭＥＭＳマイクロフォンであるが、ユーザ１０６の音声を取得できるものであれば他のデバイスに置き換えてもよい。また、マイクロフォン３０８は、ユーザ１０６が発した音声の到来方向を算出できるように、３個以上を所定の位置に配して用いることが好ましい。ただし、マイクロフォン３０８が１個であっても本実施例は実現でき、３個以上にこだわるものではない。

オーディオコントローラ３０９はスピーカ３１０に接続され、ＣＰＵ３０２の指示に応じて音声データをアナログ音声信号に変換し、スピーカ３１０を通じて音声を出力する。

スピーカ３１０は、音声制御装置１００が応答していることを表す装置の応答音、及び、サーバ１０２によって合成された音声合成を再生（報知）する。スピーカ３１０は音声を再生するための汎用のデバイスであり、その仕組みは本実施例の主旨ではないため、これ以上の説明は割愛する。

表示コントローラ３１１はＬＥＤ３１２に接続され、ＣＰＵ３０２の指示に応じてＬＥＤ３１２の表示を制御する。ここでは、表示コントローラ３１１は、音声制御装置１００がユーザ１０６の音声を正しく入力していることを示すためのＬＥＤの点灯制御を主に行う。

ＬＥＤ３１２は、例えば、ユーザ１０６が可視可能な青色などのＬＥＤである。ＬＥＤ３１２は汎用のデバイスであり、本実施例の主旨ではないため、これ以上の説明は割愛する。なお、ＬＥＤ３１２の代わりに、文字や絵を表示可能なディスプレイ装置に置き換えてもよい。

＜サーバのハードウェア構成＞
図４は、サーバ１０２のコントローラ部のハードウェア構成例を示す図である。

図４に示すように、コントローラ部は、システムバス４０１に接続されたＣＰＵ４０２、ＲＡＭ４０３、ＲＯＭ４０４、外部記憶装置４０５、ネットワークＩ／Ｆ４０６を含む。

ＣＰＵ４０２はコントローラ部全体の動作を制御する中央演算装置である。ＲＡＭ４０３は揮発性メモリである。ＲＯＭ４０４は不揮発性メモリであり、ＣＰＵ４０２の起動用プログラムが格納されている。外部記憶装置４０５はＲＡＭ４０３と比較して大容量な記憶装置（例えばハードディスクドライブ：ＨＤＤ）である。外部記憶装置４０５にはコントローラ部が実行する、サーバ１０２の制御用プログラムが格納されている。なお、外部記憶装置４０５は、ハードディスクドライブと同等の機能を有する他の記憶装置に置き換えてもよく、例えばソリッドステートドライブ（ＳＳＤ）などを用いてもよい。

ＣＰＵ４０２は電源ＯＮ等の起動時、ＲＯＭ４０４に格納されている起動用プログラムを実行する。この起動用プログラムは、外部記憶装置４０５に格納されている制御用プログラムを読み出し、ＲＡＭ４０３上に展開するためのものである。ＣＰＵ５０２は起動用プログラムを実行すると、続けてＲＡＭ４０３上に展開した制御用プログラムを実行し、制御を行う。また、ＣＰＵ４０２は制御用プログラム実行時に用いるデータもＲＡＭ４０３上に格納して読み書きを行う。外部記憶装置４０５上にはさらに、制御用プログラム実行時に必要な各種設定を格納することができる。各種設定は、ＣＰＵ４０２によって読み書きされる。ＣＰＵ４０２はネットワークＩ／Ｆ４０６を介してネットワーク１０４上の他の機器との通信を行う。

＜画像形成装置のハードウェア構成＞
図５は、画像形成装置１０１のコントローラ部５００及び画像形成装置１０１が内蔵しているデバイスのハードウェア構成例を示す図である。

図５に示すように、コントローラ部５００は、ＣＰＵ５０２、ＲＡＭ５０３、ＲＯＭ５０４、外部記憶装置５０５、ネットワークＩ／Ｆ５０６、ディスプレイコントローラ５０７、操作Ｉ／Ｆ５０８、プリントコントローラ５１２、およびスキャンコントローラ５１４を含む。これらの構成は、システムバス５０１に接続され、互いに通信可能である。

ＣＰＵ５０２はコントローラ部５００の全体の動作を制御する中央演算装置である。ＲＡＭ５０３は揮発性メモリである。ＲＯＭ５０４は不揮発性メモリであり、ＣＰＵ５０２の起動用プログラムが格納されている。外部記憶装置５０５はＲＡＭ５０３と比較して大容量な記憶装置（例えばハードディスクドライブ：ＨＤＤ）である。外部記憶装置５０５にはＣＰＵ５０２によって実行される、画像形成装置１０１の制御用プログラムが格納されている。なお、外部記憶装置５０５はソリッドステートドライブ（ＳＳＤ）などでもよく、ハードディスクドライブと同等の機能を有する他の記憶装置に置き換えてもよい。

ＣＰＵ５０２は電源ＯＮ等の起動時、ＲＯＭ５０４に格納されている起動用プログラムを実行する。この起動用プログラムは、外部記憶装置５０５に格納されている制御用プログラムを読み出し、ＲＡＭ５０３上に展開するためのものである。ＣＰＵ５０２は起動用プログラムを実行すると、続けてＲＡＭ５０３上に展開した制御用プログラムを実行し、制御を行う。また、ＣＰＵ５０２は制御用プログラム実行時に用いるデータもＲＡＭ５０３上に格納して読み書きを行う。外部記憶装置５０５上にはさらに、制御用プログラム実行時に必要な各種設定や、スキャナ５１５で読み取った画像データを格納することができ、ＣＰＵ５０２によって読み書きされる。ＣＰＵ５０２はネットワークＩ／Ｆ５０６を介してネットワーク１０４上の他の機器との通信を行う。

ディスプレイコントローラ５０７はＣＰＵ５０２の指示に応じて、接続される操作パネル５０９のＬＣＤタッチパネル２００の画面表示制御を行う。

操作Ｉ／Ｆ５０８は操作信号の入出力を行う。操作Ｉ／Ｆ５０８は操作パネル５０９に接続され、ＣＰＵ５０２はＬＣＤタッチパネル２００が押下されたときに、操作Ｉ／Ｆ５０８を介してＬＣＤタッチパネル２００の押下された座標を取得する。また、操作Ｉ／Ｆ５０８は操作パネル５０９のハードキー２０１～２１０の押下を検知する。

プリントコントローラ５１２はＣＰＵ５０２からの指示に応じて、接続されるプリントエンジン５１３に対して制御コマンドや画像データを送信する。

プリントエンジン５１３は、プリントコントローラ５１２から受信した制御コマンドに従い、受信した画像データをシートに印刷する。プリントエンジン５１３の詳細な説明は本実施例の主旨ではないため、これ以上の説明は割愛する。

スキャンコントローラ５１４はＣＰＵ５０２からの指示に応じて、接続されるスキャナ５１５に対して制御コマンドを送信し、スキャナ５１５から受信する画像データをＲＡＭ５０３へ書き込む。

スキャナ５１５は、スキャンコントローラ５１４から受信した制御コマンドに従い、画像形成装置１０１が備える原稿台ガラス上（不図示）の原稿を、光学ユニットを用いて読み取る。スキャナ５１５の詳細な説明は本実施例の主旨ではないため、これ以上の説明は割愛する。

＜音声制御装置の音声制御プログラムの機能構成＞
図６は、ＣＰＵ３０２が実行する音声制御装置１００の音声制御プログラム６０１の機能構成を示すブロック図である。

音声制御装置１００の音声制御プログラム６０１は、前述のように外部記憶装置３０５に格納されている。そして、起動時に、ＣＰＵ３０２によってＲＡＭ３０３上に展開され実行される。

データ送受信部６０２は、ネットワークＩ／Ｆ３０６を介して、ネットワーク１０４上の他の機器とＴＣＰ／ＩＰによるデータの送受信を行う。データ送受信部６０２では、後述の音声取得部６０４で取得されたユーザ１０６の発した音声データをサーバ１０２に送信する。また、ユーザ１０６への応答となる、サーバ１０２上で生成される音声合成データ（合成音声）の受信を行う。

データ管理部６０３は、音声制御プログラム６０１の実行において生成した作業データなど様々なデータを外部記憶装置３０５上の所定の領域へ保存し、管理する。例えば、後述する音声再生部６０５で再生する音声の音量設定データや、ゲートウェイ１０５との通信に必要な認証情報、画像形成装置１０１、及び、サーバ１０２と通信するために必要な各デバイス情報などが保存、管理される。

音声取得部６０４は、マイクロフォン３０８で取得される音声制御装置１００の近辺にいるユーザ１０６のアナログ音声を、音声データに変換し、一時保存する。ユーザ１０６の音声は、例えば、ＭＰ３などの所定のフォーマットに変換され、サーバ１０２に送信するための符号化された音声データとしてＲＡＭ３０３上に一時的に保存する。音声取得部６０４の処理開始及びその終了のタイミングは後述する音声制御部６０９によって管理される。また、音声データの符号化は汎用のストリーミング用フォーマットでもよく、符号化された音声データを順次、データ送受信部６０２で送信するようにしてもよい。

音声再生部６０５は、データ送受信部６０２が受信した音声合成データを、オーディオコントローラ３０９を介してスピーカ３１０で再生する。音声再生部６０５の音声再生のタイミングは後述する音声制御部６０９によって管理される。

表示部６０６は表示コントローラ３１１を介して、ＬＥＤ３１２の表示を行う。例えば、後述の音声操作開始検知部６０７で音声操作があることを検知した場合にＬＥＤ３１２を表示する。表示部６０６の表示のタイミングは後述する音声制御部６０９によって管理される。

音声操作開始検知部６０７は、ユーザ１０６の発したウェイクワード、または、音声制御装置１００の操作開始キー（不図示）の押下を検知し、音声制御部６０９へ操作開始通知を送信する。ここで、ウェイクワードとは、予め決められている音声ワードである。音声操作開始検知部６０７は、マイクロフォン３０８で取得される音声制御装置１００の近辺にいるユーザ１０６のアナログ音声から、常時ウェイクワードを検知する。ユーザ１０６はウェイクワードを話し、続いて自身が行いたいことを話すことで画像形成装置１０１の操作を行うことができる。音声操作開始検知部６０７がウェイクワードを検知してからの音声処理については後述する。

発話終了判定部６０８は、音声取得部６０４での処理の終了タイミングを判定する。例えば、ユーザ１０６の音声が所定時間（例えば３秒）途切れたときにユーザ１０６の発話が終了したと判定し、音声制御部６０９へ発話終了通知を送信する。なお、発話終了の判定は、発話が無い時間（以降、空白時間と呼ぶ）ではなく、ユーザ１０６の所定の語句から判定して行ってもよい。例えば、「はい」、「いいえ」、「ＯＫ」、「キャンセル」、「終了」、「スタート」、「開始」など所定の語句のときには、所定時間を待たずに発話終了と判定してもよい。また、発話終了の判定は、音声制御装置１００ではなく、サーバ１０２で行うようにしてもよく、ユーザの１０６の発話内容の意味や文脈から発話の終了を判定するようにしてもよい。

音声制御部６０９は制御の中心であり、音声制御プログラム６０１内の他の各モジュールが相互に連携して動作するよう制御する。具体的には、音声取得部６０４、音声再生部６０５、表示部６０６の処理開始・終了の制御を行う。また、音声取得部６０４で音声データが取得された後、音声データをデータ送受信部６０２でサーバ１０２へ送信するよう制御する。また、サーバ１０２からの音声合成データをデータ送受信部６０２で受信後、音声再生部６０５で音声合成データを再生するよう制御する。

ここで、音声取得部６０４、音声再生部６０５、表示部６０６の処理開始・終了のタイミングについて述べる。

音声制御部６０９は、音声操作開始検知部６０７からの操作開始通知を受信すると、音声取得部６０４の処理を開始する。また、発話終了判定部６０８からの発話終了通知を受信すると、音声取得部６０４の処理を終了する。例えば、ユーザ１０６がウェイクワードを発話し、続いて「コピーしたい」と話したとする。このとき、音声操作開始検知部６０７が、ウェイクワードの音声を検知し、音声制御部６０９に操作開始通知を送信する。音声制御部６０９は、操作開始通知を受信すると、音声取得部６０４の処理を開始するよう制御する。音声取得部６０４は続いて話される「コピーしたい」というアナログ音声を音声データへ変換し一時保存をする。発話終了判定部６０８は、「コピーしたい」の発話後に空白時間が所定時間あったと判定すると、発話終了通知を音声制御部６０９に送信する。音声制御部６０９は、発話終了通知を受信すると、音声取得部６０４の処理を終了する。なお、音声取得部６０４が処理を開始してから終了するまでの状態を発話処理状態と呼ぶこととする。表示部６０６は、発話処理状態であることを示すＬＥＤ３１２を点灯表示する。

ユーザ１０６の発話終了判定後、音声制御部６０９は、音声データをデータ送受信部６０２でサーバ１０２へ送信するよう制御し、サーバ１０２からの応答を待つ。サーバ１０２からの応答は、例えば、応答であることを示すヘッダ部と、音声合成データから成る応答メッセージある。音声制御部６０９は、データ送受信部６０２で応答メッセージを受信すると、音声再生部６０５で音声合成データを再生するよう制御する。音声合成データは、例えば、「コピー画面を表示します」である。なお、発話終了判定後から音声合成データの再生終了までの状態を応答処理状態と呼ぶこととする。表示部６０６は、応答処理状態であることを示すＬＥＤ３１２を点滅表示する。

応答処理の後、サーバ１０２との対話セッションが継続している間は、ユーザ１０６はウェイクワードを発話することなく、続けて自身の行いたいことを発話することができる。対話セッションの終了判定は、サーバ１０２が行い、音声制御装置１００に対話セッション終了通知を送信することで行う。なお、対話セッション終了から次の対話セッションが開始されるまでの状態を待機状態と呼ぶこととする。音声制御装置１００が音声操作開始検知部６０７からの操作開始通知を受信するまでは、常時待機状態であるとする。表示部６０６は、待機状態の間、ＬＥＤ３１２を消灯する。

＜サーバの音声データ変換制御プログラムの機能構成＞
図７（ａ）は、ＣＰＵ４０２が実行するサーバ１０２の音声データ変換制御プログラム７０１の機能構成を示すブロック図である。また、図７（ｂ）は、グループＩＤ判定部７０７がグループＩＤの判定に使うグループＩＤリストの例である。グループＩＤリストは、画像形成装置１０１のユーザ操作に関して同じ意味や意図を持つワードが同じＩＤとしてグルーピングされている。なお、前記ワードは、ユーザ１０６が音声制御装置１００に対して発話する言葉を音声認識した結果である。

サーバ１０２の音声データ変換制御プログラム７０１は前述のように外部記憶装置４０５に格納され、ＣＰＵ４０２が起動時にＲＡＭ４０３上に展開して実行する。

データ送受信部７０２は、ネットワークＩ／Ｆ４０６を介して、ネットワーク１０４上の他の機器とＴＣＰ／ＩＰによるデータの送受信を行う。データ送受信部７０２では、音声制御装置１００からユーザ１０６の音声データを受信する。また、後述するグループＩＤ判定部７０７で判定されたグループＩＤ判定結果の送信を行う。

データ管理部７０３は、音声データ変換制御プログラム７０１の実行において生成した作業データや、音声データ変換部７０４で音声認識処理をするために必要なパラメータなど様々なデータを外部記憶装置４０５上の所定の領域へ保存し、管理する。例えば、音声認識部７０５が、データ送受信部７０２が受信した音声データをテキスト（テキスト情報）へ変換するための音響モデルや言語モデルを外部記憶装置４０５上の所定の領域へ保存し、管理する。また、形態素解析部７０６でテキストの形態素解析を行うための辞書を外部記憶装置４０５上の所定の領域へ保存し、管理する。また、グループＩＤ判定部７０７でグループＩＤを判定するためのグループＩＤリストを外部記憶装置４０５上の所定の領域へ保存し、管理する。また、音声合成部７０８で音声合成を行うための音声データベースを外部記憶装置４０５上の所定の領域へ保存し、管理する。また、データ管理部７０３には、音声制御装置１００、及び、画像形成装置１０１と通信するために必要な各デバイス情報などが保存、管理される。

音声データ変換部７０４は、音声認識部７０５、形態素解析部７０６、グループＩＤ判定部７０７、音声合成部７０８から成る。以降、音声データ変換部７０４について説明する。

音声認識部７０５は、データ送受信部７０２が受信したユーザ１０６の音声データを、テキストに変換するための音声認識処理を行う。音声認識処理は、音響モデルを用いてユーザ１０６の音声データを音素に変換し、さらに言語モデルによるパターンマッチングにより音素を実際のテキストデータに変換する。なお、音響モデルは、ＤＮＮ－ＨＭＭのようにニューラルネットワークによる機械学習手法を用いるモデルであってもよいし、ＧＭＭ－ＨＭＭのように異なる手法を用いたモデルであってもよい。ニューラルネットワークを用いた機械学習では、例えば音声とテキストを対とする教師データに基づいて学習モデルの学習が行われる。言語モデルは、ＲＮＮのようにニューラルネットワークによる機械学習手法のモデルを用いるモデルであってもよいし、Ｎ－ｇｒａｍ手法のように異なる手法を用いるモデルであってもよい。

本実施例では、前記テキストデータは１つ以上のカナから構成されるテキストと、それらを「かな漢字変換」（数字、アルファベット、記号等への変換も含む）したテキストから成るものとする。ただし、音声データをテキストデータへ変換する音声認識処理として他の手法を用いてもよく、前述の手法に限るものではない。音声認識処理の詳細は本実施例の主旨ではないため、これ以上の説明は割愛する。

形態素解析部７０６は、音声認識部７０５で変換されたテキストデータを、形態素解析する。形態素解析は、その言語の文法や、品詞などの情報をもつ辞書から形態素列を導出し、さらに各形態素の品詞などを判別する。形態素解析部７０６は、例えば、ＪＵＭＡＮ、茶筒、ＭｅＣａｂ等の公知の形態素解析ソフトウェアを用いて実現することができる。形態素解析部７０６は、例えば、音声認識部７０５で変換された「コピーをしたい」というテキストデータを、「コピー」、「を」、「し」、「たい」の形態素列として解析する。また、「Ａ３からＡ４へ」というテキストデータを、「Ａ３」、「から」、「Ａ４」、「へ」の形態素列として解析する。

グループＩＤ判定部７０７は、形態素解析部７０６で形態素解析された結果と、図７（ｂ）のグループＩＤリストとをマッチングすることでグループＩＤを判定し、さらにグループＩＤ判定結果を生成する。例えば、「コピー」、「を」、「し」、「たい」の形態素列からは、「コピー」のグループＩＤである「ＦＮＣ００００１」があると判定され、グループＩＤ判定結果として、｛ＩＤ：ＦＮＣ００００１｝を生成する。また、「Ａ３」、「から」、「Ａ４」、「へ」の形態素列からは、「Ａ３」と「Ａ４」のグループＩＤである「ＰＡＰ００１００」と「ＰＡＰ００１０１」が２つあると判定される。そして、グループＩＤ判定結果として、｛ＩＤ：ＰＡＰ００１００、ＩＤ：ＰＡＰ００１０１｝を生成する。

なお、グループＩＤ判定結果にＩＤが複数生成される場合は、音声認識および形態素解析された順に生成されるものとする。例えば、音声認識および形態素解析された結果が「Ａ４」「から」「Ａ３」「へ」である場合は、グループＩＤ判定結果は｛ＩＤ：ＰＡＰ００１０１、ＩＤ：ＰＡＰ００１００｝と生成される。また、隣接する複数の形態素を結合してグループＩＤリストとマッチングして判定してもよいものとする。この時、１つの形態素がグループＩＤリストの中から合致するものが見つかり、さらに、その形態素を含む複数の形態素がグループＩＤリストの中から合致するものが見つかった場合は、後者の結果を用いてグループＩＤ判定結果を生成する。例えば、形態素列が「Ａ」「４」であった場合は、グループＩＤ判定結果を｛ＩＤ：ＣＨＲ０００００、ＩＤ：ＮＵＭ００００４｝ではなく、｛ＩＤ：ＰＡＰ００１０１｝として生成する。また、音声認識および形態素解析結果に含まれる１つ以上のカナから構成されるテキストと、それらを「かな漢字変換」したテキストを組み合わせて、グループＩＤリストのマッチングを行ってもよい。例えば、グループＩＤ判定部７０７は、まず始めに、「かな漢字変換」したテキストとグループＩＤリストの「かな漢字変換後」に示されたテキストとのマッチングを行う。その結果、マッチングするグループＩＤが見つからない場合にはカナのテキストとグループＩＤリストの「カナ」に示されたテキストとがマッチングするグループＩＤを検出する。また、グループＩＤリスト内で「カナ」が重複し、複数のグループＩＤがマッチングする場合は、グループＩＤ判定結果を複数の候補として生成してもよい。これにより、「かな漢字変換」の間違いや漢字のふり仮名の違いを許容したグループＩＤ判定結果を生成する。

音声合成部７０８は、画像形成装置１０１から受信した通知にもとづき、音声合成処理を行う。音声合成処理は、所定の通知に対して、組となる予め用意されたテキストをＭＰ３などの所定のフォーマットの音声データに変換する。受信した通知データと音声合成対象のテキストの組み合わせ例については、後述の図９のシーケンス図で説明する。音声合成処理は、例えば、データ管理部７０３に保存されている音声データベースにもとづいて音声データを生成する。音声データベースとは、例えば、単語等の定型の内容を発声した音声を集めたデータベースである。なお、本実施例では音声データベースを用いて音声合成処理を行っているが、音声合成の手法として他の手法を用いてもよく、音声データベースによる手法に限定するものではない。音声合成処理の詳細は本実施例の主旨ではないため、これ以上の説明は割愛する。

＜画像形成装置のデバイス制御プログラムの機能構成＞
図８は、ＣＰＵ５０２が実行する画像形成装置１０１のデバイス制御プログラム８０１の機能構成を示すブロック図である。

画像形成装置１０１のデバイス制御プログラム８０１は前述のように外部記憶装置５０５に格納され、ＣＰＵ５０２が起動時にＲＡＭ５０３上に展開して実行する。

データ送受信部８０２は、ネットワークＩ／Ｆ５０６を介して、ネットワーク１０４上の他の機器とＴＣＰ／ＩＰによるデータの送受信を行う。データ送受信部８０２では、グループＩＤ判定部７０７が生成するグループＩＤ判定結果の受信を行う。また、画像形成装置１０１からサーバ１０２へ、操作パネル５０９上のＬＣＤタッチパネル２００の画面表示内容が更新されたことを示す画面更新通知、及び、ジョブの状態を示すジョブ実行状態通知を送信する。通知の内容に関しては後述の図９のシーケンス図で説明する。

データ管理部８０３は、デバイス制御プログラム８０１の実行において生成した作業データや、各デバイス制御に必要な設定パラメータなど様々なデータをＲＡＭ５０３および外部記憶装置５０５上の所定の領域へ保存し、管理する。例えば、後述するデバイス制御部８０８で実行するジョブの各設定項目及び設定値の組み合わせから成るジョブデータや、用紙の属性情報などが設定された機械設定情報が、保存、管理される。また、ゲートウェイ１０５との通信に必要な認証情報、サーバ１０２と通信するために必要なデバイス情報などが保存、管理される。また、画像形成装置１０１で画像形成する対象の画像データを保存し、管理する。また、表示部８０６が画面表示制御に用いる画面制御情報と、音声操作判定部８０７が操作を判定するために用いる音声操作判定情報を保存し、画面制御情報と音声操作判定情報は、表示部８０６が表示する画面ごとに管理する。

スキャン部８０４は、後述するデバイス制御部８０８のスキャンジョブパラメータ設定に基づいて、スキャンコントローラ５１４を介してスキャナ５１５でスキャンを実行し、読み取った画像データをデータ管理部８０３に保存する。

プリント部８０５は、後述するデバイス制御部８０８のプリントジョブパラメータ設定に基づいて、プリントコントローラ５１２を介してプリントエンジン５１３で印刷を実行する。

表示部８０６はディスプレイコントローラ５０７を介して、操作パネル５０９の制御を行い、前記の画面表示制御情報に基づいてユーザ操作可能なＵＩ部品（ボタン、プルダウンリスト、チェックボックスなど）をＬＣＤタッチパネル２００に表示する。また、操作Ｉ／Ｆ５０８を介して、ＬＣＤタッチパネル２００（以降、画面等と呼ぶ）上のタッチされた座標を取得し、操作対象のＵＩ部品と操作受付時の処理内容を決定する。また、操作パネル５０９上のハードキー２０１～２１０の押下を検出する。これらの結果に応じて、画面の表示内容を更新したり、ユーザ操作により設定されたジョブのパラメータおよび当該ジョブの開始指示をデバイス制御部に送信したりする。また、後述する音声操作判定部８０７の音声操作判定結果に応じても同様に、画面の表示内容を更新したり、ユーザ操作により設定されたジョブのパラメータおよび当該ジョブの開始指示をデバイス制御部に送信したりする。

音声操作判定部８０７は、データ送受信部８０２が受信したグループＩＤ判定結果に基づいて、操作パネル５０９に表示される画面を構成するユーザ操作可能なＵＩ部品、または、操作パネル５０９を構成するハードキー２０１～２１０を操作対象として判定する。音声操作判定部８０７の詳細は図１１で後述する。

デバイス制御部８０８は、プリントコントローラ５１２、及び、スキャンコントローラ５１４を介して、プリントエンジン５１３、及び、スキャナ５１５の制御指示を行う。例えば、表示部８０６がコピー機能画面を表示中にスタートキー２０７の押下を検知した場合、デバイス制御部８０８は表示部８０６からコピージョブのパラメータとジョブ開始指示を受信する。そのジョブパラメータに基づいて、スキャナ５１５によって読取られた画像データをプリントエンジン５１３でシートに印刷するよう制御する。なお、スキャン、及び、プリント制御の仕組みについては、本実施例の主旨ではないため、これ以上の説明は割愛する。

＜システムの制御シーケンス＞
図９は、図１で示したシステムを構成する各装置、及び、図６～図８で示した各装置の制御プログラム間のやりとりを示すシーケンス図である。特に、図９は、音声制御装置１００がユーザ１０６から発せられた声による音声操作を受け、それによって画像形成装置１０１が各処理を実行し、その実行結果を示す応答をユーザ１０６に音声で返すためのシーケンスを示す。

なお、図９で示すシーケンスの例では、音声制御装置１００、画像形成装置１０１、サーバ１０２は互いに通信可能な状態であるとする。また、画像形成装置１０１は、電源ＯＮの起動後にコピー、スキャン、プリントなどの機能を呼び出し可能なメインメニュー画面を表示している状態であるとする。

まず、ステップ９０５（以降、Ｓ９０５のように表記する）では、ユーザ１０６が音声制御装置１００に対して音声操作の開始を指示する。音声操作の開始の指示は、ユーザ１０６がウェイクワードを発声する、もしくは、音声制御装置１００の操作開始キーの押下することで行われ、それらの音声操作開始指示は音声操作開始検知部６０７によって検知される。

音声操作開始指示が検知されると、次にＳ９０６では、音声制御プログラム６０１の表示部６０６が、発話処理状態を示すＬＥＤを点灯する。また、同時に音声取得部６０４の処理を開始する。

Ｓ９０７では、ユーザ１０６が機能呼び出し指示を音声制御装置１００に対して行う。機能呼び出し指示は、例えば、ユーザ１０６がＳ９０５のウェイクワードに続いて「コピーしたい」や「コピー画面を開いて」と発声することであり、音声取得部６０４によって取得された音声が音声データとして生成される。空白時間が所定時間経過すると、発話終了判定部６０８は発話が終了したと判定する。

Ｓ９０８では、音声制御プログラム６０１の表示部６０６が、発話終了判定に応じて応答処理状態を示すＬＥＤを点滅する。また、同時に音声取得部６０４の処理を終了する。

Ｓ９０７の機能呼び出し指示の音声データが生成されると、次にＳ９０９では、データ送受信部６０２が、生成された音声データをサーバ１０２に送信する。

Ｓ９１０では、音声データ変換制御プログラム７０１のデータ送受信部７０２が受信した音声データに対して、音声認識部７０５が音声認識処理を行う。音声認識処理によって、例えば、ユーザ１０６が発した「コピーしたい」という音声が、テキストとして生成される。

その後、Ｓ９１１では、音声データ変換制御プログラム７０１の形態素解析部７０６がＳ９１０で生成されたテキストに対して形態素解析処理を行う。形態素解析処理によって、例えば、「コピーしたい」というテキストが、「コピー」、「し」、「たい」という形態素列として解析される。

Ｓ９１２では、音声データ変換制御プログラム７０１のグループＩＤ判定部７０７の、解析された形態素列のテキストに対してグループＩＤ判定処理を行う。グループＩＤ判定処理によって、例えば、「コピー」、「し」、「たい」という形態素列と図７（ｂ）のグループＩＤリストとのマッチングにより、グループＩＤ判定結果として｛ＩＤ：ＦＮＣ００００１｝が生成される。

Ｓ９１３では、音声データ変換制御プログラム７０１のデータ送受信部７０２が、Ｓ９１１のグループＩＤ判定結果を画像形成装置１０１に送信する。

Ｓ９１４では、デバイス制御プログラム８０１のデータ送受信部８０２が受信したグループＩＤ判定結果に対して、音声操作判定部８０７が音声操作判定処理を行う。音声操作判定処理によって、例えば、グループＩＤ判定結果｛ＩＤ：ＦＮＣ００００１｝から、メインメニュー画面内の“コピー”ボタンが選択されたと判定される。

その後、Ｓ９１５では、Ｓ９１４の判定結果に応じて、表示部８０６が画面に表示する内容更新する。例えば、これまでの処理を通じて、ユーザが発する「コピーしたい」の音声から、画面に表示される“コピー”ボタンに対する操作であると判定された場合は、ＬＣＤタッチパネル２００で“コピー”ボタンがタッチされる場合と同様に、コピー機能画面を表示する。

Ｓ９１６では、データ送受信部８０２によって、サーバ１０２へ、画面の表示内容が更新されたことを示す画面更新通知を送信する。例えば、表示部８０６がメインメニュー画面からコピー機能画面へ表示が変更した場合、画面更新通知として「コピー機能画面表示」というテキストデータを送信する。

Ｓ９１７では、音声データ変換制御プログラム７０１のデータ送受信部７０２が受信した画面更新通知に対して、音声合成部７０８が画面更新通知の内容に対応する所定のテキストデータの音声合成処理を行う。例えば、画面更新通知の内容が「コピー機能画面表示」の場合、音声合成部７０８は、「コピー画面を表示しました」というテキストデータを音声合成する。音声合成部７０８が音声合成処理によって生成した音声データ（音声合成データ）は、データ送受信部７０２によって音声制御装置１００へと送信される。

Ｓ９１８では、データ送受信部６０２が、９１７で生成および送信された音声合成データを受信する。

Ｓ９１９では、音声再生部６０５が、９１８で受信した音声合成データを再生する。例えば、９１７で生成した「コピー画面を表示しました」という音声合成データを、スピーカ３１０を通じて再生する。

Ｓ９２０では、音声合成データ再生後、音声制御プログラム６０１の表示部６０６が、発話処理中を示すＬＥＤを再び点灯する。また、同時に音声取得部６０４の処理を再び開始する。

Ｓ９２１では、ユーザ１０６が設定画面呼び出し指示を音声制御装置１００に対して行う。設定画面呼び出し指示は、例えば、ユーザ１０６が「用紙を選択」と発声することであり、音声取得部６０４によって取得された音声が音声データとして生成される。ユーザ１０６の発話後、空白時間が所定時間経過すると、発話終了判定部６０８は発話が終了したと判定する。

Ｓ９２２は、前述のＳ９０８と同様である。

Ｓ９２３は、前述のＳ９０９～Ｓ９１８の処理と同様の音声操作処理を示す。ただし、Ｓ９２３では、Ｓ９２１の設定画面呼び出し指示に伴って、表示部８０６が設定画面を表示するよう画面更新する。例えば、コピー機能画面を表示している場合、グループＩＤ判定結果が｛ＩＤ：ＰＡＰ０００００、ＩＤ：ＯＰＲ０００４０｝のとき、用紙選択画面を表示する。

Ｓ９２４は、音声再生部６０５が、Ｓ９２３での音声合成処理で生成した音声合成データを再生する。例えば、Ｓ９２３で設定画面として用紙選択画面を表示した場合は「用紙選択画面を表示しました。続いて用紙を設定してください。」という音声合成データを、スピーカ３１０を通じて再生する。

Ｓ９２５は、前述のＳ９２０と同様である。

Ｓ９２６では、ユーザ１０６が設定変更指示を音声制御装置１００に対して行う。設定変更指示は、例えば、ユーザ１０６が「Ａ４」と発声することである。ユーザ１０６の発話後、空白時間が所定時間経過すると、発話終了判定部６０８は発話が終了したと判定する。

Ｓ９２７は、前述のＳ９０８と同様である。

Ｓ９２８は、前述のＳ９０９～Ｓ９１８の処理と同様の音声操作処理を示す。ただし、Ｓ９２８では、Ｓ９２６の設定変更指示に伴って、表示部８０６が設定画面に表示する設定値を変更する。例えば、用紙選択画面を表示している場合、グループＩＤ判定結果が｛ＩＤ：ＰＡＰ００１０１｝のとき、用紙の設定値をＡ４に変更した用紙選択画面を表示する。

Ｓ９２９は、音声再生部６０５が、Ｓ９２８での音声合成処理で生成した音声合成データを再生する。例えば、Ｓ９２８で用紙の設定値を変更して表示した場合は「用紙をＡ４に設定しました」という音声合成データを、スピーカ３１０を通じて再生する。

Ｓ９３５は、前述のＳ９２０と同様である。

Ｓ９３６では、ユーザ１０６がジョブ実行指示を音声制御装置１００に対して行う。ジョブ実行指示は、例えば、ユーザ１０６が「コピースタート」と発声することである。ユーザ１０６の発話後、空白時間が所定時間経過すると、発話終了判定部６０８は発話が終了したと判定する。

Ｓ９３７～Ｓ９４２は、前述の９０９～９１３と同様の処理である。

Ｓ９４３では、デバイス制御プログラム８０１のデータ送受信部８０２が受信したグループＩＤ判定結果に対して、音声操作判定部８０７が音声操作判定処理を行う。グループＩＤ判定結果が｛ＩＤ：ＦＮＣ００００１、ＩＤ：ＯＰＰ０００１１｝である場合、画面に表示している“コピースタート”ボタン、もしくは、ハードキーであるスタートキー２０７が操作されたと判定される。

Ｓ９４４では、Ｓ９４３の判定結果に応じて、ジョブの実行画面を表示する。例えば、これまでの処理を通じて、ユーザが発する「コピースタート」の音声が、スタートキー２０７に対する操作であると判定された場合は、コピージョブ開始の画面を表示する。

Ｓ９４５では、画像形成装置１０１の画面で設定されたジョブパラメータに従って、ジョブを実行する。

Ｓ９４６では、データ送受信部８０２によって、サーバ１０２へ、ジョブ実行状態通知の内容として、ジョブ実行を開始したことを示す情報（ジョブ実行開始通知）を送信する。例えば、コピージョブを開始した場合、ジョブ実行状態の内容として「コピージョブ開始」というテキストデータを送信する。

Ｓ９４７では、音声データ変換制御プログラム７０１のデータ送受信部７０２ジョブ実行状態通知を受信し、音声合成部７０８がその内容（ジョブ実行開始通知）に対応する所定のテキストデータの音声合成処理を行う。例えば、ジョブ実行状態通知の内容が「コピージョブ開始」の場合、音声合成部７０８は、「コピーを開始します」というテキストデータを音声合成する。

Ｓ９４８は、前述のＳ９１８と同様である。

Ｓ９４９では、音声再生部６０５が、Ｓ９４８で受信した音声合成データを再生する。例えば、Ｓ９４７で生成した「コピーを開始します」という音声合成データを、スピーカ３１０を通じて再生する。

Ｓ９５０では、データ送受信部８０２によって、サーバ１０２へ、ジョブ実行状態通知の内容として、ジョブ実行を終了したことを示す情報（ジョブ実行終了通知）を送信する。例えば、コピージョブを終了した場合、ジョブ実行状態通知の内容として「コピージョブ終了」というテキストデータを送信する。

Ｓ９５１では、音声データ変換制御プログラム７０１のデータ送受信部７０２がジョブ実行状態通知を受信し、音声合成部７０８がその内容（ジョブ実行終了通知）に対応する所定のテキストデータの音声合成処理を行う。例えば、ジョブ実行状態通知の内容が「コピージョブ終了」の場合、音声合成部７０８は、「コピーを終了しました」というテキストデータを音声合成する。

Ｓ９５２では、Ｓ９４５のジョブ実行処理が終了したことを受けて、表示部８０６はジョブの実行終了画面を表示する。例えば、コピージョブの実行が終了した場合、コピージョブ終了の画面を表示する。

Ｓ９５３では、データ送受信部６０２が、Ｓ９５１で生成した音声合成データをサーバ１０２から受信する。また、音声制御装置１００に対して、ユーザ１０６との対話セッションを終了するよう通知する対話セッション終了通知をサーバ１０２から受信する。

Ｓ９５４では、音声再生部６０５が、Ｓ９５３で受信した音声合成データを再生する。例えば、Ｓ９５１で生成した「コピーを終了しました」という音声合成データを、スピーカ３１０を通じて再生する。

Ｓ９５５では、Ｓ９５３で対話セッション終了通知を受信したことに対応して、音声制御プログラム６０１の表示部６０６が、音声制御装置１００の待機状態を示すためにＬＥＤを消灯する。

Ｓ９５６では、Ｓ９５３で対話セッション終了通知を受信したことに対応して、音声制御装置１００を待機状態へ移行する。

なお、シーケンス図上で、応答処理中を示すＬＥＤが点滅中であってもウェイクワードは常に入力可能である。ユーザ１０６はウェイクワードの発話に続いて「キャンセル」、または「中止」などと発言することで、対話セッションを強制的に終了するようにしてもよい。

＜画像形成装置１０１のデバイス制御プログラム８０１の処理フロー＞
図１０は画像形成装置１０１のデバイス制御プログラム８０１の処理の概要を示すフローチャートである。特に、図１０は、図９のシーケンス図のＳ９１４、Ｓ９１５、Ｓ９２３、Ｓ９２８、Ｓ９３３、Ｓ９４３～Ｓ９５２におけるデバイス制御プログラム８０１の処理フローを示す例である。

以降、図１０が示す処理フローの一例を具体的に説明するために図１１および図１２を用いる。図１１は、図７（ｂ）で示したグループＩＤリストに追加される、グループＩＤリストの別の一例である。図１２（ａ）は、表示部８０６が表示する画面の一例である。図１２（ｂ）は、図１２（ａ）で示す画面に対応する画面制御情報の一例である。画面制御情報には、画面を構成するユーザ操作可能なＵＩ部品と、それらがユーザ操作された時のアクション（画面制御の内容や、内部の処理）が含まれる。図１２（ｃ）は図１２（ａ）で示す画面に対応する音声操作判定情報の一例である。音声操作判定情報は、ユーザ操作可能なＵＩ部品と１つ以上のグループＩＤ判定結果の対応付けが予め行われているものとする。なお、図１２（ｃ）で示す表のうち、「操作時のユーザ発話例」と「操作パネルの操作方法」は下記説明のための参考情報であり、データ管理部８０３が管理する音声操作判定情報に含まれなくてもよい。図１２（ａ）に示す画面はスライダー状の操作オブジェクトを備える画面である。図２４はスライダー状の操作オブジェクトを説明する図である。本実施例では、次のような操作オブジェクトをスライダー状の操作オブジェクト（スライダー、スライドバー、スクロールバー、トラックバー）と呼ぶ。調整値や設定の状態をつまみ（スクローラ、バブル、サム、スクロールボックス、ノブ、エレベーター、クイント、パック、ワイパー、グリップ）の位置（指示位置）で示す。移動ボタン（アローボタン）の押下、または、つまみのドラッグ操作でつまみの位置を移動することができる。なお、つまみの移動方法は上述のうちの一方のみに対応していてもよいし両方に対応していてもよい。また、本体部分に目盛りがあってもよく、無くてもよい。

Ｓ１００１では、データ送受信部８０２が、グループＩＤ判定部７０７で生成されたグループＩＤ判定結果を受信する。

Ｓ１００２では、表示部８０６が表示している画面に対応する画面制御情報と、音声操作判定部８０７が操作対象を判定するために用いる音声操作判定情報を取得する。例えば、表示部８０６が図１２（ａ）で示す画面を表示している場合には、本画面に対応する図１２（ｂ）の画面制御情報と図１２（ｃ）の音声操作判定情報を取得する。

Ｓ１００３では、音声操作判定部８０７が、Ｓ１００１で受信したグループＩＤ判定結果と、Ｓ１００２で取得した音声操作判定情報を用いて音声操作判定処理を行う。この時、音声操作判定処理では、操作パネル５０９に表示される画面を構成するユーザ操作可能なＵＩ部品、または、操作パネル５０９を構成するハードキー２０１～２１０を操作対象として判定する。例えば、ユーザ１０６による発話の一例である「自動」の音声から、グループＩＤ判定部７０７が判定したグループＩＤ判定結果｛ＩＤ：ＤＲＧ００００８｝が送信される。データ送受信部８０２はＳ１００１でこれを受信し、本グループＩＤ判定結果と合致する「自動（カラー／白黒）」ボタンを操作対象として判定する。

なお、音声操作判定処理の詳細なフローおよび判定処理例については、図１４以降で説明する。

Ｓ１００４では、表示部８０６が、Ｓ１００３の音声操作判定処理の結果と、Ｓ１００２で取得した画面制御情報に基づいて、画面の表示内容を更新して表示する。例えば、Ｓ１００３にて「自動（カラー／白黒）」ボタンが操作対象として判定されると、図１２（ｂ）の画面制御情報に基づいて、表示部８０６が当該ボタンを強調表示するように画面を更新する。なお、図１２（ｃ）では、操作パネル５０９のＬＣＤタッチパネル２００上に表示された「自動（カラー／白黒）」ボタンがタッチされた時も同様に、当該ボタンを強調表示することが示されている。

尚、Ｓ１００３の音声操作判定処理の結果が、スライダー画面への遷移に関する音声指示であった場合は、該当するスライダー画面へ更新表示する。また、後述のＳ１３０９～Ｓ１３１５のようにＳ１００３の音声操作判定処理の結果が、スライダーの移動指示であった場合は次のように処理する。すなわち、図１４－１（ｂ）の画面制御情報及び図１４－２の音声操作判定情報に基づいてスライダーの目盛り位置（指示位置）を変更して画面を更新表示する。このとき、スライダーの指示位置変更は、後述するＳ１３０６で読み出したその時点のスライダーの指示位置に基づいて行われる。スライダーによる設定の完了後、デバイス制御プログラム８０１のデータ管理部８０３の設定パラメータの更新が行われる。

Ｓ１００５では、Ｓ１００３の音声操作判定処理の結果と、Ｓ１００２で取得した画面制御情報に基づいて、ジョブ実行を行うか否かを判定する。ジョブ実行を行う場合はＳ１００７へ進み、そうでなければＳ１００６へ進む。例えば、Ｓ１００３にて「自動（カラー／白黒）」ボタンが操作対象として判定された場合は、図１２（ｂ）中の内部処理がないことからジョブ実行を行わないと判定する。また、例えば、Ｓ１００３にてスタートキー２０７が操作対象として判定された場合は、図１２（ｂ）中の内部処理として「コピージョブの実行を開始」することから、ジョブ実行を行うと判定する。

Ｓ１００６では、前述のＳ９１６が示すようにデータ送受信部８０２によって、画面更新通知をサーバ１０２へ送信する。

Ｓ１００７では、ジョブパラメータの設定値に基づいて、ジョブ実行処理を行う。ジョブ実行処理によって、画像形成装置１０１は、一連の画像形成処理（例えばコピー、スキャン、プリントなど）を実行する。例えば、図１２（ａ）の画面が示すように、「自動（カラー／白黒）」ボタンが強調表示されている状態でコピージョブの実行を開始する時には、この時の「自動（カラー／白黒）」の設定値をジョブパラメータとしてジョブの実行を行う。

Ｓ１００８では、前述のＳ９４６およびＳ９５０が示すようにデータ送受信部８０２によって、ジョブ実行状態通知をサーバ１０２へ送信する。

＜システムとユーザ間のインタラクションの例＞
図１７は、図９のシーケンスと図１０、図１３で示す処理フローのうち、ユーザ１０６からの音声操作とその時のシステムからのインタクラクションの一例をより具体的に説明するための模式図である。図１７では、ユーザ１０６の音声操作としての発話例と、その発話に応じてシステムが音声制御装置１００の音声処理状態を示すＬＥＤの対応関係と流れを示している。また、画像形成装置の操作パネル５０９に表示する画面、および、音声制御装置１００で再生する応答用の音声の対応関係と流れを示している。

まず、システムはＬＥＤ消灯にて音声待機状態であることを示し、操作パネル５０９にはトップ画面を表示している（Ｓ１７０１）とする。この時に、ユーザ１０６がウェイクワードを発話する（Ｓ１７０２）と、システムは音声操作の受付を開始し、発話処理状態を示すＬＥＤを点灯する（Ｓ１７０３）。なお、Ｓ１７０２は図９中のＳ９０５、Ｓ１７０３は９０６の具体的な一例である。ウェイクワードに続いて、ユーザ１０６が「コピーをしたい」と発話する（Ｓ１７０４）と、システムは応答処理状態を示すＬＥＤを点滅させ（Ｓ１７０５）、コピートップ画面を表示する（Ｓ１７０６）。そして、システムは「コピー画面を表示しました」という応答用の音声を再生し（Ｓ１７０７）、ユーザ１０６に次の発話を促すためにＬＥＤを再点灯する（Ｓ１７０８）。なお、Ｓ１７０４は図９中のＳ９０７、Ｓ１７０５はＳ９０８、Ｓ１７０６はＳ９１５、Ｓ１７０７は９１９、Ｓ１７０８はＳ９２０の具体的な一例である。

次に、ユーザ１０６が「原稿の種類」と発話する（Ｓ１７０９）と、システムはＬＥＤを点滅させ（Ｓ１７１０）、原稿の種類設定画面を表示する（Ｓ１７１１）。そして、システムは「原稿の種類を変更できます」という応答用の音声を再生し（Ｓ１７１２）、ＬＥＤを点灯する（Ｓ１７１３）。なお、Ｓ１７０９は図９中のＳ９２１、Ｓ１７１０はＳ９２２、Ｓ１７１１はＳ９１５、Ｓ１７１２はＳ９２４、Ｓ１７１３はＳ９２５の具体的な一例である。

次に、ユーザ１０６が「レベル調整」と発話する（Ｓ１７１４）と、システムはＬＥＤを点滅させ（Ｓ１７１５）、レベル調整設定画面を表示する（Ｓ１７１６）。そして、システムは「レベル調整を変更できます」という応答用の音声を再生し（Ｓ１７１７）、ＬＥＤを点灯する（Ｓ１７１８）。なお、Ｓ１７１４は図９中のＳ９２１、Ｓ１７１５はＳ９２２、Ｓ１７１６はＳ９１５、Ｓ１７１７はＳ９２４、Ｓ１７１８はＳ９２５の具体的な一例である。

次に、ユーザ１０６が「写真を優先ボタンを３回選択」と発話する（Ｓ１７１９）と、システムはＬＥＤを点滅させ（Ｓ１７２０）、レベル調整（すなわちスライダー）を右へ３つ移動変更する（Ｓ１７２１）。そして、システムは「レベル調整を変更しました」という応答用の音声を再生し（Ｓ１７２２）、ＬＥＤを点灯する（Ｓ１７２３）。スライダーの操作についての詳細は図１３で後述する。なお、Ｓ１７１９は図９中のＳ９２６、Ｓ１７２０はＳ９２７、Ｓ１７２１はＳ９１５、Ｓ１７２２はＳ９２９、Ｓ１７２３はＳ９２５の具体的な一例である。

次に、ユーザ１０６が「ＯＫ」と発話する（Ｓ１７２４）と、システムはＬＥＤを点滅させ（Ｓ１７２５）、レベル調整反映後の原稿の種類設定画面を表示する（Ｓ１７２６）。そして、システムは「設定を確定しました」という応答用の音声を再生し（Ｓ１７２７）、ＬＥＤを点灯する（Ｓ１７２８）。なお、Ｓ１７２４は図９中のＳ９３１、Ｓ１７２５はＳ９３２、Ｓ１７２６はＳ９１５、Ｓ１７２７はＳ９３４、Ｓ１７２８はＳ９３５の具体的な一例である。

次に、ユーザ１０６が「コピー開始」と発話する（Ｓ１７２９）と、システムはＬＥＤを点滅させ（Ｓ１７３０）、コピージョブを実行する。コピージョブの実行が開始されると、システムはコピージョブ実行中の画面を表示する（Ｓ１７３２）とともに、「コピーを開始します」という応答用の音声を再生する（Ｓ１７３１）。そして、コピージョブの実行が完了すると、システムはコピージョブ実行終了画面を表示するとともに、「コピーを終了しました」という最終応答用の音声を再生し（Ｓ１７３３）、音声受付が終了したことを示すためにＬＥＤを消灯する（Ｓ１７３４）。なお、Ｓ１７２９は図９中のＳ９３６、Ｓ１７３０はＳ９３７、Ｓ１７３２はＳ９４４、Ｓ１７３１はＳ９４９、Ｓ１７３３はＳ９５４、Ｓ１７３４はＳ９５５の具体的な一例である。

＜スライダーの音声操作＞
Ｓ１７１９～Ｓ１７２１で一例を挙げたスライダーの音声操作について、本実施例では多様な操作方法を提供する。図２２（ａ）～図２２（ｆ）は、スライダーを音声操作する具体例を示す図である。

図２２（ａ）は、「スライダーを右へ」という発話によって指示位置を中央からその１つ右隣に移動させる様子を示している。図１２（ａ）の画面と同様の操作方法であれば「写真を優先ボタンを一回選択」等のボタンに付与されたボタン名称を含む音声操作が行われる。本実施例では、このような通常の音声操作方法に加え、スライダーを含む画面に特有の音声操作方法（「右」や「左」等の方向を示す単語でスライダーを移動させる方法）を利用することができる。

また、この画面では、同様の音声操作を複数回繰り返して行うことができる。図２２（ｂ）は、図２２（ａ）でスライダーを移動した状態から、さらに移動した状態を示している。本実施例では、先に移動したスライダーの位置を記憶しているため、２回目の「スライダーを右へ」という音声操作で、スライダーの位置が中央の２つ右隣へと移動する。

なお、「スライダーを右へ」という発話と「スライダーを右端へ」という発話を区別できるようにしてもよい。「スライダーを右端へ」という発話は、図２２（ｄ）に示すように、スライダーを一番右端へ（中央から４つ右隣りへ）と移動させる音声操作である。同様に、「スライダーを中央へ」や「スライダーを左端へ」等の音声操作を可能にしてもよい。ただし、スライダーの現在位置に基づかないスライダー操作は本実施例の主旨ではないため、その詳細な説明を割愛する。

また、スライダーの指示位置が、図２２（ｄ）のようにスライダーの右端にある場合、スライダーをこれ以上右に移動することができない。そのため、図２２（ｄ）の状態でスライダーを更に右へと移動させる音声操作があった場合、スライダーの移動を行うことは不可と判断し、指示位置の移動は行わない。このとき、移動不可であることを示す一時表示（例えばポップアップ表示）を行ってもよい。また、図９のＳ９２９の音声合成データ再生時に、スライダーの移動が不可であることを音声でアナウンスするようにしてもよい。

図２２（ｃ）は、「スライダーを２つ右へ」または「スライダーを少し右へ」という発話によって指示位置を中央からその２つ右隣に移動させる様子を示している。このように、一度の発話で複数回分のスライダー移動を可能にすることで操作性を向上させることができる。また、「少し」等のあいまい表現に対応することでユーザに直感的な操作環境を提供できる。

図２２（ｅ）および図２２（ｆ）は「スライダーを１／４くらい右へ」という発話によって指示位置を移動させる様子を示している。このように、割合表現を用いる音声操作に対応することで、より柔軟な音声操作が可能となる。なお、このように割合表現を用いる場合、現在の指示位置によって移動するスライダーの目盛り量を異なる。図２２（ｅ）では、現在指示位置が中央であり、右方向に残り４目盛りあるため、「スライダーを１／４くらい右へ」という音声操作では１目盛り右に移動する。図２２（ｆ）では、現在指示位置が左端であり、右方向に残り８目盛りあるため、「スライダーを１／４くらい右へ」という音声操作では２目盛り右に移動する。

＜音声操作判定部の処理フロー＞
図１３は画像形成装置１０１の音声操作判定部８０７の処理の概要を示すフローチャートである。図１３は、図１０のＳ１００３、及び、図９のＳ９１４、Ｓ９４３の処理に対応している。また、図１４は、図１３の音声操作判定処理によって操作を判定するときの画面例、及び、従来の操作方法（操作パネルのボタンやハードキー押下による方法）と音声による操作方法の例である。以下、図１３と図１４を用いて音声操作判定部８０７の処理フローについて説明する。

まず、図１４について説明する。図１４－１（ａ）は画像形成装置１０１のコピーのレベル調整における、文字・写真の読み取り優先度の画面例である。

ボタン１４０１～１４０２は文字・写真のどちらの度合いを優先するかを調整するスライダーボタン、すなわち画面中央のスライダーを操作するためのボタンである。スライダーは、左右いずれかのスライダーボタンを押下することで中央にあるスライダーのバーの位置を左右へ調整し、段階的に値を変更することができる。また、ボタン１４０３は設定を取り消すためのボタン、ボタン１４０４は設定を反映するためのＯＫボタンである。図１４－１（ｂ）は、図１４－１（ａ）で示す画面における画面制御情報の一例である。図１４－２は、図１４－１（ａ）で示す画面における音声操作判定情報の一例である。図１４－２の行１４０５～行１４１６は、音声操作判定情報の各行を示している。

以下、図１３の処理フローについて図１４－１（ａ）で示す画面と、図１４－１（ｂ）、（ｃ）の画面制御情報と音声操作判定情報の例を用いて説明する。

Ｓ１３０１において、音声操作判定部８０７は、図１０のＳ１００１で受信したグループＩＤ判定結果と、Ｓ１００２で取得した音声操作判定情報に含まれるボタンのグループＩＤ情報とをマッチングする。例えば、図１４－１（ａ）の画面を表示しているとき、グループＩＤ判定結果が｛ＩＤ：ＮＵＭ００００３、ＰＯＳ０００１６、ＦＩＮ０００１１｝（すなわち、ユーザ１０６が「３つ左へ移動」と発話したときのグループＩＤ判定結果）であるとする。この場合、図１４－２の音声操作判定情報の行１４０５～行１４１４の「表示画面のグループＩＤ情報」列のグループＩＤ情報とグループＩＤ判定結果とをマッチングする。このとき、行１４０６のグループＩＤ「ＮＵＭ００００３＋ＰＯＳ０００１６＋ＦＩＮ０００１１」がヒットし、マッチング成功となる。

Ｓ１３０２において、音声操作判定部８０７は、Ｓ１３０１でマッチング成功したか否かを判定する。マッチング成功した場合は、Ｓ１３０６へ進み、そうでなければＳ１３０３へ進む。

Ｓ１３０３において、音声操作判定部８０７は、図１０のＳ１００１で受信したグループＩＤ判定結果と、Ｓ１００２で取得した音声操作判定情報に含まれるハードキーのグループＩＤ情報とをマッチングする。例えば、図１４－１（ａ）の画面において、サーバ１０２におけるグループＩＤ判定結果が｛ＩＤ：ＯＰＲ０００１１｝（すなわち、ユーザ１０６が「スタート」と発話したときのグループＩＤ判定結果）であるとする。この場合、そのＩＤ判定結果と音声操作判定情報のハードキーのグループＩＤ情報とをマッチングする。このとき、音声操作判定情報より、グループＩＤ「ＯＰＲ０００１１」がヒットし、マッチング成功となる。

Ｓ１３０４において、音声操作判定部８０７は、Ｓ１３０３でマッチング成功したか否かを判定する。マッチング成功した場合は、Ｓ１３０５へ進み、そうでなければ音声操作判定処理を終了する。

Ｓ１３０５において、音声操作判定部８０７は、Ｓ１３０３でマッチングしたハードキーの音声操作であると判定し、音声操作判定処理を終了する。例えば、グループＩＤ情報が「ＯＰＲ０００１１」である“スタート”がヒットした場合、スタートキー２０７を音声操作したものと判定し、音声操作判定処理を終了する。

Ｓ１３０６において、音声操作判定部８０７は、Ｓ１３０１でのマッチング結果の操作対象がスライダーボタンであるかどうかを判定する。例えば、「文字を優先を選択」という発話内容について、図１４－２の音声操作判定情報の行１４０５～１４１２でマッチング判定した場合、行１４０５がマッチングする。行１４０５は「番号」列が番号１４０１であるので、図１４－１（ｂ）の画面制御情報より、操作対象はスライダーボタンであると判定される。

スライダーボタンであると判定された場合は、操作対象のスライダーの指示位置を読み出す。例えば図１４－１（ａ）では、スライダーの指示位置は“０”（右側をプラス、左側をマイナスとする）である。スライダーの目盛り移動は、ここで読み出した指示位置に基づいて行われる。マッチングした操作対象がスライダーボタンであった場合はＳ１３０８へ進み、そうでなければＳ１３０７へ進む。

Ｓ１３０７において、音声操作判定部８０７は、Ｓ１３０１でマッチングした結果が操作画面内の一般ボタンの音声操作であると判定し、音声操作判定処理を終了する。例えば、グループＩＤが「ＯＰＲ０００１０」である“ＯＫ”がマッチングした場合、図１４－２の音声操作判定情報の行１４１４から、「番号」列が１４０４であるので、図１４－１（ｂ）の画面制御情報より一般ボタンの“ＯＫ”の音声操作であると判定される。

Ｓ１３０８において、音声操作判定部８０７は、グループＩＤ判定結果に回数を指定するグループＩＤが含まれているかどうかを判定する。例えば、図１０のＳ１００１で受信したグループＩＤ判定結果に“３つ”を意味する｛ＩＤ：ＮＵＭ００００３｝が含まれているとする。この場合、グループＩＤ判定結果に回数を指定するグループＩＤが含まれていると判定される。数を示すグループＩＤは図７よりＮＵＭ００００１～ＮＵＭ９９９９９が対応するが、スライダーの調整幅は最大でも８つ程度である。そのため、回数を指定するグループＩＤはスライダーの最大調整幅までの範囲（ここではＮＵＭ００００１～ＮＵＭ００００８）とする。回数を指定するグループＩＤが含まれていればＳ１３１０へ進み、そうでなければＳ１３０９へ進む。

Ｓ１３０９において、音声操作判定部８０７は、Ｓ１３０１でマッチングした結果が操作画面内のスライダーボタンの一回分の音声操作であると判定する。そして、音声操作判定処理を終了する。例えば、グループＩＤ情報として図１４－２の行１４０５、行１４０９がマッチングしたとする。この場合、スライダーボタン１回分の音声操作（すなわち、１４０１または１４０２のスライダーボタンを一回押下したことに相当）であると判定される。

Ｓ１３１０において、音声操作判定部８０７は、Ｓ１３０８で判定された回数を指定するグループＩＤが具体的な数を示しているかどうかを判定する。例えば、ここではグループＩＤ判定結果にＮＵＭ００００１～ＮＵＭ００００８が含まれている場合は、具体的な数を示していると判定する。具体的な数であればＳ１３１１へ進み、そうでなければＳ１３１２へ進む。

Ｓ１３１１において、音声操作判定部８０７は、Ｓ１３０１でマッチングした結果が操作画面内のスライダーボタンの指定回数分の音声操作であると判定し、音声操作判定処理を終了する。例えば、グループＩＤ情報として図１４－２の行１４０６、行１４１０がマッチングしたとする（例えば、ユーザ１０６が「文字を優先を２回選択」と発話したときに行１４０６とマッチングする）。この場合、スライダーボタン指定回数分の音声操作（すなわち、番号１４０１または番号１４０２のスライダーボタンを指定回数押下したことに相当）であると判定する。

Ｓ１３１２において、音声操作判定部８０７は、Ｓ１３０８で判定された回数を指定するグループＩＤが特殊回数表現であるか回数算出が必要であるかを判定する。ここで、特殊回数表現とは、“少し”、“ちょっと”などのことを示し、図１１のグループＩＤの｛ＤＲＧ０００１８｝がそれに対応する。特殊回数表現は、これに限らず量や回数を曖昧に指示する表現（例えば、“ほとんど”、”大分”、”やや”）などの表現を含めてもよい。また、回数算出が必要とは、例えば分数表現が含まれる場合のことを示し、図１１のグループＩＤの｛ＦＲＧ００１０３｝などの”１／３”などがそれに対応する。

Ｓ１３１３において、音声操作判定部８０７は、Ｓ１３０１でマッチングした結果が操作画面内のスライダーボタンの特殊表現における所定回数分の音声操作であると判定し、音声操作判定処理を終了する。例えば、グループＩＤ情報として図１４－２の行１４０７、行１４１１がマッチングしたとする。この場合、グループＩＤ｛ＤＧＲ０００１８｝を所定回数の２回分としてスライダーボタンを２回分の音声操作（すなわち、番号１４０１または番号１４０２のスライダーボタンを指定回数押下したことに相当）であると判定する。ここで、“少し”のグループＩＤである｛ＤＧＲ０００１８｝を所定回数の２回としたが、これは設定で変更できる値であり、２回に限定するものではない。

Ｓ１３１４において、音声操作判定部８０７は、回数を算出する。例えば、グループＩＤ情報が｛ＦＲＧ００１０３、ＰＯＳ０００１２｝（すなわち、“１／３”と“右”を示す）である場合、現在のスライダーの位置と、右の残目盛り数から移動回数を算出する。具体的には、図１４－１（ａ）のように現在のスライダーのバーの位置が中央の場合、右の残目盛り数は４であるので、４×１／３＝１．３３３≒１とし、移動回数を１と算出する。このように、現在のスライダーのバーの位置と、バーを動かす方向の残目盛り数、及び、グループＩＤ情報の分数表現とから移動回数を算出する。

Ｓ１３１５において、音声操作判定部８０７は、Ｓ１３０１でマッチングした結果が操作画面内のスライダーボタンのＳ１３１４で算出された回数分の音声操作であると判定し、音声操作判定処理を終了する。例えば、グループＩＤ情報として図１４－２の行１４０７、行１４１１がマッチングしたとする。この場合、グループＩＤ｛ＤＧＲ０００１８｝を所定回数の２回分としてスライダーボタンを２回分の音声操作（すなわち、番号１４０１または番号１４０２のスライダーボタンを指定回数押下したことに相当）であると判定する。ここで、“少し”のグループＩＤである｛ＤＧＲ０００１８｝を所定回数の２回としたが、これは設定で変更できる値であり、２回に限定するものではない。

＜備考＞
以上で説明したように、本実施例によれば、装置の設定画面の構成に応じた音声操作が可能な情報処理システムを提供することができる。特に、スライダー状の操作オブジェクトを備える設定画面の音声操作が可能である。本実施例によれば、スライダー状の操作オブジェクトを備える設定画面において、ボタン名称によらない音声操作が可能である。本実施例では、現在の設定状態を加味した設定変更を音声操作で行うことができる。本実施例では、スライダーの移動量を数値（数値情報）で指定することができる。本実施例では、スライダーの移動量を割合（割合情報）で指定することができる。上述したように音声操作に柔軟に対応することができるためユーザビリティに優れる。

（実施例２）
実施例１では、設定画面中にスライダー状の操作オブジェクトが１つ配置されているケースついて説明した。本実施例では、設定画面中にスライダー状の操作オブジェクトが複数配置されている例について説明する。

＜システムとユーザ間のインタラクションの例＞
図１８は、図９のシーケンスと図１０、図１５で示す処理フローのうち、ユーザ１０６からの音声操作とその時のシステムからのインタクラクションの一例をより具体的に説明するための模式図である。図１８では、ユーザ１０６の音声操作としての発話例と、その発話に応じてシステムが音声制御装置１００の音声処理状態を示すＬＥＤの対応関係と流れを示している。また、画像形成装置の操作パネル５０９に表示する画面、および、音声制御装置１００で再生する応答用の音声の対応関係と流れを示している。

まず、システムはＬＥＤ消灯にて音声待機状態であることを示し、操作パネル５０９にはトップ画面を表示している（Ｓ１８０１）とする。この時に、ユーザ１０６がウェイクワードを発話する（Ｓ１８０２）と、システムは音声操作の受付を開始し、発話処理状態を示すＬＥＤを点灯する（Ｓ１８０３）。なお、Ｓ１８０２は図９中の９０５、Ｓ１８０３は９０６の具体的な一例である。ウェイクワードに続いて、ユーザ１０６が「コピーをしたい」と発話する（Ｓ１８０４）と、システムは応答処理状態を示すＬＥＤを点滅させ（Ｓ１８０５）、コピートップ画面を表示する（Ｓ１８０６）。そして、システムは「コピー画面を表示しました」という応答用の音声を再生し（Ｓ１８０７）、ユーザ１０６に次の発話を促すためにＬＥＤを再点灯する（Ｓ１８０８）。なお、Ｓ１８０４は図９中のＳ９０７、Ｓ１８０５はＳ９０８、Ｓ１８０６はＳ９１５、Ｓ１８０７はＳ９１９、Ｓ１８０８はＳ９２０の具体的な一例である。

次に、ユーザ１０６が「その他の機能」と発話する（Ｓ１８０９）と、システムはＬＥＤを点滅させ（Ｓ１８１０）、１つ目のその他の機能画面を表示する（Ｓ１８１１）。そして、システムは「その他の機能１を表示しました」という応答用の音声を再生し（Ｓ１８１２）、ＬＥＤを点灯する（Ｓ１８１３）。なお、Ｓ１８０９は図９中のＳ９２１、Ｓ１８１０はＳ９２２、Ｓ１８１１はＳ９１５、Ｓ１８１２はＳ９２４、Ｓ１８１３はＳ９２５の具体的な一例である。

次に、ユーザ１０６が「次のページ」と発話する（Ｓ１８１４）と、システムはＬＥＤを点滅させ（Ｓ１８１５）、２つ目のその他の機能画面を表示する（Ｓ１８１６）。そして、システムは「その他の機能２を表示しました」という応答用の音声を再生し（Ｓ１８１７）、ＬＥＤを点灯する（Ｓ１８１８）。なお、Ｓ１８１４は図９中の９２１、Ｓ１８１５はＳ９２２、Ｓ１８１６はＳ９１５、Ｓ１８１７はＳ９２４、Ｓ１８１８はＳ９２５の具体的な一例である。

次に、ユーザ１０６が「カラー調整」と発話する（Ｓ１８１９）と、システムはＬＥＤを点滅させ（Ｓ１８２０）、カラー調整設定画面を表示する（Ｓ１８２１）。そして、システムは「カラー調整を変更できます」という応答用の音声を再生し（Ｓ１８２２）、ＬＥＤを点灯する（Ｓ１８２３）。なお、Ｓ１８１９は図９中のＳ９２１、Ｓ１８２０はＳ９２２、Ｓ１８２１はＳ９１５、Ｓ１８２２はＳ９２４、Ｓ１８２３はＳ９２５の具体的な一例である。

次に、ユーザ１０６が「彩度調整」と発話する（Ｓ１８２４）と、システムはＬＥＤを点滅させ（Ｓ１８２５）、彩度調整設定画面を表示する（Ｓ１８２６）。そして、システムは「彩度調整を変更できます」という応答用の音声を再生し（Ｓ１８２７）、ＬＥＤを点灯する（Ｓ１８２８）。なお、Ｓ１８２４は図９中の９２１、Ｓ１８２５はＳ９２２、Ｓ１８２６はＳ９１５、Ｓ１８２７はＳ９２４、Ｓ１８２８はＳ９２５の具体的な一例である。

次に、ユーザ１０６が「イエローとシアンを２つ高く」と発話する（Ｓ１８２９）と、システムはＬＥＤを点滅させ（Ｓ１８３０）、イエローとシアンの彩度調整（すなわちイエローとシアンの各スライダー）を右へ２つ移動変更する（Ｓ１８３１）。そして、システムは「彩度調整を変更しました」という応答用の音声を再生し（Ｓ１８３２）、ＬＥＤを点灯する（Ｓ１８３３）。スライダーの操作についての詳細は図１５で後述する。なお、Ｓ１８２９は図９中のＳ９２６、Ｓ１８３０はＳ９２７、Ｓ１８３１はＳ９１５、Ｓ１８３２はＳ９２９、Ｓ１８３３はＳ９２５の具体的な一例である。

次に、ユーザ１０６が「シアンとマゼンタを３つ低く」と発話する（Ｓ１８３４）と、システムはＬＥＤを点滅させ（Ｓ１８３５）、シアンとマゼンタの彩度調整（すなわちシアンとマゼンタの各スライダー）を左へ３つ移動変更する（Ｓ１８３６）。そして、システムは「彩度調整を変更しました」という応答用の音声を再生し（Ｓ１８３７）、ＬＥＤを点灯する（Ｓ１８３８）。なお、Ｓ１８３４は図９中のＳ９２６、Ｓ１８３５はＳ９２７、Ｓ１８３６はＳ９１５、Ｓ１８３７はＳ９２９、Ｓ１８３８はＳ９２５の具体的な一例である。

次に、ユーザ１０６が「ＯＫ」と発話する（Ｓ１８３９）と、システムはＬＥＤを点滅させ（Ｓ１８４０）、彩度調整反映後の彩度調整設定画面を表示する（Ｓ１８４１）。そして、システムは「設定を確定しました」という応答用の音声を再生し（Ｓ１８４２）、ＬＥＤを点灯する（Ｓ１８４３）。なお、Ｓ１８３９は図９中のＳ９３１、Ｓ１８４０はＳ９３２、Ｓ１８４１はＳ９１５、Ｓ１８４２はＳ９３４、Ｓ１８４３はＳ９３５の具体的な一例である。

次に、ユーザ１０６が「コピー開始」と発話する（Ｓ１８４４）と、システムはＬＥＤを点滅させ（Ｓ１８４５）、コピージョブを実行する。コピージョブの実行が開始されると、システムはコピージョブ実行中の画面を表示する（Ｓ１８４６）とともに、「コピーを開始します」という応答用の音声を再生する（Ｓ１８４７）。そして、コピージョブの実行が完了すると、システムはコピージョブ実行終了画面を表示するとともに、「コピーを終了しました」という最終応答用の音声を再生し（Ｓ１８４８）、音声受付が終了したことを示すためにＬＥＤを消灯する（Ｓ１８４９）。なお、Ｓ１８４４は図９中のＳ９３６、Ｓ１８４５はＳ９３７、Ｓ１８４７はＳ９４４、Ｓ１８４６はＳ９４９、Ｓ１８４７はＳ９５４、Ｓ１８４８はＳ９５５の具体的な一例である。

＜スライダーが複数あるときの操作例＞
Ｓ１８２９～Ｓ１８３１及びＳ１８３４～Ｓ１８３６で例を挙げたスライダーの音声操作について、本実施例では多様な操作方法を提供する。図２３（ａ）～図２３（ｄ）は、スライダーを音声操作する具体例を示す図である。

図２３（ａ）は、「イエローを高く」という発話によってイエローのスライダーの指示位置を中央からその１つ右隣に移動させる様子を示している。本実施例では、複数のスライダーを有する設定画面において、スライダーを識別するための名称（本実施例では色）を用いることで、複数のスライダーのうちの特定のスライダーのみの指示位置を移動させることができる。なお、「イエロー」と省略せずに「イエローのスライダー」と発話してもよい。また、「高く」ではなく「右へ」等と発話してもよい。

図２３（ｂ）は、「全色を高く」という発話によって、画面中のすべてのスライダー（イエロー、グリーン、シアン、ブルー、マゼンタ、レッドのスライダー）の各指示位置を中央からその１つ右隣に移動させる様子を示している。本実施例では、このように複数のスライダーを同時に操作できるため操作性に優れる。

図２３（ｃ）は、「イエローとシアンを２つ高く」という発話によってイエローとシアンのスライダーの指示位置を中央からその２つ右隣に移動させる様子を示している。このように、本実施例では、多数のスライダーのうちの一部の複数のスライダーをまとめて操作することができる。

図２３（ｄ）は、「シアンとマゼンタを３つ低く」という発話によってシアンとマゼンタのスライダーの指示位置を現在位置からその３つ左隣に移動させる様子を示している。すなわち、シアンのスライダーの目盛りを中央の２つ右隣の位置から中央の１つ左隣に移動させ、マゼンタのスライダーの目盛りを中央からその３つ左隣に移動させる様子を示している。このように、本実施例では、複数のスライダーのぞれぞれの現在位置を考慮したうえで、多数のスライダーのうちの一部の複数のスライダーをまとめて操作することができる。

＜スライダーが複数あるときの音声操作判定部の処理フロー＞
図１５は画像形成装置１０１のスライダーが複数あるときの音声操作判定部８０７の処理の概要を示すフローチャートである。図１５は、図１０のＳ１００３、及び、図９のＳ９１４、Ｓ９４３の処理に対応している。また、図１６は、図１５の音声操作判定処理によって操作を判定するときのスライダーが複数あるときの画面例、及び、従来の操作方法（操作パネルのボタンやハードキー押下による方法）と音声による操作方法の例である。

以下、図１５と図１６を用いて画面にスライダーが複数あるときの音声操作判定部８０７の処理フローについて説明する。

まず、図１６について説明する。図１６－１（ａ）は画像形成装置１０１のコピーの彩度調整の画面例である。ボタン１６０１～１６１４は彩度の高低を調整するスライダーボタン、すなわち画面中央にある各スライダーを操作するためのボタンである。また、ボタン１６１５は設定を取り消すためのボタン、ボタン１６１６は設定を反映するためのＯＫボタンである。図１６－１（ｂ）は、図１６－１（ａ）で示す画面における画面制御情報の一例である。図１６－２は、図１６－１（ａ）で示す画面における音声操作判定情報の一例である。図１６－２の行１６１７～１６３４は、音声操作判定情報の各行を示している。

以下、図１５の処理フローについて図１６－１（ａ）で示す画面と、図１６－１（ｂ）、（ｃ）の画面制御情報と音声操作判定情報の例を用いて説明する。ただし、Ｓ１５０１～Ｓ１５１５は、それぞれ図１３のＳ１３０１～Ｓ１３１５の処理に準じる。従って、以下図１３との主な差分であるＳ１５１６～Ｓ１５１８を中心に説明する。

Ｓ１５１６では、図１０のＳ１００２で取得した図１６－１（ｂ）の画面制御情報からスライダーが２つ以上あるかを判定する。図１６－１（ｂ）のようにスライダーが２つ以上あると判定される場合は、Ｓ１５１７へ進み、スライダーが一つ以下の場合はＳ１５０１へと進む。

Ｓ１５１７では、図１０のＳ１００１で受信したグループＩＤ判定結果にスライダー名が２つ以上含まれるかどうかを判定する。スライダー名とは、例えば、図１６－１（ａ）の“イエロー”、“グリーン”、“シアン”、“ブルー”、“マゼンタ”、“レッド”のことを指す。グループＩＤ判定結果が｛ＣＯＬ０００４、ＣＯＬ０００６、ＮＵＭ００００２、ＤＲＧ０００１３｝（すなわち、ユーザが「イエローとシアンを２つ高く」のように発話した場合）であるとする。この場合、グループＩＤ｛ＣＯＬ０００４、ＣＯＬ０００６｝からスライダー名である“イエロー”と“シアン”が２つ以上含まれると判定される。図１６－１（ａ）のようにスライダー名が２つ以上あると判定される場合は、Ｓ１５１８へ進み、そうでなければＳ１５０１へ進む。

Ｓ１５１８では、Ｓ１５１７で判定されたスライダー名毎に、グループＩＤ判定結果を再生成する。例えば、Ｓ１５１７の例であげたようにグループＩＤ判定結果が｛ＣＯＬ０００４、ＣＯＬ０００６、ＮＵＭ００００２、ＤＲＧ０００１３｝であるとする。この場合、｛ＣＯＬ０００４、ＮＵＭ００００２、ＤＲＧ０００１３｝、及び、｛ＣＯＬ０００６、ＮＵＭ００００２、ＤＲＧ０００１３｝のようにスライダー名毎に２つのグループＩＤ判定結果となるようにグループＩＤ判定結果を再生成する。こうすることで、ユーザは一度の発話で同時に２つ以上のスライダーを操作することができる。

以降、グループＩＤ判定結果が｛ＣＯＬ０００４、ＣＯＬ０００６、ＮＵＭ００００２、ＤＲＧ０００１３｝（すなわち、ユーザが「イエローとシアンを２つ高く」のように発話した場合）のときの、Ｓ１５０１からの処理フローについて簡単に説明する。

Ｓ１５１８で再生成された２つのグループＩＤ判定結果｛ＣＯＬ０００４、ＮＵＭ００００２、ＤＲＧ０００１３｝、｛ＣＯＬ０００６、ＮＵＭ００００２、ＤＲＧ０００１３｝である。これらは、それぞれＳ１５０１において図１６－２の音声操作判定情報のグループＩＤ情報とマッチングする。

次に、Ｓ１５０２でマッチングしたと判定されＳ１５０６へ進む。具体的には、２つのグループＩＤ判定結果は、図１６－２の行１６２０及び行１６２４とマッチングする。

Ｓ１５０６では各グループＩＤ判定結果がそれぞれスライダーボタン（すなわち図１６－１（ｂ）の１６０４及び１６０８）であるので、Ｓ１５０８へ進む。

Ｓ１５０８で各グループＩＤ判定結果に回数を指定するグループＩＤ｛ＮＵＭ０００２｝が含まれるので、Ｓ１５１０へ進む。

Ｓ１５１０では回数が具体的な数（すなわち“２”）を示しているのでＳ１５１１へ進む。

Ｓ１５１１では、グループＩＤ情報に対応する画面内の各スライダーボタンの指定回数分の音声操作であると判定する。具体的には、グループＩＤ情報として図１６－２の行１６２０、行１６２４がマッチングしている。そのため、イエローとシアンのスライダーをそれぞれ２回分音声操作（すなわち、ボタン１６０４及びボタン１６０８のスライダーボタンを各２回押下したことに相当）すると判定する。

上記のように処理することで、ユーザが「イエローとシアンを２つ高く」と発話したときに同時に２つ以上のスライダーを操作することができる。

＜備考＞
以上で説明したように、本実施例によれば、複数のスライダー状の操作オブジェクトを備える設定画面において音声操作をおこなうことができる。本実施例では、複数のスライダーを備える設定画面において、特定のスライダーのみ目盛り位置を音声操作することができる。本実施例では、複数のスライダーまとめて移動させることができる。本実施例では、複数のスライダーの移動量を数値で指定することができる。本実施例では、現在の設定状態を加味した設定変更を音声操作で行うことができる。上述したように音声操作に柔軟に対応することができるためユーザビリティに優れる。尚、図１６－２の複数スライダーの音声操作判定情報の例では、図１３のＳ１３０９、Ｓ１３１３、Ｓ１３１５、及び図１４－２のグループＩＤ情報であげた特殊表現や回数算出が必要な例を割愛している。しかしながら、複数スライダーであっても同様の処理を行うことができる。

＜その他の実施例＞
本発明は上記実施例に限定されるものではなく、本発明の趣旨に基づき種々の変形（各実施例の有機的な組合せを含む）が可能であり、それらを本発明の範囲から除外するものではない。即ち、上述した各実施例及びその変形例を組み合わせた構成も全て本発明に含まれるものである。

本発明は、上述の実施例の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

本発明は、複数の機器から構成されるシステムに適用しても、１つの機器からなる装置に適用してもよい。上述実施例では、音声制御プログラム６０１、デバイス制御プログラム８０１、音声データ変換制御プログラム７０１がそれぞれ音声制御装置１００、画像形成装置１０１、サーバ１０２で実行されるとした。しかしながら、マイクロフォンを備えた画像形成装置１０１で各プログラムを全て実行するようにしてもよいし、サーバ１０２だけ分離し、音声制御プログラム６０１とデバイス制御プログラム８０１を画像形成装置１０１で実行するようにしてもよい。

上述実施例では、画像形成装置１０１が提供する操作画面のうちの一部の画面について取り上げ、その操作方法について説明した。しかしながら、自然言語に基づく画面操作、特にスライダー状の操作オブジェクトを備える画面の音声操作を他の画面に適用してもよい。

図１９、図２０、図２１は画像形成装置における設定の項目一覧である。図１９～図２１の表のうち左から一列目は機能分類を示す。ＭＦＰである画像形成装置１０１が備える機能としては、プリント機能（印刷機能）、コピー機能、送信機能が挙げられる。画像形成装置１０１では、これらの機能に関する設定の他、装置が動作するのに必要な本体設定をおこなうことができる。図１９、図２０、図２１の表のうち左から二列目は項目群を示す。項目群は、機能を利用するうえで操作される項目のうち、類似する分類でまとめられた項目のグル―プである。項目群は１または複数の画面として出力される。図１９、図２０、図２１の表のうち左から三列目は項目を示す。項目は、項目群毎に表示される画面において操作可能な操作項目、設定項目である。機能欄および項目群欄が「共通」の項目は、一部の例外となる画面を除き、ほぼすべての画面で利用可能な操作項目である。本発明は前述したレベル調整及び彩度調整に限らず、図１９、図２０、図２１にあげる設定項目の各設定変更に対しても適用できる。また、これらの設定に限らずページ内表示領域のスライドを行う例として、「２つ右のページへ移動」「ページを１／２くらいスクロール」等の音声操作にも適用することができる。

ＡＳＩＣとは、ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔのことである。
ＣＰＵとは、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔのことである。
ＤＮＮとは、ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋのことである。
ＦＡＸとは、Ｆａｃｓｉｍｉｌｅのことである。
ＧＭＭとは、Ｇａｕｓｓｉａｎｍｉｘｔｕｒｅｍｏｄｅｌのことである。
ＨＤＤとは、ＨａｒｄＤｉｓｋＤｒｉｖｅのことである。
ＨＭＭとは、ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌのことである。
ＩＤとは、Ｉｄｅｎｔｉｆｉｃａｔｉｏｎのことである。
ＩＥＥＥとは、ＩｎｓｔｉｔｕｔｅｏｆＥｌｅｃｔｒｉｃａｌａｎｄＥｌｅｃｔｒｏｎｉｃｓＥｎｇｉｎｅｅｒｓのことである。
ＩＰとは、ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌのことである。
ＬＡＮとは、ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋのことである。
ＬＣＤとは、ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙのことである。
ＬＥＤとは、ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅのことである。
ＭＥＭＳとは、ＭｉｃｒｏＥｌｅｃｔｒｏＭｅｃｈａｎｉｃａｌＳｙｓｔｅｍｓのことである。
ＭＦＰとは、ＭｕｌｔｉｆｕｎｃｔｉｏｎＰｅｒｉｐｈｅｒａｌのことである。
ＭＰ３とは、ＭＰＥＧＡｕｄｉｏＬａｙｅｒ－３のことである。
ＰＣとは、ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒのことである。
ＲＡＭとは、Ｒａｎｄｏｍ‐ＡｃｃｅｓｓＭｅｍｏｒｙのことである。
ＲＮＮとは、ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋｓのことである。
ＲＯＭとは、ＲｅａｄＯｎｌｙＭｅｍｏｒｙのことである。
ＳＤカードとは、ＳｅｃｕｒｅＤｉｇｉｔａｌＭｅｍｏｒｙＣａｒｄのことである。
ＳＳＤとは、ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅのことである。
ＴＣＰとは、ＴｒａｎｓｍｉｓｓｉｏｎＣｏｎｔｒｏｌＰｒｏｔｏｃｏｌのことである。
ＵＩとは、ＵｓｅｒＩｎｔｅｒｆａｃｅのことである。

１００音声制御装置
１０１画像形成装置
１０２サーバ装置
１０３クライアント端末
１０４ネットワーク
１０５ゲートウェイ
１０６ユーザ
３０８マイクロフォン
５０９操作パネル（ディスプレイ）
７０１音声データ変換制御プログラム
８０１デバイス制御プログラム

Claims

音を取得するマイクロフォンと、
情報を表示するディスプレイと、
複数のスライダー状の操作オブジェクトを備える画面をディスプレイに表示させる手段と
前記マイクロフォンを介して取得された音声情報に基づき第１の情報と、第２の情報とを含むテキスト情報を取得する手段と、
前記第１の情報に基づいて前記複数の操作オブジェクトから注目操作オブジェクトを特定し、前記注目操作オブジェクトが示す現在の指示位置に係る情報および前記第２の情報に少なくとも基づき指示位置が更新された注目操作オブジェクトを含む複数の操作オブジェクトを備える画面を前記ディスプレイに表示させる手段と、を有することを特徴とする情報処理システム。
前記取得する手段は、テキスト情報と音声情報を対とする教師データに基づき学習した学習モデルを少なくとも用いてテキスト情報を取得することを特徴とする請求項１に記載の情報処理システム。
前記画面を構成するオブジェクトのうち前記取得したテキスト情報に対応するオブジェクトの情報を取得する手段を有することを特徴とする請求項１または２に記載の情報処理システム。
所定のオブジェクトに対応する前記取得したテキスト情報は、前記所定のオブジェクトに付与された名称が含まれないテキスト情報であることを特徴とする請求項３に記載の情報処理システム。
前記テキスト情報は、前記操作オブジェクトの指示位置を更新するための数値情報が含まれることを特徴とする請求項１乃至４のいずれか１項に記載の情報処理システム。
前記テキスト情報は、前記操作オブジェクトの指示位置を更新するための割合情報が含まれることを特徴とする請求項１乃至４のいずれか１項に記載の情報処理システム。
前記画面は前記操作オブジェクトを少なくとも含むスライダー状の複数の操作オブジェクトを備える画面であって、前記テキスト情報は、前記複数の操作オブジェクトのうちの一つの操作オブジェクトを指定するための情報が含まれることを特徴とする請求項１乃至６のいずれか１項に記載の情報処理システム。
前記画面は前記操作オブジェクトを少なくとも含むスライダー状の複数の操作オブジェクトを備える画面であって、前記テキスト情報は、前記複数の操作オブジェクトのうちの一部かつ複数の操作オブジェクトを指定するための情報が含まれることを特徴とする請求項１乃至６のいずれか１項に記載の情報処理システム。
前記画面は前記操作オブジェクトを少なくとも含むスライダー状の複数の操作オブジェクトを備える画面であって、前記テキスト情報は、前記複数の操作オブジェクトの全てを指定するための情報が含まれることを特徴とする請求項１乃至６のいずれか１項に記載の情報処理システム。
前記画面は、コピー機能の設定に係る画面であることを特徴とする請求項１乃至９のいずれか１項に記載の情報処理システム。
前記画面は、送信機能の設定に係る画面であることを特徴とする請求項１乃至９のいずれか１項に記載の情報処理システム。
前記画面は、プリント機能の設定に係る画面であることを特徴とする請求項１乃至９のいずれか１項に記載の情報処理システム。
前記画面は、本体設定に係る画面であることを特徴とする請求項１乃至９のいずれか１項に記載の情報処理システム。
音を出力するスピーカと、
前記更新にともなって前記スピーカを介して報知をおこなう手段と、
を有することを特徴とする請求項１乃至１３のいずれか１項に記載の情報処理システム。
前記報知に用いる合成音声を生成する手段を有することを特徴とする請求項１４に記載の情報処理システム。
前記マイクロフォンおよび前記ディスプレイおよび前記取得する手段を備える装置を有することを特徴とする請求項１乃至１５のいずれか１項に記載の情報処理システム。
前記マイクロフォンおよび前記ディスプレイを備える装置と、
前記取得する手段を備える装置と、
を有することを特徴とする請求項１乃至１５のいずれか１項に記載の情報処理システム。
前記マイクロフォンを備える装置と、
前記ディスプレイおよび前記取得する手段を備える装置と、
を有することを特徴とする請求項１乃至１５のいずれか１項に記載の情報処理システム。
前記マイクロフォンを備える装置と、
前記ディスプレイを備える装置と、
前記取得する手段を備える装置と、
を有することを特徴とする請求項１乃至１５のいずれか１項に記載の情報処理システム。
情報を表示するディスプレイと、
複数のスライダー状の操作オブジェクトを備える画面をディスプレイに表示させる手段と
マイクロフォンを介して取得された音声情報に基づく第１の情報と第２の情報とを含むテキスト情報を取得する手段と、
前記第１の情報に基づいて前記複数の操作オブジェクトから注目操作オブジェクトを特定し、前記注目操作オブジェクトが示す現在の指示位置に係る情報および前記第２の情報に少なくとも基づき指示位置が更新された注目操作オブジェクトを含む複数の操作オブジェクトを備える画面を前記ディスプレイに表示させる手段と、を有することを特徴とする情報処理装置。
複数のスライダー状の操作オブジェクトを備える画面をディスプレイに表示させる工程と
マイクロフォンを介して取得された音声情報に基づく第１の情報と第２の情報とを含むテキスト情報を取得する工程と、
前記第１の情報に基づいて前記複数の操作オブジェクトから注目操作オブジェクトを特定し、前記注目操作オブジェクトが示す現在の指示位置に係る情報および前記第２の情報に少なくとも基づき指示位置が更新された操作オブジェクトを含む複数の操作オブジェクトを備える画面を前記ディスプレイに表示させる工程と、を有することを特徴とする情報処理方法。