以下、本発明を実施するための形態について実施例を挙げ、図面を用いて具体的に説明する。ただし、実施例で挙げる構成要素はあくまで例示であり、本発明の範囲を限定する趣旨のものではない。
(実施例1)
本実施例では、情報処理システムに用いられる情報処理装置の一例として画像形成装置を挙げ、画像形成装置のコピー機能に係る設定画面を音声操作する方法を説明する。特に、スライダーのようなオブジェクトを用いて設定値の変更を行う設定画面を音声操作する方法を説明する。
<システムの構成>
図1は、本実施例のシステム構成の一例を示す図である。図1に示すように、本実施例のシステムは、例えば、音声制御装置100、画像形成装置101、サーバ102、クライアント端末103、ゲートウェイ105で構成される。
音声制御装置100、画像形成装置101、クライアント端末103は、ゲートウェイ105およびネットワーク104を介して互いに通信可能である。なお、音声制御装置100、画像形成装置101、クライアント端末103のそれぞれは、単一接続ではなく複数接続された構成であっても良い。また、音声制御装置100、画像形成装置101、クライアント端末103は、ゲートウェイ105およびインターネットを介してサーバ102に通信可能である。
音声制御装置100(音声入力デバイス)は、ユーザ106の音声操作開始指示に従い、ユーザ106の音声を取得してサーバ102へ符号化された音声データを送信する。音声制御装置100は、例えば、スマートスピーカなどである。なお、本実施例では音声制御装置100と画像形成装置101が独立した構成となっているが、この構成に限定するものではない。音声制御装置100を構成するハードウェア(図3を用いて後述する各ハードブロック)、及び、ソフトウェア機能(図6を用いて後述する各ソフトブロック)の少なくとも一方が画像形成装置101の中に含まれていてもよい。
画像形成装置101(情報処理装置、画像処理装置)は、コピー機能、スキャン機能、プリント機能、FAX機能等の複数の機能を備える複合機である。画像形成装置101は、単体の機能を備えるプリンタやスキャナであってもよい。なお、操作パネル509は図2及び図5で後述する。以下では、画像形成装置101をカラーレーザービーム複合機として説明する。
サーバ102(情報処理装置)は、音声制御装置100で取得されたユーザ106の音声データの音声認識、及び、音声認識結果から画像形成装置101の設定操作・ジョブ実行に関わるワードを判定するための役割を有する。また、画像形成装置101は、音声認識結果またはワードの判定結果に応じてテキストを生成し、そのテキストの内容を音声制御装置100で音声再生するための音声データの合成を行う。なお、ジョブとは、画像形成装置101がプリントエンジン513及びスキャナ515を用いて実現する一連の画像形成処理(例えばコピー、スキャン、プリントなど)の単位を示す。
クライアント端末103は、例えば、ユーザ106が使うパーソナル・コンピュータ(PC)である。クライアント端末103は、電子ファイルを画像形成装置101でプリントするためのプリントジョブを発行する。電子ファイルは、クライアント端末103に保存されていてもよいし、インターネット上の何処かのサーバ上(不図示)、あるいは、画像形成装置101の外部記憶装置505上などに保存されていてもよい。また、クライアント端末103は、画像形成装置101でスキャンされた画像データの受信を行うこともできる。クライアント端末103の動作は本実施例の主旨と直接的に関係しないため、これ以上の詳細な説明は割愛する。
ネットワーク104は、音声制御装置100、画像形成装置101、クライアント端末103、ゲートウェイ105を互いに接続する。ネットワーク104は、音声制御装置100で取得してサーバ102へ送信する音声データ、サーバ102から送信される各データ、及び、プリントジョブやスキャンジョブなどの各種データを送受信する。
ゲートウェイ105は、例えば、IEEE802.11規格シリーズに準拠した無線LANルータなどである。ゲートウェイ105、他の無線通信方式に従って動作する能力を有してもよい。また、無線LANルータではなく、10BASE-T、100BASE-T、1000BASE-Tなどに代表されるEthernet規格に準拠した有線LANルータなどであってもよく、他の有線通信方式に従って動作する能力を有してもよい。なお、前記IEEE802.11規格シリーズとは、IEEE802.11aやIEEE802.11b等のように、IEEE802.11に属する一連の規格を含む。
<画像形成装置の操作パネル>
図2は、画像形成装置101の操作パネル509の構成例を示す図である。
操作パネル509はLED(Light Emitting Diode)やLCD(Liquid Crystal Display)ディスプレイを備え、ユーザ106の操作内容や装置の内部状態を表示する表示部である。また操作パネル509はユーザ106から操作を受け付ける受付部である。操作パネル509は、複数のハードキーを備えるだけでなく、LCDディスプレイと一体となったタッチパネル200を備える。
LCDタッチパネル200は、タッチ操作が可能なディスプレイであり、主なモード設定、状況表示はここで行われる。
ハードキー201~210は情報を入力する入力部であり、例えば、タクトスイッチが用いられる。
テンキー201は、0から9までの数値を入力するためのキーである。IDキー202はIDキーであり、装置がユーザ/部門認証管理されている場合において、認証操作(ログイン/ログアウトの操作など)を行う際に使用されるものである。
リセットキー203は設定されたモードをリセットするためのキーである。ガイドキー204は各モードについての説明画面を表示するためのキーである。ユーザーモードキー205はユーザーモード画面に入るためのキーである。キー206は割り込みコピーを行うためのキーである。
スタートキー207はコピー動作をスタートさせるためのキーである。ストップキー208は実行中のコピージョブを中止させるためのキーである。
電源スイッチ209はソフトスイッチであり、押下することによりLCDタッチパネル200のバックライトが消え、装置は低電力状態に落ちる。節電キー210はキーであり、これを押下することで節電状態に入り、再度押下することで節電状態から復帰する。
調整キー214はLCDタッチパネル200のコントラストを調整するためのキーである。
カウンタ確認キー215はキーであり、このキーを押下することでそれまでに仕様したコピー枚数の集計を表示するカウント画面がLCDタッチパネル200上に表示される。
LED216はジョブの実行中、画像メモリへの画像蓄積中を示すLEDである。LED217がジャム、ドアオープン等装置がエラー状態にあることを示すエラーLEDである。LED218は装置のメインスイッチがONになっていることを示す電源LEDである。
<音声制御装置のハードウェア構成>
図3は、音声制御装置100のコントローラ部300及び音声制御装置100が内蔵しているデバイスのハードウェア構成例を示す図である。
図3に示すように、コントローラ部300は、CPU302、RAM303、ROM304、外部記憶装置305、ネットワークI/F306、マイクI/F307、オーディオコントローラ309、および表示コントローラ311を含む。これらの構成はシステムバス301に接続されており、互いに通信可能である。また、音声制御装置100は、コントローラ部300に付随するデバイスとして、マイクロフォン308、スピーカ310、LED312を含む。
CPU302はコントローラ部300全体の動作を制御する中央演算装置である。RAM303は揮発性メモリである。ROM304は不揮発性メモリであり、CPU302の起動用プログラムが格納されている。外部記憶装置305はRAM303と比較して大容量な記憶デバイス(例えばSDカード)である。外部記憶装置305にはコントローラ部300によって実行される、音声制御装置100の制御用プログラムが格納されている。なお、外部記憶装置305はSDカード以外のフラッシュROMなどに置き換えてもよく、SDカードと同等の機能を有する他の記憶デバイスに置き換えてもよい。
CPU302は電源ON等の起動時、ROM304に格納されている起動用プログラムを実行する。この起動用プログラムは、外部記憶装置305に格納されている制御用プログラムを読み出し、RAM303上に展開するためのものである。CPU302は起動用プログラムを実行すると、続けてRAM303上に展開した制御用プログラムを実行し、制御を行う。また、CPU302は制御用プログラム実行時に用いるデータもRAM303上に格納して読み書きを行う。外部記憶装置305上には制御用プログラム実行時に必要な各種設定などを格納することができる。各種設定はCPU302によって読み書きされる。CPU302はネットワークI/F306を介してネットワーク104上の他の機器との通信を行う。
ネットワークI/F306は、IEEE802.11規格シリーズに準拠した無線通信方式に従って通信を行うための回路やアンテナを含んで構成される。ただし、無線通信方式でなくEthernet規格に準拠した有線通信方式であってもよく、無線通信方式に限定するものではない。
マイクI/F307はマイクロフォン308に接続され、マイクロフォン308から入力されたユーザ106が発した音声を、符号化された音声データ(音声情報)に変換し、CPU302の指示に応じてRAM303に保持する。
マイクロフォン308は、例えば、スマートフォンなどに搭載される小型のMEMSマイクロフォンであるが、ユーザ106の音声を取得できるものであれば他のデバイスに置き換えてもよい。また、マイクロフォン308は、ユーザ106が発した音声の到来方向を算出できるように、3個以上を所定の位置に配して用いることが好ましい。ただし、マイクロフォン308が1個であっても本実施例は実現でき、3個以上にこだわるものではない。
オーディオコントローラ309はスピーカ310に接続され、CPU302の指示に応じて音声データをアナログ音声信号に変換し、スピーカ310を通じて音声を出力する。
スピーカ310は、音声制御装置100が応答していることを表す装置の応答音、及び、サーバ102によって合成された音声合成を再生(報知)する。スピーカ310は音声を再生するための汎用のデバイスであり、その仕組みは本実施例の主旨ではないため、これ以上の説明は割愛する。
表示コントローラ311はLED312に接続され、CPU302の指示に応じてLED312の表示を制御する。ここでは、表示コントローラ311は、音声制御装置100がユーザ106の音声を正しく入力していることを示すためのLEDの点灯制御を主に行う。
LED312は、例えば、ユーザ106が可視可能な青色などのLEDである。LED312は汎用のデバイスであり、本実施例の主旨ではないため、これ以上の説明は割愛する。なお、LED312の代わりに、文字や絵を表示可能なディスプレイ装置に置き換えてもよい。
<サーバのハードウェア構成>
図4は、サーバ102のコントローラ部のハードウェア構成例を示す図である。
図4に示すように、コントローラ部は、システムバス401に接続されたCPU402、RAM403、ROM404、外部記憶装置405、ネットワークI/F406を含む。
CPU402はコントローラ部全体の動作を制御する中央演算装置である。RAM403は揮発性メモリである。ROM404は不揮発性メモリであり、CPU402の起動用プログラムが格納されている。外部記憶装置405はRAM403と比較して大容量な記憶装置(例えばハードディスクドライブ:HDD)である。外部記憶装置405にはコントローラ部が実行する、サーバ102の制御用プログラムが格納されている。なお、外部記憶装置405は、ハードディスクドライブと同等の機能を有する他の記憶装置に置き換えてもよく、例えばソリッドステートドライブ(SSD)などを用いてもよい。
CPU402は電源ON等の起動時、ROM404に格納されている起動用プログラムを実行する。この起動用プログラムは、外部記憶装置405に格納されている制御用プログラムを読み出し、RAM403上に展開するためのものである。CPU502は起動用プログラムを実行すると、続けてRAM403上に展開した制御用プログラムを実行し、制御を行う。また、CPU402は制御用プログラム実行時に用いるデータもRAM403上に格納して読み書きを行う。外部記憶装置405上にはさらに、制御用プログラム実行時に必要な各種設定を格納することができる。各種設定は、CPU402によって読み書きされる。CPU402はネットワークI/F406を介してネットワーク104上の他の機器との通信を行う。
<画像形成装置のハードウェア構成>
図5は、画像形成装置101のコントローラ部500及び画像形成装置101が内蔵しているデバイスのハードウェア構成例を示す図である。
図5に示すように、コントローラ部500は、CPU502、RAM503、ROM504、外部記憶装置505、ネットワークI/F506、ディスプレイコントローラ507、操作I/F508、プリントコントローラ512、およびスキャンコントローラ514を含む。これらの構成は、システムバス501に接続され、互いに通信可能である。
CPU502はコントローラ部500の全体の動作を制御する中央演算装置である。RAM503は揮発性メモリである。ROM504は不揮発性メモリであり、CPU502の起動用プログラムが格納されている。外部記憶装置505はRAM503と比較して大容量な記憶装置(例えばハードディスクドライブ:HDD)である。外部記憶装置505にはCPU502によって実行される、画像形成装置101の制御用プログラムが格納されている。なお、外部記憶装置505はソリッドステートドライブ(SSD)などでもよく、ハードディスクドライブと同等の機能を有する他の記憶装置に置き換えてもよい。
CPU502は電源ON等の起動時、ROM504に格納されている起動用プログラムを実行する。この起動用プログラムは、外部記憶装置505に格納されている制御用プログラムを読み出し、RAM503上に展開するためのものである。CPU502は起動用プログラムを実行すると、続けてRAM503上に展開した制御用プログラムを実行し、制御を行う。また、CPU502は制御用プログラム実行時に用いるデータもRAM503上に格納して読み書きを行う。外部記憶装置505上にはさらに、制御用プログラム実行時に必要な各種設定や、スキャナ515で読み取った画像データを格納することができ、CPU502によって読み書きされる。CPU502はネットワークI/F506を介してネットワーク104上の他の機器との通信を行う。
ディスプレイコントローラ507はCPU502の指示に応じて、接続される操作パネル509のLCDタッチパネル200の画面表示制御を行う。
操作I/F508は操作信号の入出力を行う。操作I/F508は操作パネル509に接続され、CPU502はLCDタッチパネル200が押下されたときに、操作I/F508を介してLCDタッチパネル200の押下された座標を取得する。また、操作I/F508は操作パネル509のハードキー201~210の押下を検知する。
プリントコントローラ512はCPU502からの指示に応じて、接続されるプリントエンジン513に対して制御コマンドや画像データを送信する。
プリントエンジン513は、プリントコントローラ512から受信した制御コマンドに従い、受信した画像データをシートに印刷する。プリントエンジン513の詳細な説明は本実施例の主旨ではないため、これ以上の説明は割愛する。
スキャンコントローラ514はCPU502からの指示に応じて、接続されるスキャナ515に対して制御コマンドを送信し、スキャナ515から受信する画像データをRAM503へ書き込む。
スキャナ515は、スキャンコントローラ514から受信した制御コマンドに従い、画像形成装置101が備える原稿台ガラス上(不図示)の原稿を、光学ユニットを用いて読み取る。スキャナ515の詳細な説明は本実施例の主旨ではないため、これ以上の説明は割愛する。
<音声制御装置の音声制御プログラムの機能構成>
図6は、CPU302が実行する音声制御装置100の音声制御プログラム601の機能構成を示すブロック図である。
音声制御装置100の音声制御プログラム601は、前述のように外部記憶装置305に格納されている。そして、起動時に、CPU302によってRAM303上に展開され実行される。
データ送受信部602は、ネットワークI/F306を介して、ネットワーク104上の他の機器とTCP/IPによるデータの送受信を行う。データ送受信部602では、後述の音声取得部604で取得されたユーザ106の発した音声データをサーバ102に送信する。また、ユーザ106への応答となる、サーバ102上で生成される音声合成データ(合成音声)の受信を行う。
データ管理部603は、音声制御プログラム601の実行において生成した作業データなど様々なデータを外部記憶装置305上の所定の領域へ保存し、管理する。例えば、後述する音声再生部605で再生する音声の音量設定データや、ゲートウェイ105との通信に必要な認証情報、画像形成装置101、及び、サーバ102と通信するために必要な各デバイス情報などが保存、管理される。
音声取得部604は、マイクロフォン308で取得される音声制御装置100の近辺にいるユーザ106のアナログ音声を、音声データに変換し、一時保存する。ユーザ106の音声は、例えば、MP3などの所定のフォーマットに変換され、サーバ102に送信するための符号化された音声データとしてRAM303上に一時的に保存する。音声取得部604の処理開始及びその終了のタイミングは後述する音声制御部609によって管理される。また、音声データの符号化は汎用のストリーミング用フォーマットでもよく、符号化された音声データを順次、データ送受信部602で送信するようにしてもよい。
音声再生部605は、データ送受信部602が受信した音声合成データを、オーディオコントローラ309を介してスピーカ310で再生する。音声再生部605の音声再生のタイミングは後述する音声制御部609によって管理される。
表示部606は表示コントローラ311を介して、LED312の表示を行う。例えば、後述の音声操作開始検知部607で音声操作があることを検知した場合にLED312を表示する。表示部606の表示のタイミングは後述する音声制御部609によって管理される。
音声操作開始検知部607は、ユーザ106の発したウェイクワード、または、音声制御装置100の操作開始キー(不図示)の押下を検知し、音声制御部609へ操作開始通知を送信する。ここで、ウェイクワードとは、予め決められている音声ワードである。音声操作開始検知部607は、マイクロフォン308で取得される音声制御装置100の近辺にいるユーザ106のアナログ音声から、常時ウェイクワードを検知する。ユーザ106はウェイクワードを話し、続いて自身が行いたいことを話すことで画像形成装置101の操作を行うことができる。音声操作開始検知部607がウェイクワードを検知してからの音声処理については後述する。
発話終了判定部608は、音声取得部604での処理の終了タイミングを判定する。例えば、ユーザ106の音声が所定時間(例えば3秒)途切れたときにユーザ106の発話が終了したと判定し、音声制御部609へ発話終了通知を送信する。なお、発話終了の判定は、発話が無い時間(以降、空白時間と呼ぶ)ではなく、ユーザ106の所定の語句から判定して行ってもよい。例えば、「はい」、「いいえ」、「OK」、「キャンセル」、「終了」、「スタート」、「開始」など所定の語句のときには、所定時間を待たずに発話終了と判定してもよい。また、発話終了の判定は、音声制御装置100ではなく、サーバ102で行うようにしてもよく、ユーザの106の発話内容の意味や文脈から発話の終了を判定するようにしてもよい。
音声制御部609は制御の中心であり、音声制御プログラム601内の他の各モジュールが相互に連携して動作するよう制御する。具体的には、音声取得部604、音声再生部605、表示部606の処理開始・終了の制御を行う。また、音声取得部604で音声データが取得された後、音声データをデータ送受信部602でサーバ102へ送信するよう制御する。また、サーバ102からの音声合成データをデータ送受信部602で受信後、音声再生部605で音声合成データを再生するよう制御する。
ここで、音声取得部604、音声再生部605、表示部606の処理開始・終了のタイミングについて述べる。
音声制御部609は、音声操作開始検知部607からの操作開始通知を受信すると、音声取得部604の処理を開始する。また、発話終了判定部608からの発話終了通知を受信すると、音声取得部604の処理を終了する。例えば、ユーザ106がウェイクワードを発話し、続いて「コピーしたい」と話したとする。このとき、音声操作開始検知部607が、ウェイクワードの音声を検知し、音声制御部609に操作開始通知を送信する。音声制御部609は、操作開始通知を受信すると、音声取得部604の処理を開始するよう制御する。音声取得部604は続いて話される「コピーしたい」というアナログ音声を音声データへ変換し一時保存をする。発話終了判定部608は、「コピーしたい」の発話後に空白時間が所定時間あったと判定すると、発話終了通知を音声制御部609に送信する。音声制御部609は、発話終了通知を受信すると、音声取得部604の処理を終了する。なお、音声取得部604が処理を開始してから終了するまでの状態を発話処理状態と呼ぶこととする。表示部606は、発話処理状態であることを示すLED312を点灯表示する。
ユーザ106の発話終了判定後、音声制御部609は、音声データをデータ送受信部602でサーバ102へ送信するよう制御し、サーバ102からの応答を待つ。サーバ102からの応答は、例えば、応答であることを示すヘッダ部と、音声合成データから成る応答メッセージある。音声制御部609は、データ送受信部602で応答メッセージを受信すると、音声再生部605で音声合成データを再生するよう制御する。音声合成データは、例えば、「コピー画面を表示します」である。なお、発話終了判定後から音声合成データの再生終了までの状態を応答処理状態と呼ぶこととする。表示部606は、応答処理状態であることを示すLED312を点滅表示する。
応答処理の後、サーバ102との対話セッションが継続している間は、ユーザ106はウェイクワードを発話することなく、続けて自身の行いたいことを発話することができる。対話セッションの終了判定は、サーバ102が行い、音声制御装置100に対話セッション終了通知を送信することで行う。なお、対話セッション終了から次の対話セッションが開始されるまでの状態を待機状態と呼ぶこととする。音声制御装置100が音声操作開始検知部607からの操作開始通知を受信するまでは、常時待機状態であるとする。表示部606は、待機状態の間、LED312を消灯する。
<サーバの音声データ変換制御プログラムの機能構成>
図7(a)は、CPU402が実行するサーバ102の音声データ変換制御プログラム701の機能構成を示すブロック図である。また、図7(b)は、グループID判定部707がグループIDの判定に使うグループIDリストの例である。グループIDリストは、画像形成装置101のユーザ操作に関して同じ意味や意図を持つワードが同じIDとしてグルーピングされている。なお、前記ワードは、ユーザ106が音声制御装置100に対して発話する言葉を音声認識した結果である。
サーバ102の音声データ変換制御プログラム701は前述のように外部記憶装置405に格納され、CPU402が起動時にRAM403上に展開して実行する。
データ送受信部702は、ネットワークI/F406を介して、ネットワーク104上の他の機器とTCP/IPによるデータの送受信を行う。データ送受信部702では、音声制御装置100からユーザ106の音声データを受信する。また、後述するグループID判定部707で判定されたグループID判定結果の送信を行う。
データ管理部703は、音声データ変換制御プログラム701の実行において生成した作業データや、音声データ変換部704で音声認識処理をするために必要なパラメータなど様々なデータを外部記憶装置405上の所定の領域へ保存し、管理する。例えば、音声認識部705が、データ送受信部702が受信した音声データをテキスト(テキスト情報)へ変換するための音響モデルや言語モデルを外部記憶装置405上の所定の領域へ保存し、管理する。また、形態素解析部706でテキストの形態素解析を行うための辞書を外部記憶装置405上の所定の領域へ保存し、管理する。また、グループID判定部707でグループIDを判定するためのグループIDリストを外部記憶装置405上の所定の領域へ保存し、管理する。また、音声合成部708で音声合成を行うための音声データベースを外部記憶装置405上の所定の領域へ保存し、管理する。また、データ管理部703には、音声制御装置100、及び、画像形成装置101と通信するために必要な各デバイス情報などが保存、管理される。
音声データ変換部704は、音声認識部705、形態素解析部706、グループID判定部707、音声合成部708から成る。以降、音声データ変換部704について説明する。
音声認識部705は、データ送受信部702が受信したユーザ106の音声データを、テキストに変換するための音声認識処理を行う。音声認識処理は、音響モデルを用いてユーザ106の音声データを音素に変換し、さらに言語モデルによるパターンマッチングにより音素を実際のテキストデータに変換する。なお、音響モデルは、DNN-HMMのようにニューラルネットワークによる機械学習手法を用いるモデルであってもよいし、GMM-HMMのように異なる手法を用いたモデルであってもよい。ニューラルネットワークを用いた機械学習では、例えば音声とテキストを対とする教師データに基づいて学習モデルの学習が行われる。言語モデルは、RNNのようにニューラルネットワークによる機械学習手法のモデルを用いるモデルであってもよいし、N-gram手法のように異なる手法を用いるモデルであってもよい。
本実施例では、前記テキストデータは1つ以上のカナから構成されるテキストと、それらを「かな漢字変換」(数字、アルファベット、記号等への変換も含む)したテキストから成るものとする。ただし、音声データをテキストデータへ変換する音声認識処理として他の手法を用いてもよく、前述の手法に限るものではない。音声認識処理の詳細は本実施例の主旨ではないため、これ以上の説明は割愛する。
形態素解析部706は、音声認識部705で変換されたテキストデータを、形態素解析する。形態素解析は、その言語の文法や、品詞などの情報をもつ辞書から形態素列を導出し、さらに各形態素の品詞などを判別する。形態素解析部706は、例えば、JUMAN、茶筒、MeCab等の公知の形態素解析ソフトウェアを用いて実現することができる。形態素解析部706は、例えば、音声認識部705で変換された「コピーをしたい」というテキストデータを、「コピー」、「を」、「し」、「たい」の形態素列として解析する。また、「A3からA4へ」というテキストデータを、「A3」、「から」、「A4」、「へ」の形態素列として解析する。
グループID判定部707は、形態素解析部706で形態素解析された結果と、図7(b)のグループIDリストとをマッチングすることでグループIDを判定し、さらにグループID判定結果を生成する。例えば、「コピー」、「を」、「し」、「たい」の形態素列からは、「コピー」のグループIDである「FNC00001」があると判定され、グループID判定結果として、{ID:FNC00001}を生成する。また、「A3」、「から」、「A4」、「へ」の形態素列からは、「A3」と「A4」のグループIDである「PAP00100」と「PAP00101」が2つあると判定される。そして、グループID判定結果として、{ID:PAP00100、ID:PAP00101}を生成する。
なお、グループID判定結果にIDが複数生成される場合は、音声認識および形態素解析された順に生成されるものとする。例えば、音声認識および形態素解析された結果が「A4」「から」「A3」「へ」である場合は、グループID判定結果は{ID:PAP00101、ID:PAP00100}と生成される。また、隣接する複数の形態素を結合してグループIDリストとマッチングして判定してもよいものとする。この時、1つの形態素がグループIDリストの中から合致するものが見つかり、さらに、その形態素を含む複数の形態素がグループIDリストの中から合致するものが見つかった場合は、後者の結果を用いてグループID判定結果を生成する。例えば、形態素列が「A」「4」であった場合は、グループID判定結果を{ID:CHR00000、ID:NUM00004}ではなく、{ID:PAP00101}として生成する。また、音声認識および形態素解析結果に含まれる1つ以上のカナから構成されるテキストと、それらを「かな漢字変換」したテキストを組み合わせて、グループIDリストのマッチングを行ってもよい。例えば、グループID判定部707は、まず始めに、「かな漢字変換」したテキストとグループIDリストの「かな漢字変換後」に示されたテキストとのマッチングを行う。その結果、マッチングするグループIDが見つからない場合にはカナのテキストとグループIDリストの「カナ」に示されたテキストとがマッチングするグループIDを検出する。また、グループIDリスト内で「カナ」が重複し、複数のグループIDがマッチングする場合は、グループID判定結果を複数の候補として生成してもよい。これにより、「かな漢字変換」の間違いや漢字のふり仮名の違いを許容したグループID判定結果を生成する。
音声合成部708は、画像形成装置101から受信した通知にもとづき、音声合成処理を行う。音声合成処理は、所定の通知に対して、組となる予め用意されたテキストをMP3などの所定のフォーマットの音声データに変換する。受信した通知データと音声合成対象のテキストの組み合わせ例については、後述の図9のシーケンス図で説明する。音声合成処理は、例えば、データ管理部703に保存されている音声データベースにもとづいて音声データを生成する。音声データベースとは、例えば、単語等の定型の内容を発声した音声を集めたデータベースである。なお、本実施例では音声データベースを用いて音声合成処理を行っているが、音声合成の手法として他の手法を用いてもよく、音声データベースによる手法に限定するものではない。音声合成処理の詳細は本実施例の主旨ではないため、これ以上の説明は割愛する。
<画像形成装置のデバイス制御プログラムの機能構成>
図8は、CPU502が実行する画像形成装置101のデバイス制御プログラム801の機能構成を示すブロック図である。
画像形成装置101のデバイス制御プログラム801は前述のように外部記憶装置505に格納され、CPU502が起動時にRAM503上に展開して実行する。
データ送受信部802は、ネットワークI/F506を介して、ネットワーク104上の他の機器とTCP/IPによるデータの送受信を行う。データ送受信部802では、グループID判定部707が生成するグループID判定結果の受信を行う。また、画像形成装置101からサーバ102へ、操作パネル509上のLCDタッチパネル200の画面表示内容が更新されたことを示す画面更新通知、及び、ジョブの状態を示すジョブ実行状態通知を送信する。通知の内容に関しては後述の図9のシーケンス図で説明する。
データ管理部803は、デバイス制御プログラム801の実行において生成した作業データや、各デバイス制御に必要な設定パラメータなど様々なデータをRAM503および外部記憶装置505上の所定の領域へ保存し、管理する。例えば、後述するデバイス制御部808で実行するジョブの各設定項目及び設定値の組み合わせから成るジョブデータや、用紙の属性情報などが設定された機械設定情報が、保存、管理される。また、ゲートウェイ105との通信に必要な認証情報、サーバ102と通信するために必要なデバイス情報などが保存、管理される。また、画像形成装置101で画像形成する対象の画像データを保存し、管理する。また、表示部806が画面表示制御に用いる画面制御情報と、音声操作判定部807が操作を判定するために用いる音声操作判定情報を保存し、画面制御情報と音声操作判定情報は、表示部806が表示する画面ごとに管理する。
スキャン部804は、後述するデバイス制御部808のスキャンジョブパラメータ設定に基づいて、スキャンコントローラ514を介してスキャナ515でスキャンを実行し、読み取った画像データをデータ管理部803に保存する。
プリント部805は、後述するデバイス制御部808のプリントジョブパラメータ設定に基づいて、プリントコントローラ512を介してプリントエンジン513で印刷を実行する。
表示部806はディスプレイコントローラ507を介して、操作パネル509の制御を行い、前記の画面表示制御情報に基づいてユーザ操作可能なUI部品(ボタン、プルダウンリスト、チェックボックスなど)をLCDタッチパネル200に表示する。また、操作I/F508を介して、LCDタッチパネル200(以降、画面等と呼ぶ)上のタッチされた座標を取得し、操作対象のUI部品と操作受付時の処理内容を決定する。また、操作パネル509上のハードキー201~210の押下を検出する。これらの結果に応じて、画面の表示内容を更新したり、ユーザ操作により設定されたジョブのパラメータおよび当該ジョブの開始指示をデバイス制御部に送信したりする。また、後述する音声操作判定部807の音声操作判定結果に応じても同様に、画面の表示内容を更新したり、ユーザ操作により設定されたジョブのパラメータおよび当該ジョブの開始指示をデバイス制御部に送信したりする。
音声操作判定部807は、データ送受信部802が受信したグループID判定結果に基づいて、操作パネル509に表示される画面を構成するユーザ操作可能なUI部品、または、操作パネル509を構成するハードキー201~210を操作対象として判定する。音声操作判定部807の詳細は図11で後述する。
デバイス制御部808は、プリントコントローラ512、及び、スキャンコントローラ514を介して、プリントエンジン513、及び、スキャナ515の制御指示を行う。例えば、表示部806がコピー機能画面を表示中にスタートキー207の押下を検知した場合、デバイス制御部808は表示部806からコピージョブのパラメータとジョブ開始指示を受信する。そのジョブパラメータに基づいて、スキャナ515によって読取られた画像データをプリントエンジン513でシートに印刷するよう制御する。なお、スキャン、及び、プリント制御の仕組みについては、本実施例の主旨ではないため、これ以上の説明は割愛する。
<システムの制御シーケンス>
図9は、図1で示したシステムを構成する各装置、及び、図6~図8で示した各装置の制御プログラム間のやりとりを示すシーケンス図である。特に、図9は、音声制御装置100がユーザ106から発せられた声による音声操作を受け、それによって画像形成装置101が各処理を実行し、その実行結果を示す応答をユーザ106に音声で返すためのシーケンスを示す。
なお、図9で示すシーケンスの例では、音声制御装置100、画像形成装置101、サーバ102は互いに通信可能な状態であるとする。また、画像形成装置101は、電源ONの起動後にコピー、スキャン、プリントなどの機能を呼び出し可能なメインメニュー画面を表示している状態であるとする。
まず、ステップ905(以降、S905のように表記する)では、ユーザ106が音声制御装置100に対して音声操作の開始を指示する。音声操作の開始の指示は、ユーザ106がウェイクワードを発声する、もしくは、音声制御装置100の操作開始キーの押下することで行われ、それらの音声操作開始指示は音声操作開始検知部607によって検知される。
音声操作開始指示が検知されると、次にS906では、音声制御プログラム601の表示部606が、発話処理状態を示すLEDを点灯する。また、同時に音声取得部604の処理を開始する。
S907では、ユーザ106が機能呼び出し指示を音声制御装置100に対して行う。機能呼び出し指示は、例えば、ユーザ106がS905のウェイクワードに続いて「コピーしたい」や「コピー画面を開いて」と発声することであり、音声取得部604によって取得された音声が音声データとして生成される。空白時間が所定時間経過すると、発話終了判定部608は発話が終了したと判定する。
S908では、音声制御プログラム601の表示部606が、発話終了判定に応じて応答処理状態を示すLEDを点滅する。また、同時に音声取得部604の処理を終了する。
S907の機能呼び出し指示の音声データが生成されると、次にS909では、データ送受信部602が、生成された音声データをサーバ102に送信する。
S910では、音声データ変換制御プログラム701のデータ送受信部702が受信した音声データに対して、音声認識部705が音声認識処理を行う。音声認識処理によって、例えば、ユーザ106が発した「コピーしたい」という音声が、テキストとして生成される。
その後、S911では、音声データ変換制御プログラム701の形態素解析部706がS910で生成されたテキストに対して形態素解析処理を行う。形態素解析処理によって、例えば、「コピーしたい」というテキストが、「コピー」、「し」、「たい」という形態素列として解析される。
S912では、音声データ変換制御プログラム701のグループID判定部707の、解析された形態素列のテキストに対してグループID判定処理を行う。グループID判定処理によって、例えば、「コピー」、「し」、「たい」という形態素列と図7(b)のグループIDリストとのマッチングにより、グループID判定結果として{ID:FNC00001}が生成される。
S913では、音声データ変換制御プログラム701のデータ送受信部702が、S911のグループID判定結果を画像形成装置101に送信する。
S914では、デバイス制御プログラム801のデータ送受信部802が受信したグループID判定結果に対して、音声操作判定部807が音声操作判定処理を行う。音声操作判定処理によって、例えば、グループID判定結果{ID:FNC00001}から、メインメニュー画面内の“コピー”ボタンが選択されたと判定される。
その後、S915では、S914の判定結果に応じて、表示部806が画面に表示する内容更新する。例えば、これまでの処理を通じて、ユーザが発する「コピーしたい」の音声から、画面に表示される“コピー”ボタンに対する操作であると判定された場合は、LCDタッチパネル200で“コピー”ボタンがタッチされる場合と同様に、コピー機能画面を表示する。
S916では、データ送受信部802によって、サーバ102へ、画面の表示内容が更新されたことを示す画面更新通知を送信する。例えば、表示部806がメインメニュー画面からコピー機能画面へ表示が変更した場合、画面更新通知として「コピー機能画面表示」というテキストデータを送信する。
S917では、音声データ変換制御プログラム701のデータ送受信部702が受信した画面更新通知に対して、音声合成部708が画面更新通知の内容に対応する所定のテキストデータの音声合成処理を行う。例えば、画面更新通知の内容が「コピー機能画面表示」の場合、音声合成部708は、「コピー画面を表示しました」というテキストデータを音声合成する。音声合成部708が音声合成処理によって生成した音声データ(音声合成データ)は、データ送受信部702によって音声制御装置100へと送信される。
S918では、データ送受信部602が、917で生成および送信された音声合成データを受信する。
S919では、音声再生部605が、918で受信した音声合成データを再生する。例えば、917で生成した「コピー画面を表示しました」という音声合成データを、スピーカ310を通じて再生する。
S920では、音声合成データ再生後、音声制御プログラム601の表示部606が、発話処理中を示すLEDを再び点灯する。また、同時に音声取得部604の処理を再び開始する。
S921では、ユーザ106が設定画面呼び出し指示を音声制御装置100に対して行う。設定画面呼び出し指示は、例えば、ユーザ106が「用紙を選択」と発声することであり、音声取得部604によって取得された音声が音声データとして生成される。ユーザ106の発話後、空白時間が所定時間経過すると、発話終了判定部608は発話が終了したと判定する。
S922は、前述のS908と同様である。
S923は、前述のS909~S918の処理と同様の音声操作処理を示す。ただし、S923では、S921の設定画面呼び出し指示に伴って、表示部806が設定画面を表示するよう画面更新する。例えば、コピー機能画面を表示している場合、グループID判定結果が{ID:PAP00000、ID:OPR00040}のとき、用紙選択画面を表示する。
S924は、音声再生部605が、S923での音声合成処理で生成した音声合成データを再生する。例えば、S923で設定画面として用紙選択画面を表示した場合は「用紙選択画面を表示しました。続いて用紙を設定してください。」という音声合成データを、スピーカ310を通じて再生する。
S925は、前述のS920と同様である。
S926では、ユーザ106が設定変更指示を音声制御装置100に対して行う。設定変更指示は、例えば、ユーザ106が「A4」と発声することである。ユーザ106の発話後、空白時間が所定時間経過すると、発話終了判定部608は発話が終了したと判定する。
S927は、前述のS908と同様である。
S928は、前述のS909~S918の処理と同様の音声操作処理を示す。ただし、S928では、S926の設定変更指示に伴って、表示部806が設定画面に表示する設定値を変更する。例えば、用紙選択画面を表示している場合、グループID判定結果が{ID:PAP00101}のとき、用紙の設定値をA4に変更した用紙選択画面を表示する。
S929は、音声再生部605が、S928での音声合成処理で生成した音声合成データを再生する。例えば、S928で用紙の設定値を変更して表示した場合は「用紙をA4に設定しました」という音声合成データを、スピーカ310を通じて再生する。
S935は、前述のS920と同様である。
S936では、ユーザ106がジョブ実行指示を音声制御装置100に対して行う。ジョブ実行指示は、例えば、ユーザ106が「コピースタート」と発声することである。ユーザ106の発話後、空白時間が所定時間経過すると、発話終了判定部608は発話が終了したと判定する。
S937~S942は、前述の909~913と同様の処理である。
S943では、デバイス制御プログラム801のデータ送受信部802が受信したグループID判定結果に対して、音声操作判定部807が音声操作判定処理を行う。グループID判定結果が{ID:FNC00001、ID:OPP00011}である場合、画面に表示している“コピースタート”ボタン、もしくは、ハードキーであるスタートキー207が操作されたと判定される。
S944では、S943の判定結果に応じて、ジョブの実行画面を表示する。例えば、これまでの処理を通じて、ユーザが発する「コピースタート」の音声が、スタートキー207に対する操作であると判定された場合は、コピージョブ開始の画面を表示する。
S945では、画像形成装置101の画面で設定されたジョブパラメータに従って、ジョブを実行する。
S946では、データ送受信部802によって、サーバ102へ、ジョブ実行状態通知の内容として、ジョブ実行を開始したことを示す情報(ジョブ実行開始通知)を送信する。例えば、コピージョブを開始した場合、ジョブ実行状態の内容として「コピージョブ開始」というテキストデータを送信する。
S947では、音声データ変換制御プログラム701のデータ送受信部702ジョブ実行状態通知を受信し、音声合成部708がその内容(ジョブ実行開始通知)に対応する所定のテキストデータの音声合成処理を行う。例えば、ジョブ実行状態通知の内容が「コピージョブ開始」の場合、音声合成部708は、「コピーを開始します」というテキストデータを音声合成する。
S948は、前述のS918と同様である。
S949では、音声再生部605が、S948で受信した音声合成データを再生する。例えば、S947で生成した「コピーを開始します」という音声合成データを、スピーカ310を通じて再生する。
S950では、データ送受信部802によって、サーバ102へ、ジョブ実行状態通知の内容として、ジョブ実行を終了したことを示す情報(ジョブ実行終了通知)を送信する。例えば、コピージョブを終了した場合、ジョブ実行状態通知の内容として「コピージョブ終了」というテキストデータを送信する。
S951では、音声データ変換制御プログラム701のデータ送受信部702がジョブ実行状態通知を受信し、音声合成部708がその内容(ジョブ実行終了通知)に対応する所定のテキストデータの音声合成処理を行う。例えば、ジョブ実行状態通知の内容が「コピージョブ終了」の場合、音声合成部708は、「コピーを終了しました」というテキストデータを音声合成する。
S952では、S945のジョブ実行処理が終了したことを受けて、表示部806はジョブの実行終了画面を表示する。例えば、コピージョブの実行が終了した場合、コピージョブ終了の画面を表示する。
S953では、データ送受信部602が、S951で生成した音声合成データをサーバ102から受信する。また、音声制御装置100に対して、ユーザ106との対話セッションを終了するよう通知する対話セッション終了通知をサーバ102から受信する。
S954では、音声再生部605が、S953で受信した音声合成データを再生する。例えば、S951で生成した「コピーを終了しました」という音声合成データを、スピーカ310を通じて再生する。
S955では、S953で対話セッション終了通知を受信したことに対応して、音声制御プログラム601の表示部606が、音声制御装置100の待機状態を示すためにLEDを消灯する。
S956では、S953で対話セッション終了通知を受信したことに対応して、音声制御装置100を待機状態へ移行する。
なお、シーケンス図上で、応答処理中を示すLEDが点滅中であってもウェイクワードは常に入力可能である。ユーザ106はウェイクワードの発話に続いて「キャンセル」、または「中止」などと発言することで、対話セッションを強制的に終了するようにしてもよい。
<画像形成装置101のデバイス制御プログラム801の処理フロー>
図10は画像形成装置101のデバイス制御プログラム801の処理の概要を示すフローチャートである。特に、図10は、図9のシーケンス図のS914、S915、S923、S928、S933、S943~S952におけるデバイス制御プログラム801の処理フローを示す例である。
以降、図10が示す処理フローの一例を具体的に説明するために図11および図12を用いる。図11は、図7(b)で示したグループIDリストに追加される、グループIDリストの別の一例である。図12(a)は、表示部806が表示する画面の一例である。図12(b)は、図12(a)で示す画面に対応する画面制御情報の一例である。画面制御情報には、画面を構成するユーザ操作可能なUI部品と、それらがユーザ操作された時のアクション(画面制御の内容や、内部の処理)が含まれる。図12(c)は図12(a)で示す画面に対応する音声操作判定情報の一例である。音声操作判定情報は、ユーザ操作可能なUI部品と1つ以上のグループID判定結果の対応付けが予め行われているものとする。なお、図12(c)で示す表のうち、「操作時のユーザ発話例」と「操作パネルの操作方法」は下記説明のための参考情報であり、データ管理部803が管理する音声操作判定情報に含まれなくてもよい。図12(a)に示す画面はスライダー状の操作オブジェクトを備える画面である。図24はスライダー状の操作オブジェクトを説明する図である。本実施例では、次のような操作オブジェクトをスライダー状の操作オブジェクト(スライダー、スライドバー、スクロールバー、トラックバー)と呼ぶ。調整値や設定の状態をつまみ(スクローラ、バブル、サム、スクロールボックス、ノブ、エレベーター、クイント、パック、ワイパー、グリップ)の位置(指示位置)で示す。移動ボタン(アローボタン)の押下、または、つまみのドラッグ操作でつまみの位置を移動することができる。なお、つまみの移動方法は上述のうちの一方のみに対応していてもよいし両方に対応していてもよい。また、本体部分に目盛りがあってもよく、無くてもよい。
S1001では、データ送受信部802が、グループID判定部707で生成されたグループID判定結果を受信する。
S1002では、表示部806が表示している画面に対応する画面制御情報と、音声操作判定部807が操作対象を判定するために用いる音声操作判定情報を取得する。例えば、表示部806が図12(a)で示す画面を表示している場合には、本画面に対応する図12(b)の画面制御情報と図12(c)の音声操作判定情報を取得する。
S1003では、音声操作判定部807が、S1001で受信したグループID判定結果と、S1002で取得した音声操作判定情報を用いて音声操作判定処理を行う。この時、音声操作判定処理では、操作パネル509に表示される画面を構成するユーザ操作可能なUI部品、または、操作パネル509を構成するハードキー201~210を操作対象として判定する。例えば、ユーザ106による発話の一例である「自動」の音声から、グループID判定部707が判定したグループID判定結果{ID:DRG00008}が送信される。データ送受信部802はS1001でこれを受信し、本グループID判定結果と合致する「自動(カラー/白黒)」ボタンを操作対象として判定する。
なお、音声操作判定処理の詳細なフローおよび判定処理例については、図14以降で説明する。
S1004では、表示部806が、S1003の音声操作判定処理の結果と、S1002で取得した画面制御情報に基づいて、画面の表示内容を更新して表示する。例えば、S1003にて「自動(カラー/白黒)」ボタンが操作対象として判定されると、図12(b)の画面制御情報に基づいて、表示部806が当該ボタンを強調表示するように画面を更新する。なお、図12(c)では、操作パネル509のLCDタッチパネル200上に表示された「自動(カラー/白黒)」ボタンがタッチされた時も同様に、当該ボタンを強調表示することが示されている。
尚、S1003の音声操作判定処理の結果が、スライダー画面への遷移に関する音声指示であった場合は、該当するスライダー画面へ更新表示する。また、後述のS1309~S1315のようにS1003の音声操作判定処理の結果が、スライダーの移動指示であった場合は次のように処理する。すなわち、図14-1(b)の画面制御情報及び図14-2の音声操作判定情報に基づいてスライダーの目盛り位置(指示位置)を変更して画面を更新表示する。このとき、スライダーの指示位置変更は、後述するS1306で読み出したその時点のスライダーの指示位置に基づいて行われる。スライダーによる設定の完了後、デバイス制御プログラム801のデータ管理部803の設定パラメータの更新が行われる。
S1005では、S1003の音声操作判定処理の結果と、S1002で取得した画面制御情報に基づいて、ジョブ実行を行うか否かを判定する。ジョブ実行を行う場合はS1007へ進み、そうでなければS1006へ進む。例えば、S1003にて「自動(カラー/白黒)」ボタンが操作対象として判定された場合は、図12(b)中の内部処理がないことからジョブ実行を行わないと判定する。また、例えば、S1003にてスタートキー207が操作対象として判定された場合は、図12(b)中の内部処理として「コピージョブの実行を開始」することから、ジョブ実行を行うと判定する。
S1006では、前述のS916が示すようにデータ送受信部802によって、画面更新通知をサーバ102へ送信する。
S1007では、ジョブパラメータの設定値に基づいて、ジョブ実行処理を行う。ジョブ実行処理によって、画像形成装置101は、一連の画像形成処理(例えばコピー、スキャン、プリントなど)を実行する。例えば、図12(a)の画面が示すように、「自動(カラー/白黒)」ボタンが強調表示されている状態でコピージョブの実行を開始する時には、この時の「自動(カラー/白黒)」の設定値をジョブパラメータとしてジョブの実行を行う。
S1008では、前述のS946およびS950が示すようにデータ送受信部802によって、ジョブ実行状態通知をサーバ102へ送信する。
<システムとユーザ間のインタラクションの例>
図17は、図9のシーケンスと図10、図13で示す処理フローのうち、ユーザ106からの音声操作とその時のシステムからのインタクラクションの一例をより具体的に説明するための模式図である。図17では、ユーザ106の音声操作としての発話例と、その発話に応じてシステムが音声制御装置100の音声処理状態を示すLEDの対応関係と流れを示している。また、画像形成装置の操作パネル509に表示する画面、および、音声制御装置100で再生する応答用の音声の対応関係と流れを示している。
まず、システムはLED消灯にて音声待機状態であることを示し、操作パネル509にはトップ画面を表示している(S1701)とする。この時に、ユーザ106がウェイクワードを発話する(S1702)と、システムは音声操作の受付を開始し、発話処理状態を示すLEDを点灯する(S1703)。なお、S1702は図9中のS905、S1703は906の具体的な一例である。ウェイクワードに続いて、ユーザ106が「コピーをしたい」と発話する(S1704)と、システムは応答処理状態を示すLEDを点滅させ(S1705)、コピートップ画面を表示する(S1706)。そして、システムは「コピー画面を表示しました」という応答用の音声を再生し(S1707)、ユーザ106に次の発話を促すためにLEDを再点灯する(S1708)。なお、S1704は図9中のS907、S1705はS908、S1706はS915、S1707は919、S1708はS920の具体的な一例である。
次に、ユーザ106が「原稿の種類」と発話する(S1709)と、システムはLEDを点滅させ(S1710)、原稿の種類設定画面を表示する(S1711)。そして、システムは「原稿の種類を変更できます」という応答用の音声を再生し(S1712)、LEDを点灯する(S1713)。なお、S1709は図9中のS921、S1710はS922、S1711はS915、S1712はS924、S1713はS925の具体的な一例である。
次に、ユーザ106が「レベル調整」と発話する(S1714)と、システムはLEDを点滅させ(S1715)、レベル調整設定画面を表示する(S1716)。そして、システムは「レベル調整を変更できます」という応答用の音声を再生し(S1717)、LEDを点灯する(S1718)。なお、S1714は図9中のS921、S1715はS922、S1716はS915、S1717はS924、S1718はS925の具体的な一例である。
次に、ユーザ106が「写真を優先ボタンを3回選択」と発話する(S1719)と、システムはLEDを点滅させ(S1720)、レベル調整(すなわちスライダー)を右へ3つ移動変更する(S1721)。そして、システムは「レベル調整を変更しました」という応答用の音声を再生し(S1722)、LEDを点灯する(S1723)。スライダーの操作についての詳細は図13で後述する。なお、S1719は図9中のS926、S1720はS927、S1721はS915、S1722はS929、S1723はS925の具体的な一例である。
次に、ユーザ106が「OK」と発話する(S1724)と、システムはLEDを点滅させ(S1725)、レベル調整反映後の原稿の種類設定画面を表示する(S1726)。そして、システムは「設定を確定しました」という応答用の音声を再生し(S1727)、LEDを点灯する(S1728)。なお、S1724は図9中のS931、S1725はS932、S1726はS915、S1727はS934、S1728はS935の具体的な一例である。
次に、ユーザ106が「コピー開始」と発話する(S1729)と、システムはLEDを点滅させ(S1730)、コピージョブを実行する。コピージョブの実行が開始されると、システムはコピージョブ実行中の画面を表示する(S1732)とともに、「コピーを開始します」という応答用の音声を再生する(S1731)。そして、コピージョブの実行が完了すると、システムはコピージョブ実行終了画面を表示するとともに、「コピーを終了しました」という最終応答用の音声を再生し(S1733)、音声受付が終了したことを示すためにLEDを消灯する(S1734)。なお、S1729は図9中のS936、S1730はS937、S1732はS944、S1731はS949、S1733はS954、S1734はS955の具体的な一例である。
<スライダーの音声操作>
S1719~S1721で一例を挙げたスライダーの音声操作について、本実施例では多様な操作方法を提供する。図22(a)~図22(f)は、スライダーを音声操作する具体例を示す図である。
図22(a)は、「スライダーを右へ」という発話によって指示位置を中央からその1つ右隣に移動させる様子を示している。図12(a)の画面と同様の操作方法であれば「写真を優先ボタンを一回選択」等のボタンに付与されたボタン名称を含む音声操作が行われる。本実施例では、このような通常の音声操作方法に加え、スライダーを含む画面に特有の音声操作方法(「右」や「左」等の方向を示す単語でスライダーを移動させる方法)を利用することができる。
また、この画面では、同様の音声操作を複数回繰り返して行うことができる。図22(b)は、図22(a)でスライダーを移動した状態から、さらに移動した状態を示している。本実施例では、先に移動したスライダーの位置を記憶しているため、2回目の「スライダーを右へ」という音声操作で、スライダーの位置が中央の2つ右隣へと移動する。
なお、「スライダーを右へ」という発話と「スライダーを右端へ」という発話を区別できるようにしてもよい。「スライダーを右端へ」という発話は、図22(d)に示すように、スライダーを一番右端へ(中央から4つ右隣りへ)と移動させる音声操作である。同様に、「スライダーを中央へ」や「スライダーを左端へ」等の音声操作を可能にしてもよい。ただし、スライダーの現在位置に基づかないスライダー操作は本実施例の主旨ではないため、その詳細な説明を割愛する。
また、スライダーの指示位置が、図22(d)のようにスライダーの右端にある場合、スライダーをこれ以上右に移動することができない。そのため、図22(d)の状態でスライダーを更に右へと移動させる音声操作があった場合、スライダーの移動を行うことは不可と判断し、指示位置の移動は行わない。このとき、移動不可であることを示す一時表示(例えばポップアップ表示)を行ってもよい。また、図9のS929の音声合成データ再生時に、スライダーの移動が不可であることを音声でアナウンスするようにしてもよい。
図22(c)は、「スライダーを2つ右へ」または「スライダーを少し右へ」という発話によって指示位置を中央からその2つ右隣に移動させる様子を示している。このように、一度の発話で複数回分のスライダー移動を可能にすることで操作性を向上させることができる。また、「少し」等のあいまい表現に対応することでユーザに直感的な操作環境を提供できる。
図22(e)および図22(f)は「スライダーを1/4くらい右へ」という発話によって指示位置を移動させる様子を示している。このように、割合表現を用いる音声操作に対応することで、より柔軟な音声操作が可能となる。なお、このように割合表現を用いる場合、現在の指示位置によって移動するスライダーの目盛り量を異なる。図22(e)では、現在指示位置が中央であり、右方向に残り4目盛りあるため、「スライダーを1/4くらい右へ」という音声操作では1目盛り右に移動する。図22(f)では、現在指示位置が左端であり、右方向に残り8目盛りあるため、「スライダーを1/4くらい右へ」という音声操作では2目盛り右に移動する。
<音声操作判定部の処理フロー>
図13は画像形成装置101の音声操作判定部807の処理の概要を示すフローチャートである。図13は、図10のS1003、及び、図9のS914、S943の処理に対応している。また、図14は、図13の音声操作判定処理によって操作を判定するときの画面例、及び、従来の操作方法(操作パネルのボタンやハードキー押下による方法)と音声による操作方法の例である。以下、図13と図14を用いて音声操作判定部807の処理フローについて説明する。
まず、図14について説明する。図14-1(a)は画像形成装置101のコピーのレベル調整における、文字・写真の読み取り優先度の画面例である。
ボタン1401~1402は文字・写真のどちらの度合いを優先するかを調整するスライダーボタン、すなわち画面中央のスライダーを操作するためのボタンである。スライダーは、左右いずれかのスライダーボタンを押下することで中央にあるスライダーのバーの位置を左右へ調整し、段階的に値を変更することができる。また、ボタン1403は設定を取り消すためのボタン、ボタン1404は設定を反映するためのOKボタンである。図14-1(b)は、図14-1(a)で示す画面における画面制御情報の一例である。図14-2は、図14-1(a)で示す画面における音声操作判定情報の一例である。図14-2の行1405~行1416は、音声操作判定情報の各行を示している。
以下、図13の処理フローについて図14-1(a)で示す画面と、図14-1(b)、(c)の画面制御情報と音声操作判定情報の例を用いて説明する。
S1301において、音声操作判定部807は、図10のS1001で受信したグループID判定結果と、S1002で取得した音声操作判定情報に含まれるボタンのグループID情報とをマッチングする。例えば、図14-1(a)の画面を表示しているとき、グループID判定結果が{ID:NUM00003、POS00016、FIN00011}(すなわち、ユーザ106が「3つ左へ移動」と発話したときのグループID判定結果)であるとする。この場合、図14-2の音声操作判定情報の行1405~行1414の「表示画面のグループID情報」列のグループID情報とグループID判定結果とをマッチングする。このとき、行1406のグループID「NUM00003+POS00016+FIN00011」がヒットし、マッチング成功となる。
S1302において、音声操作判定部807は、S1301でマッチング成功したか否かを判定する。マッチング成功した場合は、S1306へ進み、そうでなければS1303へ進む。
S1303において、音声操作判定部807は、図10のS1001で受信したグループID判定結果と、S1002で取得した音声操作判定情報に含まれるハードキーのグループID情報とをマッチングする。例えば、図14-1(a)の画面において、サーバ102におけるグループID判定結果が{ID:OPR00011}(すなわち、ユーザ106が「スタート」と発話したときのグループID判定結果)であるとする。この場合、そのID判定結果と音声操作判定情報のハードキーのグループID情報とをマッチングする。このとき、音声操作判定情報より、グループID「OPR00011」がヒットし、マッチング成功となる。
S1304において、音声操作判定部807は、S1303でマッチング成功したか否かを判定する。マッチング成功した場合は、S1305へ進み、そうでなければ音声操作判定処理を終了する。
S1305において、音声操作判定部807は、S1303でマッチングしたハードキーの音声操作であると判定し、音声操作判定処理を終了する。例えば、グループID情報が「OPR00011」である“スタート”がヒットした場合、スタートキー207を音声操作したものと判定し、音声操作判定処理を終了する。
S1306において、音声操作判定部807は、S1301でのマッチング結果の操作対象がスライダーボタンであるかどうかを判定する。例えば、「文字を優先を選択」という発話内容について、図14-2の音声操作判定情報の行1405~1412でマッチング判定した場合、行1405がマッチングする。行1405は「番号」列が番号1401であるので、図14-1(b)の画面制御情報より、操作対象はスライダーボタンであると判定される。
スライダーボタンであると判定された場合は、操作対象のスライダーの指示位置を読み出す。例えば図14-1(a)では、スライダーの指示位置は“0”(右側をプラス、左側をマイナスとする)である。スライダーの目盛り移動は、ここで読み出した指示位置に基づいて行われる。マッチングした操作対象がスライダーボタンであった場合はS1308へ進み、そうでなければS1307へ進む。
S1307において、音声操作判定部807は、S1301でマッチングした結果が操作画面内の一般ボタンの音声操作であると判定し、音声操作判定処理を終了する。例えば、グループIDが「OPR00010」である“OK”がマッチングした場合、図14-2の音声操作判定情報の行1414から、「番号」列が1404であるので、図14-1(b)の画面制御情報より一般ボタンの“OK”の音声操作であると判定される。
S1308において、音声操作判定部807は、グループID判定結果に回数を指定するグループIDが含まれているかどうかを判定する。例えば、図10のS1001で受信したグループID判定結果に“3つ”を意味する{ID:NUM00003}が含まれているとする。この場合、グループID判定結果に回数を指定するグループIDが含まれていると判定される。数を示すグループIDは図7よりNUM00001~NUM99999が対応するが、スライダーの調整幅は最大でも8つ程度である。そのため、回数を指定するグループIDはスライダーの最大調整幅までの範囲(ここではNUM00001~NUM00008)とする。回数を指定するグループIDが含まれていればS1310へ進み、そうでなければS1309へ進む。
S1309において、音声操作判定部807は、S1301でマッチングした結果が操作画面内のスライダーボタンの一回分の音声操作であると判定する。そして、音声操作判定処理を終了する。例えば、グループID情報として図14-2の行1405、行1409がマッチングしたとする。この場合、スライダーボタン1回分の音声操作(すなわち、1401または1402のスライダーボタンを一回押下したことに相当)であると判定される。
S1310において、音声操作判定部807は、S1308で判定された回数を指定するグループIDが具体的な数を示しているかどうかを判定する。例えば、ここではグループID判定結果にNUM00001~NUM00008が含まれている場合は、具体的な数を示していると判定する。具体的な数であればS1311へ進み、そうでなければS1312へ進む。
S1311において、音声操作判定部807は、S1301でマッチングした結果が操作画面内のスライダーボタンの指定回数分の音声操作であると判定し、音声操作判定処理を終了する。例えば、グループID情報として図14-2の行1406、行1410がマッチングしたとする(例えば、ユーザ106が「文字を優先を2回選択」と発話したときに行1406とマッチングする)。この場合、スライダーボタン指定回数分の音声操作(すなわち、番号1401または番号1402のスライダーボタンを指定回数押下したことに相当)であると判定する。
S1312において、音声操作判定部807は、S1308で判定された回数を指定するグループIDが特殊回数表現であるか回数算出が必要であるかを判定する。ここで、特殊回数表現とは、“少し”、“ちょっと”などのことを示し、図11のグループIDの{DRG00018}がそれに対応する。特殊回数表現は、これに限らず量や回数を曖昧に指示する表現(例えば、“ほとんど”、”大分”、”やや”)などの表現を含めてもよい。また、回数算出が必要とは、例えば分数表現が含まれる場合のことを示し、図11のグループIDの{FRG00103}などの”1/3”などがそれに対応する。
S1313において、音声操作判定部807は、S1301でマッチングした結果が操作画面内のスライダーボタンの特殊表現における所定回数分の音声操作であると判定し、音声操作判定処理を終了する。例えば、グループID情報として図14-2の行1407、行1411がマッチングしたとする。この場合、グループID{DGR00018}を所定回数の2回分としてスライダーボタンを2回分の音声操作(すなわち、番号1401または番号1402のスライダーボタンを指定回数押下したことに相当)であると判定する。ここで、“少し”のグループIDである{DGR00018}を所定回数の2回としたが、これは設定で変更できる値であり、2回に限定するものではない。
S1314において、音声操作判定部807は、回数を算出する。例えば、グループID情報が{FRG00103、POS00012}(すなわち、“1/3”と“右”を示す)である場合、現在のスライダーの位置と、右の残目盛り数から移動回数を算出する。具体的には、図14-1(a)のように現在のスライダーのバーの位置が中央の場合、右の残目盛り数は4であるので、4×1/3=1.333≒1とし、移動回数を1と算出する。このように、現在のスライダーのバーの位置と、バーを動かす方向の残目盛り数、及び、グループID情報の分数表現とから移動回数を算出する。
S1315において、音声操作判定部807は、S1301でマッチングした結果が操作画面内のスライダーボタンのS1314で算出された回数分の音声操作であると判定し、音声操作判定処理を終了する。例えば、グループID情報として図14-2の行1407、行1411がマッチングしたとする。この場合、グループID{DGR00018}を所定回数の2回分としてスライダーボタンを2回分の音声操作(すなわち、番号1401または番号1402のスライダーボタンを指定回数押下したことに相当)であると判定する。ここで、“少し”のグループIDである{DGR00018}を所定回数の2回としたが、これは設定で変更できる値であり、2回に限定するものではない。
<備考>
以上で説明したように、本実施例によれば、装置の設定画面の構成に応じた音声操作が可能な情報処理システムを提供することができる。特に、スライダー状の操作オブジェクトを備える設定画面の音声操作が可能である。本実施例によれば、スライダー状の操作オブジェクトを備える設定画面において、ボタン名称によらない音声操作が可能である。本実施例では、現在の設定状態を加味した設定変更を音声操作で行うことができる。本実施例では、スライダーの移動量を数値(数値情報)で指定することができる。本実施例では、スライダーの移動量を割合(割合情報)で指定することができる。上述したように音声操作に柔軟に対応することができるためユーザビリティに優れる。
(実施例2)
実施例1では、設定画面中にスライダー状の操作オブジェクトが1つ配置されているケースついて説明した。本実施例では、設定画面中にスライダー状の操作オブジェクトが複数配置されている例について説明する。
<システムとユーザ間のインタラクションの例>
図18は、図9のシーケンスと図10、図15で示す処理フローのうち、ユーザ106からの音声操作とその時のシステムからのインタクラクションの一例をより具体的に説明するための模式図である。図18では、ユーザ106の音声操作としての発話例と、その発話に応じてシステムが音声制御装置100の音声処理状態を示すLEDの対応関係と流れを示している。また、画像形成装置の操作パネル509に表示する画面、および、音声制御装置100で再生する応答用の音声の対応関係と流れを示している。
まず、システムはLED消灯にて音声待機状態であることを示し、操作パネル509にはトップ画面を表示している(S1801)とする。この時に、ユーザ106がウェイクワードを発話する(S1802)と、システムは音声操作の受付を開始し、発話処理状態を示すLEDを点灯する(S1803)。なお、S1802は図9中の905、S1803は906の具体的な一例である。ウェイクワードに続いて、ユーザ106が「コピーをしたい」と発話する(S1804)と、システムは応答処理状態を示すLEDを点滅させ(S1805)、コピートップ画面を表示する(S1806)。そして、システムは「コピー画面を表示しました」という応答用の音声を再生し(S1807)、ユーザ106に次の発話を促すためにLEDを再点灯する(S1808)。なお、S1804は図9中のS907、S1805はS908、S1806はS915、S1807はS919、S1808はS920の具体的な一例である。
次に、ユーザ106が「その他の機能」と発話する(S1809)と、システムはLEDを点滅させ(S1810)、1つ目のその他の機能画面を表示する(S1811)。そして、システムは「その他の機能1を表示しました」という応答用の音声を再生し(S1812)、LEDを点灯する(S1813)。なお、S1809は図9中のS921、S1810はS922、S1811はS915、S1812はS924、S1813はS925の具体的な一例である。
次に、ユーザ106が「次のページ」と発話する(S1814)と、システムはLEDを点滅させ(S1815)、2つ目のその他の機能画面を表示する(S1816)。そして、システムは「その他の機能2を表示しました」という応答用の音声を再生し(S1817)、LEDを点灯する(S1818)。なお、S1814は図9中の921、S1815はS922、S1816はS915、S1817はS924、S1818はS925の具体的な一例である。
次に、ユーザ106が「カラー調整」と発話する(S1819)と、システムはLEDを点滅させ(S1820)、カラー調整設定画面を表示する(S1821)。そして、システムは「カラー調整を変更できます」という応答用の音声を再生し(S1822)、LEDを点灯する(S1823)。なお、S1819は図9中のS921、S1820はS922、S1821はS915、S1822はS924、S1823はS925の具体的な一例である。
次に、ユーザ106が「彩度調整」と発話する(S1824)と、システムはLEDを点滅させ(S1825)、彩度調整設定画面を表示する(S1826)。そして、システムは「彩度調整を変更できます」という応答用の音声を再生し(S1827)、LEDを点灯する(S1828)。なお、S1824は図9中の921、S1825はS922、S1826はS915、S1827はS924、S1828はS925の具体的な一例である。
次に、ユーザ106が「イエローとシアンを2つ高く」と発話する(S1829)と、システムはLEDを点滅させ(S1830)、イエローとシアンの彩度調整(すなわちイエローとシアンの各スライダー)を右へ2つ移動変更する(S1831)。そして、システムは「彩度調整を変更しました」という応答用の音声を再生し(S1832)、LEDを点灯する(S1833)。スライダーの操作についての詳細は図15で後述する。なお、S1829は図9中のS926、S1830はS927、S1831はS915、S1832はS929、S1833はS925の具体的な一例である。
次に、ユーザ106が「シアンとマゼンタを3つ低く」と発話する(S1834)と、システムはLEDを点滅させ(S1835)、シアンとマゼンタの彩度調整(すなわちシアンとマゼンタの各スライダー)を左へ3つ移動変更する(S1836)。そして、システムは「彩度調整を変更しました」という応答用の音声を再生し(S1837)、LEDを点灯する(S1838)。なお、S1834は図9中のS926、S1835はS927、S1836はS915、S1837はS929、S1838はS925の具体的な一例である。
次に、ユーザ106が「OK」と発話する(S1839)と、システムはLEDを点滅させ(S1840)、彩度調整反映後の彩度調整設定画面を表示する(S1841)。そして、システムは「設定を確定しました」という応答用の音声を再生し(S1842)、LEDを点灯する(S1843)。なお、S1839は図9中のS931、S1840はS932、S1841はS915、S1842はS934、S1843はS935の具体的な一例である。
次に、ユーザ106が「コピー開始」と発話する(S1844)と、システムはLEDを点滅させ(S1845)、コピージョブを実行する。コピージョブの実行が開始されると、システムはコピージョブ実行中の画面を表示する(S1846)とともに、「コピーを開始します」という応答用の音声を再生する(S1847)。そして、コピージョブの実行が完了すると、システムはコピージョブ実行終了画面を表示するとともに、「コピーを終了しました」という最終応答用の音声を再生し(S1848)、音声受付が終了したことを示すためにLEDを消灯する(S1849)。なお、S1844は図9中のS936、S1845はS937、S1847はS944、S1846はS949、S1847はS954、S1848はS955の具体的な一例である。
<スライダーが複数あるときの操作例>
S1829~S1831及びS1834~S1836で例を挙げたスライダーの音声操作について、本実施例では多様な操作方法を提供する。図23(a)~図23(d)は、スライダーを音声操作する具体例を示す図である。
図23(a)は、「イエローを高く」という発話によってイエローのスライダーの指示位置を中央からその1つ右隣に移動させる様子を示している。本実施例では、複数のスライダーを有する設定画面において、スライダーを識別するための名称(本実施例では色)を用いることで、複数のスライダーのうちの特定のスライダーのみの指示位置を移動させることができる。なお、「イエロー」と省略せずに「イエローのスライダー」と発話してもよい。また、「高く」ではなく「右へ」等と発話してもよい。
図23(b)は、「全色を高く」という発話によって、画面中のすべてのスライダー(イエロー、グリーン、シアン、ブルー、マゼンタ、レッドのスライダー)の各指示位置を中央からその1つ右隣に移動させる様子を示している。本実施例では、このように複数のスライダーを同時に操作できるため操作性に優れる。
図23(c)は、「イエローとシアンを2つ高く」という発話によってイエローとシアンのスライダーの指示位置を中央からその2つ右隣に移動させる様子を示している。このように、本実施例では、多数のスライダーのうちの一部の複数のスライダーをまとめて操作することができる。
図23(d)は、「シアンとマゼンタを3つ低く」という発話によってシアンとマゼンタのスライダーの指示位置を現在位置からその3つ左隣に移動させる様子を示している。すなわち、シアンのスライダーの目盛りを中央の2つ右隣の位置から中央の1つ左隣に移動させ、マゼンタのスライダーの目盛りを中央からその3つ左隣に移動させる様子を示している。このように、本実施例では、複数のスライダーのぞれぞれの現在位置を考慮したうえで、多数のスライダーのうちの一部の複数のスライダーをまとめて操作することができる。
<スライダーが複数あるときの音声操作判定部の処理フロー>
図15は画像形成装置101のスライダーが複数あるときの音声操作判定部807の処理の概要を示すフローチャートである。図15は、図10のS1003、及び、図9のS914、S943の処理に対応している。また、図16は、図15の音声操作判定処理によって操作を判定するときのスライダーが複数あるときの画面例、及び、従来の操作方法(操作パネルのボタンやハードキー押下による方法)と音声による操作方法の例である。
以下、図15と図16を用いて画面にスライダーが複数あるときの音声操作判定部807の処理フローについて説明する。
まず、図16について説明する。図16-1(a)は画像形成装置101のコピーの彩度調整の画面例である。ボタン1601~1614は彩度の高低を調整するスライダーボタン、すなわち画面中央にある各スライダーを操作するためのボタンである。また、ボタン1615は設定を取り消すためのボタン、ボタン1616は設定を反映するためのOKボタンである。図16-1(b)は、図16-1(a)で示す画面における画面制御情報の一例である。図16-2は、図16-1(a)で示す画面における音声操作判定情報の一例である。図16-2の行1617~1634は、音声操作判定情報の各行を示している。
以下、図15の処理フローについて図16-1(a)で示す画面と、図16-1(b)、(c)の画面制御情報と音声操作判定情報の例を用いて説明する。ただし、S1501~S1515は、それぞれ図13のS1301~S1315の処理に準じる。従って、以下図13との主な差分であるS1516~S1518を中心に説明する。
S1516では、図10のS1002で取得した図16-1(b)の画面制御情報からスライダーが2つ以上あるかを判定する。図16-1(b)のようにスライダーが2つ以上あると判定される場合は、S1517へ進み、スライダーが一つ以下の場合はS1501へと進む。
S1517では、図10のS1001で受信したグループID判定結果にスライダー名が2つ以上含まれるかどうかを判定する。スライダー名とは、例えば、図16-1(a)の“イエロー”、“グリーン”、“シアン”、“ブルー”、“マゼンタ”、“レッド”のことを指す。グループID判定結果が{COL0004、COL0006、NUM00002、DRG00013}(すなわち、ユーザが「イエローとシアンを2つ高く」のように発話した場合)であるとする。この場合、グループID{COL0004、COL0006}からスライダー名である“イエロー”と“シアン”が2つ以上含まれると判定される。図16-1(a)のようにスライダー名が2つ以上あると判定される場合は、S1518へ進み、そうでなければS1501へ進む。
S1518では、S1517で判定されたスライダー名毎に、グループID判定結果を再生成する。例えば、S1517の例であげたようにグループID判定結果が{COL0004、COL0006、NUM00002、DRG00013}であるとする。この場合、{COL0004、NUM00002、DRG00013}、及び、{COL0006、NUM00002、DRG00013}のようにスライダー名毎に2つのグループID判定結果となるようにグループID判定結果を再生成する。こうすることで、ユーザは一度の発話で同時に2つ以上のスライダーを操作することができる。
以降、グループID判定結果が{COL0004、COL0006、NUM00002、DRG00013}(すなわち、ユーザが「イエローとシアンを2つ高く」のように発話した場合)のときの、S1501からの処理フローについて簡単に説明する。
S1518で再生成された2つのグループID判定結果{COL0004、NUM00002、DRG00013}、{COL0006、NUM00002、DRG00013}である。これらは、それぞれS1501において図16-2の音声操作判定情報のグループID情報とマッチングする。
次に、S1502でマッチングしたと判定されS1506へ進む。具体的には、2つのグループID判定結果は、図16-2の行1620及び行1624とマッチングする。
S1506では各グループID判定結果がそれぞれスライダーボタン(すなわち図16-1(b)の1604及び1608)であるので、S1508へ進む。
S1508で各グループID判定結果に回数を指定するグループID{NUM0002}が含まれるので、S1510へ進む。
S1510では回数が具体的な数(すなわち“2”)を示しているのでS1511へ進む。
S1511では、グループID情報に対応する画面内の各スライダーボタンの指定回数分の音声操作であると判定する。具体的には、グループID情報として図16-2の行1620、行1624がマッチングしている。そのため、イエローとシアンのスライダーをそれぞれ2回分音声操作(すなわち、ボタン1604及びボタン1608のスライダーボタンを各2回押下したことに相当)すると判定する。
上記のように処理することで、ユーザが「イエローとシアンを2つ高く」と発話したときに同時に2つ以上のスライダーを操作することができる。
<備考>
以上で説明したように、本実施例によれば、複数のスライダー状の操作オブジェクトを備える設定画面において音声操作をおこなうことができる。本実施例では、複数のスライダーを備える設定画面において、特定のスライダーのみ目盛り位置を音声操作することができる。本実施例では、複数のスライダーまとめて移動させることができる。本実施例では、複数のスライダーの移動量を数値で指定することができる。本実施例では、現在の設定状態を加味した設定変更を音声操作で行うことができる。上述したように音声操作に柔軟に対応することができるためユーザビリティに優れる。尚、図16-2の複数スライダーの音声操作判定情報の例では、図13のS1309、S1313、S1315、及び図14-2のグループID情報であげた特殊表現や回数算出が必要な例を割愛している。しかしながら、複数スライダーであっても同様の処理を行うことができる。
<その他の実施例>
本発明は上記実施例に限定されるものではなく、本発明の趣旨に基づき種々の変形(各実施例の有機的な組合せを含む)が可能であり、それらを本発明の範囲から除外するものではない。即ち、上述した各実施例及びその変形例を組み合わせた構成も全て本発明に含まれるものである。
本発明は、上述の実施例の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。上述実施例では、音声制御プログラム601、デバイス制御プログラム801、音声データ変換制御プログラム701がそれぞれ音声制御装置100、画像形成装置101、サーバ102で実行されるとした。しかしながら、マイクロフォンを備えた画像形成装置101で各プログラムを全て実行するようにしてもよいし、サーバ102だけ分離し、音声制御プログラム601とデバイス制御プログラム801を画像形成装置101で実行するようにしてもよい。
上述実施例では、画像形成装置101が提供する操作画面のうちの一部の画面について取り上げ、その操作方法について説明した。しかしながら、自然言語に基づく画面操作、特にスライダー状の操作オブジェクトを備える画面の音声操作を他の画面に適用してもよい。
図19、図20、図21は画像形成装置における設定の項目一覧である。図19~図21の表のうち左から一列目は機能分類を示す。MFPである画像形成装置101が備える機能としては、プリント機能(印刷機能)、コピー機能、送信機能が挙げられる。画像形成装置101では、これらの機能に関する設定の他、装置が動作するのに必要な本体設定をおこなうことができる。図19、図20、図21の表のうち左から二列目は項目群を示す。項目群は、機能を利用するうえで操作される項目のうち、類似する分類でまとめられた項目のグル―プである。項目群は1または複数の画面として出力される。図19、図20、図21の表のうち左から三列目は項目を示す。項目は、項目群毎に表示される画面において操作可能な操作項目、設定項目である。機能欄および項目群欄が「共通」の項目は、一部の例外となる画面を除き、ほぼすべての画面で利用可能な操作項目である。本発明は前述したレベル調整及び彩度調整に限らず、図19、図20、図21にあげる設定項目の各設定変更に対しても適用できる。また、これらの設定に限らずページ内表示領域のスライドを行う例として、「2つ右のページへ移動」「ページを1/2くらいスクロール」等の音声操作にも適用することができる。
ASICとは、Application Specific Integrated Circuitのことである。
CPUとは、Central Processing Unitのことである。
DNNとは、Deep Neural Networkのことである。
FAXとは、Facsimileのことである。
GMMとは、Gaussian mixture modelのことである。
HDDとは、Hard Disk Driveのことである。
HMMとは、Hidden Markov Modelのことである。
IDとは、Identificationのことである。
IEEEとは、Institute of Electrical and Electronics Engineersのことである。
IPとは、Internet Protocolのことである。
LANとは、Local Area Networkのことである。
LCDとは、Liquid Crystal Displayのことである。
LEDとは、Light Emitting Diodeのことである。
MEMSとは、Micro Electro Mechanical Systemsのことである。
MFPとは、Multifunction Peripheralのことである。
MP3とは、MPEG Audio Layer-3のことである。
PCとは、Personal Computerのことである。
RAMとは、Random‐Access Memoryのことである。
RNNとは、Recurrent Neural Networksのことである。
ROMとは、Read Only Memoryのことである。
SDカードとは、Secure Digital Memory Cardのことである。
SSDとは、Solid State Driveのことである。
TCPとは、Transmission Control Protocolのことである。
UIとは、User Interfaceのことである。