JP2021085982A

JP2021085982A - 情報処理装置、入出力デバイスの起動方法

Info

Publication number: JP2021085982A
Application number: JP2019214509A
Authority: JP
Inventors: 一浩菅原; Kazuhiro Sugawara
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2021-06-03
Also published as: US11327697B2; US20210157536A1

Abstract

【課題】スピーカにウェイクワードを発話することなく、スピーカを起動することができる。【解決手段】画像形成装置１０１は、音声が入力され、入力された音声に対応する音声データを出力し、出力した音声データを解析するクラウドサーバ１０２と通信可能なスピーカ５０００と通信可能である。画像形成装置１００は、音声を出力するスピーカ５１と、スピーカ５０００を起動するためのユーザ操作を受信する受信手段と、受信手段によって受信されたユーザ操作に従って、スピーカ５０００を起動させるウェイクワードをスピーカ５０００から出力するよう制御する制御手段と、を備える。【選択図】図１７

Description

本発明は、音声を入出力する入出力デバイスと通信可能な情報処理装置、及び入出力デバイスの起動方法に関する。

昨今、音声認識技術の発展により、入力された音声に基づいて情報処理装置を制御するシステムが普及している。特許文献１には、ユーザの声による印刷指示で印刷処理を実行するシステムが開示されている。これにより、ユーザは、印刷装置の操作部を操作することなく、指示の内容を発話するだけで、ジョブの設定指示やジョブの実行指示を行うことができる。入出力デバイスは、音声をマイクで録音し、録音した音声の音声データを外部サーバ群（クラウドサーバ）に送信し、クラウドサーバで音声データを解析し、解析結果に基づいて画像形成装置を制御する。

特開２０１９−９５５２０号公報

しかしながら、入出力デバイスは、ユーザが入出力デバイスを起動させる音声（以下、ウェイクワードとする）を入出力デバイスに発話するか、入出力デバイスの起動ボタンを押下しないと、起動しない。また、クラウドサーバによる情報処理装置の音声操作サービスは、ユーザが情報処理装置の音声操作サービスを起動するワード（以下、音声操作起動ワードとする）を入出力デバイスに発話しないと起動しない。よって、ユーザからの発話による情報処理装置の音声操作サービスは、ウェイクワード及び音声操作起動ワードを発話しないと、起動することが出来なかった。

そこで、本発明は、入出力装置にウェイクワードを発話することなく、入出力デバイスを起動することが可能な情報処理装置を提供することを目的とする。

上記目的を達成するために、本発明の情報処理装置は、音声が入力され、入力された音声に対応する音声データを出力し、出力した音声データを解析するサーバと通信可能な入出力デバイスと通信可能な情報処理装置であって、音声を出力する音声出力手段と、入出力デバイスを起動するためのユーザ操作を受信する受信手段と、受信手段によって受信されたユーザ操作に従って、入出力デバイスを起動させるウェイクワードを音声出力手段から出力するよう制御する制御手段と、を備える。

本発明によれば、入出力装置にウェイクワードを発話することなく、入出力デバイスを起動することができる。

音声認識システムのシステム構成図である。画像形成装置の操作パネルの構成図である。音声制御装置のハードブロック図である。クラウドサーバのハードブロック図である。画像形成装置のハードブロック図である。音声制御装置の制御プログラムのソフトブロック図である。クラウドサーバの制御プログラムのソフトブロック図である。クラウドサーバが音声認識するワードとグループＩＤリストを示す図である。クラウドサーバの画像形成装置用の制御プログラムのソフトブロック図である。システムを構成する装置間のシーケンスを説明する図である。システムを構成する装置間の起動シーケンスを説明する図である。実施例２のシステムを構成する装置間の起動シーケンスを説明する図である。画像形成装置のデバイス制御プログラムを説明するフローチャートである。画像形成装置の音声認識起動トリガ設定を説明するフローチャートである。画像形成装置の音声認識起動制御を説明するフローチャートである。画像形成装置の音声認識制御を説明するフローチャートである。画像形成装置の音声認識終了トリガ判定を説明するフローチャートである。音声制御装置の音声制御プログラムを説明するフローチャートである。クラウドサーバの音声データ変換制御プログラムを説明するフローチャートである。音声認識システムのデータ構成を説明する図である。

以下、本発明を実施するための形態について実施例を挙げ、図面を用いて具体的に説明する。ただし、実施例で挙げる構成要素はあくまで例示であり、本発明の範囲を限定する趣旨のものではない。

（実施例１）
＜システムの構成＞
図１は、本実施例のシステム構成の一例を示す図である。図１に示すように、本実施例のシステムは、例えば、音声制御装置１００、画像形成装置１０１、クラウドサーバ１０２、クライアント端末１０３、ゲートウェイ１０５で構成される。本発明の入出力デバイスの一例が、音声制御装置１００である。本発明の情報処理装置の一例が、画像形成装置１０１である。本発明のサーバの一例が、クラウドサーバ１０２である。

音声制御装置１００、画像形成装置１０１、クライアント端末１０３は、ゲートウェイ１０５およびネットワーク１０４を介して互いに通信可能である。なお、音声制御装置１００、画像形成装置１０１、クライアント端末１０３のそれぞれは、単一接続ではなく複数接続された構成であってもよい。また、音声制御装置１００、画像形成装置１０１、クライアント端末１０３は、ゲートウェイ１０５およびインターネットを介してクラウドサーバ１０２に通信可能である。

音声制御装置１００は、ユーザ１０６の音声操作開始指示に従い、ユーザ１０６の音声を録音してクラウドサーバ１０２へ符号化された音声データとして送信する。音声制御装置１００は、スマートスピーカやスマートフォンなどであって、音声によりユーザとコミュニケーション可能な装置である。この音声制御装置１００は、音声を入力可能であって、且つ、音声を出力可能である。なお、本実施例では、音声制御装置１００と画像形成装置１０１が独立した構成となっているが、この構成に限定するものではない。音声制御装置１００を構成するハードウェア（図３に記載のハードブロック）、及び、ソフトウェア機能（図６に記載のソフトブロック）の少なくとも一方が画像形成装置１０１の中に含まれていてもよい。

画像形成装置１０１は、コピー、スキャン、プリント、ＦＡＸ等の複数の機能を備える複合機である。なお、画像形成装置１０１は、プリンタやスキャナなど、単体の機能を備える装置であってもよい。操作パネル５０９は、図２及び図５で後述する。また、スピーカ５１７は、図５で後述する。実施例１の画像形成装置１０１は、カラーレーザービーム複合機とである。

クラウドサーバ１０２は、１つ以上のクラウドサーバにより構成され、音声認識および画像形成装置１０１の音声操作サービスを提供する。クラウドサーバ１０２は、音声制御装置１００が取得したユーザ１０６の音声データの音声認識、及び、音声認識結果から画像形成装置１０１の画面操作・ジョブ実行に関わるワードを判定するための役割を有する。また、クラウドサーバ１０２は、音声認識結果またはワードの判定結果に応じてテキストを生成し、そのテキストの内容を音声制御装置１００で音声再生するための音声データの合成も行う。ここで、ジョブとは、画像形成装置１０１がプリントエンジン５１３またはスキャナ５１５を用いて実現する一連の画像形成処理（例えばコピー、スキャン、プリントなど）の実行単位を示す。

クライアント端末１０３は、例えば、ユーザ１０６が使うパーソナル・コンピュータ（ＰＣ）やスマートフォンである。クライアント端末１０３は、電子ファイルを画像形成装置１０１でプリントするためのプリントジョブを生成する。電子ファイルは、クライアント端末１０３に格納されていてもよいし、インターネット上の何処かのサーバ上（不図示）、あるいは、画像形成装置１０１の外部記憶装置５０５上などに格納されていてもよい。また、クライアント端末１０３は、画像形成装置１０１でスキャンされた画像データの受信を行うこともできる。なお、クライアント端末１０３の動作は、本実施例の主旨と直接的に関係しないため、これ以上の詳細な説明は省略する。

ネットワーク１０４は、音声制御装置１００、画像形成装置１０１、クライアント端末１０３、ゲートウェイ１０５を互いに接続する。ネットワーク１０４は、音声制御装置１００が取得した音声データをクラウドサーバ１０２へ送信する。また、ネットワーク１０４は、クラウドサーバ１０２から送信される音声データを送信する。また、ネットワーク１０４は、クライアント端末１０３から送信されるプリントジョブやスキャンジョブなどの各種データを送信する。

ゲートウェイ１０５は、例えば、ＩＥＥＥ８０２．１１規格シリーズに準拠した無線ＬＡＮルータなどである。ゲートウェイ１０５、他の無線通信方式に従って動作する能力を有してもよい。また、無線ＬＡＮルータではなく、１０ＢＡＳＥ−Ｔ、１００ＢＡＳＥＴ、１０００ＢＡＳＥ−Ｔなどに代表されるＥｔｈｅｒｎｅｔ規格に準拠した有線ＬＡＮルータなどでもよく、他の有線通信方式に従って動作する能力を有してもよい。なお、前記ＩＥＥＥ８０２．１１規格シリーズとは、ＩＥＥＥ８０２．１１ａやＩＥＥＥ８０２．１１ｂ等のＩＥＥＥ８０２．１１に属する一連の規格である。

＜画像形成装置の操作パネル＞
図２は、画像形成装置１０１の操作パネル５０９の構成例を示す図である。

操作パネル５０９はＬＥＤ（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）やＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）ディスプレイを備える。ＬＥＤは、装置の内部状態を示し、ＬＣＤディスプレイは、各種の情報を表示する。また、操作パネル５０９は、ユーザ１０６の操作を受け付ける入力部を備える。入力部は、例えば、複数のハードキーやＬＣＤディスプレイと一体となったタッチパネル２００などである。図２のタッチパネル２００は、画像形成装置１０１の起動直後に表示されるホーム画面を表示している。ホーム画面は、画像形成装置１０１が実行する各機能のボタン（コピーボタン２０３、スキャンボタン２０４、ファクス、音声認識ボタン２０１、ログインボタン２０２など）を表示する。ここで、ボタンとは、ユーザ１０６が判別可能なタッチパネル上の一定区画の領域を示し、この領域へのタッチを検知すると表示されているボタンに定義された機能を実行する。

音声認識ボタン２０１は、音声制御装置１００を起動するためのユーザ操作を受け付けるためのボタンである。音声認識ボタン２０１を押下し、音声制御装置１００による音声入力が可能になると、音声認識中を示す情報がステータス表示２０５の領域に表示する。本発明の受信手段の一例が、音声認識ボタン２０１である。

ログインボタン２０２は、画像形成装置を用いるユーザ認証を実行するための画面を表示する。ユーザ認証実行後は、認証したユーザ毎にカスタマイズした画面を表示する。また、認証したユーザ毎に音声認識する・しないを設定し、音声認識による入力操作を認証ユーザ毎に受け付け可能または不可能に設定してもよい。

ホームボタン２１０は、ホーム画面２００を表示するためのボタンである。ホーム２１０は、タッチパネル２００に常時表示される。

ストップボタン２１１は、画像形成装置１０１の動作の停止するボタンである。ストップボタン２１１は、タッチパネル２００に常時表示される。

データＬＥＤ２２０及びエラーＬＥＤ２２１は、画像形成装置１０１の状態をユーザに通知するものである。データＬＥＤ２１０は、送信ジョブや印刷ジョブの実行中に点灯し、エラーＬＥＤ２１１は、画像形成装置１０１に何らかのエラー（ジャム・紙無しなど）が発生した際に点灯する。

ステータス表示２０５は、ステータス表示領域で、画像形成装置のステータスを表示している。ステータス表示２０５は、音声認識の起動中を示す“起動中です”〜 “音声認識中”のように外部の音声制御装置との接続状態を表示する。その他、“印刷中”、“受信中”、“送信中”、“読み取り中”などのジョブの状況も表示する。また、“紙なし”、“ジャム”、“トナー無”などのエラー状態も表示する。また、複数の状況・状態が発生している場合、表示を１秒ごとに繰り返して切り替えながら表示する。例えば、音声認識中にコピージョブの印刷を実行し、紙なしエラーが発生している場合、“音声認識中”〜“印刷中”〜“紙なし”のステータスを切り替えながら繰り返し表示する。なお、音声認識起動中は、表示しているステータスを音声制御装置１００より音声で通知するようにしてもよい。例えば、音声認識結果を音声で通知する設定を設けて、音声で通知する設定時には、音声制御装置がステータス表示の内容を確認するための制御をクラウドサーバ１０２に指示して、クラウドサーバ１０２から音声合成データを取得して通知する。さらに、音声認識起動中は、音声認識により認識されたワードをテキストでステータス表示２０５に表示するようにしてもよい。例えば、音声認識結果のテキストデータをクラウドサーバ１０２が画像形成装置に送信し、画像形成装置が受信したテキストデータをステータス表示２０５に表示する。

＜音声制御装置のハードウェア構成＞
図３は、音声制御装置１００のハードウェア構成図である。

図３に示すように、音声制御装置１００のコントローラ部３００は、ＣＰＵ３０２、ＲＡＭ３０３、ＲＯＭ３０４、外部記憶装置３０５、ネットワークＩ／Ｆ３０６、マイクＩ／Ｆ３０７、オーディオコントローラ３０９、および表示コントローラ３１１を含む。これらの構成はシステムバス３０１に接続されており、互いに通信可能である。また、音声制御装置１００は、コントローラ部３００に接続されるデバイスとして、マイクロフォン３０８、スピーカ３１０、ＬＥＤ３１２を含む。

ＣＰＵ３０２は、コントローラ部３００全体の動作を制御する中央演算装置である。ＲＡＭ３０３は、揮発性メモリである。ＲＯＭ３０４は、不揮発性メモリであり、ＣＰＵ３０２の起動用プログラムが格納されている。外部記憶装置３０５は、ＲＡＭ３０３と比較して大容量な記憶デバイス（例えばＳＤカード）である。外部記憶装置３０５には、コントローラ部３００によって実行される音声制御装置１００の制御用プログラムが格納されている。なお、外部記憶装置３０５は、ＳＤカード以外のフラッシュＲＯＭなどに置き換えてもよく、ＳＤカードと同等の機能を有する他の記憶デバイスに置き換えてもよい。

ＣＰＵ３０２は、電源ＯＮにより起動する時、ＲＯＭ３０４に格納されている起動用プログラムを実行する。この起動用プログラムは、外部記憶装置３０５に格納されている制御用プログラムを読み出し、ＲＡＭ３０３上に展開するためのプログラムである。ＣＰＵ３０２は、起動用プログラムを実行すると、続けてＲＡＭ３０３上に展開した制御用プログラムを実行し、音声の入出力制御、表示制御、ネットワーク１０４とのデータ通信制御を行う。また、ＣＰＵ３０２は、制御用プログラムの実行時に用いるデータもＲＡＭ３０３上に格納して読み書きを行う。外部記憶装置３０５上には、制御用プログラムの実行時に必要な各種設定などを格納することができる。各種設定は、クラウドサーバ１０２のＵＲＬ（画像形成装置へのアクセスを可能にする）やウェイクワードなどを格納し、ＣＰＵ３０２によって読み書きされる。ＣＰＵ３０２は、ネットワークＩ／Ｆ３０６を介してネットワーク１０４上の他の機器との通信を行う。

ネットワークＩ／Ｆ３０６は、ＩＥＥＥ８０２．１１規格シリーズに準拠した無線通信方式に従って通信を行うための回路やアンテナを含む。ただし、無線通信方式でなくＥｔｈｅｒｎｅｔ規格に準拠した有線通信方式であってもよく、無線通信方式に限定するものではない。

マイクＩ／Ｆ３０７は、マイクロフォン３０８に接続され、ユーザ１０６が発した音声をマイクロフォン３０８から入力し、符号化された音声データに変換し、ＣＰＵ３０２の指示によりＲＡＭ３０３に格納する。

マイクロフォン３０８は、ユーザ１０６の音声を取得できる音声入力用のデバイスである。例えば、スマートフォンなどに搭載される小型のＭＥＭＳマイクロフォンなどである。また、マイクロフォン３０８は、ユーザ１０６が発した音声の到来方向を算出できるように、３個以上を所定の位置に配して用いてもよい。ただし、マイクロフォン３０８は、１個であっても本実施例は実現でき、３個以上にこだわるものではない。

オーディオコントローラ３０９は、スピーカ３１０に接続され、ＣＰＵ３０２の指示に応じて音声データをアナログ音声信号に変換し、スピーカ３１０を通じて音声を出力する。

スピーカ３１０は、音声制御装置１００が応答していることを表す応答音、及び、クラウドサーバ１０２によって合成された音声合成を出力する。スピーカ３１０は、音声を出力するための汎用のデバイスであり、その仕組みは本実施例の主旨ではないため、これ以上の説明は省略する。

表示コントローラ３１１は、ＬＥＤ３１２に接続されＣＰＵ３０２の指示に応じてＬＥＤ３１２の表示を制御する。ここでは、表示コントローラ３１１は、音声制御装置１００がユーザ１０６の音声を正しく入力していることを示すためのＬＥＤの点灯制御を主に行う。

ＬＥＤ３１２は、例えば、ユーザ１０６が可視可能な青色などのＬＥＤである。ＬＥＤ３１２は汎用のデバイスであり、本実施例の主旨ではないため、これ以上の説明は省略する。なお、ＬＥＤ３１２の代わりに、文字や絵を表示可能なディスプレイ装置に置き換えてもよい。

＜クラウドサーバのハードウェア構成＞
図４は、クラウドサーバのハードウェア構成図である。

クラウドサーバ１０２は、システムバス４０１に接続されたＣＰＵ４０２、ＲＡＭ４０３、ＲＯＭ４０４、外部記憶装置４０５、ネットワークＩ／Ｆ４０６を含む。

ＣＰＵ４０２は、クラウドサーバ１０２全体の動作を制御する中央演算装置である。ＲＡＭ４０３は、揮発性メモリである。ＲＯＭ４０４は、不揮発性メモリであり、ＣＰＵ４０２の起動用プログラムが格納されている。外部記憶装置４０５は、ＲＡＭ４０３と比較して大容量な記憶装置（例えばハードディスクドライブ：ＨＤＤ）である。外部記憶装置４０５には、ＣＰＵ４０２が実行する、クラウドサーバ１０２の制御用プログラムが格納されている。なお、外部記憶装置４０５は、ハードディスクドライブと同等の機能を有する他の記憶装置に置き換えてもよく、例えばソリッドステートドライブ（ＳＳＤ）などを用いてもよい。さらに、クラウドサーバ１０２としてアクセス可能な外部ストレージに置き換えてもよい。

ＣＰＵ４０２は、電源ＯＮ等の起動時、ＲＯＭ４０４に格納されている起動用プログラムを実行する。この起動用プログラムは、外部記憶装置４０５に格納されている制御用プログラムを読み出し、ＲＡＭ４０３上に展開するためのものである。ＣＰＵ４０２は、起動用プログラムを実行すると、続けてＲＡＭ４０３上に展開した制御用プログラムを実行する。また、ＣＰＵ４０２は、制御用プログラムの実行時に用いるデータもＲＡＭ４０３上に格納して読み書きを行う。外部記憶装置４０５上には、制御用プログラム実行時に必要な各種設定を格納することができる。各種設定は、ＣＰＵ４０２によって読み書きされる。ＣＰＵ４０２は、ネットワークＩ／Ｆ４０６を介してネットワーク１０４上の他の機器との通信を行う。

＜画像形成装置のハードウェア構成＞
図５は、画像形成装置１０１のハードウェア構成図である。

図５に示すように、コントローラ部５００は、ＣＰＵ５０２、ＲＡＭ５０３、ＲＯＭ５０４、外部記憶装置５０５を有し、それぞれがシステムバス５０１に接続している。また、コントローラ部５００は、ネットワークＩ／Ｆ５０６、ディスプレイコントローラ５０７、操作Ｉ／Ｆ５０８、プリントコントローラ５１２、スキャンコントローラ５１４、オーディオＩ／Ｆ５１６を有する。これらの構成は、システムバス５０１に接続され、互いに通信可能である。

ＣＰＵ５０２は、コントローラ部５００の全体の動作を制御する中央演算装置である。ＲＡＭ５０３は、揮発性メモリである。ＲＯＭ５０４は、不揮発性メモリであり、ＣＰＵ５０２の起動用プログラムが格納されている。外部記憶装置５０５は、ＲＡＭ５０３と比較して大容量な記憶装置（例えばハードディスクドライブ：ＨＤＤ）である。外部記憶装置５０５には、ＣＰＵ５０２によって実行される制御用プログラムが格納されている。なお、外部記憶装置５０５は、ソリッドステートドライブ（ＳＳＤ）など、ハードディスクドライブと同等の機能を有する他の記憶装置に置き換えてもよい。本発明の制御手段の一例が、ＣＰＵ５０２である。

ＣＰＵ５０２は、電源ＯＮ等の起動時、ＲＯＭ５０４に格納されている起動用プログラムを実行する。この起動用プログラムは、外部記憶装置５０５に格納されている制御用プログラムを読み出し、ＲＡＭ５０３上に展開するためのものである。ＣＰＵ５０２は、起動用プログラムを実行すると、続けてＲＡＭ５０３上に展開した制御用プログラムを実行する。また、ＣＰＵ５０２は、制御用プログラム実行時に用いるデータもＲＡＭ５０３上に格納して読み書きを行う。外部記憶装置５０５には、さらに、制御用プログラム実行時に必要な各種設定や、スキャナ５１５で読み取った画像データを格納することができ、ＣＰＵ５０２によって読み書きされる。ＣＰＵ５０２はネットワークＩ／Ｆ５０６を介してネットワーク１０４上の他の機器や、ゲートウェイを介してインターネット上のクラウドサーバ１０２との通信を行う。本発明の通信手段の一例が、ネットワークＩ／Ｆ５０６である。

ディスプレイコントローラ５０７は、ＣＰＵ５０２の指示に応じて、接続される操作パネル５０９のタッチパネル２００の画面表示制御を行う。

操作Ｉ／Ｆ５０８は、操作信号の入出力を行う。操作Ｉ／Ｆ５０８は、操作パネル５０９に接続され、ＣＰＵ５０２はタッチパネル２００が押下されたときに、操作Ｉ／Ｆ５０８を介してタッチパネル２００の押下された座標を取得する。本発明の処理手段や表示制御手段の一例が、操作Ｉ／Ｆ５０８である。

プリントコントローラ５１２は、ＣＰＵ５０２からの指示に応じて、接続されるプリントエンジン５１３に対して制御コマンドや画像データを送信する。本発明の処理手段や印刷制御手段の一例が、プリントコントローラ５１２である。

プリントエンジン５１３は、プリントコントローラ５１２から受信した制御コマンドに従い、受信した画像データを紙などの記録媒体に印刷する。プリントエンジン５１３の詳細な説明は、本実施例の主旨ではないため、これ以上の説明は省略する。

スキャンコントローラ５１４は、ＣＰＵ５０２からの指示に応じて、接続されるスキャナ５１５に対して制御コマンドを送信し、スキャナ５１５から受信する画像データをＲＡＭ５０３へ書き込む。

スキャナ５１５は、スキャンコントローラ５１４から受信した制御コマンドに従い、画像形成装置１０１が備える原稿台ガラス上（不図示）の原稿を、光学ユニットを用いて読み取る。スキャナ５１５の詳細な説明は、本実施例の主旨ではないため、これ以上の説明は省略する。

オーディオＩ／Ｆ５１６は、ＣＰＵ５０２からの指示に応じて符号化された音声データをＲＡＭ５０３から読み出し、復号したデジタル信号をアナログ信号に変換して、スピーカ５１７に出力する。

スピーカ５１７は、ＣＰＵ５０２からの指示に応じて音声を出力する。音声のほか、画像形成装置１０１でエラーが発生した時のエラー音や、タッチパネル２００へのタッチ音などの音も出力する。本発明の音声出力手段の一例が、スピーカ５１７である。

＜音声制御装置の音声制御プログラムの機能構成＞
図６は、ＣＰＵ３０２が実行する音声制御プログラム６０１の機能構成を示すブロック図である。

音声制御プログラム６０１は、外部記憶装置３０５に格納されている。そして、音声制御装置１００の起動時に、ＣＰＵ３０２によってＲＡＭ３０３上に展開され実行される。

データ送受信部６０２は、ネットワークＩ／Ｆ３０６を介して、ネットワーク１０４上の他の機器とＴＣＰ／ＩＰによるデータの送受信を行う。データ送受信部６０２は、後述の音声取得部６０４で取得されたユーザ１０６の発した音声データをクラウドサーバ１０２に送信する。また、データ送受信部６０２は、クラウドサーバ１０２上で生成される音声合成データを受信する。

データ管理部６０３は、音声制御プログラム６０１の実行において生成した作業データなど様々なデータを外部記憶装置３０５上の所定の領域へ格納し、管理する。例えば、データ管理部６０３は、後述する音声再生部６０５で再生する音量データ、ゲートウェイ１０５との通信に必要な認証情報、画像形成装置１０１及びクラウドサーバ１０２と通信するために必要な各デバイス情報、クラウドサービスのＵＲＬなどを格納する。

音声取得部６０４は、マイクロフォン３０８で取得されるユーザ１０６のアナログ音声を、音声データに変換し、一時格納する。ユーザ１０６の音声は、例えば、ＭＰ３などの所定のフォーマットに変換され、クラウドサーバ１０２に送信するための符号化された音声データとしてＲＡＭ３０３上に一時的に格納する。音声取得部６０４の処理開始及びその終了のタイミングは、後述する音声制御部６０９によって管理される。また、音声データの符号化は、汎用のストリーミング用フォーマットでもよく、符号化された音声データを順次、データ送受信部６０２で送信するようにしてもよい。

音声再生部６０５は、データ送受信部６０２が受信した音声合成データを、オーディオコントローラ３０９を介してスピーカ３１０で再生する。音声再生部６０５の音声再生のタイミングは、後述する音声制御部６０９によって管理される。

表示部６０６は、表示コントローラ３１１を介して、ＬＥＤ３１２の表示を行う。例えば、後述の音声操作開始検知部６０７で音声操作があることを検知した場合にＬＥＤ３１２を表示する。表示部６０６の表示のタイミングは、後述する音声制御部６０９によって管理される。

音声操作開始検知部６０７は、ユーザ１０６の発したウェイクワード、音声制御装置１００の操作開始キー（不図示）の押下、データ送受信部６０２が受信した音声制御起動コマンドの受信、を検知し、音声制御部６０９へ操作開始通知を送信する。ここで、ウェイクワードとは、音声制御装置１００の音声操作を開始するために予め決められている音声ワードである。音声操作開始検知部６０７は、マイクロフォン３０８で取得されるユーザ１０６のアナログ音声から、常時ウェイクワードを検知する。ユーザ１０６は、ウェイクワードを話し、続いてユーザ１０６が行いたいことを話すことで画像形成装置１０１の操作を行うことができる。音声操作開始検知部６０７がウェイクワードを検知してからの音声処理については後述する。

発話終了判定部６０８は、音声取得部６０４での処理の終了タイミングを判定する。例えば、ユーザ１０６の音声が所定時間（例えば３秒）途切れたときにユーザ１０６の発話が終了したと判定し、音声制御部６０９へ発話終了通知を送信する。なお、発話終了の判定は、発話が無い時間（以降、空白時間と呼ぶ）ではなく、ユーザ１０６の所定の語句から判定して行ってもよい。例えば、「はい」、「いいえ」、「ＯＫ」、「キャンセル」、「終了」、「スタート」、「開始」など所定の語句のときには、所定時間を待たずに発話終了と判定してもよい。また、発話終了の判定は、音声制御装置１００ではなく、クラウドサーバ１０２で行うようにしてもよく、ユーザの１０６の発話内容の意味や文脈から発話の終了を判定するようにしてもよい。

音声制御部６０９は、音声制御プログラム６０１内の他の各モジュールが相互に連携して動作するよう制御する。具体的には、音声取得部６０４、音声再生部６０５、表示部６０６の処理開始・終了の制御を行う。また、音声取得部６０４で音声データが取得された後、音声データをデータ送受信部６０２でクラウドサーバ１０２へ送信するよう制御する。また、クラウドサーバ１０２からの音声合成データをデータ送受信部６０２が受信した後、音声再生部６０５が音声合成データを再生するよう制御する。

ここで、音声取得部６０４、音声再生部６０５、表示部６０６の処理開始・終了のタイミングについて述べる。

音声制御部６０９は、音声操作開始検知部６０７からの操作開始通知を受信すると、音声取得部６０４の処理を開始する。また、発話終了判定部６０８からの発話終了通知を受信すると、音声取得部６０４の処理を終了する。例えば、ユーザ１０６がウェイクワードを発話し、続いて「コピーしたい」と話したとする。このとき、音声操作開始検知部６０７が、ウェイクワードの音声を検知し、音声制御部６０９に操作開始通知を送信する。音声制御部６０９は、操作開始通知を受信すると、音声取得部６０４の処理を開始するよう制御する。音声取得部６０４は続いて話される「コピーしたい」というアナログ音声を音声データへ変換し一時格納をする。発話終了判定部６０８は、「コピーしたい」の発話後に空白時間が所定時間あったと判定すると、発話終了通知を音声制御部６０９に送信する。音声制御部６０９は、発話終了通知を受信すると、音声取得部６０４の処理を終了する。なお、音声取得部６０４が処理を開始してから終了するまでの状態を発話処理状態と呼ぶこととする。表示部６０６は、発話処理状態であることを示すＬＥＤ３１２を点灯表示する。

ユーザ１０６の発話終了判定後、音声制御部６０９は、音声データをデータ送受信部６０２でクラウドサーバ１０２へ送信するよう制御し、クラウドサーバ１０２からの応答を待つ。クラウドサーバ１０２からの応答は、例えば、応答であることを示すヘッダ部と、音声合成データから成る応答メッセージある。データ送受信部６０２が応答メッセージを受信すると、音声制御部６０９は、音声再生部６０５で音声合成データを再生するよう制御する。音声合成データは、例えば、「コピー画面を表示します」である。なお、発話終了判定後から音声合成データの再生終了までの状態を応答処理状態と呼ぶこととする。表示部６０６は、応答処理状態であることを示すＬＥＤ３１２を点滅表示する。

応答処理の後、クラウドサーバ１０２との対話セッションが継続している間は、ユーザ１０６はウェイクワードを発話することなく、続けて自身の行いたいことを発話することができる。対話セッションの終了判定は、クラウドサーバ１０２が行い、音声制御装置１００に対話セッション終了通知を送信することで行う。なお、対話セッション終了から次の対話セッションが開始されるまでの状態を待機状態と呼ぶこととする。音声制御装置１００が音声操作開始検知部６０７からの操作開始通知を受信するまでは、常時待機状態であるとする。表示部６０６は、待機状態の間、ＬＥＤ３１２を消灯する。

＜クラウドサーバの音声データ変換制御プログラムの機能構成＞
図７Ａは、ＣＰＵ４０２が実行する音声データ変換制御プログラム７０１の機能構成を示すブロック図である。また、図７Ｂは、グループＩＤ判定部７０７がグループＩＤの判定に使うグループＩＤリストの例である。グループＩＤリストは、画像形成装置１０１のユーザ操作に関して同じ意味や意図を持つワードが同じＩＤとしてグルーピングされている。なお、前記ワードは、ユーザ１０６が音声制御装置１００に対して発話する言葉を音声認識した結果である。

音声データ変換制御プログラム７０１は、外部記憶装置４０５に格納され、ＣＰＵ４０２がＲＡＭ４０３上に展開して実行する。

データ送受信部７０２は、ネットワークＩ／Ｆ４０６を介して、ネットワーク１０４上の他の機器とＴＣＰ／ＩＰによるデータの送受信を行う。データ送受信部７０２では、音声制御装置１００からユーザ１０６の音声データを受信する。また、後述するグループＩＤ判定部７０７で判定されたグループＩＤ判定結果の送信を行う。

データ管理部７０３は、音声データ変換制御プログラム７０１の実行において生成した作業データや、音声データ変換部７０４で音声認識処理をするために必要なパラメータなど様々なデータを外部記憶装置４０５上の所定の領域へ格納し、管理する。例えば、データ管理部７０３は、音声認識部７０５が音声データをテキスト（テキスト情報）へ変換するための音響モデルや言語モデルを外部記憶装置４０５上の所定の領域へ格納し、管理する。また、形態素解析部７０６でテキストの形態素解析を行うための辞書を外部記憶装置４０５上の所定の領域へ格納し、管理する。また、データ管理部７０３は、グループＩＤ判定部７０７でグループＩＤを判定するためのグループＩＤリストを外部記憶装置４０５上の所定の領域へ格納し、管理する。また、データ管理部７０３は、音声合成部７０８で音声合成を行うための音声データベースを外部記憶装置４０５上の所定の領域へ格納し、管理する。また、データ管理部７０３には、音声制御装置１００、及び、画像形成装置１０１と通信するために必要な各デバイス情報などが格納、管理される。

音声データ変換部７０４は、音声認識部７０５、形態素解析部７０６、グループＩＤ判定部７０７、音声合成部７０８から成る。以降、音声データ変換部７０４について説明する。

音声認識部７０５は、データ送受信部７０２が受信した音声データを、テキストに変換するための音声認識処理を行う。音声認識処理は、音響モデルを用いて音声データを音素に変換し、さらに言語モデルによるパターンマッチングにより音素を実際のテキストデータに変換する。なお、音響モデルは、ＤＮＮ−ＨＭＭのようにニューラルネットワークによる機械学習手法を用いるモデルであってもよいし、ＧＭＭ−ＨＭＭのように異なる手法を用いたモデルであってもよい。ニューラルネットワークを用いた機械学習では、例えば音声とテキストを対とする教師データに基づいて学習モデルの学習が行われる。言語モデルは、ＲＮＮのようにニューラルネットワークによる機械学習手法のモデルを用いるモデルであってもよいし、Ｎ−ｇｒａｍ手法のように異なる手法を用いるモデルであってもよい。

本実施例では、前記テキストデータは１つ以上のカナから構成されるテキストと、それらを「かな漢字変換」（数字、アルファベット、記号等への変換も含む）したテキストから成るものとする。ただし、音声データをテキストデータへ変換する音声認識処理として他の手法を用いてもよく、前述の手法に限るものではない。音声認識処理の詳細は、本実施例の主旨ではないため、これ以上の説明は省略する。

形態素解析部７０６は、音声認識部７０５で変換されたテキストデータを、形態素解析する。形態素解析は、その言語の文法や、品詞などの情報をもつ辞書から形態素列を導出し、さらに各形態素の品詞などを判別する。形態素解析部７０６は、例えば、ＪＵＭＡＮ、茶筒、ＭｅＣａｂ等の公知の形態素解析ソフトウェアを用いて実現することができる。

形態素解析部７０６は、例えば、音声認識部７０５で変換された「コピーをしたい」というテキストデータを、「コピー」、「を」、「し」、「たい」の形態素列として解析する。また、「Ａ３からＡ４へ」というテキストデータを、「Ａ３」、「から」、「Ａ４」、「へ」の形態素列として解析する。

グループＩＤ判定部７０７は、形態素解析部７０６で形態素解析された結果と、図７ＢのグループＩＤリストとをマッチングすることでグループＩＤを判定し、さらにグループＩＤ判定結果を生成する。例えば、「コピー」、「を」、「し」、「たい」の形態素列からは、「コピー」のグループＩＤである「ＦＮＣ００００１」があると判定され、グループＩＤ判定結果として、｛ＩＤ：ＦＮＣ００００１｝を生成する。また、「Ａ３」、「から」、「Ａ４」、「へ」の形態素列からは、「Ａ３」と「Ａ４」のグループＩＤである「ＰＡＰ００１００」と「ＰＡＰ００１０１」が２つあると判定される。そして、グループＩＤ判定結果として、｛ＩＤ：ＰＡＰ００１００、ＩＤ：ＰＡＰ００１０１｝を生成する。

なお、グループＩＤ判定結果にＩＤが複数生成される場合は、音声認識および形態素解析された順に生成されるものとする。例えば、音声認識および形態素解析された結果が「Ａ４」「から」「Ａ３」「へ」である場合は、グループＩＤ判定結果は｛ＩＤ：ＰＡＰ００１０１、ＩＤ：ＰＡＰ００１００｝と生成される。また、隣接する複数の形態素を結合してグループＩＤリストとマッチングして判定してもよいものとする。この時、１つの形態素がグループＩＤリストの中から合致するものが見つかり、さらに、その形態素を含む複数の形態素がグループＩＤリストの中から合致するものが見つかった場合は、後者の結果を用いてグループＩＤ判定結果を生成する。例えば、形態素列が「Ａ」「４」であった場合は、グループＩＤ判定結果を｛ＩＤ：ＣＨＲ０００００、ＩＤ：ＮＵＭ００００４｝ではなく、｛ＩＤ：ＰＡＰ００１０１｝として生成する。また、音声認識および形態素解析結果に含まれる１つ以上のカナから構成されるテキストと、それらを「かな漢字変換」したテキストを組み合わせて、グループＩＤリストのマッチングを行ってもよい。例えば、グループＩＤ判定部７０７は、まず始めに、「かな漢字変換」したテキストとグループＩＤリストの「かな漢字変換後」に示されたテキストとのマッチングを行う。その結果、マッチングするグループＩＤが見つからない場合にはカナのテキストとグループＩＤリストの「カナ」に示されたテキストとがマッチングするグループＩＤを検出する。また、グループＩＤリスト内で「カナ」が重複し、複数のグループＩＤがマッチングする場合は、グループＩＤ判定結果を複数の候補として生成してもよい。これにより、「かな漢字変換」の間違いや漢字のふり仮名の違いを許容したグループＩＤ判定結果を生成する。

音声合成部７０８は、画像形成装置１０１から受信した通知にもとづき、音声合成処理を行う。音声合成処理は、所定の通知に対して、組となる予め用意されたテキストをＭＰ３などの所定のフォーマットの音声データに変換する。受信した通知データと音声合成対象のテキストの組み合わせ例については、後述の図９Ａのシーケンス図で説明する。音声合成処理は、例えば、データ管理部７０３に格納されている音声データベースにもとづいて音声データを生成する。音声データベースとは、例えば、単語等の定型の内容を発話した音声を集めたデータベースである。なお、本実施例では音声データベースを用いて音声合成処理を行っているが、音声合成の手法として他の手法を用いてもよく、音声データベースによる手法に限定するものではない。音声合成処理の詳細は、本実施例の主旨ではないため、これ以上の説明は省略する。

＜画像形成装置のデバイス制御プログラムの機能構成＞
図８は、ＣＰＵ５０２が実行するデバイス制御プログラム８０１の機能構成を示すブロック図である。

画像形成装置１０１のデバイス制御プログラム８０１は、外部記憶装置５０５に格納され、ＣＰＵ５０２がＲＡＭ５０３上に展開して実行する。

データ送受信部８０２は、ネットワークＩ／Ｆ５０６を介して、ネットワーク１０４上の他の機器とＴＣＰ／ＩＰによるデータの送受信を行う。データ送受信部８０２では、グループＩＤ判定部７０７が生成するグループＩＤ判定結果の受信を行う。また、画像形成装置１０１からクラウドサーバ１０２へ、操作パネル５０９上のタッチパネル２００の画面表示内容が更新されたことを示す画面更新通知、及び、ジョブの状態を示すジョブ実行状態通知を送信する。通知の内容に関しては後述の図９Ａのシーケンス図で説明する。さらに、データ送受信部８０２は、音声認識を起動するための音声データおよび音声操作を開始するための音声データなどもネットワーク１０４を介して音声制御装置１００に送信する。

データ管理部８０３は、デバイス制御プログラム８０１の実行において生成した作業データや、各デバイス制御に必要な設定パラメータなど様々なデータをＲＡＭ５０３および外部記憶装置５０５上の所定の領域へ格納し、管理する。例えば、後述するデバイス制御部８０８で実行するジョブの各設定項目及び設定値の組み合わせから成るジョブデータや、用紙の属性情報などが設定された機械設定情報が、格納、管理される。また、ゲートウェイ１０５との通信に必要な認証情報、クラウドサーバ１０２と通信するために必要なデバイス情報、ＵＲＬ（例えば、ｈｔｔｐ：／／ａａａａａ／ｍｆｐ＿ｍｎｇ）、認証情報などを格納、管理される。また、画像形成装置１０１で画像形成する対象の画像データを格納し、管理する。また、表示部８０６が画面表示制御に用いる画面制御情報と、音声操作判定部８０７が操作を判定するために用いる音声操作判定情報を格納し、画面制御情報と音声操作判定情報は、表示部８０６が表示する画面ごとに管理する。また、音声操作判定部８０７は、音声制御装置１００のウェイクワードや音声操作起動の為のワード（音声操作起動ワード）に関する音声データや、ネットワークＩ／Ｆやその他の起動手段による音声認識起動や音声操作起動の為の命令・制御手段などを管理する。

スキャン部８０４は、後述するデバイス制御部８０８のスキャンジョブパラメータ設定に基づいて、スキャンコントローラ５１４を介してスキャナ５１５でスキャンを実行させ、読み取った画像データをデータ管理部８０３に格納する。

プリント部８０５は、後述するデバイス制御部８０８のプリントジョブパラメータ設定に基づいて、プリントコントローラ５１２を介してプリントエンジン５１３で印刷を実行させる。

表示部８０６は、ディスプレイコントローラ５０７を介して、操作パネル５０９の制御を行い、前記の画面表示制御情報に基づいてユーザ操作可能なＵＩ部品（ボタン、プルダウンリスト、チェックボックスなど）をタッチパネル２００に表示する。また、操作Ｉ／Ｆ５０８を介して、タッチパネル２００（以降、画面等と呼ぶ）上のタッチされた座標を取得し、操作対象のＵＩ部品と操作受付時の処理内容を決定する。表示部８０６は、処理内容の決定に応じて、画面の表示内容を更新したり、ユーザ操作により設定されたジョブのパラメータおよび当該ジョブの開始指示をデバイス制御部に送信したりする。また、後述する音声操作判定部８０７の音声操作判定結果に応じても同様に、画面の表示内容を更新したり、ユーザ操作により設定されたジョブのパラメータおよび当該ジョブの開始指示をデバイス制御部に送信したりする。

音声操作判定部８０７は、データ送受信部８０２にてクラウドサーバ１０２より受信したグループＩＤに基づいて、操作パネル５０９に表示される画面を構成するユーザ操作可能なＵＩ部品を操作対象として判定する。例えば、ホーム画面２００を表示している状態で、図７ＢのグループＩＤ：ＦＮＣ００００１（コピー）を受信した場合、コピー画面９５２に遷移し、その状態でグループＩＤ：ＯＰＲ０００１１（スタート）を受信した場合、コピーを実行する。コピー画面９５２は、本発明の印刷設定画面の一例であって、印刷の設定を示す画面である。この画面で印刷設定を入力することもできる。この時、ユーザ１０６は、音声認識ボタンを押下し、音声認識中のステータス表示後、音声制御装置に“コピーをスタートして”と発話することで、コピー画面のデフォルト設定状態でコピーを開始する。

デバイス制御部８０８は、プリントコントローラ５１２、及び、スキャンコントローラ５１４を介して、プリントエンジン５１３、及び、スキャナ５１５の制御指示を行う。例えば、表示部８０６がコピー機能画面を表示中にタッチパネル２００のスタートキー９５６押下を検知した場合、デバイス制御部８０８は表示部８０６からコピージョブのパラメータとジョブ開始指示を受信する。そのジョブパラメータに基づいて、スキャナ５１５によって読取られた画像データをプリントエンジン５１３でシートに印刷するよう制御する。なお、スキャン、及び、プリント制御の仕組みについては、本実施例の主旨ではないため、これ以上の説明は省略する。

スピーカ制御部８０９は、外部記憶装置５０５に格納されている音声データやネットワーク１０４から受信した音声データをＲＡＭ５０３にコピーし、オーディオＩ／Ｆ５１６によりデジタル信号からアナログ信号に変換してスピーカ５１７に出力する。本発明では、音声制御装置１００のウェイクワード、音声操作起動用の音声操作起動ワードを出力する。

＜システムの制御シーケンス＞
図９Ａは、図１で示したシステムを構成する各装置のやりとりを示すシーケンス図である。特に、図９Ａは、音声制御装置１００がユーザ１０６から発話された音声操作を受け、それによって画像形成装置１０１が各処理を実行し、その実行結果を示す応答をユーザ１０６に音声で返すためのシーケンスを示す。

なお、図９Ａで示すシーケンスの例では、音声制御装置１００、画像形成装置１０１、クラウドサーバ１０２は互いに通信可能な状態であるとする。また、画像形成装置１０１は、電源ＯＮの起動後にコピー、スキャン、プリントなどの機能を呼び出し可能なホーム画面９５０を表示している状態であるとする。

まず、ステップ９０１（以降、Ｓ９０１のように表記する）では、ホーム画面９５０が表示されている状態から、ユーザ１０６が音声制御装置１００に対して音声操作の開始を指示（これを、音声認識起動トリガと呼ぶ）する。

Ｓ９０２では、音声認識起動トリガの検知により、音声操作開始処理を画像形成装置１０１にて実行する。音声操作開始処理は、図９Ｂの音声操作開始処理にて説明する。本実施例では、音声操作開始後、画像形成装置１０１は、ホーム画面９５１を表示し、音声操作の受付が可能な状態になっているものとして説明する。ホーム画面９５１のステータス表示２０４は、音声認識中のステータスを表示する。本発明の状態表示手段の一例が、操作パネル５０９である。

Ｓ９０３では、音声制御プログラム６０１の表示部６０６が、発話処理中を示すＬＥＤを点灯し、音声取得部６０４が処理を開始する。

Ｓ９０４では、ユーザ１０６がコピー画面呼び出し指示を音声制御装置１００に対して行う。コピー画面呼び出し指示は、例えば、ユーザ１０６が「コピーしたい」や「コピー画面を開いて」と発話することであり、音声取得部６０４によって取得された音声が音声データとして生成される。ユーザ１０６の発話後、空白時間が所定時間経過すると、発話終了判定部６０８は発話が終了したと判定する。

Ｓ９０５は、音声制御プログラム６０１の表示部６０６が、発話終了判定に応じて応答処理状態を示すＬＥＤを点滅する。また、同時に音声取得部６０４が処理を終了する。

Ｓ９０６は、データ送受信部６０２が、Ｓ９０４で生成した音声データをクラウドサーバ１０２に送信する。

Ｓ９０７では、音声データ変換制御プログラム７０１のデータ送受信部７０２が受信した音声データに対して、音声認識部７０５が、音声認識処理を行う。音声認識処理によって、例えば、ユーザ１０６が発話した「コピーしたい」という音声がテキストとして生成される。

Ｓ９０８では、音声データ変換制御プログラム７０１の形態素解析部７０６が、Ｓ９０７で生成されたテキストに対して形態素解析処理を行う。形態素解析処理によって、例えば、「コピーしたい」というテキストが、「コピー」、「し」、「たい」という形態素列として解析される。

Ｓ９０９では、音声データ変換制御プログラム７０１のグループＩＤ判定部７０７が、解析された形態素列のテキストに対してグループＩＤ判定処理を行う。グループＩＤ判定処理によって、例えば、「コピー」、「し」、「たい」という形態素列と図７ＢのグループＩＤリストとのマッチングにより、グループＩＤ判定結果として｛ＩＤ：ＦＮＣ００００１｝が生成される。

Ｓ９１０では、音声データ変換制御プログラム７０１のデータ送受信部７０２が、Ｓ９０９のグループＩＤ判定結果を画像形成装置１０１に送信する。

Ｓ９１１では、デバイス制御プログラム８０１のデータ送受信部８０２が受信したグループＩＤ判定結果に対して、音声操作判定部８０７が、音声操作判定処理を行う。音声操作判定処理によって、例えば、グループＩＤ判定結果｛ＩＤ：ＦＮＣ００００１｝から、ホーム画面の“コピー”ボタン２０３が選択されたと判定される。

Ｓ９１２では、Ｓ９１１の判定結果に応じて、表示部８０６が画面に表示する内容更新する。例えば、これまでの処理を通じて、ユーザが発話した「コピーしたい」から、画面に表示される“コピー”ボタン２０３に対する操作であると判定された場合は、タッチパネル２００で“コピー”ボタン２０３押下時に表示されるコピー機能画面９５２を表示する。

Ｓ９１３では、データ送受信部８０２によって、クラウドサーバ１０２へ、画面の表示内容が更新されたことを示す画面更新通知を送信する。例えば、表示部８０６がホーム画面からコピー機能画面へ表示が変更した場合、画面更新通知として「コピー機能画面表示」というテキストデータを送信する。

Ｓ９１４では、音声データ変換制御プログラム７０１のデータ送受信部７０２が受信した画面更新通知に対して、音声合成部７０８が画面更新通知の内容に対応する所定のテキストデータの音声合成処理を行う。例えば、画面更新通知の内容が「コピー機能画面表示」の場合、音声合成部７０８は、「コピー画面を表示しました」というテキストデータを音声合成する。音声合成部７０８が音声合成処理によって生成した音声データ（音声合成データ）は、データ送受信部７０２によって音声制御装置１００へと送信される。

Ｓ９１５では、データ送受信部６０２が、Ｓ９１４で生成された音声合成データを受信する。

Ｓ９１６では、音声再生部６０５が、９１５で受信した音声合成データを再生する。例えば、Ｓ９１４で生成した「コピー画面を表示しました。」という音声合成データを、スピーカ３１０を通じて再生する。

Ｓ９１７は、前述のＳ９０３と同様である。

Ｓ９１８では、ユーザ１０６が設定画面呼び出し指示を音声制御装置１００に対して行う。設定画面呼び出し指示は、例えば、ユーザ１０６が「用紙を選択」と発話することであり、音声取得部６０４によって取得された音声が音声データとして生成される。ユーザ１０６の発話後、空白時間が所定時間経過すると、発話終了判定部６０８は発話が終了したと判定する。

Ｓ９１９は、前述のＳ９０５と同様である。

Ｓ９２０は、前述のＳ９０６〜Ｓ９１５の処理と同様の音声操作処理を示す。ただし、Ｓ９２０では、Ｓ９１８の設定画面呼び出し指示に伴って、表示部８０６が設定画面を表示するように画面を更新する。例えば、コピー機能画面を表示している場合、グループＩＤ判定結果が｛ＩＤ：ＰＡＰ００００、ＩＤ：ＯＰＲ０００４０｝のとき、用紙選択画面９５３を表示する。

Ｓ９２１では、音声再生部６０５が、Ｓ９２０で受信した音声合成データを再生する。例えば、Ｓ９２０で生成した「用紙選択画面を表示しました。続いて用紙を設定してください。」という音声合成データを、スピーカ３１０を通じて再生する。

Ｓ９２２は、前述のＳ９０３と同様である。

Ｓ９２３では、ユーザ１０６が設定変更指示を音声制御装置１００に対して行う。設定変更指示は、例えば、ユーザ１０６が「Ａ４」と発話することである。ユーザ１０６の発話後、空白時間が所定時間経過すると、発話終了判定部６０８は発話が終了したと判定する。

Ｓ９２４は、前述のＳ９０５と同様である。

Ｓ９２５は、前述のＳ９０６〜Ｓ９１５の処理と同様の音声操作処理を示す。ただし、Ｓ９２５では、Ｓ９２３の設定変更指示に伴って、表示部８０６が設定画面に表示する設定値を変更する。例えば、用紙選択画面を表示している場合、グループＩＤ判定結果が｛ＩＤ：ＰＡＰ００１０１｝のとき、用紙の設定値をＡ４に変更した用紙選択画面９５４を表示する。

Ｓ９２６は、音声再生部６０５が、Ｓ９２５における音声合成処理で生成した音声合成データを再生する。例えば、Ｓ９２５で用紙の設定値を変更して表示した場合は「用紙をＡ４に設定しました」という音声合成データを、スピーカ３１０を通じて再生する。

Ｓ９２７は、前述のＳ９０３と同様である。

Ｓ９２８では、ユーザ１０６がジョブ実行指示を音声制御装置１００に対して行う。ジョブ実行指示は、例えば、ユーザ１０６が「コピースタート」と発話することである。ユーザ１０６の発話後、空白時間が所定時間経過すると、発話終了判定部６０８は発話が終了したと判定する。

Ｓ９２９〜Ｓ９３４は、前述のＳ９０５〜Ｓ９１０と同様の処理である。

Ｓ９３５では、デバイス制御プログラム８０１のデータ送受信部８０２が受信したグループＩＤ判定結果に対して、音声操作判定部８０７が音声操作判定処理を行う。グループＩＤ判定結果が｛ＩＤ：ＦＮＣ００００１、ＩＤ：ＯＰＲ０００１１｝である場合、画面に表示している“スタート”ボタン９５６が操作されたと判定される。

Ｓ９３６では、Ｓ９３５の判定結果に応じて、ジョブの実行画面９５５を表示する。例えば、これまでの処理を通じて、ユーザが発話した「コピースタート」の音声が、スタートボタン９５６に対する操作であると判定された場合は、コピージョブ開始の画面が表示される。

Ｓ９３７では、画像形成装置１０１の画面で設定されたジョブパラメータに従って、コピージョブを実行する。

Ｓ９３８では、データ送受信部８０２によって、クラウドサーバ１０２へ、ジョブ実行状態通知の内容として、ジョブの実行を開始したことを示す情報（ジョブ実行開始通知）を送信する。例えば、コピージョブを開始した場合、ジョブ実行状態の内容として「コピージョブ開始」というテキストデータを送信する。

Ｓ９３９では、音声データ変換制御プログラム７０１のデータ送受信部７０２でジョブ実行状態通知を受信し、音声合成部７０８がその内容（ジョブ実行開始通知）に対応する所定のテキストデータの音声合成処理を行う。例えば、ジョブ実行状態通知の内容が「コピージョブ開始」の場合、音声合成部７０８は、「コピーを開始します」というテキストデータを音声合成する。

Ｓ９４０は、前述のＳ９１５と同様である。

Ｓ９４１では、音声再生部６０５が、Ｓ９４０で受信した音声合成データを再生する。例えば、Ｓ９３９で生成した「コピーを開始します」という音声合成データを、スピーカ３１０を通じて再生する。

Ｓ９４２では、データ送受信部８０２によって、クラウドサーバ１０２へ、ジョブ実行状態通知の内容として、ジョブ実行を終了したことを示す情報（ジョブ実行終了通知）を送信する。例えば、コピージョブを終了した場合、ジョブ実行状態通知の内容として「コピージョブ終了」というテキストデータを送信する。

Ｓ９４３では、音声データ変換制御プログラム７０１のデータ送受信部７０２がジョブ実行状態通知を受信し、音声合成部７０８がその内容（ジョブ実行終了通知）に対応する所定のテキストデータの音声合成処理を行う。例えば、ジョブ実行状態通知の内容が「コピージョブ終了」の場合、音声合成部７０８は、「コピーを終了しました」というテキストデータを音声合成する。

Ｓ９４４では、Ｓ９３７のジョブ実行処理が終了したことを受けて、表示部８０６はジョブの実行終了画面を表示する。例えば、コピージョブの実行が終了した場合、ジョブの実行画面９５５を閉じて、コピー機能画面９５２を表示する。

Ｓ９４５では、データ送受信部６０２が、Ｓ９３８で生成した音声合成データをクラウドサーバ１０２から受信する。

Ｓ９４６では、音声再生部６０５が、Ｓ９４３で受信した音声合成データを再生する。例えば、Ｓ９４３で生成した「コピーを終了しました」という音声合成データを、スピーカ３１０を通じて再生する。

Ｓ９４７は、前述のＳ９０３と同様である。

Ｓ９４８では、ユーザ１０６が音声認識ボタン２０１を押下することで、音声制御装置１００に対して音声操作の終了を指示する。Ｓ９０１の音声認識ボタン２０１の押下により起動した音声操作は、ユーザ１０６が再度音声認識ボタンを押下する終了トリガが発生する事で終了する。

Ｓ９４９では、音声認識の終了トリガが発生した事を音声操作判定部８０７にて判定し、音声認識中２０４の表示を消去して、表示部８０６にてホーム画面９５０を表示する。

Ｓ９５０では、データ送受信部８０２によって、クラウドサーバ１０２へ、画面の表示内容が更新されたことを示す画面更新通知を送信する。ここでは、「音声認識終了」というテキストデータを送信する。

Ｓ９５１では、データ送受信部７０２によって、Ｓ９５０の「音声認識終了」のテキストデータを受信したことに対応して、対話セッション終了通知を音声制御装置１００に送信する。

Ｓ９５２では、Ｓ９５１でデータ送受信部６０２が対話セッション終了通知を受信したことに対応して、音声制御プログラム６０１の表示部６０６が、音声制御装置１００の待機状態を示すためにＬＥＤを消灯する。

Ｓ９５３では、Ｓ９５１で対話セッション終了通知を受信したことに対応して、音声制御装置１００が待機状態へ移行する。

なお、シーケンス図上で、応答処理中を示すＬＥＤが点滅中であってもウェイクワードは常に入力可能である。ユーザ１０６はウェイクワードの発話に続いて「キャンセル」、または「中止」などと発言することで、対話セッションを強制的に終了するようにしてもよい。

＜システムの音声操作開始処理シーケンス＞
図９Ｂは、図９Ａで示した音声操作開始処理に関するシーケンス図である。

Ｓ９０１は、図９Ａで説明したので省略する。尚、本実施例は、音声操作の開始の指示（音声認識起動トリガ）は、ユーザ１０６が音声認識ボタン２０１を押下することで行われたとして説明する。音声認識起動トリガは、後で説明するが、コピーボタン２０３押下、原稿のスキャナ５１５への設置（原稿検知）、ＰＤＬ印刷のセキュアジョブの受信など、他のトリガであっても良い。

Ｓ９６１では、デバイス制御プログラム８０１が音声制御装置１００のウェイクワードと音声操作用の起動ワードをデータ管理部８０３のプログラムにより外部記憶装置５０５から読み出す。

音声制御装置１００のウェイクワードは、下記の表１の「表Ａ音声制御装置のウェイクワード設定」のように、音声制御装置の装置名または製品名と紐づけて外部記憶装置５０５に格納されている。当該表１において、使用する／しない設定が“使用する”に設定されている装置のウェイクワードを読み出す。本実施例では、スピーカ５０００は、“スピーカ１を起動して”というウェイクワードで起動する。スピーカ５００１は、“スピーカ２を起動して”というウェイクワードで起動する。なお、スピーカ５００２のウェイクワードをカスタマイズした場合、ウェイクワードの手動入力設定を設け、手動でウェイクワードを入力可能とすることで（ここでは、“ＭＦＰ起きて”）対応可能となる。また、２つ以上の音声制御装置を使用する場合、使用したい機能毎、ユーザ毎に音声制御装置１００のウェイクワードを割り当てて使用するようにしてもよい。この場合、画像形成装置から離れた場所の音声制御装置１００にて、別々のユーザが画像形成装置のリモートで音声操作をすることができる。

Ｓ９６２では、デバイス制御プログラム８０１は、スピーカ制御部８０９によりＳ９６１で読み出したスピーカ５０００のウェイクワード“スピーカ１を起動して”をオーディオＩ／Ｆ経由でスピーカ５１７から音声データに変換して出力する。音声制御装置１００は、音声取得部６０４によって取得した音声を音声データとして生成し、音声データがウェイクワードとして音声操作開始検知部６０７に検知されると、音声制御部６０９は、対話セッション開始状態に移行する。

Ｓ９６３では、音声制御プログラム６０１の表示部６０６が、発話処理中を示すＬＥＤを点灯し、音声取得部６０４から取得した音声データをデータ送受信部６０２によりクラウドサーバ１０２に送信する処理を開始する（対話セッション開始）。

Ｓ９６４では、デバイス制御プログラム８０１の表示部８０６がタッチパネル２００のステータス表示部に起動中９８１を表示する。

Ｓ９６５では、デバイス制御プログラム８０１は、スピーカ制御部８０９により、Ｓ９６１で読み出した音声操作起動ワード“音声操作を起動して”をオーディオＩ／Ｆ経由でスピーカ５１７から出力する。これにより、クラウドサーバ１０２による画像形成装置１０１の音声操作サービスが提供される。

音声制御装置１００の音声操作起動ワードは、下記の表２の「表Ｂ音声制御装置の音声操作起動設定」のように、起動トリガ、音声操作、音声操作起動ワードを紐づけて外部記憶装置５０５に格納している。

音声認識ボタン６０１０は、音声認識ボタン２０１を押下した時の音声操作として音声認識（ＦＮＣ００００８）を紐付け、音声制御装置１００の音声操作起動ワードは、“音声操作起動”として設定されている。さらに、音声操作の終了を判定するための終了トリガも起動トリガに紐づけて設定する。例えば、音声認識ボタン６０１０の終了トリガは、同じく音声認識ボタン２０１の押下により音声認識による音声操作の終了が設定されている。以下、各起動トリガ６０１０〜６０１５について説明する。

音声認識ボタン６０１０は、音声認識ボタン２０１を押下した時の音声操作として音声認識（ＦＮＣ００００８）と起動（ＯＰＲ０００２１）を紐付け、音声制御装置１００の音声操作起動ワードは、“音声操作を起動して”として設定されている。さらに、音声操作の終了を判定するための終了トリガも起動トリガに紐づけて設定する。例えば、音声認識ボタン６０１０の終了トリガは、同じく音声認識ボタン２０１の押下により音声認識による音声操作の終了を設定している。

ユーザログイン６０１１は、ユーザログインの為のログインボタン２０２を押下した時の音声操作として認証（ＦＮＣ００００９）と起動（ＯＰＲ０００２１）を紐付け、音声制御装置１００の音声操作起動ワードは、“ログイン起動して”が設定されている。この時の終了トリガは、ログアウトでログイン後の画面に表示されるログアウトボタン（不図示）の押下を検出した時、音声認識による音声操作を終了する。

コピーボタン６０１３は、コピーボタン２０３を押下した時の音声操作としてコピー（ＦＮＣ００００１）を紐付け、音声制御装置１００の音声操作起動ワードは、“コピーして”として設定されている。尚、音声操作が単機能のみの場合、音声操作起動ワードの“起動”（ＯＰＲ０００２１）という操作の為のワードは、省略可能とする。終了トリガは、コピー実行による印刷が終了する印刷終了が設定され、印刷終了時に音声認識による音声操作を終了する。

原稿検知６０１４は、原稿をスキャナ５１５の原稿台またはシートフィーダへの設置を検知した時の音声操作内容としてスキャン（ＦＮＣ００００３）を紐付け、音声制御装置１００の音声操作起動ワードは、“スキャンして”と設定されている。原稿検知６０１４の終了トリガは、スキャン終了に設定され、スキャン終了時に音声認識による音声操作を終了する。

表２のセキュアプリント６０１５は、セキュアプリントジョブを受信した時の音声操作として印刷、スプール（ＦＮＣ００００７、ＦＮＣ００００２）を紐付け、音声制御装置１００の音声操作起動ワードは、“印刷ジョブを表示“として設定されている。セキュアプリント６０１５の終了トリガは、印刷ジョブ画面によるセキュアプリントジョブの印刷操作を終了した時に設定され、印刷ジョブ画面の操作を終了した時に音声認識による音声操作を終了する。

Ｓ９６６では、音声制御プログラム６０１の表示部６０６が、発話終了判定に応じて応答処理状態を示すＬＥＤを点滅する。また、同時に音声取得部６０４が処理を終了する。

Ｓ９６７では、音声制御プログラム６０１は、Ｓ９６５で取得した“音声操作を起動して”という音声データをクラウドサーバ１０２にネットワークＩ／Ｆ３０６を介して送信する。Ｓ９６７で送信される音声データは、本発明の開始データの一例である。

Ｓ９６８では、音声データ変換制御プログラム７０１は、受信した音声データに対して音声認識処理を実行し、音声データから“音声操作を起動して”というテキストデータを生成する。

Ｓ９６９では、音声データ変換制御プログラム７０１は、Ｓ９６８で生成したテキストデータの形態素解析処理を実行する。

Ｓ９７０は、形態素解析部７０６からグループＩＤ判定部７０７を起動し、受信した“音声操作を起動して“からグループＩＤ｛ＦＮＣ００００９、ＯＰＲ０００２１｝を判定する。

Ｓ９７１では、音声データ変換制御プログラム７０１は、画像形成装置１０１にグループＩＤ｛ＦＮＣ００００９、ＯＰＲ０００２１｝をデータ送受信部７０２にて送信する。デバイス制御プログラム８０１は、データ送受信部８０２よりグループＩＤ｛ＦＮＣ００００９、ＯＰＲ０００２１｝を受信する。

Ｓ９７２では、デバイス制御プログラム８０１は、表示部８０６がタッチパネル２００のステータス表示部に音声認識中９８２を表示する。

Ｓ９７３では、音声データ変換制御プログラム７０１は、画像形成装置１０１の画面が更新し、音声認識中表示９８２に表示が切り替わった通知（画面更新通知）を受信する。例えば、「音声認識起動」を受信する。

Ｓ９７４では、音声データ変換制御プログラム７０１のデータ送受信部７０２が受信した画面更新通知に対して、音声合成部７０８が画面更新通知の内容に対応する所定のテキストデータの音声合成処理を行う。例えば、画面更新通知の内容が「音声認識起動」の場合、音声合成部７０８は、「起動しました」というテキストデータを音声合成する。

Ｓ９７５では、音声合成部７０８が音声合成処理によって生成した音声合成データは、データ送受信部７０２によって音声制御装置１００へと送信される。

Ｓ９７６では、音声制御プログラム６０１は、音声再生部６０５が、Ｓ９７４で受信した音声合成データを再生する。例えば、Ｓ９７３で生成した「起動しました」という音声合成データを、スピーカ３１０を通じて再生する。

以上、図９Ａに示すように、表２の音声認識起動トリガに基づいて、画像形成装置１０１のスピーカ５１７よりウェイクワード、音声操作起動ワードを音声出力する事で、ユーザが発話せずに音声制御装置との対話セッションを開始できる。また、ウェイクワードを音声制御装置の装置名または製品名と紐づけて画像形成装置に格納する事で、ユーザは、様々な音声制御装置と組み合わせて画像形成装置の音声操作を実行できる。

＜画像形成装置のデバイス制御プログラムの処理フロー＞
図１０は、画像形成装置１０１のデバイス制御プログラム８０１の処理の概要を示すフローチャートである。デバイス制御プログラム８０１は、画像形成装置１０１のＲＡＭ５０３、ＲＯＭ５０４、外部記憶装置５０５のいずれかの記憶手段に記憶され、ＣＰＵ５０２により実行される。本実施例においてデバイス制御プログラム８０１は、リアルタイムＯＳにより制御され、各プログラム間においては、割り込み、メッセージの送受信、イベント処理、タスクスイッチなどにより並列実行が可能である。

Ｓ１００１にて、デバイス制御プログラム８０１は、音声認識の為の起動トリガを設定したデバイス制御部８０８が起動トリガの検出に応じて音声認識の為の起動制御を実行する。起動トリガ設定に関しては、図１１の音声認識起動トリガ設定のフローチャートにて説明する。

Ｓ１００２にて、デバイス制御部８０８は、起動トリガが発生した事を示す起動メッセージの受信を待つ。起動メッセージは、起動トリガが検出されると検出された各制御部から送信されるデータで、起動トリガの発生源（例：操作パネル５０９）と起動トリガの内容（音声認識ボタン６０１０）を少なくとも保持する。

Ｓ１００３にて、デバイス制御部８０８は、音声認識の為の起動トリガを検出したかどうかを判定し、検出したらＹＥＳのＳ１００４に遷移し、検出していなかったらＮＯのＳ１００２に遷移する。尚、検出しなかった場合、他のメッセージ処理（画面操作、ジョブ制御、ネットワーク監視など）を実行する。

Ｓ１００４にて、デバイス制御部８０８は、起動メッセージをＲＡＭ５０３に格納する。

Ｓ１００５にて、デバイス制御部８０８は、音声制御装置１００の音声認識起動制御を実行する。音声認識起動制御は、図１２の音声認識起動フローのフローチャートにて説明する。

Ｓ１００６にて、デバイス制御部８０８は、音声認識が正常に起動したかを判定し、正常に起動したＹＥＳの場合、Ｓ１００７に遷移し、起動に失敗したＮＯの場合、Ｓ１００８に遷移する。

Ｓ１００７にて、デバイス制御部８０８は、音声認識により音声操作の制御を実行する。音声認識制御の詳細は、図１３のフローチャートにて説明する。

Ｓ１００８にて、デバイス制御部８０８は、音声認識の起動に失敗したことを起動メッセージ応答により表示部８０６にて表示する。本実施例のデバイス制御部８０８は、音声認識の起動に失敗した時、表示部８０６がステータス表示部２０４に音声認識中の起動に失敗しましたという表示（不図示）を行うことでユーザに通知する。また、スピーカ制御部８０９にメッセージを送信し、スピーカ５１７にて音声で“起動に失敗しました”と音声出力するようにしても良い。

Ｓ１００９にて、デバイス制御部８０８は、音声認識制御中に音声認識の終了トリガを検出したかを判定し、終了トリガを検出したＹＥＳの場合、Ｓ１０１０に遷移し、終了トリガ非検出のＮＯの場合、Ｓ１００７に遷移する。

Ｓ１０１０にて、デバイス制御部８０８は、音声認識終了指示を表示部８０６にメッセージ送信し、音声認識中の表示を消去する。また、スピーカ制御部８０９にメッセージ送信し、スピーカ５１７にて音声で“音声認識を終了しました”と音声出力するようにしても良い。

以上、画像形成装置１０１のデバイス制御プログラム８０１の音声操作に関するフローチャートを説明した。画像形成装置１００は、音声制御装置１００の起動をＳ１００５で処理することで、ユーザの発話による音声制御装置１００の起動が不要となる。さらに、音声操作の起動トリガと紐づけた終了トリガにより音声認識制御の終了を判定する事で、ユーザが発話しないで音声制御装置１００を終了できる。

＜画像形成装置の音声認識起動トリガ設定の処理フロー＞
図１１は、画像形成装置１０１のデバイス制御プログラム８０１の音声認識起動設定の読み出し処理の概要を示すフローチャートである。音声認識起動設定の読み出し処理は、データ管理部８０３が、表１、２、３のウェイクワード、音声操作起動ワード、起動手段に関する設定を外部記憶装置５０５から読み出す。

Ｓ１１０１にて、データ管理部８０３は、音声制御装置１００の起動手段の設定を外部記憶装置５０５から読み出す。音声制御装置１００の起動手段の設定は、下記の表３の「表Ｃ音声制御装置の起動手段の設定」のように、音声制御装置１００の起動手段、起動手段の使用する・しない、優先順位、を紐づけて外部記憶装置５０５に格納し、起動時に読み出す。起動手段の使用する・しない設定は、起動手段として音声制御装置１００の入力手段に応じて様々な設定が用意される。

起動手段が複数使用するに設定されている場合、優先順位に基づいて複数の起動手段を実行し、最初に起動した手段により音声制御装置との通信を行う。また、音声制御装置１００が複数ある場合、音声制御装置毎に起動手段の設定を用意するようにしても良い。さらに、優先順位をユーザが指定可能としても良く、音声制御装置１００の入力手段が複数ある場合、ユーザが使用したい手段を選択可能にする。例えば、音声を出力せずに音声認識による音声操作をしたい場合は、表３のように音声入力による起動手段の優先順位を５に下げて、その他の起動手段の優先順位を１〜４に上げる事で、スピーカから音声を出力しないで音声操作を実行可能になる。

尚、本実施例では、音声制御装置を起動するための入力手段としてマイクロフォン３０８とネットワーク１０４を図示しているが、ＢＬＥ（不図示）や赤外線（不図示）による入力手段で起動するようにしても良い。

Ｓ１１０２にて、データ管理部８０３は、音声制御装置１００の起動設定を外部記憶装置５０５から読み出し、ＲＡＭ５０３に保存する。音声制御装置の起動設定は、表１で説明した内容である。

Ｓ１１０３にて、データ管理部８０３は、音声制御装置１００の音声認識起動設定を外部記憶装置５０５から読み出し、ＲＡＭ５０３に保存する。音声認識起動設定は、表２で説明した内容である。

Ｓ１１０４にて、Ｓ１１０３で読み出した音声認識起動設定の起動トリガに基づいて、起動トリガ検出時に音声操作判定部が音声認識の開始を実行するための割り込みや、コールバック関数や、起動判別テーブルなどを設定する。例えば、タッチパネル２００の音声認識ボタン２０１の押下を検出した時、音声操作判定部８０７に音声操作開始指示を通知するためのコールバック関数の設定を行う。その他、スキャナ５１５に原稿が置かれたことをスキャンコントローラ６１４よりスキャン部８０４で検出した時、音声操作判定部８０７に音声操作開始指示を通知するため、ＣＰＵ５０２の割り込み設定を行う。

以上、図１１のフローチャートにより画像形成装置１０１は、起動時に音声制御装置１００による音声認識を起動するための各種設定を外部記憶装置５０５から読み出し、起動トリガ検出時の音声操作開始指示を実行するための設定を行う。本フローチャートにより、様々な音声制御装置の入力手段と起動条件と音声操作が対応可能となる。

＜画像形成装置の音声認識起動制御の処理フロー＞
図１２は、画像形成装置１０１のデバイス制御プログラム８０１の音声認識起動制御の概要を示すフローチャートである。

Ｓ１２０１にて、デバイス制御プログラム８０１は、音声認識の起動手段判定処理を実行する。起動手段判定処理は、表３の音声制御装置の起動手段の設定の優先順位設定が１〜５の順番に、使用設定が“使用する”の起動手段を実行し、起動した起動手段をＲＡＭ５０３に格納し、次のＳ１２０２、Ｓ１２０５のステップの判定で使用する。尚、Ｓ１２０１は、図１１の音声認識起動設定読み出しのＳ１１０４の後に実行し、どの起動手段で実行するのか外部記憶装置５０５に格納し、Ｓ１２０１は、格納した起動手段を読み出しＲＡＭ５０３に格納するようにしても良い。また、複数の起動手段が使用可能な場合に限り、（１）、（２）、（３）の起動手段を優先順位に基づいて実行し、最速で起動したときの起動手段を用いるようにしても良い。ここで、（１）、（２）、（３）で囲んだ点線は、起動手段毎の起動処理を示している。（３）の処理は、図示していないが、ＢＬＥ、赤外線などの起動処理を実行する。

Ｓ１２０２にて、デバイス制御プログラム８０１は、Ｓ１２０１で格納した起動手段を読み出し、格納した起動手段がネットワーク（有線）で起動するＹＥＳの場合、Ｓ１２０３に遷移し、ネットワーク（有線）で起動しないＮＯの場合、Ｓ１２０５に遷移する。

Ｓ１２０３にて、デバイス制御プログラム８０１は、データ送受信部８０２により音声制御装置１００に音声制御起動コマンド（または、音声データ）をネットワーク（有線）から送信し、音声制御装置１００からの音声制御起動応答を受信する。

Ｓ１２０４にて、音声制御装置１００に表２の音声認識起動設定に基づいて、“音声操作起動”を送信し、音声制御装置１００からの“音声操作起動応答を受信する。

Ｓ１２０５にて、デバイス制御プログラム８０１は、Ｓ１２０１で格納した起動手段を読み出し、格納した起動手段が音声入力で起動するＹＥＳの場合、Ｓ１２０６に遷移し、音声入力で起動しないＮＯの場合、Ｓ１２０８に遷移する。

Ｓ１２０６にて、デバイス制御プログラム８０１は、スピーカ制御部８０９によりスピーカ５１７からウェイクワード（“スピーカ１起動して”）の音声データを出力する。

Ｓ１２０７にて、デバイス制御プログラム８０１は、スピーカ制御部８０９によりスピーカ５１７から音声操作起動ワード（“音声操作起動”）の音声データを出力する。

Ｓ１２０８にて、デバイス制御プログラム８０１は、Ｓ１２０１で判定された起動手段に基づいて、その他の起動手段（ネットワーク（無線）、ＢＬＥ、赤外線）を実行する。その他の起動手段については、（１）、（２）と同様の処理のため、説明は省略する。

Ｓ１２０９にて、クラウドサーバ１０２よりグループＩＤを受信する。

Ｓ１２１０にて、受信したグループＩＤから音声認識が正常に起動したかどうかを判定し、正常に起動したＹＥＳの場合、Ｓ１２１０に遷移し、正常に起動しなかったＮＯの場合、Ｓ１２１１に遷移する。

Ｓ１２１１にて、音声認識の起動が成功したことを音声認識中画面９５１で表示する。

Ｓ１２１２にて、音声認識の起動が失敗したことを“音声認識に失敗しました“と画像形成装置のステータス表示部２０４に表示する事で、ユーザに通知する。

以上、図１２の音声認識起動制御を行うことで、音声制御装置の起動を音声認識の起動手段毎に起動制御することが可能となる。また、本実施例では、２つの起動手段を用いて説明しているが、音声入力のみで起動する場合は、常にＳ１２０５で起動するように表３の音声制御装置の起動手段の設定を音声入力のみ使用するに設定する事で可能となる。

＜画像形成装置の音声操作判定の処理フロー＞
図１３は、画像形成装置１０１のデバイス制御プログラム８０１の音声操作判定部８０７の概要を示すフローチャートである。

Ｓ１３００にて、音声操作判定部８０７は、タッチパネル２００の画面をタッチされたかどうかを判定し、タッチパネルへのタッチ（画面操作）があるＹＥＳの場合、Ｓ１３１１に遷移し、画面操作が無いＮＯの場合、Ｓ１３０１に遷移する。

Ｓ１３０１にて、音声操作判定部８０７は、データ送受信部８０２にて受信した音声認識判定結果のグループＩＤを受信する。

Ｓ１３０２にて、音声操作判定部８０７は、受信したグループＩＤが表示部８０５によりタッチパネル２００に表示されている画面で操作対象のグループＩＤかを判定する。また、操作対象のグループＩＤの場合、操作グループＩＤとしてＲＡＭ５０３に格納する。

Ｓ１３０３にて、音声操作判定部８０７は、受信したグループＩＤからジョブを実行するＹＥＳの場合、Ｓ１３０７に遷移し、ジョブを実行しないＮＯの場合、Ｓ１３０４に遷移する。例えば、Ｓ９３５のようにコピー画面におけるスタートキー押下のグループＩＤの場合、ジョブを実行するＹＥＳに遷移する。例えば、Ｓ９２５のように用紙選択画面における設定変更指示「Ａ４」のグループＩＤの場合、ジョブを実行しないＮＯに遷移する。

Ｓ１３０４にて、音声操作判定部８０７は、操作対象の設定を変更する。

Ｓ１３０５にて、音声操作判定部８０７は、表示部８０５にＳ１３０４の設定変更を反映した画面表示に更新するように指示する。

Ｓ１３０６にて、音声操作判定部８０７は、タッチパネル２００の表示が更新されたことをデータ送受信部８０２によりクラウドサーバ１０２に送信する。

Ｓ１３０７にて、音声操作判定部８０７は、表示部８０５にジョブ実行画面を表示するように指示する。例えば、コピージョブのジョブ実行画面９５５をタッチパネル２００に表示する。

Ｓ１３０８にて、音声操作判定部８０７は、デバイス制御部８０８にてジョブの実行処理を指示する。

Ｓ１３０９にて、音声操作判定部８０７は、ジョブの実行処理の終了をデバイス制御部８０８から受信し、表示部８０５にジョブの実行終了を通知し、ジョブ実行画面９５５を閉じる。例えば、Ｓ９１２で表示するコピー画面９５２を表示する。

Ｓ１３１０にて、音声操作判定部８０７は、音声認識を終了するための終了トリガが発生したかを判定する処理（終了トリガ判定処理）を実行する。終了トリガ判定処理は、図１４のフローチャートにて説明する。

Ｓ１３１１にて、表示部８０５は、画面操作の処理を実行し、操作した処理に対応するグループＩＤを決定し、操作グループＩＤとしてＲＡＭ５０３に保持し、Ｓ１３１０の終了トリガ判定で使用する。

以上、図１３の音声操作判定部８０７のフローチャートにより、クラウドサーバ１０２から音声認識結果のグループＩＤを受信する事で、音声制御装置１００から入力した音声データより画像形成装置１０１の操作を実行可能とする。

＜画像形成装置の音声認識終了トリガ判定の処理フロー＞
図１４は、画像形成装置１０１のデバイス制御プログラム８０１の音声認識終了トリガ判定の概要を示すフローチャートである。図１３で説明したように、音声操作によりジョブの実行、画面を変更した後、音声認識の終了トリガ判定を行い、音声制御装置１００を用いた音声操作を終了するかを判定する。

Ｓ１４０１にて、音声操作判定部８０７は、Ｓ１００４で格納した起動メッセージから起動トリガを取得し、表２音声認識起動設定において一致する起動トリガの終了トリガを取得する。例えば、起動トリガが音声認識ボタン６０１０の場合、終了トリガは、音声認識ボタン押下になる。

Ｓ１４０２にて、音声操作判定部８０７は、Ｓ１３０１またはＳ１３１１でＲＡＭ５０３に格納した操作グループＩＤを取得する。

Ｓ１４０３にて、音声操作判定部８０７は、Ｓ１４０２で取得したグループＩＤが終了トリガと一致するかを判定する。判定した結果が終了トリガと一致するＹＥＳの場合、Ｓ１４０４に遷移し、終了トリガと一致しないＮＯの場合、終了する。

ここで、終了トリガの判別方法について説明する。例えば、終了トリガが印刷終了の場合、ジョブ実行時の機能番号（コピー：ＦＮＣ００００１）、操作番号（開始：ＯＰＲ０００１２）からジョブ種を判別し、終了したジョブ種より印刷が終了したかを判断する。例えば、終了トリガが音声認識ボタンの場合、画面操作した機能番号（音声認識：ＦＮＣ００００９）からどの機能ボタンを押下したか判別し、終了トリガの音声認識ボタン押下と一致するかを判断する。

Ｓ１４０４にて、音声認識終了トリガを検出したことを上位フローのＳ１００９に通知する。

以上の音声認識の終了トリガ判定を画面操作、ジョブ終了時に判定する事で、音声認識を起動し続けることを防止する。また、起動トリガと終了トリガを紐づける事で、ユーザが使用したい機能に応じた音声操作が可能となる。

＜音声制御装置の音声制御プログラムの処理フロー＞
図１５は、音声制御装置の音声制御プログラム６０１の音声制御の概要を示すフローチャートである。

Ｓ１５０１にて、音声制御プログラム６０１は、音声操作開始指示の受信を待ち、マイクロフォン３０８で録音した録音データがウェイクワードと一致したことを音声操作開始検知部６０７にて検知されたら、Ｓ１５０２に遷移する。

Ｓ１５０２にて、音声制御プログラム６０１は、対話セッション（例えば、Ｓ９６３）を開始する。

Ｓ１５０３にて、音声制御プログラム６０１は、表示部６０６により発話処理状態ＬＥＤを点灯する。

Ｓ１５０４にて、音声制御プログラム６０１は、音声操作起動ワードまたは音声操作ワードを音声取得部６０４から音声で取得、または、データ送受信部６０２から音声データとして受信する。音声の場合、発話終了判定部６０８により音声取得部６０４により取得した音声の終了を決定し、音声を音声データに変換して外部記憶装置３０５に格納する。音声データの場合、データ管理部６０３により受信した音声データを外部記憶装置３０５に格納する。

Ｓ１５０５にて、音声制御プログラム６０１は、音声データを検出したかを判定し、音声データを検出したＹＥＳの場合、Ｓ１５０６に遷移し、音声データを検出しないＮＯの場合、Ｓ１５０４に遷移する。

Ｓ１５０６にて、音声制御プログラム６０１は、表示部６０６により応答処理状態ＬＥＤを点滅する。

Ｓ１５０７にて、音声制御プログラム６０１は、Ｓ１５０４にて格納した音声データをデータ送受信部６０２によりネットワークＩ／Ｆ３０６を介してクラウドサーバ１０２に送信する。

Ｓ１５０８にて、音声制御プログラム６０１は、データ送受信部６０２から音声合成データの受信を待つ。尚、一定時間受信しなかったら、次のステップに遷移する。

Ｓ１５０９にて、音声制御プログラム６０１は、音声合成データの受信を確認し、受信したＹＥＳの場合、Ｓ１５１０に遷移し、未受信または受信中のＮＯの場合、Ｓ１５０８に戻る。

Ｓ１５１０にて、音声制御プログラム６０１は、音声再生部６０５にてＳ１５０８で受信した音声合成データを再生する。

Ｓ１５１１にて、音声制御プログラム６０１は、データ送受信部６０２にてデータをクラウドサーバ１０２から受信するのを待つ。

Ｓ１５１２にて、音声制御プログラム６０１は、データ送受信部６０２に対話セッション終了通知を受信したかを判定し、受信したＹＥＳの場合、Ｓ１５１３に遷移し、受信しないＮＯの場合、Ｓ１５０８に遷移する。

Ｓ１５１３にて、音声制御プログラム６０１は、表示部６０６で発話処理待機ＬＥＤを消灯する。

Ｓ１５１４にて、音声制御プログラム６０１は、対話セッションを終了し、音声操作開始指示の受信待ちＳ１５０１に戻る。

＜クラウドサーバの音声データ変換プログラムの処理フロー＞
図１６は、クラウドサーバ１０２のクラウドサーバの音声データ変換制御プログラム７０１の音声認識制御の概要を示すフローチャートである。尚、クラウドサーバ１０２における音声操作は、音声データ変換制御プログラム７０１により実行する。

Ｓ１６０１にて、音声データ変換プログラム７０１は、受信した音声データに対して、音声認識部７０５で音声認識処理を実行し、形態素解析部７０６により認識した音声を分解し、グループＩＤ判定部７０７によりグループＩＤを決定する。

Ｓ１６０２にて、音声データ変換プログラム７０１は、音声認識結果としてＳ１６０１で決定したグループＩＤをデータ送受信部７０２により画像形成装置１０１に送信する。

Ｓ１６０３にて、音声データ変換プログラム７０１は、Ｓ１６０１で決定したグループＩＤがジョブを実行するグループＩＤかどうかを判定し、ジョブを実行するＹＥＳの場合、Ｓ１６０４に遷移し、ジョブを実行しないＮＯの場合、Ｓ１６１０に遷移する。

Ｓ１６０４にて、音声データ変換プログラム７０１は、データ送受信部７０２にて、ジョブ実行開始通知を受信する。

Ｓ１６０５にて、音声データ変換プログラム７０１は、ジョブ実行開始通知で通知されたテキストデータを元に音声合成部７０８にて音声合成処理を実行する。

Ｓ１６０６にて、音声データ変換プログラム７０１は、データ送受信部７０２にてＳ１６０５で生成した音声合成データを音声制御装置１００に送信する。

Ｓ１６０７にて、音声データ変換プログラム７０１は、データ送受信部７０２にて、ジョブ実行終了通知を受信する。

Ｓ１６０８にて、音声データ変換プログラム７０１は、Ｓ１６０７で受信したジョブ実行終了通知で通知されたテキストデータを元に音声合成部７０８にて音声合成処理を実行する。

Ｓ１６０９にて、音声データ変換プログラム７０１は、データ送受信部７０２にてＳ１６０８で生成した音声合成データを音声制御装置１００に送信する。

Ｓ１６１０にて、音声データ変換プログラム７０１は、データ送受信部７０２にて画面更新通知を受信する。

Ｓ１６１１にて、音声データ変換プログラム７０１は、Ｓ１６０５受信した画面更新通知で通知されたテキストデータを元に音声合成部７０８にて音声合成処理を実行する。

Ｓ１６１２にて、音声データ変換プログラム７０１は、データ送受信部７０２にてＳ１６１０で生成した音声合成データを音声制御装置１００に送信する。

以上、クラウドサーバ１０２に配置された音声操作を実行するための音声データ変換プログラム７０１の音声認識の為のフロー制御を説明した。このように、クラウドサーバ１０２に配置されるクラウドサーバの音声データ変換制御プログラム７０１にて形態素解析部７０６とグループＩＤ判定部７０７と音声合成部７０８を音声操作に応じて用意する事で、様々な音声認識の音声操作に対応可能となる。また、音声操作と画像形成装置をデータ管理部７０３で紐づけることにより、受信した音声データから画像形成装置の音声操作を行うためのグループＩＤの送信が可能となる。また、逆に画像形成装置からジョブ実行開始通知、ジョブ実行終了通知、画面更新通知を受信し、音声合成データを生成し、音声制御装置に送信する事で、音声制御装置から音声応答を出力することが可能となる。

＜音声認識システムのデータ構成図＞
図１７は、本発明の画像認識制御システムを構成する各装置・クラウドサーバに格納されるデータを示したデータ構成図である。

クラウドサーバ１０２は、音声操作を実行するため、２つのＵＲＬ情報を有し、音声操作で発話した音声データを音声認識実行後、生成したテキストデータからグループＩＤを判定し、グループＩＤに基づいて画像形成装置の制御、音声応答を実行する。音声制御装置１００と通信するクラウドサーバ１０２（ｈｔｔｐ：／／ａａａａａ／ｖｏｉｃｅ＿ｓｅｒｖ）は、音声制御装置１００から音声データを受信し、音声認識して、テキストデータを生成し、音声合成データを受信した音声データの応答として送信する。画像形成装置１０１と通信するクラウドサーバ１０２（ｈｔｔｐ：／／ａａａａａ／ｖｏｉｃｅ＿ｓｅｒｖ）は、テキストデータからグループＩＤを抽出して、画像形成装置１００にグループＩＤを送信し、画像形成装置からグループＩＤの処理結果を受信する。

また、クラウドサーバ１０２は、スピーカ５０００（図１７の音声制御装置の製品名）の情報として、ＭＡＣアドレスとＩＰアドレスをクラウドサーバ１０２の外部記憶装置４０５に格納する。また、音声制御装置からクラウドサーバ１０２にアクセスするためのアカウント情報（ＱＱＱ＠ａａａａａ．ｍａｉｌ）も外部記憶装置４０５に格納し、前述のＵＲＬにアクセスする際に認証してから通信する。尚、音声制御装置が複数ある場合は、スピーカ５００１の情報もクラウドサーバ１０２の外部記憶装置４０５に格納する。

クラウドサーバ１０２は、画像形成装置１０１の情報として、ＭＡＣアドレス、ＩＰアドレスをクラウドサーバ１０２の外部記憶装置４０５に格納する。また、画像形成装置からクラウドサーバ１０２にアクセスするためのアカウント情報（ＱＱＱ＠ａａａａａ．ｍａｉｌ）も外部記憶装置４０５に格納する。

スピーカ５０００（音声制御装置１）は、ＭＡＣアドレスとＩＰアドレスを外部記憶装置３０５に格納する。また、音声認識を起動するためのウェイクワード（“スピーカ１を起動して”）も、音声データとして外部記憶装置３０５に格納する。さらに、音声認識を実行するためのＵＲＬ情報（ｈｔｔｐ：／／ａａａａａ／ｖｏｉｃｅ＿ｓｅｒｖ）とアカウント情報（ＱＱＱ＠ａａａａａ．ｍａｉｌ）を格納し、音声認識起動後、前記ＵＲＬに対して音声データの送信を実行する。

画像形成装置１０１は、音声操作を行うためのクラウドサーバ１０２のＵＲＬ情報（ｈｔｔｐ：／／ａａａａａ／ｍｆｐ＿ｍｎｇ）とアカウント（ＱＱＱ＠ａａａａａ．ｍａｉｌ）情報を外部記憶装置５０５に格納する。また、音声認識を起動するための表Ａ〜Ｃの音声認識起動に関する各種設定、クラウドサーバ１０２のクラウドサーバが格納しているグループＩＤのリスト図７Ｂも外部記憶装置５０５に格納する。尚、図７Ｂのリストは、クラウドサーバとアカウント情報を用いて認証した後、クラウドサーバ１０２から受信するようにしてもよい。また、スピーカ５０００の音声認識を起動するため、スピーカ５０００のウェイクワード（“スピーカ１を起動して”）の音声データと、スピーカ５００１のウェイクワード（“スピーカ２を起動して”）の音声データも外部記憶装置５０５に格納する。尚、音声データを保持せずに、テキストデータのみ保持し、テキストデータをクラウドサーバに送信後、でクラウドサーバ１０２の音声合成処理した音声データを受信し、ＲＡＭ５０３に保存して音声制御装置の起動に用いても良い。また、音声操作起動ワードとして、“音声操作を起動して”、“コピーして”などを外部記憶装置５０５に格納する。音声操作起動ワードも、クラウドサーバ１０２から音声合成後の音声データとして受信するようにしても良い。

以上、実施例１で説明した各種データに関して、クラウドサーバ１０２と通信するためのアカウントでクラウドサーバ１０２は、音響制御装置１００と画像形成装置１０１を紐づけて情報処理し、音声操作を可能とする。また、音声制御装置１００の起動ワードを画像形成装置１０１が保有する事で、音声制御装置１００の起動を画像形成装置１０１から実行可能とする。また、音声認識による画像形成装置の音声操作起動ワードをクラウドサーバ１０２にて保持する事で、クラウドサーバ１０２が音声操作起動ワード受信後に画像形成装置の制御の開始を画像形成装置に通知する事が可能となる。さらに、クラウドサーバ１０２から画像形成装置１０１がウェイクワードおよび音声操作起動ワードを受信する事で、画像形成装置の記憶装置５０５に保持する音声データのサイズを減らし、音声操作を実行可能にした。

（実施例２）
実施例２は、図９Ｂで説明した音声操作開始処理が実施例１と異なる。実施例２の音声操作開始処理は、図９Ｃの音声操作開始処理のシーケンス図で説明する。

Ｓ９６１〜Ｓ９７６は、図９Ｂと同じ処理であるため、説明を省略する。

Ｓ９８０にて、デバイス制御プログラム８０１は、ウェイクワードを音声データとして音声制御装置１００に送信する。ここで送信される音声データは、本発明のウェイク指示の一例である。尚、送信データは、音声データではなく、音声制御装置１００の音声認識を起動するための起動コマンドまたはウェイクワードのテキストデータを受け付ける場合は、起動コマンドまたはテキストデータでもよい。音声制御プログラム６０１は、データ送受信部６０２より受信したウェイクワードをＲＡＭ３０３に保存し、音声操作開始検知部６０７にて音声操作の開始を判定する。

Ｓ９８１にて、音声制御プログラム６０１は、音声操作の開始を判定したら、音声制御起動応答を画像形成装置１０１に送信する。デバイス制御制御プログラム８０１は、データ送受信部８０２経由で受信した音声制御起動応答を判定し、音声制御装置の起動に成功した場合、ステータス表示２０４に“起動中です“を表示する事でユーザに通知する。音声制御装置の起動に失敗した場合は、ステータス表示２０４”音声認識起動エラー“を表示する。

Ｓ９８２にて、音声操作起動ワードを音声データとして音声制御装置１００に送信する。この音声データは、本発明の起動指示の一例である。尚、送信データは、音声データではなく、音声制御装置１００の音声操作を起動するための音声操作起動コマンドまたは音声操作起動ワードのテキストデータを受け付ける場合は、音声操作起動コマンドまたは音声操作起動ワード（テキストデータ）でもよい。音声制御プログラム６０１は、データ送受信部より受信した音声操作起動ワードをＲＡＭ３０３に保存する。

Ｓ９８３にて、音声制御プログラム６０１は、画像形成装置１０１に音声操作起動応答を送信する。デバイス制御プログラム８０１は、データ送受信部８０２経由で受信した音声制御起動応答を判定し、音声制御装置の起動に失敗した場合は、ステータス表示２０４”音声認識起動エラー“を表示する。

以上、図９Ｃのシーケンス図により、音声制御装置の起動と音声操作の開始を画像形成装置のスピーカからの音声出力無しで、ネットワーク１０４経由で起動する事が可能となる。スピーカからの音声出力で起動しない為、音声制御装置１００と画像形成装置１０１が離れた場所でも、本実施形による音声操作の起動が可能になる。ユーザ１０６が操作しているクライアント端末１０３の傍に音声制御装置を置いた状態で、画像形成装置１０１の音声操作が可能になることで、クライアント端末１０３から印刷指示した印刷ジョブ（セキュアプリント指定）の出力操作をリモートで実行可能になる。

以下に上記した実施例に記載の略語について説明する。
ＢＬＥとは、Ｂｌｕｅｔｏｏｔｈ（登録商標）ＬｏｗＥｎｅｒｇｙのことである。
ＣＰＵとは、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔのことである。
ＤＮＮとは、ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋのことである。
ＦＡＸとは、Ｆａｃｓｉｍｉｌｅのことである。
ＧＭＭとは、Ｇａｕｓｓｉａｎｍｉｘｔｕｒｅｍｏｄｅｌのことである。
ＨＤＤとは、ＨａｒｄＤｉｓｋＤｒｉｖｅのことである。
ＨＭＭとは、ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌのことである。
ＩＤとは、Ｉｄｅｎｔｉｆｉｃａｔｉｏｎのことである。
ＩＥＥＥとは、ＩｎｓｔｉｔｕｔｅｏｆＥｌｅｃｔｒｉｃａｌａｎｄＥｌｅｃｔｒｏｎｉｃｓＥｎｇｉｎｅｅｒｓのことである。
ＩＰとは、ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌのことである。
ＬＡＮとは、ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋのことである。
ＬＣＤとは、ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙのことである。
ＬＥＤとは、ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅのことである。
ＭＥＭＳとは、ＭｉｃｒｏＥｌｅｃｔｒｏＭｅｃｈａｎｉｃａｌＳｙｓｔｅｍｓのことである。
ＭＦＰとは、ＭｕｌｔｉｆｕｎｃｔｉｏｎＰｅｒｉｐｈｅｒａｌのことである。
ＭＰ３とは、ＭＰＥＧＡｕｄｉｏＬａｙｅｒ−３のことである。
ＰＣとは、ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒのことである。
ＲＡＭとは、Ｒａｎｄｏｍ‐ＡｃｃｅｓｓＭｅｍｏｒｙのことである。
ＲＮＮとは、ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋｓのことである。
ＲＯＭとは、ＲｅａｄＯｎｌｙＭｅｍｏｒｙのことである。
ＳＤカードとは、ＳｅｃｕｒｅＤｉｇｉｔａｌＭｅｍｏｒｙＣａｒｄのことである。
ＳＳＤとは、ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅのことである。
ＴＣＰとは、ＴｒａｎｓｍｉｓｓｉｏｎＣｏｎｔｒｏｌＰｒｏｔｏｃｏｌのことである。
ＵＩとは、ＵｓｅｒＩｎｔｅｒｆａｃｅのことである。
ＵＲＬとは、ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒのことである。

＜その他の実施形態＞
上記実施形態は、１つ以上の機能を実現するプログラムをネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読み出して実行する処理の形式でも実現可能である。また、１つ以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１００音声制御装置
１０１画像形成装置
１０２クラウドサーバ
１０３クライアント端末
１０４ネットワーク
１０５ゲートウェイ
１０６ユーザ
３０８マイクロフォン
５０９操作パネル（ディスプレイ）
７０１音声データ変換制御プログラム
８０１デバイス制御プログラム

Claims

音声が入力され、入力された前記音声に対応する音声データを出力し、出力した前記音声データを解析するサーバと通信可能な入出力デバイスと通信可能な情報処理装置であって、
音声を出力する音声出力手段と、
前記入出力デバイスを起動するためのユーザ操作を受信する受信手段と、
前記受信手段によって受信された前記ユーザ操作に従って、前記入出力デバイスを起動させるウェイクワードを前記音声出力手段から出力するよう制御する制御手段と、を備えることを特徴とする情報処理装置。
前記制御手段は、前記ウェイクワードに続いて、前記サーバによる前記情報処理装置の音声操作サービスを起動する音声操作起動ワードを前記音声出力手段から出力するよう制御する、請求項１に記載の情報処理装置。
前記入出力デバイスは、前記音声操作起動ワードに対応する音声データを前記サーバに送信し、前記サーバは、当該音声データに従って前記音声操作サービスの開始を示す開始データを送信し、
前記情報処理装置は、
前記サーバから前記開始データを受信する通信手段と、
前記開始データに従って、前記入出力デバイスを介した音声操作を実行する実行手段と、をさらに備えることを特徴とする請求項１又は２に記載の情報処理装置。
前記入出力デバイスの状態を示す状態表示手段をさらに備える、ことを特徴とする請求項１乃至３の何れか１項に記載の情報処理装置。
前記状態表示手段は、前記入出力デバイスが起動中であること示す情報を表示する、ことを特徴とする請求項４に記載の情報処理装置。
前記入出力デバイスは、前記情報処理装置を操作するための操作ワードを入力し、入力された前記操作ワードに対応する音声データを前記サーバに出力し、前記サーバは、当該音声データの解析結果に基づいて前記情報処理装置を操作するための情報を前記情報処理装置に送信し、
前記情報処理装置は、
前記サーバから受信した前記情報に従って処理を実行する処理手段をさらに備える、ことを特徴とする請求項１乃至５の何れか１項に記載の情報処理装置。
情報を表示する表示手段をさらに備え、
前記処理手段は、前記サーバから受信した前記情報に従って前記表示手段に情報を表示させる表示制御手段である、ことを特徴とする請求項６に記載の情報処理装置。
印刷手段をさらに備え、
前記表示制御手段は、前記入出力デバイスに前記印刷手段の使用を示す操作ワードが入力されると、前記表示手段に前記印刷手段による印刷の設定を示す印刷設定画面を表示させる、ことを特徴とする請求項７に記載の情報処理装置。
印刷手段をさらに備え、
前記処理手段は、前記サーバから受信した前記情報に従って前記印刷手段に印刷を実行させる印刷制御手段である、ことを特徴とする請求項６に記載の情報処理装置。
音声が入力され、入力された前記音声に対応する音声データを出力し、出力した前記音声データを解析するサーバと通信可能な入出力デバイスと通信可能な情報処理装置による前記入出力デバイスの起動方法であって、
前記情報処理装置において前記入出力デバイスを起動するためのユーザ操作を受信する受信工程と、
前記受信工程で受信された前記ユーザ操作に従って、前記入出力デバイスを起動させるウェイクワードを前記情報処理装置の音声出力手段から出力する出力工程と、を備えることを特徴とする入出力デバイスの起動方法。
音声が入力され、入力された前記音声に対応する音声データを出力し、出力した前記音声データを解析するサーバと通信可能な入出力デバイスと通信可能な情報処理装置であって、
前記入出力デバイスとネットワークを介して通信可能な通信手段と、
前記入出力デバイスを起動するためのユーザ操作を受信する受信手段と、
前記受信手段によって受信された前記ユーザ操作に従って、前記入出力デバイスを起動させるウェイクワードに対応するウェイク指示を前記入出力デバイスに出力するよう前記通信手段を制御する制御手段と、を備えることを特徴とする情報処理装置。
前記制御手段は、前記ウェイク指示に続いて、前記サーバによる前記情報処理装置の音声操作サービスを起動する起動指示を前記入出力デバイスに出力するよう前記通信手段を制御する、請求項１１に記載の情報処理装置。
前記入出力デバイスは、前記起動指示に対応する音声データを前記サーバに送信し、前記サーバは、当該音声データに従って前記音声操作サービスの開始を示す開始データを送信し、
前記情報処理装置は、
前記通信手段によって受信された前記開始データに従って、前記入出力デバイスを介した音声操作を実行する実行手段、をさらに備えることを特徴とする請求項１１又は１２に記載の情報処理装置。
前記入出力デバイスの状態を示す状態表示手段をさらに備える、ことを特徴とする請求項１１乃至１３の何れか１項に記載の情報処理装置。
前記状態表示手段は、前記入出力デバイスが起動中であること示す情報を表示する、ことを特徴とする請求項１４に記載の情報処理装置。
前記入出力デバイスは、前記情報処理装置を操作するための操作ワードを入力し、入力された前記操作ワードに対応する音声データを前記サーバに出力し、前記サーバは、当該音声データの解析結果に基づいて前記情報処理装置を操作するための情報を前記情報処理装置に送信し、
前記情報処理装置は、
前記サーバから受信した前記情報に従って処理を実行する処理手段をさらに備える、ことを特徴とする請求項１１乃至１５の何れか１項に記載の情報処理装置。
情報を表示する表示手段をさらに備え、
前記処理手段は、前記サーバから受信した前記情報に従って前記表示手段に情報を表示させる表示制御手段である、ことを特徴とする請求項１６に記載の情報処理装置。
印刷手段をさらに備え、
前記表示制御手段は、前記入出力デバイスに前記印刷手段の使用を示す操作ワードが入力されると、前記表示手段に前記印刷手段による印刷の設定を示す印刷設定画面を表示させる、ことを特徴とする請求項１７に記載の情報処理装置。
印刷手段をさらに備え、
前記処理手段は、前記サーバから受信した前記情報に従って前記印刷手段に印刷を実行させる印刷制御手段である、ことを特徴とする請求項１６に記載の情報処理装置。
音声が入力され、入力された前記音声に対応する音声データを出力し、出力した前記音声データを解析するサーバと通信可能な入出力デバイスと通信可能な情報処理装置による前記入出力デバイスの起動方法であって、
前記情報処理装置において前記入出力デバイスを起動するためのユーザ操作を受信する受信工程と、
前記受信工程で受信された前記ユーザ操作に従って、前記入出力デバイスを起動させるウェイクワードに対応するウェイク指示を前記入出力デバイスに出力する出力工程と、を備えることを特徴とする入出力デバイスの起動方法。