JP2020088830A

JP2020088830A - 情報処理システム、プログラムおよび情報処理方法

Info

Publication number: JP2020088830A
Application number: JP2018226145A
Authority: JP
Inventors: 井上　隆之; Takayuki Inoue; 隆之井上; 駿吉見; Shun Yoshimi; 基至勝又; Motoyoshi Katsumata; 中村　裕; Yutaka Nakamura; 裕中村; かおり大関; Kaori Ozeki
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2020-06-04
Anticipated expiration: 2038-11-30
Also published as: JP7151428B2

Abstract

【課題】直感的に、設定確認のためのフィードバックやジョブ設定を行うことができる情報処理システム、プログラムおよび情報処理方法を提供する。【解決手段】情報処理装置及び外部装置を含む情報処理システムにおいて、前記外部装置を操作するための設定指示を含む音声情報を取得する取得部と、前記音声情報を認識する音声認識部と、前記音声認識部による前記音声情報の認識結果に基づく操作情報を前記情報処理装置の画面にて報知する報知部と、前記操作情報を前記外部装置に出力する出力部と、を備え、前記報知部は、前記操作情報にかかる設定に基づく仕上がりイメージを示す仕上がり画像を前記情報処理装置の画面に表示する。【選択図】図１３

Description

本発明は、情報処理システム、プログラムおよび情報処理方法に関する。

従来、複合機（ＭＦＰ：Multifunction Peripheral）などの画像形成装置に対する指示を音声にて行う操作方法が知られている。例えば、特許文献１には、音声にて操作可能な画像形成装置が開示されている。

しかしながら、外部装置に対する指示を音声にて行う操作方法において対話型を採用する場合、設定が複雑である程、ジョブ実行までに時間がかかることが問題であった。

本発明は、上記に鑑みてなされたものであって、直感的に、設定確認のためのフィードバックやジョブ設定を行うことができる情報処理システム、プログラムおよび情報処理方法を提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、情報処理装置及び外部装置を含む情報処理システムにおいて、前記外部装置を操作するための設定指示を含む音声情報を取得する取得部と、前記音声情報を認識する音声認識部と、前記音声認識部による前記音声情報の認識結果に基づく操作情報を前記情報処理装置の画面にて報知する報知部と、前記操作情報を前記外部装置に出力する出力部と、を備え、前記報知部は、前記操作情報にかかる設定に基づく仕上がりイメージを示す仕上がり画像を前記情報処理装置の画面に表示する、ことを特徴とする。

本発明によれば、設定に基づく仕上がりイメージを示す仕上がり画像を表示することで、直感的に、設定確認のためのフィードバックやジョブ設定を行うことができる、という効果を奏する。

図１は、第１の実施の形態の音声操作システムのシステム構成図である。図２は、ＭＦＰのハードウェア構成図である。図３は、携帯端末装置のハードウェア構成図である。図４は、音声認識サーバ装置のハードウェア構成図である。図５は、ＡＩアシスタントサーバ装置のハードウェア構成図である。図６は、携帯端末装置の機能ブロック図である。図７は、音声認識サーバ装置の機能ブロック図である。図８は、ＡＩアシスタントサーバ装置の機能ブロック図である。図９は、音声操作システムにおける音声操作の全体的な動作の流れを示すシーケンス図である。図１０は、ユーザの入力音声の解釈に用いられるエンティティ情報の一例を示す図である。図１１は、発話フレーズに基づいて登録されるエンティティ情報を示す図である。図１２は、対話式の入力操作の流れを示す図である。図１３は、図１２に示す処理が実行された場合における画面表示の一例を示す図である。図１４は、対話式の入力操作の前半の流れを示すシーケンス図である。図１５は、対話式の入力操作の後半の流れを示すシーケンス図である。図１６は、スタンプの記憶態様を例示的に示す図である。図１７は、スタンプの変形例を示す図である。図１８は、第２の実施の形態の音声操作システムのシステム構成図である。図１９は、スマートスピーカーのハードウェア構成図である。図２０は、クラウドサービス装置のハードウェア構成図である。図２１は、クラウドの全体の機能を示す概要説明図である。図２２は、スマートスピーカーの機能ブロックの構成の一例を示す図である。図２３は、クラウドサービスの各機能の構成の一例を示す図である。図２４は、起動時の動作の流れを示すシーケンス図である。図２５は、起動後の対話型動作の流れを示すシーケンス図である。図２６は、起動後の対話型動作の流れを示すシーケンス図である。図２７は、起動後の対話型動作の流れを示すシーケンス図である。図２８は、画面表示の一例を示す図である。

以下に添付図面を参照して、情報処理システム、プログラムおよび情報処理方法の実施の形態を詳細に説明する。

（第１の実施の形態）
（システム構成）
図１は、第１の実施の形態の音声操作システムのシステム構成図である。この図１に示すように、情報処理システムである第１の実施の形態の音声操作システムは、外部装置の一例である複合機（ＭＦＰ：Multifunction Peripheral）１、スマートフォン又はタブレット端末等の携帯端末装置２（情報処理装置の一例）、音声認識サーバ装置３及びＡＩ（Artificial intelligence）アシスタントサーバ装置４を、例えばＬＡＮ（Local Area Network）等の所定のネットワーク５を介して相互に接続することで形成されている。ただし、外部装置は複合機には限定されず、電子黒板やプロジェクタなどのオフィス機器を含む、種々の電子機器であっても良い。

携帯端末装置２は、ＭＦＰ１を音声操作するための、ユーザからの音声入力を受け付ける。また、受け付けた操作を、ユーザへ音声または画面表示でフィードバックする。また、携帯端末装置２は、音声認識サーバ装置３及びＡＩアシスタントサーバ装置４の間のデータ通信（後述するテキストデータの通信）を中継する。音声認識サーバ装置３は、携帯端末装置２から受信した音声データを分析し、テキストデータに変換する。なお、音声認識サーバ装置３は、第１サーバ装置に相当する。ＡＩアシスタントサーバ装置４は、テキストデータを分析し、事前登録されているユーザの意図（ＭＦＰ１のジョブ実行命令）に変換して携帯端末装置２に送信する。

なお、ＡＩアシスタントサーバ装置４は、第２サーバ装置に相当する。ＭＦＰ１は、携帯端末装置２から送信されるジョブ実行命令を実行する。なお、携帯端末装置２とＭＦＰ１との通信は、無線通信であっても有線通信であっても良い。つまり、携帯端末装置２は、ＭＦＰ１に固定的に接続される操作端末であっても良い。

また、この例では、音声認識サーバ装置３及びＡＩアシスタントサーバ装置４の、２つのサーバ装置が設けられていることとしたが、各サーバ装置３、４を物理的に一つのサーバ装置としてもよい。または、各サーバ装置３、４を、さらに複数のサーバ装置で実現してもよい。

（ＭＦＰのハードウェア構成）
図２は、音声操作システムに設けられているＭＦＰ１のハードウェア構成図である。ＭＦＰ１は、例えばプリンタ機能及びスキャナ機能等の複数の機能を備えている。すなわち、ＭＦＰ１は、図２に示すように、コントローラ１９、通信部１５、操作部１６、スキャナエンジン１７及びプリンタエンジン１８を有している。

コントローラ１９は、ＣＰＵ１０、ＡＳＩＣ（Application Specific Integrated Circuit）１１、メモリ１２、ＨＤＤ（Hard Disk Drive）１３及びタイマ１４を有する。ＣＰＵ１０〜タイマ１４は、それぞれバスラインを介して通信可能なように相互に接続されている。

通信部１５は、ネットワーク５に接続されており、後述するように、例えばスキャン指示又は印刷指示等の、携帯端末装置２を用いて音声入力されたジョブ実行命令を取得する。

操作部１６は、液晶表示部（ＬＣＤ：Liquid Crystal Display）とタッチセンサとが一体的に形成された、いわゆるタッチパネルとなっている。操作者は、操作部１６を用いて所望の動作の実行命令を行う場合、操作部１６に表示された操作ボタン（ソフトウェアキー）を接触操作することで、所望の動作を指定する。

スキャナエンジン１７は、スキャナユニットを制御して、光学的に原稿の読み取りを行う。プリンタエンジン１８は、画像書き込みユニットを制御して、例えば転写紙等に画像を印刷する。ＣＰＵ１０は、画像形成装置を統括的に制御する。ＡＳＩＣ１１は、いわゆる大規模集積回路（ＬＳＩ：Large-Scale Integration）となっており、スキャナエンジン１７及びプリンタエンジン１８で処理する画像に必要な各種の画像処理等を行う。携帯端末装置２から取得したジョブ実行命令を実行する手段であるスキャナエンジン１７及びプリンタエンジン１８は、機能部に相当する。

メモリ１２は、ＣＰＵ１０が実行する各種アプリケーション及びアプリケーションを実行する際に用いられる種々のデータが記憶されている。ＨＤＤ１３は、画像データ、各種のプログラム、フォントデータ、及び、各種のファイル等を記憶する。なお、ＨＤＤ１３の代わり又はＨＤＤ１３と共に、ＳＳＤ（Solid State Drive）を設けてもよい。

（携帯端末のハードウェア構成）
図３は、音声操作システムに設けられている携帯端末装置２のハードウェア構成図である。携帯端末装置２は、図３に示すようにＣＰＵ２１、ＲＡＭ２２、不揮発性のＲＯＭ２３、インタフェース部（Ｉ／Ｆ部）２４及び通信部２５を、バスライン２６を介して相互に接続して形成されている。ＲＡＭ２２には、電子メール、スキャンした画像等の宛先となるユーザの電子メールアドレス等が記憶されたアドレス帳が記憶されている。また、ＲＡＭ２２には、印刷を行う画像データであるファイル等が記憶されている。

ＲＯＭ２３には、操作音声処理プログラムが記憶されている。ＣＰＵ２１は、この操作音声処理プログラムを実行することで、ＭＦＰ１の音声入力操作を可能とする。

Ｉ／Ｆ部２４には、タッチパネル２７、スピーカ部２８及びマイクロホン部２９が接続されている。マイクロホン部２９は、通話音声の他、ＭＦＰ１に対するジョブの実行命令の入力音声を集音（取得）する。入力音声は、通信部２５を介して音声認識サーバ装置３に送信され、テキストデータに変換される。

（音声認識サーバ装置のハードウェア構成）
図４は、音声操作システムに設けられている音声認識サーバ装置３のハードウェア構成図である。音声認識サーバ装置３は、図４に示すように、ＣＰＵ３１、ＲＡＭ３２、ＲＯＭ３３、ＨＤＤ（Hard Disk Drive）３４、インタフェース部（Ｉ／Ｆ部）３５及び通信部３６を、バスライン３７を介して相互に接続して形成されている。Ｉ／Ｆ部３５には、表示部３８及び操作部３９が接続されている。ＨＤＤ３４には、音声データをテキストデータに変換するための操作音声変換プログラムが記憶されている。ＣＰＵ３１は、操作音声変換プログラムを実行することで、携帯端末装置２から送信された音声データをテキストデータに変換して、携帯端末装置２に返信する。

（ＡＩアシスタントサーバ装置のハードウェア構成）
図５は、音声操作システムに設けられているＡＩアシスタントサーバ装置４のハードウェア構成図である。ＡＩアシスタントサーバ装置４は、図５に示すように、ＣＰＵ４１、ＲＡＭ４２、ＲＯＭ４３、ＨＤＤ４４、インタフェース部（Ｉ／Ｆ部）４５及び通信部４６を、バスライン４７を介して相互に接続して形成されている。Ｉ／Ｆ部４５には、表示部４８及び操作部４９が接続されている。ＨＤＤ４４には、ユーザから指示されたジョブを解釈するための操作解釈プログラムが記憶されている。ＣＰＵ４１は、この操作解釈プログラムを実行することで、音声認識サーバ装置３で生成（変換）されたテキストデータから、ユーザから指示されたジョブを解釈する。この解釈結果は、携帯端末装置２に送信される。携帯端末は、解釈結果をジョブ命令に変換してＭＦＰ１に供給する。これにより、携帯端末装置２を介して入力した音声により、ＭＦＰ１を操作できる。

（携帯端末の機能）
図６は、音声操作システムに設けられている携帯端末装置２の機能ブロック図である。携帯端末装置２のＣＰＵ２１は、ＲＯＭ２３に記憶されている操作音声処理プログラムを実行することで、図６に示すように取得部５１、通信制御部５２、フィードバック部５５、処理能力取得部５６、実行判定部５７及び検索部５８として機能する。

取得部５１は、取得部の一例であり、マイクロホン部２９を介して集音された、ＭＦＰ１を音声操作するためのユーザの指示音声を取得する。通信制御部５２は、出力部の一例であり、携帯端末装置２とＭＦＰ１との間、携帯端末装置２と音声認識サーバ装置３との間、及び、携帯端末装置２とＡＩアシスタントサーバ装置４との間の通信をそれぞれ制御する。解釈結果変換部５３は、ＡＩアシスタントサーバ装置４でユーザの指示音声のテキストデータの解釈結果を、ＭＦＰ１に対するジョブの実行命令に変換する。実行指示部５４は、ジョブの実行命令をＭＦＰ１に送信して、ジョブの実行を指示する。

フィードバック部５５は、報知部の一例であり、対話型の音声入力操作を実現すべく、例えば不足するデータを補う入力を促す音声または画面表示をフィードバックし、又は、入力を確認する音声または画面表示のフィードバック等を行う。処理能力取得部５６は、ＭＦＰ１から、例えば処理可能な最大画素数等の処理能力を取得する。実行判定部５７は、ＭＦＰ１の能力と、ユーザから指定されたジョブとを比較することで、ユーザから指定されたジョブをＭＦＰ１で実行可能か否か判定する。検索部５８は、ユーザから音声指示された宛先又はファイル等をＲＡＭ２２等のメモリから検索する。

なお、この例では、取得部５１〜検索部５８をソフトウェアで実現することとしたが、これらのうち、一部又は全部を、ＩＣ（Integrated Circuit）等のハードウェアで実現してもよい。また、取得部５１〜検索部５８が実現する機能は、操作音声処理プログラム単体で実現しても良いし、他のプログラムに処理の一部を実行させる、又は他のプログラムを用いて間接的に処理を実行させても良い。例えば、ＭＦＰ１の処理能力などの情報の取得は他のプログラムが実行し、処理能力取得部５６は他のプログラムが取得した情報を取得することで、間接的にＭＦＰ１が有する情報を取得することができる。

（音声認識サーバ装置の機能）
図７は、音声操作システムに設けられている音声認識サーバ装置３の機能ブロック図である。音声認識サーバ装置３のＣＰＵ３１は、ＨＤＤ３４に記憶されている操作音声変換プログラムを実行することで、図７に示すように取得部６１、テキスト変換部６２及び通信制御部６３として機能する。取得部６１は、携帯端末装置２から送信される、ユーザにより入力された音声データを取得する。テキスト変換部６２は、音声認識部の一例であり、ユーザにより入力された音声データをテキストデータに変換する。通信制御部６３は、ユーザにより入力された音声データの受信、及び、携帯端末装置２に対するテキストデータの送信等を行うように、通信部３６を通信制御する。

なお、この例では、取得部６１〜通信制御部６３をソフトウェアで実現することとしたが、これらのうち、一部又は全部を、ＩＣ（Integrated Circuit）等のハードウェアで実現してもよい。また、取得部６１〜通信制御部６３が実現する機能は、操作音声変換プログラム単体で実現しても良いし、他のプログラムに処理の一部を実行させる、又は他のプログラムを用いて間接的に処理を実行させても良い。

（ＡＩアシスタントサーバ装置の機能）
図８は、音声操作システムに設けられているＡＩアシスタントサーバ装置４の機能ブロック図である。ＡＩアシスタントサーバ装置４のＣＰＵ４１は、ＨＤＤ４４に記憶されている操作解釈プログラムを実行することで、図８に示すように取得部７１、解釈部７２及び通信制御部７３として機能する。取得部７１は、携帯端末装置２から送信される、ユーザにより入力された音声データのテキストデータを取得する。解釈部７２は、テキストデータに基づいて、ユーザからの操作指示を解釈する。通信制御部７３は、ユーザの携帯端末装置２に対する解釈結果の送信、及び、ユーザにより入力された音声データのテキストデータの受信等を行うように通信部４６を通信制御する。

なお、この例では、取得部７１〜通信制御部７３をソフトウェアで実現することとしたが、これらのうち、一部又は全部を、ＩＣ（Integrated Circuit）等のハードウェアで実現してもよい。また、取得部７１〜通信制御部７３が実現する機能は、操作解釈プログラム単体で実現しても良いし、他のプログラムに処理の一部を実行させる、又は他のプログラムを用いて間接的に処理を実行させても良い。

また、操作音声処理プログラム、操作音声変換プログラム及び操作解釈プログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）などのコンピュータ装置で読み取り可能な記録媒体に記録して提供してもよい。また、ＣＤ−Ｒ、ＤＶＤ（Digital Versatile Disk）、ブルーレイディスク（登録商標）、半導体メモリなどのコンピュータ装置で読み取り可能な記録媒体に記録して提供してもよい。また、インターネット等のネットワーク経由でインストールするかたちで提供してもよいし、機器内のＲＯＭ等に予め組み込んで提供してもよい。

（音声入力操作の全体的な動作）
次に、実施の形態の音声操作システムにおける音声入力操作の全体的な動作を説明する。図９は、音声操作システムにおける音声操作の全体的な動作の流れを示すシーケンス図である。この図９の例は、ＭＦＰ１の両面コピー機能を、携帯端末装置２を介して音声入力操作する例である。この場合、ユーザは、携帯端末装置２の操作音声処理プログラムを起動し、例えば「両面でコピー」と発声する。このユーザの音声は、携帯端末装置２のマイクロホン部２９で集音され、取得部５１により取得される（ステップＳ１）。携帯端末装置２の通信制御部５２は、この「両面でコピー」との音声データを音声認識サーバ装置３に送信し、テキスト変換要求を行うように通信部２５を制御する（ステップＳ２）。

音声認識サーバ装置３のテキスト変換部６２は、「両面でコピー」との音声データをテキストデータに変換処理する。そして、通信制御部６３は、変換処理されたテキストデータを、携帯端末装置２に送信するように通信部３６を制御する（ステップＳ３）。携帯端末装置２の通信制御部５２は、「両面でコピー」とのテキストデータを、ＡＩアシスタントサーバ装置４に送信する（ステップＳ４）。

この例の場合、ＡＩアシスタントサーバ装置４の解釈部７２は、ＭＦＰ１に実行を要求する動作は「コピーである（Action:Copy_Execcute）」と解釈し、「印刷面は両面である（印刷面＝両面）」と解釈する（ステップＳ５）。このように、解釈部７２は、テキストデータに基づいて、ユーザから指定されたジョブの種別（アクション）及び内容（パラメータ）を示す解釈結果を生成する。この解釈結果は、ＡＩアシスタントサーバ装置４の通信制御部６３により、通信部４６を介して携帯端末装置２に送信される（ステップＳ６）。

携帯端末装置２の解釈結果変換部５３は、ＡＩアシスタントサーバ装置４から受信した解釈結果を、ＭＦＰ１のジョブ命令に変換処理する（ステップＳ７）。以下の表１に、解釈結果と、解釈結果から変換処理されたジョブ命令の一例を示す。なお、解釈結果変換部５３は、解釈結果をジョブ命令に変換するために、表１に相当する情報を携帯端末装置２の記憶部（ＲＯＭ２３）に記憶し、参照できる構成としても良い。

この表１の例の場合、「ＣＯＰＹ＿ＥＸＥＣＵＴＥ」、「ＳＣＡＮ＿ＥＸＥＣＵＴＥ」、「ＰＲＩＮＴ＿ＥＸＥＣＵＴＥ」及び「ＦＡＸ＿ＥＸＥＣＵＴＥ」が、アクション（Ａｃｔｉｏｎ）の一例として示されている。また、「印刷面」及び「部数」等がパラメータ（Ｐａｒａｍｅｔｅｒ）の一例として示されている。なお、パラメータとしては、ジョブの設定値として指定可能な全てのパラメータが含まれる。

携帯端末装置２の解釈結果変換部５３は、「ＣＯＰＹ＿ＥＸＥＣＵＴＥ」の解釈結果を、「コピージョブの実行」との、ＭＦＰ１のジョブ命令に変換処理する。同様に、解釈結果変換部５３は、「ＳＣＡＮ＿ＥＸＥＣＵＴＥ」の解釈結果を、「スキャンジョブの実行」との、ＭＦＰ１のジョブ命令に変換処理する。同様に、解釈結果変換部５３は、「ＰＲＩＮＴ＿ＥＸＥＣＵＴＥ」の解釈結果を、「印刷ジョブの実行」との、ＭＦＰ１のジョブ命令に変換処理する。同様に、解釈結果変換部５３は、「ＦＡＸ＿ＥＸＥＣＵＴＥ」の解釈結果を、「ＦＡＸジョブの実行」との、ＭＦＰ１のジョブ命令に変換処理する。

また、携帯端末装置２の解釈結果変換部５３は、解釈結果に「印刷面」のパラメータが含まれている場合、「印刷面の設定値の変更」を行うＭＦＰ１のジョブ命令を形成する。同様に、解釈結果変換部５３は、解釈結果に「部数」のパラメータが含まれている場合、「部数の設定値の変更」を行うＭＦＰ１のジョブ命令を形成する。

すなわち、携帯端末装置２の解釈結果変換部５３は、解釈結果の「Ａｃｔｉｏｎ」に含まれる情報で、ＭＦＰ１に実行させるジョブの種類を判断し、「Ｐａｒａｍｅｔｅｒ」に含まれる値を、ジョブの設定値と判断して、解釈結果をジョブ命令に変換処理する。

携帯端末装置２の通信制御部５２は、このようにして形成されたジョブ命令を、ＭＦＰ１に送信するように通信部２５を制御する（ステップＳ８）。この例の場合、「コピージョブ実行（印刷面＝両面）」のジョブ命令がＭＦＰ１に送信される。これにより、ＭＦＰ１で両面印刷が実行される。

（ＡＩアシスタントサーバ装置における解釈動作の詳細）
ＡＩアシスタントサーバ装置４のＨＤＤ４４のＡＩ記憶部４０には、ユーザが音声入力により指示しているジョブを解釈するためＡＩアシスタントサービス情報が記憶されている。このＡＩアシスタントサービス情報は、エンティティ（Ｅｎｔｉｔｙ）情報、アクション（Ａｃｔｉｏｎ）情報及びインテント（Ｉｎｔｅｎｔ）情報を含んで構成されている。エンティティ情報は、ジョブのパラメータと自然言語を関連付ける情報である。１つのパラメータに複数の類義語が登録可能となっている。アクション情報は、ジョブの種類を示す情報である。インテント情報は、ユーザの発話フレーズ（自然言語）とエンティティ情報、及び、ユーザの発話フレーズ（自然言語）とアクション情報を、それぞれ関連付ける情報である。インテント情報により、パラメータの発話順序又はニュアンスが多少変わっても、正しい解釈が可能となっている。また、インデント情報により、入力された内容に基づいてレスポンスのテキスト（解釈結果）を生成可能となっている。

図１０は、ユーザの入力音声の解釈に用いられるエンティティ情報の一例を示す図である。この図１０は、印刷色（ＰｒｉｎｔＣｏｌｏｒ）に対応するエンティティ情報である。この図１０において、「ＰｒｉｎｔＣｏｌｏｒ」の文字は、エンティティ名を示している。また、図１０において、左の列の「ａｕｔｏ＿ｃｏｌｏｒ」、「ｍｏｎｏｃｈｒｏｍｅ」、「ｃｏｌｏｒ」・・・等の文字は、パラメータ名を示している。また、図１０において、右の列の「ａｕｔｏ＿ｃｏｌｏｒ」、「ｍｏｎｏｃｈｒｏｍｅ，ｂｌａｃｋａｎｄｗｈｉｔｅ」、「ｃｏｌｏｒ，ｆｕｌｌｃｏｌｏｒ」・・・等の文字は、類義語を示している。

この図１０からわかるように、エンティティ情報としては、パラメータ及び類義語が関連付けられて記憶されている。パラメータと共に、類義語を登録することで、例えばモノクロでのコピーを指示する場合に、「Please copy by black and white」と発話しても、「Please copy by monochrome」と発話しても、パラメータの設定を可能とすることができる。

図１１は、発話フレーズに基づいて登録されるエンティティ情報を示す図である。図１１（ａ）は、ユーザの発話フレーズの例、図１１（ｂ）は、アクション名、図１１（ｃ）は、エンティティ情報を示している。この図１１（ａ）〜図１１（ｃ）に示すように、ＡＩアシスタントサーバ装置４が備える表示部４８に表示される画面上において、操作部４９を操作することで、ユーザの発話をドラッグする。または、ネットワークを介してＡＩアシスタントサーバ装置４にアクセスした装置の表示部に表示される画面上において、この装置の操作部を操作することで、ユーザの発話をドラッグする。

これにより、関連付け対象となるエンティティ情報を選択できるようになっている。また、選択したエンティティ情報でバリュー（ＶＡＬＵＥ）を設定すると、応答で入るパラメータが変更される。例えば、「Ｐｌｅａｓｅｃｏｐｙｂｙｂｌａｃｋａｎｄｗｈｉｔｅ」と発話した場合、バリューを「＄ｐｒｉｎｔＣｏｌｏｒ」とすると、戻り値として「ｐｒｉｎｔＣｏｌｏｒ＝ｍｏｎｏｃｈｒｏｍｅ」が返る。これに対して、バリューを「＄ｐｒｉｎｔＣｏｌｏｒ．ｏｒｉｇｉｎａｌ」とすると、戻り値として「ｐｒｉｎｔＣｏｌｏｒ＝ｂｌａｃｋａｎｄｗｈｉｔｅ」が返る。ここで、バリューを「＄ｐｒｉｎｔＣｏｌｏｒ．ｏｒｉｇｉｎａｌ」とすると、ユーザの発話内容がそのまま応答のパラメータとして返すことができる。

（対話型動作）
次に、実施の形態の音声操作システムでは、ユーザからの入力内容に基づいて、システムが応答する対話型システムを実現している。実施の形態の音声操作システムでは、対話に必要な定型文を応答する以外に、ＭＦＰ１の操作特有の応答として、「入力不足フィードバック」及び「入力確認フィードバック」の、２種類の応答を行うことで、対話型ＭＦＰ操作システムを実現している。

「入力不足フィードバック」は、ジョブを実行するために必要な情報が揃っていない場合に出力される応答である。ユーザの入力結果を聞き取れなかった場合、又は、必須パラメータが不足している場合に出力される。つまり、必須パラメータ以外のパラメータについては、指示されていない場合であっても入力不足フィードバックを行う必要はない。また、パラメータ以外にも、コピー機能又はスキャン機能等のうち、利用する機能を確認する処理を含んでも良い。

例えば、携帯端末装置２が通信接続中の外部装置の種類に応じて、ユーザに確認する機能、及びパラメータを変更しても良い。この場合、処理能力取得部５６が外部装置との通信が確立した後の所定のタイミングで外部装置の種類や機能を示す情報を取得し、取得した情報に基づいてユーザに確認する機能及びパラメータを例えばフィードバック部５５が決定してもよい。例えば、外部装置の種類がＭＦＰ１である場合には、コピー、プリント、スキャン、ＦＡＸなどのＭＰＦ１が有する機能をユーザに確認でき、更に、コピー、プリント、スキャン、ＦＡＸのうちＭＦＰ１が有している機能についてのみ、いずれの機能を使用するかをユーザに確認しても良い。

「入力確認フィードバック」は、ジョブを実行するために必要な情報が揃った場合に出力される応答である。つまり、入力確認フィードバックは、全ての必須パラメータについて指示された場合に行われる。また、入力確認フィードバックは、現在の設定値でジョブを実行するか、又は、設定値を変更するかの選択をユーザに促すために行う。なお、現在の設定値でジョブを実行するか否かを確認するために、ユーザにより指示された全てのパラメータ（必須パラメータか必須パラメータ以外のパラメータかに関わらず）を音声出力することで、ユーザに確認することができる。

図１２は、対話式の入力操作の流れを示す図である。このような各フィードバックを含めた、システムとユーザの対話型操作の例が図１２である。この図１２の例は、カラーロ画像を両面（上下開き）でコピーを行い、上２ヶ所でステープルするようにＭＦＰ１を操作する例である。また、この例の場合、ステープル位置が必須パラメータとなっている。なお、必須パラメータはステープル位置に限定されず、モノクロ、カラー、又は、用紙サイズ等、複数のパラメータを含めても良い。

また、図１３は図１２に示す処理が実行された場合における画面表示の一例を示す図である。即ち、携帯端末装置２は、ユーザ発話した内容（認識結果）と、ＡＩアシスタントサーバ装置４からフィードバックされた内容（操作情報）をタッチパネル２７の画面上に表示する。なお、図１３において携帯端末装置２のタッチパネル２７の画面右側から吹き出し表示されるコメントは、ユーザが携帯端末装置２に対して発話した内容を示すコメントを示す。また、図１３において携帯端末装置２のタッチパネル２７の画面左側から吹き出し表示されるコメント及び画像は、ＡＩアシスタントサーバ装置４からユーザの発話に対してフィードバックされた内容を示すコメント、又は画像（スタンプ）である。つまり、携帯端末装置２は、ＡＩアシスタントサーバ装置４からフィードバックを受けた場合、音声出力でユーザへフィードバックすると同時に、タッチパネル２７の画面表示によってもフィードバックを行う。ただし、音声出力のフィードバックについては省略しても良い。

なお、パラメータのうち、いずれのパラメータが必須パラメータであるかは、ＡＩアシスタントサーバ装置４が有する記憶部に予め記憶しておくことがでる。また、ユーザが操作部４９を操作によって、又はネットワークを介してＡＩアシスタントサーバ装置４に対してアクセスすることで、いずれのパラメータが必須パラメータであるかは適宜変更することができても良い。

図１２の例は、斜線で示す発話がユーザの発話であり、斜線の無い発話がシステムの発話、網掛けで示す会話が携帯端末装置２の画面またはシステムの発話（音声）である。まず、システムが、「コピーしますか？スキャンしますか？」との音声出力を行うと、ユーザは、「コピー」と発音してコピー機能の利用を指示する。システム側では、ユーザから指定された「コピー」の設定値の入力を求めるべく、「設定値を入力してください。」との音声出力を携帯端末装置２にて行う。

これに対して、ユーザは、「カラー、両面、上下開き、ステープル上２ヶ所」と発話したとする。この例の場合、上述のようにステープル位置が必須のパラメータとなっている。このため、システム側では、入力不足ではないと判断し、仕上がりイメージを示す画像（スタンプ）を携帯端末装置２に表示させ、コピー開始の指示を促す。これが、ジョブを実行するために必要な情報が揃った場合に出力される「入力確認フィードバック」である。

そして、ユーザが「ＯＫ」と応答すると、システム側は、「ジョブを実行します」との応答を行い、ユーザから指示されたジョブを実行する。

（対話型動作の流れ）
図１４及び図１５は、このような対話型動作の流れを示すシーケンス図である。図１４のシーケンス図は、対話型動作の前半の動作の流れを示しており、図１５のシーケンス図は、対話型動作の後半の動作の流れを示している。

まず、ユーザにより携帯端末装置２の操作音声処理プログラムが起動操作されると（ステップＳ１１）、フィードバック部５５は、「コピーしますか？スキャンしますか？」との音声および画面表示でのフィードバックを行う（ステップＳ１２）。

なお、携帯端末装置２は、「コピーしますか？スキャンしますか？」のコメントを、ステップＳ１２の音声フィードバックと共にタッチパネル２７の画面に表示する。つまり、携帯端末装置２は、携帯端末装置２のＲＯＭ２３などに予め記憶されたテキストデータを表示させる。

ユーザが、「コピー」と発音すると（ステップＳ１３）、携帯端末装置２の通信制御部５２は、音声認識サーバ装置３に対して、「コピー」との音声データを送信し、テキスト変換要求を行う（ステップＳ１４）。音声認識サーバ装置３のテキスト変換部６２は、「コピー」との音声データをテキストデータに変換処理し、携帯端末装置２に送信する（ステップＳ１５）。

なお、携帯端末装置２は、「コピー」のコメントを、ステップＳ１５で携帯端末装置２が音声認識サーバ装置３からテキストデータを受信したタイミングでタッチパネル２７の画面に表示する。このとき、携帯端末装置２は、「コピー」を音声でフィードバックしても良いし、省略しても良い。

携帯端末装置２の取得部５１は、このテキストデータを取得する。また、携帯端末装置２の通信制御部５２は、取得したテキストデータをＡＩアシスタントサーバ装置４に送信する（ステップＳ１６）。ＡＩアシスタントサーバ装置４の解釈部７２は、図１０及び図１１を用いて説明したように、受信したテキストデータで示されるユーザの発話フレーズに基づいて、アクション及びパラメータを解釈する。この例の場合、ユーザは、「コピー」としか発音していないため、ステープル位置等が不明となる（入力不足）。

このため、解釈部７２は、「Ｃｏｐｙ＿Ｐａｒａｍｅｔｅｒ＿Ｓｅｔｔｉｎｇ」としたアクションに、「設定値を入力してください」とのレスポンス（Ｒｅｓｐｏｎｓｅ）を付加した解釈結果を形成する（ステップＳ１７）。ＡＩアシスタントサーバ装置４の通信制御部７３、この解釈結果を携帯端末装置２に送信する（ステップＳ１８）。携帯端末装置２のフィードバック部５５は、スピーカ部２８を介して「設定値を入力してください」との音声出力を行うと共に、タッチパネル２７に対して「設定値を入力してください」とのテキスト表示を行う（ステップＳ１９：入力不足フィードバック）。

次に、入力不足フィードバックがあったため、ユーザは、例えば「カラー、両面、上下開き、ステープル上２ヶ所」と発話する（ステップＳ２０）。携帯端末装置２の通信制御部５２は、音声認識サーバ装置３に対して、「カラー、両面、上下開き、ステープル上２ヶ所」との音声データを送信し、テキスト変換要求を行う（ステップＳ２１）。音声認識サーバ装置３のテキスト変換部６２は、「カラー、両面、上下開き、ステープル上２ヶ所」との音声データをテキストデータに変換処理し、携帯端末装置２に送信する（ステップＳ２２）。

携帯端末装置２の取得部５１は、このテキストデータを取得する。また、携帯端末装置２の通信制御部５２は、取得したテキストデータをＡＩアシスタントサーバ装置４に送信する（ステップＳ２３）。ＡＩアシスタントサーバ装置４の解釈部７２は、受信したテキストデータで示されるユーザの発話フレーズに基づいて、アクション及びパラメータを解釈する（ステップＳ２４）。この例の場合、ユーザは、「コピー」及び「カラー、両面、上下開き、ステープル上２ヶ所」と発音しているため、コピーのジョブに対する必須パラメータ不足は解消する。このため、解釈部７２は、「Ｃｏｐｙ＿Ｃｏｎｆｉｒｍ」としたアクションに、「カラー／モノクロ＝カラー」、「印刷面＝両面」、「開き方向＝上下開き」及び「ステープル位置＝上２ヶ所」とのパラメータを付加した解釈結果を形成する。ＡＩアシスタントサーバ装置４の通信制御部７３、この解釈結果を携帯端末装置２に送信する（ステップＳ２５）。

携帯端末装置２のフィードバック部５５は、必須パラメータ不足が解消し、コピーを開始する準備が整ったため、ＡＩアシスタントサーバ装置４からフィードバックされた解析結果をコメント表示する代わりに、解釈結果に含まれるＲｅｓｐｏｎｓｅに基づいて、図１３に示すように解析結果に基づく仕上がりイメージを画像（スタンプ）を生成する（ステップＳ２７）。

なお、必須パラメータが不足していると判断された場合は、更にコメント表示、及び音声出力を行うことでユーザに不足している必須パラメータの設定を促すことができる。

携帯端末装置２のフィードバック部５５は、フィードバックされた解析結果の「Action」が「Copy_confirm」であった場合に、「Parameter」を参照する。そして、携帯端末装置２のフィードバック部５５は、「Parameter」の値に一致する仕上がりイメージを示す画像（スタンプ）を検索し、検索した画像（スタンプ）をタッチパネル２７に表示させる。

ここで、「Parameter」に複数の設定値が設定されている場合は、全ての設定値を満足する画像（スタンプ）を検索する。例えば、携帯端末装置２のＲＯＭ２３には、設定値と対応付けて画像（スタンプ）が記憶されている。

ここで、図１６はスタンプの記憶態様を例示的に示す図である。例えば、図１６に示すように、画像（スタンプ）をテーブルデータとして記憶することができる。なお、全ての設定値を満足する画像（スタンプ）がない場合は、最も近い一の画像（スタンプ）を表示しても良い。

なお、図１６に示すテーブルデータは、携帯端末装置２ではなく、携帯端末装置２がアクセス可能な外部装置に記憶されていても良い。例えば、携帯端末装置２が通信中のＭＦＰ１に記憶されていても良いし、ネットワーク５を介して接続されサーバに記憶されていても良い。この場合、操作音声処理プログラムは、ＭＦＰ１又はサーバにアクセスして解析結果に含まれる設定値を送信し、ＭＦＰ１又はサーバからの応答として該設定値を満たす画像（スタンプ）を取得することができる。

また、上記では、ＡＩアシスタントサーバ装置４からのフィードバックに基づいて携帯端末装置２が画像（スタンプ）を検索する場合について説明したが、これに限定されず、ＡＩアシスタントサーバ装置４で画像（スタンプ）を検索しても良い。この場合、「Action:Copy_confirm」、「Parameter:カラー／モノクロ＝カラー、印刷面＝両面、開き方向＝上下開き、ステープル＝上２ヶ所」という解析結果のフィードバックに加えて、仕上がりイメージを示す画像（スタンプ）を携帯端末装置２へ送信する。携帯端末装置２は、受信した画像（スタンプ）をタッチパネル２７に表示させる。

このとき、ＡＩアシスタントサーバ装置４は、解析結果に含まれる「Parameter」の値に一致する仕上がりイメージを示す画像（スタンプ）を検索する。ＡＩアシスタントサーバ装置４は、ＡＩアシスタントサーバ装置４が有するＨＤＤ４４、又はＡＩアシスタントサーバ装置４がアクセス可能なサーバに問い合わせることで、イメージ画像を示す画像（スタンプ）を検索、取得することができる。

ここで、図１７はスタンプの変形例を示す図である。例えば、ＡＩアシスタントサーバ装置４からフィードバックされた解析結果が「Action:Copy_confirm」、「Parameter:印刷面＝両面、部数＝２」である場合、仕上がりイメージを示す画像（スタンプ）としては、図１７のように表示することができる。図１７に示す例では、部数を示す数字である「２」を仕上がりイメージと共に表示する。

携帯端末装置２は、仕上がりイメージを示す画像（スタンプ）を表示することに加えて、「両面で２部コピーします。よろしいですか？」という音声フィードバックを行っても良いし、音声フィードバックは省略しても良い。また、仕上がりイメージを表示することに加えて、「両面で２部コピーします。よろしいですか？」というコメント表示しても良いし、コメント表示は省略しても良い。

なお、仕上がりイメージを示す画像（スタンプ）は、携帯端末装置２のタッチパネル２７によって選択可能に表示することができる。例えば、携帯端末装置２は、過去のジョブ実行時に表示されたコメント及び画像を、携帯端末装置２のＲＯＭ２３に記憶しておくことができる。これにより、操作音声処理プログラムが起動すると、図１３に示すように、過去のジョブ実行時に表示されたコメント及び画像を表示することができる。

ここで、過去のジョブ実行時にフィードバックされた画像を、ユーザが携帯端末装置２のタッチパネル２７をタッチすることで選択した場合、携帯端末装置２（操作音声処理プログラム）は、該画像に対応する設定値を今回のジョブの設定値として反映させることができる。

また、携帯端末装置２（操作音声処理プログラム）は、画像が選択された場合、図１３に示すように、選択された画像を（１７：００での表示のように）再度表示させるとともに、該画像に紐づく設定値を「Parameter」として、ジョブ実行をＭＦＰ１に対して指示する。例えば、「Action:Copy_execute」、「Parameter:カラー／モノクロ＝カラー、印刷面＝両面、開き方向＝上下開き、ステープル＝上２ヶ所」の解釈結果をＡＩアシスタントサーバ装置４から受信した場合と同様の処理を行うことができる。この場合、携帯端末装置２（操作音声処理プログラム）は、音声認識サーバ装置３及びＡＩアシスタントサーバ装置４を用いることなく、ジョブを実行できる。

この場合、携帯端末装置２は、仕上がりイメージを示す画像（スタンプ）と、該画像（スタンプ）に対応する設定値（つまり、ＡＩアシスタントサーバ装置４からフィードバックされた「Parameter」の値）とを携帯端末装置２のＲＯＭ２３に紐づけて記憶しておく。

携帯端末装置２（操作音声処理プログラム）は、仕上がりイメージを示す画像（スタンプ）を、次回以降のジョブ実行時に使用できるように、記憶しておく。つまり、携帯端末装置２（操作音声処理プログラム）は、タッチパネル２７に表示される、仕上がりイメージを示す画像（スタンプ）を、保存するように指示する。

例えば、ユーザが仕上がりイメージを示す画像（スタンプ）を所定時間タッチし続けた場合（長押しした場合）、携帯端末装置２（操作音声処理プログラム）は、該画像を保存するか否かの選択を受け付ける画面を表示させる。携帯端末装置２（操作音声処理プログラム）は、ユーザが画像の保存を指示した場合、該画像を携帯端末装置２のＲＯＭ２３に記憶させる。このとき、携帯端末装置２（操作音声処理プログラム）は、画像（スタンプ）と、該画像（スタンプ）に対応する設定値とを紐づけてＲＯＭ２３に記憶する。

このように記憶した画像は、ユーザの指示によって呼び出すことができる。例えば、携帯端末装置２（操作音声処理プログラム）は、図１３の左下に示すアイコンＩ１をユーザがタッチすると、予め記憶した画像の一覧を表示する。携帯端末装置２（操作音声処理プログラム）は、該一覧から所望の画像をユーザが指定した場合、図１３に示すように該画像を（１７：００での表示のように）タッチパネル２７に表示する。これにより、該画像に対応する設定値を、今回のジョブ設定値として反映させることができる。

図１４に戻り、次に、携帯端末装置２は、仕上がりイメージを画像（スタンプ）を表示するなどの上述の入力確認フィードバックを行う（ステップＳ２７）。この入力確認フィードバックに対して、ユーザは、設定値の変更又はコピーの開始を指示する音声入力を行う。

複数のパラメータのうち、いずれのパラメータが必須パラメータであるかは、ＡＩアシストサーバ装置４の記憶部に予め記憶しておくことができる。この場合、解釈部７２は、記憶部に記憶された必須パラメータの情報に基づいて、携帯端末装置２から取得したパラメータが全ての必須パラメータの設定を行っているか否かを判断し、必須パラメータについて設定が行われていない場合は、必須パラメータの設定を行うように、携帯端末装置２を介してユーザへ促すことができる。

このように、操作音声処理プログラムは、予め携帯端末装置２で記憶されたテキストデータ、音声認識サーバ装置３から受信したテキストデータ、ＡＩアシスタントサーバ装置４から受信したResponseに基づいて、コメントを携帯端末装置２のタッチパネル２７の画面に表示させる。

図１５のシーケンス図のステップＳ３５〜ステップＳ４２が、設定値の変更を音声指示した場合の動作の流れを示すシーケンス図である。この図１５において、ユーザが設定値を変更する発話を行うと（ステップＳ３５）、音声認識サーバ装置３のテキスト変換部６２が、変更された設定値のテキストデータに生成し、携帯端末装置２を介してＡＩアシスタントサーバ装置４に送信する（ステップＳ３６〜ステップＳ３８）。ＡＩアシスタントサーバ装置４は、受信したテキストデータで示されるユーザの発話フレーズに基づいて、変更された設定値を示す解釈結果を生成し（ステップＳ３９）、携帯端末装置２に送信する（ステップＳ４０）。

携帯端末装置２のフィードバック部５５は、解釈結果に含まれるＲｅｓｐｏｎｓｅに基づいてフィードバックのテキストを生成し（ステップＳ４１）、例えば「モノクロ、２部、両面でコピーします。よろしいですか？」等の、上述の入力確認フィードバックを行うことで、変更された設定値でコピーを開始してよいか否かの確認を行う（ステップＳ４２）。

図１５のシーケンス図のステップＳ４３〜ステップＳ５０が、コピーの開始を指示した際の各部の動作の流れである。すなわち、上述の入力確認フィードバックにより、ユーザが「はい」と応答すると（ステップＳ４３）、テキスト化され、携帯端末装置２を介してＡＩアシスタントサーバ装置４に送信される（ステップＳ４４〜ステップＳ４６）。ＡＩアシスタントサーバ装置４は、受信したテキストデータに基づいてコピー開始指示を認識すると、「Ｃｏｐｙ＿Ｅｘｅｃｕｔｅ」としたアクションに、「印刷面＝両面」及び「部数＝１部」とのパラメータを付加した解釈結果を形成し、これを携帯端末装置２に送信する（ステップＳ４７〜ステップＳ４８）。

携帯端末装置２の解釈結果変換部５３は、解釈結果をＭＦＰ１のジョブ命令に変換処理し（ステップＳ４９）、ＭＦＰ１に送信する（ステップＳ５０）。これにより、音声入力操作により、ＭＦＰ１をコピー制御することができる。

なお、携帯端末装置２がＭＦＰ１へジョブ命令を送信した後、ＭＦＰ１において連結コピーモードＯＮで、且つ、ステープルモードＯＮの場合に、親機である携帯端末装置２は子機であるＭＦＰ１に対して、フィニッシャなどの周辺機器の接続状況を要求する。ＭＦＰ１に周辺機器が接続されていない場合は、携帯端末装置２のタッチパネル２７に連結コピーができない旨の表示を行う。

（ＡＩアシスタントサーバ装置４からフィードバックされる情報の例）
以下の表２に、ＡＩアシスタントサーバ装置４から携帯端末装置２にフィードバックされる解釈結果の一例を示す。

この表２に示すように、例えばジョブの設定値の入力促すための「Ｃｏｐｙ＿Ｐａｒａｍｅｔｅｒ＿Ｓｅｔｔｉｎｇ」、ジョブの設定値の確認を促すための「Ｃｏｐｙ＿Ｃｏｎｆｉｒｍ」、ジョブの実行開始を伝えるための「Ｃｏｐｙ＿Ｅｘｅｃｕｔｅ」等のアクションが、解釈結果に含められて携帯端末装置２にフィードバックされる。

フィードバック部５５は、解釈結果に含まれるアクション、パラメータ、レスポンスに応じて、ユーザに対するフィードバックを判断することができる。フィードバック部５５は、フィードバックする内容を決定するために、表２に相当する情報を携帯端末装置２の記憶部に記憶し、参照できる構成としても良い。なお、表２では、コピーの場合を例に説明したが、プリント、スキャン、ＦＡＸも表２と同様にアクションとして、ジョブの設定値の入力促すための「Ｐａｒａｍｅｔｅｒ＿Ｓｅｔｔｉｎｇ」、ジョブの設定値の確認を促すための「Ｃｏｎｆｉｒｍ」が用いられても良い。

また、例えば両面又は片面等の印刷面の設定値、又は、コピー部数等のパラメータが、解釈結果に含められて携帯端末装置２にフィードバックされる。さらに、必須パラメータが不足している場合、不足するパラメータの入力を促すメッセージが、レスポンスとして解釈結果に含められて携帯端末装置２にフィードバックされる。

このように本実施の形態によれば、設定に基づく仕上がりイメージを示す仕上がり画像を表示することで、直感的に、設定確認のためのフィードバックやジョブ設定を行うことができる。

なお、上述の実施の形態の説明では、音声認識サーバ装置３でユーザの発話に対応するテキストデータを生成し、ＡＩアシスタントサーバ装置４でテキストデータに基づいて、ユーザの意図している操作を解釈した。しかし、携帯端末装置２側に、このような音声認識機能及び解釈機能を設け、携帯端末装置２で、ユーザの発話から意図する操作を解釈してもよい。これにより、音声認識サーバ装置３及びＡＩアシスタントサーバ装置４を不要とすることができ、システム構成を簡素化できる。

（第２の実施の形態）
次に、第２の実施の形態について説明する。

第２の実施の形態は、携帯端末装置２に代えてスマートスピーカーを適用する点が、第１の実施の形態と異なる。以下、第２の実施の形態の説明では、第１の実施の形態と同一部分の説明については省略し、第１の実施の形態と異なる箇所について説明する。

図１８は、第２の実施の形態の音声操作システムのシステム構成図である。この図１８に示すように、第２の実施の形態の音声操作システムは、図１で説明した携帯端末装置２に代えてスマートスピーカー５０（情報処理装置の一例）を適用したものである。スマートスピーカーとは、ＡＩスピーカーとも呼ばれ、対話型の音声操作に対応したＡＩアシスタント機能を持つスピーカーである。

音声操作システムは、外部装置の一例であるＭＦＰ１、スマートスピーカー５０（情報処理装置の一例）、クラウドサービス装置６０を、例えばＬＡＮ（Local Area Network）等の所定のネットワーク５を介して相互に接続することで形成されている。ただし、外部装置は複合機には限定されず、電子黒板やプロジェクタなどのオフィス機器を含む、種々の電子機器であっても良い。

スマートスピーカー５０は、ＭＦＰ１を音声操作するための、ユーザからの音声入力を受け付ける。スマートスピーカー５０は、ＭＦＰ１に近接して設置される。また、スマートスピーカー５０とＭＦＰ１とは、１対１で対応する。したがって、スマートスピーカー５０は、基本的に、ＭＦＰ１の前で操作しているユーザを対象として機能提供を行う。ただし、これに限定されず、スマートスピーカ−５０は複数のＭＰＦ１及び他の電子機器と対応しても良い。

クラウドサービス装置６０は、物理的に一つのサーバ装置としてもよいし、複数のサーバ装置で実現してもよい。クラウドサービス装置６０は、音声データをテキストデータに変換し、更にユーザの意図を解釈するための操作音声変換プログラムがインストールされている制御装置である。また、クラウドサービス装置６０は、ＭＦＰ１を管理するための管理プログラムがインストールされている制御装置である。したがって、クラウドサービス装置６０は、第１の実施の形態の音声認識サーバ装置３やＡＩアシスタントサーバ装置４と同様の機能を発揮する。

操作音声変換プログラムは、ＭＦＰ１に対する操作用の音声辞書と操作を作成／登録する。管理プログラムは、スマートスピーカー５０やＭＦＰ１のアカウント／デバイスを紐付け、システム全体を管理する。

（スマートスピーカー５０のハードウェア構成）
図１９は、音声操作システムに設けられているスマートスピーカー５０のハードウェア構成図である。図１９に示すように、スマートスピーカー５０は、図３で説明した携帯端末装置２と同様に、ＣＰＵ２１、ＲＡＭ２２、ＲＯＭ２３、インタフェース部（Ｉ／Ｆ部）２４及び通信部２５を、バスライン２６を介して相互に接続して形成されている。

Ｉ／Ｆ部２４には、タッチパネル２７、スピーカ部２８及びマイクロホン部２９が接続されている。マイクロホン部２９は、通話音声の他、ＭＦＰ１に対するジョブの実行命令の入力音声を集音（取得）する。入力音声は、通信部２５を介してクラウドサービス装置６０に送信され、テキストデータに変換される。

（クラウドサービス装置６０のハードウェア構成）
図２０は、音声操作システムに設けられているクラウドサービス装置６０のハードウェア構成図である。なお、図２０においては、クラウドサービス装置６０は、物理的に一つのサーバ装置で構成されているものとする。図２０に示すように、クラウドサービス装置６０は、図４で説明した音声認識サーバ装置３と同様に、ＣＰＵ３１、ＲＡＭ３２、ＲＯＭ３３、ＨＤＤ（Hard Disk Drive）３４、インタフェース部（Ｉ／Ｆ部）３５及び通信部３６を、バスライン３７を介して相互に接続して形成されている。Ｉ／Ｆ部３５には、表示部３８及び操作部３９が接続されている。ＨＤＤ３４には、ＭＦＰ１に対する操作用の音声辞書と操作を作成／登録するための操作音声変換プログラムが記憶されている。また、ＨＤＤ３４には、スマートスピーカー５０やＭＦＰ１のアカウント／デバイスを紐付け、システム全体を管理する管理プログラムが記憶されている。ＣＰＵ３１は、操作音声変換プログラムや管理プログラムを実行することで、携帯端末装置２から送信された音声データに基づいて、ＭＦＰ１を操作可能とする。

（全体の機能構成）
図２１は、全体の機能の概要説明図である。図２１には、クラウドサービスを提供する主な機能を示している。主な機能の詳細や、図２１に示したスマートスピーカー５０についての機能の説明については、図２２〜図２３を参照して後に説明する。

クラウド１００の機能は、１つのクラウドサービス装置６０、あるいは複数のクラウドサービス装置６０により実現される。これらの機能は１つまたは複数のクラウドサービス装置６０に適宜設定されるものであり、１つのクラウドサービス装置６０でもよいし、複数のクラウドサービス装置６０でもよい。

クラウドサービス装置６０のＣＰＵ３１はＨＤＤ３４の操作音声変換プログラムをＲＡＭ３２に読み出して実行することにより操作音声変換部３１０として機能する。操作音声変換部３１０は、音声データをテキストデータに変換する機能を有する。更に、操作音声変換部３１０は、テキストデータを予め定義された辞書情報と一致するか否かを判断する機能を有する。更に、操作音声変換部３１０は、マッチした場合にはテキストデータをユーザの意図を示すアクションおよびジョブ条件などの変数を示すパラメータに変換する機能を有する。

また、クラウドサービス装置６０のＣＰＵ３１はＨＤＤ３４の音声アシスタントプログラムをＲＡＭ３２に読み出して実行することにより音声アシスタント部３２０として機能する。音声アシスタント部３２０は、辞書情報を保持する機能を有する。

また、クラウドサービス装置６０のＣＰＵ３１はＨＤＤ３４の管理プログラムをＲＡＭ３２に読み出して実行することにより管理部３３０として機能する。管理部３３０は、アクションとパラメータに基づいてＭＦＰ１が解釈可能な形式であるジョブ実行指示に変換した上で登録されたＭＦＰ１へ送信する機能を有する。

このようにクラウド１００は、少なくとも操作音声変換部３１０、音声アシスタント部３２０、および管理部３３０の機能によりクラウドサービス３００を提供する。

クラウドサービス３００は、ＭＦＰ１や情報処理装置との通信に基づき、各種の情報をＤＢに記憶する。一例として、管理部３３０が、管理ＤＢ３４０や、紐づけ用ＤＢ３５０や、機器情報ＤＢ３６０などを使用して各種情報を管理する。

管理ＤＢ３４０は、テキストデータ、画像データ、音声データなど、クラウドサービス３００が提供するコンテンツにかかるデータを記憶するデータベースである。

紐づけ用ＤＢ３５０は、情報処理装置と紐づける外部装置を記憶するデータベースである。紐づけ用ＤＢ３５０は、本例では、情報処理装置として使用するスマートスピーカー５０のデバイスＩＤと、そのスマートスピーカー５０と対応付ける外部装置（本例ではＭＦＰ１）のＩＤとを対応付けて記憶する。なお、スマートスピーカー５０と外部装置は一対一で紐づけられていても良いが、スマートスピーカー５０と複数の外部装置を紐づけても良い。つまり、デバイスＩＤと紐づく外部装置の種類と個数は限定されない。また、外部装置とスマートスピーカー５０の紐づけの方法についても上記の方法に限定されない。つまり、ユーザアカウントやユーザＩＤなどのユーザを特定する情報と外部装置とを紐づける構成であっても良い。この場合、デバイスＩＤなどのスマートスピーカー５０からクラウドへ送信されるスマートスピーカー５０を特定する情報と、ユーザを特定する情報とをクラウド１００の紐づけ用ＤＢなどに記憶しておき、管理部３３０はデバイスＩＤと紐づくユーザを特定する情報に基づいて外部装置を特定する構成であっても良い。若しくは、スマートスピーカー５０からデバイスＩＤに代えてユーザを特定する情報を送信しても良い。また、ユーザを特定するための情報に代えて、部署や企業などの組織を特定する情報、又は部屋や建物などの場所を特定する情報と、外部装置とを紐づける構成であっても良く、この場合は１以上のスマートスピーカー５０と１以上の外部装置を紐づけても良い。

機器情報ＤＢ３６０は、ＭＦＰ１を含む各外部装置のＩＤとそれぞれの機器情報とを対応付けて記憶するデータベースである。

（スマートスピーカー５０の機能）
図２２は、スマートスピーカー５０の機能ブロックの構成の一例を示す図である。スマートスピーカー５０のＣＰＵ２１は、ＲＯＭ２３に記憶されている操作処理プログラムを実行することで、図２２に示すように取得部２１１、通信制御部２１２、フィードバック部２１３として機能する。

取得部２１１は、マイクロホン部２９（図３参照）を介して集音された、ＭＦＰ１を音声操作するためのユーザの指示音声を、取得する。なお、取得部２１１は、タッチパネル２７（図３参照）や物理スイッチ（不図示）などを介してユーザの操作を取得してもよい。通信制御部２１２は、クラウド１００との間の通信を制御する。通信制御部２１２は、クラウド１００と通信し、取得部２１１が取得した情報をクラウド１００へ送信したり、クラウド１００からテキストデータや画像データ、音声データを取得したりする。また、通信制御部２１２は、取得部２１１が取得した情報をクラウド１００へ送信する場合、スマートスピーカー５０を特定するデバイスＩＤを共に送信してもよい。

フィードバック部２１３は、対話型の音声入力操作を実現すべく、例えば不足するデータを補う入力を促す音声や、入力を確認する音声などをユーザ側にフィードバックする。また、フィードバック部２１３は、タッチパネル２７のディスプレイ表示を制御することによって、テキストまたは画像としてユーザに対してフィードバックを行ってもよい。

なお、この例では、取得部２１１〜フィードバック部２１３をソフトウェアで実現することとしたが、これらのうちの一部または全部をＩＣ（Integrated Circuit）等のハードウェアで実現してもよい。また、取得部２１１〜フィードバック部２１３の各機能は、操作処理プログラム単体で実現してもよいし、他のプログラムに処理の一部を実行させる、または他のプログラムを用いて間接的に処理を実行させてもよい。

（クラウドサービスの機能の詳細）
図２３は、クラウドサービスの各機能の構成の一例を示す図である。操作音声変換部３１０は、図２３に示すように、取得部３１１や、テキスト変換部３１２や、解釈部３１３や、出力部３１４などの機能を含む。取得部３１１は、スマートスピーカー５０から送信される音声データ（ユーザにより入力された音声データ）を取得する。また、取得部３１１は、スマートスピーカー５０のタッチパネル２７や物理スイッチ（ボタンなども含む）などに対してユーザが行った操作を示すデータを取得してもよい。テキスト変換部３１２は、音声データ（スマートスピーカー５０において入力されたユーザの音声データ）をテキストデータに変換するＳＴＴ（Speech To Text）を含む。解釈部３１３は、テキスト変換部３１２により変換されたテキストデータに基づいてユーザの指示の内容を解釈する。具体的に、解釈部３１３は、テキスト変換部３１２により変換されたテキストデータに含まれる単語などが、音声アシスタント部３２０が提供する辞書情報にマッチしているか否かを確認し、マッチしている場合に、ジョブの種類を示すアクションと、ジョブ条件などの変数を示すパラメータとに変換する。そして、解釈部３１３は、例えば音声データの取得元であるスマートスピーカー５０を特定するデバイスＩＤなどと共に、アクションおよびパラメータを管理部３３０に対して送信する。出力部３１４は、テキストデータを音声データに合成するＴＴＳ（Text To Speech）を含む。出力部３１４は、通信部３６（図４参照）を通信制御し、スマートスピーカー５０にテキストデータ、音声データ、画像データなどのデータの送信等を行う。

なお、この例では、取得部３１１〜出力部３１４をソフトウェアで実現することとしたが、これらのうちの一部または全部をＩＣ（Integrated Circuit）等のハードウェアで実現してもよい。また、取得部３１１〜出力部３１４が実現する各機能は、操作音声変換プログラム単体で実現してもよいし、他のプログラムに処理の一部を実行させる、または他のプログラムを用いて間接的に処理を実行させてもよい。また、操作音声変換プログラムの解釈部３１３の機能の一部または全てを音声アシスタントプログラムに実行させてもよい。この場合、例えばテキストデータに含まれる単語などが辞書情報にマッチしているか否かの確認、マッチしている場合にユーザの意図を示すアクションとジョブ条件などの変数を示すパラメータへの変換は、音声アシスタント部３２０が行う。解釈部３１３はアクションおよびパラメータを音声アシスタント部３２０から取得するだけでよい。

音声アシスタント部３２０は、図２３に示すように提供部３２１の機能を含む。提供部３２１は、テキストデータとアクションおよびパラメータの関係を予め定義した辞書情報を管理し、操作音声変換部３１０に辞書情報を提供する。なお、音声アシスタント部３２０は、操作音声変換部３１０からテキストデータを受け付けて、そのテキストデータからユーザの操作指示を解釈してもよい。例えば、音声アシスタント部３２０は、解釈部３１３からテキストデータを取得し、テキストデータに含まれる単語などが辞書情報にマッチしているか否かを確認し、マッチしている場合にテキストデータをアクションとパラメータに変換する。その後、アクションおよびパラメータを解釈部３１３に提供する。

なお、この例では、音声アシスタント部３２０（提供部３２１を含む）をソフトウェアで実現することとしたが、そのうちの一部または全部をＩＣ（Integrated Circuit）等のハードウェアで実現してもよい。また、提供部３２１などの機能は、音声アシスタントプログラム単体で実現してもよいし、他のプログラムに処理の一部を実行させる、または他のプログラムを用いて間接的に処理を実行させてもよい。

管理部３３０は、図２３に示すように、取得部３３１や、解釈結果変換部３３２や、実行指示部３３３や、機器情報取得部３３４や、実行判定部３３５や、通知部３３６や、ＤＢ管理部３３７などの機能を含む。

取得部３３１は、解釈部３１３から解釈結果を取得する。

解釈結果変換部３３２は、操作音声変換部３１０で変換されたアクションおよびパラメータなどの解釈結果を、ＭＦＰ１が解釈可能なジョブの実行命令に変換する。

実行指示部３３３は、ジョブの実行命令をＭＦＰ１に送信することによりジョブの実行を指示する。具体的に、実行指示部３３３は、アクションおよびパラメータと共に、ユーザが音声指示したスマートスピーカー５０のデバイスＩＤを取得する。実行指示部３３３は、取得したデバイスＩＤに対応するＭＦＰ１を紐づけ用ＤＢ３５０（図２１参照）から検索し、検索により得られたＭＦＰ１に対してジョブ実行命令を送信する。

機器情報取得部３３４は、登録されている各外部装置（この例ではＭＦＰ１）から機器情報を取得する。例えば、機器情報取得部３３４は、処理可能な最大画素数等の処理能力を示す情報を取得する。また、機器情報取得部３３４は、ＭＦＰ１との間で、通信接続が確立されているか否かを示す接続状態、ＭＦＰ１の電源のＯＮ／ＯＦＦまたはスリープモードであるかを示す電力状態、エラーの有無とエラーの種類、用紙やトナーなどの消耗品の残余状況、ユーザのログイン状態、ログインユーザに使用が許可された機能を示す権限情報、などを含む機器状態を示す情報も設定に応じて適宜取得する。

なお、機器情報取得部３３４は、複数のＭＦＰ１から処理能力などの機器情報を取得した場合、機器情報ＤＢ３６０（図２１参照）において、各外部装置を特定するＩＤなどの情報と紐づけてそれぞれの機器情報を管理する。

実行判定部３３５は、ＭＦＰ１の処理能力と、ユーザから指定されたジョブ（即ち、操作音声変換部３１０で生成されたアクションおよびパラメータ）とを比較することで、ユーザから指定されたジョブをＭＦＰ１で実行可能か否か判定する。ユーザから指定されたジョブ実行が実行可能と判断した場合はＭＦＰ１に対してジョブ実行命令を送信する。なお、実行不可能と判断した場合は通知部３３６により操作音声変換部３１０を介してスマートスピーカー５０に対してエラーメッセージなどをレスポンス情報としてフィードバックさせてもよい。

通知部３３６は、ユーザのジョブ実行指示への応答としてテキストデータ、音声データ、画像データなどを操作音声変換部３１０へ送信する。また、ジョブの実行するためのジョブ条件を示すパラメータが不足している場合には、操作音声変換部３１０を介してスマートスピーカー５０に対してフィードバックすることでユーザにパラメータの更なる指示を促す。ここで、不足しているパラメータを確認するために必要な情報として、パラメータ情報を送信してもよいし、ユーザにパラメータの指定を促すために必要な情報としてテキストデータ、音声データ、画像データを送信してもよい。

ＤＢ管理部３３７は、管理ＤＢ３４０、紐づけ用ＤＢ３５０、および機器情報ＤＢ３６０を管理する。具体的には、各種テーブルの設定や、各種テーブルに対してのデータの登録、検索、削除、更新などを行う。例えば、ＤＢ管理部３３７は、ＭＦＰ１、スマートスピーカー５０、またはクラウドサービス装置６０のクライアントデバイスに入力された情報および指示に基づいて、スマートスピーカー５０のデバイスＩＤとＭＦＰ１のＩＤとを紐づけて紐づけ用ＤＢ３５０に登録する。紐づけ用ＤＢ３５０は、スマートスピーカー５０のデバイスＩＤとＭＦＰ１のＩＤとを紐づけた情報をテーブルデータなどで保持する。

（対話型動作の流れ）
図２４〜図２７は、音声操作システムにおいてユーザがシステムと対話してＭＦＰの操作を行う場合の全体の動作の一例を示す図である。図２４は、起動時の動作の流れを示しており、図２５〜図２７は、起動後の対話型動作の流れを示している。システムと対話して操作を行う場合、対話のセッション管理が必要になる。対話のセッション管理については後述する。ここでは、一例としてユーザがスマートスピーカー５０を介してカラー画像を両面上下開き、ステープル上２か所で２部のコピーを行う操作を指示する場合の動作を示す。この例では、部数（＝２部）が必須パラメータとなっているが、部数に限定されず、モノクロ、カラー、または、用紙サイズ等、複数のパラメータを必須パラメータに含めてもよい。

まず、ユーザによりスマートスピーカー５０（操作処理プログラム）が起動操作された後、例えばユーザがスマートスピーカー５０に起動ワードを音声入力する（ステップＳ１´）。ここで、ユーザが音声アシスタントプログラムを起動するための起動ワードを発話することで、所望の音声アシスタントプログラムを起動させることができる。スマートスピーカー５０（通信制御部２１２）は、クラウド１００（操作音声変換部３１０）に対して起動ワードの音声データを送信する（ステップＳ２´）。

クラウド１００では、操作音声変換部３１０（取得部３１１）が、スマートスピーカー５０から送信データを取得し、操作音声変換部３１０（テキスト変換部３１２）が、音声データをテキスト化、つまりテキストデータに変換処理する（ステップＳ３´）。

操作音声変換部３１０（解釈部３１３）は、音声アシスタント部３２０（提供部３２１）に辞書情報を要求して音声アシスタント部３２０（提供部３２１）から辞書情報を取得する（ステップＳ４´）。

さらに、操作音声変換部３１０（解釈部３１３）は、取得した辞書情報から、テキスト解釈を行う（ステップＳ５´）。

そして、操作音声変換部３１０（解釈部３１３）は、その解釈結果を、管理部３３０に渡す（ステップＳ６´）。

ここで、管理部３３０は、必要に応じて、紐づけ用ＤＢの検索（ステップＳ７１）、接続状態確認（ステップＳ７２）、アプリ状態確認（ステップＳ７３）、機器情報取得（ステップＳ７４）などを行う。なお、これらの処理の順番は適宜入れ替えてよい。また、各処理は、それぞれ、別のタイミングで行っていれば、ここでの処理を省略してもよい。

紐づけ用ＤＢの検索（ステップＳ７１）では、管理部３３０（ＤＢ管理部３３７）が、取得したデバイスＩＤ（スマートスピーカー５０のＩＤ）に対応するＭＦＰ１（ＭＦＰ１のＩＤ）を、紐づけ用ＤＢ３５０から検索して取得する。このとき、管理部３３０（通知部３３６）は、デバイスＩＤと紐づくＭＦＰ１のＩＤが検索で得られなかった場合、スマートスピーカー５０が通信対象と紐づけられていないことを操作音声変換部３１０（出力部３１４）を介してユーザに通知する。例えば、管理部３３０（通知部３３６）は、「このデバイスは機器と紐づけられていません」とのレスポンスを含むレスポンス情報を生成する。ここで、管理部３３０（通知部３３６）は、デバイスと通信対象を紐づけする方法をレスポンスに含めてもよい。なお、ステップＳ７１は、デバイスＩＤを取得した他の任意のタイミングで行ってもよい。

接続状態確認（ステップＳ７２）は、管理部３３０が通信対象（この例ではＭＦＰ１）の機器状態を確認する。例えばＤＢ管理部３３７が機器情報ＤＢ３６０の予め取得した機器情報を参照することで確認する。あるは、機器情報取得部３３４が通信対象のＭＦＰ１から機器情報を取得して確認してもよい。ここで、機器状態の確認は、例えば通信対象のＭＦＰ１と通信可能か否かおよびＭＦＰ１が使用可能か否かの確認である。このとき、デバイスＩＤと紐づくＭＦＰ１（確認対象のＭＦＰ１）との接続が確立していない場合、または、そのＭＦＰ１が起動中などで使用できない場合、管理部３３０（通知部３３６）は、操作音声変換部３１０（出力部３１４）を介してユーザに通知を行う。例えば、管理部３３０（通知部３３６）は、「機器がオフラインです」または「機器が準備中です」とのレスポンスを含むレスポンス情報を生成して通知する。ここで、管理部３３０（通知部３３６）は、対策方法をレスポンスに含めてもよい。なお、機器状態の確認は、操作音声変換部３１０（解釈部３１３）からアクションおよびパラメータ、デバイスＩＤを取得した他の任意のタイミングで行ってもよい。

アプリ状態確認（ステップＳ７３）は、管理部３３０が通信対象のＭＦＰ１にユーザから指定された機能を実行するアプリケーションの状態を確認する。例えばＤＢ管理部３３７が、機器情報ＤＢ３６０の予め取得した機器情報を参照することで確認する。あるいは、機器情報取得部３３４が通信対象のＭＦＰ１から機器情報を取得して確認してもよい。ここで、アプリ状態の確認は、例えばアプリケーションがインストールされているか否か、アプリケーションが実行可能な状態であるか否かの確認である。そして、実行を指示された機能がコピーであったとして、コピーに関するアプリケーションがデバイスＩＤと紐づくＭＦＰ１にインストールされていなかったり、あるいは、アプリケーションが起動中などで使用できなかったりする場合は、管理部３３０（通知部３３６）は、操作音声変換部３１０（出力部３１４）を介してユーザに通知を行う。例えば、管理部３３０（通知部３３６）は、「アプリケーションがインストールされていません」または「アプリケーションは現在利用できません」とのレスポンスを含むレスポンス情報を生成して通知する。ここで、管理部３３０（通知部３３６）は、対策方法をレスポンスに含めてもよい。なお、アプリケーションの状態の確認は、操作音声変換部３１０（解釈部３１３）からアクションおよびパラメータ、デバイスＩＤを取得した他の任意のタイミングで行ってもよい。

機器情報取得（ステップＳ７４）は、管理部３３０が通信対象（この例ではＭＦＰ１）の機器情報を取得する。例えばＤＢ管理部３３７が機器情報ＤＢ３６０の予め取得した機器情報を取得する。あるは、機器情報取得部３３４が通信対象のＭＦＰ１から機器情報を取得してもよい。ここで取得する機器状態は、例えば通信対象のＭＦＰ１において、ユーザが指示したジョブ種類およびジョブ条件が実行可能か否かを判断する際に利用される。

これらの処理が起動後の任意のタイミングで完了していると、管理部３３０（実行判定部３３５）は、必須パラメータ不足判断を行う（ステップＳ７５）。管理部３３０（実行判定部３３５）は、必須パラメータ不足判断において、解釈結果のアクションおよびパラメータに基づいてジョブ実行に必要な条件が全て揃っているか否かを判断する。

なお、音声アシスタントプログラムの起動を指示する際においてジョブの種類および必須の設定条件をすべて指定していた場合には、これ以降に示す「入力フィードバック」のステップは省略し、ＭＦＰ１に実行を指示してもよい。

この段階では、音声で起動が指示されただけで、それ以外に、ＭＦＰ１が有する複数のアクションやパラメータの指定をユーザが受け付けていないため、管理部３３０（実行判定部３３５）は、必須パラメータを満たしていないと判断する。音声アシスタントプログラムの起動を指示する際に必須の条件の指示漏れがある場合にも必須パラメータを満たしていないと判断する。従って、管理部３３０（通知部３３６）はレスポンス情報を作成し、操作音声変換部３１０（出力部３１４）を介してスマートスピーカー５０にレスポンス情報を送信する（ステップＳ７６、ステップＳ７７）。

なお、管理部３３０（ＤＢ管理部３３７）は、このスマートスピーカー５０との通信のセッションを管理ＤＢ３４０で管理する。管理部３３０（通知部３３６）はスマートスピーカー５０にレスポンス情報を送信する際に、セッションが継続していることを示す状態情報を送信することができる。ここで状態情報は、セッションが継続していることを示す情報である。後段の手順においても適宜説明を省略しているが、クラウド１００がスマートスピーカー５０に問合せを行う場合、状態情報を含めてスマートスピーカー５０に送信する。

レスポンス情報には、ユーザに問合せる内容としてテキストデータ、音声データ、画像データを含めることができる。ここでは一例として、「コピーしますか？スキャンしますか？」の音声データを送信する。これにより、スマートスピーカー５０（フィードバック部２１３）は、「コピーしますか？スキャンしますか？」と音声でフィードバックを行う（ステップＳ７８）。

なお、ユーザに対してジョブの種類またはジョブの設定条件の入力を促すメッセージであればフィードバックの内容はこれに限定されない。更に、ユーザに対するフィードバックは、音声出力だけでなく、タッチパネルにテキストまたは画像を表示することで行ってもよい。その場合、スマートスピーカー５０にテキストデータや画像データ（表示情報）などを送信する。

ステップＳ７８の後に、ユーザが「コピー」と発話した場合（音声アシスタントプログラムの起動指示の際に「コピー」と発話していた場合も同様）、次のように処理が進む。ユーザが発話した音声は、スマートスピーカー５０（取得部２１１）により音声データとして取得される（ステップＳ１−１）。スマートスピーカー５０（通信制御部２１２）は、この「コピー」の音声データをクラウド１００に送信する（ステップＳ２−１）。このとき、スマートスピーカー５０（通信制御部２１２）は、スマートスピーカー５０を特定するデバイスＩＤをクラウド１００に送信する。

クラウド１００では、操作音声変換部３１０（取得部３１１）が、その音声データを取得し、その後は、ステップＳ３´〜ステップＳ５´と同様に、操作音声変換部３１０においてテキスト解釈までの処理が行われ（ステップＳ３−１〜ステップＳ５−１）、解釈結果が管理部３３０へ渡される（ステップＳ６−１）。ここでは、「コピーして」に対応する「Ｃｏｐｙ＿Ｅｘｅｃｕｔｅ」としたアクションを解釈結果として渡す。

そして、管理部３３０（実行判定部３３５）は、改めて必須パラメータ不足判断を行う（ステップＳ７５―１）。この例の場合、ユーザは、「コピー」としか発話しておらず、必須パラメータのコピー部数等の設定値が不明である。

このため、クラウド１００がスマートスピーカー５０に対して不足しているパラメータを問い合わせる。具体的には、この段階では設定値不足であったため、管理部３３０（通知部３３６）が「設定値を入力してください」を含むレスポンス情報を生成し、操作音声変換部３１０（出力部３１４）を介して「設定値を入力してください」の音声データをスマートスピーカー５０に送信する（ステップＳ７５−１〜ステップＳ７７−１）。そして、スマートスピーカー５０（フィードバック部２１３）が「設定値を入力してください」との音声出力を行う（ステップＳ７８−１）。なお、この場合も、音声出力の他に、タッチパネル２７において「設定値を入力してください」とのテキスト表示などを行ってもよい。

次に、入力不足フィードバックがあったため、ユーザは、例えば「カラー両面上下開きステープル上２か所で」と発話する。ユーザが発話した音声は、スマートスピーカー５０（取得部２１１）により音声データとして取得される（ステップＳ１−２）。スマートスピーカー５０（通信制御部２１２）は、この「カラー両面上下開きステープル上２か所で」の音声データをクラウド１００に送信する（ステップＳ２−２）。このとき、スマートスピーカー５０（通信制御部２１２）は、スマートスピーカー５０を特定するデバイスＩＤをクラウド１００に送信する。

クラウド１００では、操作音声変換部３１０（取得部３１１）が、その音声データを取得し、その後は、ステップＳ３´〜ステップＳ５´と同様に、操作音声変換部３１０においてテキスト解釈までの処理が行われ（ステップＳ３−２〜ステップＳ５−２）、解釈結果が管理部３３０へ渡される（ステップＳ６−２）。

ここでは、操作音声変換部３１０（解釈部３１３）が「Parameter:カラー／モノクロ＝カラー、印刷面＝両面、開き方向＝上下開き、ステープル＝上２ヶ所」としたパラメータを解釈結果として生成し、その解釈結果を管理部３３０へ渡す。

具体的に、管理部３３０（ＤＢ管理部３３７）は、前回の発話の解釈結果と今回の発話の解釈結果とを統合してアクションおよびパラメータを完成させる。つまり、この例では、「Ｃｏｐｙ＿Ｅｘｅｃｕｔｅ」としたアクション、および「Parameter:カラー／モノクロ＝カラー、印刷面＝両面、開き方向＝上下開き、ステープル＝上２ヶ所」としたパラメータを完成させる。管理部３３０（実行判定部３３５）は、この統合された解釈結果に基づいて改めて必須パラメータ不足判断を行う。この例の場合、ユーザが「２部」と発話したことで、コピーのジョブに対する必須パラメータ不足が解消する。

この例では、続いて管理部３３０（通知部３３６）は、入力確認フィードバックを行うために「カラー、両面、上下開き、ステープル上２か所でコピーします。よろしいですか？」とのレスポンス情報を生成し、操作音声変換部３１０（出力部３１４）を介して「カラー、両面、上下開き、ステープル上２か所でコピーします。よろしいですか？」の音声データをスマートスピーカー５０に送信する（ステップＳ７５−３〜ステップＳ７７−３）。そして、スマートスピーカー５０（フィードバック部２１３）が「両面で２部コピーします。よろしいですか？」との音声出力を行う（ステップＳ７８−３）。なお、この場合も、音声出力の他に、タッチパネル２７において「カラー、両面、上下開き、ステープル上２か所でコピーします。よろしいですか？」とのテキスト表示などを行ってもよい。ここで、レスポンス情報に含まれるテキストデータや音声データを出力することに代えて、レスポンス情報に含まれる情報に基づいてスマートスピーカー５０の記憶部に記憶されたテキストデータを組み合わせて出力情報を生成してもよい。

その後、ユーザは、この入力確認フィードバックに対して、設定値の変更またはコピーの開始を端末に発話する。ユーザが設定値を変更する内容を発話した場合は、その発話した設定値の変更について、スマートスピーカー５０からクラウド１００へ音声データが送信され、クラウド１００で設定値の変更が行われて、スマートスピーカー５０に設定値の変更が行われたことについて音声でフィードバックされる。音声のフィードバックは、例えば「○○設定でコピーします。よろしいですか？」など、変更された設定値でコピーを開始してよいか否かの確認を行う。

その後も、ユーザが設定値を変更する内容を発話する場合は、この手続きが繰り返される。従って、「カラー、両面、上下開き、ステープル上２か所でコピーします。よろしいですか？」との音声出力が行われた後は、ユーザが設定値を変更する内容を発話した回数（ｋ回）だけ、手続きが繰り返される。

ユーザが「はい」と応答するなどしてコピーの開始を指示した場合は、図２７に示されるｎ番目の手順が行われる。つまり、ユーザが発話した音声は、スマートスピーカー５０（取得部２１１）により音声データとして取得される（ステップＳ１−ｎ）。スマートスピーカー５０（通信制御部２１２）は、この「はい」の音声データをクラウド１００に送信する（ステップＳ２−ｎ）。このとき、スマートスピーカー５０（通信制御部２１２）は、スマートスピーカー５０を特定するデバイスＩＤをクラウド１００に送信する。

クラウド１００では、操作音声変換部３１０（取得部３１１）が、その音声データを取得し、その後は、ステップＳ３´〜ステップＳ５´と同様に、操作音声変換部３１０においてテキスト解釈までの処理が行われ（ステップＳ３−ｎ〜ステップＳ５−ｎ）、解釈結果が管理部３３０へ渡される（ステップＳ６−ｎ）。

ここで、操作音声変換部３１０（解釈部３１３）は、コピー開始指示を認識すると、その解釈結果を管理部３３０に渡し、管理部３３０（実行判定部３３５）が、最終確認ＯＫと判断する（ステップＳ７５―ｎ）。

これにより、管理部３３０（解釈結果変換部３３２）は、解釈結果をＭＦＰ１のジョブ命令に変換処理する（ステップＳ７６）。そして管理部３３０（実行指示部３３３）は、変換処理した実行指示情報をＭＦＰ１に送信する（ステップＳ８）。これにより、音声入力操作により、ＭＦＰ１をコピー制御することができる。

図２８は、スマートスピーカー５０の表示部に表示される画面を示す正面図である。図２８に示すように、スマートスピーカー５０の表示部に表示される画面は、図１３に示した携帯端末装置２に表示される画面と同じである。

スマートスピーカー５０に対する発話、及びフィードバックの処理については、第１の実施の形態で示した処理と同じである。概略的には、スマートスピーカー５０は、ユーザが発話した内容と、クラウドサービス装置６０（操作音声変換プログラム）から受信したレスポンス情報を出力する。レスポンス情報は、テキストデータ、音声データ、画像データの少なくともいずれかを含む情報である。

なお、図２８においてスマートスピーカー５０のタッチパネル２７の画面右側から吹き出し表示されるコメントは、ユーザがスマートスピーカー５０に対して発話した内容を示すコメントを示す。また、図２８においてスマートスピーカー５０のタッチパネル２７の画面左側から吹き出し表示されるコメントは、クラウドサービス装置６０からユーザの発話に対して音声フィードバックされた内容を示すコメント及び画像は、クラウドサービス装置６０からユーザの発話に対してフィードバックされた内容を示すコメント、又は画像（スタンプ）である。つまり、スマートスピーカー５０は、クラウドサービス装置６０からフィードバック情報を受信した場合、音声出力でユーザへフィードバックすると同時に、画面表示によってもフィードバックを行う。ただし、音声出力のフィードバックについては省略しても良い。

ここで、図２４〜図２７を用いて説明すると、「コピーしますか？スキャンしますか？」のコメントは、ステップＳ７８の音声フィードバックと共にスマートスピーカー５０のタッチパネル２７の画面に表示される。

なお、スマートスピーカー５０の操作音声処理プログラムは、クラウドサービス装置６０からのレスポンス情報に基づいて表示するテキストを生成したり、スマートスピーカー５０のＲＯＭ２３などに予め記憶されたテキストデータを表示させたりしても良い。また、レスポンス情報に含まれるテキストデータ及び音声データをそのまま表示しても良い。

スマートスピーカー５０の操作音声処理プログラムは、「コピー」のコメントを、クラウドサービス装置６０（操作音声変換プログラム）が音声データをテキストデータに変換したものをレスポンス情報として受信してスマートスピーカー５０のタッチパネル２７の画面に表示させることができる。

なお、クラウドサービス装置６０（操作音声変換プログラム）は、任意のタイミングでレスポンス情報を送信することができる。例えば、クラウドサービス装置６０（操作音声変換プログラム）は、テキストデータに変換したタイミングで「コピー」のレスポンス情報を生成してスマートスピーカー５０に対して送信しても良い（この場合は、「コピー」だけが表示される）。

また、クラウドサービス装置６０（管理プログラム）は、「設定値を入力してください」のレスポンス情報を生成するタイミングで、「コピー」のレスポンス情報も生成して、操作音声変換プログラムを介してスマートスピーカー５０に送信しても良い（この場合、「コピー」と「設定値を入力してください」がほぼ同時にスマートスピーカー５０のタッチパネル２７に画面表示される。

なお、操作音声変換プログラムは、管理プログラムに対して「Ｃｏｐｙ＿Ｅｘｅｃｕｔｅ」としたインテントを解釈結果として送信する際に、「コピー」のレスポンス情報を生成するために必要な情報を送信しても良い。

また、レスポンス情報は操作音声変換プログラムが作成して、管理プログラムが操作音声変換プログラムを介して「設定値を入力してください」のレスポンス情報をスマートスピーカー５０へ送信する際に、一緒に「コピー」のレスポンス情報をスマートスピーカー５０へ送信しても良い。

スマートスピーカー５０の操作音声処理プログラムは、「設定値を入力してください」のコメントは、図２４〜図２７のステップＳ７８−１の音声フィードバックと共にスマートスピーカー５０のタッチパネル２７の画面に表示される。即ち、クラウドサービス装置６０（管理プログラム）から受信したレスポンス情報に基づいてコメントを表示させる。

スマートスピーカー５０の操作音声処理プログラムは、「カラー、両面、上下開き、ステープル上２ヶ所」のコメントを、クラウドサービス装置６０（操作音声変換プログラム）が音声データをテキストデータに変換したものを受信して画面に表示させることができる。表示の方法については、「コピー」と話した場合と同様である。

併せて、スマートスピーカー５０の操作音声処理プログラムは、入力不足ではないと判断した場合、仕上がりイメージを示す画像（スタンプ）をタッチパネル２７に表示させ、コピー開始の指示を促す。

このように、スマートスピーカー５０は、予めスマートスピーカー５０に記憶されたテキストデータ、クラウドサービス装置６０から受信したテキストデータ又はレスポンス情報に基づいて、コメントをスマートスピーカー５０のタッチパネル２７の画面に表示させる。

ここで、第１の実施の形態で説明した具体例を本実施の形態に適用した場合について説明する。

クラウドサービス装置６０（管理プログラム）は、レスポンス情報として、音声出力でフィードバックするためのテキストデータ又は音声データと、表示出力でフィードバックするためのテキストデータ又は画像データ（スタンプ）を送信することができる。また、レスポンス情報として、インテント及びパラメータなど、ジョブの種類とジョブの設定条件を示す情報を含んでいても良い。この場合、クラウドサービス装置６０（操作音声変換プログラム）は、操作音声変換プログラムから取得した解析結果であるインテント及びパラメータをレスポンス情報として含むことができる。

このとき、スマートスピーカー５０の操作音声処理プログラムは、クラウドサービス装置６０からフィードバックされた解析結果をコメント表示する代わりに、図２８に示すように、解析結果に基づく仕上がりイメージを画像（スタンプ）として表示することができる。

スマートスピーカー５０の操作音声処理プログラムは、解析結果の「インテント」が「Copy_execute」であった場合に、「パラメータ」を参照する。そして、スマートスピーカー５０の操作音声処理プログラムは、「パラメータ」の値に一致する仕上がりイメージを示す画像（スタンプ）を検索し、検索した画像（スタンプ）をタッチパネル２７に表示させる。ここで、「パラメータ」に複数の設定値が設定されている場合は、全ての設定値を満足する画像（スタンプ）を検索する。例えば、スマートスピーカー５０のＲＯＭ２３には、設定値と対応付けて画像（スタンプ）が記憶されている。例えば、図１６に示すようにテーブルデータとして記憶することができる。なお、全ての設定値を満足する画像（スタンプ）がない場合は、最も近い一の画像（スタンプ）を表示しても良い。

なお、図１６に示すテーブルデータは、スマートスピーカー５０ではなく、スマートスピーカー５０がアクセス可能な外部装置に記憶されていても良い。例えば、ネットワーク５を介して接続されたサーバに記憶されていても良い。この場合、スマートスピーカー５０の操作音声処理プログラムは、サーバにアクセスして解析結果に含まれる設定値を送信し、サーバからの応答として該設定値を満たす画像（スタンプ）を取得することができる。これに限定されずスタンプはクラウドサービス装置６０のＨＤＤ３４に記憶しても良い。

以上では、クラウドサービス装置６０からのフィードバックに基づいてスマートスピーカー５０が画像（スタンプ）を検索する場合について説明したが、これに限定されず、クラウドサービス装置６０で画像（スタンプ）を検索しても良い。この場合、レスポンス情報に、仕上がりイメージを示す画像（スタンプ）を含めてスマートスピーカー５０へ送信する。ここで、クラウドサービス装置６０（操作音声変換プログラム）が画像（スタンプ）を検索した上でスマートスピーカー５０へ送信しても良いが、他のプログラム（例えば操作音声変換プログラム）が検索及び送信しても良い。

スマートスピーカー５０は、受信した画像をタッチパネル２７に表示させる。このとき、クラウドサービス装置６０（管理プログラム）は、操作音声変換プログラムから取得した解析結果に含まれる「パラメータ」の値に一致する仕上がりイメージを示す画像（スタンプ）を検索する。クラウドサービス装置６０（管理プログラム）は、クラウドサービス装置６０が有するＨＤＤ４４、又はクラウドサービス装置６０がアクセス可能なサーバに問い合わせることで、イメージ画像を示す画像（スタンプ）を検索、取得することができる。

また、解析結果が「インテント:Copy_confirm」、「パラメータ:印刷面＝両面、部数＝２」である場合、仕上がりイメージを示す画像（スタンプ）としては、図１７のように表示することができる。図１７に示す例では、部数を示す数字である「２」を仕上がりイメージと共に表示する。

スマートスピーカー５０は、仕上がりイメージを示す画像（スタンプ）を表示することに加えて、「両面で２部コピーします。よろしいですか？」という音声フィードバックを行っても良いし、音声フィードバックは省略しても良い。また、仕上がりイメージを表示することに加えて、「両面で２部コピーします。よろしいですか？」というコメント表示しても良いし、コメント表示は省略しても良い。

なお、仕上がりイメージを示す画像（スタンプ）は、スマートスピーカー５０のタッチパネル２７によって選択可能に表示することができる。例えば、スマートスピーカー２は、過去のジョブ実行時に表示されたコメント及び画像を、スマートスピーカー２のＲＯＭ２３に記憶しておくことができる。

または、スマートスピーカー２は、過去のジョブ実行時に表示されたコメント及び画像を、クラウドサービス装置６０に記憶しておいても良い。操作音声処理プログラムが起動した場合、又はクラウドサービス装置６０のプログラムが呼び出されたタイミングで、操作音声変換プログラムが、又は管理プログラムが操作音声変換プログラムを介して、所定のタイミングで記憶情報をスマートスピーカー２へ送信しても良い。

これにより、操作音声処理プログラムが起動すると、図２８に示すように、過去のジョブ実行時に表示されたコメント及び画像を表示することができる。

ここで、過去のジョブ実行時にフィードバックされた画像を、ユーザが、スマートスピーカー５０のタッチパネル２７をタッチすることで選択した場合、携帯端末装置２（操作音声処理プログラム）は、該画像に対応する設定値を今回のジョブの設定値として反映させることができる。

また、携帯端末装置２（操作音声処理プログラム）は、画像が選択された場合、図２８に示すように選択された画像を（１７：００での表示のように）再度表示させるとともに、該画像に紐づくジョブの種類及び設定値に基づくジョブの実行指示をクラウドサービス装置６０を介してＭＦＰ１に対して指示する。

これにより、クラウドサービス装置６０（操作音声変換プログラム）は、「インテント:Copy_execute」、「パラメータ:カラー／モノクロ＝カラー、印刷面＝両面、開き方向＝上下開き、ステープル＝上二か所」の解釈結果を管理プログラムに対して送信することができる。

すなわち、スマートスピーカー５０は、画像に紐づけられた、ジョブの種類及びジョブの設定値の情報をクラウドサービス装置６０（操作音声変換プログラム）へ送信し、クラウドサービス装置６０（操作音声変換プログラム）は取得したジョブの種類及び設定値に基づいて解釈結果を生成して管理プログラムへ送信する。

管理プログラムは、解釈結果に基づいてジョブ実行命令をＭＦＰ１に対して送信する。ここで、ジョブの種類及びジョブの設定値の情報は、レスポンス情報に含まれるインテント及びパラメータであっても良いし、レスポンス情報に含まれるテキストデータであっても良い。インテント及びパラメータの場合は、操作音声変換プログラムはテキスト化及び解釈結果の生成を行う必要なく、取得したインテント及びパラメータを管理プログラムへ送信する。また、テキストデータの場合は、操作音声変換プログラムはテキスト化は行わずに解釈結果の生成のみを行って、生成した解釈結果を管理プログラムへ送信する。

この場合、スマートスピーカー５０は、仕上がりイメージを示す画像（スタンプ）と、該画像（スタンプ）に対応する設定値（つまり、クラウドサービス装置６０からフィードバックされた「インテント」及び「パラメータ」の値、又はレスポンス情報に含まれるテキストデータ）とをスマートスピーカー５０のＲＯＭ２３に紐づけて記憶しておく。

スマートスピーカー５０（操作音声処理プログラム）は、仕上がりイメージを示す画像（スタンプ）を、次回以降のジョブ実行時に使用できるように、スマートスピーカー５０に記憶しておく。つまり、スマートスピーカー５０（操作音声処理プログラム）は、スマートスピーカー５０のタッチパネル２７に表示される、仕上がりイメージを示す画像（スタンプ）を、保存するように指示する。

例えば、ユーザが仕上がりイメージを示す画像（スタンプ）を所定時間タッチし続けた場合（長押しした場合）、スマートスピーカー５０（操作音声処理プログラム）は、該画像を保存するか否かの選択を受け付ける画面を表示させる。スマートスピーカー５０（操作音声処理プログラム）は、ユーザが画像の保存を指示した場合、該画像をスマートスピーカー５０のＲＯＭ２３に記憶させる。このとき、スマートスピーカー５０（操作音声処理プログラム）は、画像（スタンプ）と、該画像（スタンプ）に対応する設定値とを紐づけてＲＯＭ２３に記憶する。

このように記憶した画像は、ユーザの指示によって呼び出すことができる。例えば、スマートスピーカー５０（操作音声処理プログラム）は、図２８の左下に示すアイコンＩ１をユーザがタッチすると、予め記憶した画像の一覧を表示する。スマートスピーカー５０（操作音声処理プログラム）は、該一覧から所望の画像をユーザが指定した場合、図２８に示すように該画像が（１７：００での表示のように）タッチパネル２７に表示する。これにより、該画像に対応する設定値を、今回のジョブ設定値として反映させることができる。

なお、以上では、スマートスピーカー５０側に画像（スタンプ）と、該画像に紐づくアクション及びパラメータを記憶する場合を例に説明したが、これに限定されず、クラウドサービス装置６０側に画像（スタンプ）と、該画像に紐づくインテント及びパラメータを記憶しても良い。これにより、過去のジョブ実行時にフィードバックされた画像を、ユーザがタッチパネル２７をタッチすることで選択した場合、該画像に対応する設定値を今回のジョブの設定値として反映させることができる。

スマートスピーカー５０のタッチパネル２７の画面上で画像（スタンプ）が選択された場合、スマートスピーカー５０はいずれの画像が選択されたかをクラウドサービス装置６０へ通知する。例えば、画像のＩＤ情報などをクラウドサービス装置６０へ通知しても良い。

クラウドサービス装置６０の操作音声変換プログラムは、いずれの画像が選択されたかを示す情報に基づいて、該画像に紐づくインテント及びパラメータ（又はテキストデータ）をクラウドサービス装置６０におけるＨＤＤ４４などの記憶部から読み出す。つまり、クラウドサービス装置６０の記憶部には、画像とインテント及びパラメータとが紐づいて管理されている。これにより、操作音声変換プログラムは、画像と紐づくインテント及びパラメータを管理プログラムに対して送信することができる。

最後に、上述の各実施の形態は、一例として提示したものであり、本発明の範囲を限定することは意図していない。この新規な実施の形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことも可能である。

このような各実施の形態及び各実施の形態の変形は、発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

なお、上記実施の形態では、本発明の画像形成装置を、コピー機能、プリンタ機能、スキャナ機能およびファクシミリ機能のうち少なくとも２つの機能を有する複合機に適用した例を挙げて説明するが、複写機、プリンタ、スキャナ装置、ファクシミリ装置等の画像形成装置であればいずれにも適用することができる。

２、５０情報処理装置
１外部装置
５１、２１１取得部
５２、２１２出力部
５５、２１３報知部
６２音声認識部

特開２０１４−２０３０２４号公報

Claims

情報処理装置及び外部装置を含む情報処理システムにおいて、
前記外部装置を操作するための設定指示を含む音声情報を取得する取得部と、
前記音声情報を認識する音声認識部と、
前記音声認識部による前記音声情報の認識結果に基づく操作情報を前記情報処理装置の画面にて報知する報知部と、
前記操作情報を前記外部装置に出力する出力部と、
を備え、
前記報知部は、前記操作情報にかかる設定に基づく仕上がりイメージを示す仕上がり画像を前記情報処理装置の画面に表示する、
ことを特徴とする情報処理システム。
前記報知部は、前記仕上がり画像に対する所定の操作があった場合、該仕上がり画像とともに対応する設定を記憶する、
ことを特徴とする請求項１に記載の情報処理システム。
前記報知部は、記憶された前記仕上がり画像の一覧を前記情報処理装置の画面に表示する、
ことを特徴とする請求項２に記載の情報処理システム。
情報処理装置を制御するコンピュータを、
外部装置を操作するための設定指示を含む音声情報を取得する取得部と、
前記音声情報を認識する音声認識部による前記音声情報の認識結果に基づく操作情報を前記情報処理装置の画面にて報知する報知部と、
前記操作情報を前記外部装置に出力する出力部と、
として機能させ、
前記報知部は、前記操作情報にかかる設定に基づく仕上がりイメージを示す仕上がり画像を前記情報処理装置の画面に表示する、
ことを特徴とするプログラム。
情報処理装置及び外部装置を含む情報処理システムにおける情報処理方法であって、
前記外部装置を操作するための設定指示を含む音声情報を取得する取得ステップと、
前記音声情報を認識する音声認識ステップと、
前記音声認識ステップによる前記音声情報の認識結果に基づく操作情報を前記情報処理装置の画面にて報知する報知ステップと、
前記操作情報を前記外部装置に出力する出力ステップと、
を含み、
前記報知ステップは、前記操作情報にかかる設定に基づく仕上がりイメージを示す仕上がり画像を前記情報処理装置の画面に表示する、
ことを特徴とする情報処理方法。