JP7234612B2

JP7234612B2 - 情報処理システム及び情報処理方法

Info

Publication number: JP7234612B2
Application number: JP2018226147A
Authority: JP
Inventors: 裕中村
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2023-03-08
Anticipated expiration: 2038-11-30
Also published as: US20200175982A1; JP2020087385A; US11211069B2

Description

本発明は、情報処理システム及び情報処理方法に関する。

今日において、音声により機器操作を行うＡＩ音声アシスタント（ＡＩ：Artificial Intelligence）が知られている。また、音声によって操作可能なスマート家電も知られており、音声操作の分野は今後も更なる成長が見込まれている。

また、特許文献１（特開２００３－０５１８８７号公報）には、携帯端末で取得した音声データをサーバ装置へ送信し、サーバ装置で音声データを制御命令に変換して機器へ送信する制御システムが開示されている。

ここで、特許文献１の携帯端末のような音声入力を行う音声入力機器と、画像形成装置等の制御対象機器とをサーバ装置で関連付けてデータベース化して管理することを考える。この場合、サーバ装置は、音声入力機器に関連付けされている制御対象機器をデータベースから検出し、音声入力された情報を送信することで、制御対象機器の音声操作を可能とする。

しかし、サーバ装置にインストールされたサードベンダの音声操作アプリケーションは、データベースを参照できなければ、サードベンダの音声入力機器に関連付けされている制御対象機器を認識できないため、サードベンダの音声入力機器から音声入力された情報を、制御対象機器に送信することが困難となる。このため、サードベンダによる制御対象機器の音声操作アプリケーションの開発が困難となっていた。

なお、このような問題は、サードベンダの音声操作アプリケーションがデータベースを参照可能とすれば解決するが、サードベンダの音声操作アプリケーションでシステム側のデータベースを参照可能とすると、セキュリティの問題を生ずる。

本発明は、上述の課題に鑑みてなされたものであり、システム側のセキュリティを保持しつつ、サードベンダのアプリケーションと制御対象機器との間の通信を可能として、サードベンダによる制御対象機器の音声操作アプリケーションの開発を可能とすることができるような情報処理システム及び情報処理方法の提供を目的とする。

上述した課題を解決し、目的を達成するために、本発明は、音声入出力装置から取得した音声情報を認識する操作音声変換手段と、前記操作音声変換手段の認識結果に基づいて、前記音声入出力装置のデバイスＩＤと前記音声情報のテキストデータとを含む第２の処理命令を生成する情報処理機器用の音声アシスタント手段と、前記第２の処理命令に基づいて、前記デバイスＩＤに関連付けられる前記情報処理機器に対してデータ処理の実行を指示する機器管理サーバと、サードベンダが開発したものであって、前記操作音声変換手段の認識結果に基づいて、前記情報処理機器用の音声アシスタント手段からの前記第２の処理命令に含まれる前記音声情報のテキストデータの解釈結果である前記音声情報のテキストデータと前記音声入出力装置のデバイスＩＤとを含む第１の処理命令を生成するサードベンダ用の音声アシスタント手段と、前記第１の処理命令に基づいて、前記デバイスＩＤに関連付けられる情報処理機器で処理する処理データを生成するサードベンダ用サーバと、を備え、前記サードベンダ用サーバは、前記機器管理サーバに対して前記処理データの処理の実行を指示し、前記機器管理サーバは、前記サードベンダ用サーバから実行を指示された前記処理データを前記デバイスＩＤに関連付けられる前記情報処理機器に対して送信することを特徴とする。

本発明によれば、システム側のセキュリティを保持しつつ、サードベンダのアプリケーションと制御対象機器との間の通信を可能として、サードベンダによる制御対象機器の音声操作アプリケーションの開発を可能とすることができるという効果を奏する。

図１は、第１の実施の形態の音声操作システムのシステム構成図である。図２は、第１の実施の形態の音声操作システムに設けられているＭＦＰのハードウェア構成図である。図３は、第１の実施の形態の音声操作システムに設けられている携帯端末のハードウェア構成図である。図４は、第１の実施の形態の音声操作システムに設けられている音声認識サーバ装置のハードウェア構成図である。図５は、第１の実施の形態の音声操作システムに設けられているＡＩアシスタントサーバ装置のハードウェア構成図である。図６は、第１の実施の形態の音声操作システムに設けられている携帯端末の機能ブロック図である。図７は、第１の実施の形態の音声操作システムに設けられている音声認識サーバ装置の機能ブロック図である。図８は、第１の実施の形態の音声操作システムに設けられているＡＩアシスタントサーバ装置の機能ブロック図である。図９は、第１の実施の形態の音声操作システムにおける音声操作の全体的な動作の流れを示すシーケンス図である。図１０は、第１の実施の形態の音声操作システムにおいて、ユーザの入力音声の解釈に用いられるエンティティ情報の一例を示す図である。図１１は、第１の実施の形態の音声操作システムにおいて、発話フレーズに基づいて登録されるエンティティ情報を示す図である。図１２は、第１の実施の形態の音声操作システムにおいて、対話式の入力操作の流れを示す図である。図１３は、第１の実施の形態の音声操作システムにおいて、対話式の入力操作の前半の流れを示すシーケンス図である。図１４は、第１の実施の形態の音声操作システムにおいて、対話式の入力操作の後半の流れを示すシーケンス図である。図１５は、第１の実施の形態の音声操作システムの、エラー発生時における対話式の入力操作の流れを示す図である。図１６は、第１の実施の形態の音声操作システムにおける、エラー発生時の対話式の入力操作の流れを示すシーケンス図である。図１７は、第１の実施の形態の音声操作システムにおいて、対話式の入力操作により、ＭＦＰの機器能力に応じたスキャンを実行させる動作の前半の流れを示すシーケンス図である。図１８は、第１の実施の形態の音声操作システムにおいて、対話式の入力操作により、ＭＦＰの機器能力に応じたスキャンを実行させる動作の後半の流れを示すシーケンス図である。図１９は、第１の実施の形態の音声操作システムにおいて、対話式の入力操作により、アドレス帳から指定したユーザに対してスキャンした画像を送信する動作の前半の流れを示すシーケンス図である。図２０は、第１の実施の形態の音声操作システムにおいて、対話式の入力操作により、アドレス帳から指定したユーザに対してスキャンした画像を送信する動作の後半の流れを示すシーケンス図である。図２１は、第１の実施の形態の音声操作システムにおいて、対話式の入力操作により、メモリから指定したファイルを印刷する動作の前半の流れを示すシーケンス図である。図２２は、第１の実施の形態の音声操作システムにおいて、対話式の入力操作により、メモリから指定したファイルを印刷する動作の後半の流れを示すシーケンス図である。図２３は、第２の実施の形態の音声操作システムのシステム構成図である。図２４は、スマートスピーカのＣＰＵが操作音声処理プログラムを実行することで実現される各機能を示す図である。図２５は、第２の実施の形態の音声操作システムにおける音声入力操作の全体的な動作を説明するための図である。図２６は、音声アシスタントプログラムの起動動作の流れを示すシーケンス図である。図２７は、コピー機能を指示した際の動作の流れを示すシーケンス図である。図２８は、部数設定動作の流れを示すシーケンス図である。図２９は、ＭＦＰに対するジョブの実行指示動作の流れを示すシーケンス図である。図３０は、このようなジョブの実行動作及びエラー発生時の対話動作の流れを示すシーケンス図である。図３１は、ユーザから指示されたジョブに必要な機器能力を、ＭＦＰが有しているか否かの判定を行うまでの動作の流れを示すシーケンス図である。図３２は、ＭＦＰの機器能力で、ジョブの実行が可能である場合、及び、ジョブの実行が困難である場合の動作の流れを示すシーケンス図である。図３３は、ユーザにより指定されたファイルを検索するまでの動作を示すシーケンス図である。図３４は、ユーザにより指定されたファイルを印刷するまでの動作を示すシーケンス図である。図３５は、第１の実施の形態及び第２の実施の形態における音声操作の流れを概略的に示す図である。図３６は、第３の実施の形態の音声操作の概要を示す図である。図３７は、第３の実施の形態の音声操作システムのシステム構成を示す図である。図３８は、間接操作制御の第１の手法の流れを示すシーケンス図である。図３９は、間接操作制御の第２の手法の流れを示すシーケンス図である。図４０は、ＵＲＬ制御の第１の手法の流れを示すシーケンス図である。図４１は、ＵＲＬ制御の第２の手法の流れを示すシーケンス図である。

以下、情報処理システム及び情報処理方法の適用例となる音声操作システムの説明をする。

（第１の実施の形態）
（システム構成）
図１は、第１の実施の形態の音声操作システムのシステム構成図である。この図１に示すように、第１の実施の形態の音声操作システムは、外部装置の一例である複合機（ＭＦＰ：Multifunction Peripheral）１、スマートホン又はタブレット端末等の携帯端末２（情報処理装置の一例）、音声認識サーバ装置３及びＡＩアシスタントサーバ装置４を、例えばＬＡＮ（Local Area Network）等の所定のネットワーク５を介して相互に接続することで形成されている。ただし、外部装置は複合機には限定されず、電子黒板やプロジェクタなどのオフィス機器を含む、種々の電子機器であっても良い。

携帯端末２は、ＭＦＰ１を音声操作するための、ユーザからの音声入力を受け付ける。また、受け付けた操作を、ユーザへ音声でフィードバックする。また、携帯端末２は、音声認識サーバ装置３及びＡＩアシスタントサーバ装置４の間のデータ通信（後述するテキストデータの通信）を中継する。音声認識サーバ装置３は、携帯端末２から受信した音声データを分析し、テキストデータに変換する。なお、音声認識サーバ装置３は、第１サーバ装置に相当する。ＡＩアシスタントサーバ装置４は、テキストデータを分析し、事前登録されているユーザの意図（ＭＦＰ１のジョブ実行命令）に変換して携帯端末２に送信する。

なお、ＡＩアシスタントサーバ装置４は、第２サーバ装置に相当する。ＭＦＰ１は、携帯端末２から送信されるジョブ実行命令を実行する。なお、携帯端末２とＭＦＰ１との通信は、無線通信であっても有線通信であっても良い。つまり、携帯端末２は、ＭＦＰ１に固定的に接続される操作端末であっても良い。

また、この例では、音声認識サーバ装置３及びＡＩアシスタントサーバ装置４の、２つのサーバ装置が設けられていることとしたが、各サーバ装置３、４を物理的に一つのサーバ装置としてもよい。または、各サーバ装置３、４を、さらに複数のサーバ装置で実現してもよい。

（ＭＦＰのハードウェア構成）
ＭＦＰ１は、例えばプリンタ機能及びスキャナ機能等の複数の機能を備えている。すなわち、ＭＦＰ１は、図２に示すように、コントローラ７、通信部１５、操作部１６、スキャナエンジン１７及びプリンタエンジン１８を有している。

コントローラ７は、ＣＰＵ１０、ＡＳＩＣ（Application Specific Integrated Circuit）１１、メモリ１２、ＨＤＤ（Hard Disk Drive）１３及びタイマ１４を有する。ＣＰＵ１０～タイマ１４は、それぞれバスラインを介して通信可能なように相互に接続されている。

通信部１５は、ネットワーク５に接続されており、後述するように、例えばスキャン指示又は印刷指示等の、携帯端末２を用いて音声入力されたジョブ実行命令を取得する。

操作部１６は、液晶表示部（ＬＣＤ：Liquid Crystal Display）とタッチセンサとが一体的に形成された、いわゆるタッチパネルとなっている。操作者は、操作部１６を用いて所望の動作の実行命令を行う場合、操作部１６に表示された操作ボタン（ソフトウェアキー）を接触操作することで、所望の動作を指定する。

スキャナエンジン１７は、スキャナユニットを制御して、光学的に原稿の読み取りを行う。プリンタエンジン１８は、画像書き込みユニットを制御して、例えば転写紙等に画像を印刷する。ＣＰＵ１０は、画像形成装置を統括的に制御する。ＡＳＩＣ１１は、いわゆる大規模集積回路（ＬＳＩ：Large-Scale Integration）となっており、スキャナエンジン１７及びプリンタエンジン１８で処理する画像に必要な各種の画像処理等を行う。携帯端末装置２から取得したジョブ実行命令を実行する手段であるスキャナエンジン１７及びプリンタエンジン１８は、機能部に相当する。

メモリ１２は、ＣＰＵ１０が実行する各種アプリケーション及びアプリケーションを実行する際に用いられる種々のデータが記憶されている。ＨＤＤ１３は、画像データ、各種のプログラム、フォントデータ、及び、各種のファイル等を記憶する。なお、ＨＤＤ１３の代わり又はＨＤＤ１３と共に、ＳＳＤ（Solid State Drive）を設けてもよい。

（携帯端末のハードウェア構成）
携帯端末２は、図３に示すようにＣＰＵ２１、ＲＡＭ２２、ＲＯＭ２３、インタフェース部（Ｉ／Ｆ部）２４及び通信部２５を、バスライン２６を介して相互に接続して形成されている。ＲＡＭ２２には、電子メール、スキャンした画像等の宛先となるユーザの電子メールアドレス等が記憶されたアドレス帳が記憶されている。また、ＲＡＭ２２には、印刷を行う画像データであるファイル等が記憶されている。

ＲＯＭ２３には、操作音声処理プログラムが記憶されている。ＣＰＵ２１は、この操作音声処理プログラムを実行することで、ＭＦＰ１の音声入力操作を可能とする。

Ｉ／Ｆ部２４には、タッチパネル２７、スピーカ部２８及びマイクロホン部２９が接続されている。マイクロホン部２９は、通話音声の他、ＭＦＰ１に対するジョブの実行命令の入力音声を集音（取得）する。入力音声は、通信部２５を介して音声認識サーバ装置３に送信され、テキストデータに変換される。

（音声認識サーバ装置のハードウェア構成）
音声認識サーバ装置３は、図４に示すように、ＣＰＵ３１、ＲＡＭ３２、ＲＯＭ３３、ＨＤＤ（Hard Disk Drive）３４、インタフェース部（Ｉ／Ｆ部）３５及び通信部３６を、バスライン３７を介して相互に接続して形成されている。Ｉ／Ｆ部３５には、表示部３８及び操作部３９が接続されている。ＨＤＤ３４には、音声データをテキストデータに変換するための操作音声変換プログラムが記憶されている。ＣＰＵ３１は、操作音声変換プログラムを実行することで、携帯端末２から送信された音声データをテキストデータに変換して、携帯端末２に返信する。

（ＡＩアシスタントサーバ装置のハードウェア構成）
ＡＩアシスタントサーバ装置４は、図５に示すように、ＣＰＵ４１、ＲＡＭ４２、ＲＯＭ４３、ＨＤＤ４４、インタフェース部（Ｉ／Ｆ部）４５及び通信部４６を、バスライン４７を介して相互に接続して形成されている。Ｉ／Ｆ部４５には、表示部４８及び操作部４９が接続されている。ＨＤＤ４４には、ユーザから指示されたジョブを解釈するための操作解釈プログラムが記憶されている。ＣＰＵ４１は、この操作解釈プログラムを実行することで、音声認識サーバ装置３で生成（変換）されたテキストデータから、ユーザから指示されたジョブを解釈する。この解釈結果は、携帯端末２に送信される。携帯端末は、解釈結果をジョブ命令に変換してＭＦＰ１に供給する。これにより、携帯端末２を介して入力した音声により、ＭＦＰ１を操作できる。

（携帯端末の機能）
次に、携帯端末２のＣＰＵ２１は、ＲＯＭ２３に記憶されている操作音声処理プログラムを実行することで、図６に示すように取得部５１、通信制御部５２、フィードバック部５５、処理能力取得部５６、実行判定部５７及び検索部５８として機能する。

取得部５１は、取得部及び第１取得部の一例であり、マイクロホン部２９を介して集音された、ＭＦＰ１を音声操作するためのユーザの指示音声を取得する。通信制御部５２は、出力部、第１出力部、第２出力部、第３出力部、第２取得部及び第３取得部の一例であり、携帯端末２とＭＦＰ１との間、携帯端末２と音声認識サーバ装置３との間、及び、携帯端末２とＡＩアシスタントサーバ装置４との間の通信をそれぞれ制御する。解釈結果変換部５３は、変換部の一例であり、ＡＩアシスタントサーバ装置４でユーザの指示音声のテキストデータの解釈結果を、ＭＦＰ１に対するジョブの実行命令に変換する。実行指示部５４は、ジョブの実行命令をＭＦＰ１に送信して、ジョブの実行を指示する。

フィードバック部５５は、修正部の一例であり、対話型の音声入力操作を実現すべく、例えば不足するデータを補う入力を促す音声をフィードバックし、又は、入力を確認する音声のフィードバック等を行う。処理能力取得部５６は、処理能力検出部の一例であり、ＭＦＰ１から、例えば処理可能な最大画素数等の処理能力を取得する。実行判定部５７は、ＭＦＰ１の能力と、ユーザから指定されたジョブとを比較することで、ユーザから指定されたジョブをＭＦＰ１で実行可能か否か判定する。検索部５８は、印刷情報検出部及びアドレス検出部の一例であり、ユーザから音声指示された宛先又はファイル等をＲＡＭ２２等のメモリから検索する。

なお、この例では、取得部５１～検索部５８をソフトウェアで実現することとしたが、これらのうち、一部又は全部を、ＩＣ（Integrated Circuit）等のハードウェアで実現してもよい。また、取得部５１～検索部５８が実現する機能は、操作音声処理プログラム単体で実現しても良いし、他のプログラムに処理の一部を実行させる、又は他のプログラムを用いて間接的に処理を実行させても良い。例えば、ＭＦＰ１の処理能力などの情報の取得は他のプログラムが実行し、処理能力取得部５６は他のプログラムが取得した情報を取得することで、間接的にＭＦＰ１が有する情報を取得することができる。

（音声認識サーバ装置の機能）
次に、音声認識サーバ装置３のＣＰＵ３１は、ＨＤＤ３４に記憶されている操作音声変換プログラムを実行することで、図７に示すように取得部６１、テキスト変換部６２及び通信制御部６３として機能する。取得部６１は、携帯端末２から送信される、ユーザにより入力された音声データを取得する。テキスト変換部６２は、音声認識部の一例であり、ユーザにより入力された音声データをテキストデータに変換する。通信制御部６３は、ユーザにより入力された音声データの受信、及び、携帯端末２に対するテキストデータの送信等を行うように、通信部３６を通信制御する。

なお、この例では、取得部６１～通信制御部６３をソフトウェアで実現することとしたが、これらのうち、一部又は全部を、ＩＣ（Integrated Circuit）等のハードウェアで実現してもよい。また、取得部６１～通信制御部６３が実現する機能は、操作音声変換プログラム単体で実現しても良いし、他のプログラムに処理の一部を実行させる、又は他のプログラムを用いて間接的に処理を実行させても良い。

（ＡＩアシスタントサーバ装置の機能）
次に、ＡＩアシスタントサーバ装置４のＣＰＵ４１は、ＨＤＤ４４に記憶されている操作解釈プログラムを実行することで、図８に示すように取得部７１、解釈部７２及び通信制御部７３として機能する。取得部７１は、携帯端末２から送信される、ユーザにより入力された音声データのテキストデータを取得する。解釈部７２は、抽出部の一例であり、テキストデータに基づいて、ユーザからの操作指示を解釈する。通信制御部７３は、ユーザの携帯端末２に対する解釈結果の送信、及び、ユーザにより入力された音声データのテキストデータの受信等を行うように通信部４６を通信制御する。

なお、この例では、取得部７１～通信制御部７３をソフトウェアで実現することとしたが、これらのうち、一部又は全部を、ＩＣ（Integrated Circuit）等のハードウェアで実現してもよい。また、取得部７１～通信制御部７３が実現する機能は、操作解釈プログラム単体で実現しても良いし、他のプログラムに処理の一部を実行させる、又は他のプログラムを用いて間接的に処理を実行させても良い。

また、操作音声処理プログラム、操作音声変換プログラム及び操作解釈プログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ－ＲＯＭ、フレキシブルディスク（ＦＤ）などのコンピュータ装置で読み取り可能な記録媒体に記録して提供してもよい。また、ＣＤ－Ｒ、ＤＶＤ（Digital Versatile Disk）、ブルーレイディスク（登録商標）、半導体メモリなどのコンピュータ装置で読み取り可能な記録媒体に記録して提供してもよい。また、インターネット等のネットワーク経由でインストールするかたちで提供してもよいし、機器内のＲＯＭ等に予め組み込んで提供してもよい。

（音声入力操作の全体的な動作）
図９に、第１の実施の形態の音声操作システムにおける音声入力操作の全体的な動作を説明する。この図９の例は、ＭＦＰ１の両面コピー機能を、携帯端末２を介して音声入力操作する例である。この場合、ユーザは、携帯端末の操作音声処理プログラムを起動し、例えば「両面でコピー」と発声する。このユーザの音声は、携帯端末２のマイクロホン部２９で集音され、取得部５１により取得される（ステップＳ１）。携帯端末２の通信制御部５２は、この「両面でコピー」との音声データを音声認識サーバ装置３に送信し、テキスト変換要求を行うように通信部２５を制御する（ステップＳ２）。

音声認識サーバ装置３のテキスト変換部６２は、「両面でコピー」との音声データをテキストデータに変換処理する。そして、通信制御部６３は、変換処理されたテキストデータを、携帯端末２に送信するように通信部３６を制御する（ステップＳ３）。携帯端末２の通信制御部５２は、「両面でコピー」とのテキストデータを、ＡＩアシスタントサーバ装置４に送信する（ステップＳ４）。

この例の場合、ＡＩアシスタントサーバ装置４の解釈部７２は、ＭＦＰ１に実行を要求する動作は「コピーである（Action:Copy_Execcute）」と解釈し、「印刷面は両面である（印刷面＝両面）」と解釈する（ステップＳ５）。このように、解釈部７２は、テキストデータに基づいて、ユーザから指定されたジョブの種別（アクション）及び内容（パラメータ）を示す解釈結果を生成する。この解釈結果は、ＡＩアシスタントサーバ装置４の通信制御部６３により、通信部４６を介して携帯端末２に送信される（ステップＳ６）。

携帯端末２の解釈結果変換部５３は、ＡＩアシスタントサーバ装置４から受信した解釈結果を、ＭＦＰ１のジョブ命令に変換処理する（ステップＳ７）。以下の表１に、解釈結果と、解釈結果から変換処理されたジョブ命令の一例を示す。なお、解釈結果変換部５３は、解釈結果をジョブ命令に変換するために、表１に相当する情報を携帯端末装置２の記憶部に記憶し、参照できる構成としても良い。

この表１の例の場合、「ＣＯＰＹ＿ＥＸＥＣＵＴＥ」、「ＳＣＡＮ＿ＥＸＥＣＵＴＥ」、「ＰＲＩＮＴ＿ＥＸＥＣＵＴＥ」及び「ＦＡＸ＿ＥＸＥＣＵＴＥ」が、アクション（Ａｃｔｉｏｎ）の一例として示されている。また、「印刷面」及び「部数」等がパラメータ（Ｐａｒａｍｅｔｅｒ）の一例として示されている。なお、パラメータとしては、ジョブの設定値として指定可能な全てのパラメータが含まれる。

携帯端末２の解釈結果変換部５３は、「ＣＯＰＹ＿ＥＸＥＣＵＴＥ」の解釈結果を、「コピージョブの実行」との、ＭＦＰ１のジョブ命令に変換処理する。同様に、解釈結果変換部５３は、「ＳＣＡＮ＿ＥＸＥＣＵＴＥ」の解釈結果を、「スキャンジョブの実行」との、ＭＦＰ１のジョブ命令に変換処理する。同様に、解釈結果変換部５３は、「ＰＲＩＮＴ＿ＥＸＥＣＵＴＥ」の解釈結果を、「印刷ジョブの実行」との、ＭＦＰ１のジョブ命令に変換処理する。同様に、解釈結果変換部５３は、「ＦＡＸ＿ＥＸＥＣＵＴＥ」の解釈結果を、「ＦＡＸジョブの実行」との、ＭＦＰ１のジョブ命令に変換処理する。

また、携帯端末２の解釈結果変換部５３は、解釈結果に「印刷面」のパラメータが含まれている場合、「印刷面の設定値の変更」を行うＭＦＰ１のジョブ命令を形成する。同様に、解釈結果変換部５３は、解釈結果に「部数」のパラメータが含まれている場合、「部数の設定値の変更」を行うＭＦＰ１のジョブ命令を形成する。

すなわち、携帯端末２の解釈結果変換部５３は、解釈結果の「Ａｃｔｉｏｎ」に含まれる情報で、ＭＦＰ１に実行させるジョブの種類を判断し、「Ｐａｒａｍｅｔｅｒ」に含まれる値を、ジョブの設定値と判断して、解釈結果をジョブ命令に変換処理する。

携帯端末２の通信制御部５２は、このようにして形成されたジョブ命令を、ＭＦＰ１に送信するように通信部２５を制御する（ステップＳ８）。この例の場合、「コピージョブ実行（印刷面＝両面）」のジョブ命令がＭＦＰ１に送信される。これにより、ＭＦＰ１で両面印刷が実行される。

（ＡＩアシスタントサーバ装置における解釈動作の詳細）
ＡＩアシスタントサーバ装置４のＨＤＤ４４のＡＩ記憶部４０には、ユーザが音声入力により指示しているジョブを解釈するためＡＩアシスタントサービス情報が記憶されている。このＡＩアシスタントサービス情報は、エンティティ（Ｅｎｔｉｔｙ）情報、アクション（Ａｃｔｉｏｎ）情報及びインテント（Ｉｎｔｅｎｔ）情報を含んで構成されている。エンティティ情報は、ジョブのパラメータと自然言語を関連付ける情報である。１つのパラメータに複数の類義語が登録可能となっている。アクション情報は、ジョブの種類を示す情報である。インテント情報は、ユーザの発話フレーズ（自然言語）とエンティティ情報、及び、ユーザの発話フレーズ（自然言語）とアクション情報を、それぞれ関連付ける情報である。インテント情報により、パラメータの発話順序又はニュアンスが多少変わっても、正しい解釈が可能となっている。また、インテント情報により、入力された内容に基づいてレスポンスのテキスト（解釈結果）を生成可能となっている。

図１０に、エンティティ情報の一例を示す。この図１０は、印刷色（ＰｒｉｎｔＣｏｌｏｒ）に対応するエンティティ情報である。この図１０において、「ＰｒｉｎｔＣｏｌｏｒ」の文字は、エンティティ名を示している。また、図１０において、左の列の「ａｕｔｏ＿ｃｏｌｏｒ」、「ｍｏｎｏｃｈｒｏｍｅ」、「ｃｏｌｏｒ」・・・等の文字は、パラメータ名を示している。また、図１０において、右の列の「ａｕｔｏ＿ｃｏｌｏｒ」、「ｍｏｎｏｃｈｒｏｍｅ，ｂｌａｃｋａｎｄｗｈｉｔｅ」、「ｃｏｌｏｒ，ｆｕｌｌｃｏｌｏｒ」・・・等の文字は、類義語を示している。

この図１０からわかるように、エンティティ情報としては、パラメータ及び類義語が関連付けられて記憶されている。パラメータと共に、類義語を登録することで、例えばモノクロでのコピーを指示する場合に、「Please copy by black and white」と発話しても、「Please copy by monochrome」と発話しても、パラメータの設定を可能とすることができる。

図１１（ａ）は、ユーザの発話フレーズの例、図１１（ｂ）は、アクション名、図１１（ｃ）は、エンティティ情報を示している。この図１１（ａ）～図１１（ｃ）に示すように、ＡＩアシスタントサーバ装置４が備える表示部４８に表示される画面上において、操作部４９を操作することで、ユーザの発話をドラッグする。または、ネットワークを介してＡＩアシスタントサーバ装置４にアクセスした装置の表示部に表示される画面上において、この装置の操作部を操作することで、ユーザの発話をドラッグする。

これにより、関連付け対象となるエンティティ情報を選択できるようになっている。また、選択したエンティティ情報でバリュー（ＶＡＬＵＥ）を設定すると、応答で入るパラメータが変更される。例えば、「Ｐｌｅａｓｅｃｏｐｙｂｙｂｌａｃｋａｎｄｗｈｉｔｅ」と発話した場合、バリューを「ＳｐｒｉｎｔＣｏｌｏｒ」とすると、戻り値として「ｐｒｉｎｔＣｏｌｏｒ＝ｍｏｎｏｃｈｒｏｍｅ」が返る。これに対して、バリューを「ＳｐｒｉｎｔＣｏｌｏｒ．ｏｒｉｇｉｎａｌ」とすると、戻り値として「ｐｒｉｎｔＣｏｌｏｒ＝ｂｌａｃｋａｎｄｗｈｉｔｅ」が返る。ここで、バリューを「ＳｐｒｉｎｔＣｏｌｏｒ．ｏｒｉｇｉｎａｌ」とすると、ユーザの発話内容がそのまま応答のパラメータとして返すことができる。

（対話型動作）
次に、第１の実施の形態の音声操作システムでは、ユーザからの入力内容に基づいて、システムが応答する対話型システムを実現している。第１の実施の形態の音声操作システムでは、対話に必要な定型文を応答する以外に、ＭＦＰ１の操作特有の応答として、「入力不足フィードバック」及び「入力確認フィードバック」の、２種類の応答を行うことで、対話型ＭＦＰ操作システムを実現している。

「入力不足フィードバック」は、ジョブを実行するために必要な情報が揃っていない場合に出力される応答である。ユーザの入力結果を聞き取れなかった場合、又は、必須パラメータが不足している場合に出力される。つまり、必須パラメータ以外のパラメータについては、指示されていない場合であっても入力不足フィードバックを行う必要はない。また、パラメータ以外にも、コピー機能又はスキャン機能等のうち、利用する機能を確認する処理を含んでも良い。

例えば、携帯端末装置２が通信接続中の外部装置の種類に応じて、ユーザに確認する機能、及びパラメータを変更しても良い。この場合、処理能力取得部５６が外部装置との通信が確立した後の所定のタイミングで外部装置の種類や機能を示す情報を取得し、取得した情報に基づいてユーザに確認する機能及びパラメータを例えばフィードバック部５５が決定してもよい。例えば、外部装置の種類がＭＦＰ１である場合には、コピー、プリント、スキャン、ＦＡＸなどのＭＰＦ１が有する機能をユーザに確認でき、更に、コピー、プリント、スキャン、ＦＡＸのうちＭＦＰ１が有している機能についてのみ、いずれの機能を使用するかをユーザに確認しても良い。

「入力確認フィードバック」は、ジョブを実行するために必要な情報が揃った場合に出力される応答である。つまり、入力確認フィードバックは、全ての必須パラメータについて指示された場合に行われる。また、入力確認フィードバックは、現在の設定値でジョブを実行するか、又は、設定値を変更するかの選択をユーザに促すために行う。なお、現在の設定値でジョブを実行するか否かを確認するために、ユーザにより指示された全てのパラメータ（必須パラメータか必須パラメータ以外のパラメータかに関わらず）を音声出力することで、ユーザに確認することができる。

このような各フィードバックを含めた、システムとユーザの対話型操作の例が図１２である。この図１２の例は、モノクロ画像を両面で２部のコピーを行うようにＭＦＰ１を操作する例である。また、この例の場合、部数（＝２部）が必須パラメータとなっている。なお、必須パラメータは部数に限定されず、モノクロ、カラー、又は、用紙サイズ等、複数のパラメータを含めても良い。

なお、パラメータのうち、いずれのパラメータが必須パラメータであるかは、ＡＩアシスタントサーバ装置４が有する記憶部に予め記憶しておくことがでる。また、ユーザが操作部４９を操作によって、又はネットワークを介してＡＩアシスタントサーバ装置４に対してアクセスすることで、いずれのパラメータが必須パラメータであるかは適宜変更することができても良い。

図１２の例は、斜線で示す発話がユーザの発話であり、斜線の無い発話がシステムの発話である。まず、システムが、「コピーしますか？スキャンしますか？」との音声出力を行うと、ユーザは、「コピー」と発音してコピー機能の利用を指示する。システム側では、ユーザから指定された「コピー」の設定値の入力を求めるべく、「設定値を入力してください」との音声出力を行う。

これに対して、ユーザは、「モノクロ」と発話したとする。この例の場合、上述のようにコピー部数が必須のパラメータとなっている。このため、システム側では、「部数を指定してください」とのように、コピー部数の入力を求める。これが「入力不足フィードバック」の例である。このような「入力不足フィードバック」に対して、ユーザは、「２部」等のように、コピー部数を指定する。これにより、入力不足が解消するため、システム側は、「モノクロ、２部でコピーします。よろしいですか？」との応答を行い、コピー開始の指示を促す。これが、ジョブを実行するために必要な情報が揃った場合に出力される「入力確認フィードバック」である。

なお、システム側は、「設定値を入力してください」との音声出力に対して、ユーザから「モノクロ、２部で」との応答があった場合、ジョブを実行するために必要な情報が揃っているため、上述の「モノクロ、２部でコピーします。よろしいですか？」との「入力確認フィードバック」を行う。

次に、片面コピーから両面コピーにコピー形態を変更する場合、ユーザは、「両面に変更して」との音声入力を行う。この場合、ジョブを実行するために必要な情報は揃っているため、システム側は、「モノクロ、２部、両面でコピーします。よろしいですか？」との「入力確認フィードバック」を行う。

そして、「モノクロ、２部でコピーします。よろしいですか？」又は「モノクロ、２部、両面でコピーします。よろしいですか？」との「入力確認フィードバック」に対して、ユーザが「はい」と応答すると、システム側は、「ジョブを実行します」との応答を行い、ユーザから指示されたジョブを実行する。

（対話型動作の流れ）
図１３及び図１４は、このような対話型動作の流れを示すシーケンス図である。図１３のシーケンス図は、対話型動作の前半の動作の流れを示しており、図１４のシーケンス図は、対話型動作の後半の動作の流れを示している。

まず、ユーザにより携帯端末２の操作音声処理プログラムが起動操作されると（ステップＳ１１）、フィードバック部５５は、「コピーしますか？スキャンしますか？」との音声フィードバックを行う（ステップＳ１２）。ユーザが、「コピー」と発音すると（ステップＳ１３）、携帯端末２の通信制御部５２は、音声認識サーバ装置３に対して、「コピー」との音声データを送信し、テキスト変換要求を行う（ステップＳ１４）。音声認識サーバ装置３のテキスト変換部６２は、「コピー」との音声データをテキストデータに変換処理し、携帯端末２に送信する（ステップＳ１５）。

携帯端末２の取得部５１は、このテキストデータを取得する。また、携帯端末２の通信制御部５２は、取得したテキストデータをＡＩアシスタントサーバ装置４に送信する（ステップＳ１６）。ＡＩアシスタントサーバ装置４の解釈部７２は、図１０及び図１１を用いて説明したように、受信したテキストデータで示されるユーザの発話フレーズに基づいて、アクション及びパラメータを解釈する。この例の場合、ユーザは、「コピー」としか発音していないため、コピー部数等が不明となる（入力不足）。

このため、解釈部７２は、「Ｃｏｐｙ＿Ｐａｒａｍｅｔｅｒ＿Ｓｅｔｔｉｎｇ」としたアクションに、「設定値を入力してください」とのレスポンス（Ｒｅｓｐｏｎｓｅ）を付加した解釈結果を形成する（ステップＳ１７）。ＡＩアシスタントサーバ装置４の通信制御部７３、この解釈結果を携帯端末２に送信する（ステップＳ１８）。携帯端末２のフィードバック部５５は、スピーカ部２９を介して「設定値を入力してください」との音声出力を行うと共に、タッチパネル２７に対して「設定値を入力してください」とのテキスト表示を行う（ステップＳ１９：入力不足フィードバック）。

次に、入力不足フィードバックがあったため、ユーザは、例えば「両面で」と発話する（ステップＳ２０）。携帯端末２の通信制御部５２は、音声認識サーバ装置３に対して、「両面で」との音声データを送信し、テキスト変換要求を行う（ステップＳ２１）。音声認識サーバ装置３のテキスト変換部６２は、「両面で」との音声データをテキストデータに変換処理し、携帯端末２に送信する（ステップＳ２２）。

携帯端末２の取得部５１は、このテキストデータを取得する。また、携帯端末２の通信制御部５２は、取得したテキストデータをＡＩアシスタントサーバ装置４に送信する（ステップＳ２３）。ＡＩアシスタントサーバ装置４の解釈部７２は、受信したテキストデータで示されるユーザの発話フレーズに基づいて、アクション及びパラメータを解釈する。この例の場合、ユーザは、「コピー」及び「両面で」としか発音していないため、コピー部数等が不明となる（必須パラメータ不足）。

複数のパラメータのうち、いずれのパラメータが必須パラメータであるかは、ＡＩアシストサーバ装置４の記憶部に予め記憶しておくことができる。この場合、解釈部７２は、記憶部に記憶された必須パラメータの情報に基づいて、携帯端末装置２から取得したパラメータが全ての必須パラメータの設定を行っているか否かを判断し、必須パラメータについて設定が行われていない場合は、必須パラメータの設定を行うように、携帯端末装置２を介してユーザへ促すことができる。

このため、解釈部７２は、「Ｃｏｐｙ＿Ｐａｒａｍｅｔｅｒ＿Ｓｅｔｔｉｎｇ」としたアクションと、「印刷面＝両面」とのパラメータに、「何部印刷しますか？」とのレスポンス（Ｒｅｓｐｏｎｓｅ）を付加した解釈結果を形成する（ステップＳ２４）。ＡＩアシスタントサーバ装置４の通信制御部７３、この解釈結果を携帯端末２に送信する（ステップＳ２５）。携帯端末２のフィードバック部５５は、スピーカ部２９を介して「何部印刷しますか？」との音声出力を行うと共に、タッチパネル２７に対して「何部印刷しますか？」とのテキスト表示を行う（入力不足フィードバック（ステップＳ２６））。

次に、再度、入力不足フィードバックがあったため、ユーザは、例えば「２部」と発話する（ステップＳ２７）。携帯端末２の通信制御部５２は、音声認識サーバ装置３に対して、「２部」との音声データを送信し、テキスト変換要求を行う（ステップＳ２８）。音声認識サーバ装置３のテキスト変換部６２は、「２部」との音声データをテキストデータに変換処理し、携帯端末２に送信する（ステップＳ２９）。

携帯端末２の取得部５１は、このテキストデータを取得する。また、携帯端末２の通信制御部５２は、取得したテキストデータをＡＩアシスタントサーバ装置４に送信する（ステップＳ３０）。ＡＩアシスタントサーバ装置４の解釈部７２は、受信したテキストデータで示されるユーザの発話フレーズに基づいて、アクション及びパラメータを解釈する。この例の場合、ユーザが「２部」との音声データを送信することで、コピーのジョブに対する必須パラメータ不足が解消する。このため、解釈部７２は、「Ｃｏｐｙ＿Ｃｏｎｆｉｒｍ」としたアクションに、「印刷面＝両面」及び「部数＝２部」とのパラメータを付加した解釈結果を形成する（ステップＳ３１）。ＡＩアシスタントサーバ装置４の通信制御部７３、この解釈結果を携帯端末２に送信する（ステップＳ３２）。

携帯端末２のフィードバック部５５は、必須パラメータ不足が解消し、コピーを開始する準備が整ったため、例えば「両面で２部コピーします。よろしいですか？」とのフィードバックのテキストを、解釈結果に含まれるＲｅｓｐｏｎｓｅに基づいて生成する（ステップＳ３３）。ここで、テキストの生成は、携帯端末２の記憶部に記憶されたテキストデータの中から全て、又は一部を読み出し、組み合わせることで生成してもよい。

なお、フィードバック部５５は、ステップＳ３３に限らず、ＡＩアシスタントサーバ装置４から解釈結果を取得した場合であれば、他のステップでも同様にフィードバックのテキストを生成しても良いが、フィードバックするテキスト情報が解釈結果のレスポンスに含まれている場合は、フィードバックのテキストを生成する必要はない。次に、上述の入力確認フィードバックを行う（ステップＳ３４）。この入力確認フィードバックに対して、ユーザは、設定値の変更又はコピーの開始を指示する音声入力を行う。

図１４のシーケンス図のステップＳ３５～ステップＳ４２が、設定値の変更を音声指示した場合の動作の流れを示すシーケンス図である。この図１４において、ユーザが設定値を変更する発話を行うと（ステップＳ３５）、音声認識サーバ装置３のテキスト変換部６２が、変更された設定値のテキストデータに生成し、携帯端末２を介してＡＩアシスタントサーバ装置４に送信する（ステップＳ３６～ステップＳ３８）。ＡＩアシスタントサーバ装置４は、受信したテキストデータで示されるユーザの発話フレーズに基づいて、変更された設定値を示す解釈結果を生成し（ステップＳ３９）、携帯端末２に送信する（ステップＳ４０）。

携帯端末２のフィードバック部５５は、解釈結果に含まれるＲｅｓｐｏｎｓｅに基づいてフィードバックのテキストを生成し（ステップＳ４１）、例えば「○○設定でコピーします。よろしいですか？」等の、上述の入力確認フィードバックを行うことで、変更された設定値でコピーを開始してよいか否かの確認を行う（ステップＳ４２）。

図１４のシーケンス図のステップＳ４３～ステップＳ５０が、コピーの開始を指示した際の各部の動作の流れである。すなわち、上述の入力確認フィードバックにより、ユーザが「はい」と応答すると（ステップＳ４３）、テキスト化され、携帯端末２を介してＡＩアシスタントサーバ装置４に送信される（ステップＳ４４～ステップＳ４６）。ＡＩアシスタントサーバ装置４は、受信したテキストデータに基づいてコピー開始指示を認識すると、「Ｃｏｐｙ＿Ｅｘｅｃｕｔｅ」としたアクションに、「印刷面＝両面」及び「部数＝２部」とのパラメータを付加した解釈結果を形成し、これを携帯端末２に送信する（ステップＳ４７～ステップＳ４８）。

携帯端末２の解釈結果変換部５３は、解釈結果をＭＦＰ１のジョブ命令に変換処理し（ステップＳ４９）、ＭＦＰ１に送信する（ステップＳ５０）。これにより、音声入力操作により、ＭＦＰ１をコピー制御することができる。

（ＡＩアシスタントサーバ装置４からフィードバックされる情報の例）
以下の表２に、ＡＩアシスタントサーバ装置４から携帯端末２にフィードバックされる解釈結果の一例を示す。

この表２に示すように、例えばジョブの設定値の入力促すための「Ｃｏｐｙ＿Ｐａｒａｍｅｔｅｒ＿Ｓｅｔｔｉｎｇ」、ジョブの設定値の確認を促すための「Ｃｏｐｙ＿Ｃｏｎｆｉｒｍ」、ジョブの実行開始を伝えるための「Ｃｏｐｙ＿Ｅｘｅｃｕｔｅ」等のアクションが、解釈結果に含められて携帯端末２にフィードバックされる。

フィードバック部５５は、解釈結果に含まれるアクション、パラメータ、レスポンスに応じて、ユーザに対するフィードバックを判断することができる。フィードバック部５５は、フィードバックする内容を決定するために、表２に相当する情報を携帯端末装置２の記憶部に記憶し、参照できる構成としても良い。なお、表２では、コピーの場合を例に説明したが、プリント、スキャン、ＦＡＸも表２と同様にアクションとして、ジョブの設定値の入力促すための「Ｐａｒａｍｅｔｅｒ＿Ｓｅｔｔｉｎｇ」、ジョブの設定値の確認を促すための「Ｃｏｎｆｉｒｍ」が用いられても良い。

また、例えば両面又は片面等の印刷面の設定値、又は、コピー部数等のパラメータが、解釈結果に含められて携帯端末２にフィードバックされる。さらに、必須パラメータが不足している場合、不足するパラメータの入力を促すメッセージが、レスポンスとして解釈結果に含められて携帯端末２にフィードバックされる。

（ジョブの実行動作及びエラー発生時の対話）
次に、図１５は、例えば「ジョブを実行します。よろしいですか？」等の、上述の入力確認フィードバックにより、ユーザが「はい」と応答することで、ジョブが実行され、又は、エラーが発生した場合の対話の一例を示す。

まず、「ジョブを実行します。よろしいですか？」等の、上述の入力確認フィードバックにより、ユーザが「はい」と応答することで、ＭＦＰ１においてジョブが実行される。何事もなくジョブが完了すれば、例えば「ジョブが完了しました。原稿の取り忘れに注意してください。」等の完了メッセージ（音声及びテキスト）が、携帯端末２を介して出力される。

これに対して、例えば用紙不足のエラーが発生した場合、携帯端末２を介して「用紙がありません。用紙を補充して継続するか、ジョブをキャンセルしてください」等のジョブの確認フィードバックが行われる。この確認フィードバックに対して、ユーザがＭＦＰ１に用紙を補充し、「継続」との発話により応答した場合、ＭＦＰ１に対してジョブの継続が指示され、ＭＦＰ１においてジョブが再開される。これに対して、確認フィードバックにより、ユーザが「キャンセル」との発話することで、ジョブのキャンセルを指示した場合、ＭＦＰ１に対してジョブのキャンセルが通知され、エラー発生以降のジョブがキャンセルされる。そして、携帯端末２を介して、例えば「ジョブをキャンセルしました」等の音声及びテキストを出力する確認フィードバックが行われる。

（ジョブの実行動作及びエラー発生時の対話動作の流れ）
図１６が、このようなジョブの実行動作及びエラー発生時の対話動作の流れを示すシーケンス図である。ＭＦＰ１は、指示されたジョブを実行することで、正常にジョブが完了した旨の実行結果、又は、エラーが発生したことを示す実行結果を携帯端末２に送信する。正常にジョブが完了した旨の実行結果を受信した場合、携帯端末２のフィードバック部５５は、例えば「ジョブが完了しました」等の音声メッセージを出力する。これに対して、エラーが発生した旨の実行結果を受信した場合、携帯端末２のフィードバック部５５は、例えば「エラーが発生しました。ジョブを継続しますか、キャンセルしますか？」等の、ジョブの継続の是非を問う音声メッセージを出力する（ステップＳ５３）。

図１６のステップＳ５４～ステップＳ６１が、ユーザが、継続を指定した場合の各部の動作の流れである。すなわち、「エラーが発生しました。ジョブを継続しますか、キャンセルしますか？」との問い合わせに対し、ユーザがエラーの発生要因を除去したうえで、「継続」と応答した場合（ステップＳ５４）、テキスト化されてＡＩアシスタントサーバ装置４に送信される（ステップＳ５５～ステップＳ５７）。

ＡＩアシスタントサーバ装置４は、アクションを「Ｃｏｐｙ＿Ｊｏｂ＿Ｃｏｎｔｉｎｕｅ」とし、レスポンスを「ジョブを継続します」とした解釈結果を生成し、これを携帯端末２に送信する（ステップＳ５８～ステップＳ５９）。携帯端末２の実行指示部５４は、ＭＦＰ１に対してジョブの継続を指示する（ステップＳ６０）。また、携帯端末２のフィードバック部５５は、「ジョブを継続します」との入力確認フィードバックを行う（ステップＳ６１）。

これに対して、図１６のステップＳ６２～ステップＳ６９が、ユーザが、ジョブのキャンセルを指定した場合の各部の動作の流れである。すなわち、「エラーが発生しました。ジョブを継続しますか、キャンセルしますか？」との問い合わせに対し、ユーザが、「キャンセル」と応答した場合（ステップＳ６２）、テキスト化されてＡＩアシスタントサーバ装置４に送信される（ステップＳ６３～ステップＳ６５）。

ＡＩアシスタントサーバ装置４は、アクションを「Ｃｏｐｙ＿Ｊｏｂ＿Ｃａｎｃｅｌ」とし、レスポンスを「ジョブをキャンセルします」とした解釈結果を生成し、これを携帯端末２に送信する（ステップＳ６６～ステップＳ６７）。携帯端末２の実行指示部５４は、ＭＦＰ１に対してジョブのキャンセルを指示する（ステップＳ６８）。また、携帯端末２のフィードバック部５５は、「ジョブをキャンセルします」との入力確認フィードバックを行う（ステップＳ６９）。

（対話によるＭＦＰの機器能力に応じたパラメータの調整動作）
次に、第１の実施の形態の音声操作システムは、ＭＦＰ１の機器能力に対応したジョブの実行を、対話型操作により実現している。図１７は、ユーザから指示されたジョブに必要な機器能力を、ＭＦＰ１が有しているか否かの判定を行うまでの動作の流れを示すシーケンス図である。図１８は、ＭＦＰ１の機器能力で、ジョブの実行が可能である場合、及び、ジョブの実行が困難である場合の動作の流れを示すシーケンス図である。

まず、図１７のシーケンス図において、携帯端末２の携帯音声処理プログラムを起動すると（ステップＳ７１）、処理能力取得部５６が、ＭＦＰ１に対して、例えば処理可能な解像度の問い合わせを行う（Ｃａｐａｂｉｌｉｔｙの取得：ステップＳ７２）。この問い合わせに対して、ＭＦＰ１は、「２００ｄｐｉ～６００ｄｐｉ」等のように、処理可能な解像度を携帯端末２に回答する（ステップＳ７３）。これにより、携帯端末２において、ＭＦＰ１の処理可能な解像度が認識される。

なお、処理能力取得部５６は携帯端末装置２とＭＦＰ１との通信が確立した後の所定のタイミングで、予め処理能力の情報を取得しておいても良い。また、処理能力の取得は他のプログラムが実行し、処理能力取得部５６は他のプログラムが取得した情報を取得することで、間接的にＭＦＰ１が有する情報を取得しても良い。

次に、携帯端末２のフィードバック部５５は、例えば「コピーしますか？スキャンしますか？」等のジョブの指示を促す音声フィードバックを行う（ステップＳ７４）。ユーザが「スキャン」と発話すると（ステップＳ７５）、テキスト化されてＡＩアシスタントサーバ装置４に送信される（ステップＳ７６～ステップＳ７８）。スキャンの指示だけでは、必須パラメータが不足しているため、解釈部７２は、アクションを「Ｓｃａｎ＿Ｐａｒａｍｅｔｅｒ＿Ｓｅｔｔｉｎｇ」、レスポンスを「設定値を入力してください」とした解釈結果を携帯端末２に送信する（ステップＳ７９～ステップＳ８０）。これにより、携帯端末２のフィードバック部５５は、「設定値を入力してください」との入力不足フィードバックを行う（ステップＳ８１）。

次に、このような入力不足フィードバックに対して、ユーザが「１０００ｄｐｉで田中さん宛て」と発話すると、テキスト化されてＡＩアシスタントサーバ装置４に送信される（ステップＳ８２～ステップＳ８５）。ＡＩアシスタントサーバ装置４の解釈部７２は、アクションを「Ｓｃａｎ＿Ｃｏｎｆｉｒｍ」、パラメータを「解像度＝１０００ｄｐｉ、宛先＝田中」とした解釈結果を携帯端末２に送信する（ステップＳ８６～ステップＳ８７）。携帯端末２の実行判定部５７は、解釈結果に含まれるパラメータに基づいて、ユーザにより指定されたジョブは、ＭＦＰ１で実行可能か否かを判定する（ステップＳ８８）。

ＭＦＰ１が、１０００ｄｐｉの解像度で画像処理が可能であれば、図１８のステップＳ８９に示すように、携帯端末２のフィードバック部５５が、「１０００ｄｐｉでスキャンし、田中さん宛てに送信します。よろしいですか？」との入力確認フィードバックを行う。

この入力確認フィードバックに対してユーザが「はい」と応答すると（ステップＳ９１）、テキスト化されてＡＩアシスタントサーバ装置４に送信される（ステップＳ９２～ステップＳ９４）。ＡＩアシスタントサーバ装置４は、アクションを「Ｓｃａｎ＿Ｅｘｅｃｕｔｅ」とし、「解像度＝１０００、宛先＝田中」とした解釈結果を携帯端末２に送信する（ステップＳ９５～ステップＳ９６）。

携帯端末２の解釈結果変換部５３は、解釈結果をジョブ命令に変換する（ステップＳ９７）。携帯端末２の通信制御部５２は、ジョブ命令をＭＦＰ１に送信する（ステップＳ９８）。

これに対して、６００ｄｐｉがＭＦＰ１の処理能力の限界である場合、ユーザから指定された１０００ｄｐｉの画像処理は、ＭＦＰ１では困難となる。この場合、携帯端末２は、ステップＳ９０において、「１０００ｄｐｉは指定できません。６００ｄｐｉでスキャンし、田中さん宛てに送信します。よろしいですか？」との確認フィードバックを行う。

なお、実行判定部５７は、ＭＦＰ１の処理能力の範囲内で、ユーザが指示した機能又は処理能力値に最も近い機能又は値を選択することができる。例えば、ＭＦＰ１の処理可能な解像度が２００－６００ｄｐｉの範囲である場合、ユーザが指示した１０００ｄｐｉに最も近い６００ｄｐｉが選択される。そして、実行判定部５７が選択した能力又は値を、フィードバック部が確認フィードバックとして出力する。

このような確認フィードバックに対してユーザが「はい」と発話すると（ステップＳ９１）、テキスト化されてＡＩアシスタントサーバ装置４に送信される（ステップＳ９２～ステップＳ９４）。ＡＩアシスタントサーバ装置４は、アクションを「Ｓｃａｎ＿Ｅｘｅｃｕｔｅ」とし、「解像度＝６００、宛先＝田中」とした解釈結果を携帯端末２に送信する（ステップＳ９５～ステップＳ９６）。

携帯端末２の解釈結果変換部５３は、解釈結果をジョブ命令に変換する（ステップＳ９７）。携帯端末２の通信制御部５２は、ジョブ命令をＭＦＰ１に送信する（ステップＳ９８）。これにより、音声入力操作により、処理能力内でジョブが実行されるように、ＭＦＰ１を操作できる。

（携帯端末のアドレス帳から検索した送信先にスキャン画像を送信する動作）
次に、携帯端末２のアドレス帳から検索した送信先にスキャン画像を送信する動作を説明する。図１９のシーケンス図が前半の動作の流れを、図２０のシーケンス図が後半の動作の流れを示している。

まず、図１９のシーケンス図において、携帯端末２の携帯音声処理プログラムを起動すると（ステップＳ１０１）、フィードバック部５５が、例えば「コピーしますか？スキャンしますか？」等のジョブの指示を促す音声フィードバックを行う（ステップＳ１０２）。ユーザが「スキャン」と発話すると（ステップＳ１０３）、テキスト化されてＡＩアシスタントサーバ装置４に送信される（ステップＳ１０４～ステップＳ１０６）。スキャンの指示だけでは、必須パラメータが不足しているため、解釈部７２は、アクションを「Ｓｃａｎ＿Ｐａｒａｍｅｔｅｒ＿Ｓｅｔｔｉｎｇ」、レスポンスを「設定値を入力してください」とした解釈結果を携帯端末２に送信する（ステップＳ１０７～ステップＳ１０８）。これにより、携帯端末２のフィードバック部５５は、「設定値を入力してください」との入力不足フィードバックを行う（ステップＳ１０９）。

次に、このような入力不足フィードバックに対して、ユーザが「田中さん宛て」と発話すると（ステップＳ１１０）、テキスト化されてＡＩアシスタントサーバ装置４に送信される（ステップＳ１１１～ステップＳ１１３）。ＡＩアシスタントサーバ装置４の解釈部７２は、アクションを「Ｓｃａｎ＿Ｃｏｎｆｉｒｍ」、パラメータを「宛先＝田中」とした解釈結果を携帯端末２に送信する（ステップＳ１１４～ステップＳ１１５）。携帯端末２の検索部５８は、解釈結果に含まれるパラメータに基づいてＲＡＭ２２に記憶されているアドレス帳の記憶領域から、田中さんの電子メールアドレスを検索する（ステップＳ１１６）。

なお、検索する対象はＲＡＭ２２に限らず携帯端末装置とネットワークを介して接続されたサーバであっても良いし、ＭＦＰ１に対して該当する電子メールアドレスが存在するか否かを問い合わせても良い。

アドレス帳の記憶領域に、田中さんが一人だけ記録されている場合、図２０のステップＳ１１７において、携帯端末２の通信制御部５２は、アドレス帳の記憶領域に記憶されている田中さんの電子メールアドレスを送信先に設定した電子メールを作成する。この電子メールには、スキャン画像が添付されて送信される。これにより、田中さん宛てにスキャン画像が送信される。

アドレス帳の記憶領域に、田中さんが複数人記録されている場合、つまり、宛先を識別する情報である「田中」を含む宛先が複数存在する場合、携帯端末２のフィードバック部５５は、「田中さんが複数登録されています。送信先を選択してください」との入力不足フィードバックを行う（ステップＳ１１８）。そして、携帯端末２の検索部５８は、アドレス帳の記憶領域から検索した複数の田中さんの氏名及び電子メールアドレス等を、タッチパネル２７に一覧表示する（ステップＳ１１９）。

ユーザは、この一覧の中から所望の田中さんを選択する。携帯端末２の通信制御部５２は、ユーザにより選択された田中さんの電子メールアドレスを送信先に設定した電子メールを作成する。この電子メールには、スキャン画像が添付されて送信される。これにより、ユーザが希望する宛先に相当する田中さん宛てにスキャン画像が送信される。

アドレス帳の記憶領域に、田中さんが記録されていない場合、携帯端末２のフィードバック部５５は、「田中さんが登録されていません。宛先を指定してください」との入力不足フィードバックを行う（ステップＳ１２０）。そして、携帯端末２の検索部５８は、アドレス帳の記憶領域から検索した各ユーザの田中さんの氏名及び電子メールアドレス等を、例えば五十音順に、タッチパネル２７に一覧表示する（ステップＳ１２１）。

また、タッチパネル２７にキーボードを表示させることで、ユーザに宛先となる電子メールアドレスを手動で入力させることで、氏名及び電子メールアドレスを取得することができる。なお、取得した氏名及び電子メールアドレスをアドレス帳に登録しても良い。

ユーザは、この一覧の中から所望の宛先を選択する。携帯端末２の通信制御部５２は、ユーザにより選択された宛先の電子メールアドレスを作成する。この電子メールには、スキャン画像が添付されて送信される。これにより、ユーザが希望する宛先にスキャン画像が送信される。

すなわち、スキャン画像の送信先とする田中さん又は他のユーザが選択されると、携帯端末２のフィードバック部５５は、例えば「スキャンして田中○○さん宛てに送信します。よろしいでしょうか」との確認フィードバックを行う（ステップＳ１２２）。

この確認フィードバックに対して、ユーザが「はい」と応答すると（ステップＳ１２３）、テキスト化されてＡＩアシスタントサーバ装置４に送信される（ステップＳ１２４～ステップＳ１２６）。ＡＩアシスタントサーバ装置４は、アクションを「Ｓｃａｎ＿Ｅｘｅｃｕｔｅ」とし、「解像度＝６００、宛先＝田中」とした解釈結果を携帯端末２に送信する（ステップＳ１２７～ステップＳ１２８）。

携帯端末２の解釈結果変換部５３は、解釈結果をジョブ命令に変換する（ステップＳ１２９）。携帯端末２の通信制御部５２は、宛先となる氏名及び電子メールアドレスなどの宛先情報と共に、ジョブ命令をＭＦＰ１に送信する（ステップＳ１３０）。これにより、ユーザが希望する宛先にスキャン画像が添付された電子メールが送信される。

（携帯端末のメモリから印刷対象を検索して印刷する動作）
次に、携帯端末２のＲＡＭ２２等のメモリから検索したファイルを印刷する動作を説明する。図２１のシーケンス図が前半の動作の流れを、図２２のシーケンス図が後半の動作の流れを示している。

まず、図２１のシーケンス図において、携帯端末２の携帯音声処理プログラムを起動すると（ステップＳ１４１）、フィードバック部５５が、例えば「コピーしますか？スキャンしますか？プリントしますか？」等のジョブの指示を促す音声フィードバックを行う（ステップＳ１４２）。ユーザが「プリント」と発話すると（ステップＳ１４３）、テキスト化されてＡＩアシスタントサーバ装置４に送信される（ステップＳ１４４～ステップＳ１４６）。「プリント」との指示だけでは、必須パラメータが不足しているため、解釈部７２は、アクションを「Ｐｒｉｎｔ＿Ｐａｒａｍｅｔｅｒ＿Ｓｅｔｔｉｎｇ」、レスポンスを「設定値を入力してください」とした解釈結果を携帯端末２に送信する（ステップＳ１４７～ステップＳ１４８）。これにより、携帯端末２のフィードバック部５５は、「設定値を入力してください」との入力不足フィードバックを行う（ステップＳ１４９）。

次に、このような入力不足フィードバックに対して、ユーザが「ファイルＡをプリント」と発話すると（ステップＳ１５０）、テキスト化されてＡＩアシスタントサーバ装置４に送信される（ステップＳ１５１～ステップＳ１５３）。ＡＩアシスタントサーバ装置４の解釈部７２は、アクションを「Ｐｒｉｎｔ＿Ｃｏｎｆｉｒｍ」、パラメータを「印刷対象＝ファイルＡ」とした解釈結果を携帯端末２に送信する（ステップＳ１５４～ステップＳ１５５）。携帯端末２の検索部５８は、解釈結果に含まれるパラメータに基づいてＲＡＭ２２等のメモリからファイルＡを検索する（ステップＳ１５６）。

メモリに、一つだけファイルＡが記録されている場合、図２２のステップＳ１５７において、携帯端末２の通信制御部５２は、このファイルＡを印刷データとして設定する。このファイルＡの印刷データは、ＭＦＰ１に送信され印刷される。

メモリに２つ以上のファイルＡが存在する場合、携帯端末２のフィードバック部５５は、「複数のファイルＡが登録されています。印刷するファイルを選択してください」との入力不足フィードバックを行う（ステップＳ１５８）。そして、携帯端末２の検索部５８は、メモリから検索した、ファイル名に「ファイルＡ」を含むファイル一覧をタッチパネル２７に一覧表示する（ステップＳ１５９）。ユーザは、この一覧の中から所望のファイルＡを選択する。携帯端末２の通信制御部５２は、後述するように、ユーザにより選択されたファイルＡをＭＦＰ１に送信し印刷要求を行う。

メモリにファイルＡが記録されていない場合、携帯端末２のフィードバック部５５は、「メモリ内にファイルＡが登録されていません。印刷するファイルを指定してください」との入力不足フィードバックを行う（ステップＳ１６０）。そして、携帯端末２の検索部５８は、メモリから検索した各ファイルを、タッチパネル２７に一覧表示する（ステップＳ１６１）。ユーザは、この一覧の中から所望のファイルを選択する。携帯端末２の通信制御部５２は、ユーザにより選択されたファイルをＭＦＰ１に送信し印刷要求を行う。

すなわち、印刷を希望するファイルＡ又は他のファイルが選択されると、携帯端末２のフィードバック部５５は、例えば「ファイルＡの印刷を開始します。よろしいでしょうか」との確認フィードバックを行う（ステップＳ１６２）。

この確認フィードバックに対して、ユーザが「はい」と応答すると（ステップＳ１６３）、テキスト化されてＡＩアシスタントサーバ装置４に送信される（ステップＳ１６４～ステップＳ１６６）。ＡＩアシスタントサーバ装置４は、アクションを「Ｐｒｉｎｔ＿Ｅｘｅｃｕｔｅ」とし、「印刷対象＝ファイルＡ」とした解釈結果を携帯端末２に送信する（ステップＳ１６７～ステップＳ１６８）。

携帯端末２の解釈結果変換部５３は、解釈結果をジョブ命令に変換する（ステップＳ１６９）。携帯端末２の通信制御部５２は、ジョブ命令を、ユーザより選択されたファイルと共にＭＦＰ１に送信する（ステップＳ１７０）。これにより、ＭＦＰ１において、ユーザが希望するファイルが印刷される。

（第１の実施の形態の効果）
以上の説明から明らかなように、第１の実施の形態の音声操作システムは、携帯端末２に、プラットフォームアプリケーションプログラムとなる操作音声処理プログラムをインストールし、このアプリがＭＦＰ１、音声認識サーバ装置３及びＡＩアシスタントサーバ装置４の間の通信を中継する。ユーザが携帯端末２に設けられているマイクロホン部２９に向かって発話すると、ユーザの発話内容を分析し、ユーザから指示された動作を行うようにＭＦＰ１を操作する（音声入力操作）。

これにより、複雑な操作を音声で命令することで、タッチパネル２７等のＧＵＩ（Graphical User Interface）による操作を不要とすることができるため、操作に慣れているユーザであっても、さらに迅速かつ簡単な入力操作を可能とすることができる。また、高齢者又は操作に不慣れなユーザであっても、対話による操作サポートにより、例えば複雑なネットワーク設定、高度なジョブの設定又は新規アプリの導入等の、ユーザが希望する操作を迅速かつ簡単に実行可能とすることができる。

また、ユーザが発話した内容のテキストに基づいて、ユーザの意図を解析しているため、ユーザの発話に基づいた処理内容をＡＩアシスタントサーバ装置４側が判断できる。

（第２の実施の形態）
次に、第２の実施の形態の音声操作システムの説明をする。

（システム構成）
図２３は、第２の実施の形態の音声操作システムのシステム構成図である。この図２３に示すように、第２の実施の形態の音声操作システムは、１以上の複合機（ＭＦＰ）１、１以上のスマートスピーカ１００（又は、スマートホン、タブレット端末等でもよい）、１以上の音声認識サーバ装置３、及び、１以上のＡＩアシスタントサーバ装置４を有している。ＭＦＰ１、スマートスピーカ１００、音声認識サーバ装置３、及び、ＡＩアシスタントサーバ装置４は、例えばＬＡＮ等のネットワーク５を介して相互に接続されている。これにより、音声認識サーバ装置３及びＡＩアシスタントサーバ装置４でクラウドサービスの提供が可能となっている。

なお、外部装置としては、ＭＦＰ１の他、例えば電子黒板又はプロジェクタ装置等の他の電子機器を設けてもよい。

ＡＩアシスタントサーバ装置４は、管理データベース（管理ＤＢ）１０１及び紐づけ用データベース１０２を有している。管理ＤＢ１０１には、テキストデータ、画像データ、音声データ等、ＡＩアシスタントサーバ装置４がクラウドサービスとして提供するコンテンツ（データ）を記憶するデータベースである。また、紐づけ用ＤＢ１０２には、例えば各スマートスピーカ１００を特定する各デバイスＩＤと、各スマートスピーカ１００に関連付けられたＭＦＰ１の機器ＩＤとが関連付けられて記憶されている。すなわち、紐づけ用ＤＢには、各スマートスピーカ１００で音声操作可能なＭＦＰ１が特定できるように、各スマートスピーカ１００のデバイスＩＤとＭＦＰ１の機器ＩＤとが関連付けられて記憶されている。

なお、管理ＤＢ１０１及び紐づけ用ＤＢ１０２としては、クラウドサービスがネットワーク５上に有するＨＤＤ等の記憶部を用いることができる。この他、管理ＤＢ１０１及び紐づけ用ＤＢ１０２のうち、一方又は両方を、ネットワーク５を介してクラウドサービスでアクセス可能な別のサーバ装置に記憶してもよい。

スマートスピーカ１００は、ＭＦＰ１を音声操作するための、ユーザからの音声入力を受け付ける。なお、スマートスピーカ１００は、受け付けた操作を、ユーザへ音声でフィードバック可能となっている。また、スマートスピーカ１００は、クラウドサービスを提供する音声認識サーバ装置３及びＡＩアシスタントサーバ装置４の間での、例えば音声データ、テキストデータ、画像データ等のデータ通信を行う。音声認識サーバ装置３は、スマートスピーカ１００から受信した音声データを分析し、テキストデータへ変換する。また、テキストデータと事前登録されている辞書情報とに基づいてユーザの意図を解釈し、解釈結果をＡＩアシスタントサーバ装置４に送信する。

ＡＩアシスタントサーバ装置４は、音声認識サーバ装置３から受信した解釈結果を、ＭＦＰ１で解釈可能な形式であるジョブ実行命令に変換してＭＦＰ１に送信する。ＭＦＰ１は、このようなクラウドサービスから送信されるジョブ実行命令を実行する。

（ＭＦＰのハードウェア構成）
ＭＦＰ１は、例えばプリンタ機能及びスキャナ機能等の複数の画像処理機能を備えている。すなわち、ＭＦＰ１は、図２を用いて説明したように、コントローラ７、通信部１５、操作部１６、スキャナエンジン１７及びプリンタエンジン１８を有している。

コントローラ７は、ＣＰＵ１０、ＡＳＩＣ１１、メモリ１２、ＨＤＤ（Hard Disk Drive）１３及びタイマ１４を有する。ＣＰＵ１０～タイマ１４は、それぞれバスラインを介して通信可能なように相互に接続されている。

操作部１６は、液晶表示部（ＬＣＤ）とタッチセンサとが一体的に形成された、いわゆるタッチパネルとなっている。操作者は、操作部１６を用いて所望の動作の実行命令を行う場合、操作部１６に表示された操作ボタン（ソフトウェアキー）を接触操作することで、所望の動作を指定する。

（端末のハードウェア構成）
スマートスピーカ１００は、図３に示した携帯端末２と同様に、ＣＰＵ２１、ＲＡＭ２２、ＲＯＭ２３、インタフェース部（Ｉ／Ｆ部）２４及び通信部２５を、バスライン２６を介して相互に接続して形成されている。

ＲＯＭ２３には、操作音声処理プログラムが記憶されている。ＣＰＵ２１は、この操作音声処理プログラムを実行することで、マイクロホン部２９から音声情報を取得してクラウドサービスへ送信する。また、ＣＰＵ２１は、クラウドサービスから取得したデータ（音声データ、テキストデータ、画像データ等）をタッチパネル２７に表示制御し、又は、スピーカ部２８を介して音声出力制御する。

Ｉ／Ｆ部２４には、タッチパネル２７、スピーカ部２８及びマイクロホン部２９が接続されている。マイクロホン部２９は、通話音声の他、ＭＦＰ１に対するジョブの実行命令となるユーザからの入力音声を集音（取得）する。入力音声は、通信部２５を介してクラウドサービスに送信される。

（クラウドサービスのハードウェア構成）
クラウドサービスを構成する音声認識サーバ装置３及びＡＩアシスタントサーバ装置４は、図４に示すように、ＣＰＵ３１、ＲＡＭ３２、ＲＯＭ３３、ＨＤＤ３４、インタフェース部（Ｉ／Ｆ部）３５及び通信部３６を、バスライン３７を介して相互に接続して形成されている。

Ｉ／Ｆ部３５には、表示部３８及び操作部３９が接続されている。ＨＤＤ３４には、音声データをテキストデータに変換し、更にテキストデータを予め定義された辞書情報と一致するか否かを判断してマッチした場合にはテキストデータをユーザの意図を示すインテント及びジョブ条件などの変数を示すパラメータに変換するための操作音声変換プログラムが記憶されている。また、ＨＤＤ３４には、辞書情報を保持する音声アシスタントプログラム、インテントとパラメータに基づいてＭＦＰが解釈可能な形式であるジョブ実行指示に変換した上で登録されたＭＦＰへ送信する管理プログラムが記憶されている。

ＣＰＵ３１は、これらのプログラムを実行する。なお、操作音声変換プログラム、音声アシスタントプログラム及び管理プログラムは、１つのサーバ装置で実行されても良いし、それぞれ異なるサーバ装置で実行されても良い。さらに、複数のサーバ装置が連携することで、これらのプログラムを実行しても良い。

（各プログラムに基づく各機能）
図２４は、スマートスピーカ１００のＣＰＵ２１が操作音声処理プログラムを実行することで実現される各機能を示す図である。また、図２４は、音声認識サーバ装置３のＣＰＵ３１が操作音声変換プログラム及び音声アシスタントプログラムを実行することで実現される各機能を示す図である。さらに、図２４は、ＡＩアシスタントサーバ装置４のＣＰＵ３１が、管理プログラムを実行することで実現される各機能を示す図である。

（操作音声処理プログラムの機能）
スマートスピーカ１００のＣＰＵ２１は、ＲＯＭ２３等の記憶部に記憶されている操作音声処理プログラムを実行することで、取得部１５１、通信制御部１５２及びフィードバック部１５３として機能する。

取得部５１は、マイクロホン部２９を介して集音された、ＭＦＰ１を音声操作するためのユーザの指示音声を取得する。なお、取得部１５１は、タッチパネル又は物理スイッチなどを介してユーザの操作及び指示を取得しても良い。通信制御部１５２は、スマートスピーカ１００とクラウドサービスとの間の通信を制御する。通信制御部１５２は、取得部１５１が取得した情報をクラウドサービスへ送信すると共に、クラウドサービスからテキストデータ、画像データ、音声データを取得する。また、通信制御部１５２は、取得部１５１で取得された情報を、クラウドサービスへ送信する場合、スマートスピーカ１００を特定するデバイスＩＤを送信する。

フィードバック部１５３は、対話型の音声入力操作を実現すべく、例えば不足するデータを補うための入力操作を促す音声をフィードバックし、又は、入力操作の確認となる音声をフィードバックする。なお、フィードバック部１５３は、タッチパネル２７のディスプレイ表示により、フィードバックとなるテキスト又は画像をユーザに提供してもよい。

なお、この例では、取得部１５１～フィードバック部１５３は、ソフトウェアで実現されることとしたが、これらのうち、一部又は全部を、ＩＣ（Integrated Circuit）等のハードウェアで実現してもよい。また、取得部１５１～フィードバック部１５３は、操作音声処理プログラム単体で実現しても良いし、他のプログラムに処理の一部を実行させ、又は他のプログラムを用いて間接的に処理を実行させても良い。

（操作音声処理プログラムの機能）
次に、音声認識サーバ装置３のＣＰＵ３１は、ＨＤＤ３４に記憶されている操作音声変換プログラムを実行することで、取得部１５５、テキスト変換部１５６、解析部１５７及び出力部１５８として機能する。取得部１５５は、スマートスピーカ１００から送信される、ユーザにより入力された音声データを取得する。また、取得部１５５は、スマートスピーカ１００のタッチパネル、ボタン又はスイッチ等のユーザ操作を取得しても良い。

テキスト変換部１５６は、ユーザにより入力された音声データをテキストデータに変換する。解釈部１５７は、テキストデータに基づいて、ユーザからの指示を解釈する。具体的には、解釈部１５７は、音声アシスタントプログラムから提供された辞書情報に基づいて、テキストデータに含まれる単語などが辞書情報にマッチしているか否かを確認する。そして、マッチしている場合には、ユーザの意図を示すインテントとジョブ条件などの変数を示すパラメータに変換する。解釈部１５７は、インテント及びパラメータを管理プログラムに対して送信するが、このとき、音声データを取得するスマートスピーカ１００を特定するための、スマートスピーカ１００のデバイスＩＤも共に送信する。出力部１５８は、スマートスピーカ１００に対するテキストデータ、音声データ、画像データなどのデータの送信等を行うように、通信部３６を通信制御する。

なお、この例では、取得部１５５～出力部１５８をソフトウェアで実現することとしたが、これらのうち、一部又は全部を、ＩＣ（Integrated Circuit）等のハードウェアで実現してもよい。また、取得部１５５～出力部１５８の各機能は、操作音声変換プログラム単体で実現しても良いし、他のプログラムに処理の一部を実行させてもよいし、又は他のプログラムを用いて間接的に実行させても良い。例えば、操作音声変換プログラムの解釈部１５７の機能の一部又は全てを音声アシスタントプログラムに実行させても良い。この場合、例えばテキストデータに含まれる単語などが辞書情報にマッチしているか否かの確認、マッチしている場合にユーザの意図を示すインテントとジョブ条件などの変数を示すパラメータへの変換は、音声アシスタントアプリに実行させ、解釈部１５７はインテント及びパラメータを音声アシスタントプログラムから取得するものとしても良い。

（音声アシスタントプログラムの機能）
次に、音声認識サーバ装置３のＣＰＵ３１は、ＨＤＤ３４に記憶されている音声アシスタントプログラムを実行することで、提供部１５９として機能する。提供部１５９は、ＨＤＤ３４に記憶されている、テキストデータ、インテント及びパラメータの関係を予め定義した辞書情報を管理し、操作音声変換プログラムに対して提供する。また、テキストデータに基づいて、ユーザからの操作指示を解釈しても良い。具体的には、操作音声変換プログラムからテキストデータを取得し、テキストデータに含まれる単語などが辞書情報にマッチしているか否かを確認して、マッチしている場合にはテキストデータをインテントとパラメータに変換する。その後、インテント及びパラメータを操作音声変換プログラムに対して提供する。

なお、この例では、提供部１５９をソフトウェアで実現することとしたが、これらのうち、一部又は全部を、ＩＣ（Integrated Circuit）等のハードウェアで実現してもよいこと等は、上述の他のプログラムと同様である。

（管理プログラムの機能）
ＡＩアシスタントサーバ装置４のＣＰＵ３１は、ＨＤＤ３４に記憶されている管理プログラムを実行することで、取得部１６０、解釈結果変換部１６１、実行指示部１６２、機器情報取得部１６３、実行判定部１６４、通知部１６５、管理部１６６及び検索部１６７として機能する。

取得部１６０は、音声認識サーバ装置３から送信されるインテント、パラメータ及びスマートスピーカ１００のデバイスＩＤ等を取得する。解釈結果変換部１６１は、操作音声変換プログラムで変換されたインテント及びパラメータなどの解釈結果を、ＭＦＰ１が解釈可能なジョブの実行命令に変換する。実行指示部１６２は、ジョブの実行命令をＭＦＰ１に送信して、ジョブの実行を指示する。

なお、実行指示部１６２は、紐づけ用ＤＢ１０２を参照し、スマートスピーカ１００に関連付けられているＭＦＰ１に対してジョブ実行命令を送信する。つまり、実行指示部１６２は、インテント及びパラメータと共にユーザが使用したスマートスピーカ１００を特定するデバイスＩＤを取得し、取得したデバイスＩＤに関連付けられているＭＦＰ１を紐づけ用ＤＢ１０２から検索し、検索したＭＦＰ１に対してジョブ実行命令を送信する。

機器情報取得部１６３は、ＭＦＰ１から、ＭＦＰ１の例えば処理可能な最大画素数等の処理能力を示す機器情報を取得する。なお、機器情報取得部１６３は、ＭＦＰ１等の複数の外部装置から取得した機器情報を、各外部装置を特定するデバイスＩＤ等の特定情報と関連付けてＨＤＤ等の記憶部に記憶して管理する。

また、機器情報取得部１６３は、ＭＦＰ１との通信接続が確立されているか否かを示す接続状態、ＭＰＦ１の電源のＯＮ／ＯＦＦ又はスリープモード等の電力状態、エラーの有無とエラーの種類、用紙及びトナー等の消耗品の残余状況、ユーザのログイン状態、ログインユーザに使用が許可された機能を示す権限情報、などを含む機器状態を取得する。

実行判定部５７は、機器情報で示されるＭＦＰ１の処理能力と、ユーザから指定されたジョブ（即ち、操作音声変換プログラムで生成されたインテント及びパラメータ）とを比較することで、ユーザから指定されたジョブをＭＦＰ１で実行可能か否かを判定する。ユーザから指定されたジョブ実行が実行可能と判断した場合、ＭＦＰに対してジョブ実行命令を送信する。また、実行不可能と判断した場合、操作音声変換プログラムを介してスマートスピーカ１００に対してエラーメッセージ等のレスポンス情報をフィードバックする。

通知部１６５は、ユーザのジョブ実行指示への応答としてテキストデータ、音声データ、画像データなどを操作音声変換プログラムへ通知する。また、ジョブの実行するためのジョブ条件を示すパラメータが不足している場合には、操作音声変換プログラムを介して端末対してフィードバックを行うことでユーザにパラメータの入力を促す。ここで、不足しているパラメータを確認するために必要な情報として、パラメータ情報を送信しても良いし、ユーザにパラメータの指定を促すために必要な情報としてテキストデータ、音声データ、画像データを送信しても良い。

管理部１６６は、ＭＦＰ１、スマートスピーカ１００又はネットワークを介してクラウドサービスに接続したクライアントデバイスに入力された情報及び指示に基づいて、スマートスピーカ１００のデバイスＩＤとＭＦＰ１の機器ＩＤとを関連付けて紐づけ用ＤＢ１０２に登録する。なお、紐づけ用ＤＢ１０２は、スマートスピーカ１００のデバイスＩＤとＭＦＰの機器ＩＤとを関連付けた情報を、例えば管理テーブル等に保持している。

なお、この例では、取得部１６０～検索部１６７をソフトウェアで実現することとしたが、これらのうち、一部又は全部を、ＩＣ（Integrated Circuit）等のハードウェアで実現してもよいこと等は、上述の他のプログラムと同様である。

また、上述の操作音声処理プログラム、操作音声変換プログラム、音声アシスタントプログラム及び管理プログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ－ＲＯＭ、フレキシブルディスク（ＦＤ）などのコンピュータ装置で読み取り可能な記録媒体に記録して提供してもよい。また、ＣＤ－Ｒ、ＤＶＤ（Digital Versatile Disk）、ブルーレイディスク（登録商標）、半導体メモリなどのコンピュータ装置で読み取り可能な記録媒体に記録して提供してもよい。また、インターネット等のネットワーク経由でインストールするかたちで提供してもよいし、機器内のＲＯＭ等に予め組み込んで提供してもよい。

（音声入力操作の全体的な動作）
図２５は、第２の実施の形態の音声操作システムにおける音声入力操作の全体的な動作を説明するための図である。この図２５の例は、ＭＦＰ１の両面コピー機能を、スマートスピーカ１００を介して音声入力操作する例である。この場合、ユーザは、スマートスピーカ１００の操作音声処理プログラムを起動し、例えば「両面でコピー」と発声する（ステップＳ１８１）。このユーザの音声は、スマートスピーカ１００のマイクロホン部２９で集音され、取得部１５１により取得される。なお、操作音声処理プログラムは、スマートスピーカ１００の起動と同時に起動しても良いし、スマートスピーカ１００に対して所定の操作又は所定の音声が行われた際に起動しても良い。

スマートスピーカ１００の通信制御部１５２は、この「両面でコピー」との音声データをクラウドサービスの音声認識サーバ装置３に送信する（ステップＳ１８２）。このとき、通信制御部１５２は、スマートスピーカ１００を特定するための、スマートスピーカ１００のデバイスＩＤを音声認識サーバ装置３に送信する。音声認識サーバ装置３の操作音声変換プログラムによるテキスト変換部１５６は、「両面でコピー」との音声データをテキストデータに変換処理する（ステップＳ１８３）。

解釈部１５７は、音声アシスタントプログラムから取得した辞書情報に基づいて（ステップＳ１８４、ステップＳ１８５）、テキストデータに含まれる単語などが辞書情報にマッチしているか否かを確認する（ステップＳ１８６）。そして、マッチしている場合には、ユーザから指示された操作を示すインテントとジョブ条件などの変数を示すパラメータに変換し、音声データを取得するスマートスピーカ１００を特定するためのデバイスＩＤと共にＡＩアシスタントサーバ装置４に送信する（ステップＳ１８７）。

具体的には、この例の場合、解釈部１５７は、ＭＦＰ１に実行を要求する動作は「コピーである（インテント:Copy_Execcute）」と解釈し、「印刷面は両面である（印刷面＝両面）」と解釈する（ステップＳ１８６）。このように、解釈部１５７は、テキストデータに基づいて、ユーザから指定されたジョブの種別（インテント）及び内容（パラメータ）を示す解釈結果を生成する。この解釈結果は、管理プログラムに送信される（ステップＳ１８７）。このとき、解釈部１５７は、解釈結果と対応させて音声データの送信元となるスマートスピーカ１００を特定するデバイスＩＤをＡＩアシスタントサーバ装置４に送信しても良い。

ＡＩアシスタントサーバ装置４の管理プログラムの解釈結果変換部１６１は、スマートスピーカ１００から取得した解釈結果を、ＭＦＰ１のジョブ命令に変換処理する（ステップＳ１８８）。この解釈結果、及び、解釈結果から変換処理されたジョブ命令の一例は、上述の表１を用いて説明したとおりである。なお、解釈結果変換部１６１は、解釈結果をジョブ命令に変換するために、表１に相当する情報をＡＩアシスタントサーバ装置４のＨＤＤ３４等の記憶部に記憶し、参照できる構成としても良い。

上述の表１の例の場合、「ＣＯＰＹ＿ＥＸＥＣＵＴＥ」、「ＳＣＡＮ＿ＥＸＥＣＵＴＥ」、「ＰＲＩＮＴ＿ＥＸＥＣＵＴＥ」及び「ＦＡＸ＿ＥＸＥＣＵＴＥ」が、インテント（Ｉｎｔｅｎｔ）の一例である。また、「印刷面」及び「部数」等がパラメータ（Ｐａｒａｍｅｔｅｒ）の一例である。なお、パラメータとしては、ジョブの設定値として指定可能な全てのパラメータが含まれる。

ＡＩアシスタントサーバ装置４の解釈結果変換部１６１は、「ＣＯＰＹ＿ＥＸＥＣＵＴＥ」の解釈結果を、「コピージョブの実行」との、ＭＦＰ１のジョブ命令に変換処理する。同様に、解釈結果変換部１６１は、「ＳＣＡＮ＿ＥＸＥＣＵＴＥ」の解釈結果を、「スキャンジョブの実行」との、ＭＦＰ１のジョブ命令に変換処理する。同様に、解釈結果変換部１６１は、「ＰＲＩＮＴ＿ＥＸＥＣＵＴＥ」の解釈結果を、「印刷ジョブの実行」との、ＭＦＰ１のジョブ命令に変換処理する。同様に、解釈結果変換部１６１は、「ＦＡＸ＿ＥＸＥＣＵＴＥ」の解釈結果を、「ＦＡＸジョブの実行」との、ＭＦＰ１のジョブ命令に変換処理する。

なお、以上の説明は、ＭＦＰ１で実行される基本的なジョブの例であるが、クラウドサービスで解釈可能なジョブは、このような基本的なジョブに限定されない。例えば、通信対象に対して機器情報を収集させてクラウドサービスへ送信させるジョブ、通信対象が有する記憶部に記憶された所定の情報を通信対象の表示部に表示させるジョブ等も指示可能である。

また、解釈結果変換部１６１は、解釈結果に「印刷面」のパラメータが含まれている場合、「印刷面の設定値の変更」を行うＭＦＰ１のジョブ命令を形成する。同様に、解釈結果変換部１６１は、解釈結果に「部数」のパラメータが含まれている場合、「部数の設定値の変更」を行うＭＦＰ１のジョブ命令を形成する。

すなわち、解釈結果変換部１６１は、解釈結果の「Ｉｎｔｅｎｔ」に含まれる情報で、ユーザの意図、例えばＭＦＰ１に実行させるジョブの種類を判断し、「Ｐａｒａｍｅｔｅｒ」に含まれる値を、ジョブの設定値と判断して、解釈結果をジョブ命令に変換処理する。

ＡＩアシスタントサーバ装置４の解釈結果変換部１６１は、このようにして形成されたジョブ命令を、通信部３６を介してＭＦＰ１に送信する（ステップＳ１８９）。この例の場合、「コピージョブ実行（印刷面＝両面）」のジョブ命令がＭＦＰ１に送信される。なお、通信制御部５２は、管理部によって特定されたＭＦＰに対してジョブ命令を送信する。つまり、音声データの送信元の端末を特定するバイスＩＤと紐づいたＩＤで特定されるＭＦＰに対してジョブの実行を指示することができる。これにより、ＭＦＰ１で両面印刷が実行される。

（クラウドサービス装置における解釈動作の詳細）
音声認識サーバ装置３のＨＤＤ３４には、辞書情報が記憶されている。操作音声変換プログラムは、この辞書情報に基づいてインテント及びパラメータを生成する。より具体的には、操作音声変換プログラムは、音声データから変換したテキストデータに含まれる単語などが辞書情報とマッチするか否かを判断し、マッチする場合は辞書情報に定義されているインテント及びパラメータを含む解釈結果を生成する。

辞書情報は、インテント及びパラメータを生成することができればどのような形態であっても良い。一例として、この例の場合、辞書情報は、エンティティ（Ｅｎｔｉｔｙ）情報、インテント（Ｉｎｔｅｎｔ）情報及び関連付け情報を含んで構成されている。エンティティ情報は、ジョブのパラメータと自然言語を関連付ける情報である。１つのパラメータに複数の類義語が登録可能となっている。インテント情報は、ジョブの種類を示す情報である。関連付け情報は、ユーザの発話フレーズ（自然言語）とエンティティ情報、及び、ユーザの発話フレーズ（自然言語）とインテント情報を、それぞれ関連付ける情報である。関連付け情報により、パラメータの発話順序又はニュアンスが多少変わっても、正しい解釈が可能となっている。また、関連付け情報により、入力された内容に基づいてレスポンスのテキスト（解釈結果）を生成しても良い。

上述の図１０は、エンティティ情報の一例を示している。この図１０の例は、印刷色（ＰｒｉｎｔＣｏｌｏｒ）に対応するエンティティ情報である。この図１０において、「ＰｒｉｎｔＣｏｌｏｒ」の文字は、エンティティ名を示している。また、図１０において、左の列の「ａｕｔｏ＿ｃｏｌｏｒ」、「ｍｏｎｏｃｈｒｏｍｅ」、「ｃｏｌｏｒ」・・・等の文字は、パラメータ名を示している。また、図１０において、右の列の「ａｕｔｏ＿ｃｏｌｏｒ」、「ｍｏｎｏｃｈｒｏｍｅ，ｂｌａｃｋａｎｄｗｈｉｔｅ」、「ｃｏｌｏｒ，ｆｕｌｌｃｏｌｏｒ」・・・等の文字は、類義語を示している。

図１１（ａ）は、ユーザの発話フレーズの例、図１１（ｂ）は、インテント名、図１１（ｃ）は、エンティティ情報を示している。この図１１（ａ）～図１１（ｃ）に示すように、クラウドサービス４が備える表示部３８に表示される画面上において、操作部３９を操作することで、ユーザの発話をドラッグする。または、ネットワークを介してクラウドサービスにアクセスした装置の表示部に表示される画面上において、この装置の操作部を操作することで、ユーザの発話をドラッグする。

これにより、関連付け対象となるエンティティ情報を選択できるようになっている。また、選択したエンティティ情報でバリュー（ＶＡＬＵＥ）を設定すると、応答で入るパラメータが変更される。例えば、「Ｐｌｅａｓｅｃｏｐｙｂｙｂｌａｃｋａｎｄｗｈｉｔｅ」と発話した場合、バリューを「ＳｐｒｉｎｔＣｏｌｏｒ」とすると、戻り値として「ｐｒｉｎｔＣｏｌｏｒ＝ｍｏｎｏｃｈｒｏｍｅ」が返る。これに対して、バリューを「ＳｐｒｉｎｔＣｏｌｏｒ．ｏｒｉｇｉｎａｌ」とすると、戻り値として「ｐｒｉｎｔＣｏｌｏｒ＝ｂｌａｃｋａｎｄｗｈｉｔｅ」が返る。ここで、バリューを「ＳｐｒｉｎｔＣｏｌｏｒ．ｏｒｉｇｉｎａｌ」とすると、ユーザの発話内容をそのまま応答のパラメータとして返すことができる。

（対話型動作）
次に、実施の形態の音声操作システムでは、ユーザからの入力内容に基づいて、システムが応答する対話型システムを実現している。実施の形態の音声操作システムでは、対話に必要な定型文を応答する以外に、ＭＦＰ１の操作特有の応答として、「入力不足フィードバック」及び「入力確認フィードバック」の、２種類の応答を行うことで、対話によるＭＦＰ操作を可能とする対話型ＭＦＰ操作システムを実現している。

例えば、クラウドサービス装置が通信接続中の外部装置の種類に応じて、ユーザに確認する機能、及びパラメータを変更しても良い。この場合、機器情報取得部１６３が外部装置との通信が確立した後の所定のタイミングで外部装置の種類及び機能を示す情報を取得し、取得した情報に基づいてユーザに確認する機能及びパラメータを例えばフィードバック部１５３が決定してもよい。

例えば、外部装置の種類がＭＦＰ１である場合、コピー、プリント、スキャン、ＦＡＸなどのＭＰＦ１が有する機能をユーザに確認でき、更に、コピー、プリント、スキャン、ＦＡＸのうちＭＦＰ１が有している機能についてのみ、いずれの機能を使用するかをユーザに確認しても良い。また、ユーザから指定された設定条件に応じて必須パラメータを変更しても良い。つまり、ユーザが指定した印刷条件が変倍印刷の場合は印刷する用紙サイズを必須パラメータとして、両面印刷の場合は原稿が片面か両面かを示す設定を必須パラメータとして、週刊誌綴じ印刷の場合は仕上がりサイズ及び１ページに含めるページ数などの設定を必須パラメータとして設定する。

（両面で２部のコピーを行うようにＭＦＰを対話型操作する例）
図２６～図３４は、このような対話型動作の流れを示すシーケンス図である。

（音声アシスタントプログラムの起動動作の流れ）
まず、図２６のシーケンス図は、音声アシスタントプログラムの起動動作の流れを示している。この図２６において、まず、ユーザは、スマートスピーカ１００の操作音声処理プログラムを起動操作した後、例えば音声入力によって音声アシスタントプログラムの起動を指示する。一例ではあるが、ユーザが音声アシスタントプログラムを起動するための起動ワードを発話することで、音声認識サーバ装置３の音声アシスタントプログラムを起動させることができる（ステップＳ１９１）。

スマートスピーカ１００の通信制御部１５２は、音声認識サーバ装置３に対して起動ワードの音声データを送信する（ステップＳ１９２）。音声認識サーバ装置３のテキスト変換部１５６は、起動ワードの音声データをテキストデータに変換する（ステップＳ１９３）。また、音声認識サーバ装置３の解釈部１５７は、音声アシスタントプログラムから提供される辞書情報（ＨＤＤ３４に記憶されている辞書情報）に基づいて（ステップＳ１９４、ステップＳ１９５）、起動ワードのテキストデータを、インテント及びパラメータに変換し（テキスト解釈）、スマートスピーカ１００のデバイスＩＤと共にＡＩアシスタントサーバ装置４に送信する（ステップＳ１９７）。

ＡＩアシスタントサーバ装置４の実行判定部１６４は、インテント及びパラメータに基づいて、ジョブ実行に必要な条件が全て揃っているか否かを判断する（ステップＳ１９８～ステップＳ２０２）。例えば、実行判定部１６４は、必須パラメータを満たしているか否かを判断し（ステップＳ２０２）、必須パラメータを満たしていない場合には、音声認識サーバ装置３の操作音声変換プログラムを介して、スマートスピーカ１００にレスポンス情報を送信する（ステップＳ２０３、ステップＳ２０４）。

レスポンス情報には、例えばテキストデータ、音声データ、画像データ等が含まれる。ここでは、一例として、「コピーしますか？スキャンしますか？」のテキストデータをスマートスピーカ１００に送信する。なお、ユーザに対してジョブの種類又はジョブの設定条件の入力を促すメッセージであれば内容はこれに限定されない。また、スマートスピーカ１００でテキストデータを音声データに変換できない場合、音声データの情報形態で送信しても良い。更に、ユーザに対するフィードバックは、音声出力だけでなく、タッチパネル２７にテキスト又は画像を表示することで行っても良い。これにより、スマートスピーカ１００のフィードバック部１５３は、「コピーしますか？スキャンしますか？」との音声フィードバックを行う（ステップＳ２０５）。

なお、音声認識サーバ装置３の音声アシスタントプログラムの起動を指示する際に、ジョブの種類及び設定条件を指定していた場合、上述のステップは省略しても良い。また、ＡＩアシスタントサーバ装置４の実行判定部１６４は、レスポンス情報の送信に先立ち、取得したスマートスピーカ１００のデバイスＩＤに対応するＭＦＰ１を紐づけ用ＤＢ１０２から検索しても良い。

このとき、スマートスピーカ１００のデバイスＩＤと紐づくＭＦＰ１が紐づけ用ＤＢ１０２に記憶されていない場合、実行判定部１６４は、スマートスピーカ１００が通信対象と紐づけられていないことをユーザに通知する。例えば、実行判定部１６４は、「このデバイスは機器と紐づけられていません」とのレスポンスを含むレスポンス情報を形成する。ここで、実行判定部１６４は、デバイスと通信対象を紐づけする方法をレスポンスに含めても良い。なお、紐づけ用ＤＢ１０２からのＭＦＰ１の検索及びレスポンス情報の形成は、スマートスピーカ１００のデバイスＩＤを取得した他の任意のタイミングで行っても良い。

また、実行判定部１６４は、レスポンス情報の送信に先立ち、通信対象の機器状態を確認しても良い。実行判定部１６４は、機器情報取得部１６３によって機器情報を取得することで、又は、機器情報取得部１６３が予め取得した機器情報を参照することで、通信対象と通信可能か否か、及び、通信対象が使用可能か否かを判断する。このとき、スマートスピーカ１００のデバイスＩＤと紐づくＭＦＰ１との接続が確立していない場合、又はＭＦＰが起動中などで使用できない場合、実行判定部１６４は、ユーザに対して通知を行う。

例えば、実行判定部１６４は、「機器がオフラインです」又は「機器が準備中です」とのレスポンスを含むレスポンス情報を形成する。ここで、実行判定部１６４は、対策方法をレスポンスに含めても良い。なお、機器状態の確認は、音声認識サーバ装置３の操作音声変換プログラムからインテント及びパラメータ、デバイスＩＤを取得した他の任意のタイミングで行っても良い。

また、実行判定部１６４は、レスポンス情報の送信に先立ち、通信対象にユーザから指定された機能を実行するアプリケーションの状態を確認しても良い。実行判定部１６４は、機器情報取得部１６３によって機器情報を取得することで又は機器情報取得部１６３が予め取得した機器情報を参照することで、アプリケーションがインストールされているか否か、アプリケーションが実行可能な状態であるか否かを判断する。

例えば、実行が指示されたコピー機能に関するアプリケーションがスマートスピーカ１００のデバイスＩＤと紐づくＭＦＰ１にインストールされていない場合、又はコピー機能に関するアプリケーションが起動中などで使用できない場合、実行判定部１６４はユーザに対して通知を行う。例えば、実行判定部１６４は、「アプリケーションがインストールされていません」又は「アプリケーションは現在利用できません」とのレスポンスを含むレスポンス情報を形成する。ここで、実行判定部１６４は、対策方法をレスポンスに含めても良い。

なお、アプリケーションの状態の確認は、操作音声変換プログラムからインテント及びパラメータ、デバイスＩＤを取得した他の任意のタイミングで行っても良い。また、実行判定部１６４は、レスポンス情報の送信に先立ち、機器情報取得部によって機器情報を取得することで又は機器情報取得部が予め取得した機器情報を読み出することで機器情報を取得しても良い。取得した機器情報は、例えばユーザが指示したジョブ種類及びジョブ条件が通信対象で実行可能か否かを判断する際に利用される。

（音声アシスタントプログラムの起動動作の流れ）
次に、図２７のシーケンス図は、コピー機能を指示した際の動作の流れを示す図である。上述のステップＳ２０５において、「コピーしますか？スキャンしますか？」との音声フィードバックに対して、ユーザが、「コピー」と発音した場合（ステップＳ２１１）、又は音声アシスタントプログラムの起動指示の際に「コピー」と発話していた場合、スマートスピーカ１００の通信制御部１５２は、音声認識サーバ装置３に対して、「コピー」との音声データを送信する。（ステップＳ２１２）。音声認識サーバ装置３の操作音声変換プログラムのテキスト変換部１５６は、「コピー」との音声データをテキストデータに変換処理する（ステップＳ２１３）。

音声認識サーバ装置３の解釈部１５７は、図１０及び図１１を用いて説明したように、テキストデータで示されるユーザの発話フレーズを解釈し（ステップＳ２１４～ステップＳ２１６）、解釈結果となるインテント及びパラメータを、スマートスピーカ１００のデバイスＩＤと共に、ＡＩアシスタントサーバ装置４に送信する。ここでは、「Ｃｏｐｙ＿Ｅｘｅｃｕｔｅ」としたインテントを解釈結果として生成し、管理プログラムへ送信する（ステップＳ２１７）。

次に、この例の場合、ユーザは、「コピー」としか発音していないため、コピー部数及び片面又は両面等のコピー形態等の不明となる（入力不足）。このため、ＡＩアシスタントサーバ装置４の管理プログラムの実行判定部１６４は、必須パラメータを満たしていないと判断する（ステップＳ２１８）。これにより、ＡＩアシスタントサーバ装置４は、スマートスピーカ１００に対して、不足しているパラメータの問い合わせを行う（ステップＳ２１９、ステップＳ２２０）。

具体的には、ＡＩアシスタントサーバ装置４の実行判定部１６４は、例えば「設定値を入力してください」とのレスポンス情報（Ｒｅｓｐｏｎｓｅ）を形成する。ＡＩアシスタントサーバ装置４の管理プログラムの通知部１６５は、このレスポンス情報を、音声認識サーバ装置３の音声変換プログラムを介してスマートスピーカ１００に送信する（ステップＳ２２０）。スマートスピーカ１００のフィードバック部１５３は、スマートスピーカ１００を介して「設定値を入力してください」との音声出力を行うと共に、タッチパネル２７に対して「設定値を入力してください」とのテキスト表示を行う（ステップＳ２２１：入力不足フィードバック）。ただし、音声出力又はタッチパネルのテキスト表示の一方を省略しても良い。

また、ＡＩアシスタントサーバ装置４の管理プログラムの通知部１６５は、操作音声変換プログラムに対してレスポンス情報を送信するとき、セッションが継続していることを示す状態情報を送信しても良い。状態情報は、セッションの状況を示す情報であり、例えば、ＭＦＰ１等の外部装置に対するジョブ実行命令の送信がまだ行われておらず、ユーザによるジョブの設定処理が継続中である場合には、セッションが継続していることを示す状態情報が送信される。また、外部装置に対するジョブ実行命令の送信が完了した場合には、セッションが終了したことを示す状態情報が送信される。

ただし、状態情報はこれに限定されず、より詳細にセッションの状況を示す情報形態としてもよい。音声認識サーバ装置３の操作音声変換プログラムの解釈部１５７は、状態情報に応じて、セッションを継続するか終了するかを判断する。つまり、操作音声変換プログラムの解釈部１５７は、セッションが継続中である場合には、ユーザが複数回の発話に分けてジョブ設定条件を指定した場合であっても、一つのジョブに属するものであると判断し、セッションが終了した場合には、ユーザの発話に含まれるジョブ設定条件は新規のジョブに属するものであると判断することができる。これにより、音声認識サーバ装置３の操作音声変換プログラムは、ジョブの種類及びジョブ設定条件の指示が複数回の発話に跨るような場合であったとしても、同一のジョブに属するものか、別の新規なジョブに属するものかを判断することができる。

なお、音声認識サーバ装置３の操作音声変換プログラムは、スマートスピーカ１００から信号を受信しない状況が所定時間以上継続した場合は、セッション終了と判断しても良い。音声認識サーバ装置３がセッションを管理する場合であっても、通信対象（ＭＦＰ１）は、セッションに関わらずジョブ実行を行っても良い。この場合、通信対象のＭＦＰ１は、ジョブ実行命令を取得すると、現在、ＭＦＰ１が保持しているジョブ条件に対して、取得したジョブ実行命令に含まれるジョブ条件を上書きして設定する。このとき、通信対象で保持するジョブ条件を全て削除又はデフォルト条件に戻して、ジョブ実行命令に含まれるジョブ条件を設定しても良い。

また、通信対象で保持するジョブ条件と矛盾するジョブ条件についてはジョブ実行命令に含まれるジョブ条件を優先して上書き設定し、矛盾しないジョブ条件は通信対象が予め保持していたジョブ条件を維持しても良い。なお、通信対象は、ジョブを実行した場合はジョブ実行命令に含まれるジョブ条件を削除して、通信対象に予め登録されたデフォルト状態にすることができる。

次に、入力不足フィードバックがあったため、ユーザは、例えば「両面で」とのコピー形態を指示する発話を行う（ステップＳ２２２）。スマートスピーカ１００の通信制御部１５２は、音声認識サーバ装置３に対して、「両面で」との音声データを送信し、テキスト変換要求を行う（ステップＳ２２３）。音声認識サーバ装置３の操作音声変換プログラムのテキスト変換部１５６は、「両面で」との音声データをテキストデータに変換処理する（ステップＳ２２４）。

音声認識サーバ装置３の解釈部１５７は、テキストデータで示されるユーザの発話フレーズを解釈し（ステップＳ２２５～ステップＳ２２７）、解釈結果となるインテント及びパラメータを、スマートスピーカ１００のデバイスＩＤと共に、ＡＩアシスタントサーバ装置４に送信する（ステップＳ２２８）。

この例においては、「印刷面＝両面」としたパラメータを解釈結果として生成する。これによって解釈部１５７は、前回の発話に含まれるインテント及びパラメータと合わせて、「Ｃｏｐｙ＿Ｅｘｅｃｕｔｅ」としたインテント、及び「印刷面＝両面」としたパラメータを含む解釈結果をＡＩアシスタントサーバ装置４に送信する。

次に、この例の場合、ユーザは、「コピー」及び「両面で」としか発音していないため、コピー部数等が不明となる（再度の必須パラメータ不足）。なお、以上の説明は、音声認識サーバ装置３の操作音声変換プログラムが、前回の発話の解釈結果と今回の発話の解釈結果とを統合してインテント及びパラメータを生成する場合について説明したが、これに限定されない。即ち、ＡＩアシスタントサーバ装置４の管理プログラムは、前回の発話の解釈結果を記憶しておき、管理プログラムによって前回の発話の解釈結果と今回の発話の解釈結果とを統合してインテント及びパラメータを生成しても良い。この場合、音声認識サーバ装置３の解釈部１５７は、今回の発話によって新たに取得した、「印刷面＝両面」としたパラメータのみをＡＩアシスタントサーバ装置４の管理プログラムへ送信しても良い。

複数のパラメータのうち、いずれのパラメータが必須パラメータであるかは、ＡＩアシスタントサーバ装置４のＨＤＤ２４等の記憶部に予め記憶しておくことができる。この場合、ＡＩアシスタントサーバ装置４の実行判定部１６４は、記憶部に記憶された必須パラメータの情報に基づいて、スマートスピーカ１００から取得したパラメータにより、全ての必須パラメータの設定が完了しているか否かを判断し、必須パラメータの設定が完了していない場合は、必須パラメータの設定を行うように、スマートスピーカ１００を介してユーザへ促すことができる。

このため、ＡＩアシスタントサーバ装置４の管理プログラムの実行判定部１６４は、「何部印刷しますか？」とのレスポンス情報（Ｒｅｓｐｏｎｓｅ）を形成する（ステップＳ２２９）。ＡＩアシスタントサーバ装置４の通知部１６５は、このレスポンス情報を、音声認識サーバ装置３の操作音声変換プログラムを介してスマートスピーカ１００に送信する（ステップＳ２３０、ステップＳ２３１）。スマートスピーカ１００のフィードバック部１５３は、スピーカ部２８を介して「何部印刷しますか？」との音声出力を行うと共に、タッチパネル２７に対して「何部印刷しますか？」とのテキスト表示を行う（ステップＳ２３２：入力不足フィードバック）。

（部数設定動作）
次に、図２８は、部数設定動作の流れを示すシーケンス図である。図２７のシーケンス図のステップＳ２３２において、スマートスピーカ１００を介して「何部印刷しますか？」との、再度、入力不足フィードバックがあったため、ユーザは、例えば「２部」と発話する（ステップＳ２４１）。スマートスピーカ１００の通信制御部１５２は、音声認識サーバ装置３に対して、「２部」との音声データを送信し、テキスト変換要求を行う（ステップＳ２４２）。音声認識サーバ装置３の操作音声変換プログラムのテキスト変換部１５６は、「２部」との音声データをテキストデータに変換する（ステップＳ２４３）。

操作音声変換プログラムの解釈部７２は、テキストデータで示されるユーザの発話フレーズを辞書情報に基づいて解釈する（ステップＳ２４４～ステップＳ２４６）。この例では、解釈部７２は、「部数＝２部」としたパラメータを解釈結果として生成する。解釈部７２は、以前の発話に含まれるインテント及びパラメータと合わせて、「Ｃｏｐｙ＿Ｅｘｅｃｕｔｅ」としたインテント、及び「印刷面＝両面、部数＝２部」としたパラメータを含む解釈結果をＡＩアシスタントサーバ装置４へ送信する（ステップＳ２４７）。

ＡＩアシスタントサーバ装置４の実行判定部１６４は、「印刷面＝両面、部数＝２部」としたパラメータを受信することで、ステップＳ２４８の必須パラメータ充足判断において、コピーのジョブに対する必須パラメータ不足が解消したものと判断する。このため、実行判定部１６４は、「両面で２部コピーします。よろしいですか？」とのレスポンス情報を形成する。このレスポンス情報は、通知部１６５及び音声認識サーバ装置３を介してスマートスピーカ１００に送信される（ステップＳ２４９、ステップＳ２５０）。

スマートスピーカ１００のフィードバック部５５は、レスポンス情報に含まれるＲｅｓｐｏｎｓｅに基づいて、必須パラメータ不足が解消し、コピーを開始する準備が整ったことを示す、例えば「両面で２部コピーします。よろしいですか？」との入力確認フィードバックの音声及びテキストを出力する（ステップＳ２５１）。

ここで、レスポンス情報に含まれるテキストデータ及び音声データを出力することに代えて、レスポンス情報に含まれる情報に基づいてスマートスピーカ１００の記憶部に記憶されたテキストデータに基づいて生成したテキストデータを出力（音声出力又は表示）してもよい。この入力確認フィードバックに対して、ユーザは、設定値の変更の指示、又はコピーの開始指示を行う。

（設定値の変更動作）
設定値の変更指示を行う場合、ユーザは、スマートスピーカ１００に対して変更する設定値の音声入力を行う（ステップＳ２５２）。例えば、印刷部数を２部から３部に変更する場合、ユーザは「３部」と音声入力を行う。また、印刷面を両面から片面に変更する場合、ユーザは、「片面」との音声入力を行う。この音声入力に基づいて、ＡＩアシスタントサーバ装置４で必須パラメータの充足判断が行われ、レスポンス情報に基づいて、スマートスピーカ１００から例えば「（変更された内容）でコピーします。よろしいですか？」との入力確認フィードバックが行われる（ステップＳ２５３～ステップＳ２６２）。

このような設定値の変更動作（ステップＳ２５２～ステップＳ２６２）は、ユーザが入力確認フィードバックされた設定値を許容する音声入力（テキスト入力、ボタン入力等でもよい）が行われるまで、繰り返し行われる。すなわち、このような設定値の変更動作は、ユーザが入力確認フィードバックされた設定値を許容する、「はい」との音声入力が行われるまで、繰り返し行われる。

（ＭＦＰに対するジョブの実行指示動作）
次に、図２９は、ＭＦＰ１に対するジョブの実行指示動作の流れを示すシーケンス図である。上述の入力確認フィードバックにより、ユーザが「はい」との応答の音声入力を行うと（ステップＳ２７１）、音声認識サーバ装置３の操作音声変換プログラムでテキスト化される（ステップＳ２７２）。音声認識サーバ装置３の操作音声変換プログラムの解釈部１５７は、テキストデータに基づいてコピー開始指示を認識すると、「Ｃｏｐｙ＿Ｅｘｅｃｕｔｅ」としたインテントに、「印刷面＝両面」及び「部数＝２部」とのパラメータを付加した解釈結果を形成し、これを管理プログラムに送信する（ステップＳ２７４～ステップＳ２７７）。

ＡＩアシスタントサーバ装置４の管理プログラムの実行判定部１６４によって解釈結果が必須パラメータを満たしていると判断された場合（ステップＳ２７８）、解釈結果変換部１６１は、解釈結果をＭＦＰ１のジョブ命令に変換処理し（ステップＳ２７９）する。そして、実行指示部１６２が、変換処理した実行指示情報をＭＦＰ１に送信する（ステップＳ２８０）。これにより、ＭＦＰ１のコピー、スキャン等の機能、１部、２部等の実行部数、及び、片面、両面等の実行形態等を音声入力により設定して、ＭＦＰ１の動作を制御することができる。

ＭＦＰ１に対してジョブの実行を指示すると、ＡＩアシスタントサーバ装置４の実行指示部１６２は、ＭＦＰ１に対してジョブの実行を指示した旨の情報、及び、現在のジョブの実行状態（ＭＦＰ１の現在の状態）を含むレスポンス情報を形成する。ＡＩアシスタントサーバ装置４の通知部１６５は、このレスポンス情報を、音声認識サーバ装置３を介してスマートスピーカ１００に送信する（ステップＳ２８１、２８２）。スマートスピーカ１００のフィードバック部１５３は、レスポンス情報からジョブの実行を指示した旨の情報を検出すると、例えば「（指示されたジョブを）スタートします」等の音声フィードバック及びテキストフィードバックを行う（ステップＳ２８３）。これにより、ユーザは、ＭＦＰ１において、指示したジョブの実行が開始されたことを認識することができる。

なお、ＡＩアシスタントサーバ装置４の管理プログラムの実行判定部１６４によって解釈結果が必須パラメータを満たしていると判断された場合（ステップＳ２７８）、スマートスピーカ１００に対するフィードバック動作は省略しても良い。

（ＡＩアシスタントサーバ装置からフィードバックされる情報の例）
次に、上述の説明では、スマートスピーカ１００のフィードバック部１５３はレスポンス情報に含まれるテキストデータ及び音声データを出力することとして説明した。しかし、フィードバック部１５３は、スマートスピーカ１００の記憶部に記憶されているテキストデータに基づいて、レスポンス情報に対応するテキストデータを形成し、フィードバック出力（音声出力及びテキスト出力）を行ってもよい。

具体的には、表２を用いて上述したように、例えばジョブの設定値の入力促すための「Ｃｏｐｙ＿Ｐａｒａｍｅｔｅｒ＿Ｓｅｔｔｉｎｇ」、ジョブの設定値の確認を促すための「Ｃｏｐｙ＿Ｃｏｎｆｉｒｍ」等のインテントが、レスポンス情報に含められて、ＡＩアシスタントサーバ装置４からスマートスピーカ１００にフィードバックされる。

フィードバック部１５３は、レスポンス情報に含まれるインテント、パラメータ、レスポンスに応じて、ユーザに対するフィードバックを判断する。フィードバック部１５３は、フィードバックする内容を決定するために、表２に相当する情報をスマートスピーカ１００の記憶部に記憶し、参照できる構成としても良い。

なお、表２では、コピーの場合を例に説明したが、プリント、スキャン、ＦＡＸも表２と同様にアクションとして、ジョブの設定値の入力促すための「Ｐａｒａｍｅｔｅｒ＿Ｓｅｔｔｉｎｇ」、ジョブの設定値の確認を促すための「Ｃｏｎｆｉｒｍ」が用いられても良い。レスポンス情報には、インテント及びパラメータ又はレスポンスの少なくとも一方が含まれていれば良い。

また、例えば両面又は片面等の印刷面の設定値、又は、コピー部数等のパラメータが、レスポンス情報に含められて端末２にフィードバックされる。さらに、必須パラメータが不足している場合、不足するパラメータの入力を促すメッセージが、レスポンスとして信号に含められてスマートスピーカ１００にフィードバックされる。

（ＭＦＰでエラーが発生した場合の動作）
次に、ＭＦＰ１でジョブが実行され、又は、エラーが発生した場合の動作を説明する。ＭＦＰ１がジョブを実行することで、何事もなくジョブが完了すれば、例えば「ジョブが完了しました。原稿の取り忘れに注意してください。」等の完了メッセージ（音声及びテキスト）が、スマートスピーカ１００を介して出力される。

これに対して、例えば用紙不足のエラーが発生した場合、ＡＩアシスタントサーバ装置４は、スマートスピーカ１００に対して、例えば「用紙がありません。用紙を補充して継続するか、ジョブをキャンセルしてください」等のジョブの確認フィードバックを行う。この確認フィードバックに対して、ユーザがＭＦＰ１に用紙を補充し、「継続」との発話により応答した場合、音声認識サーバ装置３の実行指示部１６２により、ＭＦＰ１に対してジョブの継続が指示され、ＭＦＰ１でジョブが再開される。

これに対して、確認フィードバックにより、ユーザが「キャンセル」との発話することで、ジョブのキャンセルが指示された場合、ＡＩアシスタントサーバ装置４の実行指示部１６２は、ＭＦＰ１に対してジョブのキャンセルを指示し、ＭＦＰ１において、エラー発生以降のジョブの実行がキャンセルされる。この場合、スマートスピーカ１００を介して、例えば「ジョブをキャンセルしました」等の音声及びテキストを出力する確認フィードバックが行われる。

図３０は、このようなジョブの実行動作及びエラー発生時の対話動作の流れを示すシーケンス図である。スマートスピーカ１００は、ＭＦＰ１から通知されたジョブ実行結果を（ステップＳ３５０）、ＡＩアシスタントサーバ装置４を介して取得すると（ステップＳ３５１）、ユーザに対して正常にジョブが完了した旨のフィードバック（ステップＳ３５２）、又は、エラーが発生したことを示すフィードバックを行う（ステップＳ３５２）。

正常にジョブが完了した旨の実行結果を受信した場合、スマートスピーカ１００のフィードバック部１５３は、例えば「ジョブが完了しました」等の音声メッセージを出力する（ステップＳ３５２）。これに対して、エラーが発生した旨の実行結果を受信した場合、スマートスピーカ１００のフィードバック部１５３は、例えば「エラーが発生しました。ジョブを継続しますか、キャンセルしますか？」等の、ジョブの継続の是非を問う音声メッセージを出力する（ステップＳ３５３）。

具体的には、ＭＦＰ１は、ジョブが完了すると、完了通知をＡＩアシスタントサーバ装置４の管理プログラムに対して送信する。また、ＭＦＰ１は、エラーが発生した場合には、エラー内容等のエラーに関するエラー情報をＡＩアシスタントサーバ装置４へ送信する。また、ＡＩアシスタントサーバ装置４の管理プログラムは、ＭＦＰ１から取得した情報に対応して、例えば「ジョブが完了しました」又は「エラーが発生しました。ジョブを継続しますか、キャンセルしますか？」等の応答情報を含むレスポンス情報を形成し、音声認識サーバ装置３を介してスマートスピーカ１００へ送信する。

図３０のステップＳ３５４～ステップＳ３６１は、ユーザが、継続を指定した場合の各部の動作の流れである。すなわち、「エラーが発生しました。ジョブを継続しますか、キャンセルしますか？」との問い合わせに対し、ユーザがエラーの発生要因を除去したうえで、「継続」と応答した場合（ステップＳ３５４）、上述のように「継続」の音声が、スマートスピーカ１００の操作音声変換プログラムによりテキスト化され、解釈される（ステップＳ３５５、ステップＳ３５６）。

スマートスピーカ１００操作音声変換プログラムは、インテントを「Ｃｏｐｙ＿Ｊｏｂ＿Ｃｏｎｔｉｎｕｅ」とした解釈結果を生成して、ＡＩアシスタントサーバ装置４の管理プログラムへ送信する（ステップＳ３５７）。ＡＩアシスタントサーバ装置４の管理プログラムの通知部１６５は、「ジョブを継続します」としたレスポンス情報を生成し（ステップＳ３５８）、音声認識サーバ装置３を介してスマートスピーカ１００に送信する（ステップＳ３５９）。さらに、ＡＩアシスタントサーバ装置４の管理プログラムの実行指示部１６２は、ＭＦＰ１に対してジョブの継続を指示する（ステップＳ３６１）。また、スマートスピーカ１００のフィードバック部１５３は、「ジョブを継続します」との入力確認フィードバックを行う（ステップＳ３６０）。

これに対して、図３０のステップＳ３６２～ステップＳ３６８は、ユーザが、ジョブのキャンセルを指定した場合の各部の動作の流れである。すなわち、「エラーが発生しました。ジョブを継続しますか、キャンセルしますか？」との問い合わせに対し、ユーザが、「キャンセル」と応答すると（ステップＳ３６２）、この「キャンセル」の音声データが音声認識サーバ装置３に送信される（ステップＳ３６３）。音声認識サーバ装置３の操作音声変換プログラムの解釈部１５７は、この音声データをテキスト化して解釈する（ステップＳ３６４）。

解釈部１５７は、インテントを「Ｃｏｐｙ＿Ｊｏｂ＿Ｃａｎｃｅｌ」とした解釈結果を生成して、ＡＩアシスタントサーバ装置４の管理プログラムへ送信する（ステップＳ３６５）。ＡＩアシスタントサーバ装置４の管理プログラムの実行判定部１６４は、「ジョブをキャンセルします」とのレスポンス情報を生成する。通知部１６５は、このレスポンス情報をスマートスピーカ１００に送信する（ステップＳ３６６）。これにより、スマートスピーカ１００のフィードバック部１５３は、「ジョブをキャンセルします」との入力確認フィードバックを行う（ステップＳ３６８）。また、ＡＩアシスタントサーバ装置４の管理プログラムの実行指示部５４は、ＭＦＰ１に対してジョブのキャンセルを指示する（ステップＳ３６７）。

（ＭＦＰの機器能力に応じたパラメータの調整動作）
次に、ＭＦＰ１の機器能力に対応したジョブの実行を、対話型操作により実現する例を、図３１及び図３２のシーケンス図を用いて説明する。図３１は、ユーザから指示されたジョブに必要な機器能力を、ＭＦＰ１が有しているか否かの判定を行うまでの動作の流れを示すシーケンス図である。図３２は、ＭＦＰ１の機器能力で、ジョブの実行が可能である場合、及び、ジョブの実行が困難である場合の動作の流れを示すシーケンス図である。

まず、図３１のシーケンス図において、ユーザより「起動」が指示されると（ステップＳ３７１）、ＡＩアシスタントサーバ装置４の管理プログラムの機器情報取得部１６３が、ＭＦＰ１に対して、例えば処理可能な解像度の問い合わせを行う（Ｃａｐａｂｉｌｉｔｙの取得：ステップＳ３７２）。この問い合わせに対して、ＭＦＰ１は、例えば「２００ｄｐｉ～６００ｄｐｉ」等のように、処理可能な解像度をＡＩアシスタントサーバ装置４に回答する（ステップＳ３７３）。ＡＩアシスタントサーバ装置４は、ＭＦＰ１の処理可能な解像度を示す情報をスマートスピーカ１００に送信する。これにより、スマートスピーカ１００において、ＭＦＰ１の処理可能な解像度が認識される。

なお、ＡＩアシスタントサーバ装置４の機器情報取得部１６３は、ＭＦＰ１との通信回線が確立した後の所定のタイミングで、ＭＦＰ１から処理能力の情報を取得しても良い。また、紐づけ用ＤＢ１０２の管理テーブルにスマートスピーカ１００とＭＦＰ１とを関連付けて登録する際に、ＭＦＰ１の処理能力の情報を取得して登録してもよい。また、ＡＩアシスタントサーバ装置４の機器情報取得部１６３が、ＭＦＰ１から定期的に処理能力の情報を取得してもよい。また、機器情報取得部１６３は、音声認識サーバ装置３がスマートスピーカ１００から音声アシスタントプログラムの起動を受け付けたタイミング、又は、スマートスピーカ１００からジョブの実行指示を受け付けたタイミングで、ＭＦＰ１から処理能力の情報を取得しても良い。

取得した処理能力の情報は、ＡＩアシスタントサーバ装置４のＨＤＤ４４等の記憶部に記憶してもよいし、紐づけ用ＤＢ１０２の管理テーブルに、ＭＦＰ１と紐づけて記憶してもよい。また、処理能力の情報の取得は、他のプログラムが実行し、機器情報取得部１６３は、他のプログラムが取得した情報を取得することで、間接的にＭＦＰ１が有する情報を取得しても良い。また、機器情報取得部１６３が、ＭＦＰ１から取得する情報は、処理能力の情報に限定されず、例えばＭＦＰにインストールされたアプリケーションの種類及びバージョン、印刷速度、処理可能なファイル形式、フィニッシャを含むオプション機器の接続状況など、ＭＦＰ１で実行可能なジョブの種類又はジョブの設定条件に関する情報を取得してもよい。

次に、ユーザによりスマートスピーカ１００の操作音声処理プログラムが起動操作された後、例えば音声入力で「起動」を指示すると、スマートスピーカ１００の通信制御部１５２は、音声認識サーバ装置３に対して、この「起動」の音声データを送信する。これにより、「起動」の音声データがテキスト変換されて解釈され、解釈結果がＡＩアシスタントサーバ装置４に通知される。ＡＩアシスタントサーバ装置４の実行判定部１６４は、必須パラメータを満たしているか否かを判断する。

この時点では、ジョブの種類も指定されておらず、必須パラメータを満たしていない状態であるため、ＡＩアシスタントサーバ装置４は、スマートスピーカ１００に対して、「コピーしますか？スキャンしますか？」等のジョブの種類の入力を促すレスポンス情報を送信する。これのより、スマートスピーカ１００のフィードバック部１５３は、例えば「コピーしますか？スキャンしますか？」等のジョブの指示を促す音声フィードバックを行う（ステップＳ３７４）。

次に、ユーザが「スキャン」と発話すると（ステップＳ３７５）、音声認識サーバ装置３の操作音声変換プログラムによりテキスト化され解釈される（ステップＳ３７６、ステップＳ３７７）。また、音声認識サーバ装置３の解釈部３７７は、インテントを「Ｓｃａｎ＿Ｅｘｅｃｕｔｅ」とした解釈結果を生成し、ＡＩアシスタントサーバ装置４の管理プログラムへ送信する（ステップＳ３７８）。

ＡＩアシスタントサーバ装置４の実行判定部１６４は、受信した解釈結果に基づいて必須パラメータの充足判断を行うが（ステップＳ３７９）、スキャンの指示だけでは、必須パラメータが不足している。このため、実行判定部１６４は、「設定値を入力してください」とのレスポンス情報を形成し、これをスマートスピーカ１００に送信する（ステップＳ３８０）。スマートスピーカ１００のフィードバック部１５３は、このレスポンス情報に基づいて、「設定値を入力してください」との入力不足フィードバックを行う（ステップＳ３８１）。

次に、このような入力不足フィードバックに対して、ユーザが「１０００ｄｐｉで田中さん宛て」と発話すると（ステップＳ３８２）、この音声データは、音声認識サーバ装置３によりテキスト化され解釈される（ステップＳ３８３、ステップＳ３８４）。解釈部１５７は、インテントを「Ｓｃａｎ＿Ｅｘｅｃｕｔｅ」、パラメータを「解像度＝１０００ｄｐｉ、宛先＝田中」とした解釈結果を形成し、ＡＩアシスタントサーバ装置４の管理プログラムに送信する（ステップＳ３８５）。

ＡＩアシスタントサーバ装置４の管理プログラムの実行判定部５７は、解釈結果に含まれるパラメータ、及び、機器情報取得部１６１により予め取得されているＭＦＰ１の処理能力を示す情報を参照することで、通信対象にユーザから指定された設定でジョブの実行が可能か否かを判定する（ステップＳ３８６）。そして、実行判定部１６４は、判定結果に対応するレスポンス情報を形成し、通知部１６５がスマートスピーカ１００に通知する（ステップＳ３８７）。これにより、スマートスピーカ１００を介して、判定結果に対応したフィードバックが行われる（ステップＳ３８８）。

具体的には、図３２のシーケンス図において、ＭＦＰ１が、１０００ｄｐｉの解像度の処理能力を有していれば、実行判定部１６４は、「１０００ｄｐｉでスキャンし、田中さん宛てに送信します。よろしいですか？」とのレスポンス情報を形成する。そして、通知部１６５が、このレスポンス情報をスマートスピーカ１００へ送信する。これにより、スマートスピーカ１００フィードバック部１５３により、「１０００ｄｐｉでスキャンし、田中さん宛てに送信します。よろしいですか？」との入力確認フィードバックが行われる（ステップＳ３８９）。

この入力確認フィードバックに対してユーザが「はい」と応答すると（ステップＳ３９１）、音声認識サーバ装置３の解釈部１５７は、この音声データをテキスト化して解釈し（ステップＳ３９２、ステップＳ３９３）する。そして、解釈部１５７は、インテントを「Ｓｃａｎ＿Ｅｘｅｃｕｔｅ」とし、パラメータを「解像度＝１０００、宛先＝田中」とした解釈結果を、ＡＩアシスタントサーバ装置４の管理プログラムに送信する（ステップＳ３９４）。

ＡＩアシスタントサーバ装置４の管理プログラムの解釈結果変換部１６１は、解釈結果をジョブ命令に変換する（ステップＳ３９５）。そして、管理プログラムの実行指示部１６２が、「１０００ｄｐｉでスキャンした画像を田中さん宛てに送信する」とのジョブ命令をＭＦＰ１に送信する（ステップＳ３９６）。これにより、指定したジョブがＭＦＰ１で実行される。ＡＩアシスタントサーバ装置４の実行判定部１６４は、指示されたジョブの実行が開始されたことを示す「スタートします」とのレスポンス情報を形成し、通知部１６５が、このレスポンス情報をスマートスピーカ１００に送信する（ステップＳ３９７）。スマートスピーカ１００のフィードバック部１５３は、ユーザに対して、「スタートします」との入力確認フィードバックを行う。

これに対して、６００ｄｐｉがＭＦＰ１の処理能力の限界である場合、ユーザから指定された１０００ｄｐｉの画像処理は、ＭＦＰ１では実行困難となる。ＡＩアシスタントサーバ装置４の実行判定部１６４は、機器情報取得部１６１により予め取得されているＭＦＰ１の処理能力を示す情報に基づいて、ＭＦＰ１ではユーザから指定された画像処理は困難であることを判定する。この場合、実行判定部１６４は、「１０００ｄｐｉは指定できません。６００ｄｐｉでスキャンし、田中さん宛てに送信します。よろしいですか？」とのレスポンス情報を形成する。通知部１６５は、このレスポンス情報を、スマートスピーカ１００に送信する。これにより、スマートスピーカ１００からユーザに対して、「１０００ｄｐｉは指定できません。６００ｄｐｉでスキャンし、田中さん宛てに送信します。よろしいですか？」との確認フィードバックが行われる。

さらに具体的に説明すると、ＡＩアシスタントサーバ装置４の実行判定部１６４は、ＭＦＰ１の処理能力の範囲内で、ユーザが指示した機能又は処理能力値に最も近い機能又は値を選択する。例えば、ＭＦＰ１の処理可能な解像度が２００－６００ｄｐｉの範囲である場合、実行判定部１６４は、ユーザが指示した１０００ｄｐｉに最も近い６００ｄｐｉを選択する。そして、実行判定部５７が選択した能力又は値を、スマートスピーカ１００のフィードバック部１５３が、確認フィードバックとして出力する。

つまり、実行判定部１６４は、ユーザの指示の解釈結果に含まれるインテント及びパラメータで示されるジョブの実行が困難と判断した場合、ＭＦＰ１の処理能力を示す情報に基づいて、ＭＦＰ１が実行可能な設定条件を選択する。そして、選択した設定条件に基づいてレスポンス情報を生成する。

なお、ＡＩアシスタントサーバ装置４の管理プログラムは、音声認識サーバ装置３の操作音声変換プログラムの解釈部１５７から解釈結果に加えて、音声入力元であるスマートスピーカ１００を特定するデバイスＩＤ（音声入力元デバイスＩＤ）を取得している。このため、実行判定部１６４は、紐づけ用ＤＢ１０２を参照し、音声入力元デバイスＩＤに関連付けされているＭＦＰ１を特定し、特定したＭＦＰの処理能力を参照することで、ジョブ実行の可否を判断してもよい。また、ＭＦＰ１が備えていない機能の実行を、ユーザが指示した場合、実行判定部１６４は、ジョブを実行できないことを示すレスポンス情報をスマートスピーカ１００に送信しても良い。なお、実行判定部１６４は、選択した設定条件に関する情報を、音声認識サーバ装置３の操作音声変換プログラムに送信しても良い。

このような確認フィードバックに対してユーザが「はい」と発話すると（ステップＳ３９１）、音声認識サーバ装置３のテキスト変換部１５６によりテキスト化され解釈される（ステップＳ３９２、ステップＳ３９３）。音声認識サーバ装置３の解釈部１５７は、テキストデータに基づいて、インテントを「Ｓｃａｎ＿Ｅｘｅｃｕｔｅ」とし、パラメータを「解像度＝６００、宛先＝田中」とした解釈結果を形成し、ＡＩアシスタントサーバ装置４の管理プログラムに送信する（ステップＳ３９４）。

ＡＩアシスタントサーバ装置４の管理プログラムの解釈結果変換部１６１は、解釈結果をＭＦＰ１のジョブの実行指示に変換する（ステップＳ３９５）。ＡＩアシスタントサーバ装置４の管理プログラムの実行指示部１６２は、ジョブの実行指示をＭＦＰ１に送信する（ステップＳ３９６～ステップＳ３９８）。これにより、ユーザの指示がＭＦＰ１の処理能力以上の指示で実行困難な場合でも、自動的に指示の内容をＭＦＰ１の処理能力で実行可能な指示に変更して、ユーザの指示となるジョブを実行することができる。

ここで、ＭＦＰ１では、ＭＦＰ１内のＨＤＤ１３などの記憶部に保存されたアドレス帳を参照することで、「田中」に該当する宛先情報を検索する。宛先情報とは、メールアドレスやＦＡＸ番号などの情報である。「田中」に該当する宛先情報がアドレス帳に存在する場合、その宛先に対してＭＦＰ１でスキャンした画像データを送信する。

なお、ＭＦＰ１の操作部１６に宛先情報を表示し、宛先に誤りがないかの確認をユーザに促し、ユーザがＯＫボタンを操作した場合に、宛先に対してスキャンした画像データを送信してもよい。また、「田中」に該当する宛先がアドレス帳に複数存在する場合は、該当する全ての宛先情報を、ＭＦＰ１の操作部１６に表示して、ユーザに選択させてもよい。
（印刷対象を検索して印刷する動作）
次に、図３３及び図３４のシーケンス図を用いて、ユーザにより指定されたファイルを印刷する動作を説明する。図３３は、ユーザにより指定されたファイルを検索するまでの動作を示すシーケンス図である。また、図３４は、ユーザにより指定されたファイルを印刷するまでの動作を示すシーケンス図である。

まず、図３３において、ユーザは、スマートスピーカ１００の操作音声処理プログラムが起動操作された後、例えば音声入力によって音声アシスタントプログラムの起動を指示する。これにより、スマートスピーカ１００の通信制御部１５２は、音声認識サーバ装置３に対して、「起動」との音声データを送信する（ステップＳ４４１）。音声認識サーバ装置３のテキスト変換部１５６は、「起動」の音声データをテキストデータに変換し、インテント及びパラメータに変換してＡＩアシスタントサーバ装置４の管理プログラムへ送信する。

ＡＩアシスタントサーバ装置４の管理プログラムの実行判定部１６４は、必須パラメータを満たしているか否かを判断する。この「起動」の音声が入力された時点では、例えばジョブの種類等の必須パラメータが満たされていないため、実行判定部１６４は、「コピーしますか？スキャンしますか？プリントしますか？」との、ジョブの指示を促すレスポンス情報を形成する。通知部１６５は、このレスポンス情報をスマートスピーカ１００に送信する。これにより、スマートスピーカ１００のフィードバック部１５３により、「コピーしますか？スキャンしますか？プリントしますか？プリントしますか？」とのジョブの指示を促す音声フィードバックが行われる（ステップＳ４４２）。

次に、ユーザが「プリント」と発話すると（ステップＳ４４３）、この音声が音声認識サーバ装置３の操作音声変換プログラムのテキスト変換部１５６によりテキスト化され、解釈部１５７により解釈される（ステップＳ４４４、ステップＳ４４５）。この場合、解釈部１５７は、インテントを「Ｐｒｉｎｔ＿Ｅｘｅｃｕｔｅ」とした解釈結果を形成し、ＡＩアシスタントサーバ装置４の管理プログラムへ送信する（ステップＳ４４６）。

ＡＩアシスタントサーバ装置４の管理プログラムの実行判定部は、受信した解釈結果に基づいて必須パラメータの充足判断を行う（ステップＳ４４７）。この場合、「プリント」との指示だけでは必須パラメータが不足しているため、実行判定部１６４は、「設定値を入力してください」としたレスポンス情報を形成し、通知部１６５を介してスマートスピーカ１００に送信する（ステップＳ４４８）。スマートスピーカ１００のフィードバック部１５３は、このレスポンス情報に基づいて、「設定値を入力してください」との入力不足フィードバックを行う（ステップＳ４４９）。

次に、このような入力不足フィードバックに対して、ユーザが「ファイルＡをプリント」と発話すると（ステップＳ４５０）、この音声データが音声認識サーバ装置３に送信される（ステップＳ４５１）。音声認識サーバ装置３は、この音声データをテキスト化して解釈し（ステップＳ４５２）、インテントを「Ｐｒｉｎｔ＿Ｅｘｅｔｕｔｅ」、パラメータを「印刷対象＝ファイルＡ」とした解釈結果を形成し、ＡＩアシスタントサーバ装置４に送信する（ステップＳ４５３）。

ＡＩアシスタントサーバ装置４の管理プログラムの検索部１６７は、解釈結果に含まれるパラメータに基づいて、管理ＤＢ１０１からファイルＡを検索する（ステップＳ４５４）。

なお、検索する対象は管理ＤＢ１０１に限らず、音声認識サーバ装置３又はＡＩアシスタントサーバ装置４のクラウドサービス装置とネットワークを介して接続されたデータベースであっても良い。また、検索部１６７は、パラメータに含まれる文字列を含むファイル名を検索するだけでなく、パラメータに含まれる文字列をファイルデータ中に含むファイルを検索しても良い。また、検索部１６７は、ファイルの作成日時及びファイル作成者等のファイルの属性に基づいて検索を行っても良い。

（一つだけファイルＡが記録されている場合）
このような検索を行うことで、管理ＤＢ１０１に、一つだけファイルＡが記録されている場合、図３４のシーケンス図において、ＡＩアシスタントサーバ装置４の検索部１６７は、ファイルＡを印刷データとして設定する（ステップＳ４５５）。そして、ＡＩアシスタントサーバ装置４の実行指示部１６２が、ファイルＡの印刷データをＭＦＰ１に送信し（ステップＳ４５６）、印刷を指示する（ステップＳ４５７）。これにより、ＭＦＰ１において、ファイルＡの印刷データの印刷が実行される。

（２つ以上のファイルＡが存在する場合）
これに対して、管理ＤＢ１０１から２つ以上のファイルＡが検索された場合、即ち検索部１６７が検索した結果として複数のファイル検索された場合、ＡＩアシスタントサーバ装置４の実行判定部１６４は、「複数のファイルＡが登録されています印刷するファイルを選択してください」のレスポンス情報を形成する。通知部１６５は、このレスポンス情報をスマートスピーカ１００へ送信する（ステップＳ４５８）。このとき、それぞれのファイルを特定するための情報として、ファイルの作成日時、作成者、サムネイル画像等をレスポンス情報に含めても良い。

スマートスピーカ１００のフィードバック部１５３は、レスポンス情報に基づいて、検索された各ファイルの一覧をタッチパネル２７に表示する（ステップＳ４５９）。また、フィードバック部１５３は、「複数のファイルＡが登録されています。印刷するファイルを選択してください」との入力不足フィードバックを行う（ステップＳ４６０）。

なお、ファイルの一覧を表示する際に、検索された各ファイルから所望のファイルの選択を容易化するために、ファイルの作成日時及び作成者を音声フィードバックしても良いし、タッチパネル２７に表示しても良い。また、ファイル一覧としてサムネイル画像を表示してユーザに選択を促しても良い。

また、ファイルＡを選択する場合、ファイルの作成日時又は作成者等のファイルに関する情報を発話することで、ファイルを選択しても良いし、タッチパネル２７に表示されたファイル一覧から所望のファイルをタッチ操作で選択しても良い。

（ファイルＡが記録されていない場合）
次に、管理ＤＢ１０１に、ユーザから指定されたファイルＡが記録されていない場合（検索部１６７がファイルＡを検索できない場合）、ＡＩアシスタントサーバ装置４の実行判定部１６４は、「メモリ内にファイルＡが登録されていません」とのレスポンス情報を生成する。また、実行判定部１６４は、管理ＤＢ１０１に記憶されているファイルの一覧情報を、管理ＤＢ１０１から取得し、レスポンス情報に含める。通知部１６５は、このようなレスポンス情報を、スマートスピーカ１００に送信する（ステップＳ４６１）。

スマートスピーカ１００のフィードバック部１５３は、このレスポンス情報に基づいて、「ファイルＡが登録されていません印刷するファイルを指定してください」とのフィードバックを行う（ステップＳ４６２）。また、これと共に、フィードバック部１５３は、レスポンス情報に付加されたファイルの一覧情報に基づいて、管理ＤＢ１０１に記憶されているファイルの一覧をタッチパネル２７に表示する（ステップＳ４６３）。ユーザは、このファイルの一覧に基づいて、印刷を行うファイルを選択して、再度指定することとなる。

（選択されたファイルの印刷動作）
次に、管理ＤＢ１０１に１つだけファイルＡが存在する場合において、ユーザからファイルＡの印刷が指示された場合、実行判定部１６４は、「ファイルＡの印刷を開始します。よろしいでしょうか」のレスポンス情報を生成して、スマートスピーカ１００へ送信する（ステップＳ４６４）。スマートスピーカ１００のフィードバック部１５３は、例えば「ファイルＡの印刷を開始します。よろしいでしょうか」との確認フィードバックを行う（ステップＳ４６５）。

この確認フィードバックに対して、ユーザが「はい」と応答すると（ステップＳ４６６）、この応答音声データがスマートスピーカ１００から音声認識サーバ装置３に送信される（ステップＳ４６７）。音声認識サーバ装置３のテキスト変換部１５６は、音声データをテキスト化し、解釈部１５７はテキスト化された音声データの解釈を行う（ステップＳ４６８）。解釈部１５７は、インテントを「Ｐｒｉｎｔ＿Ｅｘｅｃｕｔｅ」とし、パラメータを「印刷対象＝ファイルＡ、ファイル特定情報Ｘ」とした解釈結果を形成し、ＡＩアシスタントサーバ装置４の管理プログラムに送信する（ステップＳ４６９）。なお、ファイル特定情報Ｘとは、管理ＤＢ１０１に２つ以上のファイルＡが存在した場合に、ユーザが選択したファイルＡを特定するために付加される情報であり、例えばファイルの作成日時又は作成者等の情報である。

ＡＩアシスタントサーバ装置４の管理プログラムの実行判定部１６４は、解釈結果に基づいて、必須パラメータの充足判断を行う（ステップＳ４７０）。この場合、必須パラメータは揃っているため、解釈結果変換部１６１は、解釈結果をＭＦＰ１のジョブ命令に変換する（ステップＳ４７１）。実行指示部１６２は、ユーザより選択されたファイルＡをＭＦＰ１に送信し、印刷の実行指示を行う（ステップＳ４７２）。これにより、ＭＦＰ１において、ユーザが希望するファイルＡの印刷が実行される。ＭＦＰ１に対して印刷の実行指示が行われると、ＡＩアシスタントサーバ装置４の通知部は、印刷が開始されたことを示す「スタートします」とのレスポンス情報をスマートスピーカ１００に送信する（ステップＳ４７３）。これにより、スマートスピーカ１００のフィードバック部１５３により、「スタートします」とのフィードバックが行われ、ユーザに対して印刷が開始されたことが通知される（ステップＳ４７４）。

なお、上述の説明では、印刷対象をＡＩアシスタントサーバ装置４の検索部１６７が検索し、検索したファイルをＭＦＰ１へ送信する場合を例に説明した。しかし、例えばＭＦＰ１に対しては「印刷対象＝ファイルＡ」としたジョブ命令を送信し、ＭＦＰ１側でファイルＡを、ＨＤＤ１３又は管理ＤＢ１０１等から検索して印刷を実行しても良い。また、検索したファイルが２つ以上存在する場合、ＭＦＰ１の表示部上にファイル一覧を表示させ、ユーザに選択させてもよい。

（第２の実施の形態の効果）
以上の説明から明らかなように、第２の実施の形態の音声操作システムは、スマートスピーカ１００に、プラットフォームアプリケーションプログラムとなる操作音声処理プログラムをインストールし、このアプリがクラウドサービス装置との通信を行う。ユーザがスマートスピーカ１００に設けられているマイクロホン部２９に向かって発話すると、クラウドサービス装置がユーザの発話内容を分析し、ユーザから指示された動作を行うようにＭＦＰ１を操作する（音声入力操作）。

これにより、複雑な操作を音声で命令することができ、タッチパネル２７等のＧＵＩ（Graphical User Interface）による操作を不要とすることができる。このため、操作に慣れているユーザであっても、さらに迅速かつ簡単な入力操作を可能とすることができる。また、高齢者又は操作に不慣れなユーザであっても、対話による操作サポートにより、例えば複雑なネットワーク設定、高度なジョブの設定又は新規アプリの導入等の、ユーザが希望する操作を迅速かつ簡単に実行可能とすることができる。

また、ユーザが発話した内容のテキストに基づいて、ユーザの意図を解析しているため、ユーザの発話に基づいた処理内容をＡＩアシスタントサーバ装置４側で判断して処理することができる。

（第３の実施の形態）
次に、第３の実施の形態の音声操作システムの説明をする。

（比較例の説明）
まず、図３５は、上述の音声操作の流れを概略的に示す図である。この図３５において、紐づけ用ＤＢ１０２には、各スマートスピーカ１００のデバイスＩＤと、各スマートスピーカ１００で操作可能なＭＦＰの機器ＩＤとが関連付けされた記憶されている。この状態において、スマートスピーカ１００を介して音声入力を行うと、この音声入力に対応する音声データが、音声認識サーバ装置３に送信され、テキスト化された解釈される。この解釈結果は、スマートスピーカ１００のデバイスＩＤと共にＡＩアシスタントサーバ装置４に送信される。

ＡＩアシスタントサーバ装置４は、デバイスＩＤに基づいて紐づけ用ＤＢ１０２を参照することで、デバイスＩＤに関連付けされているＭＦＰ１の機器ＩＤを検出する。ＡＩアシスタントサーバ装置４は、解釈結果をＭＦＰで処理可能な形態のデータに変換し、検出された機器ＩＤのＭＦＰ１に送信して実行要求を行う。これにより、スマートスピーカ１００に音声入力を行うことで、ＭＦＰの動作を制御することができる。

しかし、ＡＩアシスタントサーバ装置４にサードベンダの音声操作アプリケーションをインストールしてＭＦＰ１の音声操作を可能とする場合、サードベンダの音声操作アプリケーションに紐づけ用ＤＢ１０２を参照可能とする必要がある。これは、セキュリティ上、好ましいことではない。

一方、サードベンダの音声操作アプリケーションが紐づけ用ＤＢ１０２を参照できなければ、ＭＦＰ１の音声操作を行うことが困難となる。これは、サードベンダによる音声操作アプリケーションの開発が困難となることを意味している。

（第３の実施の形態の概要）
図３６は、第３の実施の形態の音声操作の概要を示す図である。また、図３７は、第３の実施の形態の音声操作システムのシステム構成を示す図である。図３７に示すように、第３の実施の形態では、サードベンダは、一般用（ＭＦＰ用）の音声アシスタントプログラム（第１の音声アシスタントプログラム）がインストールされている音声認識サーバ装置３に、サードベンダが開発した音声アシスタントプログラム（第２の音声アシスタントプログラム）をインストールする。また、この第３の実施の形態では、ＡＩアシスタントサーバ装置４が、一般用の管理サーバ装置（ＭＦＰ管理サーバ装置４ａ）と、サードベンダ用のサーバ装置４ｂとを備える。

このような第３の実施の形態の音声操作システムにおいて、図３６に示すようにサードベンダがサードベンダのスマートスピーカ１００を用いて音声入力を行うと、この音声データが音声認識サーバ装置３に送信される。音声認識サーバ装置３は、サードベンダによりインストールされた音声アシスタントプログラムを起動する。音声認識サーバ装置３のＣＰＵ３１は、このサードベンダ用の音声アシスタントプログラムに基づいて、サードベンダからの音声データをテキスト化して解釈する。そして、この解釈結果を、サードベンダのスマートスピーカ１００のデバイスＩＤと共にＡＩアシスタントサーバ装置４に送信する。

ＡＩアシスタントサーバ装置４のサードベンダ用のサーバ装置４ｂは、初回において、ＭＦＰ管理サーバ装置４ａに対して、サードベンダが用いているスマートスピーカ１００のデバイスＩＤの登録要求を行う。ＭＦＰ管理サーバ装置４ａは、サードベンダのスマートスピーカ１００のデバイスＩＤと、サードベンダに使用を許可するＭＦＰ１の機器ＩＤとを関連付けて紐づけ用ＤＢ１０２に登録する。これにより、サードベンダは、サードベンダが開発した音声アシスタントプログラムを用いて、音声によりＭＦＰ１を音声操作することが可能となる。

すなわち、サードベンダがスマートスピーカ１００を介して音声入力を行うと、この音声データが音声認識サーバ装置３に送信される。音声認識サーバ装置３のＣＰＵ３１は、サードベンダによりインストールされた音声アシスタントプログラムに基づいて、サードベンダからの音声データをテキスト化して解釈する。そして、この解釈結果を、サードベンダのスマートスピーカ１００のデバイスＩＤと共にＡＩアシスタントサーバ装置４に送信する。

ＡＩアシスタントサーバ装置４のサードベンダ用のサーバ装置４ｂは、ＭＦＰ管理サーバ装置４ａに対して、サードベンダのスマートスピーカ１００のデバイスＩＤと共に解釈結果を転送する。ＭＦＰ管理サーバ装置４ａは、サードベンダのスマートスピーカ１００のデバイスＩＤに基づいて紐づけ用ＤＢ１０２を参照することで、サードベンダに対して使用が許可されているＭＦＰ１を検出する。そして、ＭＦＰ管理サーバ装置４ａは、サードベンダの音声データの解釈結果をＭＦＰで処理可能な情報形態に変換し、紐づけ用ＤＢ１０２から検出したＭＦＰ１に対して送信して実行要求を行う。

これにより、サードベンダが開発したサードベンダ用の音声アシスタントプログラムを用いて、ＭＦＰ１を音声操作可能とすることができる。このため、サードベンダは、音声操作システムに属した状態で、音声アシスタントプログラムの開発を行うことができる。また、サードベンダからのデータは、ＡＩアシスタントサーバ装置４のサードベンダ用のサーバ装置４ｂを介してＭＦＰ管理サーバ４ａに送信される。そして、ＭＦＰ管理サーバ４ａが、サードベンダからのデータに基づいてＭＦＰ１を制御する。このため、サードベンダは、間接的にＭＦＰ１を音声操作することとなり、音声操作システム側のセキュリティを保持することができる。

（変形例）
以上の説明は、サードベンダからのデータをＡＩアシスタントサーバ装置４のサードベンダ用サーバ装置４ｂがＭＦＰ管理サーバ４ａを介してＭＦＰに通知する例であった（間接操作制御）。この他、サードベンダ用サーバ装置４ｂからＭＦＰ１に対して、サードベンダから音声入力されたデータが記憶されているサーバ装置等のＵＲＬ（Uniform Resource Locator：アドレス情報の一例）をＭＦＰ１に送付し、ＭＦＰ１からＵＲＬで示されるサーバ装置にアクセスすることで、ＭＦＰ１が、サードベンダから音声入力されたデータを取得してもよい（ＵＲＬ制御）。

以下、このような間接操作制御及びＵＲＬ制御を、シーケンス図を用いて説明する。

（間接操作制御の第１の手法）
まず、図３８は、間接操作制御の第１の手法の流れを示すシーケンス図である。この図３８において、サードベンダのユーザが「○○データを印刷したい」との発話を行うと（ステップＳ３０１）、この音声データがスマートスピーカ１００から音声認識サーバ装置３に送信される（ステップＳ３０２）。音声認識サーバ装置３のＣＰＵ３１は、第１の音声アシスタントプログラムに基づいて、サードベンダの音声をテキスト化し、サードベンダが使用しているスマートスピーカ１００のデバイスＩＤと共に、サードベンダ用の第２の音声アシスタントプログラムに通知する（ステップＳ３０３）。

音声認識サーバ装置３のＣＰＵ３１は、このサードベンダ用の第２の音声アシスタントプログラムに基づいて、通知されたテキストを解釈し（ステップＳ３０４）、この解釈結果である「○○データの印刷命令」に、サードベンダが使用しているスマートスピーカ１００のデバイスＩＤを付加して、ＡＩアシスタントサーバ装置４のサードベンダ用サーバ装置４ｂに送信する（ステップＳ３０５）。

サードベンダ用サーバ装置４ｂは、「○○データの印刷命令」を、ＭＦＰ１で取り扱い可能なデータ形態の印刷データに変換し（ステップＳ３０６）、サードベンダが使用しているスマートスピーカ１００のデバイスＩＤと共に、ＭＦＰ管理サーバ装置４ａに送信する（ステップＳ３０７）。

ＭＦＰ管理サーバ装置４ａは、サードベンダが使用しているスマートスピーカ１００のデバイスＩＤに基づいて紐づけＤＢ１０２を参照することで、このデバイスＩＤに関連付けされているＭＦＰ１を検出する（ステップＳ３０８、ステップＳ３０９）。そして、ＭＦＰ管理サーバ装置４ａは、検出したＭＦＰ１に対して、印刷データを送信し、印刷アプリケーションプログラムの起動要求を行う（ステップＳ３１０）。これにより、サードベンダが開発したサードベンダ用の音声アシスタントプログラム（第２の音声アシスタントプログラム）を用いて、ＭＦＰ１を音声操作可能とすることができる。

（間接操作制御の第２の手法）
次に、図３９は、間接操作制御の第２の手法の流れを示すシーケンス図である。この図３９において、サードベンダのユーザが「○○データを印刷したい」との発話を行うと（ステップＳ３２１）、この音声データがスマートスピーカ１００から音声認識サーバ装置３に送信される（ステップＳ３２２）。音声認識サーバ装置３のＣＰＵ３１は、上述の操作音声変換プログラムに基づいて、サードベンダの音声をテキスト化し、辞書情報を用いて解釈する（ステップＳ３２３、ステップＳ３２４）。そして、音声認識サーバ装置３のＣＰＵ３１は、この解釈結果（インテント、パラメータ）を、サードベンダが使用しているスマートスピーカ１００のデバイスＩＤと共に、ＡＩアシスタントサーバ装置４のサードベンダ用サーバ装置４ｂに送信する（ステップＳ３２５）。

次に、サードベンダ用サーバ装置４ｂは、解釈結果（インテント、パラメータ）がＭＦＰ１に対する操作命令（例：印刷実行）と判断すると、ＭＦＰ管理サーバ装置４ａで定義されている印刷要求のＡＰＩ（Application Program Interface）を、スマートスピーカ１００のデバイスＩＤと印刷データを引数として呼び出す。すなわち、サードベンダ用サーバ装置４ｂは、管理ＤＢ１０１から印刷対象となるコンテンツデータを取得して（ステップＳ３２６、ステップＳ３２７）、印刷データを生成する（ステップＳ３２８）。

次に、サードベンダ用サーバ装置４ｂは、生成した印刷データに基づいて、ＭＦＰ管理サーバ装置４ａに対して、サードベンダが使用しているスマートスピーカ１００のデバイスＩＤと共に印刷要求を送信する（ステップＳ３２９）。

ＭＦＰ管理サーバ装置４ａは、サードベンダが使用しているスマートスピーカ１００のデバイスＩＤに基づいて紐づけＤＢ１０２を参照し（ステップＳ３３０）、デバイスＩＤに関連付けされているＭＦＰ１の機器ＩＤを取得する（ステップＳ３３１）。そして、このＭＦＰ１に対して、印刷データを送信し、印刷アプリ起動要求の命令を行う（ステップＳ３３２）。これにより、第３の実施の形態の音声操作システムのセキュリティを保持しつつ、サードベンダの音声操作を処理することができる。

（ＵＲＬ制御の第１の手法）
次に、図４０は、ＵＲＬ制御の第１の手法の流れを示すシーケンス図である。この図４０において、サードベンダのユーザが「○○データを印刷したい」との発話を行うと（ステップＳ３４１）、この音声データがスマートスピーカ１００から音声認識サーバ装置３に送信される（ステップＳ３４２）。音声認識サーバ装置３のＣＰＵ３１は、第１の音声アシスタントプログラムに基づいて、サードベンダの音声をテキスト化し、サードベンダが使用しているスマートスピーカ１００のデバイスＩＤと共に、サードベンダ用の第２の音声アシスタントプログラムに通知する（ステップＳ３４３）。

音声認識サーバ装置３のＣＰＵ３１は、このサードベンダ用の第２の音声アシスタントプログラムに基づいて、通知されたテキストを解釈し（ステップＳ３４４）、この解釈結果である「○○データの印刷命令」に、サードベンダが使用しているスマートスピーカ１００のデバイスＩＤを付加して、ＡＩアシスタントサーバ装置４のサードベンダ用サーバ装置４ｂに送信する（ステップＳ３４５）。

サードベンダ用サーバ装置４ｂは、「○○データの印刷命令」を、ＭＦＰ１で取り扱い可能なデータ形態に変換した印刷データを生成する（ステップＳ３４６）。そして、サードベンダ用サーバ装置４ｂは、この生成した印刷データの取得用のＵＲＬを生成し（ステップＳ３４７）、サードベンダが使用しているスマートスピーカ１００のデバイスＩＤと共に、ＭＦＰ管理サーバ装置４ａに送信する（ステップＳ３４８）。

なお、印刷データの取得用のＵＲＬは、ネットワーク上のサードベンダ用サーバ装置４ｂのＵＲＬである。この他、印刷データの取得用のＵＲＬは、管理ＤＢ１０１のＵＲＬ又はネットワーク上の他のサーバ装置のＵＲＬでもよい。

次に、ＭＦＰ管理サーバ装置４ａは、サードベンダが使用しているスマートスピーカ１００のデバイスＩＤに基づいて紐づけＤＢ１０２を参照することで、このデバイスＩＤに関連付けされているＭＦＰ１を検出する（ステップＳ３４９、ステップＳ３５０）。そして、ＭＦＰ管理サーバ装置４ａは、検出したＭＦＰ１に対して、サードベンダ用サーバ装置４ｂから受信した印刷データの取得用のＵＲＬを通知して、印刷アプリの起動要求を行う（ステップＳ３５１）。

ＭＦＰ１のＣＰＵ１０は、通知されたＵＲＬに基づいて、例えばサードベンダ用サーバ装置４ｂにアクセスすることで、サードベンダにより音声で指示された印刷データを取得し（ステップＳ３５２、ステップＳ３５３）、印刷を実行する。

図３６に示すサードベンダ用サーバ装置４ｂからＭＦＰ１に直接的に接続された実線は、ＭＦＰ１が、ＵＲＬに基づいてサードベンダ用サーバ装置４ｂにアクセスし、印刷データを取得して印刷を実行する様子を示している。これにより、第３の実施の形態の音声操作システムのセキュリティを保持しつつ、サードベンダの音声操作を処理することができる。

なお、印刷の実行を例として説明したが、これ以外にもＭＦＰ１を制御するＡＰＩをＭＦＰ管理サーバ装置４ａで定義することで、サードベンダの音声操作アプリケーションが、これを利用することを可能とすることができる。具体的には、例えば「ＭＦＰにインストールされているサードベンダーアプリケーションを起動するＡＰＩ」、「ＭＦＰにインストールされている３ｒｄベンダーアプリケーションを起動し、設定（ジョブの設定値など）を変更するＡＰＩ」又は「ＭＦＰにインストールされている３ｒｄベンダーアプリケーションの設定を変更するＡＰＩ」を用いることができる。

（ＵＲＬ制御の第２の手法）
次に、図４１は、ＵＲＬ制御の第２の手法の流れを示すシーケンス図である。この図４１において、サードベンダのユーザが「○○データを印刷したい」との発話を行うと（ステップＳ３６１）、この音声データがスマートスピーカ１００から音声認識サーバ装置３に送信される（ステップＳ３６２）。音声認識サーバ装置３のＣＰＵ３１は、上述の操作音声変換プログラムに基づいて、サードベンダの音声をテキスト化し、辞書情報を用いて解釈する（ステップＳ３６３、ステップＳ３６４）。そして、音声認識サーバ装置３のＣＰＵ３１は、この解釈結果（インテント、スロット）を、サードベンダが使用しているスマートスピーカ１００のデバイスＩＤと共に、ＡＩアシスタントサーバ装置４のサードベンダ用サーバ装置４ｂに送信する（ステップＳ３６５）。

次に、サードベンダ用サーバ装置４ｂは、受信した解釈結果をＭＦＰ１で取り扱い可能なデータ形態の印刷データに変換し、この印刷データの取得用ＵＲＬを生成する（ステップＳ３６６）。なお、このＵＲＬは、上述のようにサードベンダ用サーバ装置４ｂのＵＲＬ等である。サードベンダ用サーバ装置４ｂは、生成したＵＲＬと共に、サードベンダが使用しているスマートスピーカ１００のデバイスＩＤを、ＭＦＰ管理サーバ装置４ａに送信する（ステップＳ３６７）。

ＭＦＰ管理サーバ装置４ａは、サードベンダが使用しているスマートスピーカ１００のデバイスＩＤに基づいて紐づけＤＢ１０２を参照し（ステップＳ３６８）、デバイスＩＤに関連付けされているＭＦＰ１の機器ＩＤを取得する（ステップＳ３６９）。そして、このＭＦＰ１に対して、印刷アプリ起動要求を行うと共に、印刷データ取得用のＵＲＬを通知する（ステップＳ３７０）。

ＭＦＰ１のＣＰＵ１０は、通知されたＵＲＬに基づいて、例えばサードベンダ用サーバ装置４ｂにアクセスすることで、サードベンダにより音声で指示された印刷データを取得し（ステップＳ３７１、ステップＳ３７２）、印刷を実行する。これにより、第３の実施の形態の音声操作システムのセキュリティを保持しつつ、サードベンダの音声操作を処理することができる。

（第３の実施の形態の効果）
以上の説明から明らかなように、第３の実施の形態の音声操作システムは、ＡＩアシスタントサーバ装置４のＭＦＰ管理用サーバ装置４ａが、サードベンダ向けにＭＦＰ制御命令を発行するための機能（ＡＰＩ）を提供する。これにより、サードベンダの音声操作アプリケーションは、サードベンダが利用しているスマートスピーカ１００のデバイスＩＤを指定して上述のＡＰＩを呼び出すことで、サードベンダのスマートスピーカ１００に割り当てられたＭＦＰ１を特定して制御命令を送信可能とすることができる。

すなわち、第３の実施の形態の音声操作システムは、サードベンダが開発したサードベンダ用の音声アシスタントプログラムを用いて、ＭＦＰ１を音声操作可能とすることができる。このため、サードベンダは、音声操作システムに属した状態で、音声アシスタントプログラムの開発を行うことができる。また、サードベンダからのデータは、ＡＩアシスタントサーバ装置４のサードベンダ用のサーバ装置４ｂを介してＭＦＰ管理サーバ４ａに送信される。そして、ＭＦＰ管理サーバ４ａが、サードベンダからのデータに基づいてＭＦＰ１を制御する。このため、サードベンダは、間接的にＭＦＰ１を音声操作することとなり、音声操作システム側のセキュリティを保持することができる。

また、サードベンダからは、印刷データを指定するのみで、ＭＦＰ側が自動的に印刷アプリケーションの立ち上げと印刷データの取得を行うことで、サードベンダが、ＭＦＰ１側のアプリケーションの開発を行わずに印刷機能を実装することを可能とすることができる。

また、管理サーバ装置４ａとＭＦＰ１との間が、処理速度が遅いプロトコルで接続されている場合、又は、通信量に応じて従量課金される仕組みで接続されている場合において、印刷データを取得するためのＵＲＬを、管理サーバ装置４ａからＭＦＰ１に通知しているため、性能面又は印刷面で優位な方式でサードベンダに印刷機能を提供できる。

また、ＭＦＰに通知するＵＲＬは、サードベンダ用サーバ装置４ｂのＵＲＬの以外でも、他の記憶装置のＵＲＬでもよい。このため、サードベンダの音声操作アプリケーションを、さらに他のサードベンダのサーバ装置、又は、一般的なクラウドレジストサービスと連携させて動作させることができる。この他、第３の実施の形態の音声操作システムは、上述の各実施の形態と同様の効果を得ることができる。

最後に、上述の各実施の形態は、一例として提示したものであり、本発明の範囲を限定することは意図していない。この新規な各実施の形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことも可能である。

例えば、上述の第１の実施の形態の説明では、音声認識サーバ装置３でユーザの発話に対応するテキストデータを生成し、ＡＩアシスタントサーバ装置４でテキストデータに基づいて、ユーザの意図している操作を解釈した。しかし、携帯端末２側に、このような音声認識機能及び解釈機能を設け、携帯端末２で、ユーザの発話から意図する操作を解釈してもよい。これにより、音声認識サーバ装置３及びＡＩアシスタントサーバ装置４を不要とすることができ、システム構成を簡素化できる。

このような各実施の形態及び各実施の形態の変形は、発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１複合機（ＭＦＰ）
２携帯端末
３音声認識サーバ装置
４ＡＩアシスタントサーバ装置
４ａＭＦＰ管理サーバ装置
４ｂサードベンダ用サーバ装置
５ネットワーク
５１取得部
５２通信制御部
５３解釈結果変換部
５４実行指示部
５５フィードバック部
５６処理能力取得部
５７実行判定部
５８検索部
６１取得部
６２テキスト変換部
６３通信制御部
７１取得部
７２解釈部
７３通信制御部

特開２００３－０５１８８７号公報

Claims

音声入出力装置から取得した音声情報を認識する操作音声変換手段と、
前記操作音声変換手段の認識結果に基づいて、前記音声入出力装置のデバイスＩＤと前記音声情報のテキストデータとを含む第２の処理命令を生成する情報処理機器用の音声アシスタント手段と、
前記第２の処理命令に基づいて、前記デバイスＩＤに関連付けられる前記情報処理機器に対してデータ処理の実行を指示する機器管理サーバと、
サードベンダが開発したものであって、前記操作音声変換手段の認識結果に基づいて、前記情報処理機器用の音声アシスタント手段からの前記第２の処理命令に含まれる前記音声情報のテキストデータの解釈結果である前記音声情報のテキストデータと前記音声入出力装置のデバイスＩＤとを含む第１の処理命令を生成するサードベンダ用の音声アシスタント手段と、
前記第１の処理命令に基づいて、前記デバイスＩＤに関連付けられる情報処理機器で処理する処理データを生成するサードベンダ用サーバと、を備え、
前記サードベンダ用サーバは、前記機器管理サーバに対して前記処理データの処理の実行を指示し、
前記機器管理サーバは、前記サードベンダ用サーバから実行を指示された前記処理データを前記デバイスＩＤに関連付けられる前記情報処理機器に対して送信すること
を特徴とする情報処理システム。
音声入出力装置から取得した音声情報を認識する操作音声変換手段と、
前記操作音声変換手段の認識結果に基づいて、前記音声入出力装置のデバイスＩＤと前記音声情報のテキストデータとを含む第２の処理命令を生成する情報処理機器用の音声アシスタント手段と、
前記第２の処理命令に基づいて、前記デバイスＩＤに関連付けられる前記情報処理機器に対してデータ処理の実行を指示する機器管理サーバと、
サードベンダが開発したものであって、前記操作音声変換手段の認識結果に基づいて、前記情報処理機器用の音声アシスタント手段からの前記第２の処理命令に含まれる前記音声情報のテキストデータの解釈結果である前記音声情報のテキストデータと前記音声入出力装置のデバイスＩＤとを含む第１の処理命令を生成するサードベンダ用の音声アシスタント手段と、
前記第１の処理命令に基づいて、前記デバイスＩＤに関連付けられる情報処理機器で処理する処理データを生成すると共に、生成された前記処理データを取得するための、ネットワーク上のアドレスを示すアドレス情報を生成するサードベンダ用サーバと、を備え、
前記サードベンダ用サーバは、前記機器管理サーバに対して前記アドレス情報を送信し、
前記機器管理サーバは、前記サードベンダ用サーバから送信された前記アドレス情報を前記デバイスＩＤに関連付けられる前記情報処理機器に送信して、前記情報処理機器に、前記アドレス情報に基づいて前記サードベンダ用サーバにアクセスさせて前記処理データを取得させてデータ処理を実行させること
を特徴とする情報処理システム。
前記機器管理サーバから参照可能な記憶部を、さらに備え、
前記記憶部には、前記音声入出力装置に関連付けられた前記情報処理機器を特定するための情報が記憶されていること
を特徴とする請求項１又は請求項２に記載の情報処理システム。
前記処理データは印刷データであり、
前記情報処理機器は、画像形成装置であること
を特徴とする請求項１から請求項３のうち、いずれか一項に記載の情報処理システム。
操作音声変換手段が、音声入出力装置から取得した音声情報を認識する認識ステップと、
情報処理機器用の音声アシスタント手段が、前記操作音声変換手段の認識結果に基づいて、前記音声入出力装置のデバイスＩＤと前記音声情報のテキストデータとを含む第２の処理命令を生成するステップと、
機器管理サーバが、前記第２の処理命令に基づいて、前記デバイスＩＤに関連付けられる前記情報処理機器に対してデータ処理の実行を指示するステップと、
サードベンダが開発したサードベンダ用の音声アシスタント手段が、前記操作音声変換手段の認識結果に基づいて、前記情報処理機器用の音声アシスタント手段からの前記第２の処理命令に含まれる前記音声情報のテキストデータの解釈結果である前記音声情報のテキストデータと前記音声入出力装置のデバイスＩＤとを含む第１の処理命令を生成するステップと、
サードベンダ用サーバが、前記第１の処理命令に基づいて、前記デバイスＩＤに関連付けられる情報処理機器で処理する処理データを生成するステップと、を含み、
前記サードベンダ用サーバによるステップは、前記機器管理サーバに対して前記処理データの処理の実行を指示し、
前記機器管理サーバによるステップは、前記サードベンダ用サーバから実行を指示された前記処理データを前記デバイスＩＤに関連付けられる前記情報処理機器に対して送信すること
を特徴とする情報処理方法。
操作音声変換手段が、音声入出力装置から取得した音声情報を認識する認識ステップと、
情報処理機器用の音声アシスタント手段が、前記操作音声変換手段の認識結果に基づいて、前記音声入出力装置のデバイスＩＤと前記音声情報のテキストデータとを含む第２の処理命令を生成するステップと、
機器管理サーバが、前記第２の処理命令に基づいて、前記デバイスＩＤに関連付けられる前記情報処理機器に対してデータ処理の実行を指示するステップと、
サードベンダが開発したサードベンダ用の音声アシスタント手段が、前記操作音声変換手段の認識結果に基づいて、前記情報処理機器用の音声アシスタント手段からの前記第２の処理命令に含まれる前記音声情報のテキストデータの解釈結果である前記音声情報のテキストデータと前記音声入出力装置のデバイスＩＤとを含む第１の処理命令を生成するステップと、
サードベンダ用サーバが、前記第１の処理命令に基づいて、前記デバイスＩＤに関連付けられる情報処理機器で処理する処理データを生成すると共に、生成された前記処理データを取得するための、ネットワーク上のアドレスを示すアドレス情報を生成するステップと、を含み、
前記サードベンダ用サーバによるステップは、前記機器管理サーバに対して前記アドレス情報を送信し、
前記機器管理サーバによるステップは、前記サードベンダ用サーバから送信された前記アドレス情報を前記デバイスＩＤに関連付けられる前記情報処理機器に送信して、前記情報処理機器に、前記アドレス情報に基づいて前記サードベンダ用サーバにアクセスさせて前記処理データを取得させてデータ処理を実行させること
を特徴とする情報処理方法。