JP7215118B2

JP7215118B2 - 情報処理装置、情報処理システム、プログラムおよび方法

Info

Publication number: JP7215118B2
Application number: JP2018226111A
Authority: JP
Inventors: 駿吉見
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2023-01-31
Anticipated expiration: 2038-11-30
Also published as: JP2020087376A; US11172082B2; US20200177744A1

Description

本発明は、情報処理装置、情報処理システム、プログラムおよび方法に関する。

機器を操作するために携帯端末からサーバへ操作を指示し、サーバから機器へ操作信号を送信して機器の操作を行う技術が知られている。

例えば携帯端末で取得した音声データをサーバへ送信し、サーバで音声データを制御命令に変換して機器へ送信する方法を開示したものがある（特許文献１参照）。

しかし、設定が多い場合に何回も音声指示を行う必要があり、指示したことが機器で反映されなかった場合に、どこまでの指示が機器に反映されたかをユーザが把握することができないという問題がある。

本発明は、上記に鑑みてなされたものであって、ユーザが複数の音声指示を行った場合にどこまでの指示が機器に反映されたかをユーザが把握することが可能な情報処理装置、情報処理システム、プログラムおよび方法を提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明の一実施の形態は、端末に対して音声指示されたユーザ要求を通信ネットワークを介して受信する情報処理装置であって、前記ユーザ要求に基づいてジョブ種類又はジョブ設定に反映する要求反映手段と、前記端末で先に音声指示されたユーザ要求の反映中に前記端末で後に音声指示されたユーザ要求が前記通信ネットワークを介して受信されると、前記後に音声指示されたユーザ要求を前記先に音声指示されたユーザ要求の反映が終わるまで一時的に保持する保持手段、前記要求反映手段による反映ができない場合、反映できないことを示す情報を出力する出力手段と、前記先に音声指示されたユーザ要求の反映中に前記後に音声指示されたユーザ要求が前記通信ネットワークを介して受信された場合、前記先に音声指示されたユーザ要求と前記後に音声指示されたユーザ要求のうち、前記要求反映手段によって反映されたジョブ種類又はジョブ設定までを表示する表示手段と、前記要求反映手段が反映した後、反映したジョブに関するジョブ設定の変更を受け付ける操作受付手段と、を有することを特徴とする。

本発明によれば、ユーザが複数の音声指示を行った場合にどこまでの指示が機器に反映されたかをユーザが把握することが可能になるという効果を奏する。

図１は、実施の形態に係る情報処理システムの全体構成の一例を示す図である。図２は、ＭＦＰのハードウェア構成の一例を示す図である。図３は、端末のハードウェア構成の一例を示す図である。図４は、クラウドサービス装置のハードウェア構成の一例を示す図である。図５は、全体の機能の概要説明図である。図６は、端末の機能ブロックの構成の一例を示す図である。図７は、クラウドサービスの各機能の構成の一例を示す図である。図８は、ＭＦＰの機能ブロックの構成の一例を示す図である。図９は、エンティティ情報の一例を示す図である。図１０は、ユーザの発話フレーズ、アクション名、エンティティ情報の一例を示す図である。図１１は、音声操作システムにおいて音声入力操作を行う場合の全体の基本動作の一例を示す図である。図１２は、音声操作システムにおいてユーザがシステムと対話してＭＦＰの操作を行う場合の起動時の動作の一例を示す図である。図１３は、音声操作システムにおいてユーザがシステムと対話してＭＦＰの操作を行う場合の起動後の対話型動作の一例を示す図である。図１４は、音声操作システムにおいてユーザがシステムと対話してＭＦＰの操作を行う場合の起動後の対話型動作（続き）の一例を示す図である。図１５は、音声操作システムにおいてユーザがシステムと対話してＭＦＰの操作を行う場合の起動後の対話型動作（続き）の一例を示す図である。図１６は、ユーザ側において端末に指示した操作の処理結果を確認できるようにした音声操作システム全体の動作の一例を示す図である。図１７は、ユーザ側において端末に指示した操作の処理結果を確認できるようにした音声操作システム全体の動作の続きの一例を示す図である。図１８は、音声指示が連続で飛んできた場合の全体の動作の一例を示す図である。

以下に添付図面を参照して、情報処理装置、情報処理システム、プログラムおよび方法の実施の形態を説明する。ここではスマートスピーカなどの端末によりクラウドが提供するサービスを利用して画像処理装置や電子機器などの情報処理装置を操作する情報処理システムへの適用例を示す。

（システム構成）
図１は、実施の形態に係る情報処理システムの全体構成の一例を示す図である。図１には、実施の形態に係る情報処理システムの一例である音声操作システムのシステム全体を示している。

この一例の音声操作システムは、図１に示すように、ＭＦＰ（Multifunction Peripheral）１と、端末２と、クラウド３とを含む。ＭＦＰ１は「画像処理装置」の一例である。ＭＦＰ１は例えばプリンタ機能やスキャナ機能やＦＡＸ機能等の複数の機能を備える。なお、「画像処理装置」はＭＦＰ以外の装置であってもよい。例えばプリンタ機能やスキャナ機能やＦＡＸ機能等のうちの１つの機能を備える装置、すなわち印刷機や、スキャナや、ＦＡＸ端末などであったり、電子黒板やプロジェクタなど、オフィス機器であったりしてもよい。また、「画像処理装置」の他に、種々の電子機器であったりしてもよい。端末２は、スマートスピーカや、スマートホンや、タブレット端末など、ネットワーク５にＭＦＰ１の操作指示を行うことができる装置である。ここでは、一例としてスマートスピーカとして説明する。

スマートスピーカは、ＭＦＰ１の操作内容などをサービス利用者（「ユーザ」とする）から音声入力により受け付けたり、受け付けた操作内容についての返事をユーザへ音声でフィードバックしたりする。スマートスピーカには、タッチ式表示パネルが備えられているものもあり、この場合には表示パネルでの通知も可能である。本例では、タッチ式表示パネルが備えられているものを一例に説明する。

ＭＦＰ１および端末２は、それぞれ１台以上がネットワーク５に接続可能に構成され、ネットワーク５を介してクラウド３に接続する。例えば端末２がスマートスピーカの場合、１台のＭＦＰ１の近くに、そのＭＦＰ１を操作するための１台のスマートスピーカを配置する。

クラウド３は、ネットワーク５上に設けられている１つまたは複数のサーバ装置（「情報処理装置」に相当）のことである。クラウド３は、端末２でＭＦＰ１の操作を行わせるサービスをネットワーク５を介して提供する。以下においてクラウドサービスとは、端末２でＭＦＰ１の操作を行わせるサービスのことを指すものとする。

ネットワーク５は、例えばＬＡＮ（Local Area Network）やインターネット等の通信ネットワークである。ＭＦＰ１や端末２は、それぞれが備える通信手段により例えば有線または無線で社内ＬＡＮや公衆網などに接続し、インターネットなどを通じてクラウド３にアクセスする。

詳しくは後述するが、端末２は、クラウド３との間のデータ通信（例えば音声データやテキストデータ、ＵＩなどの画像データなどの送受信）を行う。クラウド３は、端末から受信した音声データ（音声情報）を分析し、テキストデータへ変換する。また、クラウド３は、テキストデータと事前登録されている辞書情報とに基づいてユーザの意図を解釈する。また、クラウド３は、例えばユーザの指示が確定されると、ＭＦＰ１で解釈可能な形式であるジョブ実行命令（ユーザ要求）に変換してＭＦＰ１に送信する。ＭＦＰ１は、クラウド３から送信されるジョブ実行命令を実行する。

（ＭＦＰのハードウェア構成）
図２は、ＭＦＰ１のハードウェア構成の一例を示す図である。ＭＦＰ１は、図２に示すように、コントローラ７、通信部１５、操作部１６、スキャナエンジン１７およびプリンタエンジン１８を有している。その他に、音や光などで報知する報知手段なども有する。

コントローラ７は、ＣＰＵ（Central Processing Unit）１０、ＡＳＩＣ（Application Specific Integrated Circuit）１１、メモリ１２、ＨＤＤ（Hard Disk Drive）１３およびタイマ１４を有する。ＣＰＵ１０～タイマ１４は、それぞれバスラインを介して通信可能なように相互に接続されている。

通信部１５は、ネットワーク５に接続され、クラウド３と通信する。通信部１５は、クラウド３へ機器情報を送信したり、端末２から音声入力された例えばスキャン指示または印刷指示等をジョブ実行命令として取得したりする。

操作部１６は、液晶表示部（ＬＣＤ：Liquid Crystal Display）とタッチセンサとが一体になっている、いわゆるタッチパネルである。ユーザは各種設定や実行命令などを行う場合に操作部１６のソフトウェアキー（表示されている操作ボタン）を接触操作する。本実施の形態では、端末２への音声入力によりＭＦＰ１の設定等の操作を行うものについて示すが、従来通り、操作部１６から操作を行うことにより各種設定や動作の実行をコントローラ７に指示することもできる。特に、ＭＦＰ１で印刷やスキャンなどを行う場合に各種設定後の最終的な実行操作はＭＦＰ１の操作部１６の操作ボタンで行うことが望ましい。操作部１６は「出力手段」、「表示手段」、「操作受付手段」、「報知手段」に相当する。なお、報知手段としては、操作部１６とは別に備えても良い。即ち、操作部１６は画面情報や音声情報や光情報を出力することができる。つまり、画面を表示することでユーザに情報を通知し、更にランプ点滅や音声又はブザー音によってユーザにエラーを報知することができる。

スキャナエンジン１７は、画像読取装置を制御して、光学的に原稿の読み取りを行うコントローラである。プリンタエンジン１８は、画像形成装置を制御して、例えば転写紙等に画像を印刷するコントローラである。ＣＰＵ１０は、ＭＦＰ１を統括的に制御する。ＡＳＩＣ１１は、いわゆる大規模集積回路（ＬＳＩ：Large-Scale Integration）となっており、スキャナエンジン１７およびプリンタエンジン１８で処理する画像に必要な各種の画像処理等を行う。ＣＰＵ１０はスキャナやプリンタなどの各種アプリケーション（単に「アプリ」とも言う）を選択的に実行し、各種のアプリにより各種エンジンにジョブ実行命令等を実行させる。

メモリ１２は、固定データが記憶されている。ＨＤＤ１３は、制御プログラムやデータが記憶されている。制御プログラムやデータには、ＯＳ（Operating System）や、各種アプリケーションや、アプリケーションを実行する際に用いられる画像データや、フォントデータや、各種のファイルなどが含まれる。なお、ＨＤＤ１３の代わりにＳＳＤ（Solid State Drive）を設けてもよい。また、ＨＤＤ１３とＳＳＤとを共に設けてもよい。

（端末のハードウェア構成）
図３は、端末２のハードウェア構成の一例を示す図である。端末２は、図３に示すようにＣＰＵ２１、ＲＡＭ２２、ＲＯＭ２３、インタフェース部（Ｉ／Ｆ部）２４および通信部２５を有する。各部はバスライン２６を介して相互に接続されている。

ＲＯＭ２３は制御プログラムを記憶する。制御プログラムには操作処理プログラムが含まれる。ＣＰＵ２１は、ＲＯＭ２３の制御プログラムを実行する。ＲＡＭ２２は、ＣＰＵ２１のワークエリアとして使用される。

Ｉ／Ｆ部２４には、タッチパネル２７、スピーカ部２８およびマイクロホン部２９が接続されている。マイクロホン部２９は、通話音声の他、ユーザによる呼びかけを集音し、その音声を音声信号として入力する。スピーカ部２８は、ユーザに対して返事などの音声を出力する。タッチパネル２７は、ユーザから操作を受け付けたり、テキストデータや画像データなどをユーザに対して表示したりする。

このような構成により、端末２は、マイクロホン部２９を介して入力された音声信号を通信部２５を介してクラウド３に送信する。また、端末２は、クラウド３から通信部２５を介して取得したデータ（音声データ、テキストデータ、画像データなど）をタッチパネル２７に表示出力する制御を行ったり、そのうちの音声データをスピーカ部２８に音声出力する制御を行ったりする。

（クラウドのハードウェア構成）
クラウド３は１つのサーバ装置または複数のサーバ装置が連携することによりサービスを提供する。図４は、１つ当たりのサーバ装置（「クラウドサービス装置」と呼ぶ）のハードウェア構成の一例を示す図である。

クラウドサービス装置３ａは、図４に示すように、ＣＰＵ３１、ＲＡＭ３２、ＲＯＭ３３、ＨＤＤ３４、インタフェース部（Ｉ／Ｆ部）３５および通信部３６を有する。各部は、バスライン３７を介して相互に接続されている。Ｉ／Ｆ部３５には、表示部３８および操作部３９が接続されている。ＨＤＤ３４には、制御プログラムやデータベースなどが格納されている。制御プログラムには、例えば、操作音声変換プログラム、音声アシスタントプログラム、または管理プログラムなどが含まれる。データベースには、例えば、管理ＤＢ（Data Base）３４０（図５参照）、紐づけ用ＤＢ３５０（図５参照）、または機器情報ＤＢ３６０（図５参照）などが含まれる。

ＲＯＭ３３は固定プログラムを記憶する。ＣＰＵ３１は、ＲＯＭ３３やＨＤＤ３４のプログラムを実行する。ＲＡＭ３２は、ＣＰＵ３１のワークエリアとして使用される。

なお、操作音声変換プログラム、音声アシスタントプログラム、管理プログラムは、１つのクラウドサービス装置３ａに備えて、そのクラウドサービス装置３ａで実行してもよい。また、それらのプログラムの一部を複数のクラウドサービス装置３ａに分散して備え、複数のクラウドサービス装置３ａでそれぞれを実行し、複数のクラウドサービス装置３ａで連携してサービスを提供するようにしてもよい。

また、管理ＤＢ３４０、紐づけ用ＤＢ３５０、および機器情報ＤＢ３６０は、クラウドサービス装置３ａは、操作音声変換プログラム、音声アシスタントプログラム、および管理プログラムと共に、１つのクラウドサービス装置３ａに備えてもよい。また、複数のクラウドサービス装置３ａに分散して備えてもよい。例えば、管理ＤＢ３４０、紐づけ用ＤＢ３５０、および機器情報ＤＢ３６０の何れか１つまたはすべてをネットワーク５を介してアクセス可能な別のサーバ装置に記憶させてもよい。

（全体の機能構成）
図５は、全体の機能の概要説明図である。図５には、クラウドサービスを提供する主な機能を示している。主な機能の詳細や、図５に示したＭＦＰ１や端末２についての機能の説明については、図６～図８を参照して後に説明する。

クラウド３の機能は、１つのクラウドサービス装置３ａ、あるいは複数のクラウドサービス装置３ａにより実現される。これらの機能は１つまたは複数のクラウドサービス装置３ａに適宜設定されるものであり、１つのクラウドサービス装置３ａでもよいし、複数のクラウドサービス装置３ａでもよい。

クラウドサービス装置３ａのＣＰＵ３１はＨＤＤ３４の操作音声変換プログラムをＲＡＭ３２に読み出して実行することにより操作音声変換部３１０として機能する。操作音声変換部３１０は、音声データをテキストデータに変換する機能を有する。更に、操作音声変換部３１０は、テキストデータを予め定義された辞書情報と一致するか否かを判断する機能を有する。更に、操作音声変換部３１０は、マッチした場合にはテキストデータをユーザの意図を示すアクションおよびジョブ条件などの変数を示すパラメータに変換する機能を有する。

また、クラウドサービス装置３ａのＣＰＵ３１はＨＤＤ３４の音声アシスタントプログラムをＲＡＭ３２に読み出して実行することにより音声アシスタント部３２０として機能する。音声アシスタント部３２０は、辞書情報を保持する機能を有する。

また、クラウドサービス装置３ａのＣＰＵ３１はＨＤＤ３４の管理プログラムをＲＡＭ３２に読み出して実行することにより管理部３３０として機能する。管理部３３０は、アクションとパラメータに基づいてＭＦＰ１が解釈可能な形式であるジョブ実行指示に変換した上で登録されたＭＦＰ１へ送信する機能を有する。

このようにクラウド３は、少なくとも操作音声変換部３１０、音声アシスタント部３２０、および管理部３３０の機能によりクラウドサービス３００を提供する。

クラウドサービス３００は、ＭＦＰ１や端末２との通信に基づき、各種の情報をＤＢに記憶する。一例として、管理部３３０が、管理ＤＢ３４０や、紐づけ用ＤＢ３５０や、機器情報ＤＢ３６０などを使用して各種情報を管理する。

管理ＤＢ３４０は、テキストデータ、画像データ、音声データなど、クラウドサービス３００が提供するコンテンツにかかるデータを記憶するデータベースである。

紐づけ用ＤＢ３５０は、端末２と紐づける外部装置を記憶するデータベースである。紐づけ用ＤＢ３５０は、本例では、端末２として使用するスマートスピーカのデバイスＩＤと、そのスマートスピーカと対応付ける外部装置（本例ではＭＦＰ１）のＩＤとを対応付けて記憶する。なお、スマートスピーカと外部装置は一対一で紐づけられていても良いが、スマートスピーカと複数の外部装置を紐づけても良い。つまり、デバイスＩＤと紐づく外部装置の種類と個数は限定されない。また、外部装置とスマートスピーカの紐づけの方法についても上記の方法に限定されない。つまり、ユーザアカウントやユーザＩＤなどのユーザを特定する情報と外部装置とを紐づける構成であっても良い。この場合、デバイスＩＤなどのスマートスピーカからクラウド３へ送信されるスマートスピーカを特定する情報と、ユーザを特定する情報とをクラウド３の紐づけ用ＤＢなどに記憶しておき、管理部３３０はデバイスＩＤと紐づくユーザを特定する情報に基づいて外部装置を特定する構成であっても良い。若しくは、スマートスピーカからデバイスＩＤに代えてユーザを特定する情報を送信しても良い。また、ユーザを特定するための情報に代えて、部署や企業などの組織を特定する情報、又は部屋や建物などの場所を特定する情報と、外部装置とを紐づける構成であっても良く、この場合は１以上のスマートスピーカと１以上の外部装置を紐づけても良い。

機器情報ＤＢ３６０は、ＭＦＰ１を含む各外部装置のＩＤとそれぞれの機器情報とを対応付けて記憶するデータベースである。

（端末の機能）
図６は、端末２の機能ブロックの構成の一例を示す図である。端末２のＣＰＵ２１は、ＲＯＭ２３に記憶されている操作処理プログラムを実行することで、図６に示すように取得部２１１、通信制御部２１２、フィードバック部２１３として機能する。

取得部２１１は、マイクロホン部２９（図３参照）を介して集音された、ＭＦＰ１を音声操作するためのユーザの指示音声を、取得する。なお、取得部２１１は、タッチパネル２７（図３参照）や物理スイッチ（不図示）などを介してユーザの操作を取得してもよい。通信制御部２１２は、クラウド３との間の通信を制御する。通信制御部２１２は、クラウド３と通信し、取得部２１１が取得した情報をクラウド３へ送信したり、クラウド３からテキストデータや画像データ、音声データを取得したりする。また、通信制御部２１２は、取得部２１１が取得した情報をクラウド３へ送信する場合、端末２を特定するデバイスＩＤを共に送信してもよい。

フィードバック部２１３は、対話型の音声入力操作を実現すべく、例えば不足するデータを補う入力を促す音声や、入力を確認する音声などをユーザ側にフィードバックする。また、フィードバック部２１３は、タッチパネル２７のディスプレイ表示を制御することによって、テキストまたは画像としてユーザに対してフィードバックを行ってもよい。

なお、この例では、取得部２１１～フィードバック部２１３をソフトウェアで実現することとしたが、これらのうちの一部または全部をＩＣ（Integrated Circuit）等のハードウェアで実現してもよい。また、取得部２１１～フィードバック部２１３の各機能は、操作処理プログラム単体で実現してもよいし、他のプログラムに処理の一部を実行させる、または他のプログラムを用いて間接的に処理を実行させてもよい。

（クラウドサービスの機能の詳細）
図７は、クラウドサービスの各機能の構成の一例を示す図である。操作音声変換部３１０は、図７に示すように、取得部３１１や、テキスト変換部３１２や、解釈部３１３や、出力部３１４などの機能を含む。取得部３１１は、端末２から送信される音声データ（ユーザにより入力された音声データ）を取得する。また、取得部３１１は、端末２のタッチパネル２７や物理スイッチ（ボタンなども含む）などに対してユーザが行った操作を示すデータを取得してもよい。テキスト変換部３１２は、音声データ（端末２において入力されたユーザの音声データ）をテキストデータに変換するＳＴＴ（Speech To Text）を含む。解釈部３１３は、テキスト変換部３１２により変換されたテキストデータに基づいてユーザの指示の内容を解釈する。具体的に、解釈部３１３は、テキスト変換部３１２により変換されたテキストデータに含まれる単語などが、音声アシスタント部３２０が提供する辞書情報にマッチしているか否かを確認し、マッチしている場合に、ジョブの種類を示すアクションと、ジョブ条件などの変数を示すパラメータとに変換する。そして、解釈部３１３は、例えば音声データの取得元である端末２を特定するデバイスＩＤなどと共に、アクションおよびパラメータを管理部３３０に対して送信する。出力部３１４は、テキストデータを音声データに合成するＴＴＳ（Text To Speech）を含む。出力部３１４は、通信部３６（図４参照）を通信制御し、端末２にテキストデータ、音声データ、画像データなどのデータの送信等を行う。

なお、この例では、取得部３１１～出力部３１４をソフトウェアで実現することとしたが、これらのうちの一部または全部をＩＣ（Integrated Circuit）等のハードウェアで実現してもよい。また、取得部３１１～出力部３１４が実現する各機能は、操作音声変換プログラム単体で実現してもよいし、他のプログラムに処理の一部を実行させる、または他のプログラムを用いて間接的に処理を実行させてもよい。また、操作音声変換プログラムの解釈部３１３の機能の一部または全てを音声アシスタントプログラムに実行させてもよい。この場合、例えばテキストデータに含まれる単語などが辞書情報にマッチしているか否かの確認、マッチしている場合にユーザの意図を示すアクションとジョブ条件などの変数を示すパラメータへの変換は、音声アシスタント部３２０が行う。解釈部３１３はアクションおよびパラメータを音声アシスタント部３２０から取得するだけでよい。

音声アシスタント部３２０は、図７に示すように提供部３２１の機能を含む。提供部３２１は、テキストデータとアクションおよびパラメータの関係を予め定義した辞書情報を管理し、操作音声変換部３１０に辞書情報を提供する。なお、音声アシスタント部３２０は、操作音声変換部３１０からテキストデータを受け付けて、そのテキストデータからユーザの操作指示を解釈してもよい。例えば、音声アシスタント部３２０は、解釈部３１３からテキストデータを取得し、テキストデータに含まれる単語などが辞書情報にマッチしているか否かを確認し、マッチしている場合にテキストデータをアクションとパラメータに変換する。その後、アクションおよびパラメータを解釈部３１３に提供する。

なお、この例では、音声アシスタント部３２０（提供部３２１を含む）をソフトウェアで実現することとしたが、そのうちの一部または全部をＩＣ（Integrated Circuit）等のハードウェアで実現してもよい。また、提供部３２１などの機能は、音声アシスタントプログラム単体で実現してもよいし、他のプログラムに処理の一部を実行させる、または他のプログラムを用いて間接的に処理を実行させてもよい。

管理部３３０は、図７に示すように、取得部３３１や、解釈結果変換部３３２や、実行指示部３３３や、機器情報取得部３３４や、実行判定部３３５や、通知部３３６や、ＤＢ管理部３３７などの機能を含む。

取得部３３１は、解釈部３１３から解釈結果を取得する。

解釈結果変換部３３２は、操作音声変換部３１０で変換されたアクションおよびパラメータなどの解釈結果を、ＭＦＰ１が解釈可能なジョブの実行命令に変換する。

実行指示部３３３は、ジョブの実行命令をＭＦＰ１に送信することによりジョブの実行を指示する。具体的に、実行指示部３３３は、アクションおよびパラメータと共に、ユーザが音声指示した端末２のデバイスＩＤを取得する。実行指示部３３３は、取得したデバイスＩＤに対応するＭＦＰ１を紐づけ用ＤＢ３５０（図５参照）から検索し、検索により得られたＭＦＰ１に対してジョブ実行命令を送信する。

機器情報取得部３３４は、登録されている各外部装置（この例ではＭＦＰ１）から機器情報を取得する。例えば、機器情報取得部３３４は、処理可能な最大画素数等の処理能力を示す情報を取得する。また、機器情報取得部３３４は、ＭＦＰ１との間で、通信接続が確立されているか否かを示す接続状態、ＭＦＰ１の電源のＯＮ／ＯＦＦまたはスリープモードであるかを示す電力状態、エラーの有無とエラーの種類、用紙やトナーなどの消耗品の残余状況、ユーザのログイン状態、ログインユーザに使用が許可された機能を示す権限情報、などを含む機器状態を示す情報も設定に応じて適宜取得する。

なお、機器情報取得部３３４は、複数のＭＦＰ１から処理能力などの機器情報を取得した場合、機器情報ＤＢ３６０（図５参照）において、各外部装置を特定するＩＤなどの情報と紐づけてそれぞれの機器情報を管理する。

実行判定部３３５は、ＭＦＰ１の処理能力と、ユーザから指定されたジョブ（即ち、操作音声変換部３１０で生成されたアクションおよびパラメータ）とを比較することで、ユーザから指定されたジョブをＭＦＰ１で実行可能（実施可能）か否か判定する。ユーザから指定されたジョブ実行が実行可能と判断した場合はＭＦＰ１に対してジョブ実行命令を送信する。なお、実行不可能（実施不可能）と判断した場合は通知部３３６により操作音声変換部３１０を介して端末２に対してエラーメッセージなどをレスポンス情報としてフィードバックさせてもよい。

通知部３３６は、ユーザのジョブ実行指示への応答としてテキストデータ、音声データ、画像データなどを操作音声変換部３１０へ送信する。また、ジョブの実行するためのジョブ条件を示すパラメータが不足している場合には、操作音声変換部３１０を介して端末２に対してフィードバックすることでユーザにパラメータの更なる指示を促す。ここで、不足しているパラメータを確認するために必要な情報として、パラメータ情報を送信してもよいし、ユーザにパラメータの指定を促すために必要な情報としてテキストデータ、音声データ、画像データを送信してもよい。

ＤＢ管理部３３７は、管理ＤＢ３４０、紐づけ用ＤＢ３５０、および機器情報ＤＢ３６０を管理する。具体的には、各種テーブルの設定や、各種テーブルに対してのデータの登録、検索、削除、更新などを行う。例えば、ＤＢ管理部３３７は、ＭＦＰ１、端末２、またはクラウドサービス装置３ａのクライアントデバイスに入力された情報および指示に基づいて、端末２のデバイスＩＤとＭＦＰ１のＩＤとを紐づけて紐づけ用ＤＢ３５０に登録する。紐づけ用ＤＢ３５０は、端末２のデバイスＩＤとＭＦＰ１のＩＤとを紐づけた情報をテーブルデータなどで保持する。

（ＭＦＰの機能）
図８は、ＭＦＰ１の機能ブロックの構成の一例を示す図である。ＭＦＰ１のＣＰＵ１０は、メモリ１２やＨＤＤ１３に記憶されている各種プログラムを実行することで、図８に示すように、マルチデバイスハブ（MultiDeviceHub）１１１や、ボイスコントロールサービス（Voice control service）１１２や、アプリケーション（Smart Copy）１１３－１や、アプリケーション（Smart Scan）や１１３－２、アプリケーション（Smart Fax）１１３－３などとして機能する。

マルチデバイスハブ１１１は、クラウド３からの実行指示を受信する。また、ＭＦＰ１の機器の状態や設定を収集し、機器の機能や状態をクラウド３に送信する。機器の状態については定期的にあるいは機器の状態が変化した場合などにクラウド３に送信する。ボイスコントロールサービス１１２は、マルチデバイスハブ１１１が受信した実行指示を窓口として受け付けて処理を実行する処理実行部である。ボイスコントロールサービス１１２は、受け付けた実行指示を解釈し、その解釈結果に基づき、対象となるアプリケーションを起動して、設定の反映やジョブの開始などを要求する。

アプリケーション（Smart Copy）１１３－１は、コピーを実行するためのアプリケーションである。アプリケーション（Smart Scan）１１３－２は、スキャニング（単に「スキャン」とも言う）を実行するためのアプリケーションである。アプリケーション（Smart Fax）１１３－３は、ＦＡＸ送信を実行するためのアプリケーションである。その他にも、ユーザのアドレス情報を管理するアプリケーションや、指定のアドレスにデータやファイルを送信するアプリケーションなども含まれる。各アプリケーションは、指示された内容に沿って、それぞれの処理を実行する。

なお、上述した各種のプログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ－ＲＯＭ、フレキシブルディスク（ＦＤ）などのコンピュータ装置で読み取り可能な記録媒体に記録して提供してもよい。また、ＣＤ－Ｒ、ＤＶＤ（Digital Versatile Disk）、ブルーレイディスク（登録商標）、半導体メモリなどのコンピュータ装置で読み取り可能な記録媒体に記録して提供してもよい。また、インターネット等のネットワーク経由でインストールするかたちで提供してもよいし、機器内のＲＯＭ等に予め組み込んで提供してもよい。

（辞書情報の設定）
上述したようにクラウド３（クラウドサービス装置３ａのＨＤＤ３４）には辞書情報が記憶されている。クラウド３の操作音声変換部３１０（解釈部３１３）は、音声データから変換したテキストデータに含まれる単語などが辞書情報とマッチするか否かを判断し、マッチする場合は辞書情報に定義されているアクションおよびパラメータを含む解釈結果を生成する。辞書情報は、アクションおよびパラメータを生成することができればどのような形態であってもよい。その一例を次に示す。一例の辞書情報は、エンティティ（Ｅｎｔｉｔｙ）情報、アクション（Ａｃｔｉｏｎ）情報および関連付け情報を含んで構成されている。エンティティ情報は、ジョブのパラメータと自然言語を関連付ける情報である。１つのパラメータに複数の類義語が登録可能となっている。アクション情報は、ジョブの種類を示す情報である。関連付け情報は、ユーザの発話フレーズ（自然言語）とエンティティ情報、および、ユーザの発話フレーズ（自然言語）とアクション情報を、それぞれ関連付ける情報である。関連付け情報により、パラメータの発話順序またはニュアンスが多少変わっても、正しい解釈が可能となっている。また、関連付け情報により、入力された内容に基づいてレスポンスのテキスト（解釈結果）を生成してもよい。

図９に、エンティティ情報の一例を示す。この図９は、印刷色（ＰｒｉｎｔＣｏｌｏｒ）に対応するエンティティ情報である。この図９において、「ＰｒｉｎｔＣｏｌｏｒ」の文字は、エンティティ名を示している。また、図９において、左の列の「ａｕｔｏ＿ｃｏｌｏｒ」、「ｍｏｎｏｃｈｒｏｍｅ」、「ｃｏｌｏｒ」・・・等の文字は、パラメータ名を示している。また、図９において、右の列の「ａｕｔｏ＿ｃｏｌｏｒ」、「ｍｏｎｏｃｈｒｏｍｅ，ｂｌａｃｋａｎｄｗｈｉｔｅ」、「ｃｏｌｏｒ，ｆｕｌｌｃｏｌｏｒ」・・・等の文字は、類義語を示している。

この図９からわかるように、エンティティ情報としては、パラメータおよび類義語が関連付けられて記憶されている。パラメータと共に、類義語を登録することで、例えばモノクロでのコピーを指示する場合に、「Please copy by black and white」と発話しても、「Please copy by monochrome」と発話しても、パラメータの設定を可能とすることができる。

図１０は、ユーザの発話フレーズの例、アクション名、エンティティ情報を示している。図１０においてアクション名は「Ａｃｔｉｏｎ」の項目に示している。エンティティ情報は「Ｅｎｔｉｔｙ」の項目に示している。それ以外が、ユーザの発話フレーズの例である。図１０は、クラウドサービス装置３ａの表示部３８の画面上に表示した場合の一例であり、操作部３９を操作することにより矢印に示すようにユーザの発話フレーズをドラッグする。また、この操作は、ネットワーク５を介してクラウド３にアクセスした管理者のＰＣの表示画面上で行ってもよい。

一例として、この操作を行うことにより、関連付け対象となるエンティティ情報を選択できる。また、選択したエンティティ情報でバリュー（ＶＡＬＵＥ）を設定すると、応答で入るパラメータが変更される。例えば、「Ｐｌｅａｓｅｃｏｐｙｂｙｂｌａｃｋａｎｄｗｈｉｔｅ」と発話した場合、バリューを「＄ｐｒｉｎｔＣｏｌｏｒ」とすると、戻り値として「ｐｒｉｎｔＣｏｌｏｒ＝ｍｏｎｏｃｈｒｏｍｅ」が返る。これに対して、バリューを「＄ｐｒｉｎｔＣｏｌｏｒ．ｏｒｉｇｉｎａｌ」とすると、戻り値として「ｐｒｉｎｔＣｏｌｏｒ＝ｂｌａｃｋａｎｄｗｈｉｔｅ」が返る。ここで、バリューを「＄ｐｒｉｎｔＣｏｌｏｒ．ｏｒｉｇｉｎａｌ」とすると、ユーザの発話内容がそのまま応答のパラメータとして返すことができる。

（音声操作システムにおける音声入力操作の全体的な動作）
図１１は、音声操作システムにおいて音声入力操作を行う場合の全体の基本動作の一例を示す図である。図１１には、一例として、ＭＦＰ１が両面コピー機能を備え、ユーザが端末２を介して両面コピーを音声入力操作で指示するときの動作を示している。なお、端末２の操作処理プログラムは、端末２の起動と同時に起動してもよいし、端末２に対して所定の操作や所定の音声入力を行うことによって起動してもよい。

先ず、ユーザが端末２に向かって、ＭＦＰ１に指示する内容を発話する。ここでは一例として「両面でコピー」と発話した例を示している。ユーザが発話した音声は、端末２（取得部２１１）により音声データとして取得される（ステップＳ１）。端末２（通信制御部２１２）は、この「両面でコピー」の音声データをクラウド３に送信する（ステップＳ２）。このとき、端末２（通信制御部２１２）は、端末２を特定するデバイスＩＤをクラウド３に送信してもよい。

クラウド３では、操作音声変換部３１０（取得部３１１）が、端末２から送信データを取得し、操作音声変換部３１０（テキスト変換部３１２）が、「両面でコピー」との音声データをテキスト化、つまりテキストデータに変換処理する（ステップＳ３）。

そして、この例の場合、操作音声変換部３１０（解釈部３１３）は、音声アシスタント部３２０（提供部３２１）に辞書情報を要求して音声アシスタント部３２０（提供部３２１）から辞書情報を取得する（ステップＳ４）。

さらに、操作音声変換部３１０（解釈部３１３）は、取得した辞書情報から、テキスト解釈を行う（ステップＳ５）。この例では、テキストに「両面でコピー」が含まれるので、ジョブの種別（アクション）についてはＭＦＰ１にコピーの実行を要求するアクション「ＣＯＰＹＥＸＥＣＵＴＥ」であると解釈し、アクションの内容（パラメータ）については、両面が含まれるので「印刷面＝両面」と解釈する。このように、操作音声変換部３１０（解釈部３１３）は、テキストデータに基づいて、ユーザから指示されたジョブの種別（アクション）と内容（パラメータ）を解釈する。

操作音声変換部３１０（解釈部３１３）は、その解釈結果を、管理部３３０に渡す（ステップＳ６）。このとき、操作音声変換部３１０（解釈部３１３）は、その解釈結果に対応付けて音声データの送信元の端末２のデバイスＩＤを管理部３３０に渡してもよい。

管理部３３０（解釈結果変換部３３２）は、操作音声変換部３１０から取得した解釈結果を、ＭＦＰ１のジョブ命令に変換処理する（ステップＳ７）。ここで、解釈結果の一例と、解釈結果から変換処理されたジョブ命令の一例とを表１に示す。なお、管理部３３０（解釈結果変換部３３２）は、解釈結果をジョブ命令に変換するために、表１に示す情報をクラウドサービス装置３ａのＨＤＤ３４などの記憶部に記憶し、それを参照できる構成としてもよい。

表１の例の場合、「ＣＯＰＹ＿ＥＸＥＣＵＴＥ」、「ＳＣＡＮ＿ＥＸＥＣＵＴＥ」、「ＰＲＩＮＴ＿ＥＸＥＣＵＴＥ」および「ＦＡＸ＿ＥＸＥＣＵＴＥ」が、アクション（Ａｃｔｉｏｎ）の一例として示されている。また、「印刷面」および「部数」等がパラメータ（Ｐａｒａｍｅｔｅｒ）の一例として示されている。なお、パラメータとしては、ジョブの設定値として指定可能な全てのパラメータが含まれる。

管理部３３０（解釈結果変換部３３２）は、「ＣＯＰＹ＿ＥＸＥＣＵＴＥ」の解釈結果を、「コピージョブの実行」との、ＭＦＰ１のジョブ命令に変換処理する。同様に、管理部３３０（解釈結果変換部３３２）は、「ＳＣＡＮ＿ＥＸＥＣＵＴＥ」の解釈結果を、「スキャンジョブの実行」との、ＭＦＰ１のジョブ命令に変換処理する。同様に、管理部３３０（解釈結果変換部３３２）は、「ＰＲＩＮＴ＿ＥＸＥＣＵＴＥ」の解釈結果を、「印刷ジョブの実行」との、ＭＦＰ１のジョブ命令に変換処理する。同様に、管理部３３０（解釈結果変換部３３２）は、「ＦＡＸ＿ＥＸＥＣＵＴＥ」の解釈結果を、「ＦＡＸジョブの実行」との、ＭＦＰ１のジョブ命令に変換処理する。なお、以上はＭＦＰ１で実行される基本的なジョブであるが、クラウドサービスにより解釈可能なジョブは上記のジョブに限定されない。例えば、通信対象に対して機器情報を収集させてクラウドサービスへ送信させるジョブ、通信対象が有する記憶部に記憶された所定の情報を通信対象の表示部に表示させるジョブなどが含まれてもよい。

また、管理部３３０（解釈結果変換部３３２）は、解釈結果に「印刷面」のパラメータが含まれている場合、「印刷面の設定値の変更」を行うジョブ命令に変換する。同様に、管理部３３０（解釈結果変換部３３２）は、解釈結果に「部数」のパラメータが含まれている場合、「部数の設定値の変更」を行うＭＦＰ１のジョブ命令に変換する。

すなわち、管理部３３０（解釈結果変換部３３２）は、解釈結果の「Ａｃｔｉｏｎ」に含まれる情報で、ユーザの意図、例えばＭＦＰ１に実行させるジョブの種類を判断し、「Ｐａｒａｍｅｔｅｒ」に含まれる値を、ジョブの設定値と判断して、解釈結果をジョブ命令に変換処理する。

管理部３３０（実行指示部３３３）は、このようにして得られたジョブ命令をＭＦＰ１に送信する（ステップＳ８）。この例の場合、「コピージョブ実行（印刷面＝両面）」のジョブ命令がＭＦＰ１に送信される。なお、管理部３３０（実行指示部３３３）は、ＤＢ管理部３３７によって特定されたＭＦＰ１に対してジョブ命令を送信する。つまり、音声データの送信元の端末２と紐づけられているＩＤのＭＦＰ１に対してジョブの実行を指示する。これにより、端末２であるスマートスピーカに対応するＭＦＰ１での両面印刷の実行が可能となる。

（対話型動作を行う場合のフィードバック）
本実施の形態に係る音声操作システムでは、ユーザからの入力内容に基づいて、システムが応答する対話型システムを実現している。例えば、対話に必要な定型文を応答する以外に、ＭＦＰ１の操作特有の応答として、「入力不足フィードバック」および「入力確認フィードバック」の、２種類の応答を行うことで、対話型システムを実現している。

「入力不足フィードバック」は、ジョブを実行するために必要な情報が揃っていない場合に出力される応答である。ユーザの入力結果を認識できなかった場合、または、必須パラメータが不足している場合に出力される。つまり、必須パラメータ以外のパラメータについては、指示されていない場合であっても入力不足フィードバックを行う必要はない。また、パラメータ以外にも、コピー機能またはスキャン機能等のうち、利用する機能を確認する処理を含んでもよい。

クラウド３は、通信接続中の外部装置（本例ではＭＦＰ１）の種類に応じ、必須の設定を確認し、そのパラメータを設定してもよい。例えば、クラウド３の管理部３３０（機器情報取得部３３４）が外部装置との通信が確立した後の所定のタイミングで外部装置の種類や機能を示す機器情報を取得する。その機器情報を操作音声変換部３１０（出力部３１４）が受け取って端末２（つまりスマートスピーカ）に出力する。スマートスピーカは、フィードバック部２１３によりユーザに設定を確認することができる。また、パラメータを例えばフィードバック部２１３が決定してもよい。具体的に、本例に示すＭＦＰ１の場合には、コピー、プリント、スキャン、ＦＡＸなどのＭＦＰ１が有する機能をユーザに確認してよい。更に、コピー、プリント、スキャン、ＦＡＸのうちＭＦＰ１が有する機能についてのみ、いずれの機能を使用するかをユーザに確認してもよい。また、ユーザから指定された設定条件に応じて必須パラメータを変更してもよい。例えば、ユーザが指定した設定条件が変倍印刷の場合は印刷する用紙サイズを必須パラメータとして、両面印刷の場合は原稿が片面か両面かを示す設定を必須パラメータとして、週刊誌綴じ印刷の場合は仕上がりサイズおよび１ページに含めるページ数などの設定を必須パラメータとして設定する。

「入力確認フィードバック」は、ジョブを実行するために必要な情報が揃った場合に出力される応答である。例えば、入力確認フィードバックは、全ての必須パラメータについてユーザから指示を受け付けた場合に行われる。また、入力確認フィードバックは、「現在の設定値でジョブを実行する」か「設定値を変更する」かの選択をユーザに促してもよい。現在の設定値でジョブを実行するか否かをユーザに確認する場合、必須パラメータか必須パラメータ以外のパラメータかに関わらず、ユーザにより指示された全てのパラメータを音声出力することでユーザに確認をとってもよい。

いずれのパラメータが必須パラメータであるかは、クラウド３（クラウドサービス装置３ａの記憶部（例えばＨＤＤ３４））に予め記憶する。記憶部（例えばＨＤＤ３４）に記憶されている必須パラメータは、クラウドサービス装置３ａの操作部３９やクラウドサービス装置３ａにネットワーク５を介してアクセス可能なＰＣなどから適宜変更することができる。記憶部（例えばＨＤＤ３４）に記憶されている必須パラメータに基づき、管理部３３０（実行判定部３３５）は、操作音声変換部３１０から渡されたアクションおよびパラメータが必須パラメータを満たすか否かを判断することができる。

（対話型動作の流れ）
図１２～図１５は、音声操作システムにおいてユーザがシステムと対話してＭＦＰの操作を行う場合の全体の動作の一例を示す図である。図１２は、起動時の動作の流れを示しており、図１３～図１５は、起動後の対話型動作の流れを示している。システムと対話して操作を行う場合、対話のセッション管理が必要になる。対話のセッション管理については後述する。ここでは、一例としてユーザが端末２を介してモノクロ画像を両面で２部のコピーを行う操作を指示する場合の動作を示す。この例では、部数（＝２部）が必須パラメータとなっているが、部数に限定されず、モノクロ、カラー、または、用紙サイズ等、複数のパラメータを必須パラメータに含めてもよい。

まず、ユーザにより端末２（操作処理プログラム）が起動操作された後、例えばユーザが端末２に起動ワードを音声入力する（ステップＳ１´）。ここで、ユーザが音声アシスタントプログラムを起動するための起動ワードを発話することで、所望の音声アシスタントプログラムを起動させることができる。端末２（通信制御部２１２）は、クラウド３（操作音声変換部３１０）に対して起動ワードの音声データを送信する（ステップＳ２´）。

クラウド３では、操作音声変換部３１０（取得部３１１）が、端末２から送信データを取得し、操作音声変換部３１０（テキスト変換部３１２）が、音声データをテキスト化、つまりテキストデータに変換処理する（ステップＳ３´）。

操作音声変換部３１０（解釈部３１３）は、音声アシスタント部３２０（提供部３２１）に辞書情報を要求して音声アシスタント部３２０（提供部３２１）から辞書情報を取得する（ステップＳ４´）。

さらに、操作音声変換部３１０（解釈部３１３）は、取得した辞書情報から、テキスト解釈を行う（ステップＳ５´）。

そして、操作音声変換部３１０（解釈部３１３）は、その解釈結果を、管理部３３０に渡す（ステップＳ６´）。

ここで、管理部３３０は、必要に応じて、紐づけ用ＤＢの検索（ステップＳ７１）、接続状態確認（ステップＳ７２）、アプリ状態確認（ステップＳ７３）、機器情報取得（ステップＳ７４）などを行う。なお、これらの処理の順番は適宜入れ替えてよい。また、各処理は、それぞれ、別のタイミングで行っていれば、ここでの処理を省略してもよい。

紐づけ用ＤＢの検索（ステップＳ７１）では、管理部３３０（ＤＢ管理部３３７）が、取得したデバイスＩＤ（端末２のＩＤ）に対応するＭＦＰ１（ＭＦＰ１のＩＤ）を、紐づけ用ＤＢ３５０から検索して取得する。このとき、管理部３３０（通知部３３６）は、デバイスＩＤと紐づくＭＦＰ１のＩＤが検索で得られなかった場合、端末２が通信対象と紐づけられていないことを操作音声変換部３１０（出力部３１４）を介してユーザに通知する。例えば、管理部３３０（通知部３３６）は、「このデバイスは機器と紐づけられていません」とのレスポンスを含むレスポンス情報を生成する。ここで、管理部３３０（通知部３３６）は、デバイスと通信対象を紐づけする方法をレスポンスに含めてもよい。なお、ステップＳ７１は、デバイスＩＤを取得した他の任意のタイミングで行ってもよい。

接続状態確認（ステップＳ７２）は、管理部３３０が通信対象（この例ではＭＦＰ１）の機器状態を確認する。例えばＤＢ管理部３３７が機器情報ＤＢ３６０の予め取得した機器情報を参照することで確認する。あるは、機器情報取得部３３４が通信対象のＭＦＰ１から機器情報を取得して確認してもよい。ここで、機器状態の確認は、例えば通信対象のＭＦＰ１と通信可能か否かおよびＭＦＰ１が使用可能か否かの確認である。このとき、デバイスＩＤと紐づくＭＦＰ１（確認対象のＭＦＰ１）との接続が確立していない場合、または、そのＭＦＰ１が起動中などで使用できない場合、管理部３３０（通知部３３６）は、操作音声変換部３１０（出力部３１４）を介してユーザに通知を行う。例えば、管理部３３０（通知部３３６）は、「機器がオフラインです」または「機器が準備中です」とのレスポンスを含むレスポンス情報を生成して通知する。ここで、管理部３３０（通知部３３６）は、対策方法をレスポンスに含めてもよい。なお、機器状態の確認は、操作音声変換部３１０（解釈部３１３）からアクションおよびパラメータ、デバイスＩＤを取得した他の任意のタイミングで行ってもよい。

アプリ状態確認（ステップＳ７３）は、管理部３３０が通信対象のＭＦＰ１にユーザから指定された機能を実行するアプリケーションの状態を確認する。例えばＤＢ管理部３３７が、機器情報ＤＢ３６０の予め取得した機器情報を参照することで確認する。あるは、機器情報取得部３３４が通信対象のＭＦＰ１から機器情報を取得して確認してもよい。ここで、アプリ状態の確認は、例えばアプリケーションがインストールされているか否か、アプリケーションが実行可能な状態であるか否かの確認である。そして、実行を指示された機能がコピーであったとして、コピーに関するアプリケーションがデバイスＩＤと紐づくＭＦＰ１にインストールされていなかったり、あるいは、アプリケーションが起動中などで使用できなかったりする場合は、管理部３３０（通知部３３６）は、操作音声変換部３１０（出力部３１４）を介してユーザに通知を行う。例えば、管理部３３０（通知部３３６）は、「アプリケーションがインストールされていません」または「アプリケーションは現在利用できません」とのレスポンスを含むレスポンス情報を生成して通知する。ここで、管理部３３０（通知部３３６）は、対策方法をレスポンスに含めてもよい。なお、アプリケーションの状態の確認は、操作音声変換部３１０（解釈部３１３）からアクションおよびパラメータ、デバイスＩＤを取得した他の任意のタイミングで行ってもよい。

機器情報取得（ステップＳ７４）は、管理部３３０が通信対象（この例ではＭＦＰ１）の機器情報を取得する。例えばＤＢ管理部３３７が機器情報ＤＢ３６０の予め取得した機器情報を取得する。あるは、機器情報取得部３３４が通信対象のＭＦＰ１から機器情報を取得してもよい。ここで取得する機器状態は、例えば通信対象のＭＦＰ１において、ユーザが指示したジョブ種類およびジョブ条件が実行可能か否かを判断する際に利用される。

これらの処理が起動後の任意のタイミングで完了していると、管理部３３０（実行判定部３３５）は、必須パラメータ不足判断を行う（ステップＳ７５）。管理部３３０（実行判定部３３５）は、必須パラメータ不足判断において、解釈結果のアクションおよびパラメータに基づいてジョブ実行に必要な条件が全て揃っているか否かを判断する。

なお、音声アシスタントプログラムの起動を指示する際においてジョブの種類および必須の設定条件をすべて指定していた場合には、これ以降に示す「入力フィードバック」のステップは省略し、ＭＦＰ１に実行を指示してもよい。

この段階では、音声で起動が指示されただけで、それ以外に、ＭＦＰ１が有する複数のアクションやパラメータの指定をユーザが受け付けていないため、管理部３３０（実行判定部３３５）は、必須パラメータを満たしていないと判断する。音声アシスタントプログラムの起動を指示する際に必須の条件の指示漏れがある場合にも必須パラメータを満たしていないと判断する。従って、管理部３３０（通知部３３６）はレスポンス情報を作成し、操作音声変換部３１０（出力部３１４）を介して端末２にレスポンス情報を送信する（ステップＳ７６、ステップＳ７７）。

なお、管理部３３０（ＤＢ管理部３３７）は、この端末２との通信のセッションを管理ＤＢ３４０で管理する。管理部３３０（通知部３３６）は端末２にレスポンス情報を送信する際に、セッションが継続していることを示す状態情報を送信することができる。ここで状態情報は、セッションが継続していることを示す情報である。後段の手順においても適宜説明を省略しているが、クラウド３が端末２に問合せを行う場合、状態情報を含めて端末２に送信する。

レスポンス情報には、ユーザに問合せる内容としてテキストデータ、音声データ、画像データを含めることができる。ここでは一例として、「コピーしますか？スキャンしますか？」の音声データを送信する。これにより、端末２（フィードバック部２１３）は、「コピーしますか？スキャンしますか？」と音声でフィードバックを行う（ステップＳ７８）。

なお、ユーザに対してジョブの種類またはジョブの設定条件の入力を促すメッセージであればフィードバックの内容はこれに限定されない。更に、ユーザに対するフィードバックは、音声出力だけでなく、タッチパネルにテキストまたは画像を表示することで行ってもよい。その場合、端末２にテキストデータや画像データ（表示情報）などを送信する。

ステップＳ７８の後に、ユーザが「コピー」と発話した場合（音声アシスタントプログラムの起動指示の際に「コピー」と発話していた場合も同様）、次のように処理が進む。ユーザが発話した音声は、端末２（取得部２１１）により音声データとして取得される（ステップＳ１－１）。端末２（通信制御部２１２）は、この「コピー」の音声データをクラウド３に送信する（ステップＳ２－１）。このとき、端末２（通信制御部２１２）は、端末２を特定するデバイスＩＤをクラウド３に送信する。

クラウド３では、操作音声変換部３１０（取得部３１１）が、その音声データを取得し、その後は、ステップＳ３´～ステップＳ５´と同様に、操作音声変換部３１０においてテキスト解釈までの処理が行われ（ステップＳ３－１～ステップＳ５－１）、解釈結果が管理部３３０へ渡される（ステップＳ６－１）。ここでは、「コピーして」に対応する「Ｃｏｐｙ＿Ｅｘｅｃｕｔｅ」としたアクションを解釈結果として渡す。

そして、管理部３３０（実行判定部３３５）は、改めて必須パラメータ不足判断を行う（ステップＳ７５―１）。この例の場合、ユーザは、「コピー」としか発話しておらず、必須パラメータのコピー部数等の設定値が不明である。

このため、クラウド３が端末２に対して不足しているパラメータを問い合わせる。具体的には、この段階では設定値不足であったため、管理部３３０（通知部３３６）が「設定値を入力してください」を含むレスポンス情報を生成し、操作音声変換部３１０（出力部３１４）を介して「設定値を入力してください」の音声データを端末２に送信する（ステップＳ７５－１～ステップＳ７７－１）。そして、端末２（フィードバック部２１３）が「設定値を入力してください」との音声出力を行う（ステップＳ７８－１）。なお、この場合も、音声出力の他に、タッチパネル２７において「設定値を入力してください」とのテキスト表示などを行ってもよい。

次に、入力不足フィードバックがあったため、ユーザは、例えば「両面で」と発話する。ユーザが発話した音声は、端末２（取得部２１１）により音声データとして取得される（ステップＳ１－２）。端末２（通信制御部２１２）は、この「両面で」の音声データをクラウド３に送信する（ステップＳ２－２）。このとき、端末２（通信制御部２１２）は、端末２を特定するデバイスＩＤをクラウド３に送信する。

クラウド３では、操作音声変換部３１０（取得部３１１）が、その音声データを取得し、その後は、ステップＳ３´～ステップＳ５´と同様に、操作音声変換部３１０においてテキスト解釈までの処理が行われ（ステップＳ３－２～ステップＳ５－２）、解釈結果が管理部３３０へ渡される（ステップＳ６－２）。

ここでは、操作音声変換部３１０（解釈部３１３）が「印刷面＝両面」としたパラメータを解釈結果として生成し、その解釈結果を管理部３３０へ渡す。

そして、管理部３３０（実行判定部３３５）は、改めて必須パラメータ不足判断を行う（ステップＳ７５―２）。

具体的に、管理部３３０（ＤＢ管理部３３７）は、前回の発話の解釈結果を管理ＤＢ３４０などに記憶しておき、管理部３３０（ＤＢ管理部３３７）により前回の発話の解釈結果と今回の発話の解釈結果とを統合してアクションおよびパラメータを完成させる。管理部３３０（実行判定部３３５）は、この統合された解釈結果に基づいて改めて必須パラメータ不足判断を行う。

なお、以上では管理部３３０で前回の発話の解釈結果と今回の発話の解釈結果とを統合する場合について説明したが、これに限定されない。即ち、操作音声変換部３１０が前回の発話に含まれるアクションおよびパラメータと合わせて「Ｃｏｐｙ＿Ｅｘｅｃｕｔｅ」としたアクション、および「印刷面＝両面」としたパラメータを含む解釈結果を管理部３３０へ渡してもよい。

この例の場合、ユーザは「コピー」と「両面で」としか発音しておらず、コピー部数などが必須パラメータ不足である。従って、管理部３３０（実行判定部３３５）は、この段階（ステップＳ７５―２）でも必須パラメータ不足と判断する。

このため、クラウド３が端末２に対して不足しているパラメータを更に問い合わせる。パラメータを問い合わせる続きは同様である。つまり、管理部３３０（通知部３３６）が「何部印刷しますか」を含むフィードバック情報を生成し、操作音声変換部３１０（出力部３１４）を介して「何部印刷しますか」の音声データを端末２に送信する（ステップＳ７５－２～ステップＳ７７－２）。そして、端末２（フィードバック部２１３）が「何部印刷しますか」との音声出力を行う（ステップＳ７８－２）。なお、この場合も、音声出力の他に、タッチパネル２７において「設定値を入力してください」とのテキスト表示などを行ってもよい。

次に、入力不足フィードバックがあったため、ユーザは、例えば「２部」と発話する。その後は同様に、端末２からクラウド３へ音声データが送信され、クラウド３で必須パラメータの充足判断が行われる。つまり、ユーザが発話した音声は、端末２（取得部２１１）により音声データとして取得される（ステップＳ１－３）。端末２（通信制御部２１２）は、この「２部」の音声データをクラウド３に送信する（ステップＳ２－３）。このとき、端末２（通信制御部２１２）は、端末２を特定するデバイスＩＤをクラウド３に送信する。

クラウド３では、操作音声変換部３１０（取得部３１１）が、その音声データを取得し、その後は、ステップＳ３´～ステップＳ５´と同様に、操作音声変換部３１０においてテキスト解釈までの処理が行われ（ステップＳ３－３～ステップＳ５－３）、解釈結果が管理部３３０へ渡される（ステップＳ６－３）。

ここでは、操作音声変換部３１０（解釈部３１３）が「部数＝２部」としたパラメータを解釈結果として生成し、その解釈結果を管理部３３０へ渡す。

そして、管理部３３０（実行判定部３３５）は、改めて必須パラメータ不足判断を行う（ステップＳ７５―３）。

具体的に、管理部３３０（ＤＢ管理部３３７）は、前回の発話の解釈結果と今回の発話の解釈結果とを統合してアクションおよびパラメータを完成させる。つまり、この例では、「Ｃｏｐｙ＿Ｅｘｅｃｕｔｅ」としたアクション、および「印刷面＝両面、部数＝２部」としたパラメータを完成させる。管理部３３０（実行判定部３３５）は、この統合された解釈結果に基づいて改めて必須パラメータ不足判断を行う。この例の場合、ユーザが「２部」と発話したことで、コピーのジョブに対する必須パラメータ不足が解消する。

この例では、続いて管理部３３０（通知部３３６）は、入力確認フィードバックを行うために「両面で２部コピーします。よろしいですか？」とのレスポンス情報を生成し、操作音声変換部３１０（出力部３１４）を介して「両面で２部コピーします。よろしいですか？」の音声データを端末２に送信する（ステップＳ７５－３～ステップＳ７７－３）。そして、端末２（フィードバック部２１３）が「両面で２部コピーします。よろしいですか？」との音声出力を行う（ステップＳ７８－３）。なお、この場合も、音声出力の他に、タッチパネル２７において「両面で２部コピーします。よろしいですか？」とのテキスト表示などを行ってもよい。ここで、レスポンス情報に含まれるテキストデータや音声データを出力することに代えて、レスポンス情報に含まれる情報に基づいて端末２の記憶部に記憶されたテキストデータを組み合わせて出力情報を生成してもよい。

その後、ユーザは、この入力確認フィードバックに対して、設定値の変更またはコピーの開始を端末に発話する。ユーザが設定値を変更する内容を発話した場合は、その発話した設定値の変更について、端末２からクラウド３へ音声データが送信され、クラウド３で設定値の変更が行われて、端末２に設定値の変更が行われたことについて音声でフィードバックされる。音声のフィードバックは、例えば「○○設定でコピーします。よろしいですか？」など、変更された設定値でコピーを開始してよいか否かの確認を行う。

その後も、ユーザが設定値を変更する内容を発話する場合は、この手続きが繰り返される。従って、「両面で２部コピーします。よろしいですか？」との音声出力が行われた後は、ユーザが設定値を変更する内容を発話した回数（ｋ回）だけ、手続きが繰り返される。

ユーザが「はい」と応答するなどしてコピーの開始を指示した場合は、図１５に示されるｎ番目の手順が行われる。つまり、ユーザが発話した音声は、端末２（取得部２１１）により音声データとして取得される（ステップＳ１－ｎ）。端末２（通信制御部２１２）は、この「はい」の音声データをクラウド３に送信する（ステップＳ２－ｎ）。このとき、端末２（通信制御部２１２）は、端末２を特定するデバイスＩＤをクラウド３に送信する。

クラウド３では、操作音声変換部３１０（取得部３１１）が、その音声データを取得し、その後は、ステップＳ３´～ステップＳ５´と同様に、操作音声変換部３１０においてテキスト解釈までの処理が行われ（ステップＳ３－ｎ～ステップＳ５－ｎ）、解釈結果が管理部３３０へ渡される（ステップＳ６－ｎ）。

ここで、操作音声変換部３１０（解釈部３１３）は、コピー開始指示を認識すると、その解釈結果を管理部３３０に渡し、管理部３３０（実行判定部３３５）が、最終確認ＯＫと判断する（ステップＳ７５―ｎ）。

これにより、管理部３３０（解釈結果変換部３３２）は、解釈結果をＭＦＰ１のジョブ命令に変換処理する（ステップＳ７６）。そして管理部３３０（実行指示部３３３）は、変換処理した実行指示情報をＭＦＰ１に送信する（ステップＳ８）。これにより、音声入力操作により、ＭＦＰ１をコピー制御することができる。

（状態情報）
状態情報は、セッションの状況を示す情報であり、例えば、外部装置に対するジョブ実行命令の送信がまだ行われておらずユーザによるジョブの設定処理が継続中である場合にはセッションが継続していることを示す状態情報が送信され、外部装置に対するジョブ実行命令の送信が完了した場合にはセッションが終了したことを示す状態情報が送信される。

ただし、状態情報はこれに限定されず、より詳細にセッションの状況を示す状態情報を含んでもよい。操作音声変換部３１０や管理部３３０は、状態情報に応じて、セッションを継続するか終了するか否かを判断することができる。つまり、操作音声変換部３１０や管理部３３０は、セッションが継続中である場合には、ユーザが複数回の発話に分けてジョブ設定条件を指定した場合であっても一つのジョブに属するものであると判断し、セッションが終了した場合には、ユーザの発話に含まれるジョブ設定条件は新規のジョブに属するものであると判断することができる。これにより、操作音声変換部３１０や管理部３３０は、ジョブの種類およびジョブ設定条件の指示が複数回の発話に跨るような場合であったとしても、同一のジョブに属するものか、別の新規なジョブに属するものかを判断することができる。

なお、管理部３３０は、端末２から信号を受信しない状況が所定時間以上継続した場合は、セッションの終了と判断してもよい。通信対象（ＭＦＰ１）はセッションに関わらずジョブ実行を行ってもよい。この場合、通信対象ではジョブ実行命令を取得すると、通信対象が保持するジョブ条件に対して、ジョブ実行命令に含まれるジョブ条件を上書きして設定する。このとき、通信対象で保持するジョブ条件を全て削除またはデフォルト条件に戻して、ジョブ実行命令に含まれるジョブ条件を設定してもよい。また、通信対象で保持するジョブ条件と矛盾するジョブ条件についてはジョブ実行命令に含まれるジョブ条件を優先して上書き設定し、矛盾しないジョブ条件は通信対象が予め保持していたジョブ条件を維持してもよい。なお、通信対象は、ジョブを実行した場合はジョブ実行命令に含まれるジョブ条件を削除して、通信対象に予め登録されたデフォルト状態にすることができる。

（クラウドからフィードバックされる情報の例）
以上では、端末２のフィードバック部２１３はレスポンス情報に含まれるテキストデータおよび音声データを出力する場合について説明したが、これに限定されず、フィードバック部２１３はレスポンス情報に含まれる情報に基づいて端末２の記憶部に記憶されたテキストデータの中から全て、または一部を読み出し、組み合わせることで生成してもよい。以下の表２に、クラウド３から端末２にフィードバックされるレスポンス情報とフィードバックの一例を示す。

この表２に示すように、例えばジョブの設定値の入力を促すための「Ｃｏｐｙ＿Ｐａｒａｍｅｔｅｒ＿Ｓｅｔｔｉｎｇ」、ジョブの設定値の確認を促すための「Ｃｏｐｙ＿Ｃｏｎｆｉｒｍ」等のアクションが、レスポンス情報に含められて、クラウド３から端末２にフィードバックされる。

フィードバック部２１３は、レスポンス情報に含まれるアクション、パラメータ、レスポンスに応じて、ユーザに対するフィードバックを判断することができる。フィードバック部２１３は、フィードバックする内容を決定するために、表２に相当する情報を端末２の記憶部に記憶し、参照できる構成としてもよい。なお、表２では、コピーの場合を例としたが、プリント、スキャン、ＦＡＸも表２と同様にアクションとして、ジョブの設定値の入力を促すための「Ｐａｒａｍｅｔｅｒ＿Ｓｅｔｔｉｎｇ」、ジョブの設定値の確認を促すための「Ｃｏｎｆｉｒｍ」が用いられてもよい。なお、レスポンス情報には、アクションおよびパラメータまたはレスポンスの少なくとも一方が含まれていればよい。

また、例えば両面または片面等の印刷面の設定値、または、コピー部数等のパラメータが、レスポンス情報に含められて端末２にフィードバックされる。さらに、必須パラメータが不足している場合、不足するパラメータの入力を促すメッセージが、レスポンスとして信号に含められて端末２にフィードバックされる。

（ジョブの実行動作およびエラー発生時の対話）
次に、例えば「ジョブを実行します。よろしいですか？」等の、上述の入力確認フィードバックにより、ユーザが「はい」と応答することで、ジョブが実行され、または、エラーが発生した場合の対話の一例を示す。

まず、「ジョブを実行します。よろしいですか？」等の、上述の入力確認フィードバックにより、ユーザが「はい」と応答することで、ＭＦＰ１においてジョブが実行される。何事もなくジョブが完了すれば、例えば「ジョブが完了しました。原稿の取り忘れに注意してください。」等の完了メッセージ（音声およびテキスト）が、端末２を介して出力される。

これに対して、例えば用紙不足のエラーが発生した場合、端末２を介して「用紙がありません。用紙を補充して継続するか、ジョブをキャンセルしてください」等のジョブの確認フィードバックが行われる。この確認フィードバックに対して、ユーザがＭＦＰ１に用紙を補充し、「継続」との発話により応答した場合、ＭＦＰ１に対してジョブの継続が指示され、ＭＦＰ１においてジョブが再開される。これに対して、確認フィードバックにより、ユーザが「キャンセル」との発話することで、ジョブのキャンセルを指示した場合、ＭＦＰ１に対してジョブのキャンセルが通知され、エラー発生以降のジョブがキャンセルされる。そして、端末２を介して、例えば「ジョブをキャンセルしました」等の音声およびテキストを出力する確認フィードバックが行われる。

（ジョブの実行動作およびエラー発生時の対話動作の流れ）
ＭＦＰ１は、指示されたジョブを実行することで、正常にジョブが完了した旨の実行結果、または、エラーが発生したことを示す実行結果をクラウド３を介して端末２に送信する。正常にジョブが完了した旨の実行結果を受信した場合、端末２のフィードバック部２１３は、例えば「ジョブが完了しました」等の音声メッセージを出力する。これに対して、エラーが発生した旨の実行結果を受信した場合、端末２のフィードバック部２１３は、例えば「エラーが発生しました。ジョブを継続しますか、キャンセルしますか？」等の、ジョブの継続の是非を問う音声メッセージを出力する（ステップＳＡ５３）。具体的には、ＭＦＰはジョブが完了した場合には完了通知を管理部に対して送信する。また、ＭＦＰはエラーが発生した場合にはエラー内容などエラーに関するエラー情報を管理部へ送信する。また、管理部は、ＭＦＰから取得した情報に応じて、レスポンス情報として、例えば「ジョブが完了しました」または「エラーが発生しました。ジョブを継続しますか、キャンセルしますか？」を生成し、生成したレスポンス情報を操作音声変換部を介して端末へ送信する。

ステップＳＡ５４～ステップＳＡ６１が、ユーザが、継続を指定した場合の各部の動作の流れである。すなわち、「エラーが発生しました。ジョブを継続しますか、キャンセルしますか？」との問い合わせに対し、ユーザがエラーの発生要因を除去したうえで、「継続」と応答した場合（ステップＳＡ５４）、操作音声変換部によりテキスト化される（ステップＳＡ５５～ステップＳＡ５７）。

操作音声変換部は、アクションを「Ｃｏｐｙ＿Ｊｏｂ＿Ｃｏｎｔｉｎｕｅ」とした解釈結果を生成して、管理部へ送信する。管理部は、レスポンスを「ジョブを継続します」としたレスポンス情報を生成し、これを端末２に送信する（ステップＳＡ５８～ステップＳＡ５９）。さらに、管理部（実行指示部３３３）は、ＭＦＰ１に対してジョブの継続を指示する（ステップＳＡ６０）。また、端末２（フィードバック部２１３）は、「ジョブを継続します」との入力確認フィードバックを行う（ステップＳＡ６０）。

これに対して、ステップＳＡ６２～ステップＳＡ６９が、ユーザが、ジョブのキャンセルを指定した場合の各部の動作の流れである。すなわち、「エラーが発生しました。ジョブを継続しますか、キャンセルしますか？」との問い合わせに対し、ユーザが、「キャンセル」と応答した場合（ステップＳＡ６２）、操作音声変換部によりテキスト化される（ステップＳＡ６３～ステップＳＡ６５）。

操作音声変換部は、アクションを「Ｃｏｐｙ＿Ｊｏｂ＿Ｃａｎｃｅｌ」とした解釈結果を生成して、管理部へ送信する。管理部は、レスポンスを「ジョブをキャンセルします」としたレスポンス情報を生成し、これを端末２に送信する（ステップＳＡ６６～ステップＳＡ６７）。更に、管理部（実行指示部３３３）は、ＭＦＰ１に対してジョブのキャンセルを指示する（ステップＳＡ６８）。また、端末２（フィードバック部２１３）は、「ジョブをキャンセルします」との入力確認フィードバックを行う（ステップＳＡ６９）。

（対話によるＭＦＰの機器能力に応じたパラメータの調整動作）
次に、実施の形態の音声操作システムは、ＭＦＰ１の機器能力に対応したジョブの実行を、対話型操作により実現している。

まず、機器情報取得部３３４が、ＭＦＰ１に対して、例えば処理可能な解像度の問い合わせを行う（Ｃａｐａｂｉｌｉｔｙの取得：ステップＳＡ７２）。この問い合わせに対して、ＭＦＰ１は、「２００ｄｐｉ～６００ｄｐｉ」等のように、処理可能な解像度を端末２に回答する（ステップＳＡ７３）。これにより、端末２において、ＭＦＰ１の処理可能な解像度が認識される。

なお、機器情報取得部３３４はクラウド３とＭＦＰ１との通信が確立した後の所定のタイミングで、予め処理能力の情報を取得しておいてもよい。例えば、管理テーブルにＭＦＰを登録する際に処理能力の情報を取得してもよいし、定期的に処理能力の情報を取得してもよいし、端末から音声アシスタントプログラムの起動を受け付けたタイミングや端末からジョブの実行指示を受け付けたタイミングで取得してもよい。取得した処理能力の情報は、クラウドが有するＨＤＤなどの記憶部に記憶しておくことができ、例えば管理テーブルにおいてＭＦＰと紐づけて記憶しておいてもよい。また、処理能力の取得は他のプログラムが実行し、機器情報取得部３３４は他のプログラムが取得した情報を取得することで、間接的にＭＦＰ１が有する情報を取得してもよい。また、機器情報取得部がＭＦＰから取得する機器情報は解像度の情報に限定されず、例えばＭＦＰにインストールされたアプリケーションの種類およびバージョン、印刷速度、処理可能なファイル形式、フィニッシャを含むオプション機器の接続状況など、ＭＦＰで実行可能なジョブの種類やジョブの設定条件に関する情報を取得することができる。

まず、ユーザにより端末２の操作処理プログラムが起動操作された後、例えば音声入力によって音声アシスタントプログラムの起動を指示すると、通信制御部は、クラウド３に対して音声データを送信する。テキスト変換部は音声データをテキストデータに変換し、アクションおよびパラメータに変換して管理部へ送信する。実行判定部は、必須パラメータを満たしているか否かを判断し、必須パラメータを満たしていない場合には、操作音声変換部を介して端末に対して「コピーしますか？スキャンしますか？」のテキストデータなどのレスポンス情報を送信する。

次に、端末２（フィードバック部２１３）は、例えば「コピーしますか？スキャンしますか？」等のジョブの指示を促す内容を音声でフィードバックする（ステップＳＡ７４）。ユーザが「スキャン」と発話すると（ステップＳＡ７５）、操作音声変換部によりテキスト化される（ステップＳＡ７６～ステップＳＡ７８）。また、解釈部はテキストデータに基づいて解釈結果を生成し、アクションを「Ｓｃａｎ＿Ｅｘｅｃｕｔｅ」とした解釈結果を管理部へ送信する。スキャンの指示だけでは、必須パラメータが不足しているため、管理部の実行判定部は、レスポンスを「設定値を入力してください」としたレスポンス情報を操作音声変換部を介して端末２に送信する（ステップＳＡ７９～ステップＳＡ８０）。これにより、端末２のフィードバック部２１３は、「設定値を入力してください」との入力不足フィードバックを行う（ステップＳＡ８１）。

次に、このような入力不足フィードバックに対して、ユーザが「１０００ｄｐｉで田中さん宛て」と発話すると、操作音声変換部によりテキスト化される（ステップＳＡ８２～ステップＳＡ８５）。解釈部は、は、アクションを「Ｓｃａｎ＿Ｅｘｅｃｕｔｅ」、パラメータを「解像度＝１０００ｄｐｉ、宛先＝田中」とした解釈結果を管理部に送信する（ステップＳＡ８６～ステップＳＡ８７）。管理部の実行判定部３３５は、解釈結果に含まれるパラメータに基づいて、ユーザにより指定されたジョブは、ＭＦＰ１で実行可能か否かを判定する（ステップＳＡ８８）。実行判定部は、機器情報取得部によって機器情報を取得することでまたは機器情報取得部が予め取得した機器情報を参照することで、通信対象にユーザから指定された設定でジョブ実行可能か否かを判定する。

ＭＦＰ１が、１０００ｄｐｉの解像度で画像処理が可能であれば、ステップＳＡ８９において、管理部の通知部は、レスポンスを「１０００ｄｐｉでスキャンし、田中さん宛てに送信します。よろしいですか？」としたレスポンスを含むレスポンス情報を操作音声変換部を介して端末へ送信し、端末２（フィードバック部２１３）が、「１０００ｄｐｉでスキャンし、田中さん宛てに送信します。よろしいですか？」との入力確認フィードバックを行う。

この入力確認フィードバックに対してユーザが「はい」と応答すると（ステップＳＡ９１）、操作音声変換部によりテキスト化される（ステップＳＡ９２～ステップＳＡ９４）。操作音声変換部は、アクションを「Ｓｃａｎ＿Ｅｘｅｃｕｔｅ」とし、パラメータを「解像度＝１０００、宛先＝田中」とした解釈結果を管理部に送信する（ステップＳＡ９５～ステップＳＡ９６）。

管理部の解釈結果変換部３３２は、解釈結果をジョブ命令に変換する（ステップＳＡ９７）。管理部の実行指示部は、ジョブ命令をＭＦＰ１に送信する（ステップＳＡ９８）。

これに対して、６００ｄｐｉがＭＦＰ１の処理能力の限界である場合、ユーザから指定された１０００ｄｐｉの画像処理は、ＭＦＰ１では困難となる。この場合、端末２は、ステップＳＡ９０において、「１０００ｄｐｉは指定できません。６００ｄｐｉでスキャンし、田中さん宛てに送信します。よろしいですか？」との確認フィードバックを行う。

なお、実行判定部３３５は、ＭＦＰ１の処理能力の範囲内で、ユーザが指示した機能または処理能力値に最も近い機能または値を選択することができる。例えば、ＭＦＰ１の処理可能な解像度が２００－６００ｄｐｉの範囲である場合、ユーザが指示した１０００ｄｐｉに最も近い６００ｄｐｉが選択される。そして、実行判定部３３５が選択した能力または値を、フィードバック部が確認フィードバックとして出力する。つまり、実行判定部は、機器情報または機器状態に基づいて、解釈結果に含まれるアクションおよびパラメータではジョブ実行が不可能と判断した場合、ＭＦＰの処理能力を参照してＭＦＰで実行可能な設定条件を選択する。そして、選択した設定条件に基づいてレスポンス情報を生成することができる。なお、管理部は、操作音声変換部から解釈結果に加えて、音声入力元の端末を特定するデバイスＩＤを取得することができるため、実行判定部は紐づけ用ＤＢを参照して取得したデバイスＩＤと紐づくＭＦＰを特定し、特定したＭＦＰの処理能力を参照することでジョブ実行の可否を判断することができる。また、ユーザがそもそもＭＦＰの有していない機能の実行を指示した場合、実行判定部はジョブを実行できないことを示すレスポンス情報を操作音声変換部を介して端末へ送信してもよい。なお、管理部は、選択した設定条件に関する情報を操作音声変換部に送信してもよい。

このような確認フィードバックに対してユーザが「はい」と発話すると（ステップＳＡ９１）、操作音声変換部によりテキスト化される（ステップＳＡ９２～ステップＳＡ９４）。操作音声変換部は、テキストデータに基づいて、は、アクションを「Ｓｃａｎ＿Ｅｘｅｃｕｔｅ」とし、パラメータを「解像度＝６００、宛先＝田中」とした解釈結果を管理部に送信する（ステップＳＡ９５～ステップＳＡ９６）。

管理部の解釈結果変換部３３２は、解釈結果をジョブ命令に変換する（ステップＳＡ９７）。管理部の実行指示部は、ジョブ命令をＭＦＰ１に送信する（ステップＳＡ９８）。これにより、音声入力操作により、処理能力内でジョブが実行されるように、ＭＦＰ１を操作できる。ここで、ＭＦＰでは、ＭＦＰ内のＨＤＤなどの記憶部に保存されたアドレス帳を参照することで、「田中」に該当する宛先情報を検索する。ここで、宛先情報とは、メールアドレスやＦＡＸ番号などの情報である。「田中」に該当する宛先情報がアドレス帳に存在する場合、その宛先に対してＭＦＰでスキャンした画像データを送信する。なお、ＭＦＰの操作部に宛先情報を表示してユーザに宛先に誤りがないか確認を促し、ユーザがＯＫボタンを押下するなどした場合に宛先に対してスキャンした画像データを送信するものとしてもよい。また、「田中」に該当する宛先がアドレス帳に複数存在する場合は、該当する全ての宛先情報をＭＦＰの操作部に表示して、ユーザに選択させるものとしてもよい。

（印刷対象を検索して印刷する動作）
次に、所望のファイルを印刷する動作を説明する。まず、ユーザにより端末２の操作処理プログラムが起動操作された後、例えば音声入力によって音声アシスタントプログラムの起動を指示すると、通信制御部は、クラウド３に対して音声データを送信する。テキスト変換部は音声データをテキストデータに変換し、アクションおよびパラメータに変換して管理部へ送信する。実行判定部は、必須パラメータを満たしているか否かを判断し、必須パラメータを満たしていない場合には、操作音声変換部を介して端末に対して「コピーしますか？スキャンしますか？プリントしますか？」のテキストデータなどのレスポンス情報を送信する。

フィードバック部２１３が、例えば「コピーしますか？スキャンしますか？プリントしますか？」等のジョブの指示を促す内容を音声でフィードバックする（ステップＳＡ１４２）。ユーザが「プリント」と発話すると（ステップＳＡ１４３）、操作音声変換部のテキスト変換部によりテキスト化される（ステップＳＡ１４４～ステップＳＡ１４６）。また、解釈部はテキストデータに基づいて解釈結果を生成し、アクションを「Ｐｒｉｎｔ＿Ｅｘｅｃｕｔｅ」とした解釈結果を管理部へ送信する。「プリント」との指示だけでは、必須パラメータが不足しているため、管理部の実行判定部は、レスポンスを「設定値を入力してください」としたレスポンス情報を操作音声変換部を介して端末２に送信する（ステップＳＡ１４７～ステップＳＡ１４８）。これにより、端末２のフィードバック部２１３は、「設定値を入力してください」との入力不足フィードバックを行う（ステップＳＡ１４９）。

次に、このような入力不足フィードバックに対して、ユーザが「ファイルＡをプリント」と発話すると（ステップＳＡ１５０）、操作音声変換部のテキスト変換部によりテキスト化される（ステップＳＡ１５１～ステップＳＡ１５３）。また、解釈部はテキストデータに基づいて解釈結果を生成し、アクションを「Ｐｒｉｎｔ＿Ｅｘｅｔｕｔｅ」、パラメータを「印刷対象＝ファイルＡ」とした解釈結果を管理部に送信する（ステップＳＡ１５４～ステップＳＡ１５５）。管理部は、解釈結果に含まれるパラメータに基づいて管理ＤＢからファイルＡを検索する（ステップＳＡ１５６）。

なお、検索する対象は管理ＤＢに限らずクラウド３とネットワークを介して接続されたサーバであってもよい。また、管理部は、パラメータに含まれる文字列を含むファイル名を検索するだけでなく、ファイルデータ中にパラメータに含まれる文字列を含むファイルを検索してもよい。また、管理部は、ファイルの作成日時やファイル作成者などのファイルの属性に基づいて検索を行ってもよい。

管理ＤＢに、一つだけファイルＡが記録されている場合、ステップＳＡ１５７において、管理部は、このファイルＡを印刷データとして設定する。このファイルＡの印刷データは、ＭＦＰ１に送信され印刷される。このとき、実行指示部は、ＭＦＰに対してジョブの実行命令に加えて、管理部が検索したファイルを送信する。

管理ＤＢに２つ以上のファイルＡが存在する場合、即ち管理部が検索した結果として複数のファイル見つかった場合、実行判定部はレスポンスとして「複数のファイルＡが登録されています。印刷するファイルを選択してください」のレスポンス情報を生成して、操作音声変換部を介して端末へ送信する。このとき、それぞれのファイルを特定するための情報として、ファイルの作成日時や作成者、サムネイル画像などをレスポンス情報に含めてもよい。端末２のフィードバック部２１３は、「複数のファイルＡが登録されています。印刷するファイルを選択してください」との入力不足フィードバックを行う（ステップＳＡ１５８）。このとき、それぞれのファイルを特定するための情報をとしてファイルの作成日時や作成者を音声でフィードバックしてもよいし、タッチパネルにファイル一覧を表示してもよい。なお、ファイル一覧としてサムネイル画像を表示することでユーザに選択を促してもよい。これに対して、ユーザは、所望のファイルＡを選択する。即ち、ファイルの作成に自治や作成者などを発話することでファイルを選択してもよいし、タッチパネルに表示されたファイル一覧から所望のファイルをタッチ操作で選択してもよい。実行指示部は、後述するように、ユーザにより選択されたファイルＡをＭＦＰ１に送信し印刷要求を行う。

管理ＤＢにファイルＡが記録されていない場合、実行判定部はレスポンスとして「メモリ内にファイルＡが登録されていません」のレスポンス情報を生成して、操作音声変換部を介して端末へ送信する。端末２のフィードバック部２１３は、「メモリ内にファイルＡが登録されていません」とのフィードバックを行う（ステップＳＡ１６０）。

すなわち、管理ＤＢに１つだけファイルＡが存在する場合、印刷を希望するファイルＡまたは他のファイルが選択された場合、実行判定部はレスポンスとして「ファイルＡの印刷を開始します。よろしいでしょうか」のレスポンス情報を生成して、操作音声変換部を介して端末へ送信する。端末２のフィードバック部２１３は、例えば「ファイルＡの印刷を開始します。よろしいでしょうか」との確認フィードバックを行う（ステップＳＡ１６２）。

この確認フィードバックに対して、ユーザが「はい」と応答すると（ステップＳＡ１６３）、操作音声変換部のテキスト変換部によりテキスト化される（ステップＳＡ１６４～ステップＳＡ１６６）。また、解釈部はテキストデータに基づいて解釈結果を生成し、アクションを「Ｐｒｉｎｔ＿Ｅｘｅｃｕｔｅ」とし、パラメータを「印刷対象＝ファイルＡ、ファイル特定情報Ｘ」とした解釈結果を管理部に送信する（ステップＳＡ１６７～ステップＳＡ１６８）。なお、ファイル特定情報Ｘとは、管理ＤＢに２つ以上のファイルＡが存在した場合に、ユーザが選択したファイルＡを特定するために付加される情報であり、例えばファイルの作成日時や作成者などの情報である。

管理部の解釈結果変換部３３２は、解釈結果をジョブ命令に変換する（ステップＳＡ１６９）。通信制御部は、ジョブ命令を、ユーザより選択されたファイルと共にＭＦＰ１に送信する（ステップＳＡ１７０）。これにより、ＭＦＰ１において、ユーザが希望するファイルが印刷される。

なお、以上では印刷対象をクラウド３が検索し、検索したファイルをＭＦＰへ送信する場合を例に説明したが、これに限定されない。例えば、ＭＦＰに対しては「印刷対象＝ファイルＡ」としたジョブ命令を送信して、ＭＦＰがファイルＡに該当するファイルを検索してもよい。この場合、ＭＦＰは、ＭＦＰが有するＨＤＤまたはＭＦＰがネットワークを介して接続されたサーバからファイルＡに該当するファイルを検索することができる。また、検索したファイルが２つ以上存在する場合は、ＭＦＰのタッチパネル上にファイル一覧を表示させ、ユーザに選択を促すことができる。そして、ユーザが選択したファイルをジョブ実行の対象とすることができる。

（ＭＦＰ１の設定画面に対する反映）
ここまでは、ユーザが端末２に音声指示を行い、クラウド３が音声指示を解釈してＭＦＰ１へ処理を指示する一連の流れについて説明した。クラウド３は、ＭＦＰ１へ処理を指示すると、ＭＦＰ１で実際に処理が行われたかどうかなどの処理結果に関係なく、クラウド３が生成したフィードバックの内容（例えば「処理を実行しました」など）を端末２に音声でフィードバックする。ＭＦＰ１が処理結果をクラウド３に送信しない理由は、レイテンシや通信コストの問題があるためである。

このため、実際のＭＦＰ１の状態とクラウド３で把握している状態とに相違があった場合に、嘘のフィードバックを行ってしまう可能性がある。その場合、ＭＦＰ１では、ユーザが指示した結果が得られていないことになるが、ＭＦＰ１を見てもユーザは何が生じたかを直ちに把握することはできない。

以下では、ユーザが端末２に指示した操作の処理結果を確認することをできるようにした音声操作システムについて説明する。

図１６および図１７は、ユーザ側において端末２に指示した操作の処理結果を確認できるようにした音声操作システム全体の動作の一例を示す図である。先ず、ユーザが端末２に例えば「カラーコピーして」と発話したとする。

ユーザが発話した音声は、図１６に示すように、端末２（取得部２１１）により音声データとして取得される（ステップＳ１０１）。端末２（通信制御部２１２）は、この「カラーコピーして」の音声データをクラウド３に送信する（ステップＳ２０１）。

クラウド３では、送信された「カラーコピーして」の音声データについて、制御対象のＭＦＰ１では実行不可能（制御対象のケイパビリティ外）であると判断すると、受付失敗を示す内容、この場合は「カラーは設定できません」という内容の音声データを端末２にフィードバックする（ステップＳ２０２）。これにより、端末２が「カラーは設定できません」を音声でフィードバックする（ステップＳ２０３）。

クラウド３において、このような実行不可能（制御対象のケイパビリティ外）と判断するまでの処理は次のようになる。なお、これまでに詳しく説明してきた部分については簡単に説明する。クラウド３は、端末２から送信された音声データを操作音声変換部３１０でテキスト化し、辞書情報に基づきテキスト解釈する。ここでは「カラーコピーして」と発話されているので、操作音声変換部３１０（解釈部３１３）は解釈結果として、「アクション：コピー」「パラメータ：色＝カラー」を管理部３３０に渡す。管理部３３０（実行判定部３３５）は、解釈結果と、制御対象のＭＦＰ１の処理能力（ここでは「ケイパビリティ情報」と呼ぶ）とを比較することで、ユーザから指定されたジョブを制御対象のＭＦＰ１で実行可能か否かを判定する。制御対象のＭＦＰ１のケイパビリティ情報は前以て取得される。ケイパビリティ情報としてＭＦＰ１の構成情報や実行可能なジョブの種類などの情報が含まれる。図１６に示すステップＳ２０２は、管理部３３０（実行判定部３３５）の判定において、制御対象のＭＦＰ１がモノクロ機であるために実行不可能と判定されたケースである。管理部３３０（通知部３３６）が「カラーは設定できません」という内容のレスポンス情報を操作音声変換部３１０（出力部３１４）を介して端末２に送信する。

このように、クラウド３では、頻繁に変更されることないケイパビリティ情報を保持するため、ケイパビリティ情報の範囲で受付失敗の判定ができる場合には、ＭＦＰ１に実行を指示することなく端末２に受付失敗のフィードバックを行う。

一方、制御対象のＭＦＰ１がカラー機である場合は、クラウド３が、制御対象のＭＦＰ１で実行可能（制御対象のケイパビリティ内）と判断する。その場合、クラウド３は、制御対象のＭＦＰ１にジョブの実行を指示する（ステップＳ２０４）。具体的は、クラウド３において、管理部３３０（解釈結果変換部３３２）が、解釈結果を制御対象のＭＦＰ１が解釈可能なジョブの実行命令（動作要求）に変換し、管理部３３０（実行指示部３３３）が、ジョブの実行命令をＭＦＰ１に送信することによりジョブの実行を指示する。

また、この場合、クラウド３は、受付成功を示す内容、この場合は「カラーコピーですね」という内容の音声データを端末２にフィードバックする（ステップＳ２０５）。これにより、端末２が「カラーコピーですね」と音声でフィードバックを行う（ステップＳ２０６）。なお、このフィードバックも、管理部３３０（通知部３３６）が「カラーコピーですね」という内容のレスポンス情報を操作音声変換部３１０（出力部３１４）を介して端末２に送信することで行われる。

また、制御対象のＭＦＰ１では、クラウド３から送信されたジョブの実行命令（動作要求）をマルチデバイスハブ１１１が受信すると、その実行命令をボイスコントロールサービス１１２が受け付ける（ステップＳ５０１）。そして、ボイスコントロールサービス１１２は、実行命令を解釈して、対象のアプリケーションの起動（設定値の反映）を試みる。

ここで、ボイスコントロールサービス１１２は何らかの失敗条件を判定した場合、ＭＦＰ１の無効音を鳴らすことによりＭＦＰ１で実行に失敗したことをユーザに報知する（ステップＳ５０２）。失敗条件としては、一つにアプリケーションの起動可否に関わるものがある。例えば、ログイン中のユーザにアプリ権限やジョブ実行権限などが設定されていない場合や、他のアプリケーションが起動中の場合などである。失敗条件として、その他には、システム的なバグにより正常に処理が行われなかった場合や、トナー／用紙など消耗品が不足している場合や、ジャムなどの異常が発生している場合などが挙げられる。

なお、報知音は一例であり、ＭＦＰ１で実行に失敗したことをユーザに報知する報知手段であればよい。例えば、音以外に、ＬＥＤ（Light Emitting Diode）などを発光させることにより報知を行ってもよい。

また、この例において、ボイスコントロールサービス１１２は、無効音を鳴らすことの他に、ＭＦＰ１の操作部１６（ＬＣＤ）にエラーである旨（例えば起動できない旨など）を表示する（ステップＳ５０３）。なお、この処理については省いてもよい。詳しくは後述するが、ＭＦＰ１の操作部１６（ＬＣＤ）には、処理が成功した設定までが画面に反映され、その状態のまま表示されることになる。このため、画面の設定を確認することにより、どの指示の実行が行われていないかを把握することができる。

この説明では、対象のアプリケーションの起動可否判定についての説明は省略しているが、起動可否判定も行われるものとする。以下は、起動可否判定が起動可であることを前提とするものとする。

対象のアプリケーションの起動後に、アプリケーション側で設定の反映を実行することができない場合について次に示す。先ず、ボイスコントロールサービス１１２が、対象のアプリケーションの起動（設定値の反映）を試み、対象のアプリケーション（この例ではアプリケーション１１３－１）の起動に成功する（ステップＳＳ５０４）。

アプリケーション１１３－１側では、パラメータ（カラー設定）の設定を試みるが、受け取ったリクエストが不正であった場合、ボイスコントロールサービス１１２に対し、処理の受付結果として「失敗」を通知する（ステップＳ５０５）。

ボイスコントロールサービス１１２は、アプリケーション１１３－１から「失敗」の通知を受けると、ＭＦＰ１の無効音を鳴らすことによりＭＦＰ１で実行に失敗したことをユーザに報知する（ステップＳ５０６）。

また、この例において、ボイスコントロールサービス１１２は、無効音を鳴らすことの他に、ＭＦＰ１の操作部１６（ＬＣＤ）にエラーである旨（例えば設定失敗の旨など）を表示する（ステップＳ５０７）。なお、この処理は省いてもよい。

その後も、アプリケーション１１３－１は、リクエストされたパラメータ（カラー設定）の設定を試み、ボイスコントロールサービス１１２に対し、処理の受付結果を通知する（ステップＳ５０８）。

一方、リクエストが正常な場合、アプリケーション１１３－１は、受け取ったパラメータ（カラー設定）を設定に反映する（ステップＳ５０９）。例えば、両面の設定にカラーの設定値を反映する。

なお、アプリケーション１１３－１でパラメータの設定を反映することに失敗した場合には、アプリケーション１１３－１がＭＦＰ１の無効音を鳴らすことにより設定に失敗したことをユーザに報知する（ステップＳ５１０）。

ここで、アプリケーション１１３－１は、ＭＦＰ１の操作部１６でコピー操作するときに起動され、操作部１６にＵＩ画面を表示させて設定に基づきコピー処理を行うアプリケーションである。このため、音声指示した場合にも、ＭＦＰ１を操作部１６で設定する場合と同様に、ＭＦＰ１の操作部１６の画面に音声で指示した設定が反映されて表示される。つまり、ＭＦＰ１の操作部１６には、処理が成功した設定までが画面に反映され、その状態のまま表示されることになる。例えば端末２で先に音声指示されたユーザ要求の反映中に端末２で後に音声指示されたユーザ要求が受信された場合、反映したジョブの種類や設定までが操作部１６の画面に表示される。このため、画面の設定を確認することにより、どの指示の実行が行われていないかを把握することができる。

また、音声指示した場合にも、操作部１６の画面に音声で指示した設定が反映されて表示された後は、ＭＦＰ１の操作部１６でもユーザによるタッチ入力操作を受け付ける。つまり、反映後に、反映したジョブに関するジョブ設定の変更を受け付けることができる。このため、音声指示した後に、必要な操作（設定や実行などを含む）についてはＭＦＰ１の操作部１６を操作して行うことができる。

以上の処理は、ボイスコントロールサービス１１２や、ジョブ種類に応じて起動されるアプリケーション（アプリケーション（Smart Copy）１１３－１や、アプリケーション（Smart Scan）１１３－２や、アプリケーション（Smart Fax）１１３－３などが「要求反映手段」として機能することにより行われる。

続いて、音声指示が連続で飛んできた場合にそれぞれの音声指示について処理を行う場合について説明する。連続で音声指示が行われた場合に、ＭＦＰ１で１回目の設定の反映に時間がかかり、ＭＦＰ１で１回目の設定の反映中に２回目の実行命令を受け付けるケースがある。この場合、システムは２回目の指示を受け付けないのではなく、一時的にキュー（「保持手段」の一例）にキューイングし、１回目の指示を反映させた後に２回目の指示を反映させるというように順番に処理を行う。一例として、１回目の指示がクラウド３で履歴検索を必要とするもので、そのためにクラウド３で処理に時間がかかり、ＭＦＰ１で１回目の設定の反映中に２回目の実行命令を受け付けた場合について説明する。なお、履歴検索は一例であり、クラウド３で時間を要する場合であれば、何れにも実行される。

図１８は、音声指示が連続で飛んできた場合の全体の動作の一例を示す図である。ここでは、音声指示が連続で飛んできた場合のキューイングについて主に説明する。図１６および図１７で説明したような、クラウド３において実行不可能であった場合のフィードバックや、ＭＦＰ１において起動や設定に失敗した場合のＭＦＰ１における報知などの処理については、図１６および図１７の繰り返しの説明になるため、ここでは図示および説明を省略する。図１８でも実際には図１６および図１７と同様の処理が含まれているものとする。

先ず、ユーザが端末２に１回目の指示として「さっきの設定でコピー」と発話したとする。ユーザが発話した音声は、図１８に示すように、端末２（取得部２１１）により音声データとして取得される（ステップＳ１１１）。端末２（通信制御部２１２）は、この「さっきの設定でコピー」の音声データをクラウド３に送信する（ステップＳ３０１）。

クラウド３は、送信された「さっきの設定でコピー」の音声データに基づいて指示を解釈し、制御対象のＭＦＰ１にジョブの実行を指示する（ステップＳ３０２）。また、「・・・の設定でコピーですね。設定変更はありますか？」という内容の音声データを端末２にフィードバックする（ステップＳ３０３）。これにより、端末２が「・・・の設定でコピーですね。設定変更はありますか？」と音声でフィードバックを行う（ステップＳ３０４）。

この例では「さっきの設定でコピー」という指示なので、クラウド３の処理に、最後に指示を行った設定を記憶部（ＨＤＤ１３など）から検索して取得する処理が含まれる。クラウド３は、音声で指示された内容を記憶部に履歴情報として保持することができ、この例では「さっきの設定でコピー」の指示を受けているので、記憶部の履歴情報を検索して最終履歴の指示を取得する。「・・・」には、クラウド３において履歴情報から取得された最終履歴の具体的な指示（ここでは一例として「モノクロで３部」とする）が含められる。

制御対象のＭＦＰ１では、クラウド３から送信されたジョブの実行命令（動作要求）をマルチデバイスハブ１１１が受信すると、その実行命令をボイスコントロールサービス１１２が受け付ける（ステップＳ６０１）。そして、ボイスコントロールサービス１１２は、実行命令を解釈して、対象のアプリケーションの起動（最終履歴の設定値（モノクロ、３部）の反映）を試みる（ステップＳ６０２）。

対象のアプリケーション（この例ではアプリケーション１１３－１）は、操作部１６の画面を処理中を示す表示（ぐるぐる画面表示）にしてタッチ入力による受け付けをブロックする（ステップＳ６０３）。

そして、アプリケーション１１３－１は、起動後、パラメータ（モノクロ、３部）を取得する処理を行う（ステップＳ６０４）。

ユーザは、端末２から１回目の指示に対して「モノクロ３部の設定でコピーですね。設定変更はありますか？」とフィードバックがあると、続けて２回目の指示として「じゃあ、カラーで」と発話したとする。

ユーザが発話した音声は、１回目と同様に、端末２（取得部２１１）により音声データとして取得される（ステップＳ１１２）。端末２（通信制御部２１２）は、この「じゃあ、カラーで」の音声データをクラウド３に送信する（ステップＳ３０５）。

クラウド３は、送信された「じゃあ、カラーで」の音声データに基づいて指示を解釈し、制御対象のＭＦＰ１にジョブの実行（設定変更）を指示する（ステップＳ３０６）。また、「カラー３部の設定でコピーですね。他に設定変更はありますか？」という内容の音声データを端末２にフィードバックする（ステップＳ３０７）。これにより、端末２が「カラー３部の設定でコピーですね。他に設定変更はありますか？」と音声でフィードバックを行う（ステップＳ３０８）。

制御対象のＭＦＰ１では、クラウド３から送信されたジョブの実行命令（動作要求）をマルチデバイスハブ１１１が受信すると、その実行命令をボイスコントロールサービス１１２が受け付けて実行命令を解釈する（ステップＳ６０５）。ここで、ボイスコントロールサービス１１２は、対象のアプリケーション（この例ではアプリケーション１１３－１）から前の命令の結果が返ってきていないので、この新たな実行命令をキューイングする（Ｓ６０６）。ステップＳ６０６のキューイングの処理は、その後に新たな実行命令があった場合も、受け付けの順序で行う。

対象のアプリケーション（アプリケーション１１３－１）により１回目の設定が反映され（ステップＳ６０７）、対象のアプリケーション（アプリケーション１１３－１）から反映の結果が返ると（ステップＳ６０８）、ボイスコントロールサービス１１２は、キューイングを行った順序（つまり受け付けた順序）で実行命令を一つ、この場合２番目に指示を受けた「カラー」への設定変更を、対象のアプリケーション（アプリケーション１１３－１）に指示する（Ｓ６０９）。

対象のアプリケーション（アプリケーション１１３－１）により２回目の設定が反映され（ステップＳ６１０）、対象のアプリケーション（アプリケーション１１３－１）から反映の結果が返ると（ステップＳ６１１）、ボイスコントロールサービス１１２は、キューイングされている残りの実行命令についても繰り返し同様に実行を指示する。

このように、音声指示が連続で飛んできた場合は、ＭＦＰ１でキューイングを行って、キューイングした順番に設定や、その設定の変更などを行う。連続で飛んできた音声指示の処理を全て終えると、ぐるぐる画面表示が解除され、最終的に更新された設定で画面が表示される。ユーザは、ＭＦＰ１の画面で、音声で指示した設定を最終確認することができる。設定の変更がさらに必要であれば、ＭＦＰ１の画面を直接タッチ入力操作して変更することもできる。ユーザはＭＦＰ１の開始ボタン（実行ボタン）を押下することによりＭＦＰ１で最終的な設定でコピー出力が行われる。

なお、ここでは、連続で飛んできた音声指示の処理を全て終えると、ぐるぐる画面表示が解除されると説明したが、これは、すべての音声指示の反映が成功した場合である。図１６および図１７で説明したような、クラウド３において実行不可能であった場合のフィードバックや、ＭＦＰ１において起動や設定に失敗した場合のＭＦＰ１における報知などの処理などが途中で発生する場合がある。そのため、ぐるぐる画面表示は、一つの実行命令について反映成功または反映失敗する度（例えば、対象のアプリケーションがボイスコントロールサービス１１２に反映結果を返す度）に解除し、対象のアプリケーションが反映処理の際はぐるぐる画面表示にする。これにより、途中で反映に失敗した場合であってもＭＦＰ１の画面には、反映に成功したところまでの設定が表示され、その後、ユーザが、その画面にタッチ入力操作を行うことも可能になる。

なお、実施の形態で、キューイングをボイスコントロールサービス１１２が行うとして説明したが、このキューイングをアプリ側でやってもよい。

（使用例）
ＭＦＰ１では、１回目の指示の反映中に２回目の指示を受けた場合、１回目の指示が画面（ＬＣＤ）に反映されたら２回目の指示の反映も即座に行い、最終的に１回目と２回目の指示結果が画面（ＬＣＤ）に反映される。しかし、１回目の指示の内容によっては失敗した場合でも２回目の指示を実行し、２回目の反映結果のみを画面（ＬＣＤ）に表示させてもよい。例えば、指示の内容が履歴を使用する場合などで、この場合、履歴が無かった場合に失敗となる。

２回目の指示が失敗した場合は、１回目の指示の反映結果のみが画面（ＬＣＤ）に表示される。これは図１８に示す例では、ユーザがモノクロコピーの権限のみでカラーコピーの権限がない場合などに相当する。モノクロコピーの権限があるので１回目の「モノクロコピーで」の設定は反映されるが、２回目の「カラーで」の設定変更は行われない。

１回目の設定を反映できるようになったタイミングで、アプリがボイスコントロールサービス１１２に結果を返すとともにキューが貯まっていないかを確認し、キューが貯まっていたら、この時点では画面（ＬＣＤ）に反映せずに、ぐるぐる表示のままとする。キューが空になったのを確認してから初めて画面（ＬＣＤ）に反映する。

ユーザ操作による履歴検索中などのぐるぐる画面が表示されている時に音声による指示を行った場合は、音声による指示は失敗する。音声による指示により履歴検索中などのぐるぐる画面が表示されている時はユーザの指示を受け付けない。

（実施の形態の効果）
以上の説明から明らかなように、実施の形態に係る音声操作システムは、端末２に、プラットフォームアプリケーションプログラムとなる操作処理プログラムをインストールし、このアプリがクラウド３との通信を行う。ユーザが端末２に設けられているマイクロホン部２９に向かって発話すると、クラウド３がユーザの発話内容を分析し、ユーザから指示された動作を行うようにＭＦＰ１を操作する（音声入力操作）。

これにより、複雑な操作を音声で命令することで、タッチパネル２７等のＧＵＩ（Graphical User Interface）による操作を不要とすることができるため、操作に慣れているユーザであっても、さらに迅速かつ簡単な入力操作を可能とすることができる。また、高齢者または操作に不慣れなユーザであっても、対話による操作サポートにより、例えば複雑なネットワーク設定、高度なジョブの設定または新規アプリの導入等の、ユーザが希望する操作を迅速かつ簡単に実行可能とすることができる。

また、ユーザが発話した内容のテキストに基づいて、ユーザの意図を解釈しているため、ユーザの発話に基づいた処理内容をＡＩアシスタントが判断できる。

また、ユーザが端末２に音声指示した処理がＭＦＰ１で実行されているかどうかを、クラウド３からのフィードバックや、ＭＦＰ１の報知音や、ＭＦＰ１の操作画面で確認することができる。このため、ユーザが端末２に音声指示した処理が最後まで完了しなかった場合でも、ユーザは、直ぐに知ることができる。つまり、ユーザが複数の音声指示を行った場合にどこまでの指示がＭＦＰ１に反映されたかをユーザが把握することが可能になる。

また、ＭＦＰ１の操作部１６の画面操作により最新の履歴表示を行い、さらに履歴の内容をもとに設定を変更（例えばモノクロからカラーに変更）を行おうとした場合、最新の履歴を表示させるまでの間ユーザ操作がブロックされる。このため、ユーザ操作がブロックされる時間が長くなる。音声操作の場合は、画面操作は行わないため設定変更の指示だけをキューイングしておき最新の履歴が反映されたら即座に設定変更の処理が行える。

また、前に音声指示した処理が長引いて後に音声指示した処理がＭＦＰ１で前の指示の処理中に受け付けられた場合でも、後に指示した処理が省略されることなく、キューイングにより順番に処理が反映されるようになる。

最後に、上述の実施の形態は、一例として提示したものであり、本発明の範囲を限定することは意図していない。この新規な実施の形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことも可能である。

このような各実施の形態および各実施の形態の変形は、発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１ＭＦＰ
２端末
３クラウド
３ａクラウドサービス装置
１１１マルチデバイスハブ
１１２ボイスコントロールサービス
１１３－１アプリケーション（Smart Copy）
１１３－２アプリケーション（Smart Scan）
１１３－３アプリケーション（Smart Fax）
３００クラウドサービス
３１０操作音声変換部
３２０音声アシスタント部
３３０管理部
３４０管理ＤＢ
３５０紐づけ用ＤＢ
３６０機器情報ＤＢ

特開２００３－０５１８８７号公報

Claims

端末に対して音声指示されたユーザ要求を通信ネットワークを介して受信する情報処理装置であって、
前記ユーザ要求に基づいてジョブ種類又はジョブ設定に反映する要求反映手段と、
前記端末で先に音声指示されたユーザ要求の反映中に前記端末で後に音声指示されたユーザ要求が前記通信ネットワークを介して受信されると、前記後に音声指示されたユーザ要求を前記先に音声指示されたユーザ要求の反映が終わるまで一時的に保持する保持手段、
前記要求反映手段による反映ができない場合、反映できないことを示す情報を出力する出力手段と、
前記先に音声指示されたユーザ要求の反映中に前記後に音声指示されたユーザ要求が前記通信ネットワークを介して受信された場合、前記先に音声指示されたユーザ要求と前記後に音声指示されたユーザ要求のうち、前記要求反映手段によって反映されたジョブ種類又はジョブ設定までを表示する表示手段と、
前記要求反映手段が反映した後、反映したジョブに関するジョブ設定の変更を受け付ける操作受付手段と、
を有することを特徴とする情報処理装置。
前記表示手段は、前記要求反映手段により前記先に音声指示されたユーザ要求を反映できない場合でも、前記後に音声指示されたユーザ要求の反映が成功した場合は、前記後に音声指示されたユーザ要求の反映の結果を表示する、
ことを特徴とする請求項１に記載の情報処理装置。
通信ネットワークによって接続可能な、端末、サーバ装置、および情報処理装置を含む情報処理システムであって、
前記サーバ装置は、
前記端末から音声入力された音声情報を取得する取得手段と、
前記情報処理装置においてユーザ要求が実施可能かを判断する判断手段と、
前記判断手段により実施不可能と判断された場合に、前記端末に対して実施不可能を示す情報を通知する通知手段と、
前記判断手段により実施可能と判断された場合に、前記取得手段が取得した音声情報に基づいて前記情報処理装置にユーザ要求を指示する指示手段と、
を有し、
前記情報処理装置は、
前記ユーザ要求をジョブ種類又はジョブ設定に反映する要求反映手段と、
前記要求反映手段による反映ができないことを示す情報を出力する出力手段と、
を有することを特徴とする情報処理システム。
通信ネットワークによって接続可能な、端末、サーバ装置、および情報処理装置を含む情報処理システムであって、
前記サーバ装置は、
前記端末から音声入力された音声情報を取得する取得手段と、
前記取得手段が取得した音声情報をテキスト情報に変換するテキスト変換手段と、
前記テキスト情報からユーザ要求を解釈する解釈手段と、
前記ユーザ要求に応じて前記端末に対して音声情報を通知する通知手段と、
前記情報処理装置に対して前記ユーザ要求を指示する指示手段と、
を有し、
前記情報処理装置は、
前記ユーザ要求をジョブ種類又はジョブ設定に反映する要求反映手段と、
前記要求反映手段による反映ができないことを示す情報を出力する出力手段と、
を有することを特徴とする情報処理システム。
通信ネットワークによって接続可能な、端末、サーバ装置、および情報処理装置を含む情報処理システムにおいてユーザ要求の反映結果を出力する方法であって、
前記端末がユーザの音声指示を音声入力するステップと、
前記サーバ装置が、前記端末から音声入力された音声情報を取得するステップと、
前記サーバ装置が、前記音声情報に基づいて前記情報処理装置にユーザ要求を指示するステップと、
前記情報処理装置が、前記ユーザ要求に基づいてジョブ種類又はジョブ設定に反映するステップと、
前記情報処理装置が、前記端末で先に音声指示されたユーザ要求の反映中に前記端末で後に音声指示されたユーザ要求が前記通信ネットワークを介して受信されると、前記後に音声指示されたユーザ要求を前記先に音声指示されたユーザ要求の反映が終わるまで一時的に保持するステップと、
前記情報処理装置が、前記ユーザ要求を反映できない場合、反映できないことを示す情報を出力するステップと、
前記情報処理装置が、前記先に音声指示されたユーザ要求の反映中に前記後に音声指示されたユーザ要求が前記通信ネットワークを介して受信された場合、前記先に音声指示されたユーザ要求と前記後に音声指示されたユーザ要求のうち、反映したジョブ種類又はジョブ設定までを表示するステップと、
前記情報処理装置が、前記ユーザ要求を反映した後、反映したジョブに関するジョブ設定の変更を受け付けるステップと、
を含む方法。
前記ジョブ種類又は前記ジョブ設定までを表示する前記ステップでは、前記先に音声指示されたユーザ要求を反映できない場合でも、前記後に音声指示されたユーザ要求の反映が成功した場合は、前記後に音声指示されたユーザ要求の反映の結果を表示する、
ことを特徴とする請求項５に記載の方法。
端末に対して音声指示されたユーザ要求を通信ネットワークを介して受信する情報処理装置のコンピュータにおいて、
前記ユーザ要求に基づいてジョブ種類又はジョブ設定に反映する要求反映手段と、
前記端末で先に音声指示されたユーザ要求の反映中に前記端末で後に音声指示されたユーザ要求が前記通信ネットワークを介して受信されると、前記後に音声指示されたユーザ要求を前記先に音声指示されたユーザ要求の反映が終わるまで一時的に保持する保持手段、
前記要求反映手段による反映ができない場合、反映できないことを示す情報を出力する出力手段と、
前記先に音声指示されたユーザ要求の反映中に前記後に音声指示されたユーザ要求が前記通信ネットワークを介して受信された場合、前記先に音声指示されたユーザ要求と前記後に音声指示されたユーザ要求のうち、前記要求反映手段によって反映されたジョブ種類又はジョブ設定までを表示する表示手段と、
前記要求反映手段が反映した後、反映したジョブに関するジョブ設定の変更を受け付ける操作受付手段、
として機能させるためのプログラム。
前記表示手段は、前記要求反映手段により前記先に音声指示されたユーザ要求を反映できない場合でも、前記後に音声指示されたユーザ要求の反映が成功した場合は、前記後に音声指示されたユーザ要求の反映の結果を表示する、
ことを特徴とする請求項７に記載のプログラム。