JP2020087377A

JP2020087377A - 情報処理システム、情報処理装置、および方法

Info

Publication number: JP2020087377A
Application number: JP2018226115A
Authority: JP
Inventors: 基至勝又; Motoyoshi Katsumata
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2020-06-04
Anticipated expiration: 2038-11-30
Also published as: US20200177746A1; JP7180330B2; US10893157B2

Abstract

【課題】日常的に使用される平易な言葉で操作や指示を行うことを可能にする。【解決手段】本発明の一実施の形態は、通信ネットワークによって接続可能な、端末、サーバ装置、および情報処理装置を含む情報処理システムであって、前記サーバ装置は、前記情報処理装置から送信されるログイン中のユーザの情報を記憶する記憶手段と、前記端末から音声入力された音声情報を取得する取得手段と、前記取得手段が取得した音声情報に基づいて前記情報処理装置にユーザ要求を指示する指示手段と、前記ユーザ要求に含まれるユーザ特定情報を、前記記憶手段に記憶されている前記ユーザの情報に変換する変換手段と、を有し、前記情報処理装置は、ユーザからログイン情報の入力を受け付ける受付手段と、ログイン中のユーザの情報を前記サーバ装置に送信する送信手段と、前記ユーザ要求を実行する実行手段と、を有することを特徴とする。【選択図】図５

Description

本発明は、情報処理システム、情報処理装置、および方法に関する。

機器を操作するために携帯端末からサーバへ操作を指示し、サーバから機器へ操作信号を送信して機器の操作を行う技術が知られている。

例えば携帯端末で取得した音声データをサーバへ送信し、サーバで音声データを制御命令に変換して機器へ送信する方法を開示したものがある（特許文献１参照）。

しかし、操作対象の機器にユーザがログイン中であるにもかかわらず、ユーザ本人を宛先などに指定する場合に端末にユーザ本人が誰なのかをいちいち指定しなければならず、ユーザの利便性を損ねるという問題がある。

本発明は、上記に鑑みてなされたものであって、日常的に使用される平易な言葉で操作や指示が可能な情報処理システム、情報処理装置、および方法を提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明の一実施の形態は、通信ネットワークによって接続可能な、端末、サーバ装置、および情報処理装置を含む情報処理システムであって、前記サーバ装置は、前記情報処理装置から送信されるログイン中のユーザの情報を記憶する記憶手段と、前記端末から音声入力された音声情報を取得する取得手段と、前記取得手段が取得した音声情報に基づいて前記情報処理装置にユーザ要求を指示する指示手段と、前記ユーザ要求に含まれるユーザ特定情報を、前記記憶手段に記憶されている前記ユーザの情報に変換する変換手段と、を有し、前記情報処理装置は、ユーザからログイン情報の入力を受け付ける受付手段と、ログイン中のユーザの情報を前記サーバ装置に送信する送信手段と、前記ユーザ要求を実行する実行手段と、を有することを特徴とする。

本発明によれば、日常的に使用される平易な言葉で操作や指示が可能になるという効果を奏する。

図１は、実施の形態に係る情報処理システムの全体構成の一例を示す図である。図２は、ＭＦＰのハードウェア構成の一例を示す図である。図３は、端末のハードウェア構成の一例を示す図である。図４は、クラウドサービス装置のハードウェア構成の一例を示す図である。図５は、全体の機能の概要説明図である。図６は、端末の機能ブロックの構成の一例を示す図である。図７は、クラウドサービスの各機能の構成の一例を示す図である。図８は、ＭＦＰの機能ブロックの構成の一例を示す図である。図９は、エンティティ情報の一例を示す図である。図１０は、ユーザの発話フレーズ、アクション名、エンティティ情報の一例を示す図である。図１１は、音声操作システムにおいて音声入力操作を行う場合の全体の基本動作の一例を示す図である。図１２は、音声操作システムにおいてユーザがシステムと対話してＭＦＰの操作を行う場合の起動時の動作の一例を示す図である。図１３は、音声操作システムにおいてユーザがシステムと対話してＭＦＰの操作を行う場合の起動後の対話型動作の一例を示す図である。図１４は、音声操作システムにおいてユーザがシステムと対話してＭＦＰの操作を行う場合の起動後の対話型動作（続き）の一例を示す図である。図１５は、音声操作システムにおいてユーザがシステムと対話してＭＦＰの操作を行う場合の起動後の対話型動作（続き）の一例を示す図である。図１６は、管理方式１のシーケンスの一例を示す図である。図１７は、管理方式２のシーケンスの一例を示す図である。図１８は、管理方式３のシーケンスの一例を示す図である。図１９は、管理方式４のシーケンスの一例を示す図である。図２０は、ＭＦＰの操作画面の一例を示す図である。

以下に添付図面を参照して、情報処理システム、情報処理装置、および方法の実施の形態を説明する。ここではスマートスピーカなどの端末によりクラウドが提供するサービスを利用して画像処理装置や電子機器などの情報処理装置を操作する情報処理システムへの適用例を示す。

（システム構成）
図１は、実施の形態に係る情報処理システムの全体構成の一例を示す図である。図１には、実施の形態に係る情報処理システムの一例である音声操作システムのシステム全体を示している。

この一例の音声操作システムは、図１に示すように、ＭＦＰ（Multifunction Peripheral）１と、端末２と、クラウド３とを含む。ＭＦＰ１は「画像処理装置」の一例である。ＭＦＰ１は例えばプリンタ機能やスキャナ機能やＦＡＸ機能等の複数の機能を備える。なお、「画像処理装置」はＭＦＰ以外の装置であってもよい。例えばプリンタ機能やスキャナ機能やＦＡＸ機能等のうちの１つの機能を備える装置、すなわち印刷機や、スキャナや、ＦＡＸ端末などであったり、電子黒板やプロジェクタなど、オフィス機器であったりしてもよい。また、「画像処理装置」の他に種々の電子機器であったりしてもよい。端末２は、スマートスピーカや、スマートホンや、タブレット端末など、ネットワーク５にＭＦＰ１の操作指示を行うことができる装置である。ここでは、一例としてスマートスピーカとして説明する。

スマートスピーカは、ＭＦＰ１の操作内容などをサービス利用者（「ユーザ」とする）から音声入力により受け付けたり、受け付けた操作内容についての返事をユーザへ音声でフィードバックしたりする。スマートスピーカには、タッチ式表示パネルが備えられているものもあり、この場合には表示パネルでの通知も可能である。本例では、タッチ式表示パネルが備えられているものを一例に説明する。

ＭＦＰ１および端末２は、それぞれ１台以上がネットワーク５に接続可能に構成され、ネットワーク５を介してクラウド３に接続する。例えば端末２がスマートスピーカの場合、１台のＭＦＰ１の近くに、そのＭＦＰ１を操作するための１台のスマートスピーカを配置する。

クラウド３は、ネットワーク５上に設けられている１つまたは複数のサーバ装置（「情報処理装置」に相当）のことである。クラウド３は、端末２でＭＦＰ１の操作を行わせるサービスをネットワーク５を介して提供する。以下においてクラウドサービスとは、端末２でＭＦＰ１の操作を行わせるサービスのことを指すものとする。

ネットワーク５は、例えばＬＡＮ（Local Area Network）やインターネット等の通信ネットワークである。ＭＦＰ１や端末２は、それぞれが備える通信手段により例えば有線または無線で社内ＬＡＮや公衆網などに接続し、インターネットなどを通じてクラウド３にアクセスする。

詳しくは後述するが、端末２は、クラウド３との間のデータ通信（例えば音声データやテキストデータ、ＵＩなどの画像データなどの送受信）を行う。クラウド３は、端末から受信した音声データ（音声情報）を分析し、テキストデータへ変換する。また、クラウド３は、テキストデータと事前登録されている辞書情報とに基づいてユーザの意図を解釈する。また、クラウド３は、例えばユーザの指示が確定されると、ＭＦＰ１で解釈可能な形式であるジョブ実行命令（ユーザ要求）に変換してＭＦＰ１に送信する。ＭＦＰ１は、クラウド３から送信されるジョブ実行命令を実行する。

（ＭＦＰのハードウェア構成）
図２は、ＭＦＰ１のハードウェア構成の一例を示す図である。ＭＦＰ１は、図２に示すように、コントローラ７、通信部１５、操作部１６、スキャナエンジン１７およびプリンタエンジン１８を有している。その他に、音や光などで報知する報知手段なども有する。

コントローラ７は、ＣＰＵ（Central Processing Unit）１０、ＡＳＩＣ（Application Specific Integrated Circuit）１１、メモリ１２、ＨＤＤ（Hard Disk Drive）１３およびタイマ１４を有する。ＣＰＵ１０〜タイマ１４は、それぞれバスラインを介して通信可能なように相互に接続されている。

通信部１５は、ネットワーク５に接続され、クラウド３と通信する。通信部１５は、クラウド３へ機器情報を送信したり、端末２から音声入力された例えばスキャン指示または印刷指示等をジョブ実行命令として取得したりする。

操作部１６は、液晶表示部（ＬＣＤ：Liquid Crystal Display）とタッチセンサとが一体になっている、いわゆるタッチパネルである。ユーザは各種設定や実行命令などを行う場合に操作部１６のソフトウェアキー（表示されている操作ボタン）を接触操作する。本実施の形態では、端末２への音声入力によりＭＦＰ１の設定等の操作を行うものについて示すが、従来通り、操作部１６から操作を行うことにより各種設定や動作の実行をコントローラ７に指示することもできる。特に、ＭＦＰ１で印刷やスキャンなどを行う場合に各種設定後の最終的な実行操作はＭＦＰ１の操作部１６の操作ボタンで行うことが望ましい。

スキャナエンジン１７は、画像読取装置を制御して、光学的に原稿の読み取りを行うコントローラである。プリンタエンジン１８は、画像形成装置を制御して、例えば転写紙等に画像を印刷するコントローラである。ＣＰＵ１０は、ＭＦＰ１を統括的に制御する。ＡＳＩＣ１１は、いわゆる大規模集積回路（ＬＳＩ：Large-Scale Integration）となっており、スキャナエンジン１７およびプリンタエンジン１８で処理する画像に必要な各種の画像処理等を行う。ＣＰＵ１０はスキャナやプリンタなどの各種アプリケーション（単に「アプリ」とも言う）を選択的に実行し、各種のアプリにより各種エンジンにジョブ実行命令等を実行させる。

メモリ１２は、固定データが記憶されている。ＨＤＤ１３は、制御プログラムやデータが記憶されている。制御プログラムやデータには、ＯＳ（Operating System）や、各種アプリケーションや、アプリケーションを実行する際に用いられる画像データや、フォントデータや、各種のファイルなどが含まれる。なお、ＨＤＤ１３の代わりにＳＳＤ（Solid State Drive）を設けてもよい。また、ＨＤＤ１３とＳＳＤとを共に設けてもよい。

（端末のハードウェア構成）
図３は、端末２のハードウェア構成の一例を示す図である。端末２は、図３に示すようにＣＰＵ２１、ＲＡＭ２２、ＲＯＭ２３、インタフェース部（Ｉ／Ｆ部）２４および通信部２５を有する。各部はバスライン２６を介して相互に接続されている。

ＲＯＭ２３は制御プログラムを記憶する。制御プログラムには操作処理プログラムが含まれる。ＣＰＵ２１は、ＲＯＭ２３の制御プログラムを実行する。ＲＡＭ２２は、ＣＰＵ２１のワークエリアとして使用される。

Ｉ／Ｆ部２４には、タッチパネル２７、スピーカ部２８およびマイクロホン部２９が接続されている。マイクロホン部２９は、通話音声の他、ユーザによる呼びかけを集音し、その音声を音声信号として入力する。スピーカ部２８は、ユーザに対して返事などの音声を出力する。タッチパネル２７は、ユーザから操作を受け付けたり、テキストデータや画像データなどをユーザに対して表示したりする。

このような構成により、端末２は、マイクロホン部２９を介して入力された音声信号を通信部２５を介してクラウド３に送信する。また、端末２は、クラウド３から通信部２５を介して取得したデータ（音声データ、テキストデータ、画像データなど）をタッチパネル２７に表示出力する制御を行ったり、そのうちの音声データをスピーカ部２８に音声出力する制御を行ったりする。

（クラウドのハードウェア構成）
クラウド３は１つのサーバ装置または複数のサーバ装置が連携することによりサービスを提供する。図４は、１つ当たりのサーバ装置（「クラウドサービス装置」と呼ぶ）のハードウェア構成の一例を示す図である。

クラウドサービス装置３ａは、図４に示すように、ＣＰＵ３１、ＲＡＭ３２、ＲＯＭ３３、ＨＤＤ３４、インタフェース部（Ｉ／Ｆ部）３５および通信部３６を有する。各部は、バスライン３７を介して相互に接続されている。Ｉ／Ｆ部３５には、表示部３８および操作部３９が接続されている。ＨＤＤ３４には、制御プログラムやデータベースなどが格納されている。制御プログラムには、例えば、操作音声変換プログラム、音声アシスタントプログラム、または管理プログラムなどが含まれる。データベースには、例えば、管理ＤＢ（Data Base）３４０（図５参照）、紐づけ用ＤＢ３５０（図５参照）、または機器情報ＤＢ３６０（図５参照）などが含まれる。

ＲＯＭ３３は固定プログラムを記憶する。ＣＰＵ３１は、ＲＯＭ３３やＨＤＤ３４のプログラムを実行する。ＲＡＭ３２は、ＣＰＵ３１のワークエリアとして使用される。

なお、操作音声変換プログラム、音声アシスタントプログラム、管理プログラムは、１つのクラウドサービス装置３ａに備えて、そのクラウドサービス装置３ａで実行してもよい。また、それらのプログラムの一部を複数のクラウドサービス装置３ａに分散して備え、複数のクラウドサービス装置３ａでそれぞれを実行し、複数のクラウドサービス装置３ａで連携してサービスを提供するようにしてもよい。

また、管理ＤＢ３４０、紐づけ用ＤＢ３５０、および機器情報ＤＢ３６０は、クラウドサービス装置３ａは、操作音声変換プログラム、音声アシスタントプログラム、および管理プログラムと共に、１つのクラウドサービス装置３ａに備えてもよい。また、複数のクラウドサービス装置３ａに分散して備えてもよい。例えば、管理ＤＢ３４０、紐づけ用ＤＢ３５０、および機器情報ＤＢ３６０の何れか１つまたはすべてをネットワーク５を介してアクセス可能な別のサーバ装置に記憶させてもよい。

（全体の機能構成）
図５は、全体の機能の概要説明図である。図５には、クラウドサービスを提供する主な機能を示している。主な機能の詳細や、図５に示したＭＦＰ１や端末２についての機能の説明については、図６〜図８を参照して後に説明する。

クラウド３の機能は、１つのクラウドサービス装置３ａ、あるいは複数のクラウドサービス装置３ａにより実現される。これらの機能は１つまたは複数のクラウドサービス装置３ａに適宜設定されるものであり、１つのクラウドサービス装置３ａでもよいし、複数のクラウドサービス装置３ａでもよい。

クラウドサービス装置３ａのＣＰＵ３１はＨＤＤ３４の操作音声変換プログラムをＲＡＭ３２に読み出して実行することにより操作音声変換部３１０として機能する。操作音声変換部３１０は、音声データをテキストデータに変換する機能を有する。更に、操作音声変換部３１０は、テキストデータを予め定義された辞書情報と一致するか否かを判断する機能を有する。更に、操作音声変換部３１０は、マッチした場合にはテキストデータをユーザの意図を示すアクションおよびジョブ条件などの変数を示すパラメータに変換する機能を有する。

また、クラウドサービス装置３ａのＣＰＵ３１はＨＤＤ３４の音声アシスタントプログラムをＲＡＭ３２に読み出して実行することにより音声アシスタント部３２０として機能する。音声アシスタント部３２０は、辞書情報を保持する機能を有する。

また、クラウドサービス装置３ａのＣＰＵ３１はＨＤＤ３４の管理プログラムをＲＡＭ３２に読み出して実行することにより管理部３３０として機能する。管理部３３０は、アクションとパラメータに基づいてＭＦＰ１が解釈可能な形式であるジョブ実行指示に変換した上で登録されたＭＦＰ１へ送信する機能を有する。

このようにクラウド３は、少なくとも操作音声変換部３１０、音声アシスタント部３２０、および管理部３３０の機能によりクラウドサービス３００を提供する。

クラウドサービス３００は、ＭＦＰ１や端末２との通信に基づき、各種の情報をＤＢに記憶する。一例として、管理部３３０が、管理ＤＢ３４０や、紐づけ用ＤＢ３５０や、機器情報ＤＢ３６０などを使用して各種情報を管理する。

管理ＤＢ３４０は、テキストデータ、画像データ、音声データなど、クラウドサービス３００が提供するコンテンツにかかるデータを記憶するデータベースである。

紐づけ用ＤＢ３５０は、端末２と紐づける外部装置を記憶するデータベースである。紐づけ用ＤＢ３５０は、本例では、端末２として使用するスマートスピーカのデバイスＩＤと、そのスマートスピーカと対応付ける外部装置（本例ではＭＦＰ１）のＩＤとを対応付けて記憶する。なお、スマートスピーカと外部装置は一対一で紐づけられていても良いが、スマートスピーカと複数の外部装置を紐づけても良い。つまり、デバイスＩＤと紐づく外部装置の種類と個数は限定されない。また、外部装置とスマートスピーカの紐づけの方法についても上記の方法に限定されない。つまり、ユーザアカウントやユーザＩＤなどのユーザを特定する情報と外部装置とを紐づける構成であっても良い。この場合、デバイスＩＤなどのスマートスピーカからクラウドへ送信されるスマートスピーカを特定する情報と、ユーザを特定する情報とをクラウド３の紐づけ用ＤＢなどに記憶しておき、管理部３３０はデバイスＩＤと紐づくユーザを特定する情報に基づいて外部装置を特定する構成であっても良い。若しくは、スマートスピーカからデバイスＩＤに代えてユーザを特定する情報を送信しても良い。また、ユーザを特定するための情報に代えて、部署や企業などの組織を特定する情報、又は部屋や建物などの場所を特定する情報と、外部装置とを紐づける構成であっても良く、この場合は１以上のスマートスピーカと１以上の外部装置を紐づけても良い。

機器情報ＤＢ３６０は、ＭＦＰ１を含む各外部装置のＩＤとそれぞれの機器情報とを対応付けて記憶するデータベースである。

（端末の機能）
図６は、端末２の機能ブロックの構成の一例を示す図である。端末２のＣＰＵ２１は、ＲＯＭ２３に記憶されている操作処理プログラムを実行することで、図６に示すように取得部２１１、通信制御部２１２、フィードバック部２１３として機能する。

取得部２１１は、マイクロホン部２９（図３参照）を介して集音された、ＭＦＰ１を音声操作するためのユーザの指示音声を、取得する。なお、取得部２１１は、タッチパネル２７（図３参照）や物理スイッチ（不図示）などを介してユーザの操作を取得してもよい。通信制御部２１２は、クラウド３との間の通信を制御する。通信制御部２１２は、クラウド３と通信し、取得部２１１が取得した情報をクラウド３へ送信したり、クラウド３からテキストデータや画像データ、音声データを取得したりする。また、通信制御部２１２は、取得部２１１が取得した情報をクラウド３へ送信する場合、端末２を特定するデバイスＩＤを共に送信してもよい。

フィードバック部２１３は、対話型の音声入力操作を実現すべく、例えば不足するデータを補う入力を促す音声や、入力を確認する音声などをユーザ側にフィードバックする。また、フィードバック部２１３は、タッチパネル２７のディスプレイ表示を制御することによって、テキストまたは画像としてユーザに対してフィードバックを行ってもよい。

なお、この例では、取得部２１１〜フィードバック部２１３をソフトウェアで実現することとしたが、これらのうちの一部または全部をＩＣ（Integrated Circuit）等のハードウェアで実現してもよい。また、取得部２１１〜フィードバック部２１３の各機能は、操作処理プログラム単体で実現してもよいし、他のプログラムに処理の一部を実行させる、または他のプログラムを用いて間接的に処理を実行させてもよい。

（クラウドサービスの機能の詳細）
図７は、クラウドサービスの各機能の構成の一例を示す図である。操作音声変換部３１０は、図７に示すように、取得部３１１や、テキスト変換部３１２や、解釈部３１３や、出力部３１４などの機能を含む。取得部３１１は、端末２から送信される音声データ（ユーザにより入力された音声データ）を取得する。また、取得部３１１は、端末２のタッチパネル２７や物理スイッチ（ボタンなども含む）などに対してユーザが行った操作を示すデータを取得してもよい。テキスト変換部３１２は、音声データ（端末２において入力されたユーザの音声データ）をテキストデータに変換するＳＴＴ（Speech To Text）を含む。解釈部３１３は、テキスト変換部３１２により変換されたテキストデータに基づいてユーザの指示の内容を解釈する。具体的に、解釈部３１３は、テキスト変換部３１２により変換されたテキストデータに含まれる単語などが、音声アシスタント部３２０が提供する辞書情報にマッチしているか否かを確認し、マッチしている場合に、ジョブの種類を示すアクションと、ジョブ条件などの変数を示すパラメータとに変換する。そして、解釈部３１３は、例えば音声データの取得元である端末２を特定するデバイスＩＤなどと共に、アクションおよびパラメータを管理部３３０に対して送信する。出力部３１４は、テキストデータを音声データに合成するＴＴＳ（Text To Speech）を含む。出力部３１４は、通信部３６（図４参照）を通信制御し、端末２にテキストデータ、音声データ、画像データなどのデータの送信等を行う。

なお、この例では、取得部３１１〜出力部３１４をソフトウェアで実現することとしたが、これらのうちの一部または全部をＩＣ（Integrated Circuit）等のハードウェアで実現してもよい。また、取得部３１１〜出力部３１４が実現する各機能は、操作音声変換プログラム単体で実現してもよいし、他のプログラムに処理の一部を実行させる、または他のプログラムを用いて間接的に処理を実行させてもよい。また、操作音声変換プログラムの解釈部３１３の機能の一部または全てを音声アシスタントプログラムに実行させてもよい。この場合、例えばテキストデータに含まれる単語などが辞書情報にマッチしているか否かの確認、マッチしている場合にユーザの意図を示すアクションとジョブ条件などの変数を示すパラメータへの変換は、音声アシスタント部３２０が行う。解釈部３１３はアクションおよびパラメータを音声アシスタント部３２０から取得するだけでよい。

音声アシスタント部３２０は、図７に示すように提供部３２１の機能を含む。提供部３２１は、テキストデータとアクションおよびパラメータの関係を予め定義した辞書情報を管理し、操作音声変換部３１０に辞書情報を提供する。なお、音声アシスタント部３２０は、操作音声変換部３１０からテキストデータを受け付けて、そのテキストデータからユーザの操作指示を解釈してもよい。例えば、音声アシスタント部３２０は、解釈部３１３からテキストデータを取得し、テキストデータに含まれる単語などが辞書情報にマッチしているか否かを確認し、マッチしている場合にテキストデータをアクションとパラメータに変換する。その後、アクションおよびパラメータを解釈部３１３に提供する。

なお、この例では、音声アシスタント部３２０（提供部３２１を含む）をソフトウェアで実現することとしたが、そのうちの一部または全部をＩＣ（Integrated Circuit）等のハードウェアで実現してもよい。また、提供部３２１などの機能は、音声アシスタントプログラム単体で実現してもよいし、他のプログラムに処理の一部を実行させる、または他のプログラムを用いて間接的に処理を実行させてもよい。

管理部３３０は、図７に示すように、取得部３３１や、解釈結果変換部３３２や、実行指示部３３３や、機器情報取得部３３４や、実行判定部３３５や、通知部３３６や、ＤＢ管理部３３７などの機能を含む。

取得部３３１は、解釈部３１３から解釈結果を取得する。

解釈結果変換部３３２は、操作音声変換部３１０で変換されたアクションおよびパラメータなどの解釈結果を、ＭＦＰ１が解釈可能なジョブの実行命令に変換する。

実行指示部３３３は、ジョブの実行命令をＭＦＰ１に送信することによりジョブの実行を指示する。具体的に、実行指示部３３３は、アクションおよびパラメータと共に、ユーザが音声指示した端末２のデバイスＩＤを取得する。実行指示部３３３は、取得したデバイスＩＤに対応するＭＦＰ１を紐づけ用ＤＢ３５０（図５参照）から検索し、検索により得られたＭＦＰ１に対してジョブ実行命令を送信する。

機器情報取得部３３４は、登録されている各外部装置（この例ではＭＦＰ１）から機器情報を取得する。例えば、機器情報取得部３３４は、処理可能な最大画素数等の処理能力を示す情報を取得する。また、機器情報取得部３３４は、ＭＦＰ１との間で、通信接続が確立されているか否かを示す接続状態、ＭＦＰ１の電源のＯＮ／ＯＦＦまたはスリープモードであるかを示す電力状態、エラーの有無とエラーの種類、用紙やトナーなどの消耗品の残余状況、ユーザのログイン状態、ログインユーザに使用が許可された機能を示す権限情報、などを含む機器状態を示す情報も設定に応じて適宜取得する。

なお、機器情報取得部３３４は、複数のＭＦＰ１から処理能力などの機器情報を取得した場合、機器情報ＤＢ３６０（図５参照）において、各外部装置を特定するＩＤなどの情報と紐づけてそれぞれの機器情報を管理する。

実行判定部３３５は、ＭＦＰ１の処理能力と、ユーザから指定されたジョブ（即ち、操作音声変換部３１０で生成されたアクションおよびパラメータ）とを比較することで、ユーザから指定されたジョブをＭＦＰ１で実行可能か否か判定する。ユーザから指定されたジョブ実行が実行可能と判断した場合はＭＦＰ１に対してジョブ実行命令を送信する。なお、実行不可能と判断した場合は通知部３３６により操作音声変換部３１０を介して端末２に対してエラーメッセージなどをレスポンス情報としてフィードバックさせてもよい。

通知部３３６は、ユーザのジョブ実行指示への応答としてテキストデータ、音声データ、画像データなどを操作音声変換部３１０へ送信する。また、ジョブの実行するためのジョブ条件を示すパラメータが不足している場合には、操作音声変換部３１０を介して端末２に対してフィードバックすることでユーザにパラメータの更なる指示を促す。ここで、不足しているパラメータを確認するために必要な情報として、パラメータ情報を送信してもよいし、ユーザにパラメータの指定を促すために必要な情報としてテキストデータ、音声データ、画像データを送信してもよい。

ＤＢ管理部３３７は、管理ＤＢ３４０、紐づけ用ＤＢ３５０、および機器情報ＤＢ３６０を管理する。具体的には、各種テーブルの設定や、各種テーブルに対してのデータの登録、検索、削除、更新などを行う。例えば、ＤＢ管理部３３７は、ＭＦＰ１、端末２、またはクラウドサービス装置３ａのクライアントデバイスに入力された情報および指示に基づいて、端末２のデバイスＩＤとＭＦＰ１のＩＤとを紐づけて紐づけ用ＤＢ３５０に登録する。紐づけ用ＤＢ３５０は、端末２のデバイスＩＤとＭＦＰ１のＩＤとを紐づけた情報をテーブルデータなどで保持する。

（ＭＦＰの機能）
図８は、ＭＦＰ１の機能ブロックの構成の一例を示す図である。ＭＦＰ１のＣＰＵ１０は、メモリ１２やＨＤＤ１３に記憶されている各種プログラムを実行することで、図８に示すように、マルチデバイスハブ（MultiDeviceHub）１１１や、ボイスコントロールサービス（Voice control service）１１２や、アプリケーション（Smart Copy）１１３−１や、アプリケーション（Smart Scan）や１１３−２、アプリケーション（Smart Fax）１１３−３などとして機能する。

マルチデバイスハブ１１１は、クラウド３からの実行指示を受信する。また、ＭＦＰ１の機器の状態や設定を収集し、機器の機能や状態をクラウド３に送信する。機器の状態については定期的にあるいは機器の状態が変化した場合などにクラウド３に送信する。ボイスコントロールサービス１１２は、マルチデバイスハブ１１１が受信した実行指示を窓口として受け付けて処理を実行する処理実行部である。ボイスコントロールサービス１１２は、受け付けた実行指示を解釈し、その解釈結果に基づき、対象となるアプリケーションを起動して、設定の反映やジョブの開始などを要求する。

アプリケーション（Smart Copy）１１３−１は、コピーを実行するためのアプリケーションである。アプリケーション（Smart Scan）１１３−２は、スキャニング（単に「スキャン」とも言う）を実行するためのアプリケーションである。アプリケーション（Smart Fax）１１３−３は、ＦＡＸ送信を実行するためのアプリケーションである。その他にも、ユーザのアドレス情報を管理するアプリケーションや、指定のアドレスにデータやファイルを送信するアプリケーションなども含まれる。各アプリケーションは、指示された内容に沿って、それぞれの処理を実行する。

なお、上述した各種のプログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）などのコンピュータ装置で読み取り可能な記録媒体に記録して提供してもよい。また、ＣＤ−Ｒ、ＤＶＤ（Digital Versatile Disk）、ブルーレイディスク（登録商標）、半導体メモリなどのコンピュータ装置で読み取り可能な記録媒体に記録して提供してもよい。また、インターネット等のネットワーク経由でインストールするかたちで提供してもよいし、機器内のＲＯＭ等に予め組み込んで提供してもよい。

（辞書情報の設定）
上述したようにクラウド３（クラウドサービス装置３ａのＨＤＤ３４）には辞書情報が記憶されている。クラウド３の操作音声変換部３１０（解釈部３１３）は、音声データから変換したテキストデータに含まれる単語などが辞書情報とマッチするか否かを判断し、マッチする場合は辞書情報に定義されているアクションおよびパラメータを含む解釈結果を生成する。辞書情報は、アクションおよびパラメータを生成することができればどのような形態であってもよい。その一例を次に示す。一例の辞書情報は、エンティティ（Ｅｎｔｉｔｙ）情報、アクション（Ａｃｔｉｏｎ）情報および関連付け情報を含んで構成されている。エンティティ情報は、ジョブのパラメータと自然言語を関連付ける情報である。１つのパラメータに複数の類義語が登録可能となっている。アクション情報は、ジョブの種類を示す情報である。関連付け情報は、ユーザの発話フレーズ（自然言語）とエンティティ情報、および、ユーザの発話フレーズ（自然言語）とアクション情報を、それぞれ関連付ける情報である。関連付け情報により、パラメータの発話順序またはニュアンスが多少変わっても、正しい解釈が可能となっている。また、関連付け情報により、入力された内容に基づいてレスポンスのテキスト（解釈結果）を生成してもよい。

図９に、エンティティ情報の一例を示す。この図９は、印刷色（ＰｒｉｎｔＣｏｌｏｒ）に対応するエンティティ情報である。この図９において、「ＰｒｉｎｔＣｏｌｏｒ」の文字は、エンティティ名を示している。また、図９において、左の列の「ａｕｔｏ＿ｃｏｌｏｒ」、「ｍｏｎｏｃｈｒｏｍｅ」、「ｃｏｌｏｒ」・・・等の文字は、パラメータ名を示している。また、図９において、右の列の「ａｕｔｏ＿ｃｏｌｏｒ」、「ｍｏｎｏｃｈｒｏｍｅ，ｂｌａｃｋａｎｄｗｈｉｔｅ」、「ｃｏｌｏｒ，ｆｕｌｌｃｏｌｏｒ」・・・等の文字は、類義語を示している。

この図９からわかるように、エンティティ情報としては、パラメータおよび類義語が関連付けられて記憶されている。パラメータと共に、類義語を登録することで、例えばモノクロでのコピーを指示する場合に、「Please copy by black and white」と発話しても、「Please copy by monochrome」と発話しても、パラメータの設定を可能とすることができる。

図１０は、ユーザの発話フレーズの例、アクション名、エンティティ情報を示している。図１０においてアクション名は「Ａｃｔｉｏｎ」の項目に示している。エンティティ情報は「Ｅｎｔｉｔｙ」の項目に示している。それ以外が、ユーザの発話フレーズの例である。図１０は、クラウドサービス装置３ａの表示部３８の画面上に表示した場合の一例であり、操作部３９を操作することにより矢印に示すようにユーザの発話フレーズをドラッグする。また、この操作は、ネットワーク５を介してクラウド３にアクセスした管理者のＰＣの表示画面上で行ってもよい。

一例として、この操作を行うことにより、関連付け対象となるエンティティ情報を選択できる。また、選択したエンティティ情報でバリュー（ＶＡＬＵＥ）を設定すると、応答で入るパラメータが変更される。例えば、「Ｐｌｅａｓｅｃｏｐｙｂｙｂｌａｃｋａｎｄｗｈｉｔｅ」と発話した場合、バリューを「＄ｐｒｉｎｔＣｏｌｏｒ」とすると、戻り値として「ｐｒｉｎｔＣｏｌｏｒ＝ｍｏｎｏｃｈｒｏｍｅ」が返る。これに対して、バリューを「＄ｐｒｉｎｔＣｏｌｏｒ．ｏｒｉｇｉｎａｌ」とすると、戻り値として「ｐｒｉｎｔＣｏｌｏｒ＝ｂｌａｃｋａｎｄｗｈｉｔｅ」が返る。ここで、バリューを「＄ｐｒｉｎｔＣｏｌｏｒ．ｏｒｉｇｉｎａｌ」とすると、ユーザの発話内容がそのまま応答のパラメータとして返すことができる。

（音声操作システムにおける音声入力操作の全体的な動作）
図１１は、音声操作システムにおいて音声入力操作を行う場合の全体の基本動作の一例を示す図である。図１１には、一例として、ＭＦＰ１が両面コピー機能を備え、ユーザが端末２を介して両面コピーを音声入力操作で指示するときの動作を示している。なお、端末２の操作処理プログラムは、端末２の起動と同時に起動してもよいし、端末２に対して所定の操作や所定の音声入力を行うことによって起動してもよい。

先ず、ユーザが端末２に向かって、ＭＦＰ１に指示する内容を発話する。ここでは一例として「両面でコピー」と発話した例を示している。ユーザが発話した音声は、端末２（取得部２１１）により音声データとして取得される（ステップＳ１）。端末２（通信制御部２１２）は、この「両面でコピー」の音声データをクラウド３に送信する（ステップＳ２）。このとき、端末２（通信制御部２１２）は、端末２を特定するデバイスＩＤをクラウド３に送信してもよい。

クラウド３では、操作音声変換部３１０（取得部３１１）が、端末２から送信データを取得し、操作音声変換部３１０（テキスト変換部３１２）が、「両面でコピー」との音声データをテキスト化、つまりテキストデータに変換処理する（ステップＳ３）。

そして、この例の場合、操作音声変換部３１０（解釈部３１３）は、音声アシスタント部３２０（提供部３２１）に辞書情報を要求して音声アシスタント部３２０（提供部３２１）から辞書情報を取得する（ステップＳ４）。

さらに、操作音声変換部３１０（解釈部３１３）は、取得した辞書情報から、テキスト解釈を行う（ステップＳ５）。この例では、テキストに「両面でコピー」が含まれるので、ジョブの種別（アクション）についてはＭＦＰ１にコピーの実行を要求するアクション「ＣＯＰＹＥＸＥＣＵＴＥ」であると解釈し、アクションの内容（パラメータ）については、両面が含まれるので「印刷面＝両面」と解釈する。このように、操作音声変換部３１０（解釈部３１３）は、テキストデータに基づいて、ユーザから指示されたジョブの種別（アクション）と内容（パラメータ）を解釈する。

操作音声変換部３１０（解釈部３１３）は、その解釈結果を、管理部３３０に渡す（ステップＳ６）。このとき、操作音声変換部３１０（解釈部３１３）は、その解釈結果に対応付けて音声データの送信元の端末２のデバイスＩＤを管理部３３０に渡してもよい。

管理部３３０（解釈結果変換部３３２）は、操作音声変換部３１０から取得した解釈結果を、ＭＦＰ１のジョブ命令に変換処理する（ステップＳ７）。ここで、解釈結果の一例と、解釈結果から変換処理されたジョブ命令の一例とを表１に示す。なお、管理部３３０（解釈結果変換部３３２）は、解釈結果をジョブ命令に変換するために、表１に示す情報をクラウドサービス装置３ａのＨＤＤ３４などの記憶部に記憶し、それを参照できる構成としてもよい。

表１の例の場合、「ＣＯＰＹ＿ＥＸＥＣＵＴＥ」、「ＳＣＡＮ＿ＥＸＥＣＵＴＥ」、「ＰＲＩＮＴ＿ＥＸＥＣＵＴＥ」および「ＦＡＸ＿ＥＸＥＣＵＴＥ」が、アクション（Ａｃｔｉｏｎ）の一例として示されている。また、「印刷面」および「部数」等がパラメータ（Ｐａｒａｍｅｔｅｒ）の一例として示されている。なお、パラメータとしては、ジョブの設定値として指定可能な全てのパラメータが含まれる。

管理部３３０（解釈結果変換部３３２）は、「ＣＯＰＹ＿ＥＸＥＣＵＴＥ」の解釈結果を、「コピージョブの実行」との、ＭＦＰ１のジョブ命令に変換処理する。同様に、管理部３３０（解釈結果変換部３３２）は、「ＳＣＡＮ＿ＥＸＥＣＵＴＥ」の解釈結果を、「スキャンジョブの実行」との、ＭＦＰ１のジョブ命令に変換処理する。同様に、管理部３３０（解釈結果変換部３３２）は、「ＰＲＩＮＴ＿ＥＸＥＣＵＴＥ」の解釈結果を、「印刷ジョブの実行」との、ＭＦＰ１のジョブ命令に変換処理する。同様に、管理部３３０（解釈結果変換部３３２）は、「ＦＡＸ＿ＥＸＥＣＵＴＥ」の解釈結果を、「ＦＡＸジョブの実行」との、ＭＦＰ１のジョブ命令に変換処理する。なお、以上はＭＦＰ１で実行される基本的なジョブであるが、クラウドサービスにより解釈可能なジョブは上記のジョブに限定されない。例えば、通信対象に対して機器情報を収集させてクラウドサービスへ送信させるジョブ、通信対象が有する記憶部に記憶された所定の情報を通信対象の表示部に表示させるジョブなどが含まれてもよい。

また、管理部３３０（解釈結果変換部３３２）は、解釈結果に「印刷面」のパラメータが含まれている場合、「印刷面の設定値の変更」を行うジョブ命令に変換する。同様に、管理部３３０（解釈結果変換部３３２）は、解釈結果に「部数」のパラメータが含まれている場合、「部数の設定値の変更」を行うＭＦＰ１のジョブ命令に変換する。

すなわち、管理部３３０（解釈結果変換部３３２）は、解釈結果の「Ａｃｔｉｏｎ」に含まれる情報で、ユーザの意図、例えばＭＦＰ１に実行させるジョブの種類を判断し、「Ｐａｒａｍｅｔｅｒ」に含まれる値を、ジョブの設定値と判断して、解釈結果をジョブ命令に変換処理する。

管理部３３０（実行指示部３３３）は、このようにして得られたジョブ命令をＭＦＰ１に送信する（ステップＳ８）。この例の場合、「コピージョブ実行（印刷面＝両面）」のジョブ命令がＭＦＰ１に送信される。なお、管理部３３０（実行指示部３３３）は、ＤＢ管理部３３７によって特定されたＭＦＰ１に対してジョブ命令を送信する。つまり、音声データの送信元の端末２と紐づけられているＩＤのＭＦＰ１に対してジョブの実行を指示する。これにより、端末２であるスマートスピーカに対応するＭＦＰ１での両面印刷の実行が可能となる。

（対話型動作を行う場合のフィードバック）
本実施の形態に係る音声操作システムでは、ユーザからの入力内容に基づいて、システムが応答する対話型システムを実現している。例えば、対話に必要な定型文を応答する以外に、ＭＦＰ１の操作特有の応答として、「入力不足フィードバック」および「入力確認フィードバック」の、２種類の応答を行うことで、対話型システムを実現している。

「入力不足フィードバック」は、ジョブを実行するために必要な情報が揃っていない場合に出力される応答である。ユーザの入力結果を認識できなかった場合、または、必須パラメータが不足している場合に出力される。つまり、必須パラメータ以外のパラメータについては、指示されていない場合であっても入力不足フィードバックを行う必要はない。また、パラメータ以外にも、コピー機能またはスキャン機能等のうち、利用する機能を確認する処理を含んでもよい。

クラウド３は、通信接続中の外部装置（本例ではＭＦＰ１）の種類に応じ、必須の設定を確認し、そのパラメータを設定してもよい。例えば、クラウド３の管理部３３０（機器情報取得部３３４）が外部装置との通信が確立した後の所定のタイミングで外部装置の種類や機能を示す機器情報を取得する。その機器情報を操作音声変換部３１０（出力部３１４）が受け取って端末２（つまりスマートスピーカ）に出力する。スマートスピーカは、フィードバック部２１３によりユーザに設定を確認することができる。また、パラメータを例えばフィードバック部２１３が決定してもよい。具体的に、本例に示すＭＦＰ１の場合には、コピー、プリント、スキャン、ＦＡＸなどのＭＦＰ１が有する機能をユーザに確認してよい。更に、コピー、プリント、スキャン、ＦＡＸのうちＭＦＰ１が有する機能についてのみ、いずれの機能を使用するかをユーザに確認してもよい。また、ユーザから指定された設定条件に応じて必須パラメータを変更してもよい。例えば、ユーザが指定した設定条件が変倍印刷の場合は印刷する用紙サイズを必須パラメータとして、両面印刷の場合は原稿が片面か両面かを示す設定を必須パラメータとして、週刊誌綴じ印刷の場合は仕上がりサイズおよび１ページに含めるページ数などの設定を必須パラメータとして設定する。

「入力確認フィードバック」は、ジョブを実行するために必要な情報が揃った場合に出力される応答である。例えば、入力確認フィードバックは、全ての必須パラメータについてユーザから指示を受け付けた場合に行われる。また、入力確認フィードバックは、「現在の設定値でジョブを実行する」か「設定値を変更する」かの選択をユーザに促してもよい。現在の設定値でジョブを実行するか否かをユーザに確認する場合、必須パラメータか必須パラメータ以外のパラメータかに関わらず、ユーザにより指示された全てのパラメータを音声出力することでユーザに確認をとってもよい。

いずれのパラメータが必須パラメータであるかは、クラウド３（クラウドサービス装置３ａの記憶部（例えばＨＤＤ３４））に予め記憶する。記憶部（例えばＨＤＤ３４）に記憶されている必須パラメータは、クラウドサービス装置３ａの操作部３９やクラウドサービス装置３ａにネットワーク５を介してアクセス可能なＰＣなどから適宜変更することができる。記憶部（例えばＨＤＤ３４）に記憶されている必須パラメータに基づき、管理部３３０（実行判定部３３５）は、操作音声変換部３１０から渡されたアクションおよびパラメータが必須パラメータを満たすか否かを判断することができる。

（対話型動作の流れ）
図１２〜図１５は、音声操作システムにおいてユーザがシステムと対話してＭＦＰの操作を行う場合の全体の動作の一例を示す図である。図１２は、起動時の動作の流れを示しており、図１３〜図１５は、起動後の対話型動作の流れを示している。システムと対話して操作を行う場合、対話のセッション管理が必要になる。対話のセッション管理については後述する。ここでは、一例としてユーザが端末２を介してモノクロ画像を両面で２部のコピーを行う操作を指示する場合の動作を示す。この例では、部数（＝２部）が必須パラメータとなっているが、部数に限定されず、モノクロ、カラー、または、用紙サイズ等、複数のパラメータを必須パラメータに含めてもよい。

まず、ユーザにより端末２（操作処理プログラム）が起動操作された後、例えばユーザが端末２に起動ワードを音声入力する（ステップＳ１´）。ここで、ユーザが音声アシスタントプログラムを起動するための起動ワードを発話することで、所望の音声アシスタントプログラムを起動させることができる。端末２（通信制御部２１２）は、クラウド３（操作音声変換部３１０）に対して起動ワードの音声データを送信する（ステップＳ２´）。

クラウド３では、操作音声変換部３１０（取得部３１１）が、端末２から送信データを取得し、操作音声変換部３１０（テキスト変換部３１２）が、音声データをテキスト化、つまりテキストデータに変換処理する（ステップＳ３´）。

操作音声変換部３１０（解釈部３１３）は、音声アシスタント部３２０（提供部３２１）に辞書情報を要求して音声アシスタント部３２０（提供部３２１）から辞書情報を取得する（ステップＳ４´）。

さらに、操作音声変換部３１０（解釈部３１３）は、取得した辞書情報から、テキスト解釈を行う（ステップＳ５´）。

そして、操作音声変換部３１０（解釈部３１３）は、その解釈結果を、管理部３３０に渡す（ステップＳ６´）。

ここで、管理部３３０は、必要に応じて、紐づけ用ＤＢの検索（ステップＳ７１）、接続状態確認（ステップＳ７２）、アプリ状態確認（ステップＳ７３）、機器情報取得（ステップＳ７４）などを行う。なお、これらの処理の順番は適宜入れ替えてよい。また、各処理は、それぞれ、別のタイミングで行っていれば、ここでの処理を省略してもよい。

紐づけ用ＤＢの検索（ステップＳ７１）では、管理部３３０（ＤＢ管理部３３７）が、取得したデバイスＩＤ（端末２のＩＤ）に対応するＭＦＰ１（ＭＦＰ１のＩＤ）を、紐づけ用ＤＢ３５０から検索して取得する。このとき、管理部３３０（通知部３３６）は、デバイスＩＤと紐づくＭＦＰ１のＩＤが検索で得られなかった場合、端末２が通信対象と紐づけられていないことを操作音声変換部３１０（出力部３１４）を介してユーザに通知する。例えば、管理部３３０（通知部３３６）は、「このデバイスは機器と紐づけられていません」とのレスポンスを含むレスポンス情報を生成する。ここで、管理部３３０（通知部３３６）は、デバイスと通信対象を紐づけする方法をレスポンスに含めてもよい。なお、ステップＳ７１は、デバイスＩＤを取得した他の任意のタイミングで行ってもよい。

接続状態確認（ステップＳ７２）は、管理部３３０が通信対象（この例ではＭＦＰ１）の機器状態を確認する。例えばＤＢ管理部３３７が機器情報ＤＢ３６０の予め取得した機器情報を参照することで確認する。あるは、機器情報取得部３３４が通信対象のＭＦＰ１から機器情報を取得して確認してもよい。ここで、機器状態の確認は、例えば通信対象のＭＦＰ１と通信可能か否かおよびＭＦＰ１が使用可能か否かの確認である。このとき、デバイスＩＤと紐づくＭＦＰ１（確認対象のＭＦＰ１）との接続が確立していない場合、または、そのＭＦＰ１が起動中などで使用できない場合、管理部３３０（通知部３３６）は、操作音声変換部３１０（出力部３１４）を介してユーザに通知を行う。例えば、管理部３３０（通知部３３６）は、「機器がオフラインです」または「機器が準備中です」とのレスポンスを含むレスポンス情報を生成して通知する。ここで、管理部３３０（通知部３３６）は、対策方法をレスポンスに含めてもよい。なお、機器状態の確認は、操作音声変換部３１０（解釈部３１３）からアクションおよびパラメータ、デバイスＩＤを取得した他の任意のタイミングで行ってもよい。

アプリ状態確認（ステップＳ７３）は、管理部３３０が通信対象のＭＦＰ１にユーザから指定された機能を実行するアプリケーションの状態を確認する。例えばＤＢ管理部３３７が、機器情報ＤＢ３６０の予め取得した機器情報を参照することで確認する。あるいは、機器情報取得部３３４が通信対象のＭＦＰ１から機器情報を取得して確認してもよい。ここで、アプリ状態の確認は、例えばアプリケーションがインストールされているか否か、アプリケーションが実行可能な状態であるか否かの確認である。そして、実行を指示された機能がコピーであったとして、コピーに関するアプリケーションがデバイスＩＤと紐づくＭＦＰ１にインストールされていなかったり、あるいは、アプリケーションが起動中などで使用できなかったりする場合は、管理部３３０（通知部３３６）は、操作音声変換部３１０（出力部３１４）を介してユーザに通知を行う。例えば、管理部３３０（通知部３３６）は、「アプリケーションがインストールされていません」または「アプリケーションは現在利用できません」とのレスポンスを含むレスポンス情報を生成して通知する。ここで、管理部３３０（通知部３３６）は、対策方法をレスポンスに含めてもよい。なお、アプリケーションの状態の確認は、操作音声変換部３１０（解釈部３１３）からアクションおよびパラメータ、デバイスＩＤを取得した他の任意のタイミングで行ってもよい。

機器情報取得（ステップＳ７４）は、管理部３３０が通信対象（この例ではＭＦＰ１）の機器情報を取得する。例えばＤＢ管理部３３７が機器情報ＤＢ３６０の予め取得した機器情報を取得する。あるは、機器情報取得部３３４が通信対象のＭＦＰ１から機器情報を取得してもよい。ここで取得する機器状態は、例えば通信対象のＭＦＰ１において、ユーザが指示したジョブ種類およびジョブ条件が実行可能か否かを判断する際に利用される。

これらの処理が起動後の任意のタイミングで完了していると、管理部３３０（実行判定部３３５）は、必須パラメータ不足判断を行う（ステップＳ７５）。管理部３３０（実行判定部３３５）は、必須パラメータ不足判断において、解釈結果のアクションおよびパラメータに基づいてジョブ実行に必要な条件が全て揃っているか否かを判断する。

なお、音声アシスタントプログラムの起動を指示する際においてジョブの種類および必須の設定条件をすべて指定していた場合には、これ以降に示す「入力フィードバック」のステップは省略し、ＭＦＰ１に実行を指示してもよい。

この段階では、音声で起動が指示されただけで、それ以外に、ＭＦＰ１が有する複数のアクションやパラメータの指定をユーザが受け付けていないため、管理部３３０（実行判定部３３５）は、必須パラメータを満たしていないと判断する。音声アシスタントプログラムの起動を指示する際に必須の条件の指示漏れがある場合にも必須パラメータを満たしていないと判断する。従って、管理部３３０（通知部３３６）はレスポンス情報を作成し、操作音声変換部３１０（出力部３１４）を介して端末２にレスポンス情報を送信する（ステップＳ７６、ステップＳ７７）。

なお、管理部３３０（ＤＢ管理部３３７）は、この端末２との通信のセッションを管理ＤＢ３４０で管理する。管理部３３０（通知部３３６）は端末２にレスポンス情報を送信する際に、セッションが継続していることを示す状態情報を送信することができる。ここで状態情報は、セッションが継続していることを示す情報である。後段の手順においても適宜説明を省略しているが、クラウド３が端末２に問合せを行う場合、状態情報を含めて端末２に送信する。

レスポンス情報には、ユーザに問合せる内容としてテキストデータ、音声データ、画像データを含めることができる。ここでは一例として、「コピーしますか？スキャンしますか？」の音声データを送信する。これにより、端末２（フィードバック部２１３）は、「コピーしますか？スキャンしますか？」と音声でフィードバックを行う（ステップＳ７８）。

なお、ユーザに対してジョブの種類またはジョブの設定条件の入力を促すメッセージであればフィードバックの内容はこれに限定されない。更に、ユーザに対するフィードバックは、音声出力だけでなく、タッチパネルにテキストまたは画像を表示することで行ってもよい。その場合、端末２にテキストデータや画像データ（表示情報）などを送信する。

ステップＳ７８の後に、ユーザが「コピー」と発話した場合（音声アシスタントプログラムの起動指示の際に「コピー」と発話していた場合も同様）、次のように処理が進む。ユーザが発話した音声は、端末２（取得部２１１）により音声データとして取得される（ステップＳ１−１）。端末２（通信制御部２１２）は、この「コピー」の音声データをクラウド３に送信する（ステップＳ２−１）。このとき、端末２（通信制御部２１２）は、端末２を特定するデバイスＩＤをクラウド３に送信する。

クラウド３では、操作音声変換部３１０（取得部３１１）が、その音声データを取得し、その後は、ステップＳ３´〜ステップＳ５´と同様に、操作音声変換部３１０においてテキスト解釈までの処理が行われ（ステップＳ３−１〜ステップＳ５−１）、解釈結果が管理部３３０へ渡される（ステップＳ６−１）。ここでは、「コピーして」に対応する「Ｃｏｐｙ＿Ｅｘｅｃｕｔｅ」としたアクションを解釈結果として渡す。

そして、管理部３３０（実行判定部３３５）は、改めて必須パラメータ不足判断を行う（ステップＳ７５―１）。この例の場合、ユーザは、「コピー」としか発話しておらず、必須パラメータのコピー部数等の設定値が不明である。

このため、クラウド３が端末２に対して不足しているパラメータを問い合わせる。具体的には、この段階では設定値不足であったため、管理部３３０（通知部３３６）が「設定値を入力してください」を含むレスポンス情報を生成し、操作音声変換部３１０（出力部３１４）を介して「設定値を入力してください」の音声データを端末２に送信する（ステップＳ７５−１〜ステップＳ７７−１）。そして、端末２（フィードバック部２１３）が「設定値を入力してください」との音声出力を行う（ステップＳ７８−１）。なお、この場合も、音声出力の他に、タッチパネル２７において「設定値を入力してください」とのテキスト表示などを行ってもよい。

次に、入力不足フィードバックがあったため、ユーザは、例えば「両面で」と発話する。ユーザが発話した音声は、端末２（取得部２１１）により音声データとして取得される（ステップＳ１−２）。端末２（通信制御部２１２）は、この「両面で」の音声データをクラウド３に送信する（ステップＳ２−２）。このとき、端末２（通信制御部２１２）は、端末２を特定するデバイスＩＤをクラウド３に送信する。

クラウド３では、操作音声変換部３１０（取得部３１１）が、その音声データを取得し、その後は、ステップＳ３´〜ステップＳ５´と同様に、操作音声変換部３１０においてテキスト解釈までの処理が行われ（ステップＳ３−２〜ステップＳ５−２）、解釈結果が管理部３３０へ渡される（ステップＳ６−２）。

ここでは、操作音声変換部３１０（解釈部３１３）が「印刷面＝両面」としたパラメータを解釈結果として生成し、その解釈結果を管理部３３０へ渡す。

そして、管理部３３０（実行判定部３３５）は、改めて必須パラメータ不足判断を行う（ステップＳ７５−２）。

具体的に、管理部３３０（ＤＢ管理部３３７）は、前回の発話の解釈結果を管理ＤＢ３４０などに記憶しておき、管理部３３０（ＤＢ管理部３３７）により前回の発話の解釈結果と今回の発話の解釈結果とを統合してアクションおよびパラメータを完成させる。管理部３３０（実行判定部３３５）は、この統合された解釈結果に基づいて改めて必須パラメータ不足判断を行う。

なお、以上では管理部３３０で前回の発話の解釈結果と今回の発話の解釈結果とを統合する場合について説明したが、これに限定されない。即ち、操作音声変換部３１０が前回の発話に含まれるアクションおよびパラメータと合わせて「Ｃｏｐｙ＿Ｅｘｅｃｕｔｅ」としたアクション、および「印刷面＝両面」としたパラメータを含む解釈結果を管理部３３０へ渡してもよい。

この例の場合、ユーザは「コピー」と「両面で」としか発音しておらず、コピー部数などが必須パラメータ不足である。従って、管理部３３０（実行判定部３３５）は、この段階（ステップＳ７５―２）でも必須パラメータ不足と判断する。

このため、クラウド３が端末２に対して不足しているパラメータを更に問い合わせる。パラメータを問い合わせる続きは同様である。つまり、管理部３３０（通知部３３６）が「何部印刷しますか」を含むフィードバック情報を生成し、操作音声変換部３１０（出力部３１４）を介して「何部印刷しますか」の音声データを端末２に送信する（ステップＳ７５−２〜ステップＳ７７−２）。そして、端末２（フィードバック部２１３）が「何部印刷しますか」との音声出力を行う（ステップＳ７８−２）。なお、この場合も、音声出力の他に、タッチパネル２７において「設定値を入力してください」とのテキスト表示などを行ってもよい。

次に、入力不足フィードバックがあったため、ユーザは、例えば「２部」と発話する。その後は同様に、端末２からクラウド３へ音声データが送信され、クラウド３で必須パラメータの充足判断が行われる。つまり、ユーザが発話した音声は、端末２（取得部２１１）により音声データとして取得される（ステップＳ１−３）。端末２（通信制御部２１２）は、この「２部」の音声データをクラウド３に送信する（ステップＳ２−３）。このとき、端末２（通信制御部２１２）は、端末２を特定するデバイスＩＤをクラウド３に送信する。

クラウド３では、操作音声変換部３１０（取得部３１１）が、その音声データを取得し、その後は、ステップＳ３´〜ステップＳ５´と同様に、操作音声変換部３１０においてテキスト解釈までの処理が行われ（ステップＳ３−３〜ステップＳ５−３）、解釈結果が管理部３３０へ渡される（ステップＳ６−３）。

ここでは、操作音声変換部３１０（解釈部３１３）が「部数＝２部」としたパラメータを解釈結果として生成し、その解釈結果を管理部３３０へ渡す。

そして、管理部３３０（実行判定部３３５）は、改めて必須パラメータ不足判断を行う（ステップＳ７５―３）。

具体的に、管理部３３０（ＤＢ管理部３３７）は、前回の発話の解釈結果と今回の発話の解釈結果とを統合してアクションおよびパラメータを完成させる。つまり、この例では、「Ｃｏｐｙ＿Ｅｘｅｃｕｔｅ」としたアクション、および「印刷面＝両面、部数＝２部」としたパラメータを完成させる。管理部３３０（実行判定部３３５）は、この統合された解釈結果に基づいて改めて必須パラメータ不足判断を行う。この例の場合、ユーザが「２部」と発話したことで、コピーのジョブに対する必須パラメータ不足が解消する。

この例では、続いて管理部３３０（通知部３３６）は、入力確認フィードバックを行うために「両面で２部コピーします。よろしいですか？」とのレスポンス情報を生成し、操作音声変換部３１０（出力部３１４）を介して「両面で２部コピーします。よろしいですか？」の音声データを端末２に送信する（ステップＳ７５−３〜ステップＳ７７−３）。そして、端末２（フィードバック部２１３）が「両面で２部コピーします。よろしいですか？」との音声出力を行う（ステップＳ７８−３）。なお、この場合も、音声出力の他に、タッチパネル２７において「両面で２部コピーします。よろしいですか？」とのテキスト表示などを行ってもよい。ここで、レスポンス情報に含まれるテキストデータや音声データを出力することに代えて、レスポンス情報に含まれる情報に基づいて端末２の記憶部に記憶されたテキストデータを組み合わせて出力情報を生成してもよい。

その後、ユーザは、この入力確認フィードバックに対して、設定値の変更またはコピーの開始を端末に発話する。ユーザが設定値を変更する内容を発話した場合は、その発話した設定値の変更について、端末２からクラウド３へ音声データが送信され、クラウド３で設定値の変更が行われて、端末２に設定値の変更が行われたことについて音声でフィードバックされる。音声のフィードバックは、例えば「○○設定でコピーします。よろしいですか？」など、変更された設定値でコピーを開始してよいか否かの確認を行う。

その後も、ユーザが設定値を変更する内容を発話する場合は、この手続きが繰り返される。従って、「両面で２部コピーします。よろしいですか？」との音声出力が行われた後は、ユーザが設定値を変更する内容を発話した回数（ｋ回）だけ、手続きが繰り返される。

ユーザが「はい」と応答するなどしてコピーの開始を指示した場合は、図１５に示されるｎ番目の手順が行われる。つまり、ユーザが発話した音声は、端末２（取得部２１１）により音声データとして取得される（ステップＳ１−ｎ）。端末２（通信制御部２１２）は、この「はい」の音声データをクラウド３に送信する（ステップＳ２−ｎ）。このとき、端末２（通信制御部２１２）は、端末２を特定するデバイスＩＤをクラウド３に送信する。

クラウド３では、操作音声変換部３１０（取得部３１１）が、その音声データを取得し、その後は、ステップＳ３´〜ステップＳ５´と同様に、操作音声変換部３１０においてテキスト解釈までの処理が行われ（ステップＳ３−ｎ〜ステップＳ５−ｎ）、解釈結果が管理部３３０へ渡される（ステップＳ６−ｎ）。

ここで、操作音声変換部３１０（解釈部３１３）は、コピー開始指示を認識すると、その解釈結果を管理部３３０に渡し、管理部３３０（実行判定部３３５）が、最終確認ＯＫと判断する（ステップＳ７５―ｎ）。

これにより、管理部３３０（解釈結果変換部３３２）は、解釈結果をＭＦＰ１のジョブ命令に変換処理する（ステップＳ７６）。そして管理部３３０（実行指示部３３３）は、変換処理した実行指示情報をＭＦＰ１に送信する（ステップＳ８）。これにより、音声入力操作により、ＭＦＰ１をコピー制御することができる。

（状態情報）
状態情報は、セッションの状況を示す情報であり、例えば、外部装置に対するジョブ実行命令の送信がまだ行われておらずユーザによるジョブの設定処理が継続中である場合にはセッションが継続していることを示す状態情報が送信され、外部装置に対するジョブ実行命令の送信が完了した場合にはセッションが終了したことを示す状態情報が送信される。

ただし、状態情報はこれに限定されず、より詳細にセッションの状況を示す状態情報を含んでもよい。操作音声変換部３１０や管理部３３０は、状態情報に応じて、セッションを継続するか終了するか否かを判断することができる。つまり、操作音声変換部３１０や管理部３３０は、セッションが継続中である場合には、ユーザが複数回の発話に分けてジョブ設定条件を指定した場合であっても一つのジョブに属するものであると判断し、セッションが終了した場合には、ユーザの発話に含まれるジョブ設定条件は新規のジョブに属するものであると判断することができる。これにより、操作音声変換部３１０や管理部３３０は、ジョブの種類およびジョブ設定条件の指示が複数回の発話に跨るような場合であったとしても、同一のジョブに属するものか、別の新規なジョブに属するものかを判断することができる。

なお、管理部３３０は、端末２から信号を受信しない状況が所定時間以上継続した場合は、セッションの終了と判断してもよい。通信対象（ＭＦＰ１）はセッションに関わらずジョブ実行を行ってもよい。この場合、通信対象ではジョブ実行命令を取得すると、通信対象が保持するジョブ条件に対して、ジョブ実行命令に含まれるジョブ条件を上書きして設定する。このとき、通信対象で保持するジョブ条件を全て削除またはデフォルト条件に戻して、ジョブ実行命令に含まれるジョブ条件を設定してもよい。また、通信対象で保持するジョブ条件と矛盾するジョブ条件についてはジョブ実行命令に含まれるジョブ条件を優先して上書き設定し、矛盾しないジョブ条件は通信対象が予め保持していたジョブ条件を維持してもよい。なお、通信対象は、ジョブを実行した場合はジョブ実行命令に含まれるジョブ条件を削除して、通信対象に予め登録されたデフォルト状態にすることができる。

（クラウドからフィードバックされる情報の例）
以上では、端末２のフィードバック部２１３はレスポンス情報に含まれるテキストデータおよび音声データを出力する場合について説明したが、これに限定されず、フィードバック部２１３はレスポンス情報に含まれる情報に基づいて端末２の記憶部に記憶されたテキストデータの中から全て、または一部を読み出し、組み合わせることで生成してもよい。以下の表２に、クラウド３から端末２にフィードバックされるレスポンス情報とフィードバックの一例を示す。

この表２に示すように、例えばジョブの設定値の入力を促すための「Ｃｏｐｙ＿Ｐａｒａｍｅｔｅｒ＿Ｓｅｔｔｉｎｇ」、ジョブの設定値の確認を促すための「Ｃｏｐｙ＿Ｃｏｎｆｉｒｍ」等のアクションが、レスポンス情報に含められて、クラウド３から端末２にフィードバックされる。

フィードバック部２１３は、レスポンス情報に含まれるアクション、パラメータ、レスポンスに応じて、ユーザに対するフィードバックを判断することができる。フィードバック部２１３は、フィードバックする内容を決定するために、表２に相当する情報を端末２の記憶部に記憶し、参照できる構成としてもよい。なお、表２では、コピーの場合を例としたが、プリント、スキャン、ＦＡＸも表２と同様にアクションとして、ジョブの設定値の入力を促すための「Ｐａｒａｍｅｔｅｒ＿Ｓｅｔｔｉｎｇ」、ジョブの設定値の確認を促すための「Ｃｏｎｆｉｒｍ」が用いられてもよい。なお、レスポンス情報には、アクションおよびパラメータまたはレスポンスの少なくとも一方が含まれていればよい。

また、例えば両面または片面等の印刷面の設定値、または、コピー部数等のパラメータが、レスポンス情報に含められて端末２にフィードバックされる。さらに、必須パラメータが不足している場合、不足するパラメータの入力を促すメッセージが、レスポンスとして信号に含められて端末２にフィードバックされる。

（ジョブの実行動作およびエラー発生時の対話）
次に、例えば「ジョブを実行します。よろしいですか？」等の、上述の入力確認フィードバックにより、ユーザが「はい」と応答することで、ジョブが実行され、または、エラーが発生した場合の対話の一例を示す。

まず、「ジョブを実行します。よろしいですか？」等の、上述の入力確認フィードバックにより、ユーザが「はい」と応答することで、ＭＦＰ１においてジョブが実行される。何事もなくジョブが完了すれば、例えば「ジョブが完了しました。原稿の取り忘れに注意してください。」等の完了メッセージ（音声およびテキスト）が、端末２を介して出力される。

これに対して、例えば用紙不足のエラーが発生した場合、端末２を介して「用紙がありません。用紙を補充して継続するか、ジョブをキャンセルしてください」等のジョブの確認フィードバックが行われる。この確認フィードバックに対して、ユーザがＭＦＰ１に用紙を補充し、「継続」との発話により応答した場合、ＭＦＰ１に対してジョブの継続が指示され、ＭＦＰ１においてジョブが再開される。これに対して、確認フィードバックにより、ユーザが「キャンセル」との発話することで、ジョブのキャンセルを指示した場合、ＭＦＰ１に対してジョブのキャンセルが通知され、エラー発生以降のジョブがキャンセルされる。そして、端末２を介して、例えば「ジョブをキャンセルしました」等の音声およびテキストを出力する確認フィードバックが行われる。

（ジョブの実行動作およびエラー発生時の対話動作の流れ）
ＭＦＰ１は、指示されたジョブを実行することで、正常にジョブが完了した旨の実行結果、または、エラーが発生したことを示す実行結果をクラウド３を介して端末２に送信する。正常にジョブが完了した旨の実行結果を受信した場合、端末２のフィードバック部２１３は、例えば「ジョブが完了しました」等の音声メッセージを出力する。これに対して、エラーが発生した旨の実行結果を受信した場合、端末２のフィードバック部２１３は、例えば「エラーが発生しました。ジョブを継続しますか、キャンセルしますか？」等の、ジョブの継続の是非を問う音声メッセージを出力する（ステップＳＡ５３）。具体的には、ＭＦＰはジョブが完了した場合には完了通知を管理部に対して送信する。また、ＭＦＰはエラーが発生した場合にはエラー内容などエラーに関するエラー情報を管理部へ送信する。また、管理部は、ＭＦＰから取得した情報に応じて、レスポンス情報として、例えば「ジョブが完了しました」または「エラーが発生しました。ジョブを継続しますか、キャンセルしますか？」を生成し、生成したレスポンス情報を操作音声変換部を介して端末へ送信する。

ステップＳＡ５４〜ステップＳＡ６１が、ユーザが、継続を指定した場合の各部の動作の流れである。すなわち、「エラーが発生しました。ジョブを継続しますか、キャンセルしますか？」との問い合わせに対し、ユーザがエラーの発生要因を除去したうえで、「継続」と応答した場合（ステップＳＡ５４）、操作音声変換部によりテキスト化される（ステップＳＡ５５〜ステップＳＡ５７）。

操作音声変換部は、アクションを「Ｃｏｐｙ＿Ｊｏｂ＿Ｃｏｎｔｉｎｕｅ」とした解釈結果を生成して、管理部へ送信する。管理部は、レスポンスを「ジョブを継続します」としたレスポンス情報を生成し、これを端末２に送信する（ステップＳＡ５８〜ステップＳＡ５９）。さらに、管理部（実行指示部３３３）は、ＭＦＰ１に対してジョブの継続を指示する（ステップＳＡ６０）。また、端末２（フィードバック部２１３）は、「ジョブを継続します」との入力確認フィードバックを行う（ステップＳＡ６０）。

これに対して、ステップＳＡ６２〜ステップＳＡ６９が、ユーザが、ジョブのキャンセルを指定した場合の各部の動作の流れである。すなわち、「エラーが発生しました。ジョブを継続しますか、キャンセルしますか？」との問い合わせに対し、ユーザが、「キャンセル」と応答した場合（ステップＳＡ６２）、操作音声変換部によりテキスト化される（ステップＳＡ６３〜ステップＳＡ６５）。

操作音声変換部は、アクションを「Ｃｏｐｙ＿Ｊｏｂ＿Ｃａｎｃｅｌ」とした解釈結果を生成して、管理部へ送信する。管理部は、レスポンスを「ジョブをキャンセルします」としたレスポンス情報を生成し、これを端末２に送信する（ステップＳＡ６６〜ステップＳＡ６７）。更に、管理部（実行指示部３３３）は、ＭＦＰ１に対してジョブのキャンセルを指示する（ステップＳＡ６８）。また、端末２（フィードバック部２１３）は、「ジョブをキャンセルします」との入力確認フィードバックを行う（ステップＳＡ６９）。

（対話によるＭＦＰの機器能力に応じたパラメータの調整動作）
次に、実施の形態の音声操作システムは、ＭＦＰ１の機器能力に対応したジョブの実行を、対話型操作により実現している。

まず、機器情報取得部３３４が、ＭＦＰ１に対して、例えば処理可能な解像度の問い合わせを行う（Ｃａｐａｂｉｌｉｔｙの取得：ステップＳＡ７２）。この問い合わせに対して、ＭＦＰ１は、「２００ｄｐｉ〜６００ｄｐｉ」等のように、処理可能な解像度を端末２に回答する（ステップＳＡ７３）。これにより、端末２において、ＭＦＰ１の処理可能な解像度が認識される。

なお、機器情報取得部３３４はクラウド３とＭＦＰ１との通信が確立した後の所定のタイミングで、予め処理能力の情報を取得しておいてもよい。例えば、管理テーブルにＭＦＰを登録する際に処理能力の情報を取得してもよいし、定期的に処理能力の情報を取得してもよいし、端末から音声アシスタントプログラムの起動を受け付けたタイミングや端末からジョブの実行指示を受け付けたタイミングで取得してもよい。取得した処理能力の情報は、クラウドが有するＨＤＤなどの記憶部に記憶しておくことができ、例えば管理テーブルにおいてＭＦＰと紐づけて記憶しておいてもよい。また、処理能力の取得は他のプログラムが実行し、機器情報取得部３３４は他のプログラムが取得した情報を取得することで、間接的にＭＦＰ１が有する情報を取得してもよい。また、機器情報取得部がＭＦＰから取得する機器情報は解像度の情報に限定されず、例えばＭＦＰにインストールされたアプリケーションの種類およびバージョン、印刷速度、処理可能なファイル形式、フィニッシャを含むオプション機器の接続状況など、ＭＦＰで実行可能なジョブの種類やジョブの設定条件に関する情報を取得することができる。

まず、ユーザにより端末２の操作処理プログラムが起動操作された後、例えば音声入力によって音声アシスタントプログラムの起動を指示すると、通信制御部は、クラウド３に対して音声データを送信する。テキスト変換部は音声データをテキストデータに変換し、アクションおよびパラメータに変換して管理部へ送信する。実行判定部は、必須パラメータを満たしているか否かを判断し、必須パラメータを満たしていない場合には、操作音声変換部を介して端末に対して「コピーしますか？スキャンしますか？」のテキストデータなどのレスポンス情報を送信する。

次に、端末２（フィードバック部２１３）は、例えば「コピーしますか？スキャンしますか？」等のジョブの指示を促す内容を音声でフィードバックする（ステップＳＡ７４）。ユーザが「スキャン」と発話すると（ステップＳＡ７５）、操作音声変換部によりテキスト化される（ステップＳＡ７６〜ステップＳＡ７８）。また、解釈部はテキストデータに基づいて解釈結果を生成し、アクションを「Ｓｃａｎ＿Ｅｘｅｃｕｔｅ」とした解釈結果を管理部へ送信する。スキャンの指示だけでは、必須パラメータが不足しているため、管理部の実行判定部は、レスポンスを「設定値を入力してください」としたレスポンス情報を操作音声変換部を介して端末２に送信する（ステップＳＡ７９〜ステップＳＡ８０）。これにより、端末２のフィードバック部２１３は、「設定値を入力してください」との入力不足フィードバックを行う（ステップＳＡ８１）。

次に、このような入力不足フィードバックに対して、ユーザが「１０００ｄｐｉで田中さん宛て」と発話すると、操作音声変換部によりテキスト化される（ステップＳＡ８２〜ステップＳＡ８５）。解釈部は、は、アクションを「Ｓｃａｎ＿Ｅｘｅｃｕｔｅ」、パラメータを「解像度＝１０００ｄｐｉ、宛先＝田中」とした解釈結果を管理部に送信する（ステップＳＡ８６〜ステップＳＡ８７）。管理部の実行判定部３３５は、解釈結果に含まれるパラメータに基づいて、ユーザにより指定されたジョブは、ＭＦＰ１で実行可能か否かを判定する（ステップＳＡ８８）。実行判定部は、機器情報取得部によって機器情報を取得することでまたは機器情報取得部が予め取得した機器情報を参照することで、通信対象にユーザから指定された設定でジョブ実行可能か否かを判定する。

ＭＦＰ１が、１０００ｄｐｉの解像度で画像処理が可能であれば、ステップＳＡ８９において、管理部の通知部は、レスポンスを「１０００ｄｐｉでスキャンし、田中さん宛てに送信します。よろしいですか？」としたレスポンスを含むレスポンス情報を操作音声変換部を介して端末へ送信し、端末２（フィードバック部２１３）が、「１０００ｄｐｉでスキャンし、田中さん宛てに送信します。よろしいですか？」との入力確認フィードバックを行う。

この入力確認フィードバックに対してユーザが「はい」と応答すると（ステップＳＡ９１）、操作音声変換部によりテキスト化される（ステップＳＡ９２〜ステップＳＡ９４）。操作音声変換部は、アクションを「Ｓｃａｎ＿Ｅｘｅｃｕｔｅ」とし、パラメータを「解像度＝１０００、宛先＝田中」とした解釈結果を管理部に送信する（ステップＳＡ９５〜ステップＳＡ９６）。

管理部の解釈結果変換部３３２は、解釈結果をジョブ命令に変換する（ステップＳＡ９７）。管理部の実行指示部は、ジョブ命令をＭＦＰ１に送信する（ステップＳＡ９８）。

これに対して、６００ｄｐｉがＭＦＰ１の処理能力の限界である場合、ユーザから指定された１０００ｄｐｉの画像処理は、ＭＦＰ１では困難となる。この場合、端末２は、ステップＳＡ９０において、「１０００ｄｐｉは指定できません。６００ｄｐｉでスキャンし、田中さん宛てに送信します。よろしいですか？」との確認フィードバックを行う。

なお、実行判定部３３５は、ＭＦＰ１の処理能力の範囲内で、ユーザが指示した機能または処理能力値に最も近い機能または値を選択することができる。例えば、ＭＦＰ１の処理可能な解像度が２００−６００ｄｐｉの範囲である場合、ユーザが指示した１０００ｄｐｉに最も近い６００ｄｐｉが選択される。そして、実行判定部３３５が選択した能力または値を、フィードバック部が確認フィードバックとして出力する。つまり、実行判定部は、機器情報または機器状態に基づいて、解釈結果に含まれるアクションおよびパラメータではジョブ実行が不可能と判断した場合、ＭＦＰの処理能力を参照してＭＦＰで実行可能な設定条件を選択する。そして、選択した設定条件に基づいてレスポンス情報を生成することができる。なお、管理部は、操作音声変換部から解釈結果に加えて、音声入力元の端末を特定するデバイスＩＤを取得することができるため、実行判定部は紐づけ用ＤＢを参照して取得したデバイスＩＤと紐づくＭＦＰを特定し、特定したＭＦＰの処理能力を参照することでジョブ実行の可否を判断することができる。また、ユーザがそもそもＭＦＰの有していない機能の実行を指示した場合、実行判定部はジョブを実行できないことを示すレスポンス情報を操作音声変換部を介して端末へ送信してもよい。なお、管理部は、選択した設定条件に関する情報を操作音声変換部に送信してもよい。

このような確認フィードバックに対してユーザが「はい」と発話すると（ステップＳＡ９１）、操作音声変換部によりテキスト化される（ステップＳＡ９２〜ステップＳＡ９４）。操作音声変換部は、テキストデータに基づいて、は、アクションを「Ｓｃａｎ＿Ｅｘｅｃｕｔｅ」とし、パラメータを「解像度＝６００、宛先＝田中」とした解釈結果を管理部に送信する（ステップＳＡ９５〜ステップＳＡ９６）。

管理部の解釈結果変換部３３２は、解釈結果をジョブ命令に変換する（ステップＳＡ９７）。管理部の実行指示部は、ジョブ命令をＭＦＰ１に送信する（ステップＳＡ９８）。これにより、音声入力操作により、処理能力内でジョブが実行されるように、ＭＦＰ１を操作できる。ここで、ＭＦＰでは、ＭＦＰ内のＨＤＤなどの記憶部に保存されたアドレス帳を参照することで、「田中」に該当する宛先情報を検索する。ここで、宛先情報とは、メールアドレスやＦＡＸ番号などの情報である。「田中」に該当する宛先情報がアドレス帳に存在する場合、その宛先に対してＭＦＰでスキャンした画像データを送信する。なお、ＭＦＰの操作部に宛先情報を表示してユーザに宛先に誤りがないか確認を促し、ユーザがＯＫボタンを押下するなどした場合に宛先に対してスキャンした画像データを送信するものとしてもよい。また、「田中」に該当する宛先がアドレス帳に複数存在する場合は、該当する全ての宛先情報をＭＦＰの操作部に表示して、ユーザに選択させるものとしてもよい。

（印刷対象を検索して印刷する動作）
次に、所望のファイルを印刷する動作を説明する。まず、ユーザにより端末２の操作処理プログラムが起動操作された後、例えば音声入力によって音声アシスタントプログラムの起動を指示すると、通信制御部は、クラウド３に対して音声データを送信する。テキスト変換部は音声データをテキストデータに変換し、アクションおよびパラメータに変換して管理部へ送信する。実行判定部は、必須パラメータを満たしているか否かを判断し、必須パラメータを満たしていない場合には、操作音声変換部を介して端末に対して「コピーしますか？スキャンしますか？プリントしますか？」のテキストデータなどのレスポンス情報を送信する。

フィードバック部２１３が、例えば「コピーしますか？スキャンしますか？プリントしますか？」等のジョブの指示を促す内容を音声でフィードバックする（ステップＳＡ１４２）。ユーザが「プリント」と発話すると（ステップＳＡ１４３）、操作音声変換部のテキスト変換部によりテキスト化される（ステップＳＡ１４４〜ステップＳＡ１４６）。また、解釈部はテキストデータに基づいて解釈結果を生成し、アクションを「Ｐｒｉｎｔ＿Ｅｘｅｃｕｔｅ」とした解釈結果を管理部へ送信する。「プリント」との指示だけでは、必須パラメータが不足しているため、管理部の実行判定部は、レスポンスを「設定値を入力してください」としたレスポンス情報を操作音声変換部を介して端末２に送信する（ステップＳＡ１４７〜ステップＳＡ１４８）。これにより、端末２のフィードバック部２１３は、「設定値を入力してください」との入力不足フィードバックを行う（ステップＳＡ１４９）。

次に、このような入力不足フィードバックに対して、ユーザが「ファイルＡをプリント」と発話すると（ステップＳＡ１５０）、操作音声変換部のテキスト変換部によりテキスト化される（ステップＳＡ１５１〜ステップＳＡ１５３）。また、解釈部はテキストデータに基づいて解釈結果を生成し、アクションを「Ｐｒｉｎｔ＿Ｅｘｅｔｕｔｅ」、パラメータを「印刷対象＝ファイルＡ」とした解釈結果を管理部に送信する（ステップＳＡ１５４〜ステップＳＡ１５５）。管理部は、解釈結果に含まれるパラメータに基づいて管理ＤＢからファイルＡを検索する（ステップＳＡ１５６）。

なお、検索する対象は管理ＤＢに限らずクラウド３とネットワークを介して接続されたサーバであってもよい。また、管理部は、パラメータに含まれる文字列を含むファイル名を検索するだけでなく、ファイルデータ中にパラメータに含まれる文字列を含むファイルを検索してもよい。また、管理部は、ファイルの作成日時やファイル作成者などのファイルの属性に基づいて検索を行ってもよい。

管理ＤＢに、一つだけファイルＡが記録されている場合、ステップＳＡ１５７において、管理部は、このファイルＡを印刷データとして設定する。このファイルＡの印刷データは、ＭＦＰ１に送信され印刷される。このとき、実行指示部は、ＭＦＰに対してジョブの実行命令に加えて、管理部が検索したファイルを送信する。

管理ＤＢに２つ以上のファイルＡが存在する場合、即ち管理部が検索した結果として複数のファイル見つかった場合、実行判定部はレスポンスとして「複数のファイルＡが登録されています。印刷するファイルを選択してください」のレスポンス情報を生成して、操作音声変換部を介して端末へ送信する。このとき、それぞれのファイルを特定するための情報として、ファイルの作成日時や作成者、サムネイル画像などをレスポンス情報に含めてもよい。端末２のフィードバック部２１３は、「複数のファイルＡが登録されています。印刷するファイルを選択してください」との入力不足フィードバックを行う（ステップＳＡ１５８）。このとき、それぞれのファイルを特定するための情報をとしてファイルの作成日時や作成者を音声でフィードバックしてもよいし、タッチパネルにファイル一覧を表示してもよい。なお、ファイル一覧としてサムネイル画像を表示することでユーザに選択を促してもよい。これに対して、ユーザは、所望のファイルＡを選択する。即ち、ファイルの作成に自治や作成者などを発話することでファイルを選択してもよいし、タッチパネルに表示されたファイル一覧から所望のファイルをタッチ操作で選択してもよい。実行指示部は、後述するように、ユーザにより選択されたファイルＡをＭＦＰ１に送信し印刷要求を行う。

管理ＤＢにファイルＡが記録されていない場合、実行判定部はレスポンスとして「メモリ内にファイルＡが登録されていません」のレスポンス情報を生成して、操作音声変換部を介して端末へ送信する。端末２のフィードバック部２１３は、「メモリ内にファイルＡが登録されていません」とのフィードバックを行う（ステップＳＡ１６０）。

すなわち、管理ＤＢに１つだけファイルＡが存在する場合、印刷を希望するファイルＡまたは他のファイルが選択された場合、実行判定部はレスポンスとして「ファイルＡの印刷を開始します。よろしいでしょうか」のレスポンス情報を生成して、操作音声変換部を介して端末へ送信する。端末２のフィードバック部２１３は、例えば「ファイルＡの印刷を開始します。よろしいでしょうか」との確認フィードバックを行う（ステップＳＡ１６２）。

この確認フィードバックに対して、ユーザが「はい」と応答すると（ステップＳＡ１６３）、操作音声変換部のテキスト変換部によりテキスト化される（ステップＳＡ１６４〜ステップＳＡ１６６）。また、解釈部はテキストデータに基づいて解釈結果を生成し、アクションを「Ｐｒｉｎｔ＿Ｅｘｅｃｕｔｅ」とし、パラメータを「印刷対象＝ファイルＡ、ファイル特定情報Ｘ」とした解釈結果を管理部に送信する（ステップＳＡ１６７〜ステップＳＡ１６８）。なお、ファイル特定情報Ｘとは、管理ＤＢに２つ以上のファイルＡが存在した場合に、ユーザが選択したファイルＡを特定するために付加される情報であり、例えばファイルの作成日時や作成者などの情報である。

管理部の解釈結果変換部３３２は、解釈結果をジョブ命令に変換する（ステップＳＡ１６９）。通信制御部は、ジョブ命令を、ユーザより選択されたファイルと共にＭＦＰ１に送信する（ステップＳＡ１７０）。これにより、ＭＦＰ１において、ユーザが希望するファイルが印刷される。

なお、以上では印刷対象をクラウド３が検索し、検索したファイルをＭＦＰへ送信する場合を例に説明したが、これに限定されない。例えば、ＭＦＰに対しては「印刷対象＝ファイルＡ」としたジョブ命令を送信して、ＭＦＰがファイルＡに該当するファイルを検索してもよい。この場合、ＭＦＰは、ＭＦＰが有するＨＤＤまたはＭＦＰがネットワークを介して接続されたサーバからファイルＡに該当するファイルを検索することができる。また、検索したファイルが２つ以上存在する場合は、ＭＦＰのタッチパネル上にファイル一覧を表示させ、ユーザに選択を促すことができる。そして、ユーザが選択したファイルをジョブ実行の対象とすることができる。

（管理方式１）
クラウド３のクラウドサービスにより操作対象（一例としてＭＦＰ１）の能力や状態に応じた問い合わせ（ＵＩ表示等）を端末２に行うためには、ＭＦＰ１の能力や状態をクラウド３側に通知させる必要がある。ここでは、ＭＦＰ１の能力や状態を管理する基本方式について説明する。

図１６は、管理方式１のシーケンスの一例を示す図である。図１６に示すように、先ず、ＭＦＰ１がクラウド３にＭＦＰ１の機器の能力や状態を通知する（ステップＳ５０１）。クラウド３では、管理部３３０（ＤＢ管理部３３７）が通知された情報を受け取り機器情報ＤＢ３６０に記録する。

その後、ユーザが「起動ワード」の発話などにより端末２（この例ではスマートスピーカ）にサービス起動を指示すると、端末２からクラウド３に「起動ワード」の音声データが送信される（ステップＳ１０１）。この際に端末２のデバイスＩＤも送信される。クラウドサービス３００では、その音声データを操作音声変換部３１０がテキスト化やテキスト解釈などを行い、解釈結果を管理部３３０に渡す。管理部３３０は、解釈結果を受け取ると、実行判定部３３５が「起動ワード」の処理として判定し、ＤＢ管理部３３７が、デバイスＩＤに対応するＭＦＰ１の能力や状態を、機器情報ＤＢ３６０から取得する（ステップＳ１０２）。

管理部３３０（通知部３３６）は、機器情報ＤＢ３６０から取得したＭＦＰ１の情報（能力や状態を示す情報）に応じてＵＩを生成し（Ｓ１０３）、操作音声変換部３１０（出力部３１４）を介して端末２にＵＩを送信する（ステップＳ１０４）。

なお、ＭＦＰ１は、ＭＦＰ１の機器状態が変化する度あるいは定期的に（ステップＳ５０２）、クラウド３に機器の状態を送信する（ステップＳ５０３）。

ここでは、ＭＦＰ１がクラウド３に機器の状態を示す情報を定期的に送信するとしたが、クラウド３の管理部３３０（機器情報取得部３３４）が、定期的にＭＦＰ１にアクセスして機器の状態を取得してもよい。

この方式の場合、能力や状態の変化があるたびに記録を行うため、通知する回数、データサイズによってコストが増大することも考えられる。

（管理方式２）
図１７は、管理方式２のシーケンスの一例を示す図である。図１７に示すように、先ず、ＭＦＰ１がクラウド３にＭＦＰ１の機器の能力や状態を通知する（ステップＳ５１１）。クラウド３では、管理部３３０（ＤＢ管理部３３７）が通知された情報を受け取り機器情報ＤＢ３６０に記録する。

その後にユーザがＭＦＰ１の操作部１６を操作してログインしたとする（Ｓ２０１）。図１７には、一例としてログインユーザを「太郎」としている。ＭＦＰ１は、ログインにより状態（この場合、認証状態）が変わったため、クラウド３にＭＦＰ１の状態を示す情報としてログイン情報（「認証状態：ログイン」と「ユーザ：太郎」）を送信する（ステップＳ５１２）。ログイン情報には、ログインユーザを特定するための情報が含まれるが、ログイン状態、ログインユーザに紐づくＥメールアドレスやＦＡＸ番号などの情報が含まれていても良い。これにより、クラウド３では、管理部３３０（ＤＢ管理部３３７）が通知された情報を受け取り機器情報ＤＢ３６０を更新する。

そのユーザが端末２に例えば「私にスキャン送信して」と発話したとする。ユーザが発話した音声は、端末２（取得部２１１）により音声データとして取得される（ステップＳ２０２−１）。端末２（通信制御部２１２）は、この「私にスキャン送信して」の音声データをクラウド３に送信する（ステップＳ２０２−２）。クラウド３では、「私にスキャン送信して」と発話した場合、操作音声変換部３１０（解釈部３１３）は解釈結果として、「アクション：スキャン、送信」「パラメータ：宛先＝私」を管理部３３０に渡す。ここで、パラメータの「宛先」に対応付けられている「私」は、「ユーザ特定情報」の一例として示している。ここで、ユーザ特定情報は、ＭＦＰ１又は端末２を使用しているユーザを特定するための情報である。ユーザ特定情報は、ユーザの発話中に含まれる文言であり、ユーザ自身を示すため又は宛先を指定する文言である。例えば、口語や自然な指示で使われる文言であることが好ましく、「私」「僕」「自分」などを含む。ただし、クラウド３又はＭＦＰ１は、ユーザ特定情報のみでは、Ｅメールアドレスなどの宛先情報やユーザ名などを一意に特定することができないため、ＭＦＰ１におけるログインユーザの情報などに基づいてユーザ名や宛先情報を特定する処理を行うことができる。

続いてＤＢ管理部３３７が、端末２のデバイスＩＤに対応するＭＦＰ１の能力や状態を、機器情報ＤＢ３６０から取得する（ステップＳ２０３）。ＭＦＰ１の状態には、ログイン中のユーザを示すログイン情報が含まれているため、これも取得する。

そして、実行判定部３３５が必須パラメータの充足判断を行う（Ｓ２０４）。ここで、実行判定部３３５は、宛先のパラメータにユーザ特定情報の「私」が含まれているので、「私」をログイン中のユーザに変換する「変換手段」として機能する。この例では、実行判定部３３５は、ＤＢ管理部３３７がステップＳ２０３において取得した、ＭＦＰ１にログイン中のユーザ名である「太郎」に変換する。なお、ユーザ名に変換することに代えて、メールアドレスやＦＡＸ番号などの宛先情報に変換しても良い。宛先情報は、Ｓ２０１においてＭＦＰ１から取得しても良いし、予めクラウド３のＨＤＤなどに登録されていても良い。実行判定部３３５が、ユーザ特定情報の変換を行って必須パラメータの充足判断でパラメータ不足がないと判定した場合は、通知部３３６にフィードバック情報の生成を指示する。

ここで、通知部３３６は、宛先のパラメータが「太郎」に変換されたため、フィードバックする「私宛てに送信します」の「私」を、「太郎」としたフィードバック情報を生成する。なお、宛先情報に変換した場合には、ユーザ名「太郎」に代えて、宛先情報をフィードバックしても良い。

ここでは、ユーザに指示内容の確認を求める入力確認フィードバックを行ってもよいが、この例では、受け付けた指示内容を通知するだけの手順を示している。つまり、クラウドサービス３００では、通知部３３６が操作音声変換部３１０（出力部３１４）を介して端末２にフィードバック情報（「太郎さまに宛に送信します」の音声データ）を送信する（ステップＳ２０５−１）。そして、端末２（フィードバック部２１３）が「太郎さまに宛に送信します」との音声出力を行う（ステップＳ２０５−２）。

また、クラウドサービス３００の管理部３３０では、実行指示部３３３が解釈結果変換部３３２により変換されたジョブの実行命令をＭＦＰ１に送信することによりジョブの実行を指示する（ステップＳ２０６）。この場合、宛先が「太郎」に変換されたものによりジョブの実行が指示される。ここで、管理部３３０は、宛先としてユーザ名をＭＦＰへ送信しても良いし、ユーザ名に代えて又は加えてメールアドレスやＦＡＸ番号などの宛先情報をＭＦＰへ送信しても良い。

この指示により、ＭＦＰ１は、スキャンを実行し（ステップＳ５１３）、スキャン画像を太郎の宛先に送信する（ステップＳ５１４）。ここで、ＭＦＰ１では、ＨＤＤ１３などに記憶された宛先情報の中から、ユーザ名「太郎」に紐づく宛先情報を検索して、検索した宛先情報に対してスキャン画像を送信することができる。また、クラウド３からユーザ名に代えて又は加えて宛先情報を取得した場合には、取得した宛先情報に基づいてスキャン画像を送信しても良い。

その後、ユーザである太郎がＭＦＰ１の操作部１６を操作してログアウトすると（ステップＳ２０７）、ＭＦＰ１は、ログアウトにより状態（認証状態）が変わったため、クラウド３にＭＦＰ１の状態を示す情報としてログアウト情報（「認証状態：ログアウト」）を送信する（ステップＳ５１５）。これにより、クラウド３では、管理部３３０（ＤＢ管理部３３７）が通知された情報を受け取り機器情報ＤＢ３６０を更新する。

ここでは、宛先としてユーザ名を設定する場合について説明したが、これに限定されず、ユーザＩＤでもよい。この場合、実行指示部３３３は「宛先＝太郎（又はユーザＩＤ）」であることを示すジョブ実行命令をＭＦＰ１へ送信し、ＭＦＰ１は「太郎（又はユーザＩＤ）」と紐づくメールアドレスなどの宛先情報をＭＦＰ１内の記憶部（ＨＤＤ１３など）から検索して抽出する。

なお、クラウド３の機器情報ＤＢ３６０に、ログインユーザのメールアドレスを記憶している場合には、クラウド３側で宛先としてログインユーザのメールアドレスを設定してもよい。この場合、ジョブ実行命令にはメールアドレスが含まれるため、ＭＦＰ１において宛先情報を検索する処理を省略することができる。

このように、管理方式２では、「私」などのユーザ特定情報をＭＦＰ１にログイン中のユーザの情報に変換するため、ユーザは、日常的に使用される平易な言葉、例えば「私」にスキャン送信してなどと端末に操作を指示してもユーザ本人が誰なのか確定される。従って、ユーザは、ユーザ本人を宛先などに指定する場合に端末にユーザ本人が誰なのかをいちいち指定する必要がなくなり、直感的に指示することができるので、ユーザの利便性が向上する。ただし、この方式の場合、ＭＦＰ１の認証状態に変化があった場合にクラウド３にＭＦＰ１の状態変化を記録し、クラウド３ではそれを参照してスキャンの送信先として設定する。しかしながら、認証状態の変化は頻度が高く、コストの増大を抑制することが難しい。例えば、ユーザがＭＦＰ１にログインしたりログアウトしたりする度に、ログインの状態を示す情報をクラウド３に通知する必要がある。

（管理方式３）
図１８は、管理方式３のシーケンスの一例を示す図である。図１８には、ユーザがＭＦＰ１にログインするステップから示している。図１８に示すシーケンスは、図１７に示すシーケンスと比較すると、ＭＦＰ１からクラウド３にＭＦＰ１のログインの状態を示す情報を送信しない手順にしたところが主に異なる。ＭＦＰ１からクラウド３にＭＦＰ１のログインの状態を示す情報を送信しないため、クラウド３への通知回数が大幅に減り、コストや、クラウド３の負荷を減らすことも可能になる。

ここでは、図１８のシーケンスについて図１７のシーケンスと主に異なる箇所について説明する。なお、図１７との比較のため、ユーザが発話する内容を「私にスキャン送信して」に合わせて示している。

先ず、ユーザがＭＦＰ１の操作部１６を操作してログインする（Ｓ３０１）。

続いてユーザが端末２に「私にスキャン送信して」と発話する。ユーザが発話した音声は、端末２（取得部２１１）により音声データとして取得される（ステップＳ３０２−１）。端末２（通信制御部２１２）は、この「私にスキャン送信して」の音声データをクラウド３に送信する（ステップＳ３０２−２）。クラウド３では、「私にスキャン送信して」と発話した場合、操作音声変換部３１０（解釈部３１３）は解釈結果として、「アクション：スキャン、送信」「パラメータ：宛先＝私」を管理部３３０に渡す。

続いてＤＢ管理部３３７が、端末２のデバイスＩＤに対応するＭＦＰ１の能力や状態を、機器情報ＤＢ３６０から取得する（ステップＳ３０３）。この方式では、ＭＦＰ１がログインの状態が変わってもＭＦＰ１からクラウド３へ通知がないため、取得した状態に、ログイン中のユーザを示すログイン情報は含まれない。

そのため、クラウドサービス３００の管理部３３０では、実行判定部３３５による判定により、通知部３３６が操作音声変換部３１０（出力部３１４）を介して端末２にフィードバック情報（「あなた宛に送信します」の音声データ）を送信する（ステップＳ３０４−１）。なお、「あなた」は「私」に対してフィードバックするデフォルトの表現である。そして、端末２（フィードバック部２１３）が「あなた宛に送信します」との音声出力を行う（ステップＳ３０４−２）。

また、クラウドサービス３００の管理部３３０では、実行指示部３３３がジョブの実行命令をＭＦＰ１に送信することによりジョブの実行を指示する（ステップＳ３０５）。この指示では、宛先が「私」で不明確なままである。

ＭＦＰ１では、この指示を受けると、宛先が「私」であることから、宛先をログイン中のユーザ名（つまり「太郎」）に変換する（ステップＳ５２１）。具体的に、ＭＦＰ１では、ボイスコントロールサービス１１２が、宛先のパラメータにユーザ特定情報の「私」が含まれているので、「私」をログイン中のユーザ「太郎」に変換する「変換手段」として機能する。ＭＦＰ１は、ユーザ名に基づいて宛先情報を特定することができるが、ユーザ名に変換せずに宛先情報に変換しても良い。

その後は図１７のステップＳ５１３およびステップＳ５１４と同様に、スキャンを実行し（ステップＳ５２２）、スキャン画像を太郎の宛先に送信する（ステップＳ５２３）。

その後、ユーザである太郎がＭＦＰ１の操作部１６を操作してログアウトする（ステップＳ３０６）。なお、ＭＦＰ１でログアウトの操作を行っても、この方式では、ＭＦＰ１側で宛先を変換するため、クラウド３への通知は省略することができる。

（管理方式４）
図１９は、管理方式４のシーケンスの一例を示す図である。図１９に示すシーケンスは、図１７に示すシーケンスと比較すると、機器情報ＤＢ３６０に認証設定（有効／無効）を設けた点が異なる。ＭＦＰ１は認証機能を有しており、ログインＩＤやパスワードによってユーザを認証することで、ユーザ毎に使用可能な機能を設定することができる。認証設定として、認証機能を実行するか否か、つまり有効／無効を切り替えて設定することができる。認証設定が無効の場合において送信先が特定されない場合には、送信を行わないため、ＭＦＰ１によるクラウド３への通信回数を減らすことができる。つまり、クラウド３への通知回数が大幅に減り、コストを減らすことが可能になる。

ここでは、図１９のシーケンスについて図１７のシーケンスと主に異なる箇所について説明する。なお、比較のため、ユーザが発話する内容を「私にスキャン送信して」に合わせて示している。

図１９に示すように、先ず、ＭＦＰ１がクラウド３に「認証設定：無効」を通知する（ステップＳ５３１）。クラウド３では、管理部３３０（ＤＢ管理部３３７）が通知された情報を受け取り機器情報ＤＢ３６０に記録する。例えば、管理部３３０（ＤＢ管理部３３７）は、機器情報ＤＢ３６０の当該ＭＦＰ１の「認証設定」に「無効」を設定する。

ユーザが端末２に例えば「私にスキャン送信して」と発話したとする。ユーザが発話した音声は、端末２（取得部２１１）により音声データとして取得される（ステップＳ４０１−１）。端末２（通信制御部２１２）は、この「私にスキャン送信して」の音声データをクラウド３に送信する（ステップＳ４０１−２）。クラウド３では、「私にスキャン送信して」と発話した場合、操作音声変換部３１０（解釈部３１３）は解釈結果として、「アクション：スキャン、送信」「パラメータ：宛先＝私」を管理部３３０に渡す。

続いてＤＢ管理部３３７が、端末２のデバイスＩＤに対応するＭＦＰ１の能力や状態を、機器情報ＤＢ３６０から取得する（ステップＳ４０２）。

ここで、実行判定部３３５が認証設定が有効か無効かを判断する（ステップＳ４０３）。

ここで、認証設定が無効である場合、通知部３３６が入力不足フィードバック情報を生成し、操作音声変換部３１０（出力部３１４）を介して端末２にフィードバック情報（「送信先を特定できませんでした。どなた宛ですか？」の音声データ）を送信する（ステップＳ４０４−１）。そして、端末２（フィードバック部２１３）が「送信先を特定できませんでした。どなた宛ですか？」との音声出力を行う（ステップＳ４０４−２）。

ユーザが、この問合せに対して「太郎」と発話すると、ユーザが発話した音声は、端末２（取得部２１１）により音声データとして取得される（ステップＳ４０５−１）。端末２（通信制御部２１２）は、この「太郎」の音声データをクラウド３に送信する（ステップＳ４０５−２）。この送信により、クラウド３では、実行判定部３３５による必須パラメータの充足判断によりパラメータ不足がないと判断されて、通知部３３６が操作音声変換部３１０（出力部３１４）を介して端末２に「太郎さま宛に送信します」の音声データを送信する（ステップＳ４０６−１）。そして、端末２（フィードバック部２１３）が「太郎さま宛に送信します」との音声出力を行う（ステップＳ４０６−２）。

クラウドサービス３００では、管理部３３０（実行指示部３３３）がジョブの実行命令をＭＦＰ１に送信することによりジョブの実行を指示する（ステップＳ４０８）。

この指示により、ＭＦＰ１は、スキャンを実行し（ステップＳ５３２）、スキャン画像を太郎の宛先に送信する（ステップＳ５３３）。つまり、ＭＦＰ１のＨＤＤ１３などに記憶された宛先情報の中からユーザ名と紐づく宛先情報を検索し、検索した宛先情報に基づいてスキャン画像を送信する。

なお、ステップＳ４０３において認証設定が有効であると判断された場合には、通知部３３６が操作音声変換部３１０（出力部３１４）を介して端末２に「あなた宛に送信します」の音声データを送信する（ステップＳ４０７−１）。そして、端末２（フィードバック部２１３）が「あなた宛に送信します」との音声出力を行う（ステップＳ４０７−２）。

クラウドサービス３００では、管理部３３０（実行指示部３３３）がジョブの実行命令をＭＦＰ１に送信することによりジョブの実行を指示する（ステップＳ４０８）。この場合は、ステップＳ５１２（図１７参照）でＭＦＰ１がクラウド３にＭＦＰ１の状態を示す情報として送信したログイン情報（「認証状態：ログイン」と「ユーザ：太郎」）に基づいて宛先に「太郎」を設定してジョブの実行を指示する。

この指示により、ＭＦＰ１は、スキャンを実行し（ステップＳ５３２）、スキャン画像を太郎の宛先に送信する（ステップＳ５３３）。

なお、この例では、認証設定が無効で且つ送信先（宛先）が特定できない場合において、クラウド３から端末２のユーザに対して送信先を問い合わせるステップ（ステップＳ４０４−１、ステップＳ４０４−２）を含めたが、送信先の問い合わせではなく、クラウド３側に警告手段を設け、端末２に警告情報例えば警告音を鳴らす信号や警告を知らせるデータなどを送信してもよい。この場合、ユーザがＭＦＰ１の認証設定が「無効」であることに気付くことができ、ＭＦＰ１からクラウド３に認証情報の設定を「有効」に設定し直すことができる。このように「有効」に切り替えられることにより、クラウド３側で、記憶されているユーザ名「太郎」を送信先に使用することができる。

（ＭＦＰの操作画面）
図２０は、ＭＦＰの操作画面の一例を示す図である。図２０には、プレビュー対象選択リスト画面の一例を示している。ユーザが端末２（スマートスピーカ）と対話形式で操作指示を行い、クラウド３で、ジョブの実行するためのジョブ条件を示すパラメータが充足し、ＭＦＰ１にジョブ実行が指示されると、ＭＦＰ１の操作部１６のパネル上（表示画面上）に図２０に示すような設定を終えた画面が表示される。ここでは、設定を選択することができる選択画面になっているが、一意に設定が確定されていれば、一意の設定の設定画面が表示される。ユーザは、画面に表示された実行ボタン（この表示例では「印刷ボタン」）を押下することで、その設定で処理が実行される。

（ハブモジュール）
ハブモジュールは、変更頻度の低い画像形成装置の状態を音声操作システムに記録することで、端末が、抽象的な要求を受け付けられるかどうかを判断可能にする。ハブモジュールからの要求を受けてジョブ設定を行うアプリケーションにおいて、抽象的な要求を受け付け画像形成装置のジョブ設定として利用可能な情報に変換する。「抽象的な要求」とは「送信手段：e-mail、送信先：ログインユーザ」で、「画像形成装置のジョブ設定として利用可能な情報」とは「xxxxx@gmail.com」といったログインユーザのe-mailアドレスのことを指す。

（実施の形態の効果）
以上の説明から明らかなように、実施の形態に係る音声操作システムは、端末２に、プラットフォームアプリケーションプログラムとなる操作処理プログラムをインストールし、このアプリがクラウド３との通信を行う。ユーザが端末２に設けられているマイクロホン部２９に向かって発話すると、クラウド３がユーザの発話内容を分析し、ユーザから指示された動作を行うようにＭＦＰ１を操作する（音声入力操作）。

これにより、複雑な操作を音声で命令することで、タッチパネル２７等のＧＵＩ（Graphical User Interface）による操作を不要とすることができるため、操作に慣れているユーザであっても、さらに迅速かつ簡単な入力操作を可能とすることができる。また、高齢者または操作に不慣れなユーザであっても、対話による操作サポートにより、例えば複雑なネットワーク設定、高度なジョブの設定または新規アプリの導入等の、ユーザが希望する操作を迅速かつ簡単に実行可能とすることができる。

また、ユーザが発話した内容のテキストに基づいて、ユーザの意図を解釈しているため、ユーザの発話に基づいた処理内容をＡＩアシスタントが判断できる。

また、「管理方式」に示したように、「私」などのユーザ特定情報をＭＦＰ１にログイン中のユーザの情報に変換するため、ユーザは、日常的に使用される平易な言葉で端末に操作を指示してもユーザ本人が誰なのか確定される。従って、ユーザは、ユーザ本人を宛先などに指定する場合に端末にユーザ本人が誰なのかをいちいち指定する必要がなくなり、直感的に指示することができ、ユーザの利便性が向上する。更に、クラウド３では、ＭＦＰ１の能力や状態に応じて端末２側のユーザが指示する操作を実行するため、ＭＦＰ１からクラウド３にデバイスの能力や状態を通知する必要がある。しかし、本実施の形態では、「管理方式」に示すように通知する情報を必要最低限に抑えたり、あるいは通知する回数を減らしたりすることができる。このため、通知する回数やデータサイズによって通信コストが増大するのを抑制することができる。ＭＦＰ１の状態を変化があるたびにクラウドに記録するようなことをすると、莫大な通信コストがかかることがわかっている。そのため、クラウド側で利用する必要のある情報は送信しなければならないが、そのような情報を１日に１回程度送信するなどして、それ以外の通信の頻度を抑える。これにより、通信量を大幅に抑えることが可能になる。

最後に、上述の実施の形態は、一例として提示したものであり、本発明の範囲を限定することは意図していない。この新規な実施の形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことも可能である。

このような各実施の形態および各実施の形態の変形は、発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１ＭＦＰ
２端末
３クラウド
３ａクラウドサービス装置
３００クラウドサービス
３１０操作音声変換部
３２０音声アシスタント部
３３０管理部
３４０管理ＤＢ
３５０紐づけ用ＤＢ
３６０機器情報ＤＢ

特開２００３−０５１８８７号公報

Claims

通信ネットワークによって接続可能な、端末、サーバ装置、および情報処理装置を含む情報処理システムであって、
前記サーバ装置は、
前記情報処理装置から送信されるログイン中のユーザの情報を記憶する記憶手段と、
前記端末から音声入力された音声情報を取得する取得手段と、
前記取得手段が取得した音声情報に基づいて前記情報処理装置にユーザ要求を指示する指示手段と、
前記ユーザ要求に含まれるユーザ特定情報を、前記記憶手段に記憶されている前記ユーザの情報に変換する変換手段と、
を有し、
前記情報処理装置は、
ユーザからログイン情報の入力を受け付ける受付手段と、
ログイン中のユーザの情報を前記サーバ装置に送信する送信手段と、
前記ユーザ要求を実行する実行手段と、
を有することを特徴とする情報処理システム。
前記情報処理装置は、
前記サーバ装置にログイン情報の有効または無効を設定する設定手段をさらに有し、
前記サーバ装置は、
前記ログイン情報が無効な場合、前記変換手段により、前記ユーザ要求に含まれるユーザ特定情報を、前記端末から音声入力により取得したユーザの情報に変換する、
ことを特徴とする請求項１に記載の情報処理システム。
前記情報処理装置は、
前記サーバ装置にログイン情報の有効または無効を設定する設定手段をさらに有し、
前記サーバ装置は、
前記ログイン情報が無効で且つ前記ユーザ要求にユーザ特定情報が含まれる場合に、前記端末に警告情報を送信する警告手段を有する、
ことを特徴とする請求項１に記載の情報処理システム。
通信ネットワークによって接続可能な、端末、サーバ装置、および情報処理装置を含む情報処理システムであって、
前記サーバ装置は、
前記端末から音声入力された音声情報を取得する取得手段と、
前記取得手段が取得した音声情報に基づいて前記情報処理装置にユーザ要求を指示する指示手段と、
を有し、
前記情報処理装置は、
ユーザからログイン情報の入力を受け付ける受付手段と、
前記ユーザ要求に含まれるユーザ特定情報を、前記受付手段により受け付けられたログイン中のユーザの情報に変換する変換手段と、
前記ユーザ要求を実行する実行手段と、
を有することを特徴とする情報処理システム。
前記情報処理装置は、
ユーザの宛先情報を記憶する記憶手段をさらに有し、
前記ユーザ要求にユーザの宛先への送信が含まれている場合に、
前記実行手段は、前記記憶手段の宛先情報を使用して前記ユーザの宛先への送信の設定を行う、
ことを特徴とする請求項１乃至４のうちの何れか一項に記載の情報処理システム。
前記サーバ装置は、
前記端末から音声入力された音声情報を取得する取得手段と、
前記取得手段が取得した音声情報をテキスト情報に変換するテキスト変換手段と、
前記テキスト情報からユーザ要求を解釈する解釈手段と、
前記ユーザ要求に応じて前記端末に対して音声情報を通知する通知手段と、
前記情報処理装置に対して前記ユーザ要求を指示する指示手段と、
を含むことを特徴とする請求項１乃至５のうちの何れか一項に記載の情報処理システム。
前記ユーザ特定情報は、前記端末又は前記情報処理装置のユーザを指定する情報であることを特徴とする請求項１乃至６のうちの何れか一項に記載の情報処理システム。
外部装置から送信されるログイン中のユーザの情報を記憶する記憶手段と、
端末から受信した音声情報に基づいて前記外部装置にユーザ要求を指示する指示手段と、
前記ユーザ要求に含まれるユーザ特定情報を、前記記憶手段に記憶されている前記ログイン中のユーザの情報に変換する変換手段と、
を有することを特徴とする情報処理装置。
端末に対して音声指示されたユーザ要求をサーバ装置を介して受信する情報処理装置であって、
ユーザからログイン情報の入力を受け付ける受付手段と、
前記サーバ装置から受信した前記ユーザ要求に含まれるユーザ特定情報を、前記受付手段が受け付けたログイン中のユーザの情報に変換する変換手段と、
変換後のユーザ要求を実行する実行手段と、
を有することを特徴とする情報処理装置。
通信ネットワークによって接続可能な、端末、サーバ装置、および情報処理装置を含む情報処理システムにおいてユーザの特定情報を変換する方法あって、
前記サーバ装置が、前記情報処理装置にログイン中のユーザの情報を記憶部に記憶するステップと、
前記端末が、ユーザの音声指示を音声入力するステップと、
前記サーバ装置が、前記端末から音声入力された音声情報を取得するステップと、
前記サーバ装置が、前記音声情報に基づいてユーザ要求を充足させるステップと、
前記サーバ装置が、前記ユーザ要求に含まれるユーザ特定情報を、前記記憶部の前記ログイン中のユーザの情報に変換するステップと、
前記サーバ装置が、前記ユーザ要求を、前記ユーザ特定情報を変換したユーザ要求で前記情報処理装置に指示するステップと、
前記情報処理装置が、前記サーバ装置に指示されたユーザ要求を実行するステップと、
を含む方法。