JP2021082871A

JP2021082871A - 音声制御システム、音声制御方法、画像処理装置、音声制御装置及びプログラム

Info

Publication number: JP2021082871A
Application number: JP2019206353A
Authority: JP
Inventors: 高橋　徹; Toru Takahashi; 徹高橋; 武士松村; Takeshi Matsumura; 佑治名屋; Yuji Naya
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2021-05-27
Also published as: US20210151053A1; US11475892B2

Abstract

【課題】多機能化した機器の設定を音声ＵＩを活用して行う際のユーザの負担を軽減すること。【解決手段】音声を取得するマイクロフォンと、音声を出力するスピーカと、画像処理ユニットと、前記画像処理ユニットの設定を制御する制御手段と、を備え、前記制御手段は、前記マイクロフォンにより取得されるユーザの入力音声により表された１つ以上の設定項目であって、前記画像処理ユニットに設定されるべき設定項目を特定し、特定した前記１つ以上の設定項目が読上条件を満たすか否かに依存して、前記１つ以上の設定項目を読上げる第１の応答音声、又は前記１つ以上の設定項目のうちの少なくとも１つを読上げない第２の応答音声を前記スピーカから出力させる、音声制御システムが提供される。【選択図】図１５

Description

本開示は、音声制御システム、音声制御方法、画像処理装置、音声制御装置及びプログラムに関する。

シートに画像を形成する画像形成装置、及び原稿を読取る画像読取装置などの機器は、ユーザインタフェースを介して検知されるユーザ入力に従って、ジョブを実行する。それにより、ユーザが意図した通りの機器の動作が実現される。しかし、取扱可能な画質の向上と共に、機器の多機能化が年々進展しており、それにつれてジョブの設定項目が増加の一途を辿っている。設定項目の増加は、機器の設定方法に対するユーザの理解及びユーザの作業を煩雑化させ、ユーザに過剰な負担を強いる。

ユーザにとって少ない負担でシステムと対話するための技術として、音声認識に基づくユーザインタフェース（以下、音声ＵＩともいう）が知られている。例えば、特許文献１は、自然言語で与えられるユーザ入力からユーザの意図を解釈することにより、ユーザとの対話を通じて例えばレストラン予約等のサービスを提供することのできる、音声ＵＩを開示している。

特開２０１４−２２２５１３号公報

しかしながら、音声ＵＩでは、音声認識が常に正確に行われるとは限らないため、認識誤りに起因する誤動作を防止するための対策を講じることを要する。特許文献１では、予約すべきレストランの場所や料理の種類についての音声認識の結果をユーザへの応答に含めることで、誤動作の防止が図られている。しかし、上述したように多機能化した機器において、認識した設定項目の全てを音声で出力したならば、応答音声が冗長となり、ユーザとの円滑な対話が損なわれる。システムからの冗長な応答は、ユーザの負担を却って増加させかねない。

そこで、本開示は、多機能化した機器の設定を音声ＵＩを活用して行う際のユーザの負担を軽減する仕組みを提供することを目的とする。

ある観点によれば、音声を取得するマイクロフォンと、音声を出力するスピーカと、画像処理ユニットと、前記画像処理ユニットの設定を制御する制御手段と、を備え、前記制御手段は、前記マイクロフォンにより取得されるユーザの入力音声により表された１つ以上の設定項目であって、前記画像処理ユニットに設定されるべき設定項目を特定し、特定した前記１つ以上の設定項目が読上条件を満たすか否かに依存して、前記１つ以上の設定項目を読上げる第１の応答音声、又は前記１つ以上の設定項目のうちの少なくとも１つを読上げない第２の応答音声を前記スピーカから出力させる、音声制御システムが提供される。対応する方法、画像処理装置、音声制御装置及びプログラムもまた提供される。

本開示によれば、多機能化した機器の設定を音声ＵＩを活用して行う際のユーザの負担を軽減することができる。

一実施形態に係る画像形成システムの構成の一例を示す概略図。一実施形態に係る音声制御装置の物理的構成の一例を示すブロック図。一実施形態に係る音声認識サーバの物理的構成の一例を示すブロック図。一実施形態に係る画像処理装置の物理的構成の一例を示すブロック図。一実施形態に係る音声制御装置の機能面の構成の一例を示すブロック図。一実施形態に係る音声認識サーバの機能面の構成の一例を示すブロック図。一実施形態に係る画像処理装置の機能面の構成の一例を示すブロック図。インテント一覧の例を示す第１の説明図。インテント一覧の例を示す第２の説明図。エンティティ一覧の例を示す第１の説明図。エンティティ一覧の例を示す第２の説明図。エンティティ一覧の例を示す第３の説明図。一実施形態に係る意図データのいくつかの例を示す説明図。一実施形態に係る音声制御処理の全体的な流れの一例を示すシーケンス図。第１の実施例に係る応答生成処理の詳細な流れの一例を示すフローチャート。第１の実施例におけるシステムとユーザとの間の対話の一例をＧＵＩのサンプルと共に示すシーケンス図。第１の実施例におけるシステムとユーザとの間の対話の他の例をＧＵＩのサンプルと共に示すシーケンス図。第２の実施例に係る応答生成処理の詳細な流れの一例を示すフローチャート。第２の実施例におけるシステムとユーザとの間の対話の一例をＧＵＩのサンプルと共に示すシーケンス図。第２の実施例におけるシステムとユーザとの間の対話の他の例をＧＵＩのサンプルと共に示すシーケンス図。

以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

＜＜１．システムの構成例＞＞
＜１−１．システムの全体像＞
図１は、一実施形態に係る音声制御システム１０の構成の一例を示す概略図である。図１を参照すると、音声制御システム１０は、クライアント端末５０、音声制御装置１００、音声認識サーバ２００及び画像処理装置３００を含む。図１には、これらの装置及びサーバが１つずつ存在する例を示しているが、音声制御システム１０は、より多くの装置及びサーバを含んでもよい。

ネットワーク２０は、クライアント端末５０、音声制御装置１００、音声認識サーバ２００及び画像処理装置３００を相互に接続する通信ネットワークである。ネットワーク２０は、有線ネットワークであっても無線ネットワークであってもよい。ネットワーク２０は、例えばインターネット、ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）若しくはセルラーネットワーク、又はそれらの任意の組合せであってよい。ネットワーク２０は、図示しないルータ、ゲートウェイ、プロキシサーバ又は無線ＬＡＮアクセスポイントといった１つ以上のネットワーク機器を含んでもよい。

クライアント端末５０は、音声制御システム１０のユーザにより使用される端末装置である。クライアント端末５０は、例えばＰＣ（Personal Computer）若しくはスマートフォンのような汎用的な情報端末であってもよく、又は特定の業務目的に特化した専用端末であってもよい。クライアント端末５０は、例えば、電子データを画像処理装置３００に印刷させるための印刷ジョブの発行、又は画像処理装置３００において原稿を読取ることにより生成される読取画像データの受信のために使用されてよい。

音声制御装置１００は、ユーザの入力音声の取得と、音声制御システム１０からユーザへの応答音声の出力とを制御する装置である。音声制御装置１００は、例えばスマートスピーカのような、音声の入出力のための独立した装置であってもよい。また、音声制御装置１００は、音声の入出力のためのエージェント機能を搭載した、クライアント端末５０と同様の情報端末であってもよい。また、本明細書で説明する音声制御装置１００の機能は、画像処理装置３００に統合されてもよい。音声制御装置１００は、音声対話の開始が指示されると、マイクロフォンを介してユーザの入力音声を取得して入力音声データを生成し、入力音声データを（必要に応じて符号化した後）音声認識サーバ２００へ送信する。また、音声制御装置１００は、音声認識サーバ２００から受信される応答音声データを（必要に応じて復号した後）再生して、応答音声をスピーカを介して出力する。

音声認識サーバ２００は、入力音声についての音声認識、及び応答音声の合成を行うサーバ装置である。音声認識サーバ２００は、コンピュータ又はワークステーションといった情報処理装置であってよい。音声認識サーバ２００は、音声制御装置１００から受信される音声データにより表される入力音声を認識して、ユーザの意図を解釈する。そして、音声認識サーバ２００は、ユーザが画像処理装置３００の操作を意図していると判定した場合に、ユーザの意図を表すデータ（以下、意図データという）を画像処理装置３００へ送信する。また、音声認識サーバ２００は、画像処理装置３００から受信される応答用テキストデータに基づいて応答音声データを合成し、応答音声データを音声制御装置１００へ送信する。

画像処理装置３００は、例えば、画像形成（印刷）機能及び画像読取（スキャン）機能のうちの少なくとも一方の機能を有する装置である。画像処理装置３００の例は、コピー機、デジタルスキャナ、プリンタ、ファクシミリ送信機、及びこれら装置のうちの２つ以上の機能を組合せた複合機を含み得る。画像処理装置３００の画像形成機能は、例えばクライアント端末５０から受信される印刷ジョブに従って、シートに画像を形成する。原稿読取機能は、例えば原稿台に載置され又はＡＤＦ（Auto-Document Feeder）にセットされる原稿を読取って画像データを生成し、生成した画像データをクライアント端末５０へ送信する。なお、画像処理装置３００は、上述した例に限定されず、例えば撮像装置のような、画像を処理する任意の種類の装置であってよい。

＜１−２．各装置の構成＞
（１）音声制御装置
図２は、本実施形態に係る音声制御装置１００の物理的構成の一例を示すブロック図である。図２を参照すると、音声制御装置１００は、コントローラ１１０、マイクロフォン１６０、スピーカ１７０及びＬＥＤ１８０を備える。コントローラ１１０は、ＣＰＵ１１１、ＲＡＭ１１２、ＲＯＭ１１３、二次記憶装置１１４、ネットワークＩ／Ｆ１１５、マイクロフォンＩ／Ｆ１１６、オーディオコントローラ１１７及び報知コントローラ１１８を含む。内部バス１２０は、ＣＰＵ１１１、ＲＡＭ１１２、ＲＯＭ１１３、二次記憶装置１１４、ネットワークＩ／Ｆ１１５、マイクロフォンＩ／Ｆ１１６、オーディオコントローラ１１７及び報知コントローラ１１８を相互に接続する信号線である。

ＣＰＵ（Central Processing Unit）１１１は、音声制御装置１００の動作の全般を制御するプロセッサである。ＣＰＵ１１１の制御機能は、例えば、ＲＯＭ１１３又は二次記憶装置１１４に予め記憶され、ＲＡＭ１１２にロードされるコンピュータプログラムを実行することにより実現され得る。コンピュータプログラムは、音声制御装置１００の外部からダウンロードされてもよい。ＲＡＭ（Random Access Memory）１１２は、揮発性のメモリであり、ＣＰＵ１１１に作業用の一時的な記憶領域を提供する。ＲＯＭ（Read Only Memory）１１３は、不揮発性のメモリであり、例えば音声制御装置１００を起動させるためのブートプログラムを記憶する。二次記憶装置１１４は、ＲＡＭ１１２及びＲＯＭ１１３と比較して大規模な記憶領域を提供する、補助的な記憶装置である。二次記憶装置１１４は、例えばＳＤカードのような、取外し可能な記憶媒体を含んでもよい。ネットワークインタフェース（Ｉ／Ｆ）１１５は、音声制御装置１００による他の装置との通信のための通信インタフェースである。ネットワークＩ／Ｆ１１５は、例えばＷｉ−Ｆｉ若しくはＢｌｕｅｔｏｏｔｈ（登録商標）といった無線通信規格に従ってデータを無線で送受信してもよく、又はイーサネット（登録商標）のような有線通信規格に従ってデータを有線で送受信してもよい。無線通信の場合に、ネットワークＩ／Ｆ１１５は、アンテナ、ＲＦ（Radio Frequency）回路及びベースバンド回路を含んでもよい。

マイクロフォンＩ／Ｆ１１６は、コントローラ１１０をマイクロフォン１６０へ接続するための接続インタフェースである。マイクロフォン１６０は、音声制御装置１００が設置されている環境内の音声を取得するための機器である。マイクロフォン１６０は、例えば、ＥＣＭ（Electret Condenser Microphones）又はＭＥＭＳ（Micro-Electrical-Mechanical Systems）マイクロフォンであってもよい。ＭＥＭＳマイクロフォンは、信頼性が高く小型であることから、例えばスマートフォンのような端末装置において広く採用されている。図２には音声制御装置１００が１つのマイクロフォン１６０を有する例を示しているが、音声制御装置１００は、例えば、入力音声の到来方向を推定するために異なる位置に３つ以上のマイクロフォンを有していてもよい。本実施形態は、マイクロフォンの特定の種類及び数には限定されない。マイクロフォン１６０は、例えば、ユーザにより発声された入力音声を取得して、取得した音声を表す音声信号をマイクロフォンＩ／Ｆ１１６を介してコントローラ１１０へ出力する。マイクロフォンＩ／Ｆ１１６は、音声信号を符号化して入力音声データを生成し、ＣＰＵ１１１による制御に従って、入力音声データをＲＡＭ１１２に書込む。

オーディオコントローラ１１７は、スピーカ１７０へ接続され、音声制御装置１００によるスピーカ１７０を介した音声の出力を制御するためのコントローラである。スピーカ１７０は、音声を出力する（又は音声を再生する）ための機器である。図２には音声制御装置１００が１つのスピーカ１７０を有する例を示しているが、音声制御装置１００は、例えば、指向性のある音声を出力するために２つ以上のスピーカを有していてもよい。本実施形態は、スピーカの特定の種類及び数には限定されない。オーディオコントローラ１１７は、ＣＰＵ１１１による制御に従って、出力音声データ（例えば、応答音声データ）を復号してアナログ形式の音声信号を生成し、スピーカ１７０へ音声信号を出力する。スピーカ１７０は、入力された音声信号に基づいて、環境内へ（例えば、ユーザへ）音声を出力する。なお、本明細書において、音声との用語は、発声され又は合成された音声のみならず、より単純な音をも含むものとする。

報知コントローラ１１８は、ＬＥＤ１８０へ接続され、音声制御装置１００によるＬＥＤ１８０を介したステータスの報知を制御するためのコントローラである。ＬＥＤ（Light-Emitting Diode）１８０は、光を発する素子であり、発光色及び点灯のパターン（例えば、点灯、点滅又は消灯）によって音声制御装置１００のステータスを表現する。報知コントローラ１１８は、ＣＰＵ１１１による制御に従って、例えば待機中、音声入力中及び応答中といった音声制御装置１００のステータスを、ＬＥＤ１８０を用いてユーザへ報知する。なお、音声制御装置１００は、ステータスの報知のために、ＬＥＤ１８０の代わりに、例えば文字、図形及び画像を表示可能なディスプレイを有していてもよい。

（２）音声認識サーバ
図３は、本実施形態に係る音声認識サーバ２００の物理的構成の一例を示すブロック図である。図３を参照すると、音声認識サーバ２００は、ＣＰＵ２１１、ＲＡＭ２１２、ＲＯＭ２１３、二次記憶装置２１４及びネットワークＩ／Ｆ２１５を備える。内部バス２２０は、ＣＰＵ２１１、ＲＡＭ２１２、ＲＯＭ２１３、二次記憶装置２１４及びネットワークＩ／Ｆ２１５を相互に接続する信号線である。

ＣＰＵ２１１は、音声認識サーバ２００の動作の全般を制御するプロセッサである。ＣＰＵ２１１の制御機能は、例えば、ＲＯＭ２１３又は二次記憶装置２１４に予め記憶され、ＲＡＭ２１２にロードされるコンピュータプログラムを実行することにより実現され得る。コンピュータプログラムは、音声認識サーバ２００の外部からダウンロードされてもよい。ＲＡＭ２１２は、揮発性のメモリであり、ＣＰＵ２１１に作業用の一時的な記憶領域を提供する。ＲＯＭ２１３は、不揮発性のメモリであり、例えば音声認識サーバ２００を起動させるためのブートプログラムを記憶する。二次記憶装置２１４は、ＲＡＭ２１２及びＲＯＭ２１３と比較して大規模な記憶領域を提供する、補助的な記憶装置である。二次記憶装置２１４は、例えばＨＤＤ（Hard Disk Drive）又はＳＤＤ（Solid State Drive）であってもよい。ネットワークＩ／Ｆ２１５は、音声認識サーバ２００による他の装置との通信のための通信インタフェースである。ネットワークＩ／Ｆ２１５は、データを無線で送受信してもよく又は有線で送受信してもよい。無線通信の場合に、ネットワークＩ／Ｆ２１５は、アンテナ、ＲＦ回路及びベースバンド回路を含んでもよい。

（３）画像処理装置
図４は、本実施形態に係る画像処理装置３００の物理的構成の一例を示すブロック図である。図４を参照すると、画像処理装置３００は、コントローラ３１０、操作パネル３６０、スキャナ３８０及びプリンタ３９０を備える。コントローラ３１０は、ＣＰＵ３１１、ＲＡＭ３１２、ＲＯＭ３１３、二次記憶装置３１４、ネットワークＩ／Ｆ３１５、表示コントローラ３１６、操作Ｉ／Ｆ３１７、スキャナＩ／Ｆ３１８及びプリンタＩ／Ｆ３１９を含む。内部バス３２０は、ＣＰＵ３１１、ＲＡＭ３１２、ＲＯＭ３１３、二次記憶装置３１４、ネットワークＩ／Ｆ３１５、表示コントローラ３１６、操作Ｉ／Ｆ３１７、スキャナＩ／Ｆ３１８及びプリンタＩ／Ｆ３１９を相互に接続する信号線である。

ＣＰＵ３１１は、画像処理装置３００の動作の全般を制御するプロセッサである。ＣＰＵ３１１の制御機能は、例えば、ＲＯＭ３１３又は二次記憶装置３１４に予め記憶され、ＲＡＭ３１２にロードされるコンピュータプログラムを実行することにより実現され得る。コンピュータプログラムは、画像処理装置３００の外部からダウンロードされてもよい。ＲＡＭ３１２は、揮発性のメモリであり、ＣＰＵ３１１に作業用の一時的な記憶領域を提供する。ＲＯＭ３１３は、不揮発性のメモリであり、例えば画像処理装置３００を起動させるためのブートプログラムを記憶する。二次記憶装置３１４は、ＲＡＭ３１２及びＲＯＭ３１３と比較して大規模な記憶領域を提供する、補助的な記憶装置である。二次記憶装置３１４は、例えばＨＤＤ又はＳＤＤであってもよい。ネットワークＩ／Ｆ３１５は、画像処理装置３００による他の装置との通信のための通信インタフェースである。ネットワークＩ／Ｆ３１５は、データを無線で送受信してもよく又は有線で送受信してもよい。無線通信の場合に、ネットワークＩ／Ｆ３１５は、アンテナ、ＲＦ回路及びベースバンド回路を含んでもよい。

表示コントローラ３１６及び操作Ｉ／Ｆ３１７は、操作パネル３６０へ接続される。表示コントローラ３１６は、ＣＰＵ３１１による制御に従って、操作パネル３６０にユーザインタフェース（ＵＩ）画像を表示させる。操作パネル３６０は、画像を表示可能な表示デバイスである。操作パネル３６０は、例えば、ユーザによるタッチ入力を受付けるタッチパネルであってもよい。その代わりに、操作パネル３６０は、例えばキーパッド及びボタン等の入力デバイスを伴う、例えばＬＣＤ（Liquid Crystal Display）のようなディスプレイであってもよい。操作パネル３６０は、受付けたユーザ入力の内容を示す操作信号を、操作Ｉ／Ｆ３１７を介してコントローラ３１０へ出力する。操作Ｉ／Ｆ３１７は、ＣＰＵ３１１による制御に従って、操作信号により示されるユーザ入力の内容をＲＡＭ３１２へ書込む。

スキャナＩ／Ｆ３１８は、コントローラ３１０をスキャナ３８０へ接続するための接続インタフェースである。スキャナ３８０は、原稿を読取って、読取画像の画像データを生成する画像処理ユニットである。即ち、スキャナ３８０は、画像処理装置３００の原稿読取機能を提供する。スキャナ３８０は、原稿を載置するための原稿台及び原稿を自動的に搬送するＡＤＦのうちの一方又は双方（図示せず）を有してよい。スキャナＩ／Ｆ３１８は、ＣＰＵ３１１による制御に従って、原稿の読取りを指示する制御コマンド（ジョブともいう）をスキャナ３８０へ送信し、スキャナ３８０から受信される画像データをＲＡＭ３１２へ書込む。

プリンタＩ／Ｆ３１９は、コントローラ３１０をプリンタ３９０へ接続するための接続インタフェースである。プリンタ３９０は、コントローラ３１０から受信される画像データに基づいてシートに画像を形成する画像処理ユニットである。即ち、プリンタ３９０は、画像処理装置３００の画像形成機能を提供する。プリンタＩ／Ｆ３１９は、ＣＰＵ３１１による制御に従って、画像の形成を指示する制御コマンドをプリンタ３９０へ送信し、プリンタ３９０から受信される画像形成動作の結果をＲＡＭ３１２へ書込む。

＜１−３．各装置の機能＞
（１）音声制御装置
図５は、本実施形態に係る音声制御装置１００の機能面の構成の一例を示すブロック図である。図５を参照すると、音声制御装置１００は、通信部１２１、データ管理部１２２、音声取得部１２３、開始検知部１２５、終了判定部１２６、音声再生部１２７、報知部１２８及び音声制御部１３０を備える。これら機能ブロックの各々は、例えば、音声制御装置１００のＣＰＵ１１１が他のハードウェアと連携しながら対応するコンピュータプログラムを実行することにより実現され得る。

通信部１２１は、ネットワークＩ／Ｆ１１５を介して、ネットワーク２０に接続される他の装置へデータを送信し、及び他の装置からデータを受信する。例えば、通信部１２１は、後に説明する入力音声データを音声認識サーバ２００へ送信する。また、通信部１２１は、音声認識サーバ２００から応答音声データを受信する。

データ管理部１２２は、音声制御装置１００による音声の入出力の制御のために必要とされるデータを二次記憶装置１１４を用いて管理する。本明細書において、データの管理とは、例えば所定の記憶領域へのデータの保存、データの更新、データへのアクセスの制限及びデータの読出しを含み得る。例えば、データ管理部１２２は、音声認識サーバ２００との通信に要する認証情報を二次記憶装置１１４の所定の記憶領域において管理する。

音声取得部１２３は、マイクロフォン１６０により取得される音声のアナログ音声信号を音声データへ変換し、音声データをＲＡＭ１１２において一時的に保持する。音声取得部１２３は、例えば、音声制御装置１００及び音声認識サーバ２００の双方によりサポートされる音声ファイルフォーマット（例えば、ＭＰ３フォーマット）に従って音声データを整形してもよい。

開始検知部１２５は、音声制御装置１００に対するユーザ入力を監視し、検知されるユーザ入力に基づいて、音声制御装置１００によるユーザとの音声ＵＩでの対話を開始すべきかを判定する。例えば、開始検知部１２５は、音声取得部１２３により取得される音声データに基づいて、ユーザが対話開始のためのウェイクワードを発声したと認識された場合に、ユーザとの対話を開始すべきであると判定してもよい。また、開始検知部１２５は、例えば、音声制御装置１００の入力デバイス（図示せず）に対してユーザが所定の操作を行った（例えば、ボタンを押下した）ことが検知された場合に、ユーザとの対話を開始すべきであると判定してもよい。開始検知部１２５は、ユーザとの対話を開始すべきであると判定すると、制御開始信号を音声制御部１３０へ出力する。上記ウェイクワードの文字列又は音声波形は、予め決定され、音声制御装置１００に登録される（データ管理部１２２によりデータとして管理される）。ユーザは、まずウェイクワードを発声し、続いて画像処理装置３００の動作を所望の設定内容と共に発声することにより、画像処理装置３００を自身の意図の通りに動作させ得る。

終了判定部１２６は、ユーザからの個々の音声入力の終了タイミングを、音声取得部１２３により取得される音声データに基づいて判定する。一例として、終了判定部１２６は、入力される音声信号の特性を既知の音声の特性と比較して、少なくともある期間にわたりユーザ又は人間が発声していないと判定した場合に、個々の音声入力が終了した（発声が途切れた）と判定し得る。ここでの既知の音声の特性とは、音声制御システム１０を利用するユーザそれぞれについて予め登録されるユーザ固有の特性であってもよく、又は標準的な人間の（即ち、複数のユーザに共通の）音声の特性であってもよい。他の例として、終了判定部１２６は、音声取得部１２３により取得される音声データに基づいて、ユーザが特定のキーワードを発声したと認識された場合に、個々の音声入力が終了したと判定してもよい。また別の例として、終了判定は、音声データに基づいて認識されるユーザの入力音声の意味又は文脈を解析することにより行われてもよい。終了判定部１２６は、個々の音声入力が終了したと判定した場合、発声終了信号を音声制御部１３０へ出力する。なお、こうした終了判定は、終了判定部１２６の代わりに音声認識サーバ２００により行われてもよい。これ以降の説明において、音声取得部１２３により取得される音声にユーザの入力音声が含まれていない期間を空白期間と称する。

音声再生部１２７は、音声制御部１３０による制御に従って、通信部１２１により受信される音声合成データにより表される出力音声を、オーディオコントローラ１１７及びスピーカ１７０を用いて再生する。

報知部１２８は、音声制御部１３０による制御に従って、報知コントローラ１１８及びＬＥＤ１８０を用いて、ユーザへの様々な報知を行う。例えば、報知部１２８は、音声対話セッションが継続している期間中、個々の入力音声が検知されている期間中、又は応答音声が出力されている期間中に、ＬＥＤ１８０を点灯させ、点滅させ又は消灯させてもよい。また、報知部１２８は、音声対話セッションの開始及び終了といったイベントの発生をＬＥＤ１８０を用いてユーザへ報知してもよい。なお、ユーザへの報知は、効果音の出力又はバイブレーションといった他の手段でなされてもよい。

音声制御部１３０は、音声認識サーバ２００と連携して、ユーザの入力音声の取得と、音声制御装置１００による応答音声の出力とを制御する。例えば、音声制御部１３０は、音声取得部１２３により取得される音声データを通信部１２１を介して音声認識サーバ２００へ送信して、ユーザの入力音声についての認識を音声認識サーバ２００へ要求する。また、音声制御部１３０は、上記要求への応答として音声認識サーバ２００から通信部１２１を介して応答音声データを受信し、受信した応答音声データに基づいて応答音声を音声再生部１２７に再生させる。

ここで、音声制御部１３０による制御の下での、ユーザと音声制御装置１００との間の音声対話の様子について音声の例を挙げて説明する。音声制御部１３０による制御は、開始検知部１２５からの制御開始信号の入力に応じて開始される。音声制御部１３０は、例えば、終了判定部１２６から発声終了信号が入力されるまでに音声取得部１２３により取得される一連の音声の音声データを、ひとまとまりの入力音声データとして扱う。例えば、ユーザが、音声制御装置１００に向けてウェイクワードを発声し、続いて「２部フルカラーでコピー」と発声したとする。ウェイクワードは、開始検知部１２５により認識され、開始検知部１２５から音声制御部１３０へ制御開始信号が出力される。音声制御部１３０は、制御開始信号の入力に応じて、音声取得部１２３に入力音声の取得を開始させる。音声取得部１２３は、ウェイクワードに続いて発声された「２部フルカラーでコピー」という入力音声を取得する。終了判定部１２６は、「２部フルカラーでコピー」の後の空白期間を認識して、発声終了信号を音声制御部１３０へ出力する。音声制御部１３０は、発声終了信号の入力に応じて、音声取得部１２３に入力音声の取得を終了させる。音声取得部１２３がひとまとまりの入力音声を取得している期間中、報知部１２８は、例えばＬＥＤ１８０を点灯させて、音声入力中というステータスをユーザへ報知する。

次いで、音声制御部１３０は、一時的にＲＡＭ１１２により保持されていた「２部フルカラーでコピー」という入力音声データを、通信部１２１を介して音声認識サーバ２００へ送信し、音声認識サーバ２００からの応答に向けて待機する。音声認識サーバ２００から通信部１２１を介して受信される応答は、後述する音声認識サーバ２００により生成される応答音声データを含み得る。応答音声データは、例えば、「原稿をセットして下さい」という応答音声を表すデータである。音声制御部１３０は、応答音声データを音声再生部１２７へ出力し、応答音声を音声再生部１２７に再生させる。その結果、スピーカ１７０から上記応答音声が出力される。音声再生部１２７が応答音声を再生している期間中、報知部１２８は、例えばＬＥＤ１８０を点滅させて、応答中というステータスをユーザへ報知する。

音声認識サーバ２００からの上記応答は、音声対話セッションを継続するか又は終了するかを示すセッション制御情報を含み得る。音声制御部１３０は、例えば、セッション制御情報が音声対話セッションを継続すべきことを示す場合、応答音声の再生の終了後に、音声取得部１２３に入力音声の取得を再び開始させる。この場合、ユーザは、再度ウェイクワードを発声しなくとも、次の音声入力を行うことができる。それにより、ユーザと音声制御装置１００との間の自然な音声対話が促進され、ユーザは一連の対話を通じて画像処理装置３００の所望の動作のための設定及び指示をシステムに伝えることができる。セッション制御情報が音声対話セッションを終了すべきことを示す場合、音声制御部１３０は、例えば報知部１２８にＬＥＤ１８０を消灯させ、待機中のステータスへ遷移する。この場合、ユーザは、新たにウェイクワードを発声することにより（又は音声制御装置１００に対し所定の操作をすることにより）、音声対話を再開することができる。

（２）音声認識サーバ
図６は、本実施形態に係る音声認識サーバ２００の機能面の構成の一例を示すブロック図である。図６を参照すると、音声認識サーバ２００は、通信部２２１、データ管理部２２２、装置管理部２２３、音声認識部２２４及び音声合成部２２５を備える。これら機能ブロックの各々は、例えば、音声認識サーバ２００のＣＰＵ２１１が他のハードウェアと連携しながら対応するコンピュータプログラムを実行することにより実現され得る。

通信部２２１は、ネットワークＩ／Ｆ２１５を介して、ネットワーク２０に接続される他の装置へデータを送信し、及び他の装置からデータを受信する。例えば、通信部２２１は、入力音声データを音声制御装置１００から受信する。また、通信部２２１は、後に説明する音声認識部２２４により生成される意図データを、画像処理装置３００へ送信する。また、通信部２２１は、画像処理装置３００から応答用テキストデータを受信する。また、通信部２２１は、音声制御装置１００へ、上述したセッション制御情報を含み得る応答音声データを送信する。

データ管理部２２２は、音声認識サーバ２００による音声の認識及び合成のために必要とされるデータを二次記憶装置２１４を用いて管理する。例えば、データ管理部２２２は、音声認識サーバ２００との通信に要する認証情報を二次記憶装置２１４の所定の記憶領域において管理する。また、データ管理部２２２は、入力音声データにより表される入力音声を、音声認識結果としてのテキストデータへ変換するための、例えば音響モデル、言語モデル及び単語辞書データを管理する。また、本実施形態において、データ管理部２２２は、音声認識結果として導出されるテキストデータから、ユーザの意図を表す意図データを生成するために使用される、後に図８〜図１３を用いて説明する意図解釈用データセットを管理する。また、データ管理部２２２は、応答用テキストデータから応答音声データを生成するための音声合成辞書データを管理する。

装置管理部２２３は、音声制御システム１０に含まれる装置の間の相互接続を管理する。例えば、装置管理部２２３は、クライアント端末５０、音声制御装置１００及び画像処理装置３００の各々の識別情報、アドレス情報及び認証情報を管理する。また、装置管理部２２３は、音声制御装置１００と画像処理装置３００との間の対応関係（例えば、１対多の関係）を、識別情報同士をマッピングする情報を保持することにより管理する。装置管理部２２３は、音声制御装置１００による音声対話の履歴及び画像処理装置３００によるジョブ実行の履歴といった履歴情報をさらに管理してもよい。加えて、装置管理部２２３は、音声制御システム１０又は個々の装置を利用することが許容されるユーザの認証情報を管理してもよい。

音声認識部２２４は、音声制御装置１００から受信される入力音声データを、公知の音声認識技術を用いて、音声認識結果としての入力テキストデータへ変換する。例えば、音声認識部２２４は、入力音声データにより表される入力音声の波形及びその他の特徴量を音響モデルと照合し、一連の音素を抽出する。また、音声認識部２２４は、単語辞書データを用いた形態素解析、構文解析、意味解析及び文脈解析を通じて、一連の音素が表すテキストを認識する。音声認識結果として導出される入力テキストデータは、このように認識され得るテキストを表す。さらに、音声認識部２２４は、入力音声がユーザのどのような意図を表現しているのかを、後に詳しく説明する意図解釈用データセットを用いて認識する。そして、音声認識部２２４は、ユーザの意図の認識結果を示す意図データを生成し、生成した意図データを通信部２２１を介して画像処理装置３００へ送信する。

音声合成部２２５は、画像処理装置３００から受信される応答用テキストデータに基づいて、応答音声を合成する。応答用テキストデータは、音声制御装置１００により読上げられるべき音声の内容をテキスト形式で表すデータである。より具体的には、音声合成部２２５は、データ管理部２２２により管理される音声合成辞書データを用いて、応答用テキストデータを音声制御装置１００により再生可能な音声データへと変換することにより、応答音声データを生成する。音声合成部２２５は、生成した応答音声データを、例えばＭＰ３フォーマットのような音声ファイルフォーマットに従って整形してもよい。

音声認識部２２４による入力テキストデータに基づくユーザの意図の認識は、意図解釈用データセットに含まれるインテント一覧及びエンティティ一覧を用いて行われる。インテント一覧は、ユーザの入力音声の内容を、画像処理装置３００により実行可能な動作を基準としていくつかの意図の類型のうちの１つに分類するために、入力テキストデータと照合されるテキストの一覧である。以下の説明において、ユーザの意図の類型の各々をインテントと称する。

図８及び図９は、インテント一覧の例を示している。インテント一覧は、インテントＩＤ（Intent ID）及び発話内容（Utternance）という２つのデータ項目を有する。インテントＩＤは、各インテントを識別するための識別子である。発話内容は、分類のために入力テキストデータと照合されるテキストのサンプルである。図８及び図９から理解されるように、インテント一覧において、１つのインテントＩＤについて複数の発話内容が定義可能である。これにより、同じ意図が異なる言い回しで表現される状況においてユーザの意図を正しい類型に分類することが可能となる。各発話内容は、図中で波括弧で囲まれたエンティティＩＤを含み得る。エンティティＩＤは、プレースホルダの役割を有し、このプレースホルダには、エンティティ一覧においてエンティティＩＤに関連付けられているいずれかの語が代入される。

図１０〜図１２は、エンティティ一覧の例を示している。エンティティ一覧は、エンティティＩＤ（Entity ID）、値ＩＤ（Value ID）、値（Value）及び同義語（Synonyms）という４つのデータ項目を有する。エンティティＩＤは、各エンティティを識別するための識別子である。値ＩＤは、各エンティティに関連付けられる語を識別するための識別子である。値は、値ＩＤにより識別される語を表す文字列である。同義語は、同じ語の言い換えを表す文字列である。このように、意味的には１つの語について表現の異なる１つ以上の同義語を定義可能とすることで、同じ動作又は同じ設定が異なる言い回しで表現される状況においてユーザの意図した指示内容を適切に解釈することが可能となる。

具体的には、音声認識部２２４は、入力テキストデータと、インテント一覧に含まれる各インテントにエンティティ一覧に含まれる各エンティティの値又は同義語を代入して得られるテキストサンプルとの間の類似度を算出する。そして、音声認識部２２４は、予め設定される閾値を上回る類似度を示すテキストサンプルに対応するインテントに、入力音声を分類する。同時に、音声認識部２２４は、そのテキストサンプルが含むエンティティのエンティティＩＤ及び値ＩＤを取得する。複数のテキストサンプルの類似度が閾値を上回る場合には、類似度の最も高い１つのテキストサンプルが選択されてもよく、又は類似度の高い順に数個のテキストサンプルが認識結果の候補として選択されてもよい。このようにして、音声認識部２２４は、入力音声により表されるユーザの意図の知識表現を獲得する。例えば、「２部フルカラーでコピー」という入力音声が得られたものとする。音声認識部２２４は、「２部フルカラーでコピー」という入力テキストデータをインテント一覧及びエンティティ一覧と照合する。この入力テキストデータは、インテントＩＤ「Copy_with_2_settings」で識別される発話内容「{NUMBER}部{ColorMode}で{CopyOperation}」に一致する。当てはまるエンティティは、それぞれ{NUMBER}＝2、{ColorMode}＝cm_00005（フルカラー）、{CopyOperation}＝copy_00000（コピー）である。よって、ユーザの意図は、インテント「Copy_with_2_settings」、第１エンティティ「2」、第２エンティティ「cm_00005」及び第３エンティティ「copy_00000」の組合せとして認識される。音声認識部２２４は、このような認識結果を記述した意図データを生成する。なお、エンティティ一覧において、「コピー」も「複写」も共にエンティティＩＤ「copy_00000」に関連付けられているため、入力音声が「２部フルカラーで複写」であったとしても同じ認識結果が獲得され得る。

図１３は、音声認識部２２４により生成され得る意図データのいくつかの例を示している。意図データは、構造化された複数のデータフィールドを含むデータである。意図データの１番目のデータフィールドは、入力音声が分類されたインテントを表し、フィールド名“Intent ID”及び区切り文字“:”に続いて、インテントＩＤが記述される。意図データの２番目のデータフィールドは、ゼロ又は１つ以上のエンティティを表し、フィールド名“Entities”及び区切り文字“:”に続いて、エンティティＩＤ及び値ＩＤのペアが列挙される。図１３の意図データ２３１は、インテント「Copy_simple」、及び１つのエンティティ{CopyOperation}＝copy_00000を含む。これは、画像処理装置３００に単にコピーを指示しようとしたユーザの意図を表す。意図データ２３２は、インテント「Copy_with_noc」、及び２つのエンティティ{NUMBER}＝2、{CopyOperation}＝copy_00000を含む。これは、画像処理装置３００に２部のコピーを指示しようとしたユーザの意図を表す。意図データ２３３は、インテント「Copy_with_4_settings」及び６つのエンティティを含む。なお、意図データの構成は、図１３に示した例には限定されない。例えば、音声認識部２２４は、意図データに認識結果の複数の候補を含めてもよい。また、音声認識部２２４は、各インテント又は各エンティティについて算出した入力とサンプルとの間の類似度を意図データに追加的に含めてもよい。

（３）画像処理装置
図７は、本実施形態に係る画像処理装置３００の機能面の構成の一例を示すブロック図である。図７を参照すると、画像処理装置３００は、通信部３２１、データ管理部３２２、表示制御部３２３、スキャナ制御部３２４、プリンタ制御部３２５及びジョブ制御部３３０を備える。これら機能ブロックの各々は、例えば、画像処理装置３００のＣＰＵ３１１が他のハードウェアと連携しながら対応するコンピュータプログラムを実行することにより実現され得る。

通信部３２１は、ネットワークＩ／Ｆ３１５を介して、ネットワーク２０に接続される他の装置へデータを送信し、及び他の装置からデータを受信する。例えば、通信部３２１は、上述した意図データを音声認識サーバ２００から受信する。また、通信部３２１は、音声認識サーバ２００へ応答用テキストデータを送信する。また、通信部３２１は、クライアント端末５０からジョブの実行を指示する指示信号を受信する。また、通信部３２１は、クライアント端末５０へ読取画像データを送信する。

データ管理部３２２は、画像処理装置３００による画像形成及び原稿読取りのために必要とされるデータを二次記憶装置３１４を用いて管理する。例えば、データ管理部３２２は、画像処理装置３００が有する画像処理機能の設定のための設定データ、実行すべきジョブのためのジョブデータ、及び音声認識サーバ２００との通信に要する認証情報を管理する。

表示制御部３２３は、表示コントローラ３１６を介して操作パネル３６０による画像（例えば、ＵＩ画像）の表示を制御する。また、表示制御部３２３は、操作パネル３６０から操作Ｉ／Ｆ３１７を介して受付けられる操作信号により示されるユーザ入力の内容を解釈して、画像処理装置３００の適切な機能ブロックへユーザ入力を振り分ける。また、表示制御部３２３は、ジョブ制御部３３０からの要求に応じて、操作パネル３６０の表示内容を更新する。

スキャナ制御部３２４は、ジョブ制御部３３０による制御に従って、スキャナＩ／Ｆ３１８を介してスキャナ３８０に原稿を読取らせ、生成される読取画像の画像データをデータ管理部３２２へ出力する。また、スキャナ制御部３２４は、スキャナＩ／Ｆ３１８を介してスキャナ３８０の動作ステータスを取得する。

プリンタ制御部３２５は、ジョブ制御部３３０による制御に従って、プリンタＩ／Ｆ３１９を介してプリンタ３９０に画像を形成させる。また、プリンタ制御部３２５は、プリンタＩ／Ｆ３１９を介してプリンタ３９０の動作ステータスを取得する。

ジョブ制御部３３０は、音声制御システム１０によりユーザへ提供されるＵＩを用いてユーザと対話しながら、スキャナ３８０及びプリンタ３９０によるジョブの設定及び実行を制御する。音声制御システム１０によりユーザへ提供されるＵＩは、音声制御装置１００を介して提供される音声ＵＩ、及び画像処理装置３００の操作パネル３６０を介して提供されるＧＵＩを含み得る。ジョブ制御部３３０は、例えばＧＵＩ上でジョブの実行が指示された場合に、操作Ｉ／Ｆ３１７を介して入力される操作信号に応じて、スキャナ制御部３２４及びプリンタ制御部３２５の一方又は双方に、指示されたジョブに対応する動作を開始させる。また、ジョブ制御部３３０は、スキャナ制御部３２４及びプリンタ制御部３２５からスキャナ３８０及びプリンタ３９０の動作ステータスを収集し、それぞれの動作ステータスを表示制御部３２３を介して操作パネル３６０に表示させる。

また、ジョブ制御部３３０は、音声認識サーバ２００から意図データが受信された場合に、意図データにより示されるユーザの意図に従って、スキャナ制御部３２４及びプリンタ制御部３２５の一方又は双方に、指示されたジョブに対応する動作を開始させる。例えば、図８及び図９に示したインテント一覧によれば、{CopyOperation}というエンティティを含むインテントは、コピージョブが実行されるべきことを示す。同様に、{ScanOperation}及び{PrintOperation}の双方を含むインテントもまた、コピージョブが実行されるべきことを示す。{PrintOperation}というエンティティを含むインテントは、印刷ジョブが実行されるべきことを示す。{ScanOperation}というエンティティを含むインテントは、読取ジョブが実行されるべきことを示す。なお、実質的には、コピージョブは、印刷ジョブ及び読取ジョブの組合せであり得る。

ジョブの各々は、ゼロ又は１つ以上の設定項目を含む。ジョブ制御部３３０は、意図データに記述されているエンティティＩＤ及び値ＩＤに基づいて、ジョブの実行時に設定されるべきそれら設定項目を特定する。それら設定項目は、音声制御装置１００のマイクロフォン１６０により取得されたユーザの入力音声により表された項目である。例えば、図１３に示した意図データ２３１が受信された場合、ユーザは、設定項目を指定することなく単にコピージョブの実行を指示している。この場合、ジョブ制御部３３０は、既定の設定（又は前回の実行と同じ設定）を使用すべきことを示すコピージョブをスキャナ制御部３２４及びプリンタ制御部３２５へ出力し得る。なお、ジョブ制御部３３０は、スキャナ３８０及びプリンタ３９０の動作ステータスに依存して、コピージョブの実行を指示する代わりに、実行を保留し又は拒否してもよい。意図データ２３２が受信された場合、ユーザは、２部という部数を設定してコピージョブを実行することを指示している。この場合、ジョブ制御部３３０は、「部数＝２部」という１つの設定項目を含むコピージョブをスキャナ制御部３２４及びプリンタ制御部３２５へ出力し得る。意図データ２３３が受信された場合、ユーザは、カラーモード、用紙の面、部数、位置及び後処理という５つの設定項目を設定してコピージョブを実行することを指示している。この場合、ジョブ制御部３３０は、これら５つの設定項目を含むコピージョブをスキャナ制御部３２４及びプリンタ制御部３２５へ出力し得る。

上で説明したような音声ＵＩで画像処理ユニットの設定を制御するケースでは、音声認識の誤りに起因する誤動作を防止するための対策を講じることが望ましい。ユーザとの自然な対話を維持するために、通常、音声認識の結果をユーザへの応答に含めることで誤動作の防止が図られる。本実施形態においても、ジョブ制御部３３０は、意図データの受信に対する応答として、音声制御装置１００により読上げられるべき応答音声の内容を表す応答用テキストデータを生成し、生成した応答用テキストデータを音声認識サーバ２００へ返送する。

しかし、スキャナ３８０及びプリンタ３９０は、ユーザが指定することのできる多くの設定項目を有する。図１３の意図データ２３１及び２３２のケースのように指定された設定項目の個数が少ない場合には、認識された設定項目の全てを復唱するような応答音声を出力しても、円滑な対話は損なわれない。しかし、意図データ２３３のケースのように指定された設定項目の個数が多い場合、認識された設定項目の全てを復唱すると、応答が冗長となり、円滑な対話が損なわれ、ユーザの負担が増加し得る。そこで、本実施形態において、ジョブ制御部３３０は、意図データから特定した１つ以上の設定項目がある読上条件を満たすか否かを判定する。そして、ジョブ制御部３３０は、その判定の結果に依存して、特定した設定項目を読上げるための第１の応答音声、又は特定した設定項目のうちの少なくとも１つを読上げない第２の応答音声を、音声制御装置１００のスピーカ１７０から出力させる。ここでの読上条件は、典型的には、特定した設定項目を読上げたならば応答音声が冗長となるか否かを、応答音声の長さに関連する特徴量を用いて（例えば、特徴量と閾値との比較によって）判定するような条件である。応答音声が冗長とはならないと判定される場合、ジョブ制御部３３０は、第１の応答音声のための応答用テキストデータを生成する。一方、応答音声が冗長となると判定される場合、ジョブ制御部３３０は、第２の応答音声のための応答用テキストデータを生成する。

後述する第１の実施例では、上記読上条件は、入力音声に基づいてジョブに設定されるべき設定項目の個数と閾値との比較に基づく条件を含む。第２の実施例では、上記読上条件は、特定した設定項目を読上げた場合の読上単語数若しくは読上文字数と閾値との比較に基づく条件、又は特定した設定項目を読上げた場合の読上時間長と閾値との比較に基づく条件を含む。これら実施例について、対話の進行及び処理の流れを例示するいくつかの図と共に、後にさらに説明する。

ジョブ制御部３３０は、上記第２の応答音声を音声制御装置１００に出力させる場合に、意図データから特定した１つ以上の設定項目を示す設定確認画面を操作パネル３６０に表示することを、表示制御部３２３に指示してもよい。この場合の上記第２の応答音声は、設定確認画面の確認をユーザに求める音声を含んでもよい。即ち、応答音声が冗長となることを避けるために少なくとも１つの設定項目の読上げが省略される場合、ジョブ制御部３３０は、設定の誤ったジョブの実行を防止するために、音声ＵＩと共にＧＵＩを活用して、設定に誤りが無いかの確認をユーザに求める。それにより、音声ＵＩを介するユーザとの円滑な対話と、多機能化した機器の正確な動作とを両立することが可能となる。

ジョブ制御部３３０から音声認識サーバ２００へ応答用テキストデータが送信されると、応答用テキストデータにより表される応答音声が、スピーカ１７０から出力される。ジョブ制御部３３０は、応答音声に対するユーザの反応を示すユーザ入力（音声入力、又はＧＵＩ上の操作）を待受ける。ジョブ制御部３３０は、ジョブの続行を指示するユーザ入力が検知された場合（そのような意図データが受信され又は操作信号が入力された場合）、当初特定した通りの設定項目を含むジョブを、当該ジョブを処理すべき画像処理ユニットへ出力する。一方、ジョブ制御部３３０は、設定項目の訂正を指示するユーザ入力が検知された場合には、その訂正をジョブに反映して、ジョブの実行を開始する。設定項目の訂正が音声ＵＩを介して指示された場合には、ジョブ制御部３３０は、応答用テキストデータを再度返送して、ユーザに訂正内容の確認を求めてもよい。また、ジョブ制御部３３０は、一定の期間を経過してもユーザ入力が検知されない場合、当初特定した通りの設定項目を含むジョブを、当該ジョブを処理すべき画像処理ユニットへ出力してもよい。その代わりに、ジョブ制御部３３０は、ユーザ入力が検知されない場合に、ジョブの実行を中止してもよい。

ジョブ制御部３３０は、応答用テキストデータと共に、音声対話セッションを継続するか否かを示すセッション制御情報を、通信部３２１を介して音声認識サーバ２００へ送信してもよい。ジョブ制御部３３０は、１つのセッションを通じて、対応するジョブの制御の状態（例えば、設定項目確認中といったジョブのステータス、並びにインテントＩＤ、エンティティＩＤ及び値ＩＤといったジョブパラメータ）をメモリ上に維持する。セッションは、例えばジョブの実行の終了又はジョブの中止といったタイミングで終了し得る。

＜＜２．処理の流れ＞＞
＜２−１．全体的な流れ＞
図１４は、本実施形態に係る音声制御システム１０において実行され得る音声制御処理の全体的な流れの一例を示すシーケンス図である。ここでの音声制御処理には、音声制御装置１００、音声認識サーバ２００及び画像処理装置３００が関与する。なお、以下の説明では、処理ステップをＳ（ステップ）と略記する。

まず、Ｓ１４０１で、音声制御装置１００は、ユーザからの音声入力の受付けを開始する。例えば、音声制御装置１００の開始検知部１２５は、ユーザがウェイクワードを発声したと認識したことに応じて、制御開始信号を音声制御部１３０へ出力し、それにより音声対話セッションが開始され得る。

次いで、Ｓ１４０２で、音声制御装置１００のマイクロフォン１６０は、ユーザの入力音声を取得する。音声取得部１２３は、取得された入力音声の入力音声データを生成する。入力音声データの生成は、終了判定部１２６により音声入力の終了が検知されるまで継続され得る。

次いで、Ｓ１４０３で、音声制御部１３０は、Ｓ１４０２で生成された入力音声データを音声認識サーバ２００へ送信する。なお、音声制御部１３０は、ひとまとまりの入力音声データを、終了判定部１２６により音声入力の終了が検知された後にまとめて送信してもよい。その代わりに、音声制御部１３０は、音声入力の終了タイミングを待つこと無く、入力音声データの断片を順次音声認識サーバ２００へ送信してもよい。音声認識サーバ２００の音声認識部２２４は、このような入力音声データを通信部２２１を介して受信する。

次いで、Ｓ１４０４で、音声認識部２２４は、入力音声データについて音声認識を実行して入力音声データを入力テキストデータへ変換し、さらに入力テキストデータに基づいて意図データを生成する。

次いで、Ｓ１４０５で、音声認識部２２４は、通信部２２１を介して画像処理装置３００へ意図データを送信する。画像処理装置３００のジョブ制御部３３０は、意図データを通信部３２１を介して受信する。

次いで、Ｓ１４０６で、ジョブ制御部３３０は、受信した意図データに対して応答するための応答生成処理を実行して、応答用テキストデータを生成する。ここで実行される応答生成処理の具体的ないくつかの実施例について、後にさらに説明する。また、Ｓ１４０７で、ジョブ制御部３３０は、意図データにより示されたユーザの意図に従って、画像処理装置３００の画像形成機能及び原稿読取機能の一方又は双方を制御する。なお、図中に点線で示したように、Ｓ１４０７はオプションである。即ち、画像処理装置３００の機能の制御は、必ずしも意図データが受信される都度行われなくてもよく、例えば音声対話セッションの最後に一度だけ行われてもよい。

次いで、Ｓ１４０８で、ジョブ制御部３３０は、応答生成処理によって生成した応答用テキストデータを、通信部３２１を介して音声認識サーバ２００へ送信する。音声認識サーバ２００の音声合成部２２５は、応答用テキストデータを通信部２２１を介して受信する。なお、ジョブ制御部３３０は、Ｓ１４０８において、上述したように、応答用テキストデータと共にセッション制御情報を音声認識サーバ２００へ送信してもよい。

次いで、Ｓ１４０９で、音声合成部２２５は、受信した応答用テキストデータを読上げる応答音声を合成し、合成した応答音声を表す応答音声データを生成する。ここで生成される応答音声データは、例えば、１つ以上の設定項目の全てを読上げる省略なしの応答音声（第１の応答音声）、又は少なくとも１つの設定項目を読上げない省略ありの応答音声（第２の応答音声）を表し得る。

次いで、Ｓ１４１０で、音声合成部２２５は、生成した応答音声データを、通信部２２１を介して音声制御装置１００へ送信する。音声制御装置１００の音声制御部１３０は、応答音声データを（セッション制御情報と共に）通信部１２１を介して受信する。

次いで、Ｓ１４１１で、音声制御部１３０は、受信した応答音声データに基づいて音声再生部１２７に応答音声を再生させ、それにより応答音声がスピーカ１７０から出力される。

図１４において符号Ｓ１４２０で示した１往復分の対話は、ユーザにより対話が中止される場合を除いて、音声対話セッションを継続すべきことをセッション制御情報が示している限り、反復的に行われ得る。音声対話セッションを終了すべきことをセッション制御情報が示す場合には、音声制御部１３０は、音声対話セッションを終了し、待機中の状態へ遷移し得る。開始検知部１２５により新たにウェイクワードが検知されると、音声対話セッションは再び開始する。

＜２−２．第１の実施例＞
上述したように、本実施形態において、画像処理装置３００のジョブ制御部３３０は、音声ＵＩを通じて特定された１つ以上の設定項目がある読上条件を満たすか否かを判定する。ここでの読上条件とは、ユーザへの応答の際に、特定した１つ以上の設定項目の全てを読上げるべきか、又は少なくとも１つの設定項目の読上げを省略すべきかを決定するための条件である。第１の実施例において、この読上条件は、入力音声に基づいて画像処理ユニットに設定されるべき設定項目の個数と閾値との比較に基づく条件を含むものとする。

図１５は、図１４のＳ１４０６で実行され得る、第１の実施例に係る応答生成処理の詳細な流れの一例を示すフローチャートである。ここでの応答生成処理は、例えば、画像処理装置３００のＣＰＵ３１１がＲＡＭ３１２にロードされるコンピュータプログラムを実行することにより、ジョブ制御部３３０の処理として実現され得る。

まず、ジョブ制御部３３０は、図１４のＳ１４０５で音声認識サーバ２００から意図データが受信されたことをトリガとして、Ｓ１５０１で、画像処理装置３００の様々なステータスを収集する。例えば、ジョブ制御部３３０は、スキャナ３８０の動作ステータスをスキャナ制御部３２４から、プリンタ３９０の動作ステータスをプリンタ制御部３２５から、操作パネル３６０の表示ステータスを表示制御部３２３から取得し得る。

次いで、Ｓ１５０２で、ジョブ制御部３３０は、収集した上記ステータスに基づいて、意図データにより示されているユーザにより意図された動作は実行可能であるか否かを判定する。例えば、意図データが印刷ジョブに関連付けられるインテントＩＤを含むにも関わらず、プリンタが何らかの原因（例えば、シート等の消耗材の不足又は先行する未完了のジョブの存在）で動作できない場合、意図された動作は実行可能ではないと判定され得る。ユーザにより意図された動作が実行可能ではないと判定された場合、処理はＳ１５０３へ進む。一方、ユーザにより意図された動作が実行可能であると判定された場合、処理はＳ１５０４へ進む。

Ｓ１５０３で、ジョブ制御部３３０は、ユーザにより意図された動作が実行可能ではないため、動作実行不能を表す応答音声のための応答用テキストデータを生成する。例えば、コピージョブの実行が意図された場合において、コピージョブが実行不能である場合には、「現在、コピージョブを実行できません」という応答用テキストデータが生成され得る。なお、ここで生成される応答用テキストデータは、動作が実行不能である理由を読上げる音声を含んでもよい。

一方、Ｓ１５０４では、ジョブ制御部３３０は、ユーザにより意図された動作が実行可能であるため、ユーザにより１つ以上の設定項目が指定されたか否かを、意図データに基づいて判定する。指定された設定項目の個数は、例えば、意図データに含まれるエンティティＩＤのうちで設定項目を表すものとして予め定義されたエンティティＩＤの個数であってもよい。例えば、図１３の意図データ２３２の例では、エンティティＩＤ「NUMBER」が設定項目を表すものとして予め定義され、設定項目の個数は１であると判定され得る。意図データ２３３の例では、設定項目の個数は５であると判定され得る。一方、意図データ２３１の例では、エンティティＩＤ「CopyOperation」は設定項目を表すものとしては定義されず、よって設定項目の個数はゼロであると判定され得る。なお、「CopyOperation」のようなジョブの種別を表す項目も、設定項目の１つとしてカウントされてもよい。ここで、設定項目が何も指定されなかったと判定された場合、処理はＳ１５０５へ進む。一方、ユーザにより１つ以上の設定項目が指定されたと判定された場合、処理はＳ１５０６へ進む。

Ｓ１５０５で、ジョブ制御部３３０は、ユーザにより設定項目が何も指定されなかったため、ユーザにより意図された動作（インテントＩＤに基づいて特定した動作）の実行前の確認をユーザに求める応答音声のための応答用テキストデータを生成する。例えば、コピージョブの実行が意図された場合において、何も設定項目が指定されなかった場合には、「既定の設定でコピーを実行します」という応答用テキストデータが生成され得る。

一方、Ｓ１５０６では、ジョブ制御部３３０は、意図データから特定した設定項目の個数が閾値を上回るか否かを判定する。ここでは、限定ではないものの、読上条件の判定に用いられる閾値は、２であるものとする。この場合、図１３の意図データ２３２のケースでは、設定項目の個数は１であり閾値を下回るため、ジョブ制御部３３０は、読上条件が満たされないと判定し得る。対照的に、図１３の意図データ２３３のケースでは、設定項目の個数は５であり閾値を上回るため、ジョブ制御部３３０は、読上条件が満たされると判定し得る。設定項目の個数が閾値を上回らないと判定された場合、処理はＳ１５０７へ進む。一方、設定項目の個数が閾値を上回ると判定された場合、処理はＳ１５０８へ進む。

Ｓ１５０７で、ジョブ制御部３３０は、意図データから特定した設定項目の全てを読上げる応答音声のための応答用テキストデータを生成する。例えば、図１３の意図データ２３２のケースでは、「３部でコピーを実行してよろしいですか」という応答用テキストデータが生成され得る。

一方、Ｓ１５０８では、ジョブ制御部３３０は、意図データから特定した設定項目（例えば、設定項目の全て）を示す設定確認画面を、表示制御部３２３を介して操作パネル３６０に表示させる。ここで表示される設定確認画面は、例えば、設定項目の名称と値のペアを一覧化した画面であり得る。また、ジョブ制御部３３０は、Ｓ１５０９で、少なくとも１つの設定項目を読上げない応答音声のための応答用テキストデータを生成する。ここでは、例えば、「操作パネルをご確認下さい。この設定でコピーを実行してよろしいですか」という応答用テキストデータが生成され得る。

ジョブ制御部３３０は、上述したＳ１５０３、Ｓ１５０５、Ｓ１５０７又はＳ１５０９において生成した応答用テキストデータを、図１４のＳ１４０８で音声認識サーバ２００へ送信する。

図１６及び図１７は、本実施例におけるシステムとユーザとの間の対話の例をＧＵＩのサンプルと共に示すシーケンス図である。図１６のシナリオでは、ユーザが閾値に満たない個数の設定項目のみを入力音声で指定したため、音声認識の結果として特定された設定項目の全てを読上げる応答音声が出力される。その応答音声の出力と共に、設定項目の確認のためのＧＵＩは表示されない。対照的に、図１７のシナリオでは、ユーザが閾値を上回る個数の設定項目を入力音声で指定したため、音声認識の結果として特定された設定項目の読上げが省略された応答音声が出力される。その応答音声の出力と共に、設定項目の確認のためのＧＵＩが表示される。

図１６のシナリオでは、まず、Ｓ１６０１で、ユーザは、音声制御装置１００へ向けてウェイクワードを発声し、そのウェイクワードの検知をトリガとして音声対話セッションが開始される。ウェイクワードに続けて、ユーザは、Ｓ１６０２で、画像処理装置３００による実行を望む動作の内容を表す「コピーを３部」という音声を発声する。この音声は、音声制御装置１００のマイクロフォン１６０により入力音声として取得され、音声認識サーバ２００による音声認識の後、音声認識の結果を示す意図データが画像処理装置３００へ提供される。

Ｓ１６０３で、画像処理装置３００のジョブ制御部３３０は、受信した意図データにより示されるユーザの意図に従って、図１５を用いて説明した応答生成処理を実行する。ここでは、意図データから特定される設定項目の個数が閾値（例えば、２）を上回らないことから、ジョブ制御部３３０は、省略なしの応答音声のための応答用テキストデータ生成する。例えば、応答用テキストデータは、「３部コピーを実行してよろしいですか」という応答音声の内容を示す。Ｓ１６０４で、音声制御装置１００は、当該応答用テキストデータに基づいて合成された応答音声データを用いて、省略なしの応答音声をスピーカ１７０から出力する。応答音声の出力の後、音声対話セッションは継続される。また、ジョブ制御部３３０は、未実行のジョブの設定項目の値を一時的に保持しておく。

次いで、Ｓ１６０５で、上記応答音声を聞いたユーザは、確認を求められた設定項目に誤りが無いことをシステムへ伝えるために、「はい」という音声を発声する。この音声もまた、マイクロフォン１６０により入力音声として取得され、音声認識サーバ２００による音声認識の後、音声認識の結果を示す意図データが画像処理装置３００へ提供される。

Ｓ１６０６で、ジョブ制御部３３０は、設定項目に誤りが無いことが確認されたため、コピージョブの実行を開始する。その際、ジョブ制御部３３０は、指定されたジョブの実行開始をユーザに通知するために、例えば「コピーの実行を開始します」という応答音声の内容を示す応答用テキストデータを生成する。Ｓ１６０７で、当該応答用テキストデータにより示される内容の応答音声がスピーカ１７０から出力される。

また、ジョブ制御部３３０は、Ｓ１６０８で、一時的に保持していた設定項目の値をコピージョブに設定して対応する画像処理ユニットへ出力することにより、ユーザが望んだ通りの制御を実行する。Ｓ１６０８は、Ｓ１６０７と並列的に実行されてよい。さらに、ジョブ制御部３３０は、ジョブの実行状況を示す実行状況画面３６１を、操作パネル３６０に表示させる。実行状況画面３６１の表示内容は、ジョブの進行に沿って適宜更新され得る。

その後、画像処理装置３００においてコピージョブの実行が終了すると、ジョブ制御部３３０は、ジョブの実行終了をユーザに通知するために、例えば「コピーの実行を終了しました」という応答音声の内容を示す応答用テキストデータを生成する。そして、Ｓ１６０９で、当該応答用テキストデータにより示される内容の応答音声がスピーカ１７０から出力される。

図１７のシナリオにおいても、まず、Ｓ１７０１で、ユーザは、音声制御装置１００へ向けてウェイクワードを発声し、そのウェイクワードの検知をトリガとして音声対話セッションが開始される。ウェイクワードに続けて、ユーザは、Ｓ１７０２で、画像処理装置３００による実行を望む動作の内容を表す「フルカラー両面４部ステープルでコピーして」という音声を発声する。この音声は、音声制御装置１００のマイクロフォン１６０により入力音声として取得され、音声認識サーバ２００による音声認識の後、音声認識の結果を示す意図データが画像処理装置３００へ提供される。

Ｓ１７０３で、画像処理装置３００のジョブ制御部３３０は、受信した意図データにより示されるユーザの意図に従って、図１５を用いて説明した応答生成処理を実行する。ここでは、意図データから特定される設定項目の個数が上記閾値を上回ることから、ジョブ制御部３３０は、省略ありの応答音声のための応答用テキストデータ生成する。例えば、応答用テキストデータは、「この設定でコピーを実行してよろしいですか」という応答音声の内容を示す。Ｓ１７０４で、音声制御装置１００は、当該応答用テキストデータに基づいて合成された応答音声データを用いて、省略ありの応答音声をスピーカ１７０から出力する。また、ジョブ制御部３３０は、応答音声の出力に合わせて、設定確認画面３６２を操作パネル３６０に表示させる。図１７の例では、設定確認画面３６２において、意図データから特定された４つの設定項目の名称と値とが列挙されている。Ｓ１７０４で出力される応答音声は、設定確認画面３６２を確認することをユーザに求める音声を含んでもよい。応答音声の出力の後、音声対話セッションは継続される。また、ジョブ制御部３３０は、未実行のジョブの設定項目の値を一時的に保持しておく。

次いで、Ｓ１７０５で、上記応答音声を聞いたユーザは、確認を求められた設定項目に誤りが無いことをシステムへ伝えるために、「はい」という音声を発声する。この音声もまた、マイクロフォン１６０により入力音声として取得され、音声認識サーバ２００による音声認識の後、音声認識の結果を示す意図データが画像処理装置３００へ提供される。なお、ユーザは、Ｓ１７０５での発声の代わりに、設定確認画面３６２を操作することにより（例えば、「続行」ボタンをタッチすることにより）、設定項目に誤りが無いことをシステムへ伝えてもよい。

Ｓ１７０６で、ジョブ制御部３３０は、設定項目に誤りが無いことが確認されたため、コピージョブの実行開始を通知するための応答用テキストデータを生成する。その後のＳ１７０７〜Ｓ１７０９の対話は、図１６を用いて説明したＳ１６０７〜Ｓ１６０９と同様であってよいため、ここでは説明を省略する。

＜２−３．第２の実施例＞
第２の実施例において、少なくとも１つの設定項目の読上げを省略すべきか否かを決定するための読上条件は、特定した設定項目を読上げた場合の読上単語数若しくは読上文字数と閾値との比較、又は読上時間長と閾値との比較に基づく条件を含むものとする。読上単語数及び読上文字数は、応答用テキストデータからカウントされ得る。読上時間長は、応答用テキストデータから推測されてもよく、又は応答音声データから測定されてもよい。

図１８は、図１４のＳ１４０６で実行され得る、第２の実施例に係る応答生成処理の詳細な流れの一例を示すフローチャートである。ここでの応答生成処理は、例えば、画像処理装置３００のＣＰＵ３１１がＲＡＭ３１２にロードされるコンピュータプログラムを実行することにより、ジョブ制御部３３０の処理として実現され得る。

図１８のＳ１８０１〜Ｓ１８０５は、図１５を用いて説明したＳ１５０１〜Ｓ１５０５と同様であってよいため、ここでは説明を省略する。

Ｓ１８０４でユーザにより１つ以上の設定項目が指定されたと判定された場合、Ｓ１８０７で、ジョブ制御部３３０は、意図データから特定した設定項目の全てを読上げる応答音声のための応答用テキストデータを生成する。

次いで、Ｓ１８１０で、ジョブ制御部３３０は、Ｓ１８０７で生成した応答用テキストデータに基づいて、特定した設定項目を読上げた場合の応答音声の長さに関連する特徴量を導出する。例えば、ジョブ制御部３３０は、応答用テキストデータに含まれる単語数を読上単語数としてカウントしてもよい。また、ジョブ制御部３３０は、応答用テキストデータに含まれる文字数を読上文字数としてカウントしてもよい。ジョブ制御部３３０は、応答用テキストデータに含まれ得る漢字及び数字といった特定の種類の文字を発声用の仮名文字に変換してから文字数をカウントしてもよい。また、ジョブ制御部３３０は、応答用テキストデータの内容から読上時間長を推測してもよい。

次いで、Ｓ１８１１で、ジョブ制御部３３０は、Ｓ１８１０で導出した特徴量が閾値を上回るか否かを判定する。限定ではないのもの、日本語の読上文字数と比較される閾値は、例えば３０文字であってもよい。応答音声の長さに関連する特徴量が閾値を上回らないと判定された場合、Ｓ１８０７で生成された省略なしの応答音声のための応答用テキストデータがユーザへの応答のために使用され、図１８の応答生成処理は終了する。一方、特徴量が閾値を上回ると判定された場合、処理はＳ１８１２へ進む。

Ｓ１８１２で、ジョブ制御部３３０は、意図データから特定した設定項目（例えば、設定項目の全て）を示す設定確認画面を、表示制御部３２３を介して操作パネル３６０に表示させる。ここで表示される設定確認画面は、例えば、設定項目の名称と値のペアを一覧化した画面であり得る。また、ジョブ制御部３３０は、Ｓ１８１３で、少なくとも１つの設定項目を読上げない応答音声のための応答用テキストデータを生成する。この場合、Ｓ１８０７で生成された省略なしの応答用テキストデータの代わりに、Ｓ１８１３で生成された省略ありの応答用テキストデータがユーザへの応答のために使用される。

ジョブ制御部３３０は、上述したＳ１８０３、Ｓ１８０５、Ｓ１８０７又はＳ１８１３において生成した応答用テキストデータを、図１４のＳ１４０８で音声認識サーバ２００へ送信する。

図１９及び図２０は、本実施例におけるシステムとユーザとの間の対話の例をＧＵＩのサンプルと共に示すシーケンス図である。図１９のシナリオでは、音声認識の結果として特定された設定項目を読上げた場合の応答音声の長さに関連する特徴量が閾値を上回らないため、それら設定項目の全てを読上げる応答音声が出力される。その応答音声の出力と共に、設定項目の確認のためのＧＵＩは表示されない。対照的に、図２０のシナリオでは、音声認識の結果として特定された設定項目を読上げた場合の応答音声の長さに関連する特徴量が閾値を上回るため、少なくとも１つの設定項目の読上げが省略された応答音声が出力される。その応答音声の出力と共に、設定項目の確認のためのＧＵＩが表示される。

図１９のシナリオでは、まず、Ｓ１９０１で、ユーザは、音声制御装置１００へ向けてウェイクワードを発声し、そのウェイクワードの検知をトリガとして音声対話セッションが開始される。ウェイクワードに続けて、ユーザは、Ｓ１９０２で、画像処理装置３００による実行を望む動作の内容を表す「原稿をスキャンしてＥさんへ送信」という音声を発声する。この音声は、音声制御装置１００のマイクロフォン１６０により入力音声として取得され、音声認識サーバ２００による音声認識の後、音声認識の結果を示す意図データが画像処理装置３００へ提供される。

Ｓ１９０３で、画像処理装置３００のジョブ制御部３３０は、受信した意図データにより示されるユーザの意図に従って、図１８を用いて説明した応答生成処理を実行する。ここでは、例えば応答用テキストデータの仮名変換後の文字数が閾値（例えば、３０）を上回らないことから、ジョブ制御部３３０は、省略なしの応答音声のための応答用テキストデータ生成する。例えば、応答用テキストデータは、「Ｅさんに送信してよろしいですか」という応答音声の内容を示す。Ｓ１９０４で、音声制御装置１００は、当該応答用テキストデータに基づいて合成された応答音声データを用いて、省略なしの応答音声をスピーカ１７０から出力する。応答音声の出力の後、音声対話セッションは継続される。また、ジョブ制御部３３０は、未実行のジョブの設定項目の値を一時的に保持しておく。

次いで、Ｓ１９０５で、上記応答音声を聞いたユーザは、確認を求められた設定項目に誤りが無いことをシステムへ伝えるために、「はい」という音声を発声する。この音声もまた、マイクロフォン１６０により入力音声として取得され、音声認識サーバ２００による音声認識の後、音声認識の結果を示す意図データが画像処理装置３００へ提供される。

Ｓ１９０６で、ジョブ制御部３３０は、設定項目に誤りが無いことが確認されたため、読取ジョブの実行を開始する。その際、ジョブ制御部３３０は、指定されたジョブの実行開始をユーザに通知するために、例えば「スキャンして送信を開始します」という応答音声の内容を示す応答用テキストデータを生成する。Ｓ１９０７で、当該応答用テキストデータにより示される内容の応答音声がスピーカ１７０から出力される。

また、ジョブ制御部３３０は、Ｓ１９０８で、一時的に保持していた設定項目の値をスキャンジョブに設定して対応する画像処理ユニットへ出力することにより、ユーザが望んだ通りの制御を実行する。Ｓ１９０８は、Ｓ１９０７と並列的に実行されてよい。さらに、ジョブ制御部３３０は、ジョブの実行状況を示す実行状況画面３７１を、操作パネル３６０に表示させる。実行状況画面３７１の表示内容は、ジョブの進行に沿って適宜更新され得る。

その後、画像処理装置３００においてスキャンジョブの実行が終了すると、ジョブ制御部３３０は、ジョブの実行終了をユーザに通知するために、例えば「送信を終了しました」という応答音声の内容を示す応答用テキストデータを生成する。そして、Ｓ１９０９で、当該応答用テキストデータにより示される内容の応答音声がスピーカ１７０から出力される。

図２０のシナリオにおいても、まず、Ｓ２００１で、ユーザは、音声制御装置１００へ向けてウェイクワードを発声し、そのウェイクワードの検知をトリガとして音声対話セッションが開始される。ウェイクワードに続けて、ユーザは、Ｓ２００２で、画像処理装置３００による実行を望む動作の内容を表す「フルカラー両面でスキャンしてＥさんへ送信」という音声を発声する。この音声は、音声制御装置１００のマイクロフォン１６０により入力音声として取得され、音声認識サーバ２００による音声認識の後、音声認識の結果を示す意図データが画像処理装置３００へ提供される。

Ｓ２００３で、画像処理装置３００のジョブ制御部３３０は、受信した意図データにより示されるユーザの意図に従って、図１８を用いて説明した応答生成処理を実行する。ここでは、例えば全ての設定項目を読上げた場合の応答用テキストデータの仮名変換後の文字数が上記閾値を上回ることから、ジョブ制御部３３０は、省略ありの応答音声のための応答用テキストデータ生成する。例えば、応答用テキストデータは、「この設定で実行してよろしいですか」という応答音声の内容を示す。Ｓ２００４で、音声制御装置１００は、当該応答用テキストデータに基づいて合成された応答音声データを用いて、省略ありの応答音声をスピーカ１７０から出力する。また、ジョブ制御部３３０は、応答音声の出力に合わせて、設定確認画面３７２を操作パネル３６０に表示させる。図２０の例では、設定確認画面３７２において、意図データから特定された３つの設定項目の名称と値とが列挙されている。Ｓ２００４で出力される応答音声は、設定確認画面３７２を確認することをユーザに求める音声を含んでもよい。応答音声の出力の後、音声対話セッションは継続される。また、ジョブ制御部３３０は、未実行のジョブの設定項目の値を一時的に保持しておく。

次いで、Ｓ２００５で、上記応答音声を聞いたユーザは、確認を求められた設定項目に誤りが無いことをシステムへ伝えるために、「はい」という音声を発声する。この音声もまた、マイクロフォン１６０により入力音声として取得され、音声認識サーバ２００による音声認識の後、音声認識の結果を示す意図データが画像処理装置３００へ提供される。なお、ユーザは、Ｓ２００５での発声の代わりに、設定確認画面３７２を操作することにより、設定項目に誤りが無いことをシステムへ伝えてもよい。

Ｓ２００６で、ジョブ制御部３３０は、設定項目に誤りが無いことが確認されたため、スキャンジョブの実行開始を通知するための応答用テキストデータを生成する。その後のＳ２００７〜Ｓ２００９の対話は、図１９を用いて説明したＳ１９０７〜Ｓ１９０９と同様であってよいため、ここでは説明を省略する。

＜＜３．変形例＞＞
本発明は上記実施形態に限定されず、様々な変形が可能である。ある変形例において、読上条件の判定の際に使用される閾値は、ユーザにより指定される可変的な値であってもよい。また、閾値を指定する意図を表すインテントがインテント一覧において定義されてもよい。閾値をユーザにより指定可能とすることで、音声対話においてどの程度冗長な応答音声を許容するかに関するユーザの好みに合わせて、システムが音声ＵＩの挙動を変更することが可能となる。

他の変形例において、ジョブ制御部３３０は、特定の設定項目を読上げる音声を省略ありの応答音声に含めるように応答用テキストデータを生成してもよい。即ち、省略ありの応答音声においても、いくつかの設定項目が読上げられてよい。特定の設定項目とは、ユーザによる確認が必須なものとして予め固定的に定義されてもよく、又はユーザが優先的に確認することを希望するものとしてユーザにより指定されてもよい。例えば、読取画像データを指定された宛て先へ送信する場合には、宛て先誤りに起因する情報漏洩のリスクを低減するために、認識された宛て先が常に読上げられてもよい。

また別の変形例において、ジョブ制御部３３０は、音声認識の結果として認識された設定項目の値に依存して、個々の設定項目を読上げるか否かを変化させてもよい。例えば、印刷及びコピーの部数について認識された値が大きい場合に、その認識が誤っていれば多数のシートが無駄となる虞がある。そこで、ジョブ制御部３３０は、認識された部数の値がある閾値を上回る場合に、省略ありの応答音声がその値を読上げるように応答用テキストデータを生成してもよい。

なお、上述した実施例及び変形例は、互いにどのように組合されてもよい。例えば、設定項目の個数が第１の閾値以下であり且つ読上文字数が第２の閾値以下である場合に設定項目の全てが読上げられるといったような、複合的な読上条件が採用されてもよい。

本明細書において物理的に別個のものとして説明した２つ以上の装置は、互いにどのように組合されてもよい。また、単一の装置のものとして説明した複数の機能が、物理的に別個の装置へ分散されてもよい。例えば、音声認識サーバ２００の音声認識機能及び音声合成機能は、音声制御装置１００へ統合されてもよく、又は画像処理装置３００へ統合されてもよい。また、読上条件の判定に基づいて応答音声における設定項目の読上げを省略する機能が、音声制御装置１００又は音声認識サーバ２００へ統合されてもよい。また、画像処理装置３００が、マイクロフォン及びスピーカと共に、音声制御装置１００の音声制御機能を有していてもよい。

＜＜４．まとめ＞＞
ここまで、図１〜図２０を用いて、本開示の実施形態について詳細に説明した。上述した実施形態では、マイクロフォン及びスピーカと連携して画像処理ユニットの設定を制御する際に、ユーザの入力音声により表された１つ以上の設定項目が読上条件を満たすか否かに依存して応答音声が切替えられる。第１の応答音声は、上記１つ以上の設定項目を読上げる音声であり、第２の応答音声は、上記１つ以上の設定項目のうちの少なくとも１つを読上げない音声である。かかる構成によれば、ユーザの入力音声に基づいて特定された設定項目が多い場合に、ユーザへの応答において多数の設定項目を復唱することを差し控えて、応答が冗長となることを回避することができる。それにより、ユーザは多くの設定項目の読上げを聞くことを強いられないため、ユーザの負担が軽減される。

また、上述した実施形態では、上記読上条件は、上記１つ以上の設定項目を読上げた場合の応答音声の長さに関連する特徴量と閾値との比較に基づく条件を含む。かかる構成によれば、応答音声が長くならないと見込まれる場合に、特定した設定項目の全てを読上げて音声認識の誤りに起因する誤動作を確実に防止できる一方、応答音声が長くなることが見込まれる場合に、少なくとも１つの設定項目の読上げを省略できる。上記特徴量は、上記設定項目の個数を表してもよい。その場合、音声認識の結果として特定した設定項目の個数から直接的に上記読上条件を判定して、応答音声を切替えることができる。上記特徴量は、上記１つ以上の設定項目を読上げた場合の読上単語数又は読上文字数を表してもよい。その場合、応答音声を合成することなく、応答用のテキストデータから上記読上条件を判定することができる。上記特徴量は、上記１つ以上の設定項目を読上げた場合の読上時間長を表してもよい。その場合、システムからの応答音声の時間長をある長さよりも確実に短くすることができる。

また、上述した実施形態では、上記第２の応答音声が出力される場合に、画像処理ユニットに設定されるべき上記１つ以上の設定項目を示す設定確認画面が表示デバイスにおいて表示され得る。かかる構成によれば、応答音声において少なくとも１つの設定項目の読上げが省略される場合に、設定項目について音声認識の結果に誤りが無いかを、設定確認画面を介してユーザに確認させることができる。このような音声ＵＩとＧＵＩとの併用によって、ユーザとの円滑な対話を維持しつつユーザの負担が効果的に軽減され得る。上記第２の応答音声は、上記設定確認画面の確認をユーザに求める音声をも含んでもよい。それにより、ユーザの注意をＧＵＩ上での音声認識結果の確認に確実に向けさせることができる。

なお、上記第１の応答音声は、必ずしも音声認識の結果に含まれる設定項目の全てを読上げなくてもよい。即ち、本開示のアイディアは、上記第２の応答音声において読上げられる設定項目の個数が上記第１の応答音声において読上げられる設定項目の個数よりも少ないケース一般にまで拡張されてよい。

＜＜５．その他の実施形態＞＞
上記実施形態は、１つ以上の機能を実現するプログラムをネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読み出して実行する処理の形式でも実現可能である。また、１つ以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

１０：音声制御システム、１００：音声制御装置、１１０：コントローラ（制御手段）、１６０：マイクロフォン、１７０：スピーカ、２００：音声認識サーバ、３００：画像処理装置、３１０：コントローラ（制御手段）、３６０：操作パネル（表示デバイス）、３６２，３７２：設定確認画面、３８０：スキャナ（画像処理ユニット）、３９０：プリンタ（画像処理ユニット）

Claims

音声を取得するマイクロフォンと、
音声を出力するスピーカと、
画像処理ユニットと、
前記画像処理ユニットの設定を制御する制御手段と、
を備え、
前記制御手段は、
前記マイクロフォンにより取得されるユーザの入力音声により表された１つ以上の設定項目であって、前記画像処理ユニットに設定されるべき設定項目を特定し、
特定した前記１つ以上の設定項目が読上条件を満たすか否かに依存して、前記１つ以上の設定項目を読上げる第１の応答音声、又は前記１つ以上の設定項目のうちの少なくとも１つを読上げない第２の応答音声を前記スピーカから出力させる、
音声制御システム。
請求項１に記載の音声制御システムであって、前記読上条件は、前記１つ以上の設定項目を読上げた場合の応答音声の長さに関連する特徴量と閾値との比較に基づく条件を含む、音声制御システム。
請求項２に記載の音声制御システムであって、前記特徴量は、前記設定項目の個数を表す、音声制御システム。
請求項２に記載の音声制御システムであって、前記特徴量は、前記１つ以上の設定項目を読上げた場合の読上単語数又は読上文字数を表す、音声制御システム。
請求項２に記載の音声制御システムであって、前記特徴量は、前記１つ以上の設定項目を読上げた場合の読上時間長を表す、音声制御システム。
請求項２乃至５のいずれか１項に記載の音声制御システムであって、前記閾値は、ユーザにより指定される可変的な値である、音声制御システム。
請求項１乃至６のいずれか１項に記載の音声制御システムであって、
表示デバイス、をさらに備え、
前記制御手段は、前記第２の応答音声を前記スピーカから出力させる場合に、前記画像処理ユニットに設定されるべき前記１つ以上の設定項目を示す設定確認画面を前記表示デバイスに表示させる、
音声制御システム。
請求項７に記載の音声制御システムであって、前記制御手段は、前記設定確認画面の確認をユーザに求める音声を前記第２の応答音声に含める、音声制御システム。
請求項１乃至８のいずれか１項に記載の音声制御システムであって、前記制御手段は、特定の設定項目を読上げる音声を前記第２の応答音声に含める、音声制御システム。
請求項１乃至９のいずれか１項に記載の音声制御システムであって、前記画像処理ユニットは、シートに画像を形成する画像形成機能及び原稿を読取って画像データを生成する原稿読取機能のうちの少なくとも一方の機能を有する、音声制御システム。
画像処理ユニットの設定を、音声を取得するマイクロフォン及び音声を出力するスピーカと連携して制御する音声制御方法において、
前記マイクロフォンにより取得されるユーザの入力音声により表された１つ以上の設定項目であって、前記画像処理ユニットに設定されるべき設定項目を特定することと、
特定した前記１つ以上の設定項目が読上条件を満たすか否かに依存して、前記１つ以上の設定項目を読上げる第１の応答音声、又は前記１つ以上の設定項目のうちの少なくとも１つを読上げない第２の応答音声を前記スピーカから出力させることと、
を含む音声制御方法。
画像処理ユニットと、
前記画像処理ユニットの設定を制御する制御手段と、
を備え、
前記制御手段は、
マイクロフォンにより取得されるユーザの入力音声により表された１つ以上の設定項目であって、前記画像処理ユニットに設定されるべき設定項目を特定し、
特定した前記１つ以上の設定項目が読上条件を満たすか否かに依存して、前記１つ以上の設定項目を読上げる第１の応答音声、又は前記１つ以上の設定項目のうちの少なくとも１つを読上げない第２の応答音声をスピーカから出力させる、
画像処理装置。
画像処理ユニットを備える画像処理装置のプロセッサを、
前記画像処理ユニットの設定を制御する制御部、
として動作させるためのコンピュータプログラムにおいて、
前記制御部は、
マイクロフォンにより取得されるユーザの入力音声により表された１つ以上の設定項目であって、前記画像処理ユニットに設定されるべき設定項目を特定し、
特定した前記１つ以上の設定項目が読上条件を満たすか否かに依存して、前記１つ以上の設定項目を読上げる第１の応答音声、又は前記１つ以上の設定項目のうちの少なくとも１つを読上げない第２の応答音声をスピーカから出力させる、
コンピュータプログラム。
音声を取得するマイクロフォンと、
音声を出力するスピーカと、
画像処理ユニットを有する画像処理装置と通信する通信インタフェースと、
前記マイクロフォンによるユーザの入力音声の取得及び前記入力音声に対する応答音声の前記スピーカからの出力を制御する制御手段と、
を備え、
前記制御手段は、前記マイクロフォンにより取得される前記入力音声に基づいて特定される１つ以上の設定項目であって、前記画像処理装置により前記画像処理ユニットに設定されるべき設定項目が読上条件を満たすか否かに依存して、前記１つ以上の設定項目を読上げる第１の応答音声、又は前記１つ以上の設定項目のうちの少なくとも１つを読上げない第２の応答音声を前記スピーカから出力させる、
音声制御装置。
音声を取得するマイクロフォンと、音声を出力するスピーカと、画像処理ユニットを有する画像処理装置と通信する通信インタフェースとを備える音声制御装置のプロセッサを、
前記マイクロフォンによるユーザの入力音声の取得及び前記入力音声に対する応答音声の前記スピーカからの出力を制御する制御部、
として動作させるためのコンピュータプログラムにおいて、
前記制御部は、前記マイクロフォンにより取得される前記入力音声に基づいて特定される１つ以上の設定項目であって、前記画像処理装置により前記画像処理ユニットに設定されるべき設定項目が読上条件を満たすか否かに依存して、前記１つ以上の設定項目を読上げる第１の応答音声、又は前記１つ以上の設定項目のうちの少なくとも１つを読上げない第２の応答音声を前記スピーカから出力させる、
コンピュータプログラム。