JP2021082871A - 音声制御システム、音声制御方法、画像処理装置、音声制御装置及びプログラム - Google Patents
音声制御システム、音声制御方法、画像処理装置、音声制御装置及びプログラム Download PDFInfo
- Publication number
- JP2021082871A JP2021082871A JP2019206353A JP2019206353A JP2021082871A JP 2021082871 A JP2021082871 A JP 2021082871A JP 2019206353 A JP2019206353 A JP 2019206353A JP 2019206353 A JP2019206353 A JP 2019206353A JP 2021082871 A JP2021082871 A JP 2021082871A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- setting items
- image processing
- response
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/0035—User-machine interface; Control console
- H04N1/00352—Input means
- H04N1/00403—Voice input means, e.g. voice commands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Abstract
【課題】多機能化した機器の設定を音声UIを活用して行う際のユーザの負担を軽減すること。【解決手段】音声を取得するマイクロフォンと、音声を出力するスピーカと、画像処理ユニットと、前記画像処理ユニットの設定を制御する制御手段と、を備え、前記制御手段は、前記マイクロフォンにより取得されるユーザの入力音声により表された1つ以上の設定項目であって、前記画像処理ユニットに設定されるべき設定項目を特定し、特定した前記1つ以上の設定項目が読上条件を満たすか否かに依存して、前記1つ以上の設定項目を読上げる第1の応答音声、又は前記1つ以上の設定項目のうちの少なくとも1つを読上げない第2の応答音声を前記スピーカから出力させる、音声制御システムが提供される。【選択図】図15
Description
本開示は、音声制御システム、音声制御方法、画像処理装置、音声制御装置及びプログラムに関する。
シートに画像を形成する画像形成装置、及び原稿を読取る画像読取装置などの機器は、ユーザインタフェースを介して検知されるユーザ入力に従って、ジョブを実行する。それにより、ユーザが意図した通りの機器の動作が実現される。しかし、取扱可能な画質の向上と共に、機器の多機能化が年々進展しており、それにつれてジョブの設定項目が増加の一途を辿っている。設定項目の増加は、機器の設定方法に対するユーザの理解及びユーザの作業を煩雑化させ、ユーザに過剰な負担を強いる。
ユーザにとって少ない負担でシステムと対話するための技術として、音声認識に基づくユーザインタフェース(以下、音声UIともいう)が知られている。例えば、特許文献1は、自然言語で与えられるユーザ入力からユーザの意図を解釈することにより、ユーザとの対話を通じて例えばレストラン予約等のサービスを提供することのできる、音声UIを開示している。
しかしながら、音声UIでは、音声認識が常に正確に行われるとは限らないため、認識誤りに起因する誤動作を防止するための対策を講じることを要する。特許文献1では、予約すべきレストランの場所や料理の種類についての音声認識の結果をユーザへの応答に含めることで、誤動作の防止が図られている。しかし、上述したように多機能化した機器において、認識した設定項目の全てを音声で出力したならば、応答音声が冗長となり、ユーザとの円滑な対話が損なわれる。システムからの冗長な応答は、ユーザの負担を却って増加させかねない。
そこで、本開示は、多機能化した機器の設定を音声UIを活用して行う際のユーザの負担を軽減する仕組みを提供することを目的とする。
ある観点によれば、音声を取得するマイクロフォンと、音声を出力するスピーカと、画像処理ユニットと、前記画像処理ユニットの設定を制御する制御手段と、を備え、前記制御手段は、前記マイクロフォンにより取得されるユーザの入力音声により表された1つ以上の設定項目であって、前記画像処理ユニットに設定されるべき設定項目を特定し、特定した前記1つ以上の設定項目が読上条件を満たすか否かに依存して、前記1つ以上の設定項目を読上げる第1の応答音声、又は前記1つ以上の設定項目のうちの少なくとも1つを読上げない第2の応答音声を前記スピーカから出力させる、音声制御システムが提供される。対応する方法、画像処理装置、音声制御装置及びプログラムもまた提供される。
本開示によれば、多機能化した機器の設定を音声UIを活用して行う際のユーザの負担を軽減することができる。
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
<<1.システムの構成例>>
<1−1.システムの全体像>
図1は、一実施形態に係る音声制御システム10の構成の一例を示す概略図である。図1を参照すると、音声制御システム10は、クライアント端末50、音声制御装置100、音声認識サーバ200及び画像処理装置300を含む。図1には、これらの装置及びサーバが1つずつ存在する例を示しているが、音声制御システム10は、より多くの装置及びサーバを含んでもよい。
<1−1.システムの全体像>
図1は、一実施形態に係る音声制御システム10の構成の一例を示す概略図である。図1を参照すると、音声制御システム10は、クライアント端末50、音声制御装置100、音声認識サーバ200及び画像処理装置300を含む。図1には、これらの装置及びサーバが1つずつ存在する例を示しているが、音声制御システム10は、より多くの装置及びサーバを含んでもよい。
ネットワーク20は、クライアント端末50、音声制御装置100、音声認識サーバ200及び画像処理装置300を相互に接続する通信ネットワークである。ネットワーク20は、有線ネットワークであっても無線ネットワークであってもよい。ネットワーク20は、例えばインターネット、LAN(Local Area Network)、WAN(Wide Area Network)若しくはセルラーネットワーク、又はそれらの任意の組合せであってよい。ネットワーク20は、図示しないルータ、ゲートウェイ、プロキシサーバ又は無線LANアクセスポイントといった1つ以上のネットワーク機器を含んでもよい。
クライアント端末50は、音声制御システム10のユーザにより使用される端末装置である。クライアント端末50は、例えばPC(Personal Computer)若しくはスマートフォンのような汎用的な情報端末であってもよく、又は特定の業務目的に特化した専用端末であってもよい。クライアント端末50は、例えば、電子データを画像処理装置300に印刷させるための印刷ジョブの発行、又は画像処理装置300において原稿を読取ることにより生成される読取画像データの受信のために使用されてよい。
音声制御装置100は、ユーザの入力音声の取得と、音声制御システム10からユーザへの応答音声の出力とを制御する装置である。音声制御装置100は、例えばスマートスピーカのような、音声の入出力のための独立した装置であってもよい。また、音声制御装置100は、音声の入出力のためのエージェント機能を搭載した、クライアント端末50と同様の情報端末であってもよい。また、本明細書で説明する音声制御装置100の機能は、画像処理装置300に統合されてもよい。音声制御装置100は、音声対話の開始が指示されると、マイクロフォンを介してユーザの入力音声を取得して入力音声データを生成し、入力音声データを(必要に応じて符号化した後)音声認識サーバ200へ送信する。また、音声制御装置100は、音声認識サーバ200から受信される応答音声データを(必要に応じて復号した後)再生して、応答音声をスピーカを介して出力する。
音声認識サーバ200は、入力音声についての音声認識、及び応答音声の合成を行うサーバ装置である。音声認識サーバ200は、コンピュータ又はワークステーションといった情報処理装置であってよい。音声認識サーバ200は、音声制御装置100から受信される音声データにより表される入力音声を認識して、ユーザの意図を解釈する。そして、音声認識サーバ200は、ユーザが画像処理装置300の操作を意図していると判定した場合に、ユーザの意図を表すデータ(以下、意図データという)を画像処理装置300へ送信する。また、音声認識サーバ200は、画像処理装置300から受信される応答用テキストデータに基づいて応答音声データを合成し、応答音声データを音声制御装置100へ送信する。
画像処理装置300は、例えば、画像形成(印刷)機能及び画像読取(スキャン)機能のうちの少なくとも一方の機能を有する装置である。画像処理装置300の例は、コピー機、デジタルスキャナ、プリンタ、ファクシミリ送信機、及びこれら装置のうちの2つ以上の機能を組合せた複合機を含み得る。画像処理装置300の画像形成機能は、例えばクライアント端末50から受信される印刷ジョブに従って、シートに画像を形成する。原稿読取機能は、例えば原稿台に載置され又はADF(Auto-Document Feeder)にセットされる原稿を読取って画像データを生成し、生成した画像データをクライアント端末50へ送信する。なお、画像処理装置300は、上述した例に限定されず、例えば撮像装置のような、画像を処理する任意の種類の装置であってよい。
<1−2.各装置の構成>
(1)音声制御装置
図2は、本実施形態に係る音声制御装置100の物理的構成の一例を示すブロック図である。図2を参照すると、音声制御装置100は、コントローラ110、マイクロフォン160、スピーカ170及びLED180を備える。コントローラ110は、CPU111、RAM112、ROM113、二次記憶装置114、ネットワークI/F115、マイクロフォンI/F116、オーディオコントローラ117及び報知コントローラ118を含む。内部バス120は、CPU111、RAM112、ROM113、二次記憶装置114、ネットワークI/F115、マイクロフォンI/F116、オーディオコントローラ117及び報知コントローラ118を相互に接続する信号線である。
(1)音声制御装置
図2は、本実施形態に係る音声制御装置100の物理的構成の一例を示すブロック図である。図2を参照すると、音声制御装置100は、コントローラ110、マイクロフォン160、スピーカ170及びLED180を備える。コントローラ110は、CPU111、RAM112、ROM113、二次記憶装置114、ネットワークI/F115、マイクロフォンI/F116、オーディオコントローラ117及び報知コントローラ118を含む。内部バス120は、CPU111、RAM112、ROM113、二次記憶装置114、ネットワークI/F115、マイクロフォンI/F116、オーディオコントローラ117及び報知コントローラ118を相互に接続する信号線である。
CPU(Central Processing Unit)111は、音声制御装置100の動作の全般を制御するプロセッサである。CPU111の制御機能は、例えば、ROM113又は二次記憶装置114に予め記憶され、RAM112にロードされるコンピュータプログラムを実行することにより実現され得る。コンピュータプログラムは、音声制御装置100の外部からダウンロードされてもよい。RAM(Random Access Memory)112は、揮発性のメモリであり、CPU111に作業用の一時的な記憶領域を提供する。ROM(Read Only Memory)113は、不揮発性のメモリであり、例えば音声制御装置100を起動させるためのブートプログラムを記憶する。二次記憶装置114は、RAM112及びROM113と比較して大規模な記憶領域を提供する、補助的な記憶装置である。二次記憶装置114は、例えばSDカードのような、取外し可能な記憶媒体を含んでもよい。ネットワークインタフェース(I/F)115は、音声制御装置100による他の装置との通信のための通信インタフェースである。ネットワークI/F115は、例えばWi−Fi若しくはBluetooth(登録商標)といった無線通信規格に従ってデータを無線で送受信してもよく、又はイーサネット(登録商標)のような有線通信規格に従ってデータを有線で送受信してもよい。無線通信の場合に、ネットワークI/F115は、アンテナ、RF(Radio Frequency)回路及びベースバンド回路を含んでもよい。
マイクロフォンI/F116は、コントローラ110をマイクロフォン160へ接続するための接続インタフェースである。マイクロフォン160は、音声制御装置100が設置されている環境内の音声を取得するための機器である。マイクロフォン160は、例えば、ECM(Electret Condenser Microphones)又はMEMS(Micro-Electrical-Mechanical Systems)マイクロフォンであってもよい。MEMSマイクロフォンは、信頼性が高く小型であることから、例えばスマートフォンのような端末装置において広く採用されている。図2には音声制御装置100が1つのマイクロフォン160を有する例を示しているが、音声制御装置100は、例えば、入力音声の到来方向を推定するために異なる位置に3つ以上のマイクロフォンを有していてもよい。本実施形態は、マイクロフォンの特定の種類及び数には限定されない。マイクロフォン160は、例えば、ユーザにより発声された入力音声を取得して、取得した音声を表す音声信号をマイクロフォンI/F116を介してコントローラ110へ出力する。マイクロフォンI/F116は、音声信号を符号化して入力音声データを生成し、CPU111による制御に従って、入力音声データをRAM112に書込む。
オーディオコントローラ117は、スピーカ170へ接続され、音声制御装置100によるスピーカ170を介した音声の出力を制御するためのコントローラである。スピーカ170は、音声を出力する(又は音声を再生する)ための機器である。図2には音声制御装置100が1つのスピーカ170を有する例を示しているが、音声制御装置100は、例えば、指向性のある音声を出力するために2つ以上のスピーカを有していてもよい。本実施形態は、スピーカの特定の種類及び数には限定されない。オーディオコントローラ117は、CPU111による制御に従って、出力音声データ(例えば、応答音声データ)を復号してアナログ形式の音声信号を生成し、スピーカ170へ音声信号を出力する。スピーカ170は、入力された音声信号に基づいて、環境内へ(例えば、ユーザへ)音声を出力する。なお、本明細書において、音声との用語は、発声され又は合成された音声のみならず、より単純な音をも含むものとする。
報知コントローラ118は、LED180へ接続され、音声制御装置100によるLED180を介したステータスの報知を制御するためのコントローラである。LED(Light-Emitting Diode)180は、光を発する素子であり、発光色及び点灯のパターン(例えば、点灯、点滅又は消灯)によって音声制御装置100のステータスを表現する。報知コントローラ118は、CPU111による制御に従って、例えば待機中、音声入力中及び応答中といった音声制御装置100のステータスを、LED180を用いてユーザへ報知する。なお、音声制御装置100は、ステータスの報知のために、LED180の代わりに、例えば文字、図形及び画像を表示可能なディスプレイを有していてもよい。
(2)音声認識サーバ
図3は、本実施形態に係る音声認識サーバ200の物理的構成の一例を示すブロック図である。図3を参照すると、音声認識サーバ200は、CPU211、RAM212、ROM213、二次記憶装置214及びネットワークI/F215を備える。内部バス220は、CPU211、RAM212、ROM213、二次記憶装置214及びネットワークI/F215を相互に接続する信号線である。
図3は、本実施形態に係る音声認識サーバ200の物理的構成の一例を示すブロック図である。図3を参照すると、音声認識サーバ200は、CPU211、RAM212、ROM213、二次記憶装置214及びネットワークI/F215を備える。内部バス220は、CPU211、RAM212、ROM213、二次記憶装置214及びネットワークI/F215を相互に接続する信号線である。
CPU211は、音声認識サーバ200の動作の全般を制御するプロセッサである。CPU211の制御機能は、例えば、ROM213又は二次記憶装置214に予め記憶され、RAM212にロードされるコンピュータプログラムを実行することにより実現され得る。コンピュータプログラムは、音声認識サーバ200の外部からダウンロードされてもよい。RAM212は、揮発性のメモリであり、CPU211に作業用の一時的な記憶領域を提供する。ROM213は、不揮発性のメモリであり、例えば音声認識サーバ200を起動させるためのブートプログラムを記憶する。二次記憶装置214は、RAM212及びROM213と比較して大規模な記憶領域を提供する、補助的な記憶装置である。二次記憶装置214は、例えばHDD(Hard Disk Drive)又はSDD(Solid State Drive)であってもよい。ネットワークI/F215は、音声認識サーバ200による他の装置との通信のための通信インタフェースである。ネットワークI/F215は、データを無線で送受信してもよく又は有線で送受信してもよい。無線通信の場合に、ネットワークI/F215は、アンテナ、RF回路及びベースバンド回路を含んでもよい。
(3)画像処理装置
図4は、本実施形態に係る画像処理装置300の物理的構成の一例を示すブロック図である。図4を参照すると、画像処理装置300は、コントローラ310、操作パネル360、スキャナ380及びプリンタ390を備える。コントローラ310は、CPU311、RAM312、ROM313、二次記憶装置314、ネットワークI/F315、表示コントローラ316、操作I/F317、スキャナI/F318及びプリンタI/F319を含む。内部バス320は、CPU311、RAM312、ROM313、二次記憶装置314、ネットワークI/F315、表示コントローラ316、操作I/F317、スキャナI/F318及びプリンタI/F319を相互に接続する信号線である。
図4は、本実施形態に係る画像処理装置300の物理的構成の一例を示すブロック図である。図4を参照すると、画像処理装置300は、コントローラ310、操作パネル360、スキャナ380及びプリンタ390を備える。コントローラ310は、CPU311、RAM312、ROM313、二次記憶装置314、ネットワークI/F315、表示コントローラ316、操作I/F317、スキャナI/F318及びプリンタI/F319を含む。内部バス320は、CPU311、RAM312、ROM313、二次記憶装置314、ネットワークI/F315、表示コントローラ316、操作I/F317、スキャナI/F318及びプリンタI/F319を相互に接続する信号線である。
CPU311は、画像処理装置300の動作の全般を制御するプロセッサである。CPU311の制御機能は、例えば、ROM313又は二次記憶装置314に予め記憶され、RAM312にロードされるコンピュータプログラムを実行することにより実現され得る。コンピュータプログラムは、画像処理装置300の外部からダウンロードされてもよい。RAM312は、揮発性のメモリであり、CPU311に作業用の一時的な記憶領域を提供する。ROM313は、不揮発性のメモリであり、例えば画像処理装置300を起動させるためのブートプログラムを記憶する。二次記憶装置314は、RAM312及びROM313と比較して大規模な記憶領域を提供する、補助的な記憶装置である。二次記憶装置314は、例えばHDD又はSDDであってもよい。ネットワークI/F315は、画像処理装置300による他の装置との通信のための通信インタフェースである。ネットワークI/F315は、データを無線で送受信してもよく又は有線で送受信してもよい。無線通信の場合に、ネットワークI/F315は、アンテナ、RF回路及びベースバンド回路を含んでもよい。
表示コントローラ316及び操作I/F317は、操作パネル360へ接続される。表示コントローラ316は、CPU311による制御に従って、操作パネル360にユーザインタフェース(UI)画像を表示させる。操作パネル360は、画像を表示可能な表示デバイスである。操作パネル360は、例えば、ユーザによるタッチ入力を受付けるタッチパネルであってもよい。その代わりに、操作パネル360は、例えばキーパッド及びボタン等の入力デバイスを伴う、例えばLCD(Liquid Crystal Display)のようなディスプレイであってもよい。操作パネル360は、受付けたユーザ入力の内容を示す操作信号を、操作I/F317を介してコントローラ310へ出力する。操作I/F317は、CPU311による制御に従って、操作信号により示されるユーザ入力の内容をRAM312へ書込む。
スキャナI/F318は、コントローラ310をスキャナ380へ接続するための接続インタフェースである。スキャナ380は、原稿を読取って、読取画像の画像データを生成する画像処理ユニットである。即ち、スキャナ380は、画像処理装置300の原稿読取機能を提供する。スキャナ380は、原稿を載置するための原稿台及び原稿を自動的に搬送するADFのうちの一方又は双方(図示せず)を有してよい。スキャナI/F318は、CPU311による制御に従って、原稿の読取りを指示する制御コマンド(ジョブともいう)をスキャナ380へ送信し、スキャナ380から受信される画像データをRAM312へ書込む。
プリンタI/F319は、コントローラ310をプリンタ390へ接続するための接続インタフェースである。プリンタ390は、コントローラ310から受信される画像データに基づいてシートに画像を形成する画像処理ユニットである。即ち、プリンタ390は、画像処理装置300の画像形成機能を提供する。プリンタI/F319は、CPU311による制御に従って、画像の形成を指示する制御コマンドをプリンタ390へ送信し、プリンタ390から受信される画像形成動作の結果をRAM312へ書込む。
<1−3.各装置の機能>
(1)音声制御装置
図5は、本実施形態に係る音声制御装置100の機能面の構成の一例を示すブロック図である。図5を参照すると、音声制御装置100は、通信部121、データ管理部122、音声取得部123、開始検知部125、終了判定部126、音声再生部127、報知部128及び音声制御部130を備える。これら機能ブロックの各々は、例えば、音声制御装置100のCPU111が他のハードウェアと連携しながら対応するコンピュータプログラムを実行することにより実現され得る。
(1)音声制御装置
図5は、本実施形態に係る音声制御装置100の機能面の構成の一例を示すブロック図である。図5を参照すると、音声制御装置100は、通信部121、データ管理部122、音声取得部123、開始検知部125、終了判定部126、音声再生部127、報知部128及び音声制御部130を備える。これら機能ブロックの各々は、例えば、音声制御装置100のCPU111が他のハードウェアと連携しながら対応するコンピュータプログラムを実行することにより実現され得る。
通信部121は、ネットワークI/F115を介して、ネットワーク20に接続される他の装置へデータを送信し、及び他の装置からデータを受信する。例えば、通信部121は、後に説明する入力音声データを音声認識サーバ200へ送信する。また、通信部121は、音声認識サーバ200から応答音声データを受信する。
データ管理部122は、音声制御装置100による音声の入出力の制御のために必要とされるデータを二次記憶装置114を用いて管理する。本明細書において、データの管理とは、例えば所定の記憶領域へのデータの保存、データの更新、データへのアクセスの制限及びデータの読出しを含み得る。例えば、データ管理部122は、音声認識サーバ200との通信に要する認証情報を二次記憶装置114の所定の記憶領域において管理する。
音声取得部123は、マイクロフォン160により取得される音声のアナログ音声信号を音声データへ変換し、音声データをRAM112において一時的に保持する。音声取得部123は、例えば、音声制御装置100及び音声認識サーバ200の双方によりサポートされる音声ファイルフォーマット(例えば、MP3フォーマット)に従って音声データを整形してもよい。
開始検知部125は、音声制御装置100に対するユーザ入力を監視し、検知されるユーザ入力に基づいて、音声制御装置100によるユーザとの音声UIでの対話を開始すべきかを判定する。例えば、開始検知部125は、音声取得部123により取得される音声データに基づいて、ユーザが対話開始のためのウェイクワードを発声したと認識された場合に、ユーザとの対話を開始すべきであると判定してもよい。また、開始検知部125は、例えば、音声制御装置100の入力デバイス(図示せず)に対してユーザが所定の操作を行った(例えば、ボタンを押下した)ことが検知された場合に、ユーザとの対話を開始すべきであると判定してもよい。開始検知部125は、ユーザとの対話を開始すべきであると判定すると、制御開始信号を音声制御部130へ出力する。上記ウェイクワードの文字列又は音声波形は、予め決定され、音声制御装置100に登録される(データ管理部122によりデータとして管理される)。ユーザは、まずウェイクワードを発声し、続いて画像処理装置300の動作を所望の設定内容と共に発声することにより、画像処理装置300を自身の意図の通りに動作させ得る。
終了判定部126は、ユーザからの個々の音声入力の終了タイミングを、音声取得部123により取得される音声データに基づいて判定する。一例として、終了判定部126は、入力される音声信号の特性を既知の音声の特性と比較して、少なくともある期間にわたりユーザ又は人間が発声していないと判定した場合に、個々の音声入力が終了した(発声が途切れた)と判定し得る。ここでの既知の音声の特性とは、音声制御システム10を利用するユーザそれぞれについて予め登録されるユーザ固有の特性であってもよく、又は標準的な人間の(即ち、複数のユーザに共通の)音声の特性であってもよい。他の例として、終了判定部126は、音声取得部123により取得される音声データに基づいて、ユーザが特定のキーワードを発声したと認識された場合に、個々の音声入力が終了したと判定してもよい。また別の例として、終了判定は、音声データに基づいて認識されるユーザの入力音声の意味又は文脈を解析することにより行われてもよい。終了判定部126は、個々の音声入力が終了したと判定した場合、発声終了信号を音声制御部130へ出力する。なお、こうした終了判定は、終了判定部126の代わりに音声認識サーバ200により行われてもよい。これ以降の説明において、音声取得部123により取得される音声にユーザの入力音声が含まれていない期間を空白期間と称する。
音声再生部127は、音声制御部130による制御に従って、通信部121により受信される音声合成データにより表される出力音声を、オーディオコントローラ117及びスピーカ170を用いて再生する。
報知部128は、音声制御部130による制御に従って、報知コントローラ118及びLED180を用いて、ユーザへの様々な報知を行う。例えば、報知部128は、音声対話セッションが継続している期間中、個々の入力音声が検知されている期間中、又は応答音声が出力されている期間中に、LED180を点灯させ、点滅させ又は消灯させてもよい。また、報知部128は、音声対話セッションの開始及び終了といったイベントの発生をLED180を用いてユーザへ報知してもよい。なお、ユーザへの報知は、効果音の出力又はバイブレーションといった他の手段でなされてもよい。
音声制御部130は、音声認識サーバ200と連携して、ユーザの入力音声の取得と、音声制御装置100による応答音声の出力とを制御する。例えば、音声制御部130は、音声取得部123により取得される音声データを通信部121を介して音声認識サーバ200へ送信して、ユーザの入力音声についての認識を音声認識サーバ200へ要求する。また、音声制御部130は、上記要求への応答として音声認識サーバ200から通信部121を介して応答音声データを受信し、受信した応答音声データに基づいて応答音声を音声再生部127に再生させる。
ここで、音声制御部130による制御の下での、ユーザと音声制御装置100との間の音声対話の様子について音声の例を挙げて説明する。音声制御部130による制御は、開始検知部125からの制御開始信号の入力に応じて開始される。音声制御部130は、例えば、終了判定部126から発声終了信号が入力されるまでに音声取得部123により取得される一連の音声の音声データを、ひとまとまりの入力音声データとして扱う。例えば、ユーザが、音声制御装置100に向けてウェイクワードを発声し、続いて「2部フルカラーでコピー」と発声したとする。ウェイクワードは、開始検知部125により認識され、開始検知部125から音声制御部130へ制御開始信号が出力される。音声制御部130は、制御開始信号の入力に応じて、音声取得部123に入力音声の取得を開始させる。音声取得部123は、ウェイクワードに続いて発声された「2部フルカラーでコピー」という入力音声を取得する。終了判定部126は、「2部フルカラーでコピー」の後の空白期間を認識して、発声終了信号を音声制御部130へ出力する。音声制御部130は、発声終了信号の入力に応じて、音声取得部123に入力音声の取得を終了させる。音声取得部123がひとまとまりの入力音声を取得している期間中、報知部128は、例えばLED180を点灯させて、音声入力中というステータスをユーザへ報知する。
次いで、音声制御部130は、一時的にRAM112により保持されていた「2部フルカラーでコピー」という入力音声データを、通信部121を介して音声認識サーバ200へ送信し、音声認識サーバ200からの応答に向けて待機する。音声認識サーバ200から通信部121を介して受信される応答は、後述する音声認識サーバ200により生成される応答音声データを含み得る。応答音声データは、例えば、「原稿をセットして下さい」という応答音声を表すデータである。音声制御部130は、応答音声データを音声再生部127へ出力し、応答音声を音声再生部127に再生させる。その結果、スピーカ170から上記応答音声が出力される。音声再生部127が応答音声を再生している期間中、報知部128は、例えばLED180を点滅させて、応答中というステータスをユーザへ報知する。
音声認識サーバ200からの上記応答は、音声対話セッションを継続するか又は終了するかを示すセッション制御情報を含み得る。音声制御部130は、例えば、セッション制御情報が音声対話セッションを継続すべきことを示す場合、応答音声の再生の終了後に、音声取得部123に入力音声の取得を再び開始させる。この場合、ユーザは、再度ウェイクワードを発声しなくとも、次の音声入力を行うことができる。それにより、ユーザと音声制御装置100との間の自然な音声対話が促進され、ユーザは一連の対話を通じて画像処理装置300の所望の動作のための設定及び指示をシステムに伝えることができる。セッション制御情報が音声対話セッションを終了すべきことを示す場合、音声制御部130は、例えば報知部128にLED180を消灯させ、待機中のステータスへ遷移する。この場合、ユーザは、新たにウェイクワードを発声することにより(又は音声制御装置100に対し所定の操作をすることにより)、音声対話を再開することができる。
(2)音声認識サーバ
図6は、本実施形態に係る音声認識サーバ200の機能面の構成の一例を示すブロック図である。図6を参照すると、音声認識サーバ200は、通信部221、データ管理部222、装置管理部223、音声認識部224及び音声合成部225を備える。これら機能ブロックの各々は、例えば、音声認識サーバ200のCPU211が他のハードウェアと連携しながら対応するコンピュータプログラムを実行することにより実現され得る。
図6は、本実施形態に係る音声認識サーバ200の機能面の構成の一例を示すブロック図である。図6を参照すると、音声認識サーバ200は、通信部221、データ管理部222、装置管理部223、音声認識部224及び音声合成部225を備える。これら機能ブロックの各々は、例えば、音声認識サーバ200のCPU211が他のハードウェアと連携しながら対応するコンピュータプログラムを実行することにより実現され得る。
通信部221は、ネットワークI/F215を介して、ネットワーク20に接続される他の装置へデータを送信し、及び他の装置からデータを受信する。例えば、通信部221は、入力音声データを音声制御装置100から受信する。また、通信部221は、後に説明する音声認識部224により生成される意図データを、画像処理装置300へ送信する。また、通信部221は、画像処理装置300から応答用テキストデータを受信する。また、通信部221は、音声制御装置100へ、上述したセッション制御情報を含み得る応答音声データを送信する。
データ管理部222は、音声認識サーバ200による音声の認識及び合成のために必要とされるデータを二次記憶装置214を用いて管理する。例えば、データ管理部222は、音声認識サーバ200との通信に要する認証情報を二次記憶装置214の所定の記憶領域において管理する。また、データ管理部222は、入力音声データにより表される入力音声を、音声認識結果としてのテキストデータへ変換するための、例えば音響モデル、言語モデル及び単語辞書データを管理する。また、本実施形態において、データ管理部222は、音声認識結果として導出されるテキストデータから、ユーザの意図を表す意図データを生成するために使用される、後に図8〜図13を用いて説明する意図解釈用データセットを管理する。また、データ管理部222は、応答用テキストデータから応答音声データを生成するための音声合成辞書データを管理する。
装置管理部223は、音声制御システム10に含まれる装置の間の相互接続を管理する。例えば、装置管理部223は、クライアント端末50、音声制御装置100及び画像処理装置300の各々の識別情報、アドレス情報及び認証情報を管理する。また、装置管理部223は、音声制御装置100と画像処理装置300との間の対応関係(例えば、1対多の関係)を、識別情報同士をマッピングする情報を保持することにより管理する。装置管理部223は、音声制御装置100による音声対話の履歴及び画像処理装置300によるジョブ実行の履歴といった履歴情報をさらに管理してもよい。加えて、装置管理部223は、音声制御システム10又は個々の装置を利用することが許容されるユーザの認証情報を管理してもよい。
音声認識部224は、音声制御装置100から受信される入力音声データを、公知の音声認識技術を用いて、音声認識結果としての入力テキストデータへ変換する。例えば、音声認識部224は、入力音声データにより表される入力音声の波形及びその他の特徴量を音響モデルと照合し、一連の音素を抽出する。また、音声認識部224は、単語辞書データを用いた形態素解析、構文解析、意味解析及び文脈解析を通じて、一連の音素が表すテキストを認識する。音声認識結果として導出される入力テキストデータは、このように認識され得るテキストを表す。さらに、音声認識部224は、入力音声がユーザのどのような意図を表現しているのかを、後に詳しく説明する意図解釈用データセットを用いて認識する。そして、音声認識部224は、ユーザの意図の認識結果を示す意図データを生成し、生成した意図データを通信部221を介して画像処理装置300へ送信する。
音声合成部225は、画像処理装置300から受信される応答用テキストデータに基づいて、応答音声を合成する。応答用テキストデータは、音声制御装置100により読上げられるべき音声の内容をテキスト形式で表すデータである。より具体的には、音声合成部225は、データ管理部222により管理される音声合成辞書データを用いて、応答用テキストデータを音声制御装置100により再生可能な音声データへと変換することにより、応答音声データを生成する。音声合成部225は、生成した応答音声データを、例えばMP3フォーマットのような音声ファイルフォーマットに従って整形してもよい。
音声認識部224による入力テキストデータに基づくユーザの意図の認識は、意図解釈用データセットに含まれるインテント一覧及びエンティティ一覧を用いて行われる。インテント一覧は、ユーザの入力音声の内容を、画像処理装置300により実行可能な動作を基準としていくつかの意図の類型のうちの1つに分類するために、入力テキストデータと照合されるテキストの一覧である。以下の説明において、ユーザの意図の類型の各々をインテントと称する。
図8及び図9は、インテント一覧の例を示している。インテント一覧は、インテントID(Intent ID)及び発話内容(Utternance)という2つのデータ項目を有する。インテントIDは、各インテントを識別するための識別子である。発話内容は、分類のために入力テキストデータと照合されるテキストのサンプルである。図8及び図9から理解されるように、インテント一覧において、1つのインテントIDについて複数の発話内容が定義可能である。これにより、同じ意図が異なる言い回しで表現される状況においてユーザの意図を正しい類型に分類することが可能となる。各発話内容は、図中で波括弧で囲まれたエンティティIDを含み得る。エンティティIDは、プレースホルダの役割を有し、このプレースホルダには、エンティティ一覧においてエンティティIDに関連付けられているいずれかの語が代入される。
図10〜図12は、エンティティ一覧の例を示している。エンティティ一覧は、エンティティID(Entity ID)、値ID(Value ID)、値(Value)及び同義語(Synonyms)という4つのデータ項目を有する。エンティティIDは、各エンティティを識別するための識別子である。値IDは、各エンティティに関連付けられる語を識別するための識別子である。値は、値IDにより識別される語を表す文字列である。同義語は、同じ語の言い換えを表す文字列である。このように、意味的には1つの語について表現の異なる1つ以上の同義語を定義可能とすることで、同じ動作又は同じ設定が異なる言い回しで表現される状況においてユーザの意図した指示内容を適切に解釈することが可能となる。
具体的には、音声認識部224は、入力テキストデータと、インテント一覧に含まれる各インテントにエンティティ一覧に含まれる各エンティティの値又は同義語を代入して得られるテキストサンプルとの間の類似度を算出する。そして、音声認識部224は、予め設定される閾値を上回る類似度を示すテキストサンプルに対応するインテントに、入力音声を分類する。同時に、音声認識部224は、そのテキストサンプルが含むエンティティのエンティティID及び値IDを取得する。複数のテキストサンプルの類似度が閾値を上回る場合には、類似度の最も高い1つのテキストサンプルが選択されてもよく、又は類似度の高い順に数個のテキストサンプルが認識結果の候補として選択されてもよい。このようにして、音声認識部224は、入力音声により表されるユーザの意図の知識表現を獲得する。例えば、「2部フルカラーでコピー」という入力音声が得られたものとする。音声認識部224は、「2部フルカラーでコピー」という入力テキストデータをインテント一覧及びエンティティ一覧と照合する。この入力テキストデータは、インテントID「Copy_with_2_settings」で識別される発話内容「{NUMBER}部{ColorMode}で{CopyOperation}」に一致する。当てはまるエンティティは、それぞれ{NUMBER}=2、{ColorMode}=cm_00005(フルカラー)、{CopyOperation}=copy_00000(コピー)である。よって、ユーザの意図は、インテント「Copy_with_2_settings」、第1エンティティ「2」、第2エンティティ「cm_00005」及び第3エンティティ「copy_00000」の組合せとして認識される。音声認識部224は、このような認識結果を記述した意図データを生成する。なお、エンティティ一覧において、「コピー」も「複写」も共にエンティティID「copy_00000」に関連付けられているため、入力音声が「2部フルカラーで複写」であったとしても同じ認識結果が獲得され得る。
図13は、音声認識部224により生成され得る意図データのいくつかの例を示している。意図データは、構造化された複数のデータフィールドを含むデータである。意図データの1番目のデータフィールドは、入力音声が分類されたインテントを表し、フィールド名“Intent ID”及び区切り文字“:”に続いて、インテントIDが記述される。意図データの2番目のデータフィールドは、ゼロ又は1つ以上のエンティティを表し、フィールド名“Entities”及び区切り文字“:”に続いて、エンティティID及び値IDのペアが列挙される。図13の意図データ231は、インテント「Copy_simple」、及び1つのエンティティ{CopyOperation}=copy_00000を含む。これは、画像処理装置300に単にコピーを指示しようとしたユーザの意図を表す。意図データ232は、インテント「Copy_with_noc」、及び2つのエンティティ{NUMBER}=2、{CopyOperation}=copy_00000を含む。これは、画像処理装置300に2部のコピーを指示しようとしたユーザの意図を表す。意図データ233は、インテント「Copy_with_4_settings」及び6つのエンティティを含む。なお、意図データの構成は、図13に示した例には限定されない。例えば、音声認識部224は、意図データに認識結果の複数の候補を含めてもよい。また、音声認識部224は、各インテント又は各エンティティについて算出した入力とサンプルとの間の類似度を意図データに追加的に含めてもよい。
(3)画像処理装置
図7は、本実施形態に係る画像処理装置300の機能面の構成の一例を示すブロック図である。図7を参照すると、画像処理装置300は、通信部321、データ管理部322、表示制御部323、スキャナ制御部324、プリンタ制御部325及びジョブ制御部330を備える。これら機能ブロックの各々は、例えば、画像処理装置300のCPU311が他のハードウェアと連携しながら対応するコンピュータプログラムを実行することにより実現され得る。
図7は、本実施形態に係る画像処理装置300の機能面の構成の一例を示すブロック図である。図7を参照すると、画像処理装置300は、通信部321、データ管理部322、表示制御部323、スキャナ制御部324、プリンタ制御部325及びジョブ制御部330を備える。これら機能ブロックの各々は、例えば、画像処理装置300のCPU311が他のハードウェアと連携しながら対応するコンピュータプログラムを実行することにより実現され得る。
通信部321は、ネットワークI/F315を介して、ネットワーク20に接続される他の装置へデータを送信し、及び他の装置からデータを受信する。例えば、通信部321は、上述した意図データを音声認識サーバ200から受信する。また、通信部321は、音声認識サーバ200へ応答用テキストデータを送信する。また、通信部321は、クライアント端末50からジョブの実行を指示する指示信号を受信する。また、通信部321は、クライアント端末50へ読取画像データを送信する。
データ管理部322は、画像処理装置300による画像形成及び原稿読取りのために必要とされるデータを二次記憶装置314を用いて管理する。例えば、データ管理部322は、画像処理装置300が有する画像処理機能の設定のための設定データ、実行すべきジョブのためのジョブデータ、及び音声認識サーバ200との通信に要する認証情報を管理する。
表示制御部323は、表示コントローラ316を介して操作パネル360による画像(例えば、UI画像)の表示を制御する。また、表示制御部323は、操作パネル360から操作I/F317を介して受付けられる操作信号により示されるユーザ入力の内容を解釈して、画像処理装置300の適切な機能ブロックへユーザ入力を振り分ける。また、表示制御部323は、ジョブ制御部330からの要求に応じて、操作パネル360の表示内容を更新する。
スキャナ制御部324は、ジョブ制御部330による制御に従って、スキャナI/F318を介してスキャナ380に原稿を読取らせ、生成される読取画像の画像データをデータ管理部322へ出力する。また、スキャナ制御部324は、スキャナI/F318を介してスキャナ380の動作ステータスを取得する。
プリンタ制御部325は、ジョブ制御部330による制御に従って、プリンタI/F319を介してプリンタ390に画像を形成させる。また、プリンタ制御部325は、プリンタI/F319を介してプリンタ390の動作ステータスを取得する。
ジョブ制御部330は、音声制御システム10によりユーザへ提供されるUIを用いてユーザと対話しながら、スキャナ380及びプリンタ390によるジョブの設定及び実行を制御する。音声制御システム10によりユーザへ提供されるUIは、音声制御装置100を介して提供される音声UI、及び画像処理装置300の操作パネル360を介して提供されるGUIを含み得る。ジョブ制御部330は、例えばGUI上でジョブの実行が指示された場合に、操作I/F317を介して入力される操作信号に応じて、スキャナ制御部324及びプリンタ制御部325の一方又は双方に、指示されたジョブに対応する動作を開始させる。また、ジョブ制御部330は、スキャナ制御部324及びプリンタ制御部325からスキャナ380及びプリンタ390の動作ステータスを収集し、それぞれの動作ステータスを表示制御部323を介して操作パネル360に表示させる。
また、ジョブ制御部330は、音声認識サーバ200から意図データが受信された場合に、意図データにより示されるユーザの意図に従って、スキャナ制御部324及びプリンタ制御部325の一方又は双方に、指示されたジョブに対応する動作を開始させる。例えば、図8及び図9に示したインテント一覧によれば、{CopyOperation}というエンティティを含むインテントは、コピージョブが実行されるべきことを示す。同様に、{ScanOperation}及び{PrintOperation}の双方を含むインテントもまた、コピージョブが実行されるべきことを示す。{PrintOperation}というエンティティを含むインテントは、印刷ジョブが実行されるべきことを示す。{ScanOperation}というエンティティを含むインテントは、読取ジョブが実行されるべきことを示す。なお、実質的には、コピージョブは、印刷ジョブ及び読取ジョブの組合せであり得る。
ジョブの各々は、ゼロ又は1つ以上の設定項目を含む。ジョブ制御部330は、意図データに記述されているエンティティID及び値IDに基づいて、ジョブの実行時に設定されるべきそれら設定項目を特定する。それら設定項目は、音声制御装置100のマイクロフォン160により取得されたユーザの入力音声により表された項目である。例えば、図13に示した意図データ231が受信された場合、ユーザは、設定項目を指定することなく単にコピージョブの実行を指示している。この場合、ジョブ制御部330は、既定の設定(又は前回の実行と同じ設定)を使用すべきことを示すコピージョブをスキャナ制御部324及びプリンタ制御部325へ出力し得る。なお、ジョブ制御部330は、スキャナ380及びプリンタ390の動作ステータスに依存して、コピージョブの実行を指示する代わりに、実行を保留し又は拒否してもよい。意図データ232が受信された場合、ユーザは、2部という部数を設定してコピージョブを実行することを指示している。この場合、ジョブ制御部330は、「部数=2部」という1つの設定項目を含むコピージョブをスキャナ制御部324及びプリンタ制御部325へ出力し得る。意図データ233が受信された場合、ユーザは、カラーモード、用紙の面、部数、位置及び後処理という5つの設定項目を設定してコピージョブを実行することを指示している。この場合、ジョブ制御部330は、これら5つの設定項目を含むコピージョブをスキャナ制御部324及びプリンタ制御部325へ出力し得る。
上で説明したような音声UIで画像処理ユニットの設定を制御するケースでは、音声認識の誤りに起因する誤動作を防止するための対策を講じることが望ましい。ユーザとの自然な対話を維持するために、通常、音声認識の結果をユーザへの応答に含めることで誤動作の防止が図られる。本実施形態においても、ジョブ制御部330は、意図データの受信に対する応答として、音声制御装置100により読上げられるべき応答音声の内容を表す応答用テキストデータを生成し、生成した応答用テキストデータを音声認識サーバ200へ返送する。
しかし、スキャナ380及びプリンタ390は、ユーザが指定することのできる多くの設定項目を有する。図13の意図データ231及び232のケースのように指定された設定項目の個数が少ない場合には、認識された設定項目の全てを復唱するような応答音声を出力しても、円滑な対話は損なわれない。しかし、意図データ233のケースのように指定された設定項目の個数が多い場合、認識された設定項目の全てを復唱すると、応答が冗長となり、円滑な対話が損なわれ、ユーザの負担が増加し得る。そこで、本実施形態において、ジョブ制御部330は、意図データから特定した1つ以上の設定項目がある読上条件を満たすか否かを判定する。そして、ジョブ制御部330は、その判定の結果に依存して、特定した設定項目を読上げるための第1の応答音声、又は特定した設定項目のうちの少なくとも1つを読上げない第2の応答音声を、音声制御装置100のスピーカ170から出力させる。ここでの読上条件は、典型的には、特定した設定項目を読上げたならば応答音声が冗長となるか否かを、応答音声の長さに関連する特徴量を用いて(例えば、特徴量と閾値との比較によって)判定するような条件である。応答音声が冗長とはならないと判定される場合、ジョブ制御部330は、第1の応答音声のための応答用テキストデータを生成する。一方、応答音声が冗長となると判定される場合、ジョブ制御部330は、第2の応答音声のための応答用テキストデータを生成する。
後述する第1の実施例では、上記読上条件は、入力音声に基づいてジョブに設定されるべき設定項目の個数と閾値との比較に基づく条件を含む。第2の実施例では、上記読上条件は、特定した設定項目を読上げた場合の読上単語数若しくは読上文字数と閾値との比較に基づく条件、又は特定した設定項目を読上げた場合の読上時間長と閾値との比較に基づく条件を含む。これら実施例について、対話の進行及び処理の流れを例示するいくつかの図と共に、後にさらに説明する。
ジョブ制御部330は、上記第2の応答音声を音声制御装置100に出力させる場合に、意図データから特定した1つ以上の設定項目を示す設定確認画面を操作パネル360に表示することを、表示制御部323に指示してもよい。この場合の上記第2の応答音声は、設定確認画面の確認をユーザに求める音声を含んでもよい。即ち、応答音声が冗長となることを避けるために少なくとも1つの設定項目の読上げが省略される場合、ジョブ制御部330は、設定の誤ったジョブの実行を防止するために、音声UIと共にGUIを活用して、設定に誤りが無いかの確認をユーザに求める。それにより、音声UIを介するユーザとの円滑な対話と、多機能化した機器の正確な動作とを両立することが可能となる。
ジョブ制御部330から音声認識サーバ200へ応答用テキストデータが送信されると、応答用テキストデータにより表される応答音声が、スピーカ170から出力される。ジョブ制御部330は、応答音声に対するユーザの反応を示すユーザ入力(音声入力、又はGUI上の操作)を待受ける。ジョブ制御部330は、ジョブの続行を指示するユーザ入力が検知された場合(そのような意図データが受信され又は操作信号が入力された場合)、当初特定した通りの設定項目を含むジョブを、当該ジョブを処理すべき画像処理ユニットへ出力する。一方、ジョブ制御部330は、設定項目の訂正を指示するユーザ入力が検知された場合には、その訂正をジョブに反映して、ジョブの実行を開始する。設定項目の訂正が音声UIを介して指示された場合には、ジョブ制御部330は、応答用テキストデータを再度返送して、ユーザに訂正内容の確認を求めてもよい。また、ジョブ制御部330は、一定の期間を経過してもユーザ入力が検知されない場合、当初特定した通りの設定項目を含むジョブを、当該ジョブを処理すべき画像処理ユニットへ出力してもよい。その代わりに、ジョブ制御部330は、ユーザ入力が検知されない場合に、ジョブの実行を中止してもよい。
ジョブ制御部330は、応答用テキストデータと共に、音声対話セッションを継続するか否かを示すセッション制御情報を、通信部321を介して音声認識サーバ200へ送信してもよい。ジョブ制御部330は、1つのセッションを通じて、対応するジョブの制御の状態(例えば、設定項目確認中といったジョブのステータス、並びにインテントID、エンティティID及び値IDといったジョブパラメータ)をメモリ上に維持する。セッションは、例えばジョブの実行の終了又はジョブの中止といったタイミングで終了し得る。
<<2.処理の流れ>>
<2−1.全体的な流れ>
図14は、本実施形態に係る音声制御システム10において実行され得る音声制御処理の全体的な流れの一例を示すシーケンス図である。ここでの音声制御処理には、音声制御装置100、音声認識サーバ200及び画像処理装置300が関与する。なお、以下の説明では、処理ステップをS(ステップ)と略記する。
<2−1.全体的な流れ>
図14は、本実施形態に係る音声制御システム10において実行され得る音声制御処理の全体的な流れの一例を示すシーケンス図である。ここでの音声制御処理には、音声制御装置100、音声認識サーバ200及び画像処理装置300が関与する。なお、以下の説明では、処理ステップをS(ステップ)と略記する。
まず、S1401で、音声制御装置100は、ユーザからの音声入力の受付けを開始する。例えば、音声制御装置100の開始検知部125は、ユーザがウェイクワードを発声したと認識したことに応じて、制御開始信号を音声制御部130へ出力し、それにより音声対話セッションが開始され得る。
次いで、S1402で、音声制御装置100のマイクロフォン160は、ユーザの入力音声を取得する。音声取得部123は、取得された入力音声の入力音声データを生成する。入力音声データの生成は、終了判定部126により音声入力の終了が検知されるまで継続され得る。
次いで、S1403で、音声制御部130は、S1402で生成された入力音声データを音声認識サーバ200へ送信する。なお、音声制御部130は、ひとまとまりの入力音声データを、終了判定部126により音声入力の終了が検知された後にまとめて送信してもよい。その代わりに、音声制御部130は、音声入力の終了タイミングを待つこと無く、入力音声データの断片を順次音声認識サーバ200へ送信してもよい。音声認識サーバ200の音声認識部224は、このような入力音声データを通信部221を介して受信する。
次いで、S1404で、音声認識部224は、入力音声データについて音声認識を実行して入力音声データを入力テキストデータへ変換し、さらに入力テキストデータに基づいて意図データを生成する。
次いで、S1405で、音声認識部224は、通信部221を介して画像処理装置300へ意図データを送信する。画像処理装置300のジョブ制御部330は、意図データを通信部321を介して受信する。
次いで、S1406で、ジョブ制御部330は、受信した意図データに対して応答するための応答生成処理を実行して、応答用テキストデータを生成する。ここで実行される応答生成処理の具体的ないくつかの実施例について、後にさらに説明する。また、S1407で、ジョブ制御部330は、意図データにより示されたユーザの意図に従って、画像処理装置300の画像形成機能及び原稿読取機能の一方又は双方を制御する。なお、図中に点線で示したように、S1407はオプションである。即ち、画像処理装置300の機能の制御は、必ずしも意図データが受信される都度行われなくてもよく、例えば音声対話セッションの最後に一度だけ行われてもよい。
次いで、S1408で、ジョブ制御部330は、応答生成処理によって生成した応答用テキストデータを、通信部321を介して音声認識サーバ200へ送信する。音声認識サーバ200の音声合成部225は、応答用テキストデータを通信部221を介して受信する。なお、ジョブ制御部330は、S1408において、上述したように、応答用テキストデータと共にセッション制御情報を音声認識サーバ200へ送信してもよい。
次いで、S1409で、音声合成部225は、受信した応答用テキストデータを読上げる応答音声を合成し、合成した応答音声を表す応答音声データを生成する。ここで生成される応答音声データは、例えば、1つ以上の設定項目の全てを読上げる省略なしの応答音声(第1の応答音声)、又は少なくとも1つの設定項目を読上げない省略ありの応答音声(第2の応答音声)を表し得る。
次いで、S1410で、音声合成部225は、生成した応答音声データを、通信部221を介して音声制御装置100へ送信する。音声制御装置100の音声制御部130は、応答音声データを(セッション制御情報と共に)通信部121を介して受信する。
次いで、S1411で、音声制御部130は、受信した応答音声データに基づいて音声再生部127に応答音声を再生させ、それにより応答音声がスピーカ170から出力される。
図14において符号S1420で示した1往復分の対話は、ユーザにより対話が中止される場合を除いて、音声対話セッションを継続すべきことをセッション制御情報が示している限り、反復的に行われ得る。音声対話セッションを終了すべきことをセッション制御情報が示す場合には、音声制御部130は、音声対話セッションを終了し、待機中の状態へ遷移し得る。開始検知部125により新たにウェイクワードが検知されると、音声対話セッションは再び開始する。
<2−2.第1の実施例>
上述したように、本実施形態において、画像処理装置300のジョブ制御部330は、音声UIを通じて特定された1つ以上の設定項目がある読上条件を満たすか否かを判定する。ここでの読上条件とは、ユーザへの応答の際に、特定した1つ以上の設定項目の全てを読上げるべきか、又は少なくとも1つの設定項目の読上げを省略すべきかを決定するための条件である。第1の実施例において、この読上条件は、入力音声に基づいて画像処理ユニットに設定されるべき設定項目の個数と閾値との比較に基づく条件を含むものとする。
上述したように、本実施形態において、画像処理装置300のジョブ制御部330は、音声UIを通じて特定された1つ以上の設定項目がある読上条件を満たすか否かを判定する。ここでの読上条件とは、ユーザへの応答の際に、特定した1つ以上の設定項目の全てを読上げるべきか、又は少なくとも1つの設定項目の読上げを省略すべきかを決定するための条件である。第1の実施例において、この読上条件は、入力音声に基づいて画像処理ユニットに設定されるべき設定項目の個数と閾値との比較に基づく条件を含むものとする。
図15は、図14のS1406で実行され得る、第1の実施例に係る応答生成処理の詳細な流れの一例を示すフローチャートである。ここでの応答生成処理は、例えば、画像処理装置300のCPU311がRAM312にロードされるコンピュータプログラムを実行することにより、ジョブ制御部330の処理として実現され得る。
まず、ジョブ制御部330は、図14のS1405で音声認識サーバ200から意図データが受信されたことをトリガとして、S1501で、画像処理装置300の様々なステータスを収集する。例えば、ジョブ制御部330は、スキャナ380の動作ステータスをスキャナ制御部324から、プリンタ390の動作ステータスをプリンタ制御部325から、操作パネル360の表示ステータスを表示制御部323から取得し得る。
次いで、S1502で、ジョブ制御部330は、収集した上記ステータスに基づいて、意図データにより示されているユーザにより意図された動作は実行可能であるか否かを判定する。例えば、意図データが印刷ジョブに関連付けられるインテントIDを含むにも関わらず、プリンタが何らかの原因(例えば、シート等の消耗材の不足又は先行する未完了のジョブの存在)で動作できない場合、意図された動作は実行可能ではないと判定され得る。ユーザにより意図された動作が実行可能ではないと判定された場合、処理はS1503へ進む。一方、ユーザにより意図された動作が実行可能であると判定された場合、処理はS1504へ進む。
S1503で、ジョブ制御部330は、ユーザにより意図された動作が実行可能ではないため、動作実行不能を表す応答音声のための応答用テキストデータを生成する。例えば、コピージョブの実行が意図された場合において、コピージョブが実行不能である場合には、「現在、コピージョブを実行できません」という応答用テキストデータが生成され得る。なお、ここで生成される応答用テキストデータは、動作が実行不能である理由を読上げる音声を含んでもよい。
一方、S1504では、ジョブ制御部330は、ユーザにより意図された動作が実行可能であるため、ユーザにより1つ以上の設定項目が指定されたか否かを、意図データに基づいて判定する。指定された設定項目の個数は、例えば、意図データに含まれるエンティティIDのうちで設定項目を表すものとして予め定義されたエンティティIDの個数であってもよい。例えば、図13の意図データ232の例では、エンティティID「NUMBER」が設定項目を表すものとして予め定義され、設定項目の個数は1であると判定され得る。意図データ233の例では、設定項目の個数は5であると判定され得る。一方、意図データ231の例では、エンティティID「CopyOperation」は設定項目を表すものとしては定義されず、よって設定項目の個数はゼロであると判定され得る。なお、「CopyOperation」のようなジョブの種別を表す項目も、設定項目の1つとしてカウントされてもよい。ここで、設定項目が何も指定されなかったと判定された場合、処理はS1505へ進む。一方、ユーザにより1つ以上の設定項目が指定されたと判定された場合、処理はS1506へ進む。
S1505で、ジョブ制御部330は、ユーザにより設定項目が何も指定されなかったため、ユーザにより意図された動作(インテントIDに基づいて特定した動作)の実行前の確認をユーザに求める応答音声のための応答用テキストデータを生成する。例えば、コピージョブの実行が意図された場合において、何も設定項目が指定されなかった場合には、「既定の設定でコピーを実行します」という応答用テキストデータが生成され得る。
一方、S1506では、ジョブ制御部330は、意図データから特定した設定項目の個数が閾値を上回るか否かを判定する。ここでは、限定ではないものの、読上条件の判定に用いられる閾値は、2であるものとする。この場合、図13の意図データ232のケースでは、設定項目の個数は1であり閾値を下回るため、ジョブ制御部330は、読上条件が満たされないと判定し得る。対照的に、図13の意図データ233のケースでは、設定項目の個数は5であり閾値を上回るため、ジョブ制御部330は、読上条件が満たされると判定し得る。設定項目の個数が閾値を上回らないと判定された場合、処理はS1507へ進む。一方、設定項目の個数が閾値を上回ると判定された場合、処理はS1508へ進む。
S1507で、ジョブ制御部330は、意図データから特定した設定項目の全てを読上げる応答音声のための応答用テキストデータを生成する。例えば、図13の意図データ232のケースでは、「3部でコピーを実行してよろしいですか」という応答用テキストデータが生成され得る。
一方、S1508では、ジョブ制御部330は、意図データから特定した設定項目(例えば、設定項目の全て)を示す設定確認画面を、表示制御部323を介して操作パネル360に表示させる。ここで表示される設定確認画面は、例えば、設定項目の名称と値のペアを一覧化した画面であり得る。また、ジョブ制御部330は、S1509で、少なくとも1つの設定項目を読上げない応答音声のための応答用テキストデータを生成する。ここでは、例えば、「操作パネルをご確認下さい。この設定でコピーを実行してよろしいですか」という応答用テキストデータが生成され得る。
ジョブ制御部330は、上述したS1503、S1505、S1507又はS1509において生成した応答用テキストデータを、図14のS1408で音声認識サーバ200へ送信する。
図16及び図17は、本実施例におけるシステムとユーザとの間の対話の例をGUIのサンプルと共に示すシーケンス図である。図16のシナリオでは、ユーザが閾値に満たない個数の設定項目のみを入力音声で指定したため、音声認識の結果として特定された設定項目の全てを読上げる応答音声が出力される。その応答音声の出力と共に、設定項目の確認のためのGUIは表示されない。対照的に、図17のシナリオでは、ユーザが閾値を上回る個数の設定項目を入力音声で指定したため、音声認識の結果として特定された設定項目の読上げが省略された応答音声が出力される。その応答音声の出力と共に、設定項目の確認のためのGUIが表示される。
図16のシナリオでは、まず、S1601で、ユーザは、音声制御装置100へ向けてウェイクワードを発声し、そのウェイクワードの検知をトリガとして音声対話セッションが開始される。ウェイクワードに続けて、ユーザは、S1602で、画像処理装置300による実行を望む動作の内容を表す「コピーを3部」という音声を発声する。この音声は、音声制御装置100のマイクロフォン160により入力音声として取得され、音声認識サーバ200による音声認識の後、音声認識の結果を示す意図データが画像処理装置300へ提供される。
S1603で、画像処理装置300のジョブ制御部330は、受信した意図データにより示されるユーザの意図に従って、図15を用いて説明した応答生成処理を実行する。ここでは、意図データから特定される設定項目の個数が閾値(例えば、2)を上回らないことから、ジョブ制御部330は、省略なしの応答音声のための応答用テキストデータ生成する。例えば、応答用テキストデータは、「3部コピーを実行してよろしいですか」という応答音声の内容を示す。S1604で、音声制御装置100は、当該応答用テキストデータに基づいて合成された応答音声データを用いて、省略なしの応答音声をスピーカ170から出力する。応答音声の出力の後、音声対話セッションは継続される。また、ジョブ制御部330は、未実行のジョブの設定項目の値を一時的に保持しておく。
次いで、S1605で、上記応答音声を聞いたユーザは、確認を求められた設定項目に誤りが無いことをシステムへ伝えるために、「はい」という音声を発声する。この音声もまた、マイクロフォン160により入力音声として取得され、音声認識サーバ200による音声認識の後、音声認識の結果を示す意図データが画像処理装置300へ提供される。
S1606で、ジョブ制御部330は、設定項目に誤りが無いことが確認されたため、コピージョブの実行を開始する。その際、ジョブ制御部330は、指定されたジョブの実行開始をユーザに通知するために、例えば「コピーの実行を開始します」という応答音声の内容を示す応答用テキストデータを生成する。S1607で、当該応答用テキストデータにより示される内容の応答音声がスピーカ170から出力される。
また、ジョブ制御部330は、S1608で、一時的に保持していた設定項目の値をコピージョブに設定して対応する画像処理ユニットへ出力することにより、ユーザが望んだ通りの制御を実行する。S1608は、S1607と並列的に実行されてよい。さらに、ジョブ制御部330は、ジョブの実行状況を示す実行状況画面361を、操作パネル360に表示させる。実行状況画面361の表示内容は、ジョブの進行に沿って適宜更新され得る。
その後、画像処理装置300においてコピージョブの実行が終了すると、ジョブ制御部330は、ジョブの実行終了をユーザに通知するために、例えば「コピーの実行を終了しました」という応答音声の内容を示す応答用テキストデータを生成する。そして、S1609で、当該応答用テキストデータにより示される内容の応答音声がスピーカ170から出力される。
図17のシナリオにおいても、まず、S1701で、ユーザは、音声制御装置100へ向けてウェイクワードを発声し、そのウェイクワードの検知をトリガとして音声対話セッションが開始される。ウェイクワードに続けて、ユーザは、S1702で、画像処理装置300による実行を望む動作の内容を表す「フルカラー両面4部ステープルでコピーして」という音声を発声する。この音声は、音声制御装置100のマイクロフォン160により入力音声として取得され、音声認識サーバ200による音声認識の後、音声認識の結果を示す意図データが画像処理装置300へ提供される。
S1703で、画像処理装置300のジョブ制御部330は、受信した意図データにより示されるユーザの意図に従って、図15を用いて説明した応答生成処理を実行する。ここでは、意図データから特定される設定項目の個数が上記閾値を上回ることから、ジョブ制御部330は、省略ありの応答音声のための応答用テキストデータ生成する。例えば、応答用テキストデータは、「この設定でコピーを実行してよろしいですか」という応答音声の内容を示す。S1704で、音声制御装置100は、当該応答用テキストデータに基づいて合成された応答音声データを用いて、省略ありの応答音声をスピーカ170から出力する。また、ジョブ制御部330は、応答音声の出力に合わせて、設定確認画面362を操作パネル360に表示させる。図17の例では、設定確認画面362において、意図データから特定された4つの設定項目の名称と値とが列挙されている。S1704で出力される応答音声は、設定確認画面362を確認することをユーザに求める音声を含んでもよい。応答音声の出力の後、音声対話セッションは継続される。また、ジョブ制御部330は、未実行のジョブの設定項目の値を一時的に保持しておく。
次いで、S1705で、上記応答音声を聞いたユーザは、確認を求められた設定項目に誤りが無いことをシステムへ伝えるために、「はい」という音声を発声する。この音声もまた、マイクロフォン160により入力音声として取得され、音声認識サーバ200による音声認識の後、音声認識の結果を示す意図データが画像処理装置300へ提供される。なお、ユーザは、S1705での発声の代わりに、設定確認画面362を操作することにより(例えば、「続行」ボタンをタッチすることにより)、設定項目に誤りが無いことをシステムへ伝えてもよい。
S1706で、ジョブ制御部330は、設定項目に誤りが無いことが確認されたため、コピージョブの実行開始を通知するための応答用テキストデータを生成する。その後のS1707〜S1709の対話は、図16を用いて説明したS1607〜S1609と同様であってよいため、ここでは説明を省略する。
<2−3.第2の実施例>
第2の実施例において、少なくとも1つの設定項目の読上げを省略すべきか否かを決定するための読上条件は、特定した設定項目を読上げた場合の読上単語数若しくは読上文字数と閾値との比較、又は読上時間長と閾値との比較に基づく条件を含むものとする。読上単語数及び読上文字数は、応答用テキストデータからカウントされ得る。読上時間長は、応答用テキストデータから推測されてもよく、又は応答音声データから測定されてもよい。
第2の実施例において、少なくとも1つの設定項目の読上げを省略すべきか否かを決定するための読上条件は、特定した設定項目を読上げた場合の読上単語数若しくは読上文字数と閾値との比較、又は読上時間長と閾値との比較に基づく条件を含むものとする。読上単語数及び読上文字数は、応答用テキストデータからカウントされ得る。読上時間長は、応答用テキストデータから推測されてもよく、又は応答音声データから測定されてもよい。
図18は、図14のS1406で実行され得る、第2の実施例に係る応答生成処理の詳細な流れの一例を示すフローチャートである。ここでの応答生成処理は、例えば、画像処理装置300のCPU311がRAM312にロードされるコンピュータプログラムを実行することにより、ジョブ制御部330の処理として実現され得る。
図18のS1801〜S1805は、図15を用いて説明したS1501〜S1505と同様であってよいため、ここでは説明を省略する。
S1804でユーザにより1つ以上の設定項目が指定されたと判定された場合、S1807で、ジョブ制御部330は、意図データから特定した設定項目の全てを読上げる応答音声のための応答用テキストデータを生成する。
次いで、S1810で、ジョブ制御部330は、S1807で生成した応答用テキストデータに基づいて、特定した設定項目を読上げた場合の応答音声の長さに関連する特徴量を導出する。例えば、ジョブ制御部330は、応答用テキストデータに含まれる単語数を読上単語数としてカウントしてもよい。また、ジョブ制御部330は、応答用テキストデータに含まれる文字数を読上文字数としてカウントしてもよい。ジョブ制御部330は、応答用テキストデータに含まれ得る漢字及び数字といった特定の種類の文字を発声用の仮名文字に変換してから文字数をカウントしてもよい。また、ジョブ制御部330は、応答用テキストデータの内容から読上時間長を推測してもよい。
次いで、S1811で、ジョブ制御部330は、S1810で導出した特徴量が閾値を上回るか否かを判定する。限定ではないのもの、日本語の読上文字数と比較される閾値は、例えば30文字であってもよい。応答音声の長さに関連する特徴量が閾値を上回らないと判定された場合、S1807で生成された省略なしの応答音声のための応答用テキストデータがユーザへの応答のために使用され、図18の応答生成処理は終了する。一方、特徴量が閾値を上回ると判定された場合、処理はS1812へ進む。
S1812で、ジョブ制御部330は、意図データから特定した設定項目(例えば、設定項目の全て)を示す設定確認画面を、表示制御部323を介して操作パネル360に表示させる。ここで表示される設定確認画面は、例えば、設定項目の名称と値のペアを一覧化した画面であり得る。また、ジョブ制御部330は、S1813で、少なくとも1つの設定項目を読上げない応答音声のための応答用テキストデータを生成する。この場合、S1807で生成された省略なしの応答用テキストデータの代わりに、S1813で生成された省略ありの応答用テキストデータがユーザへの応答のために使用される。
ジョブ制御部330は、上述したS1803、S1805、S1807又はS1813において生成した応答用テキストデータを、図14のS1408で音声認識サーバ200へ送信する。
図19及び図20は、本実施例におけるシステムとユーザとの間の対話の例をGUIのサンプルと共に示すシーケンス図である。図19のシナリオでは、音声認識の結果として特定された設定項目を読上げた場合の応答音声の長さに関連する特徴量が閾値を上回らないため、それら設定項目の全てを読上げる応答音声が出力される。その応答音声の出力と共に、設定項目の確認のためのGUIは表示されない。対照的に、図20のシナリオでは、音声認識の結果として特定された設定項目を読上げた場合の応答音声の長さに関連する特徴量が閾値を上回るため、少なくとも1つの設定項目の読上げが省略された応答音声が出力される。その応答音声の出力と共に、設定項目の確認のためのGUIが表示される。
図19のシナリオでは、まず、S1901で、ユーザは、音声制御装置100へ向けてウェイクワードを発声し、そのウェイクワードの検知をトリガとして音声対話セッションが開始される。ウェイクワードに続けて、ユーザは、S1902で、画像処理装置300による実行を望む動作の内容を表す「原稿をスキャンしてEさんへ送信」という音声を発声する。この音声は、音声制御装置100のマイクロフォン160により入力音声として取得され、音声認識サーバ200による音声認識の後、音声認識の結果を示す意図データが画像処理装置300へ提供される。
S1903で、画像処理装置300のジョブ制御部330は、受信した意図データにより示されるユーザの意図に従って、図18を用いて説明した応答生成処理を実行する。ここでは、例えば応答用テキストデータの仮名変換後の文字数が閾値(例えば、30)を上回らないことから、ジョブ制御部330は、省略なしの応答音声のための応答用テキストデータ生成する。例えば、応答用テキストデータは、「Eさんに送信してよろしいですか」という応答音声の内容を示す。S1904で、音声制御装置100は、当該応答用テキストデータに基づいて合成された応答音声データを用いて、省略なしの応答音声をスピーカ170から出力する。応答音声の出力の後、音声対話セッションは継続される。また、ジョブ制御部330は、未実行のジョブの設定項目の値を一時的に保持しておく。
次いで、S1905で、上記応答音声を聞いたユーザは、確認を求められた設定項目に誤りが無いことをシステムへ伝えるために、「はい」という音声を発声する。この音声もまた、マイクロフォン160により入力音声として取得され、音声認識サーバ200による音声認識の後、音声認識の結果を示す意図データが画像処理装置300へ提供される。
S1906で、ジョブ制御部330は、設定項目に誤りが無いことが確認されたため、読取ジョブの実行を開始する。その際、ジョブ制御部330は、指定されたジョブの実行開始をユーザに通知するために、例えば「スキャンして送信を開始します」という応答音声の内容を示す応答用テキストデータを生成する。S1907で、当該応答用テキストデータにより示される内容の応答音声がスピーカ170から出力される。
また、ジョブ制御部330は、S1908で、一時的に保持していた設定項目の値をスキャンジョブに設定して対応する画像処理ユニットへ出力することにより、ユーザが望んだ通りの制御を実行する。S1908は、S1907と並列的に実行されてよい。さらに、ジョブ制御部330は、ジョブの実行状況を示す実行状況画面371を、操作パネル360に表示させる。実行状況画面371の表示内容は、ジョブの進行に沿って適宜更新され得る。
その後、画像処理装置300においてスキャンジョブの実行が終了すると、ジョブ制御部330は、ジョブの実行終了をユーザに通知するために、例えば「送信を終了しました」という応答音声の内容を示す応答用テキストデータを生成する。そして、S1909で、当該応答用テキストデータにより示される内容の応答音声がスピーカ170から出力される。
図20のシナリオにおいても、まず、S2001で、ユーザは、音声制御装置100へ向けてウェイクワードを発声し、そのウェイクワードの検知をトリガとして音声対話セッションが開始される。ウェイクワードに続けて、ユーザは、S2002で、画像処理装置300による実行を望む動作の内容を表す「フルカラー両面でスキャンしてEさんへ送信」という音声を発声する。この音声は、音声制御装置100のマイクロフォン160により入力音声として取得され、音声認識サーバ200による音声認識の後、音声認識の結果を示す意図データが画像処理装置300へ提供される。
S2003で、画像処理装置300のジョブ制御部330は、受信した意図データにより示されるユーザの意図に従って、図18を用いて説明した応答生成処理を実行する。ここでは、例えば全ての設定項目を読上げた場合の応答用テキストデータの仮名変換後の文字数が上記閾値を上回ることから、ジョブ制御部330は、省略ありの応答音声のための応答用テキストデータ生成する。例えば、応答用テキストデータは、「この設定で実行してよろしいですか」という応答音声の内容を示す。S2004で、音声制御装置100は、当該応答用テキストデータに基づいて合成された応答音声データを用いて、省略ありの応答音声をスピーカ170から出力する。また、ジョブ制御部330は、応答音声の出力に合わせて、設定確認画面372を操作パネル360に表示させる。図20の例では、設定確認画面372において、意図データから特定された3つの設定項目の名称と値とが列挙されている。S2004で出力される応答音声は、設定確認画面372を確認することをユーザに求める音声を含んでもよい。応答音声の出力の後、音声対話セッションは継続される。また、ジョブ制御部330は、未実行のジョブの設定項目の値を一時的に保持しておく。
次いで、S2005で、上記応答音声を聞いたユーザは、確認を求められた設定項目に誤りが無いことをシステムへ伝えるために、「はい」という音声を発声する。この音声もまた、マイクロフォン160により入力音声として取得され、音声認識サーバ200による音声認識の後、音声認識の結果を示す意図データが画像処理装置300へ提供される。なお、ユーザは、S2005での発声の代わりに、設定確認画面372を操作することにより、設定項目に誤りが無いことをシステムへ伝えてもよい。
S2006で、ジョブ制御部330は、設定項目に誤りが無いことが確認されたため、スキャンジョブの実行開始を通知するための応答用テキストデータを生成する。その後のS2007〜S2009の対話は、図19を用いて説明したS1907〜S1909と同様であってよいため、ここでは説明を省略する。
<<3.変形例>>
本発明は上記実施形態に限定されず、様々な変形が可能である。ある変形例において、読上条件の判定の際に使用される閾値は、ユーザにより指定される可変的な値であってもよい。また、閾値を指定する意図を表すインテントがインテント一覧において定義されてもよい。閾値をユーザにより指定可能とすることで、音声対話においてどの程度冗長な応答音声を許容するかに関するユーザの好みに合わせて、システムが音声UIの挙動を変更することが可能となる。
本発明は上記実施形態に限定されず、様々な変形が可能である。ある変形例において、読上条件の判定の際に使用される閾値は、ユーザにより指定される可変的な値であってもよい。また、閾値を指定する意図を表すインテントがインテント一覧において定義されてもよい。閾値をユーザにより指定可能とすることで、音声対話においてどの程度冗長な応答音声を許容するかに関するユーザの好みに合わせて、システムが音声UIの挙動を変更することが可能となる。
他の変形例において、ジョブ制御部330は、特定の設定項目を読上げる音声を省略ありの応答音声に含めるように応答用テキストデータを生成してもよい。即ち、省略ありの応答音声においても、いくつかの設定項目が読上げられてよい。特定の設定項目とは、ユーザによる確認が必須なものとして予め固定的に定義されてもよく、又はユーザが優先的に確認することを希望するものとしてユーザにより指定されてもよい。例えば、読取画像データを指定された宛て先へ送信する場合には、宛て先誤りに起因する情報漏洩のリスクを低減するために、認識された宛て先が常に読上げられてもよい。
また別の変形例において、ジョブ制御部330は、音声認識の結果として認識された設定項目の値に依存して、個々の設定項目を読上げるか否かを変化させてもよい。例えば、印刷及びコピーの部数について認識された値が大きい場合に、その認識が誤っていれば多数のシートが無駄となる虞がある。そこで、ジョブ制御部330は、認識された部数の値がある閾値を上回る場合に、省略ありの応答音声がその値を読上げるように応答用テキストデータを生成してもよい。
なお、上述した実施例及び変形例は、互いにどのように組合されてもよい。例えば、設定項目の個数が第1の閾値以下であり且つ読上文字数が第2の閾値以下である場合に設定項目の全てが読上げられるといったような、複合的な読上条件が採用されてもよい。
本明細書において物理的に別個のものとして説明した2つ以上の装置は、互いにどのように組合されてもよい。また、単一の装置のものとして説明した複数の機能が、物理的に別個の装置へ分散されてもよい。例えば、音声認識サーバ200の音声認識機能及び音声合成機能は、音声制御装置100へ統合されてもよく、又は画像処理装置300へ統合されてもよい。また、読上条件の判定に基づいて応答音声における設定項目の読上げを省略する機能が、音声制御装置100又は音声認識サーバ200へ統合されてもよい。また、画像処理装置300が、マイクロフォン及びスピーカと共に、音声制御装置100の音声制御機能を有していてもよい。
<<4.まとめ>>
ここまで、図1〜図20を用いて、本開示の実施形態について詳細に説明した。上述した実施形態では、マイクロフォン及びスピーカと連携して画像処理ユニットの設定を制御する際に、ユーザの入力音声により表された1つ以上の設定項目が読上条件を満たすか否かに依存して応答音声が切替えられる。第1の応答音声は、上記1つ以上の設定項目を読上げる音声であり、第2の応答音声は、上記1つ以上の設定項目のうちの少なくとも1つを読上げない音声である。かかる構成によれば、ユーザの入力音声に基づいて特定された設定項目が多い場合に、ユーザへの応答において多数の設定項目を復唱することを差し控えて、応答が冗長となることを回避することができる。それにより、ユーザは多くの設定項目の読上げを聞くことを強いられないため、ユーザの負担が軽減される。
ここまで、図1〜図20を用いて、本開示の実施形態について詳細に説明した。上述した実施形態では、マイクロフォン及びスピーカと連携して画像処理ユニットの設定を制御する際に、ユーザの入力音声により表された1つ以上の設定項目が読上条件を満たすか否かに依存して応答音声が切替えられる。第1の応答音声は、上記1つ以上の設定項目を読上げる音声であり、第2の応答音声は、上記1つ以上の設定項目のうちの少なくとも1つを読上げない音声である。かかる構成によれば、ユーザの入力音声に基づいて特定された設定項目が多い場合に、ユーザへの応答において多数の設定項目を復唱することを差し控えて、応答が冗長となることを回避することができる。それにより、ユーザは多くの設定項目の読上げを聞くことを強いられないため、ユーザの負担が軽減される。
また、上述した実施形態では、上記読上条件は、上記1つ以上の設定項目を読上げた場合の応答音声の長さに関連する特徴量と閾値との比較に基づく条件を含む。かかる構成によれば、応答音声が長くならないと見込まれる場合に、特定した設定項目の全てを読上げて音声認識の誤りに起因する誤動作を確実に防止できる一方、応答音声が長くなることが見込まれる場合に、少なくとも1つの設定項目の読上げを省略できる。上記特徴量は、上記設定項目の個数を表してもよい。その場合、音声認識の結果として特定した設定項目の個数から直接的に上記読上条件を判定して、応答音声を切替えることができる。上記特徴量は、上記1つ以上の設定項目を読上げた場合の読上単語数又は読上文字数を表してもよい。その場合、応答音声を合成することなく、応答用のテキストデータから上記読上条件を判定することができる。上記特徴量は、上記1つ以上の設定項目を読上げた場合の読上時間長を表してもよい。その場合、システムからの応答音声の時間長をある長さよりも確実に短くすることができる。
また、上述した実施形態では、上記第2の応答音声が出力される場合に、画像処理ユニットに設定されるべき上記1つ以上の設定項目を示す設定確認画面が表示デバイスにおいて表示され得る。かかる構成によれば、応答音声において少なくとも1つの設定項目の読上げが省略される場合に、設定項目について音声認識の結果に誤りが無いかを、設定確認画面を介してユーザに確認させることができる。このような音声UIとGUIとの併用によって、ユーザとの円滑な対話を維持しつつユーザの負担が効果的に軽減され得る。上記第2の応答音声は、上記設定確認画面の確認をユーザに求める音声をも含んでもよい。それにより、ユーザの注意をGUI上での音声認識結果の確認に確実に向けさせることができる。
なお、上記第1の応答音声は、必ずしも音声認識の結果に含まれる設定項目の全てを読上げなくてもよい。即ち、本開示のアイディアは、上記第2の応答音声において読上げられる設定項目の個数が上記第1の応答音声において読上げられる設定項目の個数よりも少ないケース一般にまで拡張されてよい。
<<5.その他の実施形態>>
上記実施形態は、1つ以上の機能を実現するプログラムをネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読み出して実行する処理の形式でも実現可能である。また、1つ以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
上記実施形態は、1つ以上の機能を実現するプログラムをネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読み出して実行する処理の形式でも実現可能である。また、1つ以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。
10:音声制御システム、100:音声制御装置、110:コントローラ(制御手段)、160:マイクロフォン、170:スピーカ、200:音声認識サーバ、300:画像処理装置、310:コントローラ(制御手段)、360:操作パネル(表示デバイス)、362,372:設定確認画面、380:スキャナ(画像処理ユニット)、390:プリンタ(画像処理ユニット)
Claims (15)
- 音声を取得するマイクロフォンと、
音声を出力するスピーカと、
画像処理ユニットと、
前記画像処理ユニットの設定を制御する制御手段と、
を備え、
前記制御手段は、
前記マイクロフォンにより取得されるユーザの入力音声により表された1つ以上の設定項目であって、前記画像処理ユニットに設定されるべき設定項目を特定し、
特定した前記1つ以上の設定項目が読上条件を満たすか否かに依存して、前記1つ以上の設定項目を読上げる第1の応答音声、又は前記1つ以上の設定項目のうちの少なくとも1つを読上げない第2の応答音声を前記スピーカから出力させる、
音声制御システム。 - 請求項1に記載の音声制御システムであって、前記読上条件は、前記1つ以上の設定項目を読上げた場合の応答音声の長さに関連する特徴量と閾値との比較に基づく条件を含む、音声制御システム。
- 請求項2に記載の音声制御システムであって、前記特徴量は、前記設定項目の個数を表す、音声制御システム。
- 請求項2に記載の音声制御システムであって、前記特徴量は、前記1つ以上の設定項目を読上げた場合の読上単語数又は読上文字数を表す、音声制御システム。
- 請求項2に記載の音声制御システムであって、前記特徴量は、前記1つ以上の設定項目を読上げた場合の読上時間長を表す、音声制御システム。
- 請求項2乃至5のいずれか1項に記載の音声制御システムであって、前記閾値は、ユーザにより指定される可変的な値である、音声制御システム。
- 請求項1乃至6のいずれか1項に記載の音声制御システムであって、
表示デバイス、をさらに備え、
前記制御手段は、前記第2の応答音声を前記スピーカから出力させる場合に、前記画像処理ユニットに設定されるべき前記1つ以上の設定項目を示す設定確認画面を前記表示デバイスに表示させる、
音声制御システム。 - 請求項7に記載の音声制御システムであって、前記制御手段は、前記設定確認画面の確認をユーザに求める音声を前記第2の応答音声に含める、音声制御システム。
- 請求項1乃至8のいずれか1項に記載の音声制御システムであって、前記制御手段は、特定の設定項目を読上げる音声を前記第2の応答音声に含める、音声制御システム。
- 請求項1乃至9のいずれか1項に記載の音声制御システムであって、前記画像処理ユニットは、シートに画像を形成する画像形成機能及び原稿を読取って画像データを生成する原稿読取機能のうちの少なくとも一方の機能を有する、音声制御システム。
- 画像処理ユニットの設定を、音声を取得するマイクロフォン及び音声を出力するスピーカと連携して制御する音声制御方法において、
前記マイクロフォンにより取得されるユーザの入力音声により表された1つ以上の設定項目であって、前記画像処理ユニットに設定されるべき設定項目を特定することと、
特定した前記1つ以上の設定項目が読上条件を満たすか否かに依存して、前記1つ以上の設定項目を読上げる第1の応答音声、又は前記1つ以上の設定項目のうちの少なくとも1つを読上げない第2の応答音声を前記スピーカから出力させることと、
を含む音声制御方法。 - 画像処理ユニットと、
前記画像処理ユニットの設定を制御する制御手段と、
を備え、
前記制御手段は、
マイクロフォンにより取得されるユーザの入力音声により表された1つ以上の設定項目であって、前記画像処理ユニットに設定されるべき設定項目を特定し、
特定した前記1つ以上の設定項目が読上条件を満たすか否かに依存して、前記1つ以上の設定項目を読上げる第1の応答音声、又は前記1つ以上の設定項目のうちの少なくとも1つを読上げない第2の応答音声をスピーカから出力させる、
画像処理装置。 - 画像処理ユニットを備える画像処理装置のプロセッサを、
前記画像処理ユニットの設定を制御する制御部、
として動作させるためのコンピュータプログラムにおいて、
前記制御部は、
マイクロフォンにより取得されるユーザの入力音声により表された1つ以上の設定項目であって、前記画像処理ユニットに設定されるべき設定項目を特定し、
特定した前記1つ以上の設定項目が読上条件を満たすか否かに依存して、前記1つ以上の設定項目を読上げる第1の応答音声、又は前記1つ以上の設定項目のうちの少なくとも1つを読上げない第2の応答音声をスピーカから出力させる、
コンピュータプログラム。 - 音声を取得するマイクロフォンと、
音声を出力するスピーカと、
画像処理ユニットを有する画像処理装置と通信する通信インタフェースと、
前記マイクロフォンによるユーザの入力音声の取得及び前記入力音声に対する応答音声の前記スピーカからの出力を制御する制御手段と、
を備え、
前記制御手段は、前記マイクロフォンにより取得される前記入力音声に基づいて特定される1つ以上の設定項目であって、前記画像処理装置により前記画像処理ユニットに設定されるべき設定項目が読上条件を満たすか否かに依存して、前記1つ以上の設定項目を読上げる第1の応答音声、又は前記1つ以上の設定項目のうちの少なくとも1つを読上げない第2の応答音声を前記スピーカから出力させる、
音声制御装置。 - 音声を取得するマイクロフォンと、音声を出力するスピーカと、画像処理ユニットを有する画像処理装置と通信する通信インタフェースとを備える音声制御装置のプロセッサを、
前記マイクロフォンによるユーザの入力音声の取得及び前記入力音声に対する応答音声の前記スピーカからの出力を制御する制御部、
として動作させるためのコンピュータプログラムにおいて、
前記制御部は、前記マイクロフォンにより取得される前記入力音声に基づいて特定される1つ以上の設定項目であって、前記画像処理装置により前記画像処理ユニットに設定されるべき設定項目が読上条件を満たすか否かに依存して、前記1つ以上の設定項目を読上げる第1の応答音声、又は前記1つ以上の設定項目のうちの少なくとも1つを読上げない第2の応答音声を前記スピーカから出力させる、
コンピュータプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019206353A JP2021082871A (ja) | 2019-11-14 | 2019-11-14 | 音声制御システム、音声制御方法、画像処理装置、音声制御装置及びプログラム |
US17/093,726 US11475892B2 (en) | 2019-11-14 | 2020-11-10 | Speech control system, speech control method, image processing apparatus, speech control apparatus, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019206353A JP2021082871A (ja) | 2019-11-14 | 2019-11-14 | 音声制御システム、音声制御方法、画像処理装置、音声制御装置及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021082871A true JP2021082871A (ja) | 2021-05-27 |
Family
ID=75908060
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019206353A Pending JP2021082871A (ja) | 2019-11-14 | 2019-11-14 | 音声制御システム、音声制御方法、画像処理装置、音声制御装置及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11475892B2 (ja) |
JP (1) | JP2021082871A (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US11823659B2 (en) | 2019-12-11 | 2023-11-21 | Amazon Technologies, Inc. | Speech recognition through disambiguation feedback |
US11694682B1 (en) * | 2019-12-11 | 2023-07-04 | Amazon Technologies, Inc. | Triggering voice control disambiguation |
US11804215B1 (en) * | 2022-04-29 | 2023-10-31 | Apple Inc. | Sonic responses |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6047288A (en) * | 1995-07-20 | 2000-04-04 | Canon Kabushiki Kaisha | Group environment setting method and system thereof to provide an equivalent environment for plural participants |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
JP2020087347A (ja) * | 2018-11-30 | 2020-06-04 | 株式会社リコー | 音声操作システム、音声操作方法、及び音声操作プログラム |
-
2019
- 2019-11-14 JP JP2019206353A patent/JP2021082871A/ja active Pending
-
2020
- 2020-11-10 US US17/093,726 patent/US11475892B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20210151053A1 (en) | 2021-05-20 |
US11475892B2 (en) | 2022-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2021082871A (ja) | 音声制御システム、音声制御方法、画像処理装置、音声制御装置及びプログラム | |
JP6900694B2 (ja) | 情報処理システム、端末装置、情報処理方法およびプログラム | |
JP7071098B2 (ja) | 音声制御システム、制御方法およびプログラム | |
JP7215118B2 (ja) | 情報処理装置、情報処理システム、プログラムおよび方法 | |
US20200177747A1 (en) | Information processing system, method of processing information and storage medium | |
JPH10240552A (ja) | 情報処理装置及びその方法 | |
JPH10240658A (ja) | 情報処理装置及びその方法 | |
JP2019095835A (ja) | 音声制御システム、制御方法及びプログラム | |
CN110875993A (zh) | 带交互代理功能的图像形成系统及其控制方法和存储介质 | |
US11327697B2 (en) | Information processing apparatus and startup method for input-output device | |
US20230254421A1 (en) | Image processing system, setting control method, image processing apparatus, and storage medium | |
US20210151051A1 (en) | Information processing system, information processing method, and information processing apparatus | |
JPH10240550A (ja) | 情報処理装置及びその方法 | |
US20200304663A1 (en) | Server apparatus, voice operation system, voice operation method, and recording medium | |
US11683422B2 (en) | Image processing system, image processing apparatus, and image processing method | |
US11423903B2 (en) | Information processing system and information processing method | |
JP2022001997A (ja) | 情報処理装置、情報処理システム、制御方法、並びにプログラム | |
US11825042B2 (en) | Peripheral device management system, peripheral device management method, and printing apparatus control system | |
JP7458716B2 (ja) | 音声対話装置及びその制御方法、並びにプログラム | |
JP7206827B2 (ja) | システム、画像形成装置、方法およびプログラム | |
US11700338B2 (en) | Information processing system that receives audio operations on multifunction peripheral, as well as image processing apparatus and control method therefor | |
US11647130B2 (en) | Information processing system capable of connecting a plurality of voice control devices, method of controlling information processing system, and storage medium | |
US11837226B2 (en) | Information processing apparatus, information processing method, electronic device and information processing system | |
US11368593B2 (en) | Image forming system allowing voice operation, control method therefor, and storage medium storing control program therefor | |
JP2021113899A (ja) | 情報処理システム、情報処理方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20210103 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210113 |