JP2020187663A

JP2020187663A - 装置

Info

Publication number: JP2020187663A
Application number: JP2019093224A
Authority: JP
Inventors: 大起西岡; Hiroki Nishioka
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2019-05-16
Filing date: 2019-05-16
Publication date: 2020-11-19
Anticipated expiration: 2039-05-16
Also published as: US20200366800A1; CN111953857A; JP7284455B2

Abstract

【課題】装置使用の経験値が異なるどのユーザにも使い勝手の良い音声操作を提供可能な装置を提供する。【解決手段】ユーザからの指示を音声による対話形式で受ける装置本体１０において、経験値判断部３３は、音声操作を行うユーザの当該装置の使用に係る経験値を過去の使用履歴等から判断する。情報量変更部３４は、音声操作中の対話形式のやりとりにおいてユーザに提供する音声応答の情報量をそのユーザの経験値に応じて変更する。経験値が高くなるほど、音声ガイダンスを簡略化し、対話形式でのやりとりのステップを省く。【選択図】図３

Description

本発明は、ユーザからの指示操作を音声による対話形式で受ける装置に関する。

従来より、音声ガイダンスを利用して装置の操作性を高めることが行われている。しかし、音声ガイダンスを流すには、画面表示に比べて時間を要するので、常に同じ音声ガイダンスでは、使い慣れたユーザにとっては返って利便性が低下する。

この問題に対応して下記特許文献１には、ユーザが操作画面からの入力操作に要した時間を測定し、入力操作時間が一定値を超えない場合は、使い慣れたユーザと判断して音声案内を流さないように制御する装置が開示されている。

ところで、近年は、人工知能技術の利用により音声認識の精度が格段に向上しており、ユーザからの各種の指示を音声で入力する音声操作の機能を備えた装置が増えている。音声操作では、通常、装置が音声ガイダンスを流し、これを聞いたユーザが次の指示を音声で入力するといった対話形式のユーザインターフェイスになる。

特開２０１８−１４７３２１号公報

対話形式の音声操作では、操作画面と操作ボタンを用いる方式のユーザインターフェイスに比べて、入力に要する時間が長くかかる。

使い慣れたユーザか否かによって音声ガイダンスを流す／流さないを制御する特許文献１の技術は、ユーザからの入力操作は操作画面で受け付け、音声ガイダンスはあくまでもその補助として使用する装置には有効である。しかし、音声による対話形式のユーザインターフェイスを主とする装置において、音声ガイダンスを一切流さないように制御すると、使い慣れたユーザであっても、次の操作がわからなくなって音声操作を継続できない、といった不都合が生じてしまう。

本発明は、上記の問題を解決しようとするものであり、装置使用の経験値が異なるどのユーザにも使い勝手の良い音声操作を提供可能な装置を提供することを目的としている。

かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。

［１］ユーザからの指示を音声による対話形式で受ける装置であって、
前記ユーザの当該装置の使用に係る経験値を判断する経験値判断部と、
前記対話形式のやりとりにおいて前記ユーザに音声で提供する情報量を前記経験値判断部が判断した前記ユーザの経験値に応じて変更する情報量変更部と、
を有する
ことを特徴とする装置。

上記発明では、音声操作を行っているユーザの当該装置の使用に係る経験値に応じて、音声応答における情報量を変更する。

［２］前記経験値判断部は、前記ユーザからの指示を前回受けてからの経過時間、前記ユーザから指示を受けた頻度、前記ユーザから過去に指示を受けた際の指示間隔、前記ユーザから過去に受けた指示において設定変更が行われた頻度、前記ユーザによるヘルプ機能の使用頻度、音声ガイダンスの出力中に前記ユーザが割り込み操作を行った頻度、のうちの少なくとも１つを判断要素にして前記経験値を判断する
ことを特徴とする［１］に記載の装置。

［３］前記情報量変更部は、前記ユーザの経験値に応じて、前記ユーザに提供する音声の発話スピードを変更する
ことを特徴とする［１］または［２］に記載の装置。

［４］前記情報量変更部は、前記ユーザの経験値に応じて、前記対話形式のやりとりのステップを省略する
ことを特徴とする［１］乃至［３］のいずれか１つに記載の装置。

［５］前記情報量変更部は、前記経験値が高いほど、前記ユーザに音声で提供する情報量を少なくする
ことを特徴とする［１］乃至［４］のいずれか１つに記載の装置。

［６］前記経験値判断部は、前記ユーザからの指示を音声による対話形式で前回受けてからの経過時間が一定以上の場合は、他の判断要素にかかわらず、前記経験値を所定の低レベルに設定する
ことを特徴とする［５］に記載の装置。

上記発明では、長く使っていない場合は、経験値が下がったと判断する。

［７］前記経験値判断部は、前記ユーザが音声ガイダンス出力中の割り込み操作を一定回数以上続けて行った場合は、他の判断要素にかかわらず、前記経験値を所定の高レベルに設定する
ことを特徴とする［５］または［６］に記載の装置。

上記発明では、音声ガイダンスの途中で割り込み操作を行うユーザは、音声ガイダンスを必要としないと使用経験が豊富なユーザと判断する。

［８］音声操作に対応する操作画面を表示する操作パネルと、
前記ユーザが前記操作画面の見える場所に居る否かを判定可能な情報を取得するユーザ確認部と、
をさらに有し、
前記経験値判断部は、前記ユーザが前記操作画面の見える場所に居ない場合は、他の判断要素に係らず、前記経験値を所定の低レベルに設定する
ことを特徴とする［５］乃至［７］のいずれか１つに記載の装置。

上記発明では、装置は、音声操作を受ける際に、対応する操作画面を表示するので、この操作画面を見ながら音声操作を行うユーザは、操作画面から操作に係る情報を得ることができる。しかし、操作画面の見える場所に居ないユーザは、操作画面から情報を得られないので、その分、音声応答の情報量が増えるように、経験値を低レベルに設定する。

［９］前記経験値判断部は、ジョブ種毎に前記経験値を判断する
ことを特徴とする［１］乃至［８］のいずれか１つに記載の装置。

上記発明では、ジョブ種によって設定方法等は異なるので、ジョブ種毎に経験値を判断する。

［１０］音声出力中はユーザからの音声入力を受け付けないユーザインターフェイス部に接続されて使用される
ことを特徴とする［１］乃至［９］のいずれか１つに記載の装置。

上記発明では、対話側のユーザインターフェイスにおいては、装置側の出力した音声とユーザの発した音声とが重なるとユーザの音声の認識が困難になるため、音声の入出力を司るユーザインターフェイス部として音声出力中はユーザからの新たな音声入力を受け付けない機能を備えたものを使用する。

本発明に係る装置によれば、装置使用の経験値が異なるどのユーザにも使い勝手の良い音声操作を提供することができる。

本発明の実施の形態に係る装置の構成例を示す図である。図１に示すものに、カメラとユーザ確認サーバを接続した場合の装置構成を示す図である。図２に示す装置における装置本体の概略構成を示すブロック図である。本発明に係る装置の他の構成例を示す図である。図４に示す装置の概略構成を示すブロック図である。音声認識サーバが行う処理を示す流れ図である。ユーザ確認サーバが行う処理の流れ図である。音声操作に関して装置本体が行う処理を示す流れ図である。判断テーブルの一例を示す図である。経験値レベル６の場合における音声操作の一例を示すシーケンス図である。経験値レベル１〜４の場合における音声操作でのやりとり例を示す図である。経験値レベル５の場合における音声操作でのやりとり例を示す図である。経験値レベル６の場合における音声操作でのやりとり例を示す図である。経験値レベル７の場合における音声操作でのやりとり例を示す図である。

以下、図面に基づき本発明の実施の形態を説明する。

図１は、本発明の実施の形態に係る装置５の構成例を示している。装置５は、音声入出力端末４０と、音声認識サーバ４２と、装置本体１０とを通信可能に接続して構成される。ここでは、ネットワークを通じて音声入出力端末４０と音声認識サーバ４２が接続されると共に、ネットワークを通じて音声認識サーバ４２と装置本体１０が接続される。音声入出力端末４０と音声認識サーバ４２とは、音声入出力を司るユーザインターフェイス部となっている。

装置本体１０は、どのような装置であっても良いが、ここでは、原稿を光学的に読み取ってその複製画像を記録紙に印刷するコピー機能、読み取った原稿の画像データをファイルにして保存したり外部端末へネットワークを通じて送信したりするスキャン機能、ＰＣ（Personal Computer）などからネットワークを通じて受信した印刷データに係る画像を記録紙に印刷して出力するプリンタ機能、ファクシミリ手順に従って画像データを送受信するファクシミリ機能などを備えた、所謂、複合機（ＭＦＰ）とする。

音声入出力端末４０は、ユーザが発した音声を電気信号に変換するマイク（Microphone）、音声データに対応する音（物理振動）を出力するスピーカ（speaker）、音声入出力回路、音声認識サーバ４２と通信するための通信部などを備えて構成される。音声入出力端末４０はマイクの出力する音声信号に対応する音声データを音声認識サーバ４２へ送信する機能、音声認識サーバ４２から受信した音声データに対応する音をスピーカから出力する機能を果たす。

音声認識サーバ４２は、音声入出力端末４０から受信した音声データを解析し、音声をテキストに変換して装置本体１０へ送信する機能、装置本体１０から受信したテキストデータを音声データに変換して音声入出力端末４０に転送する機能等を果たす。

装置本体１０は、ユーザからの各種の設定操作を、操作パネルのハードスイッチや画面に表示したソフトスイッチへの操作で受け付けるほか、各種の問い合わせ、要求、指示、設定等を音声による対話形式のやりとりで受け付ける音声操作の機能を備えている。装置本体１０は、音声操作でジョブ投入等の指示を受ける場合は、これに対応する操作画面を操作パネルに表示する。ユーザは音声操作で設定したジョブの設定内容等を操作画面で確認することができる。

音声操作における音声の入出力は音声入出力端末４０を用いて行われる。

装置本体１０は、音声操作を受ける際に、その音声操作を行っているユーザの当該装置の使用に係る経験値を判断し、対話形式のやりとりにおいてユーザに音声で提供する情報量(音声ガイダンスの詳しさ、やりとりするステップの細かさなど)をそのユーザの経験値に応じて変更する。すなわち、ユーザの経験値が高いほど、ユーザに音声で提供する情報量を少なくする(音声ガイダンスを簡略化したり、やりとりのステップを省略したりする)。また、ユーザの経験値に応じて発話スピードを変更する。たとえば、ユーザの経験値が一定以上低い場合は、通常より発話スピードを遅くする。

図２は、図１に示すものに、さらに、装置本体１０とその周囲の所定範囲を撮影範囲として動画を撮影するカメラ５０と、ユーザ確認サーバ５２をさらに備える装置５の構成例を示している。カメラ５０はネットワークを通じてユーザ確認サーバ５２に接続され、ユーザ確認サーバ５２と装置本体１０はネットワークを通じて接続されている。装置本体１０は、ユーザから音声操作を受けた際に、自装置の操作パネルが見える位置にユーザが居るか否かやそのユーザが操作パネルを見ているか否かをユーザ確認サーバ５２に問い合わせる。該問い合わせを受けたユーザ確認サーバ５２はカメラ５０の撮影画像を解析し、問い合わせ元の装置本体１０の操作パネルの見える位置にユーザが居るか否かや、そのユーザが操作パネルの操作画面を見ているか否かを確認し、その結果を装置本体１０に通知する。

なお、問い合わせ元の装置本体１０の操作パネルの見える位置にユーザが居るか否かやそのユーザが操作パネルの操作画面を見ているか否かを判定するための情報を取得する装置（判定情報取得部）は、動画を撮影するカメラ５０に限定されるものはない。たとえば、装置本体１０の近傍にユーザが居るか否かを赤外線人感センサで検出したり、ユーザの所持するタグや携帯端末の位置に基づいてユーザの居る場所を特定したり、ユーザの視線を検出してユーザが操作パネルを見ているか否かを判定する装置などを利用してもよい。

図３は、図２に示す装置５における装置本体１０の概略構成を示すブロック図である。装置本体１０は、装置本体１０の動作を統括的に制御する制御部としてのＣＰＵ(Central Processing Unit)１１を有している。ＣＰＵ１１にはバスを通じてＲＯＭ(Read Only Memory)１２、ＲＡＭ(Random Access Memory)１３、不揮発メモリ１４、ハードディスク装置１５、スキャナ部１６、画像処理部１７、プリンタ部１８、ネットワーク通信部１９、操作パネル２０などが接続されている。

ＣＰＵ１１は、ＯＳ（Operating System）プログラムをベースとし、その上で、ミドルウェアやアプリケーションプログラムなどを実行する。ＲＯＭ１２には、各種のプログラムが格納されており、これらのプログラムに従ってＣＰＵ１１が各種処理を実行することで装置本体１０の各機能が実現される。

ＲＡＭ１３は、ＣＰＵ１１がプログラムに基づいて処理を実行する際に各種のデータを一時的に格納するワークメモリや画像データを格納する画像メモリなどとして使用される。

不揮発メモリ１４は、電源をオフにしても記憶内容が破壊されないメモリ（フラッシュメモリ）であり、デフォルト設定値や管理者設定などの保存などに使用される。また、不揮発メモリ１４には、当該装置本体１０の使用に係るユーザの経験値を判断するための判断基準が登録された判断テーブル６０が記憶されている。

ハードディスク装置１５は大容量不揮発の記憶装置であり、印刷データ、設定画面の画面データのほか各種のプログラム、データが記憶される。さらにハードディスク装置１５には、ユーザの経験値を判断するための判断データが記憶される。

スキャナ部１６は、原稿を光学的に読み取って画像データを取得する機能を果たす。スキャナ部１６は、原稿台にセットされた複数枚の原稿を順次繰り出して読み取るための自動原稿搬送装置（ＡＤＦ）を有する。また、この自動原稿搬送装置で原稿の表裏を反転させることで原稿の表裏を読み取ることができる。

画像処理部１７は、画像の拡大縮小、回転などの処理のほか、印刷データをイメージデータに変換するラスタライズ処理、画像データの圧縮、伸張処理などを行う。

プリンタ部１８は、画像データに応じた画像を記録紙上に画像形成する機能を果たす。ここでは、記録紙の搬送装置と、感光体ドラムと、帯電装置と、レーザーユニットと、現像装置と、転写分離装置と、クリーニング装置と、定着装置とを有し、電子写真プロセスによって画像形成を行う、所謂、レーザープリンタのエンジン部として構成されている。画像形成は他の方式でもかまわない。

ネットワーク通信部１９は、ＬＡＮなどのネットワークを通じて各種の外部装置、音声認識サーバ４２、ユーザ確認サーバ５２などのサーバと通信する機能を果たす。

操作パネル２０は、操作部２１、表示部２２を備える。表示部２２には各種の操作画面、設定画面が表示される。表示部２２は液晶ディスプレイとそのドライバなどで構成される。操作部２１はユーザから各種の操作（タッチ操作や押下操作）を受ける。操作部２１はスタートボタンやテンキーなどの各種ハードスイッチと、表示部２２の表示面上に設けられたタッチパネルなどで構成される。

ＣＰＵ１１は、装置本体１０の動作全体を制御するほか、対話形式の音声操作に係る機能として、音声解析部３１、ユーザ特定部３２、経験値判断部３３、情報量変更部３４、音声応答部３５、判断データ記憶制御部３６等の機能を果たす。

音声解析部３１は、音声認識サーバ４２から受信したテキスト文を解析して、ユーザが音声入出力端末４０に対して入力した音声の内容を認識する。

ユーザ特定部３２は、音声操作を行っているユーザを特定する機能を果たす。たとえば、音声認識サーバ４２からテキスト変換前の音声信号を受信して声紋解析を行うことで、音声操作を行っているユーザを特定する。なお、声紋によりユーザを特定する機能は音声認識サーバ４２で行っても良いし、他のサーバに依頼して行っても良い。音声操作を行っているユーザを特定する方法は声紋認証に限定されず任意の認証方法でよい。たとえば、音声入出力端末４０にカメラを設け、ユーザを撮影し、顔認証を行っても良い。

経験値判断部３３は、音声操作を行っているユーザの当該装置の使用に係る経験値を判断する。

情報量変更部３４は、経験値判断部３３が求めた経験値に応じて、音声操作のやりとりにおいてユーザに音声で提供する情報量を設定変更する。

音声応答部３５は、情報量変更部３４による情報量の設定に従って、音声応答の内容(ユーザに対して出力する音声の内容)を決定し、そのデータを音声認識サーバ４２に送信して、対応する音声を音声入出力端末４０から出力させる処理を行う。

判断データ記憶制御部３６は、ユーザの経験値を判断する材料となる各種の判断データをハードディスク装置１５に記憶する制御を行う。判断データは、ユーザ毎に、前回の操作を受けてからの経過時間、指示操作を受けた頻度(使用頻度)、過去に指示操作を受けた際の指示間隔、過去に受けた指示操作において設定変更が行われた頻度、ヘルプ機能の使用頻度、音声ガイダンスの出力中に割り込み操作を行った頻度、などの情報を含む。判断データにおいては、ユーザ毎のこれら情報は、さらにジョブ種毎に分類して記憶される。また、判断データの対象とする操作指示は、音声操作による指示に限定してもよいし、操作パネルからの指示操作と音声操作による指示操作の双方を含めてもよい。

前回の操作を受けてからの経過時間が一定以上の場合は、経験値を低く評価する。指示操作を受けた頻度(使用頻度)が高いほど経験値を高く評価する。過去に指示操作を受けた際の指示間隔が長いほど、経験値を低く評価する。過去に受けた指示操作において設定変更が行われた頻度が高いほど経験値を高く評価する。ヘルプ機能の使用頻度が高いほど経験値を低く評価する。音声ガイダンスの出力中に割り込み操作を行った頻度が高いほど経験値を高く評価する。経験値の判断は、そのユーザのジョブ種別の判断データに基づいてジョブ種毎に行う。

なお、本発明に係る装置は、図４、図５に示すように、音声入出力端末４０、音声認識サーバ４２、カメラ５０、ユーザ確認サーバ５２、装置本体１０の機能を１つの装置にまとめた装置１０Ｂとされてもよい。図４、図５に示す装置１０Ｂにおいて、図３に示す装置本体１０と同一の機能を果たす部分には同じ符号を付してあり、その説明は省略する。

操作パネル２０は、マイク２３、スピーカ２４を有し、音声入出力端末４０としての機能を具備する。ＣＰＵ１１には、判定情報取得部であるカメラ５０が接続されている。ＣＰＵ１１は、音声認識サーバ４２に相当する音声識別部３７、ユーザ確認サーバ５２に相当するユーザ確認部３８の機能をさらに果たす。

図６は、音声認識サーバ４２が行う処理を示す流れ図である。音声認識サーバ４２は、ユーザが音声入出力端末４０に向かって発話し、それに対応する音声データを音声入出力端末４０から受信したら（ステップＳ１０１;Ｙｅｓ）、その音声データを解析し、テキスト変換する（ステップＳ１０２）。そして、変換後のテキストデータを装置本体１０へ送信して(ステップＳ１０３)、ステップ１０７へ移行する。これを受信した装置本体１０は、応答すべき音声内容を決定し、それに対応するテキストデータを音声認識サーバ４２へ送信する。なお、装置本体１０で声紋認証する場合は、音声認識サーバ４２はステップ１０３において、変換後のテキストデータと共に変換前の音声データを装置本体１０へ送信する。

音声認識サーバ４２は、装置本体１０から発話対象のテキストデータを受信すると（ステップＳ１０１;Ｎｏ、Ｓ１０４;Ｙｅｓ）、そのテキストデータを音声データに変換して音声入出力端末４０へ送信し（ステップＳ１０５）、その音声データに対応する音声発話が音声入出力端末４０にて終了するのを待つ（ステップＳ１０６;Ｎｏ）。

これにより、音声認識サーバ４２は、音声入出力端末４０での音声発話が終了するまで、ユーザからの新たな音声入力は受け付けなくなる。対話側のユーザインターフェイスにおいては、音声入出力端末４０が発話する音声とユーザの音声が重なるとユーザの音声の認識が困難になるため、音声入出力端末４０での音声発話が終了するまでユーザからの新たな音声入力は受け付けない制御となっている。従って、ユーザは、音声入出力端末４０による音声発話が終了するまで次の音声入力を待たなければならない。

音声認識サーバ４２は、音声入出力端末４０での音声発話の終了を、たとえば、音声入出力端末４０へ音声データを送信してからの時間（好ましくは音声データの長さに対応して定まる時間）の経過で判定する、もしくは、音声入出力端末４０から音声発話終了の通知を受信して判定する。

音声認識サーバ４２は、音声入出力端末４０での音声発話が終了すると(ステップＳ１０６;Ｙｅｓ)、ステップ１０７へ移行する。

ステップ１０７では、ユーザと装置本体１０との対話が終了したか否かを確認する。たとえば、ジョブスタートの音声指示を受けて、装置本体１０にその指示を送信すると対話終了と判定する。対話終了でなければ（ステップＳ１０７;Ｎｏ）、ステップ１０１に戻って処理を継続する。対話終了ならば（ステップＳ１０７;Ｙｅｓ）、本処理を終了する。

図７は、ユーザ確認サーバ５２が行う処理を示す流れ図である。ユーザ確認サーバ５２は、カメラ５０が撮影している動画データをカメラ５０からリアルタイムに受信して取得し（ステップＳ２０１）、その動画データを解析してユーザの位置および顔の向きを検出して（ステップＳ２０２）、該ユーザが装置本体１０の操作パネル２０の見える位置に居るか否かや操作パネル２０を見ているか否かを判断し（ステップＳ２０３）、その判断結果を装置本体１０に送信する(ステップＳ２０４、ステップＳ２０５)。

ここでは、ユーザが装置本体１０の操作パネル２０の見える位置から該操作パネル２０の操作画面を見ていると判断した場合は（ステップＳ２０３;Ｙｅｓ）、その旨を示す判断結果を装置本体１０に送信し(ステップＳ２０４)、ユーザが装置本体１０の操作パネル２０の見える位置いない場合もしくは見える位置に居るが見ていない場合は（ステップＳ２０３;Ｎｏ）、ユーザが操作パネル２０を見ていない旨の判断結果を装置本体１０に送信する(ステップＳ２０５)。

図８は、音声操作に関して装置本体１０が行う処理を示す流れ図である。なお、装置本体１０は、音声操作を受ける際に、対応する操作画面を操作パネル２０に表示する。

装置本体１０は、音声認識サーバ４２から受信したテキストデータを解析して、ユーザが発した音声指示の内容を認識する（ステップＳ３０１）。次に、装置本体１０は、音声操作を行っているユーザを声紋認証等によって特定する（ステップＳ３０２）。また、装置本体１０は、音声操作を行っているユーザが当該装置本体１０の操作パネル２０を見ているか否かをユーザ確認サーバ５２に問い合わせし、その判断結果をユーザ確認サーバ５２から受信して取得する（ステップＳ３０３）。

装置本体１０は、ステップＳ３０２で特定したユーザの当該装置の使用に係る経験値を、ハードディスク装置１５に記憶されているそのユーザに係る判断データおよびステップＳ３０３での問い合わせの結果に基づいて導出する（ステップＳ３０４）。なお、対話形式のやり取りの中で音声操作の対象となっているジョブ種が特定される以前においては、ジョブ種を限定せずにそのユーザに係る経験値を導出し、その経験値に応じた音声応答を行い、対話形式のやり取りの中で音声操作の対象となっているジョブ種が特定された後は、そのジョブ種に関する経験値を導出し直し、その経験値に応じた音声応答を行う。

装置本体１０は、ステップＳ３０４で導出した経験値に応じて情報量を変更して音声応答を行う(ステップＳ３０６)。具体的には、経験値が高いほど、音声ガイダンスの内容を簡潔なものとし、経験値が高いほどやりとりのステップを省略する。また、経験値が一定値以下の場合は発話スピードを通常より遅くする。音声応答において装置本体１０は、音声応答の内容を示すテキストデータを決定し、これを音声認識サーバ４２へ送信する。

図９は、ステップＳ３０４において経験値を導出する際の判断基準が登録された判断テーブル６０の一例を示している。経験値は、最も低いレベル１から最も高いレベル７までの７段階に分けて評価される。

図９に示す判断テーブル６０によれば、該当ユーザの今回の音声操作に係るジョブ種のジョブ使用頻度が一定値以上、かつ、そのジョブ種のジョブの設定において過去の設定変更率が閾値以下ならば、経験値レベル７と判断する。すなわち、該当のジョブを使い慣れていて、なおかつ、設定値の変更を行わずデフォルト設定のままそのジョブを実行する場合が多いユーザには、詳しい音声ガイダンスを提供する必要はないと判定し、経験値レベルを高くする。

経験値レベル７に該当しない場合であって、音声ガイダンス中の割り込み操作の頻度が一定値以上、かつ、過去の音声操作におけるステップ毎の指示間隔の平均時間が閾値以下ならば、経験値レベル６と判断する。音声ガイダンスの途中で割り込み操作を行うユーザは、音声ガイダンスを必要としないと使用経験が豊富なユーザと判断する。また、指示間隔が短いユーザは、迷わずに音声操作を行っていると推定できる。よって、このようなユーザについては経験値レベル６とする。

経験値レベル７および６に該当しない場合であって、該当ユーザの今回の音声操作に係るジョブ種のジョブの使用頻度が一定値以上ならば、経験値レベル５と判断する。

ただし、経験値レベル５〜７のいずれかに該当する場合であっても、ヘルプ機能の使用直後から所定回数以内の音声操作の場合は、経験値レベル４と判断する。すなわち、ヘルプ機能を使用してから数回の音声操作は、その参照したヘルプ機能に関連する設定を行っていると考えられるので、詳しい音声ガイダンスが流れるように、経験値レベルを下げる。

また、経験値レベル５〜７のいずれかに該当する場合であっても、前回操作から一定期間が経過している場合は、経験値レベル３と判断する。長く使っていない場合は、経験値が下がったと判断する。

経験値レベル５〜７のいずれかに該当する場合であっても、ユーザが操作パネル２０の見える場所に居ない、もしくはユーザが操作画面の見える場所に居るが操作パネル２０を見ていない場合は、経験値レベル２と判断する。装置本体１０は、音声操作を受ける際に、対応する操作画面を表示するので、この操作画面を見ながら音声操作を行うユーザは、操作画面から操作に係る情報を得ることができる。しかし、操作画面の見える場所に居ないユーザや見ていないユーザは、操作画面から情報を得られないので、その分、音声応答の情報量が増えるように、経験値レベルを下げる。

その他の場合は経験値レベル１と判断する。

図９に示す判断テーブル６０によれば、経験値レベルが１〜４の場合は、簡素化レベル０となり、応答内容を簡素化せずに、詳細に音声応答する。すなわち、最も詳しい音声ガイダンスを流し、対話形式のやりとりのステップは省略せずに進める。

経験値レベルが５の場合は、簡素化レベル１となり、応答内容をある程度簡素化する。すなわち、やや簡素化した音声ガイダンスを流し、対話形式のやりとりのステップは省略しない。経験値レベルが６の場合は、簡素化レベル２となり、応答内容を、簡素化レベル１の場合よりさらに簡素化する。すなわち、大幅に簡素化した音声ガイダンスを流し、対話形式のやりとりのステップは省略しない。経験値レベルが７の場合は、簡素化レベル３となり、応答内容を、簡素化レベル２の場合よりさらに簡素化する。ここでは、大幅に簡素化した音声ガイダンスを流し、かつ、対話形式のやりとりのステップを一部省略する。

図１０は、経験値レベル６の場合における音声操作の流れの一例を示している。ユーザが音声入出力端末４０に向かって「コピーして」と音声で入力すると、音声認識サーバ４２はその音声を識別し、これをテキスト変換したテキストデータを装置本体１０に送信する。たとえば、音声認識サーバ４２が声紋に基づいてユーザを特定して、ユーザ名を装置本体１０に通知する。装置本体１０は受信したテキストデータを解析して指示内容（コピーの指示であること）を認識し、デフォルト設定によるコピージョブを暫定的に生成する。また、装置本体１０は、操作パネル２０の見える場所にユーザが居るか否かや、ユーザが操作パネル２０を見ているか否かを、ユーザ確認サーバ５２に、ユーザ確認指示を送信して問い合わせる。

ユーザ確認サーバ５２は、ユーザ確認指示の送信元の装置本体１０の近くのカメラ５０から動画を取得して解析し、その装置本体１０の操作パネル２０の見える場所にユーザが居るか否かや、ユーザが操作パネル２０を見ているか否か判断し、その判断結果を、問い合わせ元の装置本体１０に返送する。

装置本体１０は、音声操作を行うユーザのコピージョブに関する経験値を導出する。ここでは、経験値レベル６と判断する。装置本体１０は、導出した経験値に対応する情報量で音声応答するためのテキストデータを作成し、これを音声認識サーバ４２に送信して対応する音声を音声入出力端末４０から出力させる。ここでは「コピーですね」と音声応答する。

続いて、ユーザが音声入出力端末４０に向かって「両面印刷にして」と音声で入力すると、音声認識サーバ４２はその音声を識別し、これをテキスト変換したテキストデータを装置本体１０に送信する。装置本体１０は受信したテキストデータを解析して指示内容を認識し、先ほど作成したコピージョブの設定を「両面印刷」に変更する。そして、経験値レベル６で音声応答のテキストデータを作成し、これを音声認識サーバ４２に送信して対応する音声を音声入出力端末４０から出力させる。ここでは「ＯＫ」と音声応答する。

続いて、ユーザが音声入出力端末４０に向かって「スタート」と音声で入力すると、音声認識サーバ４２はその音声を識別し、これをテキスト変換したテキストデータを装置本体１０に送信する。装置本体１０は受信したテキストデータを解析して指示内容を認識し、先ほどのコピージョブを開始する。そして、「スタート」の指示操作に対する経験値レベル６での音声応答のテキストデータを作成し、これを音声認識サーバ４２に送信して、対応する音声を音声入出力端末４０から出力させる。ここでは「ジョブを開始します」と音声応答する。

図１１は、経験値レベル１〜４の場合における音声操作でのやりとり例を示す。経験値レベル１〜４の場合、各ステップでの音声ガイダンスは詳細な内容で行われる。また、ステップの省略はない。

図１２は、経験値レベル５の場合における音声操作でのやりとり例を示す。経験値レベル５の場合、図１１に比べて、各ステップでの音声ガイダンスは内容が若干簡略化される。

図１３は、経験値レベル６の場合における音声操作でのやりとり例を示す。経験値レベル６の場合、図１２に比べて、各ステップでの音声ガイダンスの内容はさらに簡略化される。

図１４は、経験値レベル７の場合における音声操作でのやりとり例を示す。経験値レベル７の場合、図１３に比べて、対話のステップが省略される。

このように、ユーザの経験値に応じて、音声応答の内容や対話のステップを複数段階に簡素化し、対話形式のやりとりをそれぞれのユーザに適した詳しさ・丁寧さで行うので、装置使用の経験値が異なるどのユーザに対しても使い勝手の良い音声操作を提供することができる。

以上、本発明の実施の形態を図面によって説明してきたが、具体的な構成は実施の形態に示したものに限られるものではなく、本発明の要旨を逸脱しない範囲における変更や追加があっても本発明に含まれる。

本発明に係る装置の構成は、図１〜図５に示すものに限定されず、たとえば、ユーザインターフェイス部（音声入出力端末４０、音声認識サーバ４２）を含まず、これに接続される装置とされてもよい。図３に示す装置本体１０のうち、音声解析部３１、ユーザ特定部３２、経験値判断部３３、情報量変更部３４、音声応答部３５、判断データ記憶制御部３６の機能を有する装置であればよい。また、これらの機能を、装置本体１０とは別のサーバに持たせる、あるいは音声認識サーバ４２やユーザ確認サーバ５２に組み込む構成であってもよい。

実施の形態では、ユーザが操作パネル２０を見ているか否かを判断要素に加えて経験値レベルを導出したが、これを判断要素としなくてもよい。また、実施の形態では、装置本体１０の操作パネル２０の見える場所にユーザが居て、そのユーザが操作パネル２０を見ているか否かを経験値レベルの判断要素としたが、実際に操作パネル２０を見ているか否かを問わず、装置本体１０の操作パネル２０の見える場所に居るか否かを判断要素としてもよい。

また、操作パネル２０の近くに居るユーザが操作パネル２０を見ないで音声操作を行っている場合は、操作画面を全く見なくても問題なく音声操作できるほど使い慣れていると推定できるので、操作パネル２０の近くに居るユーザが操作パネル２０を見ながら音声操作を行っている場合に比べて、経験値レベルを高めるようにしてもよい。

実施の形態では、音声操作を受ける際に、対応する操作画面を操作パネル２０に表示するようにしたが、操作画面を表示せずに、音声操作を受ける構成であってもよい。

本発明に係る装置は、実施の形態に示す複合機に限定されず、対話形式の音声操作を行う装置であれば任意の装置でよい。

５…装置
１０…装置本体
１１…ＣＰＵ
１２…ＲＯＭ
１３…ＲＡＭ
１４…不揮発メモリ
１５…ハードディスク装置
１６…スキャナ部
１７…画像処理部
１８…プリンタ部
１９…ネットワーク通信部
２０…操作パネル
２１…操作部
２２…表示部
２３…マイク
２４…スピーカ
３１…音声解析部
３２…ユーザ特定部
３３…経験値判断部
３４…情報量変更部
３５…音声応答部
３６…判断データ記憶制御部
３７…音声識別部
３８…ユーザ確認部
４０…音声入出力端末
４２…音声認識サーバ
５０…カメラ（判定情報取得部）
５２…ユーザ確認サーバ
６０…判断テーブル

Claims

ユーザからの指示を音声による対話形式で受ける装置であって、
前記ユーザの当該装置の使用に係る経験値を判断する経験値判断部と、
前記対話形式のやりとりにおいて前記ユーザに音声で提供する情報量を前記経験値判断部が判断した前記ユーザの経験値に応じて変更する情報量変更部と、
を有する
ことを特徴とする装置。
前記経験値判断部は、前記ユーザからの指示を前回受けてからの経過時間、前記ユーザから指示を受けた頻度、前記ユーザから過去に指示を受けた際の指示間隔、前記ユーザから過去に受けた指示において設定変更が行われた頻度、前記ユーザによるヘルプ機能の使用頻度、音声ガイダンスの出力中に前記ユーザが割り込み操作を行った頻度、のうちの少なくとも１つを判断要素にして前記経験値を判断する
ことを特徴とする請求項１に記載の装置。
前記情報量変更部は、前記ユーザの経験値に応じて、前記ユーザに提供する音声の発話スピードを変更する
ことを特徴とする請求項１または２に記載の装置。
前記情報量変更部は、前記ユーザの経験値に応じて、前記対話形式のやりとりのステップを省略する
ことを特徴とする請求項１乃至３のいずれか１つに記載の装置。
前記情報量変更部は、前記経験値が高いほど、前記ユーザに音声で提供する情報量を少なくする
ことを特徴とする請求項１乃至４のいずれか１つに記載の装置。
前記経験値判断部は、前記ユーザからの指示を音声による対話形式で前回受けてからの経過時間が一定以上の場合は、他の判断要素にかかわらず、前記経験値を所定の低レベルに設定する
ことを特徴とする請求項５に記載の装置。
前記経験値判断部は、前記ユーザが音声ガイダンス出力中の割り込み操作を一定回数以上続けて行った場合は、他の判断要素にかかわらず、前記経験値を所定の高レベルに設定する
ことを特徴とする請求項５または６に記載の装置。
音声操作に対応する操作画面を表示する操作パネルと、
前記ユーザが前記操作画面の見える場所に居る否かを判定可能な情報を取得するユーザ確認部と、
をさらに有し、
前記経験値判断部は、前記ユーザが前記操作画面の見える場所に居ない場合は、他の判断要素に係らず、前記経験値を所定の低レベルに設定する
ことを特徴とする請求項５乃至７のいずれか１つに記載の装置。
前記経験値判断部は、ジョブ種毎に前記経験値を判断する
ことを特徴とする請求項１乃至８のいずれか１つに記載の装置。
音声出力中はユーザからの音声入力を受け付けないユーザインターフェイス部に接続されて使用される
ことを特徴とする請求項１乃至９のいずれか１つに記載の装置。