JP2020187663A - 装置 - Google Patents

装置 Download PDF

Info

Publication number
JP2020187663A
JP2020187663A JP2019093224A JP2019093224A JP2020187663A JP 2020187663 A JP2020187663 A JP 2020187663A JP 2019093224 A JP2019093224 A JP 2019093224A JP 2019093224 A JP2019093224 A JP 2019093224A JP 2020187663 A JP2020187663 A JP 2020187663A
Authority
JP
Japan
Prior art keywords
user
voice
experience value
unit
instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019093224A
Other languages
English (en)
Other versions
JP7284455B2 (ja
Inventor
大起 西岡
Hiroki Nishioka
大起 西岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2019093224A priority Critical patent/JP7284455B2/ja
Priority to US16/840,594 priority patent/US20200366800A1/en
Priority to CN202010385459.3A priority patent/CN111953857A/zh
Publication of JP2020187663A publication Critical patent/JP2020187663A/ja
Application granted granted Critical
Publication of JP7284455B2 publication Critical patent/JP7284455B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/0035User-machine interface; Control console
    • H04N1/00352Input means
    • H04N1/00395Arrangements for reducing operator input
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/0035User-machine interface; Control console
    • H04N1/00352Input means
    • H04N1/00403Voice input means, e.g. voice commands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Facsimiles In General (AREA)

Abstract

【課題】装置使用の経験値が異なるどのユーザにも使い勝手の良い音声操作を提供可能な装置を提供する。【解決手段】ユーザからの指示を音声による対話形式で受ける装置本体10において、経験値判断部33は、音声操作を行うユーザの当該装置の使用に係る経験値を過去の使用履歴等から判断する。情報量変更部34は、音声操作中の対話形式のやりとりにおいてユーザに提供する音声応答の情報量をそのユーザの経験値に応じて変更する。経験値が高くなるほど、音声ガイダンスを簡略化し、対話形式でのやりとりのステップを省く。【選択図】図3

Description

本発明は、ユーザからの指示操作を音声による対話形式で受ける装置に関する。
従来より、音声ガイダンスを利用して装置の操作性を高めることが行われている。しかし、音声ガイダンスを流すには、画面表示に比べて時間を要するので、常に同じ音声ガイダンスでは、使い慣れたユーザにとっては返って利便性が低下する。
この問題に対応して下記特許文献1には、ユーザが操作画面からの入力操作に要した時間を測定し、入力操作時間が一定値を超えない場合は、使い慣れたユーザと判断して音声案内を流さないように制御する装置が開示されている。
ところで、近年は、人工知能技術の利用により音声認識の精度が格段に向上しており、ユーザからの各種の指示を音声で入力する音声操作の機能を備えた装置が増えている。音声操作では、通常、装置が音声ガイダンスを流し、これを聞いたユーザが次の指示を音声で入力するといった対話形式のユーザインターフェイスになる。
特開2018−147321号公報
対話形式の音声操作では、操作画面と操作ボタンを用いる方式のユーザインターフェイスに比べて、入力に要する時間が長くかかる。
使い慣れたユーザか否かによって音声ガイダンスを流す/流さないを制御する特許文献1の技術は、ユーザからの入力操作は操作画面で受け付け、音声ガイダンスはあくまでもその補助として使用する装置には有効である。しかし、音声による対話形式のユーザインターフェイスを主とする装置において、音声ガイダンスを一切流さないように制御すると、使い慣れたユーザであっても、次の操作がわからなくなって音声操作を継続できない、といった不都合が生じてしまう。
本発明は、上記の問題を解決しようとするものであり、装置使用の経験値が異なるどのユーザにも使い勝手の良い音声操作を提供可能な装置を提供することを目的としている。
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
[1]ユーザからの指示を音声による対話形式で受ける装置であって、
前記ユーザの当該装置の使用に係る経験値を判断する経験値判断部と、
前記対話形式のやりとりにおいて前記ユーザに音声で提供する情報量を前記経験値判断部が判断した前記ユーザの経験値に応じて変更する情報量変更部と、
を有する
ことを特徴とする装置。
上記発明では、音声操作を行っているユーザの当該装置の使用に係る経験値に応じて、音声応答における情報量を変更する。
[2]前記経験値判断部は、前記ユーザからの指示を前回受けてからの経過時間、前記ユーザから指示を受けた頻度、前記ユーザから過去に指示を受けた際の指示間隔、前記ユーザから過去に受けた指示において設定変更が行われた頻度、前記ユーザによるヘルプ機能の使用頻度、音声ガイダンスの出力中に前記ユーザが割り込み操作を行った頻度、のうちの少なくとも1つを判断要素にして前記経験値を判断する
ことを特徴とする[1]に記載の装置。
[3]前記情報量変更部は、前記ユーザの経験値に応じて、前記ユーザに提供する音声の発話スピードを変更する
ことを特徴とする[1]または[2]に記載の装置。
[4]前記情報量変更部は、前記ユーザの経験値に応じて、前記対話形式のやりとりのステップを省略する
ことを特徴とする[1]乃至[3]のいずれか1つに記載の装置。
[5]前記情報量変更部は、前記経験値が高いほど、前記ユーザに音声で提供する情報量を少なくする
ことを特徴とする[1]乃至[4]のいずれか1つに記載の装置。
[6]前記経験値判断部は、前記ユーザからの指示を音声による対話形式で前回受けてからの経過時間が一定以上の場合は、他の判断要素にかかわらず、前記経験値を所定の低レベルに設定する
ことを特徴とする[5]に記載の装置。
上記発明では、長く使っていない場合は、経験値が下がったと判断する。
[7]前記経験値判断部は、前記ユーザが音声ガイダンス出力中の割り込み操作を一定回数以上続けて行った場合は、他の判断要素にかかわらず、前記経験値を所定の高レベルに設定する
ことを特徴とする[5]または[6]に記載の装置。
上記発明では、音声ガイダンスの途中で割り込み操作を行うユーザは、音声ガイダンスを必要としないと使用経験が豊富なユーザと判断する。
[8]音声操作に対応する操作画面を表示する操作パネルと、
前記ユーザが前記操作画面の見える場所に居る否かを判定可能な情報を取得するユーザ確認部と、
をさらに有し、
前記経験値判断部は、前記ユーザが前記操作画面の見える場所に居ない場合は、他の判断要素に係らず、前記経験値を所定の低レベルに設定する
ことを特徴とする[5]乃至[7]のいずれか1つに記載の装置。
上記発明では、装置は、音声操作を受ける際に、対応する操作画面を表示するので、この操作画面を見ながら音声操作を行うユーザは、操作画面から操作に係る情報を得ることができる。しかし、操作画面の見える場所に居ないユーザは、操作画面から情報を得られないので、その分、音声応答の情報量が増えるように、経験値を低レベルに設定する。
[9]前記経験値判断部は、ジョブ種毎に前記経験値を判断する
ことを特徴とする[1]乃至[8]のいずれか1つに記載の装置。
上記発明では、ジョブ種によって設定方法等は異なるので、ジョブ種毎に経験値を判断する。
[10]音声出力中はユーザからの音声入力を受け付けないユーザインターフェイス部に接続されて使用される
ことを特徴とする[1]乃至[9]のいずれか1つに記載の装置。
上記発明では、対話側のユーザインターフェイスにおいては、装置側の出力した音声とユーザの発した音声とが重なるとユーザの音声の認識が困難になるため、音声の入出力を司るユーザインターフェイス部として音声出力中はユーザからの新たな音声入力を受け付けない機能を備えたものを使用する。
本発明に係る装置によれば、装置使用の経験値が異なるどのユーザにも使い勝手の良い音声操作を提供することができる。
本発明の実施の形態に係る装置の構成例を示す図である。 図1に示すものに、カメラとユーザ確認サーバを接続した場合の装置構成を示す図である。 図2に示す装置における装置本体の概略構成を示すブロック図である。 本発明に係る装置の他の構成例を示す図である。 図4に示す装置の概略構成を示すブロック図である。 音声認識サーバが行う処理を示す流れ図である。 ユーザ確認サーバが行う処理の流れ図である。 音声操作に関して装置本体が行う処理を示す流れ図である。 判断テーブルの一例を示す図である。 経験値レベル6の場合における音声操作の一例を示すシーケンス図である。 経験値レベル1〜4の場合における音声操作でのやりとり例を示す図である。 経験値レベル5の場合における音声操作でのやりとり例を示す図である。 経験値レベル6の場合における音声操作でのやりとり例を示す図である。 経験値レベル7の場合における音声操作でのやりとり例を示す図である。
以下、図面に基づき本発明の実施の形態を説明する。
図1は、本発明の実施の形態に係る装置5の構成例を示している。装置5は、音声入出力端末40と、音声認識サーバ42と、装置本体10とを通信可能に接続して構成される。ここでは、ネットワークを通じて音声入出力端末40と音声認識サーバ42が接続されると共に、ネットワークを通じて音声認識サーバ42と装置本体10が接続される。音声入出力端末40と音声認識サーバ42とは、音声入出力を司るユーザインターフェイス部となっている。
装置本体10は、どのような装置であっても良いが、ここでは、原稿を光学的に読み取ってその複製画像を記録紙に印刷するコピー機能、読み取った原稿の画像データをファイルにして保存したり外部端末へネットワークを通じて送信したりするスキャン機能、PC(Personal Computer)などからネットワークを通じて受信した印刷データに係る画像を記録紙に印刷して出力するプリンタ機能、ファクシミリ手順に従って画像データを送受信するファクシミリ機能などを備えた、所謂、複合機(MFP)とする。
音声入出力端末40は、ユーザが発した音声を電気信号に変換するマイク(Microphone)、音声データに対応する音(物理振動)を出力するスピーカ(speaker)、音声入出力回路、音声認識サーバ42と通信するための通信部などを備えて構成される。音声入出力端末40はマイクの出力する音声信号に対応する音声データを音声認識サーバ42へ送信する機能、音声認識サーバ42から受信した音声データに対応する音をスピーカから出力する機能を果たす。
音声認識サーバ42は、音声入出力端末40から受信した音声データを解析し、音声をテキストに変換して装置本体10へ送信する機能、装置本体10から受信したテキストデータを音声データに変換して音声入出力端末40に転送する機能等を果たす。
装置本体10は、ユーザからの各種の設定操作を、操作パネルのハードスイッチや画面に表示したソフトスイッチへの操作で受け付けるほか、各種の問い合わせ、要求、指示、設定等を音声による対話形式のやりとりで受け付ける音声操作の機能を備えている。装置本体10は、音声操作でジョブ投入等の指示を受ける場合は、これに対応する操作画面を操作パネルに表示する。ユーザは音声操作で設定したジョブの設定内容等を操作画面で確認することができる。
音声操作における音声の入出力は音声入出力端末40を用いて行われる。
装置本体10は、音声操作を受ける際に、その音声操作を行っているユーザの当該装置の使用に係る経験値を判断し、対話形式のやりとりにおいてユーザに音声で提供する情報量(音声ガイダンスの詳しさ、やりとりするステップの細かさなど)をそのユーザの経験値に応じて変更する。すなわち、ユーザの経験値が高いほど、ユーザに音声で提供する情報量を少なくする(音声ガイダンスを簡略化したり、やりとりのステップを省略したりする)。また、ユーザの経験値に応じて発話スピードを変更する。たとえば、ユーザの経験値が一定以上低い場合は、通常より発話スピードを遅くする。
図2は、図1に示すものに、さらに、装置本体10とその周囲の所定範囲を撮影範囲として動画を撮影するカメラ50と、ユーザ確認サーバ52をさらに備える装置5の構成例を示している。カメラ50はネットワークを通じてユーザ確認サーバ52に接続され、ユーザ確認サーバ52と装置本体10はネットワークを通じて接続されている。装置本体10は、ユーザから音声操作を受けた際に、自装置の操作パネルが見える位置にユーザが居るか否かやそのユーザが操作パネルを見ているか否かをユーザ確認サーバ52に問い合わせる。該問い合わせを受けたユーザ確認サーバ52はカメラ50の撮影画像を解析し、問い合わせ元の装置本体10の操作パネルの見える位置にユーザが居るか否かや、そのユーザが操作パネルの操作画面を見ているか否かを確認し、その結果を装置本体10に通知する。
なお、問い合わせ元の装置本体10の操作パネルの見える位置にユーザが居るか否かやそのユーザが操作パネルの操作画面を見ているか否かを判定するための情報を取得する装置(判定情報取得部)は、動画を撮影するカメラ50に限定されるものはない。たとえば、装置本体10の近傍にユーザが居るか否かを赤外線人感センサで検出したり、ユーザの所持するタグや携帯端末の位置に基づいてユーザの居る場所を特定したり、ユーザの視線を検出してユーザが操作パネルを見ているか否かを判定する装置などを利用してもよい。
図3は、図2に示す装置5における装置本体10の概略構成を示すブロック図である。装置本体10は、装置本体10の動作を統括的に制御する制御部としてのCPU(Central Processing Unit)11を有している。CPU11にはバスを通じてROM(Read Only Memory)12、RAM(Random Access Memory)13、不揮発メモリ14、ハードディスク装置15、スキャナ部16、画像処理部17、プリンタ部18、ネットワーク通信部19、操作パネル20などが接続されている。
CPU11は、OS(Operating System)プログラムをベースとし、その上で、ミドルウェアやアプリケーションプログラムなどを実行する。ROM12には、各種のプログラムが格納されており、これらのプログラムに従ってCPU11が各種処理を実行することで装置本体10の各機能が実現される。
RAM13は、CPU11がプログラムに基づいて処理を実行する際に各種のデータを一時的に格納するワークメモリや画像データを格納する画像メモリなどとして使用される。
不揮発メモリ14は、電源をオフにしても記憶内容が破壊されないメモリ(フラッシュメモリ)であり、デフォルト設定値や管理者設定などの保存などに使用される。また、不揮発メモリ14には、当該装置本体10の使用に係るユーザの経験値を判断するための判断基準が登録された判断テーブル60が記憶されている。
ハードディスク装置15は大容量不揮発の記憶装置であり、印刷データ、設定画面の画面データのほか各種のプログラム、データが記憶される。さらにハードディスク装置15には、ユーザの経験値を判断するための判断データが記憶される。
スキャナ部16は、原稿を光学的に読み取って画像データを取得する機能を果たす。スキャナ部16は、原稿台にセットされた複数枚の原稿を順次繰り出して読み取るための自動原稿搬送装置(ADF)を有する。また、この自動原稿搬送装置で原稿の表裏を反転させることで原稿の表裏を読み取ることができる。
画像処理部17は、画像の拡大縮小、回転などの処理のほか、印刷データをイメージデータに変換するラスタライズ処理、画像データの圧縮、伸張処理などを行う。
プリンタ部18は、画像データに応じた画像を記録紙上に画像形成する機能を果たす。ここでは、記録紙の搬送装置と、感光体ドラムと、帯電装置と、レーザーユニットと、現像装置と、転写分離装置と、クリーニング装置と、定着装置とを有し、電子写真プロセスによって画像形成を行う、所謂、レーザープリンタのエンジン部として構成されている。画像形成は他の方式でもかまわない。
ネットワーク通信部19は、LANなどのネットワークを通じて各種の外部装置、音声認識サーバ42、ユーザ確認サーバ52などのサーバと通信する機能を果たす。
操作パネル20は、操作部21、表示部22を備える。表示部22には各種の操作画面、設定画面が表示される。表示部22は液晶ディスプレイとそのドライバなどで構成される。操作部21はユーザから各種の操作(タッチ操作や押下操作)を受ける。操作部21はスタートボタンやテンキーなどの各種ハードスイッチと、表示部22の表示面上に設けられたタッチパネルなどで構成される。
CPU11は、装置本体10の動作全体を制御するほか、対話形式の音声操作に係る機能として、音声解析部31、ユーザ特定部32、経験値判断部33、情報量変更部34、音声応答部35、判断データ記憶制御部36等の機能を果たす。
音声解析部31は、音声認識サーバ42から受信したテキスト文を解析して、ユーザが音声入出力端末40に対して入力した音声の内容を認識する。
ユーザ特定部32は、音声操作を行っているユーザを特定する機能を果たす。たとえば、音声認識サーバ42からテキスト変換前の音声信号を受信して声紋解析を行うことで、音声操作を行っているユーザを特定する。なお、声紋によりユーザを特定する機能は音声認識サーバ42で行っても良いし、他のサーバに依頼して行っても良い。音声操作を行っているユーザを特定する方法は声紋認証に限定されず任意の認証方法でよい。たとえば、音声入出力端末40にカメラを設け、ユーザを撮影し、顔認証を行っても良い。
経験値判断部33は、音声操作を行っているユーザの当該装置の使用に係る経験値を判断する。
情報量変更部34は、経験値判断部33が求めた経験値に応じて、音声操作のやりとりにおいてユーザに音声で提供する情報量を設定変更する。
音声応答部35は、情報量変更部34による情報量の設定に従って、音声応答の内容(ユーザに対して出力する音声の内容)を決定し、そのデータを音声認識サーバ42に送信して、対応する音声を音声入出力端末40から出力させる処理を行う。
判断データ記憶制御部36は、ユーザの経験値を判断する材料となる各種の判断データをハードディスク装置15に記憶する制御を行う。判断データは、ユーザ毎に、前回の操作を受けてからの経過時間、指示操作を受けた頻度(使用頻度)、過去に指示操作を受けた際の指示間隔、過去に受けた指示操作において設定変更が行われた頻度、ヘルプ機能の使用頻度、音声ガイダンスの出力中に割り込み操作を行った頻度、などの情報を含む。判断データにおいては、ユーザ毎のこれら情報は、さらにジョブ種毎に分類して記憶される。また、判断データの対象とする操作指示は、音声操作による指示に限定してもよいし、操作パネルからの指示操作と音声操作による指示操作の双方を含めてもよい。
前回の操作を受けてからの経過時間が一定以上の場合は、経験値を低く評価する。指示操作を受けた頻度(使用頻度)が高いほど経験値を高く評価する。過去に指示操作を受けた際の指示間隔が長いほど、経験値を低く評価する。過去に受けた指示操作において設定変更が行われた頻度が高いほど経験値を高く評価する。ヘルプ機能の使用頻度が高いほど経験値を低く評価する。音声ガイダンスの出力中に割り込み操作を行った頻度が高いほど経験値を高く評価する。経験値の判断は、そのユーザのジョブ種別の判断データに基づいてジョブ種毎に行う。
なお、本発明に係る装置は、図4、図5に示すように、音声入出力端末40、音声認識サーバ42、カメラ50、ユーザ確認サーバ52、装置本体10の機能を1つの装置にまとめた装置10Bとされてもよい。図4、図5に示す装置10Bにおいて、図3に示す装置本体10と同一の機能を果たす部分には同じ符号を付してあり、その説明は省略する。
操作パネル20は、マイク23、スピーカ24を有し、音声入出力端末40としての機能を具備する。CPU11には、判定情報取得部であるカメラ50が接続されている。CPU11は、音声認識サーバ42に相当する音声識別部37、ユーザ確認サーバ52に相当するユーザ確認部38の機能をさらに果たす。
図6は、音声認識サーバ42が行う処理を示す流れ図である。音声認識サーバ42は、ユーザが音声入出力端末40に向かって発話し、それに対応する音声データを音声入出力端末40から受信したら(ステップS101;Yes)、その音声データを解析し、テキスト変換する(ステップS102)。そして、変換後のテキストデータを装置本体10へ送信して(ステップS103)、ステップ107へ移行する。これを受信した装置本体10は、応答すべき音声内容を決定し、それに対応するテキストデータを音声認識サーバ42へ送信する。なお、装置本体10で声紋認証する場合は、音声認識サーバ42はステップ103において、変換後のテキストデータと共に変換前の音声データを装置本体10へ送信する。
音声認識サーバ42は、装置本体10から発話対象のテキストデータを受信すると(ステップS101;No、S104;Yes)、そのテキストデータを音声データに変換して音声入出力端末40へ送信し(ステップS105)、その音声データに対応する音声発話が音声入出力端末40にて終了するのを待つ(ステップS106;No)。
これにより、音声認識サーバ42は、音声入出力端末40での音声発話が終了するまで、ユーザからの新たな音声入力は受け付けなくなる。対話側のユーザインターフェイスにおいては、音声入出力端末40が発話する音声とユーザの音声が重なるとユーザの音声の認識が困難になるため、音声入出力端末40での音声発話が終了するまでユーザからの新たな音声入力は受け付けない制御となっている。従って、ユーザは、音声入出力端末40による音声発話が終了するまで次の音声入力を待たなければならない。
音声認識サーバ42は、音声入出力端末40での音声発話の終了を、たとえば、音声入出力端末40へ音声データを送信してからの時間(好ましくは音声データの長さに対応して定まる時間)の経過で判定する、もしくは、音声入出力端末40から音声発話終了の通知を受信して判定する。
音声認識サーバ42は、音声入出力端末40での音声発話が終了すると(ステップS106;Yes)、ステップ107へ移行する。
ステップ107では、ユーザと装置本体10との対話が終了したか否かを確認する。たとえば、ジョブスタートの音声指示を受けて、装置本体10にその指示を送信すると対話終了と判定する。対話終了でなければ(ステップS107;No)、ステップ101に戻って処理を継続する。対話終了ならば(ステップS107;Yes)、本処理を終了する。
図7は、ユーザ確認サーバ52が行う処理を示す流れ図である。ユーザ確認サーバ52は、カメラ50が撮影している動画データをカメラ50からリアルタイムに受信して取得し(ステップS201)、その動画データを解析してユーザの位置および顔の向きを検出して(ステップS202)、該ユーザが装置本体10の操作パネル20の見える位置に居るか否かや操作パネル20を見ているか否かを判断し(ステップS203)、その判断結果を装置本体10に送信する(ステップS204、ステップS205)。
ここでは、ユーザが装置本体10の操作パネル20の見える位置から該操作パネル20の操作画面を見ていると判断した場合は(ステップS203;Yes)、その旨を示す判断結果を装置本体10に送信し(ステップS204)、ユーザが装置本体10の操作パネル20の見える位置いない場合もしくは見える位置に居るが見ていない場合は(ステップS203;No)、ユーザが操作パネル20を見ていない旨の判断結果を装置本体10に送信する(ステップS205)。
図8は、音声操作に関して装置本体10が行う処理を示す流れ図である。なお、装置本体10は、音声操作を受ける際に、対応する操作画面を操作パネル20に表示する。
装置本体10は、音声認識サーバ42から受信したテキストデータを解析して、ユーザが発した音声指示の内容を認識する(ステップS301)。次に、装置本体10は、音声操作を行っているユーザを声紋認証等によって特定する(ステップS302)。また、装置本体10は、音声操作を行っているユーザが当該装置本体10の操作パネル20を見ているか否かをユーザ確認サーバ52に問い合わせし、その判断結果をユーザ確認サーバ52から受信して取得する(ステップS303)。
装置本体10は、ステップS302で特定したユーザの当該装置の使用に係る経験値を、ハードディスク装置15に記憶されているそのユーザに係る判断データおよびステップS303での問い合わせの結果に基づいて導出する(ステップS304)。なお、対話形式のやり取りの中で音声操作の対象となっているジョブ種が特定される以前においては、ジョブ種を限定せずにそのユーザに係る経験値を導出し、その経験値に応じた音声応答を行い、対話形式のやり取りの中で音声操作の対象となっているジョブ種が特定された後は、そのジョブ種に関する経験値を導出し直し、その経験値に応じた音声応答を行う。
装置本体10は、ステップS304で導出した経験値に応じて情報量を変更して音声応答を行う(ステップS306)。具体的には、経験値が高いほど、音声ガイダンスの内容を簡潔なものとし、経験値が高いほどやりとりのステップを省略する。また、経験値が一定値以下の場合は発話スピードを通常より遅くする。音声応答において装置本体10は、音声応答の内容を示すテキストデータを決定し、これを音声認識サーバ42へ送信する。
図9は、ステップS304において経験値を導出する際の判断基準が登録された判断テーブル60の一例を示している。経験値は、最も低いレベル1から最も高いレベル7までの7段階に分けて評価される。
図9に示す判断テーブル60によれば、該当ユーザの今回の音声操作に係るジョブ種のジョブ使用頻度が一定値以上、かつ、そのジョブ種のジョブの設定において過去の設定変更率が閾値以下ならば、経験値レベル7と判断する。すなわち、該当のジョブを使い慣れていて、なおかつ、設定値の変更を行わずデフォルト設定のままそのジョブを実行する場合が多いユーザには、詳しい音声ガイダンスを提供する必要はないと判定し、経験値レベルを高くする。
経験値レベル7に該当しない場合であって、音声ガイダンス中の割り込み操作の頻度が一定値以上、かつ、過去の音声操作におけるステップ毎の指示間隔の平均時間が閾値以下ならば、経験値レベル6と判断する。音声ガイダンスの途中で割り込み操作を行うユーザは、音声ガイダンスを必要としないと使用経験が豊富なユーザと判断する。また、指示間隔が短いユーザは、迷わずに音声操作を行っていると推定できる。よって、このようなユーザについては経験値レベル6とする。
経験値レベル7および6に該当しない場合であって、該当ユーザの今回の音声操作に係るジョブ種のジョブの使用頻度が一定値以上ならば、経験値レベル5と判断する。
ただし、経験値レベル5〜7のいずれかに該当する場合であっても、ヘルプ機能の使用直後から所定回数以内の音声操作の場合は、経験値レベル4と判断する。すなわち、ヘルプ機能を使用してから数回の音声操作は、その参照したヘルプ機能に関連する設定を行っていると考えられるので、詳しい音声ガイダンスが流れるように、経験値レベルを下げる。
また、経験値レベル5〜7のいずれかに該当する場合であっても、前回操作から一定期間が経過している場合は、経験値レベル3と判断する。長く使っていない場合は、経験値が下がったと判断する。
経験値レベル5〜7のいずれかに該当する場合であっても、ユーザが操作パネル20の見える場所に居ない、もしくはユーザが操作画面の見える場所に居るが操作パネル20を見ていない場合は、経験値レベル2と判断する。装置本体10は、音声操作を受ける際に、対応する操作画面を表示するので、この操作画面を見ながら音声操作を行うユーザは、操作画面から操作に係る情報を得ることができる。しかし、操作画面の見える場所に居ないユーザや見ていないユーザは、操作画面から情報を得られないので、その分、音声応答の情報量が増えるように、経験値レベルを下げる。
その他の場合は経験値レベル1と判断する。
図9に示す判断テーブル60によれば、経験値レベルが1〜4の場合は、簡素化レベル0となり、応答内容を簡素化せずに、詳細に音声応答する。すなわち、最も詳しい音声ガイダンスを流し、対話形式のやりとりのステップは省略せずに進める。
経験値レベルが5の場合は、簡素化レベル1となり、応答内容をある程度簡素化する。すなわち、やや簡素化した音声ガイダンスを流し、対話形式のやりとりのステップは省略しない。経験値レベルが6の場合は、簡素化レベル2となり、応答内容を、簡素化レベル1の場合よりさらに簡素化する。すなわち、大幅に簡素化した音声ガイダンスを流し、対話形式のやりとりのステップは省略しない。経験値レベルが7の場合は、簡素化レベル3となり、応答内容を、簡素化レベル2の場合よりさらに簡素化する。ここでは、大幅に簡素化した音声ガイダンスを流し、かつ、対話形式のやりとりのステップを一部省略する。
図10は、経験値レベル6の場合における音声操作の流れの一例を示している。ユーザが音声入出力端末40に向かって「コピーして」と音声で入力すると、音声認識サーバ42はその音声を識別し、これをテキスト変換したテキストデータを装置本体10に送信する。たとえば、音声認識サーバ42が声紋に基づいてユーザを特定して、ユーザ名を装置本体10に通知する。装置本体10は受信したテキストデータを解析して指示内容(コピーの指示であること)を認識し、デフォルト設定によるコピージョブを暫定的に生成する。また、装置本体10は、操作パネル20の見える場所にユーザが居るか否かや、ユーザが操作パネル20を見ているか否かを、ユーザ確認サーバ52に、ユーザ確認指示を送信して問い合わせる。
ユーザ確認サーバ52は、ユーザ確認指示の送信元の装置本体10の近くのカメラ50から動画を取得して解析し、その装置本体10の操作パネル20の見える場所にユーザが居るか否かや、ユーザが操作パネル20を見ているか否か判断し、その判断結果を、問い合わせ元の装置本体10に返送する。
装置本体10は、音声操作を行うユーザのコピージョブに関する経験値を導出する。ここでは、経験値レベル6と判断する。装置本体10は、導出した経験値に対応する情報量で音声応答するためのテキストデータを作成し、これを音声認識サーバ42に送信して対応する音声を音声入出力端末40から出力させる。ここでは「コピーですね」と音声応答する。
続いて、ユーザが音声入出力端末40に向かって「両面印刷にして」と音声で入力すると、音声認識サーバ42はその音声を識別し、これをテキスト変換したテキストデータを装置本体10に送信する。装置本体10は受信したテキストデータを解析して指示内容を認識し、先ほど作成したコピージョブの設定を「両面印刷」に変更する。そして、経験値レベル6で音声応答のテキストデータを作成し、これを音声認識サーバ42に送信して対応する音声を音声入出力端末40から出力させる。ここでは「OK」と音声応答する。
続いて、ユーザが音声入出力端末40に向かって「スタート」と音声で入力すると、音声認識サーバ42はその音声を識別し、これをテキスト変換したテキストデータを装置本体10に送信する。装置本体10は受信したテキストデータを解析して指示内容を認識し、先ほどのコピージョブを開始する。そして、「スタート」の指示操作に対する経験値レベル6での音声応答のテキストデータを作成し、これを音声認識サーバ42に送信して、対応する音声を音声入出力端末40から出力させる。ここでは「ジョブを開始します」と音声応答する。
図11は、経験値レベル1〜4の場合における音声操作でのやりとり例を示す。経験値レベル1〜4の場合、各ステップでの音声ガイダンスは詳細な内容で行われる。また、ステップの省略はない。
図12は、経験値レベル5の場合における音声操作でのやりとり例を示す。経験値レベル5の場合、図11に比べて、各ステップでの音声ガイダンスは内容が若干簡略化される。
図13は、経験値レベル6の場合における音声操作でのやりとり例を示す。経験値レベル6の場合、図12に比べて、各ステップでの音声ガイダンスの内容はさらに簡略化される。
図14は、経験値レベル7の場合における音声操作でのやりとり例を示す。経験値レベル7の場合、図13に比べて、対話のステップが省略される。
このように、ユーザの経験値に応じて、音声応答の内容や対話のステップを複数段階に簡素化し、対話形式のやりとりをそれぞれのユーザに適した詳しさ・丁寧さで行うので、装置使用の経験値が異なるどのユーザに対しても使い勝手の良い音声操作を提供することができる。
以上、本発明の実施の形態を図面によって説明してきたが、具体的な構成は実施の形態に示したものに限られるものではなく、本発明の要旨を逸脱しない範囲における変更や追加があっても本発明に含まれる。
本発明に係る装置の構成は、図1〜図5に示すものに限定されず、たとえば、ユーザインターフェイス部(音声入出力端末40、音声認識サーバ42)を含まず、これに接続される装置とされてもよい。図3に示す装置本体10のうち、音声解析部31、ユーザ特定部32、経験値判断部33、情報量変更部34、音声応答部35、判断データ記憶制御部36の機能を有する装置であればよい。また、これらの機能を、装置本体10とは別のサーバに持たせる、あるいは音声認識サーバ42やユーザ確認サーバ52に組み込む構成であってもよい。
実施の形態では、ユーザが操作パネル20を見ているか否かを判断要素に加えて経験値レベルを導出したが、これを判断要素としなくてもよい。また、実施の形態では、装置本体10の操作パネル20の見える場所にユーザが居て、そのユーザが操作パネル20を見ているか否かを経験値レベルの判断要素としたが、実際に操作パネル20を見ているか否かを問わず、装置本体10の操作パネル20の見える場所に居るか否かを判断要素としてもよい。
また、操作パネル20の近くに居るユーザが操作パネル20を見ないで音声操作を行っている場合は、操作画面を全く見なくても問題なく音声操作できるほど使い慣れていると推定できるので、操作パネル20の近くに居るユーザが操作パネル20を見ながら音声操作を行っている場合に比べて、経験値レベルを高めるようにしてもよい。
実施の形態では、音声操作を受ける際に、対応する操作画面を操作パネル20に表示するようにしたが、操作画面を表示せずに、音声操作を受ける構成であってもよい。
本発明に係る装置は、実施の形態に示す複合機に限定されず、対話形式の音声操作を行う装置であれば任意の装置でよい。
5…装置
10…装置本体
11…CPU
12…ROM
13…RAM
14…不揮発メモリ
15…ハードディスク装置
16…スキャナ部
17…画像処理部
18…プリンタ部
19…ネットワーク通信部
20…操作パネル
21…操作部
22…表示部
23…マイク
24…スピーカ
31…音声解析部
32…ユーザ特定部
33…経験値判断部
34…情報量変更部
35…音声応答部
36…判断データ記憶制御部
37…音声識別部
38…ユーザ確認部
40…音声入出力端末
42…音声認識サーバ
50…カメラ(判定情報取得部)
52…ユーザ確認サーバ
60…判断テーブル

Claims (10)

  1. ユーザからの指示を音声による対話形式で受ける装置であって、
    前記ユーザの当該装置の使用に係る経験値を判断する経験値判断部と、
    前記対話形式のやりとりにおいて前記ユーザに音声で提供する情報量を前記経験値判断部が判断した前記ユーザの経験値に応じて変更する情報量変更部と、
    を有する
    ことを特徴とする装置。
  2. 前記経験値判断部は、前記ユーザからの指示を前回受けてからの経過時間、前記ユーザから指示を受けた頻度、前記ユーザから過去に指示を受けた際の指示間隔、前記ユーザから過去に受けた指示において設定変更が行われた頻度、前記ユーザによるヘルプ機能の使用頻度、音声ガイダンスの出力中に前記ユーザが割り込み操作を行った頻度、のうちの少なくとも1つを判断要素にして前記経験値を判断する
    ことを特徴とする請求項1に記載の装置。
  3. 前記情報量変更部は、前記ユーザの経験値に応じて、前記ユーザに提供する音声の発話スピードを変更する
    ことを特徴とする請求項1または2に記載の装置。
  4. 前記情報量変更部は、前記ユーザの経験値に応じて、前記対話形式のやりとりのステップを省略する
    ことを特徴とする請求項1乃至3のいずれか1つに記載の装置。
  5. 前記情報量変更部は、前記経験値が高いほど、前記ユーザに音声で提供する情報量を少なくする
    ことを特徴とする請求項1乃至4のいずれか1つに記載の装置。
  6. 前記経験値判断部は、前記ユーザからの指示を音声による対話形式で前回受けてからの経過時間が一定以上の場合は、他の判断要素にかかわらず、前記経験値を所定の低レベルに設定する
    ことを特徴とする請求項5に記載の装置。
  7. 前記経験値判断部は、前記ユーザが音声ガイダンス出力中の割り込み操作を一定回数以上続けて行った場合は、他の判断要素にかかわらず、前記経験値を所定の高レベルに設定する
    ことを特徴とする請求項5または6に記載の装置。
  8. 音声操作に対応する操作画面を表示する操作パネルと、
    前記ユーザが前記操作画面の見える場所に居る否かを判定可能な情報を取得するユーザ確認部と、
    をさらに有し、
    前記経験値判断部は、前記ユーザが前記操作画面の見える場所に居ない場合は、他の判断要素に係らず、前記経験値を所定の低レベルに設定する
    ことを特徴とする請求項5乃至7のいずれか1つに記載の装置。
  9. 前記経験値判断部は、ジョブ種毎に前記経験値を判断する
    ことを特徴とする請求項1乃至8のいずれか1つに記載の装置。
  10. 音声出力中はユーザからの音声入力を受け付けないユーザインターフェイス部に接続されて使用される
    ことを特徴とする請求項1乃至9のいずれか1つに記載の装置。
JP2019093224A 2019-05-16 2019-05-16 装置 Active JP7284455B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019093224A JP7284455B2 (ja) 2019-05-16 2019-05-16 装置
US16/840,594 US20200366800A1 (en) 2019-05-16 2020-04-06 Apparatus
CN202010385459.3A CN111953857A (zh) 2019-05-16 2020-05-09 装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019093224A JP7284455B2 (ja) 2019-05-16 2019-05-16 装置

Publications (2)

Publication Number Publication Date
JP2020187663A true JP2020187663A (ja) 2020-11-19
JP7284455B2 JP7284455B2 (ja) 2023-05-31

Family

ID=73221950

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019093224A Active JP7284455B2 (ja) 2019-05-16 2019-05-16 装置

Country Status (3)

Country Link
US (1) US20200366800A1 (ja)
JP (1) JP7284455B2 (ja)
CN (1) CN111953857A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2022201458A1 (ja) * 2021-03-25 2022-09-29

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022007620A (ja) * 2020-06-26 2022-01-13 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0844520A (ja) * 1994-07-29 1996-02-16 Toshiba Corp 対話装置及び同装置に適用される操作ガイダンス出力方法
JPH09160751A (ja) * 1995-12-05 1997-06-20 Pfu Ltd 音声ガイダンス付き情報提供システム
JPH09326856A (ja) * 1996-06-03 1997-12-16 Mitsubishi Electric Corp 音声認識応答装置
JPH1063460A (ja) * 1996-08-16 1998-03-06 Nec Corp 人物動作対話システム
JP2003114794A (ja) * 2001-10-03 2003-04-18 Alpine Electronics Inc 操作案内装置及び操作案内方法
US7366607B2 (en) * 2003-11-28 2008-04-29 Fujitsu Ten Limited Navigation apparatus
JP2011253375A (ja) * 2010-06-02 2011-12-15 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
US20150053779A1 (en) * 2013-08-21 2015-02-26 Honeywell International Inc. Devices and methods for interacting with an hvac controller

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6253184B1 (en) * 1998-12-14 2001-06-26 Jon Ruppert Interactive voice controlled copier apparatus
US7318198B2 (en) * 2002-04-30 2008-01-08 Ricoh Company, Ltd. Apparatus operation device for operating an apparatus without using eyesight
JP4759374B2 (ja) * 2005-11-22 2011-08-31 キヤノン株式会社 情報処理装置、情報処理方法、プログラム、記憶媒体

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0844520A (ja) * 1994-07-29 1996-02-16 Toshiba Corp 対話装置及び同装置に適用される操作ガイダンス出力方法
JPH09160751A (ja) * 1995-12-05 1997-06-20 Pfu Ltd 音声ガイダンス付き情報提供システム
JPH09326856A (ja) * 1996-06-03 1997-12-16 Mitsubishi Electric Corp 音声認識応答装置
JPH1063460A (ja) * 1996-08-16 1998-03-06 Nec Corp 人物動作対話システム
JP2003114794A (ja) * 2001-10-03 2003-04-18 Alpine Electronics Inc 操作案内装置及び操作案内方法
US7366607B2 (en) * 2003-11-28 2008-04-29 Fujitsu Ten Limited Navigation apparatus
JP2011253375A (ja) * 2010-06-02 2011-12-15 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
US20150053779A1 (en) * 2013-08-21 2015-02-26 Honeywell International Inc. Devices and methods for interacting with an hvac controller

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2022201458A1 (ja) * 2021-03-25 2022-09-29
JP7361988B2 (ja) 2021-03-25 2023-10-16 三菱電機株式会社 音声対話システム、音声対話方法及び音声対話管理装置

Also Published As

Publication number Publication date
US20200366800A1 (en) 2020-11-19
CN111953857A (zh) 2020-11-17
JP7284455B2 (ja) 2023-05-31

Similar Documents

Publication Publication Date Title
US11355106B2 (en) Information processing apparatus, method of processing information and storage medium comprising dot per inch resolution for scan or copy
US20200177747A1 (en) Information processing system, method of processing information and storage medium
JP6171511B2 (ja) 制御装置、画像形成装置、携帯端末装置、制御方法、および制御プログラム
US11211069B2 (en) Information processing system, information processing method, and non-transitory recording medium
CN111314569B (zh) 图像处理系统、云服务器以及程序
US20200076969A1 (en) Image forming system equipped with interactive agent function, method of controlling same, and storage medium
JP2020187663A (ja) 装置
CN111327780A (zh) 图像处理系统、图像形成装置、判定方法以及程序
JP7334459B2 (ja) 情報処理システム及びプログラム
JP4813421B2 (ja) 画像形成システム及び画像形成システム用プログラム並びに画像形成システム用プログラムを記録したコンピュータ読み取り可能な記録媒体
US10606531B2 (en) Image processing device, and operation control method thereof
JP6570669B2 (ja) 画像処理装置、画像処理装置の制御方法及びプログラム
US11122172B2 (en) Control apparatus, image forming system and program
JP7361509B2 (ja) 周辺装置管理システム、印刷装置制御システム、制御方法、印刷制御装置及びプログラム
US20200153983A1 (en) Information processing system, information processing apparatus, job control method, and job control program
JP2007027941A (ja) 画像処理装置
JP7375369B2 (ja) 画像形成システム
JP2008271047A (ja) 画像読取装置
JP7388006B2 (ja) 画像処理装置及びプログラム
JP7408925B2 (ja) ジョブ処理システム、音声通知方法、およびコンピュータプログラム
JP2021149772A (ja) 画像形成装置、情報処理装置、サーバー及びプログラム
JP2021096493A (ja) 制御装置、制御システム及び制御プログラム
JP2016162010A (ja) 処理システム、端末装置、処理装置、処理装置制御方法、およびコンピュータプログラム
JP2021009243A (ja) 画像形成装置およびそれを制御するためのプログラム
JP2019198121A (ja) 画像処理装置、画像処理装置の制御方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230419

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230502

R150 Certificate of patent or registration of utility model

Ref document number: 7284455

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150