JP2019074608A - 画像形成装置 - Google Patents

画像形成装置 Download PDF

Info

Publication number
JP2019074608A
JP2019074608A JP2017199661A JP2017199661A JP2019074608A JP 2019074608 A JP2019074608 A JP 2019074608A JP 2017199661 A JP2017199661 A JP 2017199661A JP 2017199661 A JP2017199661 A JP 2017199661A JP 2019074608 A JP2019074608 A JP 2019074608A
Authority
JP
Japan
Prior art keywords
unit
voice
speech recognition
image forming
terminal device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017199661A
Other languages
English (en)
Other versions
JP6822374B2 (ja
Inventor
浩介 滝
Kosuke Taki
浩介 滝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyocera Document Solutions Inc
Original Assignee
Kyocera Document Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyocera Document Solutions Inc filed Critical Kyocera Document Solutions Inc
Priority to JP2017199661A priority Critical patent/JP6822374B2/ja
Publication of JP2019074608A publication Critical patent/JP2019074608A/ja
Application granted granted Critical
Publication of JP6822374B2 publication Critical patent/JP6822374B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Accessory Devices And Overall Control Thereof (AREA)
  • Control Or Security For Electrophotography (AREA)
  • Facsimiles In General (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】音声入力で操作可能な画像形成装置において、音声入力による指示の精度を向上させる。【解決手段】マイク90から入力された音声信号の入力を受け付ける音声入力受付部102と、音声入力受付部102で入力を受け付けた音声信号について音声認識を行う音声認識部103と、携帯端末装置2と通信を行う通信部80と、画像形成装置1の動作を制御する制御部100とを備えると共に、携帯端末装置2は、当該携帯端末装置2に接続されたマイクから入力された音声信号に基づく音声認識を行い、音声認識を行うことによって得られた音声認識結果を本画像形成装置1へ送信するものであって、制御部100は、通信部80を介して受信した携帯端末装置2による音声認識結果と音声認識部103による音声認識結果とを照合し、照合することによって得られた照合結果に基づいて、本画像形成装置1の動作を制御する。【選択図】図1

Description

本発明は、画像形成装置に関し、特に、音声入力での操作を可能とする技術に関する。
下記の特許文献1に、画像形成装置に接続されたマイクから入力された音声信号に基づく音声認識が成功した場合には、当該音声認識の結果を用いて画像形成装置を制御し、不成功の場合には、端末装置に接続されたマイクで新たに音声入力を受け付け、当該マイクから入力された音声信号に基づく音声認識の結果を用いて画像形成装置を制御することが記載されている。
特開2014−203024号公報
ユーザーが発声した音声信号に基づく音声認識が成功していたとしても、正しく認識されているとは限らず、誤って認識されることもある。例えば、「コピー10枚」とユーザーは発声しているのに、「コピー20枚」と誤って認識されることもあり得る。このような場合、上記の特許文献1に記載された発明では、ユーザーが意図したものとは異なるコマンドが実行されることになる。
本発明は、上記の事情に鑑みなされたものであり、音声入力で操作可能な画像形成装置において、音声入力による指示の精度を向上させることを目的とする。
本発明の一局面に係る画像形成装置は、本画像形成装置に接続されたマイクから入力された音声信号の入力を受け付ける音声入力受付部と、前記音声入力受付部で入力を受け付けた音声信号に基づく音声認識を行うための音声認識部と、携帯端末装置と通信を行うための通信部と、本画像形成装置の動作を制御する制御部と、を備え、前記制御部は、前記通信部を介して受信した前記携帯端末装置で行われた音声認識結果と、前記音声認識部による音声認識結果とを照合した照合結果に基づいて、本画像形成装置の動作を制御する。
また、本発明の一局面に係る画像形成装置は、本画像形成装置に接続されたマイクから入力された音声信号の入力を受け付ける音声入力受付部と、前記音声入力受付部で入力を受け付けた音声信号に基づく音声認識を行う音声認識部と、携帯端末装置と通信を行う通信部と、本画像形成装置の動作を制御する制御部と、を備え、前記制御部は、前記音声認識部による音声認識結果を、前記通信部を介して前記携帯端末装置へ送信し、前記制御部は、前記通信部を介して前記携帯端末装置から、当該携帯端末装置に接続されたマイクから入力された音声信号に基づく音声認識による音声認識結果と、本画像形成装置から送信されてきた前記音声認識部による音声認識結果と照合した照合結果を受信し、当該照合結果に基づいて、本画像形成装置の動作を制御する。
本発明によれば、本画像形成装置に接続されたマイクから入力された音声信号に基づく音声認識結果と、携帯端末装置に接続されたマイクから入力された音声信号に基づく音声認識結果との照合結果に基づいて、本画像形成装置の動作を制御するので、音声入力による指示の精度を向上させることができる。
本発明の第1実施形態に係る画像形成装置の主要内部構成を概略的に示した機能ブロック図である。 携帯端末装置の主要内部構成を概略的に示した機能ブロック図である。 第1実施形態に係る画像形成装置の制御ユニットで行われる動作概要の一例を示したフローチャートである。 表示部に表示される表示画面の一例を示した図である。 表示部に表示される表示画面の一例を示した図である。 表示部に表示される表示画面の一例を示した図である。 第2実施形態に係る画像形成装置の制御ユニットで行われる動作概要の一例を示したフローチャートである。 携帯端末装置の主要内部構成を概略的に示した機能ブロック図である。 第3実施形態に係る画像形成装置の制御ユニットで行われる動作概要の一例を示したフローチャートである。 第4実施形態に係る画像形成装置の制御ユニットで行われる動作概要の一例を示したフローチャートである。
以下、本発明の一実施形態に係る画像形成装置について図面を参照して説明する。図1は、本発明の第1実施形態に係る画像形成装置の主要内部構成を概略的に示した機能ブロック図である。図2は、画像形成装置を遠隔操作するための携帯端末装置の主要内部構成を概略的に示した機能ブロック図である。
画像形成装置1は、例えば、コピー機能、プリンター機能、スキャナー機能、及びファクシミリ機能のような複数の機能を兼ね備えた複合機である。画像形成装置1は、制御ユニット10、原稿給送部6、原稿読取部5、画像形成部12、定着部13、給紙部14、操作部47、通信部80、及びマイク90を備える。
画像形成装置1で原稿読取動作が行われる場合について説明する。原稿給送部6により搬送されてきた原稿、又はプラテンガラスに載置されている原稿の画像を、原稿読取部5が光学的に読み取り、そして画像データを生成する。原稿読取部5により生成された画像データは、図略の画像メモリー等に保存される。
画像形成装置1で画像形成動作が行われる場合について説明する。原稿読取動作により生成された画像データや、ネットワーク接続された外部装置としてのコンピューターから受信した画像データ等に基づいて、画像形成部12が、給紙部14から給紙される記録媒体としての記録紙にトナー像を形成する。
定着部13は、熱圧着によりトナー像を記録紙に定着させるものであり、定着処理が施された記録紙は排出トレイに排出される。給紙部14は、給紙カセットを備える。
操作部47は、画像形成装置1が実行可能な各種動作及び処理について、操作者から、画像形成動作実行指示等の指示を受け付ける。操作部47は、操作者への操作案内等を表示する表示部473を備えている。表示部473はタッチパネルになっており、操作者は画面表示されるボタンやキーに触れて画像形成装置1に対する操作指示を入力する。
通信部80は、LAN(Local Area Network)通信部81及び近距離無線通信を可能とするBLE(Bluetooth Low Energy)通信部82を含んで構成され、LAN通信部81を介して、ローカルエリア内、又はインターネット上のサーバー等の外部装置とデータの送受信を行い、更に、BLE通信部82を介して画像形成装置1の近くに存在する携帯端末装置2とデータの送受信を行う。なお、BLEとは、Bluetooth(登録商標)の拡張仕様の一つである。
マイク90は、例えばマイクロフォンを備え、音声を画像形成装置1に入力する。マイク90は、操作部47の近くに取り付けられている。
制御ユニット10は、プロセッサー、RAM(Random Access Memory)、ROM(Read Only Memory)、及び専用のハードウェア回路を含んで構成される。プロセッサーは、例えばCPU(Central Processing Unit)、ASIC(Application Specific Integrated Circuit)、又はMPU(Micro Processing Unit)等である。制御ユニット10は、制御部100と、操作受付部101と、音声入力受付部102と、音声認識部103とを備えている。
制御ユニット10は、図示しないHDD(Hard disk drive)に記憶されている制御プログラムに従った動作により、制御部100、操作受付部101、音声入力受付部102、及び音声認識部103として機能する。但し、制御部100等は、制御ユニット10による制御プログラムに従った動作によらず、それぞれハードウェア回路により構成することも可能である。以下、特に触れない限り、各実施形態について同様である。
制御部100は、画像形成装置1の全体的な動作制御を司る。制御部100は、原稿給送部6、原稿読取部5、画像形成部12、定着部13、給紙部14、操作部47、通信部80、及びマイク90と接続され、これら各部の駆動制御等を行う。
操作受付部101は、操作部47を介したユーザーからの操作入力を受け付ける。
音声入力受付部102は、マイク90から入力された音声信号の入力を受け付ける。
音声認識部103は、音声入力受付部102で入力を受け付けた音声信号について音声認識を実行する。例えば、音声認識部103は、当該音声認識において、内蔵する音声認識辞書(文法や語彙を含む)を参照して、当該音声信号を文字列に変換する。
携帯端末装置2は、例えば、スマートフォンなどのモバイル機器である。携帯端末装置2は、制御ユニット200と、操作部210と、通信部220と、記憶部230と、マイク240とを備えている。これらの各構成は、互いに通信バスによりデータ又は信号の送受信が可能とされている。
操作部210は、携帯端末装置2が実行可能な各種動作及び処理について、操作者から各種指示を受け付ける。操作部210は、操作者への操作案内等を表示する表示部211を備えている。表示部211は、タッチパネル機能を備えており、タッチパネル機能は、画面表示されるボタンやキーに対するユーザーによるタッチ操作を認識する。また、携帯端末装置2は、ユーザー操作が入力される操作部210として、上記のタッチパネル機能に加えて物理キーを備えてもよい。
通信部220は、不図示のLANチップなどの通信モジュールを備える通信インターフェイスである。携帯端末装置2は、ネットワークを介してサーバーなどの外部装置と接続される。また、通信部220は、BLE通信部を備え、近くの画像形成装置1との間でデータの送受信を行う。
記憶部230は、不揮発性メモリーなどの記憶装置である。
制御ユニット200は、プロセッサー、RAM、ROM、及び専用のハードウェア回路を含んで構成される。プロセッサーは、例えばCPU、ASIC、又はMPU等である。制御ユニット200は、制御部201と、操作受付部202と、音声入力受付部203と、音声認識部204とを備えている。
制御ユニット200は、記憶部230に記憶されている制御プログラムや各アプリケーションが上記のプロセッサーに実行されることにより、制御部201、操作受付部202、音声入力受付部203、及び音声認識部204として機能する。記憶部230に記憶されているアプリケーションには、画像形成装置1を音声にて遠隔操作するための遠隔操作アプリケーションが含まれ、携帯端末装置2は当該遠隔操作アプリケーションを用いて画像形成装置1を遠隔操作することが可能である。但し、制御ユニット200の上記の各構成は、制御ユニット200による制御プログラム等に基づく動作によらず、それぞれハードウェア回路により構成することも可能である。以下、特に触れない限り、各実施形態について同様である。
遠隔操作アプリケーションの起動方法には、携帯端末装置2にてアプリ起動用のアイコンを押下するといった方法や、携帯端末装置2を画像形成装置1に接近させることによって起動させるといった方法が挙げられる。
携帯端末装置2の制御部201は、通信部220を介して、画像形成装置1のBLE通信部82から送信されてくる電波の強度を検出し、その強度が予め定められた大きさ以上(すなわち、画像形成装置1に接近している)と判定すると、画像形成装置1とのBLE通信を確立する。すなわち、BLE通信で、携帯端末装置2と画像形成装置1とが接続される。
画像形成装置1の制御部100は、BLE通信で携帯端末装置2と接続されると、遠隔操作アプリケーションの起動コマンドを、BLE通信部82を介して携帯端末装置2へ送信する。携帯端末装置2の制御部201は、通信部220を介して、当該起動コマンドを受信すると、当該起動コマンドに従って、上記遠隔操作アプリケーションを起動する。
携帯端末装置2の制御部201は、携帯端末装置2の全体的な動作制御を司る。制御部201は、操作部210、通信部220、記憶部230、及びマイク240と接続されており、接続されている上記各構成の動作制御や、各構成との間での信号またはデータの送受信を行う。
操作受付部202は、ユーザー操作により操作部210に入力された指示や情報を受け付ける。
音声入力受付部203は、マイク240から入力された音声信号の入力を受け付ける。
音声認識部204は、音声入力受付部203で入力を受け付けた音声信号に基づく音声認識を行う。なお、音声認識機能については、サーバーが有し、制御部201が、当該音声信号をサーバーに送信し、音声認識については携帯端末装置2の代わりに、サーバーが行うようにしてもよい。
次に、第1実施形態に係る画像形成装置1の制御ユニット100で行われる動作概要の一例について、図3に示したフローチャートに基づいて説明する。なお、ここでは携帯端末装置2を携帯するユーザーが画像形成装置1に近づき、遠隔操作アプリケーションが起動している状態で、画像形成装置1のマイク90と、携帯端末装置2のマイク240とに向けて、ユーザーが音声を発した場合について説明する。
画像形成装置1の音声入力受付部102が、マイク90から入力された音声信号の入力を受け付けると(S1)、音声認識部103が、音声入力受付部102で入力を受け付けた音声信号に基づく音声認識を行い、当該音声認識により当該音声信号から変換された文字列に対応するコマンド(例えば、カラーコピー10枚)を、予め記憶しているコマンドの中から特定し、当該コマンドを生成する(S2)。当然のことであるが、音声認識が成功せず、失敗した場合には、コマンドは生成されない。
一方、携帯端末装置2の音声入力受付部203が、マイク240から入力された音声信号の入力を受け付けると(S21)、音声認識部204が、音声入力受付部203で入力を受け付けた音声信号に基づく音声認識を行い、当該音声認識により当該音声信号から変換された文字列に対応するコマンドを予め記憶しているコマンドの中から特定し、当該コマンドを生成する(S22)。更に、制御部201が、当該音声認識を行うことによって得られた音声認識結果(コマンド)を、通信部220を介して画像形成装置1へ送信する(S23)。但し、音声認識が成功せず、コマンドが生成されない場合、制御部201は、音声認識結果として、音声認識に失敗した旨を示す情報を画像形成装置1へ送信する。
画像形成装置1の制御部100は、通信部80を介して携帯端末装置2による音声認識結果を受信すると(S3)、画像形成装置1(音声認識部103)と携帯端末装置2(音声認識部204)との両方で音声認識が成功しているか否かを判断する(S4)。例えば、音声認識結果が画像形成装置1の動作指示として不適切なものであり、上記変換された文字列に対応する上記コマンドを特定できない場合、制御部100は音声認識が不成功であると判定する。
制御部100は、画像形成装置1と携帯端末装置2との両方で音声認識が成功していると判断した場合(S4でYES)、画像形成装置1による音声認識結果(コマンド)と、携帯端末装置2による音声認識結果(コマンド)とを照合し、両者が一致するか否かを判断する(S5)。
制御部100は、両者が一致する、すなわち、両コマンドが一致すると判断した場合(S5でYES)、画像形成装置1の動作を制御することによって、一致したコマンドを実行する(S6)。
一方、制御部100は、両者は一致しないと判断した場合(S5でNO)、両者が一致しない旨、そして音声認識結果それぞれのコマンド内容を表示部473に表示させて、実行するコマンドをユーザーに選択させる(S7)。
図4は、表示部473に表示される表示画面の一例を示した図である。制御部100による制御で表示部473に表示される表示画面D1には、「音声入力によるコマンドがMFPとモバイルとで一致しません。もう一度、音声入力を行うか、下記のいずれかのボタンを押下してください。」というメッセージM1と、画像形成装置1による音声認識結果のコマンドを表す「MFP:コピー10枚」というメッセージM2と、携帯端末装置2による音声認識結果のコマンドを表す「モバイル:コピー20枚」というメッセージM3とが表示されると共に、設定ボタンB1〜B3が形成される。設定ボタンB1〜B3にはそれぞれ、「MFPのコマンドを実行する」、「モバイルのコマンドを実行する」、「操作パネルから入力する」と記されている。
制御部100は、操作受付部101がタッチパネル機能を介して、設定ボタンB1〜B3のいずれかに対する操作を受け付けると、操作受付部101が受け付けたユーザー操作(ユーザー選択)に応じた処理を実行する(S8)。但し、画像形成装置1のマイク90や携帯端末装置2のマイク240に向けて、ユーザーが新たに音声を発し、画像形成装置1の音声入力受付部102や携帯端末装置2の音声入力受付部203が音声信号の入力を受け付けた場合には、上記S1,S21の動作が行われる。
操作受付部101が、設定ボタンB1に対する操作を受け付けると、制御部100は、画像形成装置1による音声認識結果が示すコマンドを実行し、操作受付部101が、設定ボタンB2に対する操作を受け付けると、制御部100は、携帯端末装置2による音声認識結果が示すコマンドを実行する。また、操作受付部101が、設定ボタンB3に対する操作を受け付けると、制御部100は、表示部473にメニュー画面を表示する。
また、S4において、制御部100は、画像形成装置1と携帯端末装置2との少なくとも一方で音声認識が失敗していると判断した場合(S4でNO)、画像形成装置1及び携帯端末装置2のうちのいずれか一方で音声認識が成功しているか否かを判断する(S9)。
制御部100は、画像形成装置1及び携帯端末装置2のうちのいずれか一方で音声認識が成功していると判断した場合(S9でYES)、音声認識が一方しか成功していない旨、そして成功している方の音声認識結果のコマンド内容を表示部473に表示すると共に、当該コマンドを実行するか否かをユーザーに選択させる(S10)。
図5は、表示部473に表示される表示画面の一例を示した図である。制御部100による制御で表示部473に表示される表示画面D2には、「MFPとモバイルのいずれかで音声入力に失敗しました。もう一度、音声入力を行うか、下記のいずれかのボタンを押下してください。」というメッセージM4と、成功している音声認識結果のコマンドを表す「音声入力したコマンド:コピー10枚」というメッセージM5とが表示されると共に、設定ボタンB4,B5が形成される。設定ボタンB4,B5にはそれぞれ、「音声入力したコマンドを実行する」、「操作パネルから入力する」と記されている。
制御部100は、操作受付部101が設定ボタンB4,B5のいずれかに対する操作を受け付けると、操作受付部101が受け付けたユーザー操作(ユーザー選択)に応じた処理を実行する(S11)。但し、画像形成装置1のマイク90や携帯端末装置2のマイク240に向けて、ユーザーが新たに音声を発し、画像形成装置1の音声入力受付部102や携帯端末装置2の音声入力受付部203が音声信号の入力を受け付けた場合には、上記S1,S21の動作が行われる。
操作受付部101が、設定ボタンB4に対する操作を受け付けると、制御部100は、成功している音声認識結果のコマンドを実行し、操作受付部101が、設定ボタンB5に対する操作を受け付けると、制御部100は、表示部473にメニュー画面を表示する。
また、S9において、制御部100は、画像形成装置1と携帯端末装置2との両方で音声認識が失敗していると判断した場合(S9でNO)、画像形成装置1の音声認識部103での音声認識失敗の原因を分析し、当該原因に応じた対処法を設定する(S12)。
音声認識を失敗する原因としては、ユーザーの発声態様(音量や発声速度)に起因するものや、音声認識におけるソフトウェア上の問題などが挙げられる。そこで、制御部100は、ユーザー発声における出力の振幅が予め定められた閾値を一定時間連続して超えているか否かを判断し、振幅が当該閾値を一定時間連続して超えていないと判断した場合、音量が小さいことが音声認識の失敗原因であると判定する。
また、制御部100は、ユーザー発声における一文字単位の発生時間が予め定められた閾値以下であるか否かを判断し、当該発生時間が当該閾値以下であると判断した場合、発声速度が速すぎることが音声認識の失敗原因であると判定する。そして、制御部100は、ユーザーの発声態様(音量や発声速度)に音声認識の失敗原因はないと判定した場合、音声認識部103の音声認識におけるソフトウェア上の問題が失敗原因であると判定する。
音声認識失敗の原因が、ユーザーの発声態様に起因する場合、音声認識を成功させるための対処法としては、失敗の原因をユーザーに知らせることになる。
一方、音声認識失敗の原因が、音声認識部103の音声認識におけるソフトウェア上の問題に起因する場合、音声認識を成功させるための対処法としては、例えば、音声認識辞書を参照して音声認識を行う際の正誤判定値を下げるといった方法が挙げられる。当該正誤判定値を下げると、音声認識の信頼性は落ちるが、音声認識の成功率は上がる。
そこで、制御部100は、音声認識失敗の原因がユーザーの発声態様に起因すると判断した場合には、失敗の原因をユーザーに知らせることを対処法として設定し、一方、音声認識失敗の原因がユーザーの発声態様に起因しないと判断した場合には、当該正誤判定値を下げることを対処法として設定する。
続いて、制御部100は、画像形成装置1と携帯端末装置2との両方で音声認識が失敗している旨、そして音声認識失敗の原因がユーザーの発声態様に起因していると判断した場合には、失敗の原因についても表示部473に表示する(S13)。
図6は、表示部473に表示される表示画面の一例を示した図である。制御部100による制御で表示部473に表示される表示画面D3には、「MFPとモバイルの両方で音声入力に失敗しました。もう一度、音声入力を行うか、下記のボタンを押下してください。」というメッセージM6と、音声認識の対処法を表す「もう一度、音声入力を行う場合には、もう少し大きな声でお願いします。」というメッセージM7とが表示されると共に、設定ボタンB6が形成される。設定ボタンB6には「操作パネルから入力する」と記されている。
制御部100は、操作受付部101が設定ボタンB6に対する操作を受け付けると、操作受付部101が受け付けたユーザー操作(ユーザー選択)に応じた処理を実行する(S14)。但し、画像形成装置1のマイク90や携帯端末装置2のマイク240に向けて、ユーザーが新たに音声を発し、画像形成装置1の音声入力受付部102や携帯端末装置2の音声入力受付部203が音声信号の入力を受け付けた場合には、上記S1,S21の動作が行われる。
また、音声認識失敗の原因がユーザー発声態様に起因しない場合には、上記S2において、画像形成装置1の音声認識部103は、制御部100が設定した対処法に従い、上記正誤判定値を下げて、音声入力受付部102で新たに入力を受け付けた音声信号に対する音声認識を行う。
上記第1実施形態によれば、画像形成装置1に接続されたマイク90から入力された音声信号に基づく音声認識結果と、携帯端末装置2に接続されたマイク240から入力された音声信号に基づく音声認識結果との両方を用いて、画像形成装置1の動作が制御されるので、音声入力による指示の精度を向上させることができる。
画像形成装置1による音声認識結果と携帯端末装置2による音声認識結果とが一致する場合には、一致した音声認識結果のコマンドが実行されるが、両者が一致しない場合には、実行すべきコマンドをユーザーが選択する機会が与えられ、いずれかの音声認識が失敗している場合には、コマンドを実行するか否かをユーザーが選択する機会が与えられる。従って、ユーザーの意図しないコマンドが勝手に実行されるのを回避することができる。また、両方の音声認識が失敗した場合には、音声認識が失敗した原因に応じて、対処法が設定されるので、音声認識が成功する確率を高めることができる。
ところで、画像形成装置1で対応可能な言語よりも、携帯端末装置2で対応可能な言語の方が多いのが一般的である。例えば、画像形成装置1がイタリア語に対応していないが、携帯端末装置2がイタリア語に対応している場合、画像形成装置1による音声認識は失敗するが、携帯端末装置2による音声認識は成功可能なので、画像形成装置1が対応していない言語についても、音声入力で操作することが可能となる。
図7は、第2実施形態に係る画像形成装置1の制御ユニット100で行われる動作概要の一例を示したフローチャートである。当該第2実施形態に係る画像形成装置1における制御部100は、音声入力受付部102で音声信号の入力を受け付けてから予め定められた第1期間T1内に、音声入力受付部102で新たな音声信号の入力を受け付けると、音声入力受付部102で新たに入力を受け付けた音声信号に対する音声認識部103による音声認識結果と、音声入力受付部102で先に入力を受け付けた音声信号に対する音声認識部103による音声認識結果とを比較し、予め定められた重要項目の内容すべてが一致する場合には、先の音声認識結果を無効にして、新たに入力を受け付けた音声信号についての音声認識結果を有効にする。
なお、予め定められた第1期間T1内は、図7に示した1点破線で囲まれた範囲内であり、S1において音声入力受付部102が音声信号の入力を受け付けてから、例えば、S6において制御部100が音声認識に基づくコマンドを実行するまでの期間である。
更に、当該第2実施形態に係る画像形成装置1における制御部100は、携帯端末装置2による音声認識結果を受信してから予め定められた第2期間T2内に、携帯端末装置2による音声認識結果を新たに受信すると、新たに受信した携帯端末装置2による音声認識結果と、先に受信した携帯端末装置2による音声認識結果とを比較し、予め定められた重要項目の内容すべてが一致する場合には、先の音声認識結果を無効にして、新たに受信した携帯端末装置2による音声信号についての音声認識結果を有効にする。
なお、予め定められた第2期間T2内は、図7に示した2点破線で囲まれた範囲内であり、S3において通信部80が携帯端末装置2による音声認識結果を受信してから、例えば、S6において制御部100が音声認識に基づくコマンドを実行するまでの期間である。
重要項目としては、例えば、コピーやスキャン、ファクス送信などが挙げられるが、カラーやモノクロ、部数などは重要項目に含まれない。例えば、ユーザーが「カラーコピー10枚」と発声したすぐ後に、「モノクロコピー20枚」と発声した場合、重要項目である「コピー」は一致するので、制御部100は、先に発声された「カラーコピー10枚」を無効にし、後に発声された「モノクロコピー20枚」を有効にする。
一方、ユーザーが「カラーコピー」と発声したすぐ後に、「カラースキャン」と発声した場合、重要項目は「コピー」と「スキャン」とで異なるので、制御部100は、先に発声された「カラーコピー」を無効にしない。また、先に発声されたものが無効にならなかった場合、制御部100は、先に発声された内容と後に発声された内容とを表示部473に表示し、ユーザーにいずれを有効にするのかを選択させる。
上記第2実施形態によれば、ユーザーが誤った音声入力をしたことに気づき、すぐに音声入力をし直した場合には、先の音声入力を無効にすることが可能となるので、使い勝手のよいものとすることができる。
図8は、第3実施形態に係る画像形成装置を遠隔操作するための携帯端末装置の主要内部構成を概略的に示した機能ブロック図である。携帯端末装置2Aは、制御ユニット200が検出部205を備える点で、図2に示した携帯端末装置2と相違する。検出部205は、携帯端末装置2Aに接続されたマイク240から入力された音声信号から既知の技術により周波数帯域を検出する。例えば、検出部205は、音声信号をフーリエ変換することによって、ユーザー音声の周波数帯域を検出する。そして、制御部201が、検出部205が検出したユーザー音声の周波数帯域を示す周波数帯域情報を、通信部220を介して画像形成装置1へ送信する。
第3実施形態に係る画像形成装置1の制御ユニット100で行われる動作概要の一例について、図9に示したフローチャートに基づいて説明する。なお、ここでは携帯端末装置2Aを携帯するユーザーが画像形成装置1に近づき、遠隔操作アプリケーションが起動している状態で、画像形成装置1のマイク90と、携帯端末装置2Aのマイク240とに向けて、ユーザーが音声を発した場合について説明する。
携帯端末装置2Aの音声入力受付部203が、マイク240から入力された音声信号の入力を受け付けると(S31)、音声認識部204が、音声入力受付部203で入力を受け付けた音声信号に基づく音声認識を行い、コマンドを生成し(S32)、検出部205が、当該音声信号から周波数帯域を検出し(S33)、制御部201が、音声認識を行うことによって得られた音声認識結果(コマンド)及び周波数帯域情報を、通信部220を介して画像形成装置1へ送信する(S34)。但し、音声認識が成功せず、コマンドが生成されない場合、制御部201は、音声認識結果として、音声認識に失敗した旨を示す情報を画像形成装置1へ送信する。
一方、画像形成装置1の音声入力受付部102が、マイク90から入力された音声信号の入力を受け付け(S41)、通信部80が、携帯端末装置2Aによる音声認識結果及び周波数帯域情報を受信すると(S42)、音声認識部103が、当該周波数帯域情報が示す周波数帯域に絞って、音声入力受付部102で入力を受け付けた音声信号に基づく音声認識を行い、当該音声信号から変換された文字列に対応するコマンドを、予め記憶しているコマンドの中から特定し、当該コマンドを生成する(S43)。なお、これ以降については、図3に示した動作と同じであるため、説明を省略する。
上記第3実施形態によれば、ユーザー音声の周波数帯域に絞って音声認識を行うことができるので、誤認識を防ぐことができる。
また、上記第1乃至第3実施形態では、画像形成装置1が、画像形成装置1による音声認識結果と、携帯端末装置2による音声認識結果とを照合する場合について説明しているが、第4実施形態では、図10に示すように、携帯端末装置2が、上記照合を行うようにしてもよい。
画像形成装置1の制御部100が、音声認識部103による音声認識結果を、通信部80を介して携帯端末装置2へ送信し(S51)、携帯端末装置2の制御部201は、通信部220を介して画像形成装置1による音声認識結果を受信すると(S61)、画像形成装置1による音声認識結果と、携帯端末装置2による音声認識結果とを照合し(S62)、照合することによって得られた照合結果を、通信部220を介して画像形成装置1へ送信する(S63)。
なお、照合結果としては、例えば、画像形成装置1と携帯端末装置2との両方で音声認識が成功しているとの判断結果や、それぞれの音声認識結果が一致しているとの判断結果、一致した音声認識結果のコマンドが挙げられる。
画像形成装置1の制御部100は、通信部80を介して携帯端末装置2による照合結果を受信すると(S52)、携帯端末装置2から送信されてきた照合結果に基づいて、画像形成装置1の動作を制御する(S53)。
また、本発明は上記実施の形態の構成に限られず種々の変形が可能である。また、上記実施形態では、本発明に係る画像形成装置の一実施形態として複合機を用いて説明しているが、これは一例に過ぎず、例えば、コピー機能、ファクシミリ機能、スキャナー機能等を有した他の画像形成装置でもよい。
また、上記実施形態では、図1乃至図10を用いて上記実施形態により示した構成及び処理は、本発明の一実施形態に過ぎず、本発明を当該構成及び処理に限定する趣旨ではない。
1 画像形成装置
2 携帯端末装置
80 通信部
90 マイク
100 制御部
101 操作受付部
102 音声入力受付部
103 音声認識部
205 検出部

Claims (9)

  1. 本画像形成装置に接続されたマイクから入力された音声信号の入力を受け付ける音声入力受付部と、
    前記音声入力受付部で入力を受け付けた音声信号に基づく音声認識を行う音声認識部と、
    携帯端末装置と通信を行う通信部と、
    本画像形成装置の動作を制御する制御部と、を備え、
    前記制御部は、前記通信部を介して受信した前記携帯端末装置で行われた音声認識結果と、前記音声認識部による音声認識結果とを照合した照合結果に基づいて、本画像形成装置の動作を制御する画像形成装置。
  2. 前記音声入力受付部で音声信号の入力を受け付けてから予め定められた第1期間内に、前記音声入力受付部で新たな音声信号の入力を受け付けると、
    前記制御部は、前記音声入力受付部で新たに入力を受け付けた音声信号に対する前記音声認識部による音声認識結果と、前記音声入力受付部で先に入力を受け付けた音声信号に対する前記音声認識部による音声認識結果とを比較し、当該両音声認識結果において、予め定められた重要項目の内容すべてが一致する場合には、前記携帯端末装置で行われた音声認識結果との照合において、先の音声認識結果を無効にして、新たに入力を受け付けた音声信号についての音声認識結果を有効にする請求項1に記載の画像形成装置。
  3. 前記携帯端末装置による音声認識結果を受信してから予め定められた第2期間内に、前記携帯端末装置による音声認識結果を新たに受信すると、
    前記制御部は、新たに受信した前記携帯端末装置による音声認識結果と、先に受信した前記携帯端末装置による音声認識結果とを比較し、予め定められた重要項目の内容すべてが一致する場合には、前記音声入力受付部で入力を受け付けた音声信号についての音声認識結果との照合において、先の音声認識結果を無効にして、新たに受信した前記携帯端末装置による音声認識結果を有効にする請求項1又は請求項2に記載の画像形成装置。
  4. 本画像形成装置に接続されたマイクから入力された音声信号の入力を受け付ける音声入力受付部と、
    前記音声入力受付部で入力を受け付けた音声信号に基づく音声認識を行う音声認識部と、
    携帯端末装置と通信を行う通信部と、
    本画像形成装置の動作を制御する制御部と、を備え、
    前記制御部は、前記音声認識部による音声認識結果を、前記通信部を介して前記携帯端末装置へ送信し、
    前記制御部は、前記通信部を介して前記携帯端末装置から、当該携帯端末装置に接続されたマイクから入力された音声信号に基づく音声認識による音声認識結果と、本画像形成装置から送信されてきた前記音声認識部による音声認識結果と照合した照合結果を受信し、当該照合結果に基づいて、本画像形成装置の動作を制御する画像形成装置。
  5. 前記制御部は、前記照合結果が、前記音声認識部による音声認識結果と、前記携帯端末装置による音声認識結果とが一致することを示す場合、当該一致した音声認識結果に対応する予め定められたコマンドを実行する請求項1乃至請求項4のいずれかに記載の画像形成装置。
  6. ユーザーに対して報知を行う報知部と、
    ユーザーから指示を受け付ける操作部とを更に備え、
    前記制御部は、前記照合結果が、前記音声認識部による音声認識結果と、前記携帯端末装置による音声認識結果とが一致しないことを示す場合、音声認識結果それぞれの予め定められたコマンドの内容を前記報知部によりユーザーに対して報知させると共に、実行対象とするコマンドを当該それぞれのコマンドから選択する指示を、前記操作部を介してユーザーから受け付け、当該指示に従ったコマンドを実行する請求項1乃至請求項5のいずれかに記載の画像形成装置。
  7. 前記音声認識部による音声認識及び前記携帯端末装置による音声認識のうちのいずれか一方だけが成功しているとき、
    前記制御部は、成功している方の音声認識結果のコマンドを実行するか否かを前記報知部によりユーザーに対して報知させ、前記操作部を介してユーザーから選択指示を受け付けた方のコマンドを実行する請求項1乃至請求項6のいずれかに記載の画像形成装置。
  8. 前記音声認識部による音声認識及び前記携帯端末装置による音声認識の両方が成功していないとき、
    前記制御部は、音声認識を失敗した原因を分析し、当該原因に応じた対処法を設定し、
    前記音声認識部は、前記制御部が設定した対処法に従って、前記音声入力受付部で新たに入力を受け付けた音声信号に対する音声認識を行う請求項1乃至請求項7のいずれかに記載の画像形成装置。
  9. 前記音声認識部は、前記携帯端末装置から送信されてきた周波数帯域情報が示す周波数帯域においてのみ、前記音声入力受付部で入力を受け付けた音声信号に基づく音声認識を行う請求項1乃至請求項8のいずれかに記載の画像形成装置。
JP2017199661A 2017-10-13 2017-10-13 画像形成装置 Active JP6822374B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017199661A JP6822374B2 (ja) 2017-10-13 2017-10-13 画像形成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017199661A JP6822374B2 (ja) 2017-10-13 2017-10-13 画像形成装置

Publications (2)

Publication Number Publication Date
JP2019074608A true JP2019074608A (ja) 2019-05-16
JP6822374B2 JP6822374B2 (ja) 2021-01-27

Family

ID=66544147

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017199661A Active JP6822374B2 (ja) 2017-10-13 2017-10-13 画像形成装置

Country Status (1)

Country Link
JP (1) JP6822374B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11683422B2 (en) 2019-12-10 2023-06-20 Canon Kabushiki Kaisha Image processing system, image processing apparatus, and image processing method
JP7319639B1 (ja) 2022-08-24 2023-08-02 ダイレクトソリューションズ株式会社 音声入力システム及びそのプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09282418A (ja) * 1996-04-16 1997-10-31 Hitachi Ltd 認識方式複合化装置および方法
JP2008256802A (ja) * 2007-04-02 2008-10-23 Fujitsu Ten Ltd 音声認識装置および音声認識方法
JP2009042298A (ja) * 2007-08-06 2009-02-26 Panasonic Electric Works Co Ltd 音声による機器制御装置
JP2014203024A (ja) * 2013-04-09 2014-10-27 コニカミノルタ株式会社 制御装置、画像形成装置、端末装置、制御方法、および制御プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09282418A (ja) * 1996-04-16 1997-10-31 Hitachi Ltd 認識方式複合化装置および方法
JP2008256802A (ja) * 2007-04-02 2008-10-23 Fujitsu Ten Ltd 音声認識装置および音声認識方法
JP2009042298A (ja) * 2007-08-06 2009-02-26 Panasonic Electric Works Co Ltd 音声による機器制御装置
JP2014203024A (ja) * 2013-04-09 2014-10-27 コニカミノルタ株式会社 制御装置、画像形成装置、端末装置、制御方法、および制御プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11683422B2 (en) 2019-12-10 2023-06-20 Canon Kabushiki Kaisha Image processing system, image processing apparatus, and image processing method
JP7319639B1 (ja) 2022-08-24 2023-08-02 ダイレクトソリューションズ株式会社 音声入力システム及びそのプログラム
JP2024030340A (ja) * 2022-08-24 2024-03-07 ダイレクトソリューションズ株式会社 音声入力システム及びそのプログラム

Also Published As

Publication number Publication date
JP6822374B2 (ja) 2021-01-27

Similar Documents

Publication Publication Date Title
US8046231B2 (en) Speech processing apparatus and control method thereof
US20210151053A1 (en) Speech control system, speech control method, image processing apparatus, speech control apparatus, and storage medium
JP2009116841A (ja) 入力装置
US20190349489A1 (en) Operation screen display device, image processing apparatus, and recording medium
US11140284B2 (en) Image forming system equipped with interactive agent function, method of controlling same, and storage medium
US20150149163A1 (en) Voice input correction
EP3547310A1 (en) Electronic device for processing user voice
CN113497855A (zh) 信息处理装置、存储介质及信息处理方法
US11327697B2 (en) Information processing apparatus and startup method for input-output device
JP6822374B2 (ja) 画像形成装置
US11310375B2 (en) Image forming apparatus, image forming method, and non-transitory recording medium
US11159684B2 (en) Image forming system and image forming apparatus
JP2000029585A (ja) 音声コマンド認識画像処理装置
JP2008257566A (ja) 電子機器
KR20190083064A (ko) 전자 장치, 그 제어 방법 및 컴퓨터 판독가능 기록 매체
TWI453655B (zh) 多功能事務機及其警示方法
US20200366800A1 (en) Apparatus
US20220287110A1 (en) Electronic device and method for connecting device thereof
US11722609B2 (en) Operation receiving apparatus, control method, image forming system, and recording medium that perform print setting based on voice and manual operations
US11023190B2 (en) Image forming apparatus
JP7334510B2 (ja) 画像形成装置、画像形成装置の制御方法、および画像形成装置の制御プログラム
JP7286321B2 (ja) 情報処理システム、情報処理装置、制御方法、プログラム
US20200244824A1 (en) Image forming apparatus, image forming system, and controlling method of the image forming apparatus
US20220201136A1 (en) Information processing system that executes command corresponding to utterance, image processing apparatus, control method for information processing system, and storage medium storing control program for information processing system
JP2021015246A (ja) 情報処理システム、情報処理装置、情報処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190924

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200630

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200821

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201221

R150 Certificate of patent or registration of utility model

Ref document number: 6822374

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150