JP2019074608A

JP2019074608A - 画像形成装置

Info

Publication number: JP2019074608A
Application number: JP2017199661A
Authority: JP
Inventors: 浩介滝; Kosuke Taki
Original assignee: Kyocera Document Solutions Inc
Current assignee: Kyocera Document Solutions Inc
Priority date: 2017-10-13
Filing date: 2017-10-13
Publication date: 2019-05-16
Anticipated expiration: 2037-10-13
Also published as: JP6822374B2

Abstract

【課題】音声入力で操作可能な画像形成装置において、音声入力による指示の精度を向上させる。【解決手段】マイク９０から入力された音声信号の入力を受け付ける音声入力受付部１０２と、音声入力受付部１０２で入力を受け付けた音声信号について音声認識を行う音声認識部１０３と、携帯端末装置２と通信を行う通信部８０と、画像形成装置１の動作を制御する制御部１００とを備えると共に、携帯端末装置２は、当該携帯端末装置２に接続されたマイクから入力された音声信号に基づく音声認識を行い、音声認識を行うことによって得られた音声認識結果を本画像形成装置１へ送信するものであって、制御部１００は、通信部８０を介して受信した携帯端末装置２による音声認識結果と音声認識部１０３による音声認識結果とを照合し、照合することによって得られた照合結果に基づいて、本画像形成装置１の動作を制御する。【選択図】図１

Description

本発明は、画像形成装置に関し、特に、音声入力での操作を可能とする技術に関する。

下記の特許文献１に、画像形成装置に接続されたマイクから入力された音声信号に基づく音声認識が成功した場合には、当該音声認識の結果を用いて画像形成装置を制御し、不成功の場合には、端末装置に接続されたマイクで新たに音声入力を受け付け、当該マイクから入力された音声信号に基づく音声認識の結果を用いて画像形成装置を制御することが記載されている。

特開２０１４−２０３０２４号公報

ユーザーが発声した音声信号に基づく音声認識が成功していたとしても、正しく認識されているとは限らず、誤って認識されることもある。例えば、「コピー１０枚」とユーザーは発声しているのに、「コピー２０枚」と誤って認識されることもあり得る。このような場合、上記の特許文献１に記載された発明では、ユーザーが意図したものとは異なるコマンドが実行されることになる。

本発明は、上記の事情に鑑みなされたものであり、音声入力で操作可能な画像形成装置において、音声入力による指示の精度を向上させることを目的とする。

本発明の一局面に係る画像形成装置は、本画像形成装置に接続されたマイクから入力された音声信号の入力を受け付ける音声入力受付部と、前記音声入力受付部で入力を受け付けた音声信号に基づく音声認識を行うための音声認識部と、携帯端末装置と通信を行うための通信部と、本画像形成装置の動作を制御する制御部と、を備え、前記制御部は、前記通信部を介して受信した前記携帯端末装置で行われた音声認識結果と、前記音声認識部による音声認識結果とを照合した照合結果に基づいて、本画像形成装置の動作を制御する。

また、本発明の一局面に係る画像形成装置は、本画像形成装置に接続されたマイクから入力された音声信号の入力を受け付ける音声入力受付部と、前記音声入力受付部で入力を受け付けた音声信号に基づく音声認識を行う音声認識部と、携帯端末装置と通信を行う通信部と、本画像形成装置の動作を制御する制御部と、を備え、前記制御部は、前記音声認識部による音声認識結果を、前記通信部を介して前記携帯端末装置へ送信し、前記制御部は、前記通信部を介して前記携帯端末装置から、当該携帯端末装置に接続されたマイクから入力された音声信号に基づく音声認識による音声認識結果と、本画像形成装置から送信されてきた前記音声認識部による音声認識結果と照合した照合結果を受信し、当該照合結果に基づいて、本画像形成装置の動作を制御する。

本発明によれば、本画像形成装置に接続されたマイクから入力された音声信号に基づく音声認識結果と、携帯端末装置に接続されたマイクから入力された音声信号に基づく音声認識結果との照合結果に基づいて、本画像形成装置の動作を制御するので、音声入力による指示の精度を向上させることができる。

本発明の第１実施形態に係る画像形成装置の主要内部構成を概略的に示した機能ブロック図である。携帯端末装置の主要内部構成を概略的に示した機能ブロック図である。第１実施形態に係る画像形成装置の制御ユニットで行われる動作概要の一例を示したフローチャートである。表示部に表示される表示画面の一例を示した図である。表示部に表示される表示画面の一例を示した図である。表示部に表示される表示画面の一例を示した図である。第２実施形態に係る画像形成装置の制御ユニットで行われる動作概要の一例を示したフローチャートである。携帯端末装置の主要内部構成を概略的に示した機能ブロック図である。第３実施形態に係る画像形成装置の制御ユニットで行われる動作概要の一例を示したフローチャートである。第４実施形態に係る画像形成装置の制御ユニットで行われる動作概要の一例を示したフローチャートである。

以下、本発明の一実施形態に係る画像形成装置について図面を参照して説明する。図１は、本発明の第１実施形態に係る画像形成装置の主要内部構成を概略的に示した機能ブロック図である。図２は、画像形成装置を遠隔操作するための携帯端末装置の主要内部構成を概略的に示した機能ブロック図である。

画像形成装置１は、例えば、コピー機能、プリンター機能、スキャナー機能、及びファクシミリ機能のような複数の機能を兼ね備えた複合機である。画像形成装置１は、制御ユニット１０、原稿給送部６、原稿読取部５、画像形成部１２、定着部１３、給紙部１４、操作部４７、通信部８０、及びマイク９０を備える。

画像形成装置１で原稿読取動作が行われる場合について説明する。原稿給送部６により搬送されてきた原稿、又はプラテンガラスに載置されている原稿の画像を、原稿読取部５が光学的に読み取り、そして画像データを生成する。原稿読取部５により生成された画像データは、図略の画像メモリー等に保存される。

画像形成装置１で画像形成動作が行われる場合について説明する。原稿読取動作により生成された画像データや、ネットワーク接続された外部装置としてのコンピューターから受信した画像データ等に基づいて、画像形成部１２が、給紙部１４から給紙される記録媒体としての記録紙にトナー像を形成する。

定着部１３は、熱圧着によりトナー像を記録紙に定着させるものであり、定着処理が施された記録紙は排出トレイに排出される。給紙部１４は、給紙カセットを備える。

操作部４７は、画像形成装置１が実行可能な各種動作及び処理について、操作者から、画像形成動作実行指示等の指示を受け付ける。操作部４７は、操作者への操作案内等を表示する表示部４７３を備えている。表示部４７３はタッチパネルになっており、操作者は画面表示されるボタンやキーに触れて画像形成装置１に対する操作指示を入力する。

通信部８０は、ＬＡＮ（Local Area Network）通信部８１及び近距離無線通信を可能とするＢＬＥ（Bluetooth Low Energy）通信部８２を含んで構成され、ＬＡＮ通信部８１を介して、ローカルエリア内、又はインターネット上のサーバー等の外部装置とデータの送受信を行い、更に、ＢＬＥ通信部８２を介して画像形成装置１の近くに存在する携帯端末装置２とデータの送受信を行う。なお、ＢＬＥとは、Bluetooth（登録商標）の拡張仕様の一つである。

マイク９０は、例えばマイクロフォンを備え、音声を画像形成装置１に入力する。マイク９０は、操作部４７の近くに取り付けられている。

制御ユニット１０は、プロセッサー、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、及び専用のハードウェア回路を含んで構成される。プロセッサーは、例えばＣＰＵ（Central Processing Unit）、ＡＳＩＣ（Application Specific Integrated Circuit）、又はＭＰＵ（Micro Processing Unit）等である。制御ユニット１０は、制御部１００と、操作受付部１０１と、音声入力受付部１０２と、音声認識部１０３とを備えている。

制御ユニット１０は、図示しないＨＤＤ（Hard disk drive）に記憶されている制御プログラムに従った動作により、制御部１００、操作受付部１０１、音声入力受付部１０２、及び音声認識部１０３として機能する。但し、制御部１００等は、制御ユニット１０による制御プログラムに従った動作によらず、それぞれハードウェア回路により構成することも可能である。以下、特に触れない限り、各実施形態について同様である。

制御部１００は、画像形成装置１の全体的な動作制御を司る。制御部１００は、原稿給送部６、原稿読取部５、画像形成部１２、定着部１３、給紙部１４、操作部４７、通信部８０、及びマイク９０と接続され、これら各部の駆動制御等を行う。

操作受付部１０１は、操作部４７を介したユーザーからの操作入力を受け付ける。

音声入力受付部１０２は、マイク９０から入力された音声信号の入力を受け付ける。

音声認識部１０３は、音声入力受付部１０２で入力を受け付けた音声信号について音声認識を実行する。例えば、音声認識部１０３は、当該音声認識において、内蔵する音声認識辞書（文法や語彙を含む）を参照して、当該音声信号を文字列に変換する。

携帯端末装置２は、例えば、スマートフォンなどのモバイル機器である。携帯端末装置２は、制御ユニット２００と、操作部２１０と、通信部２２０と、記憶部２３０と、マイク２４０とを備えている。これらの各構成は、互いに通信バスによりデータ又は信号の送受信が可能とされている。

操作部２１０は、携帯端末装置２が実行可能な各種動作及び処理について、操作者から各種指示を受け付ける。操作部２１０は、操作者への操作案内等を表示する表示部２１１を備えている。表示部２１１は、タッチパネル機能を備えており、タッチパネル機能は、画面表示されるボタンやキーに対するユーザーによるタッチ操作を認識する。また、携帯端末装置２は、ユーザー操作が入力される操作部２１０として、上記のタッチパネル機能に加えて物理キーを備えてもよい。

通信部２２０は、不図示のＬＡＮチップなどの通信モジュールを備える通信インターフェイスである。携帯端末装置２は、ネットワークを介してサーバーなどの外部装置と接続される。また、通信部２２０は、ＢＬＥ通信部を備え、近くの画像形成装置１との間でデータの送受信を行う。

記憶部２３０は、不揮発性メモリーなどの記憶装置である。

制御ユニット２００は、プロセッサー、ＲＡＭ、ＲＯＭ、及び専用のハードウェア回路を含んで構成される。プロセッサーは、例えばＣＰＵ、ＡＳＩＣ、又はＭＰＵ等である。制御ユニット２００は、制御部２０１と、操作受付部２０２と、音声入力受付部２０３と、音声認識部２０４とを備えている。

制御ユニット２００は、記憶部２３０に記憶されている制御プログラムや各アプリケーションが上記のプロセッサーに実行されることにより、制御部２０１、操作受付部２０２、音声入力受付部２０３、及び音声認識部２０４として機能する。記憶部２３０に記憶されているアプリケーションには、画像形成装置１を音声にて遠隔操作するための遠隔操作アプリケーションが含まれ、携帯端末装置２は当該遠隔操作アプリケーションを用いて画像形成装置１を遠隔操作することが可能である。但し、制御ユニット２００の上記の各構成は、制御ユニット２００による制御プログラム等に基づく動作によらず、それぞれハードウェア回路により構成することも可能である。以下、特に触れない限り、各実施形態について同様である。

遠隔操作アプリケーションの起動方法には、携帯端末装置２にてアプリ起動用のアイコンを押下するといった方法や、携帯端末装置２を画像形成装置１に接近させることによって起動させるといった方法が挙げられる。

携帯端末装置２の制御部２０１は、通信部２２０を介して、画像形成装置１のＢＬＥ通信部８２から送信されてくる電波の強度を検出し、その強度が予め定められた大きさ以上（すなわち、画像形成装置１に接近している）と判定すると、画像形成装置１とのＢＬＥ通信を確立する。すなわち、ＢＬＥ通信で、携帯端末装置２と画像形成装置１とが接続される。

画像形成装置１の制御部１００は、ＢＬＥ通信で携帯端末装置２と接続されると、遠隔操作アプリケーションの起動コマンドを、ＢＬＥ通信部８２を介して携帯端末装置２へ送信する。携帯端末装置２の制御部２０１は、通信部２２０を介して、当該起動コマンドを受信すると、当該起動コマンドに従って、上記遠隔操作アプリケーションを起動する。

携帯端末装置２の制御部２０１は、携帯端末装置２の全体的な動作制御を司る。制御部２０１は、操作部２１０、通信部２２０、記憶部２３０、及びマイク２４０と接続されており、接続されている上記各構成の動作制御や、各構成との間での信号またはデータの送受信を行う。

操作受付部２０２は、ユーザー操作により操作部２１０に入力された指示や情報を受け付ける。

音声入力受付部２０３は、マイク２４０から入力された音声信号の入力を受け付ける。

音声認識部２０４は、音声入力受付部２０３で入力を受け付けた音声信号に基づく音声認識を行う。なお、音声認識機能については、サーバーが有し、制御部２０１が、当該音声信号をサーバーに送信し、音声認識については携帯端末装置２の代わりに、サーバーが行うようにしてもよい。

次に、第１実施形態に係る画像形成装置１の制御ユニット１００で行われる動作概要の一例について、図３に示したフローチャートに基づいて説明する。なお、ここでは携帯端末装置２を携帯するユーザーが画像形成装置１に近づき、遠隔操作アプリケーションが起動している状態で、画像形成装置１のマイク９０と、携帯端末装置２のマイク２４０とに向けて、ユーザーが音声を発した場合について説明する。

画像形成装置１の音声入力受付部１０２が、マイク９０から入力された音声信号の入力を受け付けると（Ｓ１）、音声認識部１０３が、音声入力受付部１０２で入力を受け付けた音声信号に基づく音声認識を行い、当該音声認識により当該音声信号から変換された文字列に対応するコマンド（例えば、カラーコピー１０枚）を、予め記憶しているコマンドの中から特定し、当該コマンドを生成する（Ｓ２）。当然のことであるが、音声認識が成功せず、失敗した場合には、コマンドは生成されない。

一方、携帯端末装置２の音声入力受付部２０３が、マイク２４０から入力された音声信号の入力を受け付けると（Ｓ２１）、音声認識部２０４が、音声入力受付部２０３で入力を受け付けた音声信号に基づく音声認識を行い、当該音声認識により当該音声信号から変換された文字列に対応するコマンドを予め記憶しているコマンドの中から特定し、当該コマンドを生成する（Ｓ２２）。更に、制御部２０１が、当該音声認識を行うことによって得られた音声認識結果（コマンド）を、通信部２２０を介して画像形成装置１へ送信する（Ｓ２３）。但し、音声認識が成功せず、コマンドが生成されない場合、制御部２０１は、音声認識結果として、音声認識に失敗した旨を示す情報を画像形成装置１へ送信する。

画像形成装置１の制御部１００は、通信部８０を介して携帯端末装置２による音声認識結果を受信すると（Ｓ３）、画像形成装置１（音声認識部１０３）と携帯端末装置２（音声認識部２０４）との両方で音声認識が成功しているか否かを判断する（Ｓ４）。例えば、音声認識結果が画像形成装置１の動作指示として不適切なものであり、上記変換された文字列に対応する上記コマンドを特定できない場合、制御部１００は音声認識が不成功であると判定する。

制御部１００は、画像形成装置１と携帯端末装置２との両方で音声認識が成功していると判断した場合（Ｓ４でＹＥＳ）、画像形成装置１による音声認識結果（コマンド）と、携帯端末装置２による音声認識結果（コマンド）とを照合し、両者が一致するか否かを判断する（Ｓ５）。

制御部１００は、両者が一致する、すなわち、両コマンドが一致すると判断した場合（Ｓ５でＹＥＳ）、画像形成装置１の動作を制御することによって、一致したコマンドを実行する（Ｓ６）。

一方、制御部１００は、両者は一致しないと判断した場合（Ｓ５でＮＯ）、両者が一致しない旨、そして音声認識結果それぞれのコマンド内容を表示部４７３に表示させて、実行するコマンドをユーザーに選択させる（Ｓ７）。

図４は、表示部４７３に表示される表示画面の一例を示した図である。制御部１００による制御で表示部４７３に表示される表示画面Ｄ１には、「音声入力によるコマンドがＭＦＰとモバイルとで一致しません。もう一度、音声入力を行うか、下記のいずれかのボタンを押下してください。」というメッセージＭ１と、画像形成装置１による音声認識結果のコマンドを表す「ＭＦＰ：コピー１０枚」というメッセージＭ２と、携帯端末装置２による音声認識結果のコマンドを表す「モバイル：コピー２０枚」というメッセージＭ３とが表示されると共に、設定ボタンＢ１〜Ｂ３が形成される。設定ボタンＢ１〜Ｂ３にはそれぞれ、「ＭＦＰのコマンドを実行する」、「モバイルのコマンドを実行する」、「操作パネルから入力する」と記されている。

制御部１００は、操作受付部１０１がタッチパネル機能を介して、設定ボタンＢ１〜Ｂ３のいずれかに対する操作を受け付けると、操作受付部１０１が受け付けたユーザー操作（ユーザー選択）に応じた処理を実行する（Ｓ８）。但し、画像形成装置１のマイク９０や携帯端末装置２のマイク２４０に向けて、ユーザーが新たに音声を発し、画像形成装置１の音声入力受付部１０２や携帯端末装置２の音声入力受付部２０３が音声信号の入力を受け付けた場合には、上記Ｓ１，Ｓ２１の動作が行われる。

操作受付部１０１が、設定ボタンＢ１に対する操作を受け付けると、制御部１００は、画像形成装置１による音声認識結果が示すコマンドを実行し、操作受付部１０１が、設定ボタンＢ２に対する操作を受け付けると、制御部１００は、携帯端末装置２による音声認識結果が示すコマンドを実行する。また、操作受付部１０１が、設定ボタンＢ３に対する操作を受け付けると、制御部１００は、表示部４７３にメニュー画面を表示する。

また、Ｓ４において、制御部１００は、画像形成装置１と携帯端末装置２との少なくとも一方で音声認識が失敗していると判断した場合（Ｓ４でＮＯ）、画像形成装置１及び携帯端末装置２のうちのいずれか一方で音声認識が成功しているか否かを判断する（Ｓ９）。

制御部１００は、画像形成装置１及び携帯端末装置２のうちのいずれか一方で音声認識が成功していると判断した場合（Ｓ９でＹＥＳ）、音声認識が一方しか成功していない旨、そして成功している方の音声認識結果のコマンド内容を表示部４７３に表示すると共に、当該コマンドを実行するか否かをユーザーに選択させる（Ｓ１０）。

図５は、表示部４７３に表示される表示画面の一例を示した図である。制御部１００による制御で表示部４７３に表示される表示画面Ｄ２には、「ＭＦＰとモバイルのいずれかで音声入力に失敗しました。もう一度、音声入力を行うか、下記のいずれかのボタンを押下してください。」というメッセージＭ４と、成功している音声認識結果のコマンドを表す「音声入力したコマンド：コピー１０枚」というメッセージＭ５とが表示されると共に、設定ボタンＢ４，Ｂ５が形成される。設定ボタンＢ４，Ｂ５にはそれぞれ、「音声入力したコマンドを実行する」、「操作パネルから入力する」と記されている。

制御部１００は、操作受付部１０１が設定ボタンＢ４，Ｂ５のいずれかに対する操作を受け付けると、操作受付部１０１が受け付けたユーザー操作（ユーザー選択）に応じた処理を実行する（Ｓ１１）。但し、画像形成装置１のマイク９０や携帯端末装置２のマイク２４０に向けて、ユーザーが新たに音声を発し、画像形成装置１の音声入力受付部１０２や携帯端末装置２の音声入力受付部２０３が音声信号の入力を受け付けた場合には、上記Ｓ１，Ｓ２１の動作が行われる。

操作受付部１０１が、設定ボタンＢ４に対する操作を受け付けると、制御部１００は、成功している音声認識結果のコマンドを実行し、操作受付部１０１が、設定ボタンＢ５に対する操作を受け付けると、制御部１００は、表示部４７３にメニュー画面を表示する。

また、Ｓ９において、制御部１００は、画像形成装置１と携帯端末装置２との両方で音声認識が失敗していると判断した場合（Ｓ９でＮＯ）、画像形成装置１の音声認識部１０３での音声認識失敗の原因を分析し、当該原因に応じた対処法を設定する（Ｓ１２）。

音声認識を失敗する原因としては、ユーザーの発声態様（音量や発声速度）に起因するものや、音声認識におけるソフトウェア上の問題などが挙げられる。そこで、制御部１００は、ユーザー発声における出力の振幅が予め定められた閾値を一定時間連続して超えているか否かを判断し、振幅が当該閾値を一定時間連続して超えていないと判断した場合、音量が小さいことが音声認識の失敗原因であると判定する。

また、制御部１００は、ユーザー発声における一文字単位の発生時間が予め定められた閾値以下であるか否かを判断し、当該発生時間が当該閾値以下であると判断した場合、発声速度が速すぎることが音声認識の失敗原因であると判定する。そして、制御部１００は、ユーザーの発声態様（音量や発声速度）に音声認識の失敗原因はないと判定した場合、音声認識部１０３の音声認識におけるソフトウェア上の問題が失敗原因であると判定する。

音声認識失敗の原因が、ユーザーの発声態様に起因する場合、音声認識を成功させるための対処法としては、失敗の原因をユーザーに知らせることになる。

一方、音声認識失敗の原因が、音声認識部１０３の音声認識におけるソフトウェア上の問題に起因する場合、音声認識を成功させるための対処法としては、例えば、音声認識辞書を参照して音声認識を行う際の正誤判定値を下げるといった方法が挙げられる。当該正誤判定値を下げると、音声認識の信頼性は落ちるが、音声認識の成功率は上がる。

そこで、制御部１００は、音声認識失敗の原因がユーザーの発声態様に起因すると判断した場合には、失敗の原因をユーザーに知らせることを対処法として設定し、一方、音声認識失敗の原因がユーザーの発声態様に起因しないと判断した場合には、当該正誤判定値を下げることを対処法として設定する。

続いて、制御部１００は、画像形成装置１と携帯端末装置２との両方で音声認識が失敗している旨、そして音声認識失敗の原因がユーザーの発声態様に起因していると判断した場合には、失敗の原因についても表示部４７３に表示する（Ｓ１３）。

図６は、表示部４７３に表示される表示画面の一例を示した図である。制御部１００による制御で表示部４７３に表示される表示画面Ｄ３には、「ＭＦＰとモバイルの両方で音声入力に失敗しました。もう一度、音声入力を行うか、下記のボタンを押下してください。」というメッセージＭ６と、音声認識の対処法を表す「もう一度、音声入力を行う場合には、もう少し大きな声でお願いします。」というメッセージＭ７とが表示されると共に、設定ボタンＢ６が形成される。設定ボタンＢ６には「操作パネルから入力する」と記されている。

制御部１００は、操作受付部１０１が設定ボタンＢ６に対する操作を受け付けると、操作受付部１０１が受け付けたユーザー操作（ユーザー選択）に応じた処理を実行する（Ｓ１４）。但し、画像形成装置１のマイク９０や携帯端末装置２のマイク２４０に向けて、ユーザーが新たに音声を発し、画像形成装置１の音声入力受付部１０２や携帯端末装置２の音声入力受付部２０３が音声信号の入力を受け付けた場合には、上記Ｓ１，Ｓ２１の動作が行われる。

また、音声認識失敗の原因がユーザー発声態様に起因しない場合には、上記Ｓ２において、画像形成装置１の音声認識部１０３は、制御部１００が設定した対処法に従い、上記正誤判定値を下げて、音声入力受付部１０２で新たに入力を受け付けた音声信号に対する音声認識を行う。

上記第１実施形態によれば、画像形成装置１に接続されたマイク９０から入力された音声信号に基づく音声認識結果と、携帯端末装置２に接続されたマイク２４０から入力された音声信号に基づく音声認識結果との両方を用いて、画像形成装置１の動作が制御されるので、音声入力による指示の精度を向上させることができる。

画像形成装置１による音声認識結果と携帯端末装置２による音声認識結果とが一致する場合には、一致した音声認識結果のコマンドが実行されるが、両者が一致しない場合には、実行すべきコマンドをユーザーが選択する機会が与えられ、いずれかの音声認識が失敗している場合には、コマンドを実行するか否かをユーザーが選択する機会が与えられる。従って、ユーザーの意図しないコマンドが勝手に実行されるのを回避することができる。また、両方の音声認識が失敗した場合には、音声認識が失敗した原因に応じて、対処法が設定されるので、音声認識が成功する確率を高めることができる。

ところで、画像形成装置１で対応可能な言語よりも、携帯端末装置２で対応可能な言語の方が多いのが一般的である。例えば、画像形成装置１がイタリア語に対応していないが、携帯端末装置２がイタリア語に対応している場合、画像形成装置１による音声認識は失敗するが、携帯端末装置２による音声認識は成功可能なので、画像形成装置１が対応していない言語についても、音声入力で操作することが可能となる。

図７は、第２実施形態に係る画像形成装置１の制御ユニット１００で行われる動作概要の一例を示したフローチャートである。当該第２実施形態に係る画像形成装置１における制御部１００は、音声入力受付部１０２で音声信号の入力を受け付けてから予め定められた第１期間Ｔ１内に、音声入力受付部１０２で新たな音声信号の入力を受け付けると、音声入力受付部１０２で新たに入力を受け付けた音声信号に対する音声認識部１０３による音声認識結果と、音声入力受付部１０２で先に入力を受け付けた音声信号に対する音声認識部１０３による音声認識結果とを比較し、予め定められた重要項目の内容すべてが一致する場合には、先の音声認識結果を無効にして、新たに入力を受け付けた音声信号についての音声認識結果を有効にする。

なお、予め定められた第１期間Ｔ１内は、図７に示した１点破線で囲まれた範囲内であり、Ｓ１において音声入力受付部１０２が音声信号の入力を受け付けてから、例えば、Ｓ６において制御部１００が音声認識に基づくコマンドを実行するまでの期間である。

更に、当該第２実施形態に係る画像形成装置１における制御部１００は、携帯端末装置２による音声認識結果を受信してから予め定められた第２期間Ｔ２内に、携帯端末装置２による音声認識結果を新たに受信すると、新たに受信した携帯端末装置２による音声認識結果と、先に受信した携帯端末装置２による音声認識結果とを比較し、予め定められた重要項目の内容すべてが一致する場合には、先の音声認識結果を無効にして、新たに受信した携帯端末装置２による音声信号についての音声認識結果を有効にする。

なお、予め定められた第２期間Ｔ２内は、図７に示した２点破線で囲まれた範囲内であり、Ｓ３において通信部８０が携帯端末装置２による音声認識結果を受信してから、例えば、Ｓ６において制御部１００が音声認識に基づくコマンドを実行するまでの期間である。

重要項目としては、例えば、コピーやスキャン、ファクス送信などが挙げられるが、カラーやモノクロ、部数などは重要項目に含まれない。例えば、ユーザーが「カラーコピー１０枚」と発声したすぐ後に、「モノクロコピー２０枚」と発声した場合、重要項目である「コピー」は一致するので、制御部１００は、先に発声された「カラーコピー１０枚」を無効にし、後に発声された「モノクロコピー２０枚」を有効にする。

一方、ユーザーが「カラーコピー」と発声したすぐ後に、「カラースキャン」と発声した場合、重要項目は「コピー」と「スキャン」とで異なるので、制御部１００は、先に発声された「カラーコピー」を無効にしない。また、先に発声されたものが無効にならなかった場合、制御部１００は、先に発声された内容と後に発声された内容とを表示部４７３に表示し、ユーザーにいずれを有効にするのかを選択させる。

上記第２実施形態によれば、ユーザーが誤った音声入力をしたことに気づき、すぐに音声入力をし直した場合には、先の音声入力を無効にすることが可能となるので、使い勝手のよいものとすることができる。

図８は、第３実施形態に係る画像形成装置を遠隔操作するための携帯端末装置の主要内部構成を概略的に示した機能ブロック図である。携帯端末装置２Ａは、制御ユニット２００が検出部２０５を備える点で、図２に示した携帯端末装置２と相違する。検出部２０５は、携帯端末装置２Ａに接続されたマイク２４０から入力された音声信号から既知の技術により周波数帯域を検出する。例えば、検出部２０５は、音声信号をフーリエ変換することによって、ユーザー音声の周波数帯域を検出する。そして、制御部２０１が、検出部２０５が検出したユーザー音声の周波数帯域を示す周波数帯域情報を、通信部２２０を介して画像形成装置１へ送信する。

第３実施形態に係る画像形成装置１の制御ユニット１００で行われる動作概要の一例について、図９に示したフローチャートに基づいて説明する。なお、ここでは携帯端末装置２Ａを携帯するユーザーが画像形成装置１に近づき、遠隔操作アプリケーションが起動している状態で、画像形成装置１のマイク９０と、携帯端末装置２Ａのマイク２４０とに向けて、ユーザーが音声を発した場合について説明する。

携帯端末装置２Ａの音声入力受付部２０３が、マイク２４０から入力された音声信号の入力を受け付けると（Ｓ３１）、音声認識部２０４が、音声入力受付部２０３で入力を受け付けた音声信号に基づく音声認識を行い、コマンドを生成し（Ｓ３２）、検出部２０５が、当該音声信号から周波数帯域を検出し（Ｓ３３）、制御部２０１が、音声認識を行うことによって得られた音声認識結果（コマンド）及び周波数帯域情報を、通信部２２０を介して画像形成装置１へ送信する（Ｓ３４）。但し、音声認識が成功せず、コマンドが生成されない場合、制御部２０１は、音声認識結果として、音声認識に失敗した旨を示す情報を画像形成装置１へ送信する。

一方、画像形成装置１の音声入力受付部１０２が、マイク９０から入力された音声信号の入力を受け付け（Ｓ４１）、通信部８０が、携帯端末装置２Ａによる音声認識結果及び周波数帯域情報を受信すると（Ｓ４２）、音声認識部１０３が、当該周波数帯域情報が示す周波数帯域に絞って、音声入力受付部１０２で入力を受け付けた音声信号に基づく音声認識を行い、当該音声信号から変換された文字列に対応するコマンドを、予め記憶しているコマンドの中から特定し、当該コマンドを生成する（Ｓ４３）。なお、これ以降については、図３に示した動作と同じであるため、説明を省略する。

上記第３実施形態によれば、ユーザー音声の周波数帯域に絞って音声認識を行うことができるので、誤認識を防ぐことができる。

また、上記第１乃至第３実施形態では、画像形成装置１が、画像形成装置１による音声認識結果と、携帯端末装置２による音声認識結果とを照合する場合について説明しているが、第４実施形態では、図１０に示すように、携帯端末装置２が、上記照合を行うようにしてもよい。

画像形成装置１の制御部１００が、音声認識部１０３による音声認識結果を、通信部８０を介して携帯端末装置２へ送信し（Ｓ５１）、携帯端末装置２の制御部２０１は、通信部２２０を介して画像形成装置１による音声認識結果を受信すると（Ｓ６１）、画像形成装置１による音声認識結果と、携帯端末装置２による音声認識結果とを照合し（Ｓ６２）、照合することによって得られた照合結果を、通信部２２０を介して画像形成装置１へ送信する（Ｓ６３）。

なお、照合結果としては、例えば、画像形成装置１と携帯端末装置２との両方で音声認識が成功しているとの判断結果や、それぞれの音声認識結果が一致しているとの判断結果、一致した音声認識結果のコマンドが挙げられる。

画像形成装置１の制御部１００は、通信部８０を介して携帯端末装置２による照合結果を受信すると（Ｓ５２）、携帯端末装置２から送信されてきた照合結果に基づいて、画像形成装置１の動作を制御する（Ｓ５３）。

また、本発明は上記実施の形態の構成に限られず種々の変形が可能である。また、上記実施形態では、本発明に係る画像形成装置の一実施形態として複合機を用いて説明しているが、これは一例に過ぎず、例えば、コピー機能、ファクシミリ機能、スキャナー機能等を有した他の画像形成装置でもよい。

また、上記実施形態では、図１乃至図１０を用いて上記実施形態により示した構成及び処理は、本発明の一実施形態に過ぎず、本発明を当該構成及び処理に限定する趣旨ではない。

１画像形成装置
２携帯端末装置
８０通信部
９０マイク
１００制御部
１０１操作受付部
１０２音声入力受付部
１０３音声認識部
２０５検出部

Claims

本画像形成装置に接続されたマイクから入力された音声信号の入力を受け付ける音声入力受付部と、
前記音声入力受付部で入力を受け付けた音声信号に基づく音声認識を行う音声認識部と、
携帯端末装置と通信を行う通信部と、
本画像形成装置の動作を制御する制御部と、を備え、
前記制御部は、前記通信部を介して受信した前記携帯端末装置で行われた音声認識結果と、前記音声認識部による音声認識結果とを照合した照合結果に基づいて、本画像形成装置の動作を制御する画像形成装置。
前記音声入力受付部で音声信号の入力を受け付けてから予め定められた第１期間内に、前記音声入力受付部で新たな音声信号の入力を受け付けると、
前記制御部は、前記音声入力受付部で新たに入力を受け付けた音声信号に対する前記音声認識部による音声認識結果と、前記音声入力受付部で先に入力を受け付けた音声信号に対する前記音声認識部による音声認識結果とを比較し、当該両音声認識結果において、予め定められた重要項目の内容すべてが一致する場合には、前記携帯端末装置で行われた音声認識結果との照合において、先の音声認識結果を無効にして、新たに入力を受け付けた音声信号についての音声認識結果を有効にする請求項１に記載の画像形成装置。
前記携帯端末装置による音声認識結果を受信してから予め定められた第２期間内に、前記携帯端末装置による音声認識結果を新たに受信すると、
前記制御部は、新たに受信した前記携帯端末装置による音声認識結果と、先に受信した前記携帯端末装置による音声認識結果とを比較し、予め定められた重要項目の内容すべてが一致する場合には、前記音声入力受付部で入力を受け付けた音声信号についての音声認識結果との照合において、先の音声認識結果を無効にして、新たに受信した前記携帯端末装置による音声認識結果を有効にする請求項１又は請求項２に記載の画像形成装置。
本画像形成装置に接続されたマイクから入力された音声信号の入力を受け付ける音声入力受付部と、
前記音声入力受付部で入力を受け付けた音声信号に基づく音声認識を行う音声認識部と、
携帯端末装置と通信を行う通信部と、
本画像形成装置の動作を制御する制御部と、を備え、
前記制御部は、前記音声認識部による音声認識結果を、前記通信部を介して前記携帯端末装置へ送信し、
前記制御部は、前記通信部を介して前記携帯端末装置から、当該携帯端末装置に接続されたマイクから入力された音声信号に基づく音声認識による音声認識結果と、本画像形成装置から送信されてきた前記音声認識部による音声認識結果と照合した照合結果を受信し、当該照合結果に基づいて、本画像形成装置の動作を制御する画像形成装置。
前記制御部は、前記照合結果が、前記音声認識部による音声認識結果と、前記携帯端末装置による音声認識結果とが一致することを示す場合、当該一致した音声認識結果に対応する予め定められたコマンドを実行する請求項１乃至請求項４のいずれかに記載の画像形成装置。
ユーザーに対して報知を行う報知部と、
ユーザーから指示を受け付ける操作部とを更に備え、
前記制御部は、前記照合結果が、前記音声認識部による音声認識結果と、前記携帯端末装置による音声認識結果とが一致しないことを示す場合、音声認識結果それぞれの予め定められたコマンドの内容を前記報知部によりユーザーに対して報知させると共に、実行対象とするコマンドを当該それぞれのコマンドから選択する指示を、前記操作部を介してユーザーから受け付け、当該指示に従ったコマンドを実行する請求項１乃至請求項５のいずれかに記載の画像形成装置。
前記音声認識部による音声認識及び前記携帯端末装置による音声認識のうちのいずれか一方だけが成功しているとき、
前記制御部は、成功している方の音声認識結果のコマンドを実行するか否かを前記報知部によりユーザーに対して報知させ、前記操作部を介してユーザーから選択指示を受け付けた方のコマンドを実行する請求項１乃至請求項６のいずれかに記載の画像形成装置。
前記音声認識部による音声認識及び前記携帯端末装置による音声認識の両方が成功していないとき、
前記制御部は、音声認識を失敗した原因を分析し、当該原因に応じた対処法を設定し、
前記音声認識部は、前記制御部が設定した対処法に従って、前記音声入力受付部で新たに入力を受け付けた音声信号に対する音声認識を行う請求項１乃至請求項７のいずれかに記載の画像形成装置。
前記音声認識部は、前記携帯端末装置から送信されてきた周波数帯域情報が示す周波数帯域においてのみ、前記音声入力受付部で入力を受け付けた音声信号に基づく音声認識を行う請求項１乃至請求項８のいずれかに記載の画像形成装置。