JP7187965B2

JP7187965B2 - 画像処理装置、操作制御方法及び操作制御プログラム

Info

Publication number: JP7187965B2
Application number: JP2018195644A
Authority: JP
Inventors: 大起西岡
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2018-10-17
Filing date: 2018-10-17
Publication date: 2022-12-13
Anticipated expiration: 2038-10-17
Also published as: JP2020062796A; US20200128143A1

Description

本発明は、画像処理装置、操作制御方法及び操作制御プログラムに関し、特に、音声での操作を可能にする画像処理装置、操作制御方法及び操作制御プログラムに関する。

近年、音声認識を行うＡＩ（artificial intelligence）技術が急速に発展しており、音声認識を手がける各メーカーもオフィス向けの音声認識ＡＩの投入を予定している。ＭＦＰ（Multi-Functional Peripherals）などの画像形成装置を製造するメーカーも各種音声認識ＡＩを用いた機能の投入に着手しており、音声操作や消耗品発注などを実現している。この音声認識ＡＩを用いてＭＦＰの操作を行う場合、オフィス環境では周囲の雑音の影響によって音声を誤認識するという問題がある。

このような雑音の影響を抑制する技術に関して、例えば、下記特許文献１には、ユーザからの音による操作を受け付ける受付状態と音による操作を受け付けない非受付状態とを持つ音入力受付手段と、受け付けたジョブを記憶部に記録するジョブ記録手段と、前記記憶部に記録されたジョブが実行される際に自装置から発せられる音である稼動音の音量を判定する稼動音判定手段と、前記音入力受付手段が受付状態である場合に、前記記憶部に記録された実行前のジョブのうち、稼動音の音量が小さいジョブから優先して実行するジョブ制御手段と、を有する画像形成装置が開示されている。

特開２０１０－０６８０２６号公報

特許文献１では、音声の入力操作中は、稼動音の音量が小さいジョブを優先的に行うことによって、ユーザの発話への影響を軽減している。しかしながら、音声入力の際の雑音としては、ＭＦＰが発する音以外にも周囲の音の影響も大きく、特許文献１では周囲の音の影響は考慮されていないため、音声の誤認識を確実に防止することができない。また、この問題はＭＦＰに限らず、スキャナやＦＡＸなどの画像処理装置に対しても同様に発生する。

本発明は、上記問題点に鑑みてなされたものであって、その主たる目的は、音声の誤認識を抑制して確実に操作を行うことができる画像処理装置、操作制御方法及び操作制御プログラムを提供することにある。

本発明の一側面は、画像処理装置の動作に関する画面を表示すると共にユーザの前記画像処理装置の動作に関する操作を受け付けるユーザインターフェースと、前記ユーザの音声情報を取得する音声入力部と、前記ユーザの映像情報を取得する映像入力部と、を備える画像処理装置において、前記音声入力部が取得した前記音声情報を解析して、操作コマンドを認識する音声解析部と、前記映像入力部が取得した前記映像情報を解析して、前記ユーザの口の動きを検出する映像解析部と、前記映像解析部が検出した前記ユーザの口の動きから発話内容を読唇する読唇処理部と、前記操作コマンドに従って前記画像処理装置の動作を制御する操作制御部と、を備え
前記操作制御部は、前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示していない場合は、前記映像解析部が前記ユーザの口の動きを検出している時に、前記音声解析部が前記操作コマンドを認識した場合、認識した前記操作コマンドに従って前記画像処理装置の動作を制御し、セキュリティに関する情報を入力する画面を表示している場合は、前記ユーザインターフェース又は音声出力部を介して、前記ユーザに無音での口の動きによる操作を指示し、および、前記読唇処理部が読唇した発話内容による前記操作コマンドに従って前記画像処理装置の動作を制御する、ことを特徴とする。

本発明の一側面は、画像処理装置の動作に関する画面を表示すると共にユーザの前記画像処理装置の動作に関する操作を受け付けるユーザインターフェースと、前記ユーザの音声情報を取得する音声入力部と、前記ユーザの映像情報を取得する映像入力部と、を備える画像処理装置における操作制御方法であって、前記音声入力部が取得した前記音声情報を解析して、操作コマンドを認識する音声解析処理と、前記映像入力部が取得した前記映像情報を解析して、前記ユーザの口の動きを検出する映像解析処理と、前記映像解析処理で検出した前記ユーザの口の動きから発話内容を読唇する読唇処理と、前記操作コマンドに従って前記画像処理装置の動作を制御する操作制御処理と、を実行し、
前記操作制御処理において、前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示していない場合は、前記映像解析処理で前記ユーザの口の動きを検出している時に、前記音声解析処理で前記操作コマンドを認識した場合、認識した前記操作コマンドに従って前記画像処理装置の動作を制御し、セキュリティに関する情報を入力する画面を表示している場合は、前記ユーザインターフェース又は音声出力部を介して、前記ユーザに無音での口の動きによる操作を指示し、および、前記読唇処理で読唇した発話内容による前記操作コマンドに従って前記画像処理装置の動作を制御する、ことを特徴とする。

本発明の一側面は、画像処理装置の動作に関する画面を表示すると共にユーザの前記画像処理装置の動作に関する操作を受け付けるユーザインターフェースと、前記ユーザの音声情報を取得する音声入力部と、前記ユーザの映像情報を取得する映像入力部と、を備える画像処理装置で動作する操作制御プログラムであって、前記画像処理装置に、前記音声入力部が取得した前記音声情報を解析して、操作コマンドを認識する音声解析処理、前記映像入力部が取得した前記映像情報を解析して、前記ユーザの口の動きを検出する映像解析処理、前記映像解析処理で検出した前記ユーザの口の動きから発話内容を読唇する読唇処理、及び、前記操作コマンドに従って前記画像処理装置の動作を制御する操作制御処理、を実行させ、
前記操作制御処理において、前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示していない場合は、前記映像解析処理で前記ユーザの口の動きを検出している時に、前記音声解析処理で前記操作コマンドを認識した場合、認識した前記操作コマンドに従って前記画像処理装置の動作を制御させ、セキュリティに関する情報を入力する画面を表示している場合は、前記ユーザインターフェース又は音声出力部を介して、前記ユーザに無音での口の動きによる操作を指示し、および、前記読唇処理で読唇した発話内容による前記操作コマンドに従って前記画像処理装置の動作を制御させる、ことを特徴とする。

本発明の画像処理装置、操作制御方法及び操作制御プログラムによれば、音声の誤認識を抑制して確実に操作を行うことができる。

その理由は、情報を表示すると共にユーザの操作を受け付けるユーザインターフェースと、ユーザの音声情報を取得する音声入力部と、ユーザの映像情報を取得する映像入力部と、を備える画像処理装置に、音声入力部が取得した音声情報を解析して、操作コマンドを認識する音声解析部と、映像入力部が取得した映像情報を解析して、ユーザの口の動きを検出する映像解析部と、映像解析部がユーザの口の動きを検出している時に、音声解析部が操作コマンドを認識した場合、当該操作コマンドに従って画像処理装置の動作を制御する操作制御部と、を設けるからである。

また、情報を表示すると共にユーザの操作を受け付けるユーザインターフェースと、ユーザの音声情報を取得する音声入力部と、ユーザの映像情報を取得する映像入力部と、を備える画像処理装置に、音声入力部が取得した音声情報を解析して、操作コマンドを認識する音声解析部と、映像入力部が取得した映像情報を解析して、ユーザを検出する映像解析部と、音声解析部が操作コマンドを認識した時に、映像解析部がユーザを検出していない場合、画像処理装置の動作の内の動作音が相対的に大きい動作を抑止する動作音抑止制御を実施、若しくは、ユーザインターフェース又は音声出力部を介して、ユーザにユーザインターフェースを用いた手動操作を指示する操作制御部と、を設けるからである。

本発明の第１の実施例に係る操作制御システムの構成を示す模式図である。本発明の第１の実施例に係る操作制御システムの他の構成を示す模式図である。本発明の第１の実施例に係る画像形成装置の構成を示すブロック図である。本発明の第１の実施例に係る画像形成装置の動作（基本動作）を示すフローチャート図である。本発明の第１の実施例に係る画像形成装置の動作（口の動きを読唇する場合の動作）を示すフローチャート図である。本発明の第１の実施例に係る画像形成装置の動作（音声認識に支障がある場合の動作）を示すフローチャート図である。本発明の第１の実施例に係る画像形成装置の動作（音声認識に支障がある場合の動作）を示すフローチャート図である。本発明の第１の実施例に係る画像形成装置の動作（セキュリティ情報を入力する場合の動作）を示すフローチャート図である。本発明の第１の実施例に係る画像形成装置の動作（セキュリティ情報を入力する場合の動作）を示すフローチャート図である。本発明の第１の実施例に係る画像形成装置の動作（セキュリティ情報を入力する場合の動作）を示すフローチャート図である。本発明の第１の実施例に係る画像形成装置に表示する通知画面の一例である。本発明の第１の実施例に係る画像形成装置に表示する通知画面の他の例である。本発明の第１の実施例に係る画像形成装置に表示する通知画面の他の例である。本発明の第２の実施例に係る画像形成装置の動作（音声認識に支障がある場合の動作）を示すフローチャート図である。本発明の第２の実施例に係る画像形成装置の動作（音声認識に支障がある場合の動作）を示すフローチャート図である。

背景技術で示したように、ＭＦＰなどの画像形成装置を製造するメーカーも各種音声認識ＡＩを用いた機能の投入に着手しており、音声操作や消耗品発注などを実現しているが、音声認識ＡＩを用いてＭＦＰの操作を行う場合、オフィス環境では周囲の雑音の影響によって音声を誤認識するという問題がある。

この問題に対して、特許文献１では、音声の入力操作中は稼動音の音量が小さいジョブを優先的に行うことによって、ユーザの発話への影響を軽減しているが、音声入力の際の雑音としては、ＭＦＰが発する音以外にも周囲の音の影響も大きく、この周囲の音の影響は考慮されていないため、音声の誤認識を確実に防止することができない。また、この問題はＭＦＰに限らず、スキャナやＦＡＸなどの画像処理装置に対しても同様に発生する。

そこで、本発明の一実施の形態では、ユーザが発した音声情報を取得するのみならず、ユーザを撮影した映像情報をも取得し、この音声情報と映像情報とを用いることによって、周囲の雑音の影響による音声の誤認識を防止して確実に操作を行うことができるようにする。

具体的には、情報を表示すると共にユーザの操作を受け付けるユーザインターフェースと、ユーザの音声情報を取得する音声入力部と、ユーザの映像情報を取得する映像入力部と、を備える画像処理装置に、音声入力部が取得した音声情報を解析して、操作コマンドを認識する音声解析部と、映像入力部が取得した映像情報を解析して、ユーザの口の動きを検出する映像解析部と、映像解析部がユーザの口の動きを検出している時に、音声解析部が操作コマンドを認識した場合、当該操作コマンドに従って画像処理装置の動作を制御する操作制御部と、を設ける。また、映像解析部が検出したユーザの口の動きから発話内容を読唇する読唇処理部を設け、操作制御部は、音声解析部が認識した操作コマンドと読唇処理部が読唇した発話内容とが一致する場合、操作コマンドに従って画像処理装置の動作を制御する。

また、情報を表示すると共にユーザの操作を受け付けるユーザインターフェースと、ユーザの音声情報を取得する音声入力部と、ユーザの映像情報を取得する映像入力部と、を備える画像処理装置に、音声入力部が取得した音声情報を解析して、操作コマンドを認識する音声解析部と、映像入力部が取得した映像情報を解析して、ユーザを検出する映像解析部と、音声解析部が操作コマンドを認識した時に、映像解析部がユーザを検出していない場合、画像処理装置の動作の内の動作音が相対的に大きい動作を抑止する動作音抑止制御を実施、若しくは、ユーザインターフェース又は音声出力部を介して、ユーザにユーザインターフェースを用いた手動操作を指示する操作制御部と、を設ける。

このように、映像情報を解析して、ユーザ又はユーザの口の動きを検出したり、ユーザの口の動きから発話内容を読唇（読話）したりすることによって、音声入力中の周辺の雑音による音声の誤認識を防止することができ、確実に操作を行うことが可能となる。

上記した本発明の一実施の形態についてさらに詳細に説明すべく、本発明の第１の実施例に係る画像処理装置、操作制御方法及び操作制御プログラムについて、図１乃至図１３を参照して説明する。図１及び図２は、本実施例の操作制御システムの構成を示す模式図であり、図３は、本実施例の画像形成装置の構成を示すブロック図である。また、図４乃至図１０は、本実施例の画像形成装置の動作を示すフローチャート図であり、図１１乃至図１３は、本実施例の画像形成装置に表示する通知画面の一例である。

図１に示すように、本実施例の操作制御システムは、スキャン機能やＦＡＸ機能、プリント機能などを備える画像処理装置（本実施例では、印刷エンジンを備える画像形成装置１０とする。）などで構成される。なお、後述する音声解析部や映像解析部、読唇処理部などの機能は外部の装置で実現してもよい。その場合は、図２に示すように、操作制御システムは、画像形成装置１０と解析サーバ３０とで構成され、これらはイーサネット（登録商標）、トークンリング、ＦＤＤＩ（Fiber-Distributed Data Interface）等の規格により定められるＬＡＮ（Local Area Network）やＷＡＮ（Wide Area Network）等の通信ネットワーク４０を介して通信可能に接続される。以下、図１の構成を前提にして説明する。

［画像形成装置］
画像形成装置１０は、図３（ａ）に示すように、制御部１１、記憶部１２、通信部１３、表示操作部１４、画像読取部１５、画像処理部１６、画像形成部１７、音声入力部１８、音声出力部１９、映像入力部２０などで構成される。

制御部１１は、ＣＰＵ（Central Processing Unit）１１ａと、ＲＯＭ（Read Only Memory）１１ｂやＲＡＭ（Random Access Memory）１１ｃなどのメモリとで構成され、ＣＰＵ１１ａは、ＲＯＭ１１ｂや記憶部１２に記憶した制御プログラムをＲＡＭ１１ｃに展開して実行することにより、画像形成装置１０全体の動作を制御する。

記憶部１２は、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）などで構成され、ＣＰＵ１１ａが各部を制御するためのプログラム、自装置の処理機能に関する情報、自装置の各部の状態情報などを記憶する。

通信部１３は、ＮＩＣ（Network Interface Card）やモデムなどで構成され、画像形成装置１０を通信ネットワーク４０に接続し、図示しないクライアント装置などからジョブを受信したり、解析サーバ３０に音声情報や映像情報を送信したり、解析サーバ３０から音声情報や映像情報の解析結果（例えば、操作コマンドやユーザの口の動きの検出結果、読唇情報）を受信したりする。また、通信部１３は、必要に応じて、ＩＴＵ－Ｔ（International Telecommunication Union-Telecommunication）勧告Ｔ．３０で規定される、PhaseＡ～Ｅの５つのフェーズのＦＡＸ通信制御シーケンスに従い、公衆回線網（ＰＳＮＴ：Public Switched Telephone Networks）を介して、相手方のＦＡＸ通信装置とのＦＡＸ通信（ＦＡＸ画像の送受信動作）を行う。

表示操作部１４は、ＬＣＤ（Liquid Crystal Display）や有機ＥＬ（Electro Luminescence）ディスプレイなどの表示部上に電極が格子状に配列されたタッチセンサなどの操作部が形成されたタッチパネルなどのユーザインターフェースであり、画像形成装置１０の動作に関する各種画面（本実施例では、後述する通知画面やセキュリティに関する情報の入力画面を含む。）を表示し、画像形成装置１０の動作に関する各種操作を受け付ける。なお、操作部として、ハードキーなどを備えていてもよく、表示部と操作部とを別々の装置としてもよい。

画像読取部１５は、ＡＤＦ（Auto Document Feeder）と呼ばれる自動原稿給紙装置及び原稿画像走査装置（スキャナ）などで構成される。自動原稿給紙装置は、原稿トレイに載置された原稿を搬送機構により搬送して原稿画像走査装置へ送り出す。原稿画像走査装置は、自動原稿給紙装置からコンタクトガラス上に搬送された原稿又はコンタクトガラス上に載置された原稿を光学的に走査し、原稿からの反射光をＣＣＤ（Charge Coupled Device）センサの受光面上に結像させて原稿画像を読み取る。画像読取部１５によって読み取られた画像（アナログ画像信号）は、画像処理部１６において所定の画像処理が施される。

画像処理部１６は、アナログデジタル（Ａ／Ｄ）変換処理を行う回路及びデジタル画像処理を行う回路などで構成される。画像処理部１６は、画像読取部１５からのアナログ画像信号にＡ／Ｄ変換処理を施すことによりデジタル画像データを生成する。また、画像処理部１６は、外部の情報機器（例えばクライアント装置）から取得した印刷ジョブを解析し、原稿の各ページをラスタライズしてデジタル画像データを生成する。そして、画像処理部１６は、必要に応じて、画像データに対して、色変換処理、初期設定又はユーザ設定に応じた補正処理（シェーディング補正等）、及び圧縮処理等の画像処理を施し、画像処理後の画像データを画像形成部１７に出力する。

画像形成部（印刷エンジン）１７は、電子写真方式や静電記録方式等の作像プロセスを利用した画像形成に必要な構成要素で構成され、画像処理部１６から出力された画像データに基づく画像を指定された用紙に印刷する。具体的には、帯電装置により帯電された感光体ドラムに露光装置から画像に応じた光を照射して静電潜像を形成し、現像装置で帯電したトナーを付着させて現像し、そのトナー像を転写ベルトに１次転写し、転写ベルトから用紙に２次転写し、更に定着装置で用紙上のトナー像を定着させる処理を行う。

音声入力部１８は、マイクなどで構成され、ユーザが発話した音声を検出して音声情報を取得し、制御部１１（後述する音声解析部２１）に出力する。

音声出力部１９は、スピーカなどで構成され、必要に応じて、画像形成装置１０を操作するユーザに音声でメッセージを通知したり、マスク音（画像形成装置１０を操作するユーザの音声を、画像形成装置１０の周囲の他のユーザが識別できないようにする音）を出力したりする。

映像入力部２０は、ＣＣＤやＣＭＯＳ（Complementary Metal Oxide Semiconductor）カメラなどで構成され、画像形成装置１０に対して所定の位置（例えば、画像形成装置１０の正面）にいるユーザ（特にユーザの口）を撮影して映像情報（動画又は一定間隔の静止画）を取得し、制御部１１（後述する映像解析部２２）に出力する。

また、上記制御部１１は、図３（ｂ）に示すように、音声解析部２１、映像解析部２２、読唇処理部２３、操作制御部２４などとしても機能する。

音声解析部２１は、音声入力部１８が取得した音声情報を解析して、公知の技術を利用して発話内容（特に、操作コマンド）を認識する。なお、操作コマンドの認識方法は特に限定されず、例えば、特開２０１３－１５３３０１号公報に記載されているように、認識した音声が音声ワードテーブルに含まれているか否かを判別し、音声ワードテーブルに含まれている場合は、その音声ワードテーブルに基づいて音声をコマンドに変換する方法などを利用することができる。

映像解析部２２は、映像入力部２０が取得した映像情報を解析して、ユーザの口の動き（唇の形の変化）を検出する。なお、発話のために口を動かしているか否かは、唇の形が所定の時間間隔で変化しているか否かなどに基づいて判断することができる。

読唇処理部２３は、映像解析部２２が検出したユーザの口の動き（唇の形の変化）に基づいて、公知の技術を利用して発話内容を読唇する。なお、唇の形の変化から発話内容を読唇する方法は特に限定されず、例えば、特開２０１５－２２０６８４号公報に記載されているように、映像データから特定した唇動パターンと、読唇用ＤＢにおいて唇動モデルとして保存されている音節文字毎の唇動パターンと、を比較する方法などを利用することができる。

操作制御部２４は、映像解析部２２がユーザの口の動きを検出している時に、音声解析部２１が操作コマンドを認識した場合、その操作コマンドに従って画像形成装置１０の動作を制御する。また、読唇情報を利用する場合は、操作制御部２４は、読唇処理部２３が読唇した発話内容と音声解析部２１が認識した操作コマンドとが一致するかを判断し、一致する場合は、その操作コマンドに従って画像形成装置１０の動作を制御し、一致しない場合は、表示操作部１４を介して、ユーザに再度の発話を指示する。また、操作制御部２４は、音声解析部２１が操作コマンドを認識できない場合は、画像形成装置１０の動作の内の動作音が相対的に大きい動作（例えば、画像読取部１５による画像読み取り動作、通信部１３によるＦＡＸ画像の送受信動作、画像形成部１７による画像形成動作など）を抑止する制御（動作音抑止制御）を実施したり、表示操作部１４や音声出力部１９を介して、ユーザに表示操作部１４を用いた手動操作を指示したりする。また、操作制御部２４は、表示操作部１４が、セキュリティに関する情報（例えば、パスワードや送信宛先情報など）を入力する画面を表示している場合は、無音での口の動きによる操作を指示したり、音声出力部１９にマスク音を出力させたりする。

上記音声解析部２１、映像解析部２２、読唇処理部２３、操作制御部２４は、ハードウェアとして構成してもよいし、制御部１１を、音声解析部２１、映像解析部２２、読唇処理部２３、操作制御部２４（特に、音声解析部２１、映像解析部２２、操作制御部２４）として機能させる操作制御プログラムとして構成し、当該操作制御プログラムをＣＰＵ１１ａに実行させる構成としてもよい。

なお、図１乃至図３は、本実施例の操作制御システムの一例であり、その構成や制御は適宜変更可能である。

例えば、図３では、画像形成装置１０に、音声入力部１８と映像入力部２０とを設けたが、音声入力部１８、又は、映像入力部２０、又は、音声入力部１８及び映像入力部２０は、画像形成装置１０とは別の装置（例えば、画像形成装置１０をリモート操作する端末など）に設けてもよい。

また、図３では、画像形成装置１０の制御部１１に、音声解析部２１、映像解析部２２、読唇処理部２３を備える構成としたが、解析サーバ３０に、音声解析部２１、映像解析部２２、読唇処理部２３の少なくとも１つを備える構成としてもよい。

以下、本実施例の画像形成装置１０の具体的な動作について説明する。ＣＰＵ１１ａは、ＲＯＭ１１ｂ又は記憶部１２に記憶した操作制御プログラムをＲＡＭ１１ｃに展開して実行することにより、図４乃至図１０のフローチャート図に示す各ステップの処理を実行する。

［基本動作］
図４に示すように、制御部１１（映像解析部２２）は、映像入力部２０が取得した映像情報を解析してユーザの口の動きを監視する（Ｓ１０１）。制御部１１（映像解析部２２）がユーザの口の動きを検出したら（Ｓ１０１のＹｅｓ）、制御部１１（音声解析部２１）は、音声入力部１８が取得した音声情報を解析して操作コマンドの入力を監視する（Ｓ１０２）。そして、制御部１１（音声解析部２１）が操作コマンドを認識したら（Ｓ１０２のＹｅｓ）、制御部１１（操作制御部２４）は、操作コマンドを受け付け（Ｓ１０３）、その操作コマンドに従って画像形成装置１０の動作を制御する。

［口の動きを読唇する場合の動作］
図５に示すように、制御部１１（映像解析部２２）は、映像入力部２０が取得した映像情報を解析してユーザの口の動きを監視する（Ｓ２０１）。制御部１１（映像解析部２２）がユーザの口の動きを検出したら（Ｓ２０１のＹｅｓ）、制御部１１（音声解析部２１）は、音声入力部１８が取得した音声情報を解析して操作コマンドの入力を監視する（Ｓ２０２）。そして、制御部１１（音声解析部２１）が操作コマンドを認識したら（Ｓ２０２のＹｅｓ）、制御部１１（読唇処理部２３）は、ユーザの口の動きを読唇して発話内容を取得し（Ｓ２０３）、制御部１１（操作制御部２４）は、操作コマンドと発話内容とが一致するかを判断する（Ｓ２０４）。操作コマンドと発話内容とが一致する場合は（Ｓ２０４のＹｅｓ）、制御部１１（操作制御部２４）は、操作コマンドを受け付け（Ｓ２０５）、操作コマンドに従って画像形成装置１０の動作を制御する。一方、操作コマンドと発話内容とが一致しない場合は（Ｓ２０４のＮｏ）、制御部１１（操作制御部２４）は、表示操作部１４を介して、ユーザに再度の発話を指示する（Ｓ２０６）。例えば、表示操作部１４に、図１１に示すような通知画面２５を表示させて、ユーザに再度の発話を指示する。

［音声認識に支障がある場合の動作］
図６に示すように、制御部１１（映像解析部２２）は、映像入力部２０が取得した映像情報を解析してユーザの口の動きを監視する（Ｓ３０１）。制御部１１（映像解析部２２）がユーザの口の動きを検出したら（Ｓ３０１のＹｅｓ）、制御部１１（音声解析部２１）は、音声入力部１８が取得した音声情報を解析して操作コマンドの入力を監視する（Ｓ３０２）。制御部１１（音声解析部２１）が操作コマンドを認識できなかった場合は（Ｓ３０２のＮｏ）、画像形成装置１０が発する動作音によってユーザの音声が聞こえにくくなっている可能性があることから、制御部１１（操作制御部２４）は、画像形成装置１０の動作の内の動作音が相対的に大きい動作（例えば、画像読取部１５による画像読み取り動作、通信部１３によるＦＡＸ画像の送受信動作、画像形成部１７による画像形成動作など）を抑止する制御（動作音抑止制御）を実施する（Ｓ３０５）。一方、制御部１１（音声解析部２１）が操作コマンドを認識できた場合は（Ｓ３０２のＹｅｓ）、制御部１１（操作制御部２４）は、操作コマンドを受け付け（Ｓ３０３）、操作コマンドに従って画像形成装置１０の動作を制御した後、動作音抑止制御を解除する（Ｓ３０４）。

［音声認識に支障がある場合の動作］
図７に示すように、制御部１１（映像解析部２２）は、映像入力部２０が取得した映像情報を解析してユーザの口の動きを監視する（Ｓ４０１）。制御部１１（映像解析部２２）がユーザの口の動きを検出したら（Ｓ４０１のＹｅｓ）、制御部１１（音声解析部２１）は、音声入力部１８が取得した音声情報を解析して操作コマンドの入力を監視する（Ｓ４０２）。制御部１１（音声解析部２１）が操作コマンドを認識できた場合は（Ｓ４０２のＹｅｓ）、制御部１１（操作制御部２４）は、操作コマンドを受け付け（Ｓ４０３）、操作コマンドに従って画像形成装置１０の動作を制御する。一方、制御部１１（音声解析部２１）が操作コマンドを認識できなかった場合は（Ｓ４０２のＮｏ）、周囲の雑音によってユーザの音声が聞こえにくくなっている可能性があることから、制御部１１（操作制御部２４）は、表示操作部１４や音声出力部１９を介して、ユーザに表示操作部１４を用いた手動操作を指示する（Ｓ４０４）。例えば、表示操作部１４に、図１２に示すような通知画面２６を表示させて、ユーザに手動操作を指示する。その後、制御部１１（操作制御部２４）は、手動操作を受け付け（Ｓ４０５）、手動操作に従って画像形成装置１０の動作を制御する。

［セキュリティ情報を入力する場合の動作］
図８に示すように、制御部１１は、表示操作部１４に表示されている画面がセキュリティ情報（例えば、パスワードや送信宛先情報など）の入力画面であるかを判断する（Ｓ５０１）。セキュリティ情報の入力画面でない場合は（Ｓ５０１のＮｏ）、図４乃至図６に示した操作コマンド受け付け処理を実施する（Ｓ５０２）。一方、セキュリティ情報の入力画面の場合は（Ｓ５０１のＹｅｓ）、制御部１１（操作制御部２４）は、表示操作部１４や音声出力部１９を介して、ユーザに無音での口の動きによる操作を指示する（Ｓ５０３）。例えば、表示操作部１４に、図１３に示すような通知画面２７を表示させて、ユーザに無音での口の動きによる操作を指示する。その後、制御部１１（映像解析部２２）は、映像入力部２０が取得した映像情報を解析してユーザの口の動きを監視し（Ｓ５０４）、制御部１１（映像解析部２２）がユーザの口の動きを検出したら（Ｓ５０４のＹｅｓ）、制御部１１（読唇処理部２３）は、ユーザの口の動きを読唇して発話内容を取得し（Ｓ５０５）、制御部１１（操作制御部２４）は、発話内容を操作コマンドとして受け付け（Ｓ５０６）、操作コマンドに従って画像形成装置１０の動作を制御する。

［セキュリティ情報を入力する場合の動作］
図９に示すように、制御部１１は、表示操作部１４に表示されている画面がセキュリティ情報の入力画面であるかを判断する（Ｓ６０１）。セキュリティ情報の入力画面でない場合は（Ｓ６０１のＮｏ）、図４乃至図６に示した操作コマンド受け付け処理を実施する（Ｓ６０２）。一方、セキュリティ情報の入力画面の場合は（Ｓ６０１のＹｅｓ）、制御部１１（操作制御部２４）は、表示操作部１４や音声出力部１９を介して、ユーザに無音での口の動きによる操作を指示する（Ｓ６０３）。次に、制御部１１（音声解析部２１）は、音声入力部１８が取得した音声情報を解析してユーザの音声を監視し（Ｓ６０４）、ユーザの音声を検出した場合は（Ｓ６０４のＹｅｓ）、セキュリティ情報が漏洩する恐れがあることから、制御部１１（操作制御部２４）は、音声出力部１９からマスク音を出力する（Ｓ６０５）。このマスク音は、ユーザの音声を認識しにくくする音であればよく、例えば、所定の機械音としてもよいし、制御部１１（音声解析部２１）が解析した音声を打ち消す音（例えば、逆の位相を持つ音）としてもよい。その後、制御部１１（映像解析部２２）は、映像入力部２０が取得した映像情報を解析してユーザの口の動きを監視し（Ｓ６０６）、制御部１１（映像解析部２２）がユーザの口の動きを検出したら（Ｓ６０６のＹｅｓ）、制御部１１（読唇処理部２３）は、ユーザの口の動きを読唇して発話内容を取得し（Ｓ６０７）、制御部１１（操作制御部２４）は、発話内容を操作コマンドとして受け付け（Ｓ６０８）、操作コマンドに従って画像形成装置１０の動作を制御する。

［セキュリティ情報を入力する場合の動作］
図１０に示すように、制御部１１は、表示操作部１４に表示されている画面がセキュリティ情報の入力画面であるかを判断する（Ｓ７０１）。セキュリティ情報の入力画面でない場合は（Ｓ７０１のＮｏ）、図４乃至図６に示した操作コマンド受け付け処理を実施する（Ｓ７０２）。一方、セキュリティ情報の入力画面の場合は（Ｓ７０１のＹｅｓ）、制御部１１（操作制御部２４）は、表示操作部１４や音声出力部１９を介して、ユーザに無音での口の動きによる操作を指示した後（Ｓ７０３）、音声出力部１９からマスク音を出力する（Ｓ７０４）。その後、制御部１１（映像解析部２２）は、映像入力部２０が取得した映像情報を解析してユーザの口の動きを監視し（Ｓ７０５）、制御部１１（映像解析部２２）がユーザの口の動きを検出したら（Ｓ７０５のＹｅｓ）、制御部１１（読唇処理部２３）は、ユーザの口の動きを読唇して発話内容を取得し（Ｓ７０６）、制御部１１（操作制御部２４）は、発話内容を操作コマンドとして受け付け（Ｓ７０７）、操作コマンドに従って画像形成装置１０の動作を制御する。

以上説明したように、音声情報のみならず、映像情報を解析してユーザの口の動きを検出したり、ユーザの口の動きから発話内容を読唇したりすることによって、音声入力中の周辺の雑音による音声の誤認識を防止することができ、確実に画像形成装置１０の操作を行うことが可能となる。

次に、本発明の第２の実施例に係る画像処理装置、操作制御方法及び操作制御プログラムについて、図１４及び図１５を参照して説明する。図１４及び図１５は、本実施例の画像形成装置の動作を示すフローチャート図である。

前記した第１の実施例では、映像解析部２２がユーザの口の動きを検出した時に、音声解析部２１が認識した操作コマンドに従って画像形成装置１０の動作を制御する場合について記載したが、ユーザが映像入力部２０の撮影範囲内にいない場合、映像解析部２２はユーザを検出することができず、画像形成装置１０を音声操作することができない。そこで、本実施例では、ユーザが映像入力部２０の撮影範囲内にいない場合であっても、画像形成装置１０を適切に操作できるようにする。

その場合、画像形成装置１０の構成は第１の実施例と同様であるが、制御部１１（操作制御部２４）は、音声解析部２１が操作コマンドを認識した時に、映像解析部２２がユーザを検出していない場合、画像形成装置１０の動作の内の動作音が相対的に大きい動作を抑止する動作音抑止制御を実施したり、表示操作部１４又は音声出力部１９を介して、ユーザに表示操作部１４を用いた手動操作を指示したりする。

以下、本実施例の画像形成装置１０の具体的な動作について説明する。ＣＰＵ１１ａは、ＲＯＭ１１ｂ又は記憶部１２に記憶した操作制御プログラムをＲＡＭ１１ｃに展開して実行することにより、図１４及び図１５のフローチャート図に示す各ステップの処理を実行する。

［音声認識に支障がある場合の動作］
図１４に示すように、制御部１１（音声解析部２１）は、音声入力部１８が取得した音声情報を解析して操作コマンドの入力を監視する（Ｓ８０１）。制御部１１（音声解析部２１）が操作コマンドを認識した場合は（Ｓ８０１のＹｅｓ）、制御部１１（映像解析部２２）は、映像入力部２０が取得した映像情報を解析してユーザを検出したかを判断する（Ｓ８０２）。制御部１１（映像解析部２２）がユーザを検出しなかった場合は（Ｓ８０２のＮｏ）、ユーザが映像入力部２０の撮影範囲から外れた場所（例えば、画像形成装置１０の側方）から音声を発している可能性があり、画像形成装置１０が発する動作音によって音声解析部２１による操作コマンドの認識に支障が生じる恐れがあることから、制御部１１（操作制御部２４）は、画像形成装置１０の動作の内の動作音が相対的に大きい動作（例えば、画像読取部１５による画像読み取り動作、通信部１３によるＦＡＸ画像の送受信動作、画像形成部１７による画像形成動作など）を抑止する制御（動作音抑止制御）を実施する（Ｓ８０４）。一方、制御部１１（映像解析部２２）がユーザを検出した場合は（Ｓ８０２のＹｅｓ）、ユーザが映像入力部２０の撮影範囲内（例えば、画像形成装置１０の正面）から音声を発しており、音声解析部２１による操作コマンドの認識に支障がないと考えられることから、制御部１１（操作制御部２４）は、動作音抑止制御を解除する（Ｓ８０３）。その後、制御部１１（操作制御部２４）は、操作コマンドを受け付け（Ｓ８０５）、操作コマンドに従って画像形成装置１０の動作を制御する。

［音声認識に支障がある場合の動作］
図１５に示すように、制御部１１（音声解析部２１）は、音声入力部１８が取得した音声情報を解析して操作コマンドの入力を監視する（Ｓ９０１）。制御部１１（音声解析部２１）が操作コマンドを認識した場合は（Ｓ９０１のＹｅｓ）、制御部１１（映像解析部２２）は、映像入力部２０が取得した映像情報を解析してユーザを検出したかを判断する（Ｓ９０２）。制御部１１（映像解析部２２）がユーザを検出した場合は（Ｓ９０２のＹｅｓ）、制御部１１（操作制御部２４）は、操作コマンドを受け付け（Ｓ９０３）、操作コマンドに従って画像形成装置１０の動作を制御する。一方、制御部１１（映像解析部２２）がユーザを検出しなかった場合は（Ｓ９０２のＮｏ）、ユーザが映像入力部２０の撮影範囲から外れた場所（例えば、画像形成装置１０の側方）から音声を発している可能性があり、音声解析部２１による操作コマンドの認識に支障が生じる恐れがあることから、制御部１１（操作制御部２４）は、表示操作部１４や音声出力部１９を介して、ユーザに表示操作部１４を用いた手動操作を指示する（Ｓ９０４）。例えば、表示操作部１４に、図１２に示すような通知画面２６を表示させて、ユーザに手動操作を指示する。その後、制御部１１（操作制御部２４）は、手動操作を受け付け（Ｓ９０５）、手動操作に従って画像形成装置１０の動作を制御する。

以上説明したように、音声情報のみならず、映像情報を解析してユーザを検出することによって、音声入力中の周辺の雑音による音声の誤認識を防止することができ、確実に操作を行うことが可能となる。

なお、本発明は上記実施例に限定されるものではなく、本発明の趣旨を逸脱しない限りにおいて、その構成や制御は適宜変更可能である。

例えば、上記各実施例では、画像形成装置１０について記載したが、本発明の対象は画像形成装置１０に限定されず、動作時に音を発するスキャナ装置やＦＡＸ装置などの任意の画像処理装置に対して、本発明の操作制御方法を同様に適用することができる。

本発明は、音声での操作を可能にする画像処理装置、操作制御方法、操作制御プログラム、及び当該操作制御プログラムを記録した記録媒体に利用可能である。

１０画像形成装置
１１制御部
１１ａＣＰＵ
１１ｂＲＯＭ
１１ｃＲＡＭ
１２記憶部
１３通信部
１４表示操作部
１５画像読取部
１６画像処理部
１７画像形成部
１８音声入力部
１９音声出力部
２０映像入力部
２１音声解析部
２２映像解析部
２３読唇処理部
２４操作制御部
２５、２６、２７通知画面
３０解析サーバ
４０通信ネットワーク

Claims

画像処理装置の動作に関する画面を表示すると共にユーザの前記画像処理装置の動作に関する操作を受け付けるユーザインターフェースと、
前記ユーザの音声情報を取得する音声入力部と、
前記ユーザの映像情報を取得する映像入力部と、を備える画像処理装置において、
前記音声入力部が取得した前記音声情報を解析して、操作コマンドを認識する音声解析部と、
前記映像入力部が取得した前記映像情報を解析して、前記ユーザの口の動きを検出する映像解析部と、
前記映像解析部が検出した前記ユーザの口の動きから発話内容を読唇する読唇処理部と、
前記操作コマンドに従って前記画像処理装置の動作を制御する操作制御部と、を備え、
前記操作制御部は、前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示していない場合は、前記映像解析部が前記ユーザの口の動きを検出している時に、前記音声解析部が前記操作コマンドを認識した場合、認識した前記操作コマンドに従って前記画像処理装置の動作を制御し、
セキュリティに関する情報を入力する画面を表示している場合は、前記ユーザインターフェース又は音声出力部を介して、前記ユーザに無音での口の動きによる操作を指示し、および、前記読唇処理部が読唇した発話内容による前記操作コマンドに従って前記画像処理装置の動作を制御する、
ことを特徴とする画像処理装置。
前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示していない場合において、前記操作制御部は、前記音声解析部が認識した前記操作コマンドと前記読唇処理部が読唇した前記発話内容とが一致する場合、前記操作コマンドに従って前記画像処理装置の動作を制御する、
ことを特徴とする請求項１に記載の画像処理装置。
前記操作制御部は、前記音声解析部が認識した前記操作コマンドと前記読唇処理部が読唇した前記発話内容とが一致しない場合、前記ユーザインターフェースを介して、前記ユーザに再度の発話を指示する、
ことを特徴とする請求項２に記載の画像処理装置。
前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示していない場合において、
前記操作制御部は、前記音声解析部が前記操作コマンドを認識できない場合、前記画像処理装置の動作の内の動作音が相対的に大きい動作を抑止する動作音抑止制御を実施する、
ことを特徴とする請求項１乃至３のいずれか一に記載の画像処理装置。
前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示していない場合において、
前記操作制御部は、前記音声解析部が前記操作コマンドを認識できない場合、前記ユーザインターフェース又は音声出力部を介して、前記ユーザに前記ユーザインターフェースを用いた手動操作を指示する、
ことを特徴とする請求項１乃至３のいずれか一に記載の画像処理装置。
前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示している場合において、
前記操作制御部は、前記音声出力部に、他のユーザが前記ユーザの音声を識別できないようにするマスク音を出力させる、
ことを特徴とする請求項１乃至５のいずれか一に記載の画像処理装置。
前記操作制御部は、前記音声解析部が前記ユーザの音声を検出した場合は、前記音声出力部に前記マスク音を出力させる、
ことを特徴とする請求項６に記載の画像処理装置。
前記動作音が相対的に大きい動作は、スキャナ機能による画像読み取り動作、ＦＡＸ機能による画像の送受信動作、プリント機能による画像形成動作のいずれかを含む、
ことを特徴とする請求項４に記載の画像処理装置。
画像処理装置の動作に関する画面を表示すると共にユーザの前記画像処理装置の動作に関する操作を受け付けるユーザインターフェースと、
前記ユーザの音声情報を取得する音声入力部と、
前記ユーザの映像情報を取得する映像入力部と、を備える画像処理装置における操作制御方法であって、
前記音声入力部が取得した前記音声情報を解析して、操作コマンドを認識する音声解析処理と、
前記映像入力部が取得した前記映像情報を解析して、前記ユーザの口の動きを検出する映像解析処理と、
前記映像解析処理で検出した前記ユーザの口の動きから発話内容を読唇する読唇処理と、
前記操作コマンドに従って前記画像処理装置の動作を制御する操作制御処理と、を実行し、
前記操作制御処理において、
前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示していない場合は、前記映像解析処理で前記ユーザの口の動きを検出している時に、前記音声解析処理で前記操作コマンドを認識した場合、認識した前記操作コマンドに従って前記画像処理装置の動作を制御し、
セキュリティに関する情報を入力する画面を表示している場合は、前記ユーザインターフェース又は音声出力部を介して、前記ユーザに無音での口の動きによる操作を指示し、および、前記読唇処理で読唇した発話内容による前記操作コマンドに従って前記画像処理装置の動作を制御する、
ことを特徴とする操作制御方法。
前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示していない場合において、
前記操作制御処理では、前記音声解析処理で認識した前記操作コマンドと前記読唇処理で読唇した前記発話内容とが一致する場合、前記操作コマンドに従って前記画像処理装置の動作を制御する、
ことを特徴とする請求項９に記載の操作制御方法。
前記操作制御処理では、前記音声解析処理で認識した前記操作コマンドと前記読唇処理で読唇した前記発話内容とが一致しない場合、前記ユーザインターフェースを介して、前記ユーザに再度の発話を指示する、
ことを特徴とする請求項１０に記載の操作制御方法。
前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示していない場合において、
前記操作制御処理では、前記音声解析処理で前記操作コマンドを認識できない場合、前記画像処理装置の動作の内の動作音が相対的に大きい動作を抑止する動作音抑止制御を実施する、
ことを特徴とする請求項９乃至１１のいずれか一に記載の操作制御方法。
前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示していない場合において、前記操作制御処理では、前記音声解析処理で前記操作コマンドを認識できない場合、前記ユーザインターフェース又は音声出力部を介して、前記ユーザに前記ユーザインターフェースを用いた手動操作を指示する、
ことを特徴とする請求項９乃至１１のいずれか一に記載の操作制御方法。
前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示している場合において
前記操作制御処理では、前記音声出力部に、前記ユーザの音声を他のユーザが識別できないようにするマスク音を出力させる、
ことを特徴とする請求項９乃至１３のいずれか一に記載の操作制御方法。
前記操作制御処理では、前記音声解析処理で前記ユーザの音声を検出した場合は、前記音声出力部に前記マスク音を出力させる、
ことを特徴とする請求項１４に記載の操作制御方法。
前記動作音が相対的に大きい動作は、スキャナ機能による画像読み取り動作、ＦＡＸ機能による画像の送受信動作、プリント機能による画像形成動作のいずれかを含む、
ことを特徴とする請求項１２に記載の操作制御方法。
通信ネットワークを介して、前記画像処理装置に解析サーバが接続され、
前記解析サーバが、前記音声解析処理、及び／又は、前記映像解析処理を実行する、
ことを特徴とする請求項９乃至１６のいずれか一に記載の操作制御方法。
画像処理装置の動作に関する画面を表示すると共にユーザの前記画像処理装置の動作に関する操作を受け付けるユーザインターフェースと、
前記ユーザの音声情報を取得する音声入力部と、
前記ユーザの映像情報を取得する映像入力部と、を備える画像処理装置で動作する操作制御プログラムであって、
前記画像処理装置に、
前記音声入力部が取得した前記音声情報を解析して、操作コマンドを認識する音声解析処理、
前記映像入力部が取得した前記映像情報を解析して、前記ユーザの口の動きを検出する映像解析処理、
前記映像解析処理で検出した前記ユーザの口の動きから発話内容を読唇する読唇処理、及び、
前記操作コマンドに従って前記画像処理装置の動作を制御する操作制御処理、を実行させ、
前記操作制御処理において、
前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示していない場合は、前記映像解析処理で前記ユーザの口の動きを検出している時に、前記音声解析処理で前記操作コマンドを認識した場合、認識した前記操作コマンドに従って前記画像処理装置の動作を制御させ、
セキュリティに関する情報を入力する画面を表示している場合は、前記ユーザインターフェース又は音声出力部を介して、前記ユーザに無音での口の動きによる操作を指示し、および、前記読唇処理で読唇した発話内容による前記操作コマンドに従って前記画像処理装置の動作を制御させる、
ことを特徴とする操作制御プログラム。