JP7346827B2

JP7346827B2 - 画像形成装置、画像形成システム、及び、画像形成装置の制御方法

Info

Publication number: JP7346827B2
Application number: JP2019013294A
Authority: JP
Inventors: 達也川野
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2019-01-29
Filing date: 2019-01-29
Publication date: 2023-09-20
Anticipated expiration: 2039-01-29
Also published as: US20200244824A1; JP2020122834A

Description

本発明は、音声入力による操作が可能な画像形成装置、画像形成システム、及び、画像形成装置の制御方法に係わる。

従来の操作パネルだけでなく、音声で操作できる画像形成装置が登場してきている。このような画像形成装置において、音声操作用のマイクロフォン（以下、マイク）は画像形成装置の本体に内蔵、又は、画像形成装置近傍に設置されている。このため、ユーザーは、画像形成装置に向かって音声操作指示を発声することで、音声による画像形成装置の操作を行うことができる。

例えば、画像形成装置に接続されたマイクと、画像形成装置の外部に配置された携帯端末のマイクと通信する画像処理システムが提案されている（例えば、特許文献１参照）。この画像形成システムでは、画像形成装置に接続されたマイクから第１の音声信号の入力を受け付けた際に、第１の音声信号に基づく音声認識が不成功の場合に、携帯端末に接続されたマイクから第２の音声信号の入力を受け付ける。このように、第１の音声信号の入力が不成功の場合に第２の音声信号に基づく音声認識を実行することにより、音声による指示の精度を容易に向上させることができる。

また、外部サーバー等と通信可能な画像形成装置に対する音声操作指示において、ユーザーが発した音声に個人情報や機密情報等の秘匿ワードが含まれる場合には、秘匿ワードの音声データを、代替ワードの音声データに置き換えてデータを生成する画像形成システムが提案されている（例えば、特許文献２参照）。これにより、画像形成装置に対して入力された音声に秘匿情報が含まれる場合に、その秘匿情報が外部との通信において漏洩することを防ぐことができる。

特開２０１４－２０３０２４号公報特開２０１５－８８８９０号公報

しかしながら、一般的に、画像形成装置はオフィス等に設置されるため、周囲に多数の人間がいることが想定される。このため、ユーザーが発声した音声操作指示に個人情報や機密情報等を含む音声が含まれる場合、音声から情報が漏洩するリスクが懸念される。

上述した問題の解決のため、本発明においては、情報漏洩リスクを低減させることが可能な画像形成装置、画像形成システム、及び、画像形成装置の制御方法を提供する。

本発明の画像形成装置は、周辺の音を集音して第１の音声信号を生成する第１の音声入力部と、携帯端末の周辺の音を集音する第２の音声入力部で生成された第２の音声信号を、携帯端末から受信する通信部と、第１の音声入力部の第１の音声信号の入力に基づいて、音声操作指示の開始を意味する音声操作開始音声の認識を行う第１の音声認識部と、第１の音声認識部の認識結果と予め設定された情報との比較結果に基づいて、第１の音声入力部と携帯端末の第２の音声入力部とから音声入力部を選択する選択部と、選択部で選択された第１の音声入力部又は第２の音声入力部からの音声入力を有効に切り替える入力切り替え部と、入力切り替え部が音声入力を有効にした第１の音声入力部から入力される第１の音声信号、又は、第２の音声入力部から入力される第２の音声信号に基づいて、音声操作指示の内容の認識を行う第２の音声認識部とを備える。

また、本発明の画像形成システムは、画像形成装置と、画像形成装置と通信可能な外部サーバーとを備える。この画像形成システムは、周辺の音を集音して第１の音声信号を生成する第１の音声入力部と、携帯端末の周辺の音を集音する第２の音声入力部で生成された第２の音声信号を、携帯端末から受信する通信部と、第１の音声入力部の第１の音声信号の入力に基づいて、音声操作指示の開始を意味する音声操作開始音声の認識を行う第１の音声認識部と、第１の音声認識部の認識結果と予め設定された情報との比較結果に基づいて、第１の音声入力部と携帯端末の第２の音声入力部とから音声入力部を選択する選択部と、選択部で選択された第１の音声入力部又は第２の音声入力部からの音声入力を有効に切り替える入力切り替え部と、入力切り替え部が音声入力を有効にした第１の音声入力部から入力される第１の音声信号、又は、第２の音声入力部から入力される第２の音声信号に基づいて、音声操作指示の内容の認識を行う第２の音声認識部とを備える。そして、第１の音声入力部と、通信部と、入力切り替え部とが画像形成装置に配置され、第１の音声認識部と、選択部と、第２の音声認識部とのそれぞれが、画像形成装置と外部サーバーとの少なくともいずれかに配置される。

また、本発明の画像形成装置の制御方法は、第１の音声入力部において、周辺の音を集音して第１の音声信号を生成し、通信部において、携帯端末の第２の音声入力部で集音された携帯端末の周辺の音に基づく第２の音声信号を、携帯端末から受信し、第１の音声認識部において、第１の音声入力部からの入力される第１の音声信号に基づいて、音声操作指示の開始を意味する音声操作開始音声の認識を行い、選択部において、第１の音声認識部の認識結果と予め設定された情報との比較結果に基づいて、第１の音声入力部と携帯端末の第２の音声入力部とから音声入力部を選択し、入力切り替え部において、選択部で選択された第１の音声入力部又は第２の音声入力部からの音声入力を有効にし、第２の音声認識部において、入力切り替え部が音声入力を有効にした第１の音声入力部から入力される第１の音声信号、又は、第２の音声入力部から入力される第２の音声信号に基づいて、当該画像形成装置に対する音声操作指示の内容の認識を行う。

本発明によれば、情報漏洩リスクを低減させることが可能な画像形成システムを提供することができる。

画像形成システムの概略構成を示す図である。画像形成装置のハードウェア構成例を示す図である。携帯端末のハードウェア構成例を示す図である。画像形成装置の音声操作に係るシステム制御構成を示す図である。画像形成システムの音声操作の動作フローチャートを示す図である。画像形成システムの音声操作における入力切り替え処理のフローチャートである。画像形成システムの音声操作に係るシステム制御構成を示す図である。

以下、本発明を実施するための形態の例を説明するが、本発明は以下の例に限定されるものではない。
なお、説明は以下の順序で行う。
１．画像形成システムの実施の形態（第１実施形態）
２．画像形成システムの実施の形態（第２実施形態）

〈１．画像形成システムの実施の形態（第１実施形態）〉
以下、画像形成システムの具体的な実施の形態について説明する。図１に、本実施の形態の画像形成システムの概略構成図を示す。

図１に示す画像形成システム１は、画像形成装置１０と、画像形成装置１０が音声入力を受け付ける第１の音声入力部の構成として本体マイク１５０とを備える。画像形成装置１０は、ＬＡＮ（Local Area Network）等のネットワーク２０に接続されている。そして、画像形成装置１０は、ネットワーク２０を介して、ユーザーが使用する第２の音声入力部を備える携帯端末３１０に接続されている。さらに、画像形成装置１０は、ネットワーク２０を介して、外部サーバー４０等を備えていてもよい。

ネットワーク２０は有線であっても無線であってもよい。例えば、画像形成装置１０と外部サーバー４０とが有線ＬＡＮを介して接続され、画像形成装置１０と携帯端末３１０が無線ＬＡＮを介して接続されている例が挙げられる。

画像形成装置１０は、画像形成機能を実現するための構成を有する。第１の音声入力部としての本体マイク１５０は、画像形成装置１０に含まれなくてもよい。さらに、音声入力を受け付ける第１の音声入力部は、本体マイク１５０に限定されず、接続された音声入力装置から入力される音声信号を処理する処理装置も含んでもよい。

携帯端末３１０としては、携帯電話機やスマートフォン等の携帯可能な端末が挙げられる。携帯端末３１０は、音声入力を受け付ける機能を実現する第２の音声入力部としてのマイクと、情報を表示（出力）するためのタッチパネル等の表示部や、スピーカー等の音声出力部とを備える。なお、画像形成システム１において、携帯端末３１０は、少なくともこれら機能を有し、ユーザーが持ち運び可能であれば特に限定されない。

［画像形成装置のハードウェア構成］
画像形成システム１に係る画像形成装置１０のハードウェア構成の具体例を図２に示す。なお、ここで示す画像形成装置１０は、画像読み取り機能や印刷機能を備えた一般的な装置構成を示しているが、必ずしも全ての機能を搭載する必要はなく、ファクシミリ装置やスキャナー装置等の限定的な機能を有した構成であってもよい。

画像形成装置１０は、メインコントローラー１００、画像読取部１１０、画像形成部１２０、操作表示部１３０、通信部１４０、及び、本体マイク１５０が相互接続されて構成される。

メインコントローラー１００は、制御装置として機能する演算装置であるＣＰＵ（Central Processing Unit）１０５、ＣＰＵ１０５で実行されるプログラム等を記憶するＲＯＭ（Read Only Memory）１０１、画像データなどを保存するＨＤＤ（hard disk drive）１０２、ＣＰＵ１０５でプログラムを実行する際の作業領域として機能するメモリ１０３、画像形成装置１０の制御に必要な各回路を装備したＡＳＩＣ（application specific integrated circuit）１０４等の一般的な画像形成装置に必要な要素を含む。

画像形成装置１０は、操作表示部１３０や、通信部１４０からの操作指示に基づき、画像読み取り機能（スキャン）や画像形成機能（印刷）などを実行する。また、画像形成装置１０は、ユーザーが特定の操作指示を含む音声を本体マイク１５０に対して入力すると、メインコントローラー１００内で音声認識処理が行われ、操作表示部１３０や通信部１４０からの操作指示と同様に、音声操作指示の内容に応じた各種機能を実行する。

なお、図２に記載の画像形成装置１０の構成では、本体マイク１５０を、メインコントローラー１００と図示しないＩ／Ｆを介して接続する形態を採っているが、本体マイク１５０とメインコントローラー１００との接続はこの形態に限られない。例えば、本体マイク１５０は、内部に音声認識処理を行う制御部を搭載し、音声認識処理の一部（例えば、音声操作開始音声の認識処理）を内部で行うように構成して、本体マイク１５０とメインコントローラー１００とを接続する構成をとってもよい。さらには、本体マイク１５０とメインコントローラー１００との間の通信を、ＬＡＮ（Local Area Network）やＷＡＮ（Wide Area Network）等のネットワーク経由で実施する形態としてもよい。

画像読取部１１０は、図示しない原稿台に載置された原稿を光学的に読み取って画像データを取得する。画像形成部１２０は、画像を用紙上に印刷する画像形成を行う。操作表示部１３０は、図示しないタッチパネルや操作キー群を含む入力部と表示部とを備える。例えば、操作表示部１３０は、液晶表示装置などの表示装置と光学式や静電容量式等のタッチパネルの位置指示装置とが重なって構成され、表示装置に操作画面を表示してその操作画面上の指示位置を特定する。ＣＰＵ１０５は予め記憶されている画面表示をさせるためのデータに基づいて表示装置に操作画面を表示させる。特定された表示装置上での指示位置（タッチされた位置）や、押下されたキーを示す操作信号はＣＰＵ１０５に入力される。ＣＰＵ１０５は押下されたキー、又は、表示している操作画面と指示位置とから操作内容を特定し、それに基づいて処理を実行する。通信部１４０は、上記ネットワーク２０を介した通信を行う。

［携帯端末の構成］
図３に、携帯端末３１０のハードウェア構成の具体例を示す。図３に示すように、携帯端末３１０は、全体を制御する演算装置であるＣＰＵ３０、ＣＰＵ３０で実行されるプログラム等を記憶するＲＯＭ３１、ＣＰＵ３０でプログラムを実行する際の作業領域として機能するＲＡＭ３２、第２の音声入力部として機能する端末マイク３１１、スピーカー３４、操作表示部として機能するタッチパネル３５、及び、上記ネットワーク２０を介した通信を制御するためネットワークコントローラー３６とを含む。携帯端末３１０が、上述のように携帯電話機やスマートフォンなどのような電話機能を有する場合には、さらに電話機能を実現するための構成を含む。

［画像形成システムのシステム制御構成］
画像形成システム１における、画像形成装置１０の音声操作に係るシステム制御構成を図４に示す。
画像形成システム１は、画像形成装置１０に搭載された第１の音声入力部である本体マイク１５０と、メインコントローラー１００とが相互に通信する。また、通信部１４０を介して、メインコントローラー１００と外部の携帯端末３１０とがネットワーク２０（図１参照）を介して相互に通信する。

メインコントローラー１００は、第１の音声認識部である音声操作開始キーワード認識部３０１と、音声入力部の選択及び携帯端末３１０を特定するための選択部である使用入力判定部３０２と、入力切り替え部３０３と、ユーザーに関するユーザー情報を管理するユーザー情報管理部３０４と、第２の音声認識部である音声操作指示内容認識部３０５と、音声操作受付部３０６とを備える。

携帯端末３１０は、携帯端末３１０に搭載された第２の音声入力部である端末マイク３１１を備える。携帯端末３１０は、画像形成装置１０の通信部１４０と、ネットワーク２０を介して通信可能に接続されている。携帯端末３１０は、端末マイク３１１で集音した周囲の音を、第２の音声信号（音声データ）として、通信部１４０を介してメインコントローラー１００に送信する。

本体マイク１５０は、画像形成装置１０の周辺の音を集音し、画像形成装置１０の周囲においてユーザーが発声した音声を取得する。そして、本体マイク１５０で取得した第１の音声信号（音声データ）を、音声操作開始キーワード認識部３０１、及び、入力切り替え部３０３へ送信する。

音声操作開始キーワード認識部３０１は、第１の音声信号から音声操作開始を意味するキーワード（音声操作開始キーワード）を認識する。音声操作開始キーワード認識部３０１は、第１の音声信号からキーワードを認識した場合、使用入力判定部３０２に音声操作開始キーワードが含まれた第１の音声信号を送信する。

使用入力判定部３０２は、第１の音声信号から、ユーザーの声質に基づいて決定される特徴データを抽出する。そして、使用入力判定部３０２は、抽出した特徴データと、ユーザー情報管理部３０４に保存されている各ユーザーの特徴データとの照合を行う。この照合によって、使用入力判定部３０２が本体マイク１５０に音声を発声しているユーザーを特定する。

ユーザー情報管理部３０４は、ユーザーに関するユーザー情報として、ユーザーの特徴データ、ユーザーの所持する携帯端末３１０の接続情報、及び、携帯端末３１０の使用の有無等を含むユーザー設定情報等を有する。ユーザー情報管理部３０４が有するユーザーの特徴データとは、ユーザー（話者）の特定に使用できる情報であれば、どのような形態であってもよい。一例として、話者認識で広く用いられている特徴量として、ＬＰＣケプストラム係数（ＬＰＣＣ）やメル周波数ケプストラム係数（ＭＦＣＣ）が挙げられる。ユーザー情報管理部３０４にユーザー情報の登録を行う際に、これらの特徴量を算出し、ユーザーの特徴データとしてユーザー情報に紐づけて保存しておくことで、ユーザーの照合が可能となる。

使用入力判定部３０２は、ユーザー情報管理部３０４から特定されたユーザーに関するユーザー情報を読み出し、ユーザー情報に紐付いた携帯端末３１０の接続情報から、接続する携帯端末３１０を特定する。そして、使用入力判定部３０２は、特定した携帯端末３１０との接続を有効にするように入力切り替え部３０３に指示する。入力切り替え部３０３は、本体マイク１５０から使用入力判定部３０２によって特定された携帯端末３１０に通信を切り替え、携帯端末３１０との通信を有効にする。これにより、使用入力判定部３０２は、携帯端末３１０に内蔵されている端末マイク３１１からの音声信号（第２の音声信号）の入力を有効にする。

なお、使用入力判定部３０２は、入力切り替え部３０３による通信の切り替えを、ユーザー情報管理部３０４に保存されているユーザー設定情報に基づいて行ってもよい。例えば、使用入力判定部３０２は、ユーザー設定情報が音声入力に携帯端末を使用する設定となっている場合には、入力切り替え部３０３を切り替えて携帯端末３１０との通信を有効にする。また、使用入力判定部３０２は、ユーザー設定情報が音声入力に携帯端末を使用する設定となっていない場合には、使用入力判定部３０２は、入力切り替え部３０３の切り替えを行わずに、本体マイク１５０からの音声入力を有効にする。

入力切り替え部３０３が携帯端末３１０からの音声入力を有効にした後は、ユーザーからの音声入力は、端末マイク３１１から行われる。このため、ユーザーが本体マイク１５０へ音声操作開始キーワードを音声入力した後、ユーザーが携帯端末３１０に音声操作指示を発声すると、端末マイク３１１、通信部１４０、及び、入力切り替え部３０３を通じて、第２の音声信号（音声データ）が音声操作指示内容認識部３０５に送信される。

音声操作指示内容認識部３０５は、携帯端末３１０から送信される第２の音声信号から、画像形成装置１０に対する操作指示の音声を認識する。そして、認識した操作指示内容を音声操作受付部３０６に通知する。音声操作受付部３０６は、音声操作指示内容認識部３０５から通知された操作指示内容に従って所定の処理の実行を画像形成装置１０に指示する。

なお、使用入力判定部３０２においてユーザー情報に基づく携帯端末３１０が特定できない場合には、入力切り替え部３０３において本体マイク１５０との通信を維持してもよい。この場合には、本体マイク１５０からの音声入力に従って、音声操作指示内容認識部３０５が音声操作指示の内容を認識し、音声操作受付部３０６が音声操作指示に従って所定の操作の実行を画像形成装置１０に指示する。

［画像形成システムの動作フロー］
画像形成システムの音声操作の動作フローチャートを図５に示す。
まず、画像形成装置１０は、本体マイク１５０からユーザーの音声が入力された際に、音声操作開始キーワード認識部３０１が操作開始キーワードを検出したか否かを判定する（ステップＳ１１）。例えば、画像形成装置１０に対して、ユーザーが「コピー開始」等の操作開始キーワードを用いて音声で指示を行い、音声操作開始キーワード認識部３０１が入力された音声からこの操作開始キーワードを検出する。
音声操作開始キーワード認識部３０１が、ユーザー入力した音声から操作開始キーワードを検出しない場合（ステップＳ１１のＮｏ）は、操作開始キーワードを検出するまで入力される音声に対する判定を繰り返す。

音声操作開始キーワード認識部３０１が操作開始キーワードを検出した場合（ステップＳ１１のＹｅｓ）、入力切り替え部３０３が音声入力を有効にする音声入力部の切り替え処理を行う（ステップＳ１２）。入力切り替え部３０３は、入力切り替え処理により、音声操作の入力を有効にする音声入力部を、本体マイク１５０（第１の音声入力部）、又は、ユーザー情報に紐付けられた携帯端末３１０の端末マイク３１１（第２の音声入力部）に切り替える処理を行う。入力切り替え部３０３における入力切り替え処理の詳細については後述する。

入力切り替え処理後、音声操作指示内容認識部３０５は、選択された音声入力部から入力される音声信号に音声操作指示が含まれるか判定する（ステップＳ１３）。
音声操作指示内容認識部３０５が、音声信号から音声操作指示を検出した場合（ステップＳ１３のＹｅｓ）は、音声信号に含まれる指示内容を認識する（ステップＳ１４）。

音声操作指示内容認識部３０５が、音声信号から音声操作指示を検出しない場合（ステップＳ１３のＮｏ）は、音声操作指示の検出を停止する。例えば、入力切り替え処理後、音声操作指示を検出せずに所定の時間を経過した場合には、音声操作指示の検出を停止する。また、入力切り替え処理により、携帯端末３１０の端末マイク３１１からの音声入力が有効となっている場合には、入力切り替え部３０３が音声入力部を携帯端末３１０側から本体マイク１５０に切り替えてもよい。そして、音声操作指示の検出を停止した後、音声操作開始キーワード認識部３０１による操作開始キーワードを検出する処理（ステップＳ１１）を、再度繰り返す。

音声操作指示内容認識部３０５は、認識した操作指示内容が画像形成装置１０において実行可能かどうか判定する（ステップＳ１５）。操作指示内容が実行可能でない場合（ステップＳ１５のＮｏ）、音声操作指示内容認識部３０５は、ユーザーに対して指示された操作内容が画像形成装置１０において実行できないことを、画像形成装置１０の操作表示部における表示や、携帯端末３１０からの音声を用いてユーザーに通知する（ステップＳ１６）。そして、通知後、ユーザーからの音声操作指示が入力されるまで、選択された音声入力部から入力される音声信号に音声操作指示が含まれるかどうかの判定（ステップＳ１３）を再度行う。

操作指示内容が実行可能である場合（ステップＳ１５のＹｅｓ）、音声操作指示内容認識部３０５は指示内容を音声操作受付部３０６に通知する。そして、音声操作受付部３０６は、音声操作指示内容認識部３０５から通知された操作指示内容に従って所定の操作の実行を画像形成装置１０に指示し、画像形成装置１０が操作に基づく処理を実行する（ステップＳ１７）。
ユーザーからの音声による操作指示をすべて実行した後は、音声操作開始キーワード認識部３０１による操作開始キーワードを検出する処理（ステップＳ１１）を、操作開始キーワードを検出するまで繰り返す。

（入力切り替え処理のフローチャート）
上述の図５に示す画像形成システムの音声操作の動作フローチャートにおける、入力切り替え部３０３における入力切り替え処理（ステップＳ１２）のフローチャートを図６に示す。

まず、使用入力判定部３０２は、本体マイク１５０に入力された第１の音声信号（音声データ）から、ユーザーの声質の特徴に基づく特徴データを算出する（ステップＳ２１）。そして、使用入力判定部３０２は、算出した第１の音声信号の特徴データと、ユーザー情報管理部３０４から取得したユーザー情報に含まれる特徴データとの照合を行う（ステップＳ２２）。これにより、使用入力判定部３０２は、第１の音声信号の特徴データと合致するユーザーを検索し、第１の音声信号の特徴データと合致するユーザーに関するユーザー情報が、ユーザー情報管理部３０４に登録されているかどうかを判定する（ステップＳ２３）。

第１の音声信号の特徴データの合致するユーザーがユーザー情報管理部３０４に登録されていた場合（ステップＳ２３のＹｅｓ）、使用入力判定部３０２は、ユーザー情報管理部３０４に登録されたユーザー情報から、携帯端末３１０のユーザー設定情報を参照し、携帯端末３１０での音声操作の使用設定が有効かどうかを判定する（ステップＳ２４）。

ユーザー情報の携帯端末３１０での音声操作の使用設定が有効となっていた場合（ステップＳ２４のＹｅｓ）、使用入力判定部３０２は、登録されているユーザー情報に、ＩＰアドレスや電話番号等の携帯端末３１０の接続情報が含まれているかどうかを確認する（ステップＳ２５）。

ユーザー情報に接続情報が含まれている場合（ステップＳ２５のＹｅｓ）、使用入力判定部３０２が通信する携帯端末３１０を特定し、入力切り替え部３０３が有効な音声入力部を本体マイク１５０から携帯端末３１０に切り替える（ステップＳ２６）。その後、使用入力判定部３０２は、特定した携帯端末３１０との通信の接続を確認する（ステップＳ２７）。そして、使用入力判定部３０２は、携帯端末３１０との接続を確認できた場合（ステップＳ２７のＹｅｓ）、携帯端末３１０の端末マイク３１１を音声操作の入力部として選択し、携帯端末３１０からの音声入力を有効にする（ステップＳ２８）。

第１の音声信号の特徴データの合致するユーザーがユーザー情報管理部３０４に登録されていない場合（ステップＳ２３のＮｏ）、ユーザー情報における携帯端末３１０の使用設定が有効となっていない場合（ステップＳ２４のＮｏ）、ユーザー情報内に接続情報が含まれていない場合（ステップＳ２５のＮｏ）、又は、携帯端末３１０との接続を確認できない場合（ステップＳ２７のＮｏ）は、使用入力判定部３０２は、本体マイク１５０を音声操作の入力部として選択し、本体マイク１５０からの音声入力を有効にする（ステップＳ２９）。
ステップＳ２９又はステップＳ２８の処理後、ステップＳ１２の入力切り替え部３０３における入力切り替え処理を終了する。

〈２．画像形成システムの実施の形態（第２実施形態）〉
画像形成システムの第２実施形態について説明する。第２実施形態は、画像形成システムのシステム制御構成が、画像形成装置１０と外部サーバー４０とに配置されることを除き、上述の第１実施形態と同様の構成とすることができる。このため、以下の説明では、画像形成システムにおける、画像形成装置の音声操作に係るシステム制御構成に係わる構成のみを説明する。

［画像形成システムの構成］
上述の図１に示すように、画像形成システム１Ａは、画像形成装置１０と、画像形成装置１０が音声入力を受け付ける第１の音声入力部の構成としての本体マイク１５０と、外部サーバー４０とを備え、それぞれがＬＡＮ（Local Area Network）等のネットワーク２０によって接続されている。

［サーバーの構成］
外部サーバー４０は、パーソナルコンピューター等の、一般的なコンピューターで実現することができる。そのため、外部サーバー４０のハードウェア構成は、一般的なコンピューターのハードウェア構成と同様とすることができる。このため、外部サーバー４０のハードウェア構成の詳細な説明は省略する。

［画像形成システムのシステム制御構成］
画像形成システム１Ａにおける、画像形成装置１０の音声操作に係るシステム制御構成を図７に示す。なお、以下の図７に示す画像形成システム１Ａの説明では、上述の図１に示す画像形成システム１と異なる構成を主に説明する。

画像形成システム１Ａは、画像形成装置１０に設けられた本体マイク１５０と、メインコントローラー１００、通信部１４０とを備える。また、画像形成装置１０の通信部１４０にネットワーク２０（図１参照）を介して接続された携帯端末３１０と、外部サーバー４０とを備える。

メインコントローラー１００は、音声操作開始キーワード認識部３０１と、入力切り替え部３０３と、音声操作受付部３０６とを備える。
外部サーバー４０は、使用入力判定部３０２と、入力切り替え部３０３と、ユーザー情報管理部３０４と、音声操作指示内容認識部３０５と、音声操作受付部３０６とを備える。
携帯端末３１０は、端末マイク３１１を備える。携帯端末３１０は、画像形成装置１０の通信部１４０と、ネットワーク２０を介して通信可能に接続されている。

音声操作開始キーワード認識部３０１は、第１の音声信号から音声操作開始を意味するキーワード（音声操作開始キーワード）を検出及び認識する。音声操作開始キーワード認識部３０１は、第１の音声信号からキーワードを認識した場合、通信部１４０を介して外部サーバー４０の使用入力判定部３０２に音声操作開始キーワードが含まれた第１の音声信号を送信する。

外部サーバー４０は、使用入力判定部３０２において、第１の音声信号から、ユーザーの声質に基づいて決定される特徴データを抽出する。そして、使用入力判定部３０２は、抽出した特徴データと、外部サーバー４０のユーザー情報管理部３０４に保存されている各ユーザーの特徴データとの照合を行う。この照合によって、使用入力判定部３０２が本体マイク１５０に音声を発声しているユーザーを特定する。

使用入力判定部３０２は、特定されたユーザーに関するユーザー情報をユーザー情報管理部３０４から読み出し、ユーザー情報に紐付いた携帯端末３１０の接続情報から接続する端末３１０を特定する。そして、使用入力判定部３０２は、通信部１４０を介して、特定した携帯端末３１０との接続を有効にするようにメインコントローラー１００の入力切り替え部３０３に指示する。

メインコントローラー１００の入力切り替え部３０３は、本体マイク１５０から使用入力判定部３０２によって特定された携帯端末３１０に通信を切り替え、携帯端末３１０との通信を有効にする。これにより、使用入力判定部３０２は、携帯端末３１０に内蔵されている端末マイク３１１からの音声信号（第２の音声信号）の入力を有効にする。

入力切り替え部３０３が携帯端末３１０からの音声入力を有効にした後は、ユーザーからの音声入力は、端末マイク３１１から行われる。このため、本体マイク１５０へ音声操作開始キーワードを音声入力した後、ユーザーが携帯端末３１０に音声操作指示を発声すると、端末マイク３１１、及び、通信部１４０を通じて、第２の音声信号（音声データ）が外部サーバー４０の音声操作指示内容認識部３０５に送信される。

音声操作指示内容認識部３０５は、携帯端末３１０から送信される第２の音声信号から、画像形成装置１０に対する操作指示の音声を認識する。そして、認識した操作指示内容を、通信部１４０を通じてメインコントローラー１００の音声操作受付部３０６に通知する。音声操作受付部３０６は、音声操作指示内容認識部３０５から通知された操作指示内容に従って所定の操作の実行を画像形成装置１０に指示する。

上述のように、画像形成システム１，１Ａは、第１実施形態における画像形成装置１０のメインコントローラー１００に設けられたシステム制御構成の一部が、画像形成装置１０とネットワーク２０を介して接続された外部サーバーに設けられていてもよい。
画像形成装置１０は、少なくとも、本体マイク１５０、通信部１４０、入力切り替え部３０３、及び、音声操作受付部３０６を備えていればよい。このため、音声操作開始キーワード認識部３０１、使用入力判定部３０２、ユーザー情報管理部３０４、及び、音声操作指示内容認識部３０５は、画像形成装置１０と外部サーバー４０とのいずれかに設けられていればよい。これらの構成が外部サーバー４０に設けられている場合にも、上述の第１実施形態と同様の効果を得ることができる。

なお、本発明は上述の実施形態例において説明した構成に限定されるものではなく、その他本発明構成を逸脱しない範囲において種々の変形、変更が可能である。

１画像形成システム、１０画像形成装置、２０ネットワーク、３０，１０５ＣＰＵ、３１，１０１ＲＯＭ、３２ＲＡＭ、３４スピーカー、３５タッチパネル、３６ネットワークコントローラー、４０外部サーバー、１００メインコントローラー、１０２ＨＤＤ、１０３メモリ、１０４ＡＳＩＣ、１１０画像読取部、１２０画像形成部、１３０操作表示部、１４０通信部、１５０本体マイク、３０１音声操作開始キーワード認識部、３０２使用入力判定部、３０３入力切り替え部、３０４ユーザー情報管理部、３０５音声操作指示内容認識部、３０６音声操作受付部、３１０携帯端末、３１１端末マイク

Claims

周辺の音を集音して第１の音声信号を生成する第１の音声入力部と、
携帯端末の周辺の音を集音する第２の音声入力部で生成された第２の音声信号を、前記携帯端末から受信する通信部と、
前記第１の音声入力部の第１の音声信号の入力に基づいて、音声操作指示の開始を意味する音声操作開始音声の認識を行う第１の音声認識部と、
ユーザーに関するユーザー情報を管理する管理部と、
前記第１の音声認識部の認識結果と、前記管理部に管理された前記ユーザー情報との比較結果に基づいて、前記第１の音声入力部と前記携帯端末の前記第２の音声入力部とから音声入力部を選択する選択部と、
前記選択部で選択された前記第１の音声入力部又は前記第２の音声入力部からの音声入力を有効に切り替える入力切り替え部と、
前記入力切り替え部が音声入力を有効にした前記第１の音声入力部から入力される前記第１の音声信号、又は、前記第２の音声入力部から入力される前記第２の音声信号に基づいて、音声操作指示の内容の認識を行う第２の音声認識部と、を備える
画像形成装置。
前記管理部は、ユーザー情報と、前記ユーザー情報に紐付く前記携帯端末の情報とを管理し、
前記選択部は、前記管理部によって管理されている前記携帯端末の情報に基づいて、
前記通信部が通信する前記携帯端末を特定する
請求項１に記載の画像形成装置。
前記管理部は、ユーザー毎の声質の特徴に基づく特徴データを、前記ユーザー情報として管理し、
前記選択部は、前記第１の音声入力部から入力された前記第１の音声信号の認識結果と、前記特徴データとを使用して、前記画像形成装置を使用するユーザーを特定し、前記ユーザー情報と紐付けられた前記携帯端末を特定する
請求項２に記載の画像形成装置。
前記選択部が通信する前記携帯端末の特定ができなかった場合、前記第２の音声認識部は、前記第１の音声入力部から入力された前記第１の音声信号の入力に基づいて認識処理を行う
請求項２又は３に記載の画像形成装置。
前記管理部は前記ユーザー情報として、ユーザーが音声操作を行う際に使用する音声入力部の設定情報を管理し、
前記入力切り替え部は、前記管理部によって管理されている前記設定情報が、音声操作に前記第１の音声入力部を使用する設定を含む場合、前記第１の音声入力部による音声操作を有効にする
請求項２から４のいずれかに記載の画像形成装置。
画像形成装置と、前記画像形成装置と通信可能な外部サーバーとを備える画像形成システムであって、
当該画像形成システムは、
周辺の音を集音して第１の音声信号を生成する第１の音声入力部と、
携帯端末の周辺の音を集音する第２の音声入力部で生成された第２の音声信号を、前記携帯端末から受信する通信部と、
前記第１の音声入力部の第１の音声信号の入力に基づいて、音声操作指示の開始を意味する音声操作開始音声の認識を行う第１の音声認識部と、
前記画像形成装置を使用するユーザーに関するユーザー情報を管理する管理部と、
前記第１の音声認識部の認識結果と、前記管理部に管理された前記ユーザー情報との比較結果に基づいて、前記第１の音声入力部と前記携帯端末の前記第２の音声入力部とから音声入力部を選択する選択部と、
前記選択部で選択された前記第１の音声入力部又は前記第２の音声入力部からの音声入力を有効に切り替える入力切り替え部と、
前記入力切り替え部が音声入力を有効にした前記第１の音声入力部から入力される前記第１の音声信号、又は、前記第２の音声入力部から入力される前記第２の音声信号に基づいて、音声操作指示の内容の認識を行う第２の音声認識部と、を備え、
前記第１の音声入力部と、前記通信部と、前記入力切り替え部とが前記画像形成装置に配置され、
前記第１の音声認識部と、前記選択部と、前記第２の音声認識部とのそれぞれが、前記画像形成装置と前記外部サーバーとの少なくともいずれかに配置される
画像形成システム。
当該画像形成システムは、前記画像形成装置と前記外部サーバーとの少なくともいずれか一方に、前記ユーザー情報と、前記ユーザー情報に紐付く前記携帯端末の情報とを管理する前記管理部を備え、
前記選択部は、前記管理部によって管理されている前記ユーザー情報と前記携帯端末の情報とに基づいて、前記通信部が通信する前記携帯端末を特定する
請求項６に記載の画像形成システム。
音声認識を行う画像形成装置の制御方法であって、
第１の音声入力部において、周辺の音を集音して第１の音声信号を生成し、
通信部において、携帯端末の第２の音声入力部で集音された前記携帯端末の周辺の音に基づく第２の音声信号を、前記携帯端末から受信し、
第１の音声認識部において、前記第１の音声入力部からの入力される第１の音声信号に基づいて、音声操作指示の開始を意味する音声操作開始音声の認識を行い、
選択部において、前記第１の音声認識部の認識結果と、管理部で管理された前記画像形成装置を使用するユーザーに関するユーザー情報との比較結果に基づいて、前記第１の音声入力部と前記携帯端末の前記第２の音声入力部とから音声入力部を選択し、
入力切り替え部において、前記選択部で選択された前記第１の音声入力部又は前記第２の音声入力部からの音声入力を有効にし、
第２の音声認識部において、前記入力切り替え部が音声入力を有効にした前記第１の音声入力部から入力される前記第１の音声信号、又は、前記第２の音声入力部から入力される前記第２の音声信号に基づいて、当該画像形成装置に対する音声操作指示の内容の認識を行う
画像形成装置の制御方法。