JP2020064197A

JP2020064197A - 画像形成装置、音声認識装置、及びプログラム

Info

Publication number: JP2020064197A
Application number: JP2018196340A
Authority: JP
Inventors: 達也川野; Tatsuya Kawano
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2018-10-18
Filing date: 2018-10-18
Publication date: 2020-04-23
Also published as: CN111081232A; US20200128142A1

Abstract

【課題】ジョブ実行中に入力される音声による実行指示を正確に認識する。【解決手段】画像形成装置は、入力されたジョブを実行するジョブ制御部２２２と、ジョブ制御部２２２により実行されるジョブのジョブ実行状態に基づいて発生する自装置の動作音に対応するノイズパターンを判定するノイズパターン判定部２２１と、ジョブ制御部２２２が実行中のジョブの種別に応じてノイズパターン判定部２２１が判定したノイズパターンのデータに基づいて、音を集音する音声入力部１５０より入力される音データからノイズパターンに該当するノイズを除去するノイズ除去部２１２と、を有するメインコントローラと、ノイズが除去された音データから実行指示を認識する音声認識部２１４を有する音声処理部と、を備える。【選択図】図３

Description

本発明は、画像形成装置、音声認識装置、及びプログラムに関する。

従来、ＦＡＸ機能や複写、印刷機能を有する、いわゆるデジタル複合機などの画像形成装置に対するジョブや各種処理等の実行指示は、操作パネルへのタッチ操作を通じて行われてきた。近年では、操作パネルによる実行指示のみならず、音声入力デバイスに音声を入力することで実行指示（以下、「音声による実行指示」と呼ぶ）を行える画像形成装置が登場している。例えば、ユーザが発話した音声に、画像形成装置が実行可能な処理を示すフレーズが含まれていると、画像形成装置は、音声入力デバイスに入力した音声から抽出したフレーズに対応する音データから特定した実行指示に基づくジョブを実行することが可能である。

このため、ユーザは、画像形成装置に実行指示を行う際に、画像形成装置に触れなくても画像形成装置を操作可能である。これにより、ユーザは、画像形成装置に対する複雑な操作が不要となり、「使いやすさ」、「分かりやすさ」等の利便性が向上する。そのため、ユーザの身体能力、年齢、ユーザの体格等にかかわらず、「使いにくい」、「分からない」という不平不満の要素を解消するユニバーサルデザインへの取組みを促進することができる。

音声入力デバイスとして、例えば、マイクロフォン（以下、「マイク」と略記する。）が用いられる。マイクは、通常、画像形成装置本体に内蔵されるか、画像形成装置の近接箇所に設置される。しかし、ジョブの実行中に音声による実行指示がされる場合、ジョブの実行に伴い画像形成装置の可動部が動作して発生する動作音が、ユーザの音声と共にマイクに混入してしまう場合がある。すると、画像形成装置は、音データを解析しても、動作音がノイズとなってユーザの音声を正確に認識できず、実行指示を特定できなくなって、ジョブ等の実行もできなかった。

動作音が、ユーザの音声と共にマイクに混入してしまうことを防ぐために、例えば、特許文献１及び特許文献２に開示された技術が知られている。
特許文献１には、ユーザから操作に対する発話音声があった場合、画像形成装置が、機器の動作を一時停止させることにより機器動作中に発生する動作音によって音声認識の認識率を低下することを回避する技術が開示されている。

特許文献２には、音声認識装置が屋内で使用される場合と、音声認識装置が車内で使用される場合とで、音声認識装置が、屋内用のノイズキャンセル特性と、車内用のノイズキャンセル特性とを判断して音声認識処理を実行する技術が開示されている。

特開２０１０−１３６３３５号公報特開２００４−１６３４５８号公報

マイクに入力されるノイズを除去するには、時系列順に入力される音に基づいて、発生するノイズを予測し、予測に従い入力されたノイズの除去を行う方法などがある。しかし、この方法では、定常的に発生している環境音等は除去できても、画像形成装置の動作に伴って発生する、音量や音質の変化が不規則な音を除去することはできない。不規則な音とは、例えば、画像形成装置の内部に搭載されている種々の部品が個々に動作音を発して混ざり合った複雑な音や、異常発生時の異常音など、突発的に発生する音である。

特許文献１に開示された技術では、ユーザから操作に対する発話音声が行われる間、装置が一時停止し、一時停止状態が解除されるまでジョブの実行が停止されるため、ジョブの実行が遅滞する。これにより、ユーザは、画像形成装置の利便性が低下したと感じることとなる。また、特許文献１に開示された技術では、ノイズレベルが高い環境下（例えば、ノイズ音が大きい）において、発話音声があったか否かをそもそも判定することが困難である。

また、特許文献２に開示された技術では、音声認識装置が使用環境下に応じてノイズキャンセル特性を切り替える制御を行うため、それぞれの使用環境で発生する定常的なノイズを低減することしかできなかった。このため、音量や音質の変化が急激な音に対しては、これをノイズとして除去することができなかった。

本発明はこのような状況に鑑みて成されたものであり、本発明の目的は、実行中のジョブが動作音を発生させている環境下においても、音声による実行指示を正確に認識することにある。

本発明に係る画像形成装置は、入力されたジョブを実行する制御部と、制御部により実行されるジョブのジョブ実行状態に基づいて発生する自装置の動作音に対応するノイズパターンを判定するノイズパターン判定部と、制御部が実行中のジョブの種別に応じてノイズパターン判定部が判定したノイズパターンのデータに基づいて、音を集音する入力部より入力される音データから、ノイズパターンに該当するノイズを除去するノイズ除去部と、ノイズが除去された音データから実行指示を認識する音声認識部と、を備える。

本発明によれば、実行中のジョブの種別に応じて選択したノイズパターンのデータに基づいて、音データからノイズパターンに該当するノイズを除去するため、音声によるジョブの実行指示を正確に認識することができる。
上記した以外の課題、構成及び効果は、以下の実施の形態の説明により明らかにされる。

本発明の一実施の形態に係る画像形成装置の構成例を示すブロック図である。本発明の一実施の形態に係る画像形成装置の要部の構成例を示す機能ブロック図である。本発明の一実施の形態に係る音声による実行指示に対する画像形成装置の機能を示す機能ブロック図である。本発明の一実施の形態に係るノイズパターン判定部の処理例を示すフローチャートである。本発明の一実施の形態に係る音声による実行指示におけるジョブ実行までの処理例を示すフローチャートである。音データに係るノイズ除去方法の例を説明するための図である。

以下、本発明を実施するための形態例について、添付図面を参照して説明する。本明細書及び図面において、実質的に同一の機能又は構成を有する構成要素については、同一の符号を付することにより重複する説明を省略する。

［一実施の形態］
＜画像形成装置の構成例＞
まず、本実施の形態に係る画像形成装置１の構成例について説明する。
図１では、本発明の説明に必要と考える要素又はその関連要素が記載されるが、画像形成装置１はこの例に限られない。

画像形成装置１は、例えば複写機などの電子写真方式の画像形成装置が一例として挙げられる。図１に示す画像形成装置１は、いわゆるタンデム型カラー画像形成装置とも言われ、複数の感光体を一本の中間転写ベルトに対面させて縦方向に配列することによりフルカラーの画像を形成することが可能である。

画像形成装置１は、画像読取部２０、画像形成部４０、用紙搬送部５０、定着装置６０及び操作表示部７０備える。
画像読取部２０は、走査露光装置の光学系により原稿の画像を走査露光し、その反射光をラインイメージセンサにより読み取って画像信号を得る。

画像形成部４０は、用紙Ｐ（記録材の一例）に画像を形成する。画像形成部４０は、イエロー（Ｙ）の画像を形成する画像形成部４０Ｙ、マゼンタ（Ｍ）の画像を形成する画像形成部４０Ｍ、シアン（Ｃ）の画像を形成する画像形成部４０Ｃ及びブラック（Ｋ）の画像を形成する画像形成部４０Ｋを備える。画像形成部４０Ｙ、４０Ｍ、４０Ｃ、４０Ｋは、記録材の一例である樹脂製のシートにもトナー像を転写することが可能である。

画像形成部４０Ｙは、感光体ドラムＹ及びその周辺に配置された帯電部４２Ｙ、レーザーダイオード４１Ｙを有した光書込部４３Ｙ、現像装置４４Ｙ及びドラムクリーナー４５Ｙを備える。同様に、画像形成部４０Ｍ、４１Ｃ、４１Ｋは、感光体ドラムＭ、Ｃ、Ｋ及びその周辺に配置された帯電部４２Ｍ、４２Ｃ、４２Ｋ、レーザーダイオード４１Ｍ、４１Ｃ、４１Ｋを有した光書込部４３Ｍ、４３Ｃ、４３Ｋ、現像装置４４Ｍ、４４Ｃ、４４Ｋ及びドラムクリーナー４５Ｍ、４５Ｃ、４５Ｋを備える。

感光体ドラムＹは、帯電部４２Ｙにより表面が一様に帯電しており、感光体ドラムＹには、光書込部４３Ｙのレーザーダイオード４１Ｙからの走査露光により潜像が形成される。さらに、現像装置４４Ｙは、トナーで現像することによって感光体ドラムＹ上の潜像を顕像化する。これにより、感光体ドラムＹ上には、イエローに対応する画像が形成される。

同様に、感光体ドラムＭは、帯電部４２Ｍにより表面が一様に帯電しており、感光体ドラムＭには、光書込部４３Ｍのレーザーダイオード４１Ｍからの走査露光により潜像が形成される。さらに、現像装置４４Ｍは、トナーで現像することによって感光体ドラムＭ上の潜像を顕像に変える。これにより、感光体ドラムＭ上には、マゼンタに対応する画像が形成される。

感光体ドラムＣは、帯電部４２Ｃにより表面が一様に帯電しており、感光体ドラムＣには、光書込部４３Ｃのレーザーダイオード４１Ｃからの走査露光により潜像が形成される。さらに、現像装置４４Ｃは、トナーで現像することによって感光体ドラムＣ上の潜像を顕像に変える。これにより、感光体ドラムＣ上には、シアンに対応する画像が形成される。

感光体ドラムＫは、帯電部４２Ｋにより表面が一様に帯電しており、感光体ドラムＫには、光書込部４３Ｋのレーザーダイオード４１Ｋからの走査露光により潜像が形成される。さらに、現像装置４４Ｋは、トナーで現像することによって感光体ドラムＫ上の潜像を顕像に変える。これにより、感光体ドラムＫ上には、ブラックに対応する画像が形成される。

感光体ドラムＹ、Ｍ、Ｃ、Ｋ上に形成された画像は、１次転写ローラー４７Ｙ、４７Ｍ、４７Ｃ、４７Ｋにより、ベルト状の中間転写体である中間転写ベルト４６上の所定位置に逐次１次転写される。中間転写ベルト４６上に転写された各色よりなる画像は、用紙搬送部５０により所定のタイミングで搬送される用紙Ｐに対して、２次転写部４８で２次転写される。

用紙搬送部５０は、用紙Ｐが収納される複数の給紙装置５１と、給紙装置５１に収納された用紙Ｐを繰り出して給紙する給紙部５１ａを備える。また、用紙搬送部５０は、給紙装置５１から給紙された用紙Ｐが搬送される主搬送路５３、定着装置６０の下流側で主搬送路５３から分岐し用紙Ｐの表裏を反転させる反転搬送路５４、及び用紙Ｐが排紙される排紙トレイ５５を備える。

用紙搬送部５０は、反転搬送路５４と主搬送路５３との分岐箇所に設けた切換ゲート５３ａを備える。主搬送路５３を搬送され、２次転写部４８及び定着装置６０を通過した用紙Ｐには、画像形成装置１内で上側を向いた面（第一面）に画像が形成される。用紙Ｐの両面に画像を形成する場合、上側を向いた面に画像が形成された用紙Ｐが主搬送路５３から反転搬送路５４に搬送される。そして、反転搬送路５４に設けられた用紙反転搬送路５６にて用紙Ｐが反転されて、用紙Ｐの画像形成面（第一面）が下側を向く。その後、用紙Ｐが主搬送路５３へ搬送される。これにより、表裏反転された用紙Ｐの上側を向いた他の面（第二面）に画像を形成することが可能となる。

定着装置６０は、画像形成部４０により形成されたトナー像を用紙Ｐに定着するため、定着ローラー６１及び加圧ローラー６２を備える。この定着装置６０は、中間転写ベルト４６の下流に配置される。そして、定着装置６０は、圧着した一対の定着ローラー６１と加圧ローラー６２により、用紙Ｐを搬送すると共に、トナー像が２次転写された用紙Ｐに対して、トナー像を定着させる定着処理を行う。定着ローラー６１と加圧ローラー６２は、共に定着部材として用いられる。定着ローラー６１の内部には、ヒーターＨが設けられている。ヒーターＨは、定着ローラー６１を加熱することで、定着ローラー６１と、加圧ローラー６２との定着ニップＮを通過する用紙Ｐに熱が伝わるように定着ローラー６１の表面を加熱する。加熱された定着ローラー６１は、定着ローラー６１の軸に対して回転することにより、定着ニップＮを通過中の用紙Ｐに熱を伝える。用紙Ｐが加熱されることで、用紙Ｐ上のトナー像が融解し、用紙Ｐにトナー像が定着する。

また、操作表示部７０は、操作部７１、表示部７２、マイク２０１を備える。操作部７１は、複数の操作ボタンからなり、ユーザの操作を受け付ける。表示部７２は、タッチパネルと、ディスプレイとを備えるタッチパネルディスプレイから構成され、案内画面等のような各種画面をユーザに提示する。表示部７２は、タッチ操作用の操作ボタンの画像を表示すると共に、ユーザのタッチ操作を受け付ける。マイク２０１は、ユーザの音声（音声による実行指示含む）、画像形成装置１から発生する動作音及び環境音などを集音する。

＜画像形成装置の要部の構成例＞
図２は、画像形成装置１の要部の構成例を示す機能ブロック図である。
画像形成装置１は、メインコントローラ１００と、画像読取部２０、画像形成部４０、操作表示部７０、通信部１４０、音声入力部１５０（入力部の一例）及び音声処理部１６０を備える。これらの機能部は、相互に接続されている。

メインコントローラ１００は、操作表示部７０に対するタッチ操作による実行指示、又は通信部１４０を介して不図示のＰＣ（Personal Computer）端末、プリントコントローラ等から入力する実行指示に基づき、画像読み取り処理（スキャン）、画像形成処理（印刷）等のジョブや各種処理（設定変更）等を実行する。以下の説明では、「ジョブや各種処理等」を、総称して「ジョブ」と呼ぶ。
また、メインコントローラ１００は、音声入力部１５０を通じてジョブの実行を指示するユーザからの音声が入力されると、音声処理部１６０が認識した実行指示に基づき、ジョブを実行する。

画像読取部２０、画像形成部４０及び操作表示部７０は、図１と説明が重複するため詳細な説明を省略する。
通信部１４０は、例えば、ＮＩＣ（Network Interface Card）やモデム等で構成され、画像形成装置１の外部のＬＡＮ等の不図示のネットワークＮと接続されるインターフェースである。通信部１４０は、例えば、ＰＣ端末等との間で接続を確立し、各種データの送受信を実行する。

音声入力部１５０は、音声入力部１５０が設置された位置における周囲の音を集音する。音声入力部１５０は、入力した音をデジタル信号の音データに変換して、音声処理部１６０（後述する図２を参照）に出力する。ここで、音声入力部１５０に入力する音とは、例えば、画像形成装置１がジョブを実行することで画像形成装置１の内部で発生する動作音や、音声入力部１５０の前でユーザが発した音声等である。なお、画像形成装置１がジョブのジョブ種別に応じて、異なる動作音が発生する。

音声処理部１６０は、音声入力部１５０から入力したデジタル信号の音データからノイズパターンに該当するノイズを除去して音声認識を行い、ユーザが発した音声による実行指示に応じたジョブを特定する。音声処理部１６０の詳細は、後述の図３で記載する。

メインコントローラ１００は、いわゆるコンピュータとして用いられるハードウェアである。メインコントローラ１００は、ＣＰＵ（Central Processing Unit：中央処理装置）１０５、ＲＯＭ（Read Only Memory）１０１、メモリ１０３を備える。さらに、メインコントローラ１００は、ＨＤＤ（Hard Disk Drive）１０２、ＡＳＩＣ（Application Specific Integrated Circuit）１０４を備える。メインコントローラ１００の各部は、不図示のバスを介して接続されている。

ＣＰＵ１０５は、本実施の形態例に係る各機能を実現するソフトウェアのプログラムコードをＲＯＭ１０１から読み出して実行する。図３で説明するノイズパターン判定部２２１、ジョブ制御部２２２及び操作受付部２２３は、ＣＰＵ１０５により実行される機能の一部である。
ＲＯＭ１０１は、不揮発性メモリの一例として用いられ、ＣＰＵ１０５が動作するために必要なプログラムやデータ等を記憶している。
メモリ１０３は、揮発性メモリの一例として用いられ、ＣＰＵ１０５が行う各処理に必要な演算処理の途中に発生した変数やパラメータ等を一時的に記憶する。

ＡＳＩＣ１０４は、画像形成装置１において、ＣＰＵ１０５の処理負荷を軽減させるとともに、複雑な各種の処理機能を効率よく、迅速に実行させるため、画像形成装置１の行う各処理の内、一部の処理を実行する。例えば、画像形成装置１に入力された画像データを圧縮してメモリ１０３に保存するための圧縮処理や、圧縮後の画像データを印刷するために伸長する伸長処理を行う。

また、ＡＳＩＣ１０４は、音声入力部１５０に入力された音データを、予め定められた音圧縮方式（例えば、ＭＰ３（MPEG Audio Layer 3））に従って音データを圧縮し、圧縮されている音データを予め定められた音伸長方式に従って伸長する。

ＨＤＤ１０２は、不揮発性ストレージの一例として用いられ、ＨＤＤ１０２には、ＣＰＵ１０５が各部を制御するためのプログラム、ＯＳ、コントローラー等のプログラム、データが記憶される。ＨＤＤ１０２に記憶されるプログラム、データの一部は、ＲＯＭ１０１にも記憶されている。ＨＤＤ１０２及びＲＯＭ１０１は、ＣＰＵ１０５によって実行されるプログラムを格納したコンピュータ読取可能な非一過性の記録媒体の一例として用いられる。このため、ＨＤＤ１０２には、このプログラムが永続的に格納される。なお、メインコントローラ１００によって実行されるプログラムを格納したコンピュータ読取可能な非一過性の記録媒体としては、ＨＤＤに限定されず、例えば、ＳＳＤ（Solid State Drive）、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ等の記録媒体であってもよい。

本実施の形態に係る画像形成装置１は、操作表示部７０や通信部１４０からの実行指示に基づくジョブを実行することができる。同様に、画像形成装置１は、音声入力部１５０に入力される、ユーザからの音声による実行指示により、ジョブを実行することも可能である。

＜画像形成装置に対する音声による実行指示の例＞
図３は、音声による実行指示に対する画像形成装置の機能を示す機能ブロック図である。
音声入力部１５０は、マイク２０１及びＡＤ変換部（ＡＤＣ：Analog To Digital Converter）２０２を備える。
音声処理部１６０は、ノイズパターン格納部２１１、ノイズ除去部２１２、操作パターン格納部２１３及び音声認識部２１４を備える。ノイズパターン格納部２１１は、記憶部の一例として示される。
メインコントローラ１００は、ノイズパターン判定部２２１、ジョブ制御部２２２及び操作受付部２２３を備える。

マイク２０１は、設置された位置の周辺から集音した音をアナログ信号のデータとしてＡＤ変換部２０２に出力する。マイク２０１は、画像形成装置１の近傍に設置され、ユーザの音声を集音する。音声には、ユーザが画像形成装置１にジョブを実行させるための実行指示に対応するフレーズが含まれる。なお、マイク２０１は、ユーザが実行指示を発声した時に画像形成装置１がジョブを実行中であれば、ユーザの実行指示の音声とともに、画像形成装置１の可動部が動作することにより発生する動作音を集音する。

ＡＤ変換部２０２は、マイク２０１が集音したアナログ信号の音データを、デジタル信号の音データに変換する。ユーザが実行指示を発声した時にジョブが実行中であれば、ユーザの音声に動作音が混入した音データが生成される。この動作音が、音データに混入したノイズである。

音データに動作音が混入すると、画像形成装置１は、音データからユーザの音声だけを正確に認識できず、音声による実行指示に基づいてジョブを実行することが困難となる。画像形成装置１が、音声による実行指示を正確に認識するためには、音データからノイズである動作音を除く必要がある。動作音は、画像形成装置の構造上、ジョブの種別に応じてそれぞれ規則的に発生する性質がある。そのため、単一のジョブが実行される場合には、画像形成装置から発生する動作音を予測することができる。そこで、ＡＤ変換部２０２は、変換したデジタル信号の音データを音声処理部１６０のノイズ除去部２１２に出力する。

ノイズ除去部２１２は、メインコントローラ１００のジョブ制御部２２２に実行中のジョブがあれば、実行中のジョブの種別に応じて、ノイズパターン判定部２２１で判定されたノイズパターンのデータに基づいて、音データから、ノイズパターンに該当するノイズを除去する。ノイズ除去部２１２によるノイズの除去処理は、ＡＤ変換部２０２からデジタル信号の音データが入力された時に、リアルタイムで行われる。ノイズ除去部２１２は、ノイズの除去処理を行うため、ジョブ制御部２２２から、実行中のジョブに関するジョブ情報（例えば、印刷設定）を取得する。これによりノイズパターンのデータをノイズパターン格納部２１１から正確に取得することができる。

ノイズ除去部２１２は、ノイズパターンに該当するノイズを除去した音データ（以下、「ノイズ除去済み音データ」と呼ぶ）を音声認識部２１４に出力する。
なお、ＡＤ変換部２０２からデジタル信号の音データを受信した時に、実行中のジョブがなければ、ノイズ除去部２１２は、音データをそのまま音声認識部２１４に出力する。

ノイズパターン格納部２１１には、ジョブ制御部２２２により実行されるジョブの種別に応じて発生する画像形成装置１（自装置）の動作音に対応するノイズパターンのデータが予め格納されている。また、ノイズパターン格納部２１１には、ノイズパターン判定部２２１で生成されるノイズパターンのデータをも新たに格納される。このため、ノイズ除去部２１２は、ジョブ制御部２２２が実行中のジョブの種別、複数のジョブの実行状況に応じて、ノイズパターン判定部２２１が判定したノイズパターンのデータをノイズパターン格納部２１１から取得し、音データからノイズパターンのデータを除去することができる。

操作パターン格納部２１３には、ユーザが画像形成装置１にジョブを実行させるための実行指示に対応する音データのパターン（「操作パターンデータ」と呼ぶ）が予め格納されている。また、ジョブの実行を短縮する操作パターンデータがユーザによって定義され、操作パターン格納部２１３に追加登録されるようにしてもよい。例えば、予め、スキャン処理とプリント処理の両方を行う操作を「操作の１番」と設定しておく。仮に、ユーザが、画像読取部２０に載置した原稿に対して、スキャン処理と印刷処理を画像形成装置１に指示する場合、ユーザが「操作の１番」と音声入力する。これにより、一言で複数のジョブ（スキャン処理後に印刷処理）を画像形成装置１に実行させることが可能となる。

音声認識部２１４は、ノイズ除去済み音データと、操作パターン格納部２１３から取得した操作パターンデータとを比較する。音声認識部２１４は、ノイズ除去済み音データと一致する操作パターンデータが存在した場合、実行指示を認識（音声認識）し、操作受付部２２３にその操作パターンデータに基づく実行指示を出力する。このようにして、音声認識部２１４は、ノイズ除去済み音データから、音声入力部１５０を通じて行われる実行指示を認識することができる。

操作受付部２２３は、音声認識部２１４から入力されたジョブの実行指示をジョブ制御部２２２に入力する。このように操作受付部２２３に、ジョブの実行指示が入力されることを「操作受付」と呼ぶ。

ジョブ制御部２２２は、操作受付部２２３から入力された実行指示に基づいて、画像形成装置１に入力されたジョブを実行する。ジョブ制御部２２２が実行中のジョブの情報、実行中のジョブの実行状態の情報は、ノイズパターン判定部２２１及びノイズ除去部２１２に適宜送られる。

ノイズパターン判定部２２１は、ジョブ制御部２２２からジョブのジョブ実行状態の情報を取得する。そして、ノイズパターン判定部２２１は、ジョブ制御部２２２により実行されるジョブ実行状態に基づいて発生する、画像形成装置１内の動作音に対応するノイズパターンを判定する。なお、ジョブ実行状態は、通常、ジョブ開始からジョブ終了まで変化しない。

しかし、仮に、継続されるはずのジョブ実行状態が変化した場合には、ジョブの動作音に対応するノイズパターンのデータはノイズパターン格納部２１１に存在しなくなる。これは、ノイズパターンのデータが、ジョブ開始から終了まで継続されるはずのジョブ実行状態時に発生する動作音に基づいて生成されたためである。このため、実行中のジョブのジョブ実行状態が変化した後に、マイク２０１に音声入力があると、ノイズ除去部２１２は音データから正確にノイズを除去することができない場合がある。

したがって、ノイズパターン判定部２２１は、ジョブ制御部２２２が実行中であるジョブのジョブ実行状態に生じた変化に基づいて、新たにノイズパターンのデータを生成する。例えば、複数のジョブが並行して実行される期間において、先に実行されるジョブの残り、あるいは新たに実行されるジョブがあれば、ジョブ制御部２２２より該当するジョブのジョブ情報を取得するようにする。

このジョブ情報には、並行して実行されるジョブの種別、実行開始時間等が含まれる。ノイズパターン判定部２２１は、取得したジョブ情報に基づいて、ジョブ実行状態の変化後にジョブが実行されることで発生する動作音に対応するノイズパターンのデータを新たに生成する。このように、ノイズパターン判定部２２１は、ジョブ制御部２２２により、異なる種別の複数のジョブが並行して実行される場合、各ジョブから判定されるノイズパターンのデータを組み合わせて新たなノイズパターンのデータを生成することができる。そして、ノイズパターン判定部２２１は、新たに生成したノイズパターンのデータをノイズパターン格納部２１１に格納する。

ノイズ除去部２１２は、ノイズパターン判定部２２１により生成された新たなノイズパターンのデータに基づいて、音データから、新たなノイズパターンに該当するノイズを除去する。これにより、ジョブ実行状態が変化した後に、マイク２０１に新たな実行指示を含む音声入力があった場合でも、ノイズ除去部２１２は、音データからノイズを除去することができる。

なお、音声処理部１６０がノイズパターン格納部２１１を有さない構成であれば、ノイズパターン判定部２２１は、ジョブ実行状態に基づいて判定したノイズパターンのデータ、及び生成した新たなノイズパターンのデータをノイズ除去部２１２に直接送ることもできる。そして、ノイズ除去部２１２は、ノイズパターン格納部２１１を参照せずに、ノイズパターン判定部２２１から取得したノイズパターンのデータを用いて、音データからノイズを除去することができる。

ここで、ジョブ実行状態の変化とは、ジョブの実行指示がされる場合、実行中のジョブの途中から並行して別のジョブが実行される場合、並行して実行する複数のジョブのうち１つのジョブが終了する場合、全てのジョブが終了する場合、実行中のジョブに異常が発生する場合、又は異常が解消される場合のいずれかをいう。

例えば、スキャン処理と印刷処理がそれぞれ別に実行される際に発生する動作音に対応するノイズパターンのデータは、ノイズパターン格納部２１１に格納されている。ここで、実行中のスキャン処理の途中から、印刷処理が開始され、スキャン処理が先に終了すると仮定する。このとき、スキャン処理と印刷処理は部分的に並行して実行される。そして、印刷処理の開始時点からスキャン処理の終了時点に発生する動作音は、スキャン処理と印刷処理に伴う可動部の部品が個々に発した動作音が混ざり合った音となる。そのため、ノイズパターン判定部２２１は、新たなノイズパターンのデータを作成しなければならない。印刷処理が開始される前と、スキャン処理が終了した後は、それぞれ１つのジョブに応じた動作音が発生しているだけであるので、ノイズパターンのデータはノイズパターン格納部２１１に格納されている。

実行中のスキャン処理に対して、印刷処理が並行して実行されるタイミングは毎回異なるため、ノイズパターン判定部２２１は、新たなノイズパターンのデータを都度生成する必要がある。そのため、新たに生成したノイズパターンのデータは、ノイズパターン格納部２１１に保存したままでもよいし、ジョブが終了し次第、削除してもよい。

また、ジョブ実行状態の変化には、画像形成時において、通紙ジャムや紙切れ等の異常の発生や解消のタイミングなどの場合も含まれる。
例えば、通紙ジャムや紙切れが発生した場合、ギアが用紙Ｐを噛んだり、用紙Ｐが排出されず詰まるなど異常な動作音が発生する。この場合、ノイズパターン判定部２２１は、新たなノイズパターンのデータを生成しなければならない。通紙ジャムや紙切れが解消された後であれば、以降の処理は正常であることが多いため、既に生成され、ノイズパターン格納部２１１に格納されたノイズパターンのデータが用いられる。

＜ノイズパターン判定部の処理例＞
図４は、ノイズパターン判定部２２１の処理の例を示すフローチャートである。
ノイズパターン判定部２２１は、ジョブ制御部２２２から実行中のジョブについて、ジョブ実行状態の変化があるか否かを判定する（Ｓ１）。

ノイズパターン判定部２２１は、実行中のジョブにジョブ実行状態の変化がないと判定した場合（Ｓ１のＮｏ）、ステップＳ１に戻り、実行中のジョブのジョブ実行状態の変化を再び判定する。すなわち、実行中のジョブにジョブ実行状態の変化がない場合には、ノイズパターン判定部２２１は、ステップＳ１の処理を繰り返す。

ノイズパターン判定部２２１は、実行中のジョブにジョブ実行状態の変化があると判定した場合（Ｓ１のＹｅｓ）、ジョブ制御部２２２から該当するジョブのジョブ情報を取得する（Ｓ２）。該当するジョブとは、例えば、実行中のジョブのジョブ実行状態が変化した後に、引き続き実行するジョブの残り、さらに新たに実行するジョブ等である。

そして、ノイズパターン判定部２２１は、ジョブ制御部２２２から取得したジョブ情報に基づいて、ジョブ実行状態の変化後に実行される該当のジョブにより発生する動作音に対応するノイズパターンのデータを新たに生成する（Ｓ３）。
このとき、ノイズパターン判定部２２１は、新たなノイズパターンのデータを生成する際、ノイズパターン格納部２１１に予め格納されている、ジョブの種別に応じたノイズパターンのデータを参照する。さらに、異なる種別の複数のジョブが並行して実行される場合には、ノイズパターン判定部２２１は、実行される異なる種別の複数のジョブのノイズパターンを組み合わせた、新たなノイズパターンのデータを生成する。

ノイズパターン判定部２２１は、新たに生成したノイズパターンのデータをノイズパターン格納部２１１に格納する（Ｓ４）。
そして、ノイズパターン判定部２２１は、ステップＳ１に戻り、実行中のジョブのジョブ実行状態の変化を再び判定する。

＜音声による実行指示におけるジョブ実行までの処理例＞
図５は、音声による実行指示によるジョブ実行までの処理例を示すフローチャートである。

まず、ノイズ除去部２１２は、音声入力部１５０のＡＤ変換部２０２から音声入力、つまりデジタル信号の音データの入力があったか否か判定する（Ｓ１１）。
ノイズ除去部２１２は、デジタル信号の音データの入力がなかったと判定した場合（Ｓ１１のＮｏ）、ステップＳ１１に戻り、デジタル信号の音データの入力の有無を再び判定する。すなわち、デジタル信号の音データの入力がない場合、ノイズ除去部２１２は、ステップＳ１１の処理を繰り返す。

ノイズ除去部２１２は、デジタル信号の音データの入力があったと判定した場合（Ｓ１１のＹｅｓ）、ジョブの実行に伴って画像形成装置１の可動部が動作することにより発生する動作音に対応するノイズパターンのデータをノイズパターン格納部２１１から取得する（Ｓ１２）。ただし、ノイズ除去部２１２は、ノイズパターン判定部２２１により判定されたノイズパターンのデータを、ノイズパターン判定部２２１から直接取得してもよい。

次に、ノイズ除去部２１２は、取得したノイズパターンのデータに基づいて、音データに含まれているノイズを除去する（Ｓ１３）。ここで、ノイズ除去部２１２が行うノイズ除去方法については、図６で後述する。その後、ノイズ除去部２１２は、ノイズパターンのデータが除去された音データ（ノイズ除去済み音データ）を音声認識部２１４に出力する。

次に、音声認識部２１４は、入力されたノイズ除去済み音データの音声認識を行う（Ｓ１４）。このとき、音声認識部２１４は、入力されたノイズ除去済み音データと、操作パターン格納部２１３から取得した操作パターンデータとを比較する。なお、既に述べたように、操作パターン格納部２１３には、ユーザが画像形成装置１にジョブを実行させるための実行指示に対応する音データのパターン（操作パターンデータ）が予め格納されている。

次に、音声認識部２１４は、ノイズ除去済み音データに実行指示が含まれているか否かを判定する（Ｓ１５）。音声認識部２１４は、ノイズ除去済み音データに実行指示が含まれていないと判定した場合（Ｓ１５のＮｏ）、ステップＳ１１に戻る。

一方、音声認識部２１４は、ノイズ除去済み音データに実行指示が含まれていると判定した場合（Ｓ１５のＹｅｓ）、操作受付部２２３に判定した実行指示を入力する。
そして、操作受付部２２３は、音声認識部２１４が判定した実行指示をジョブ制御部２２２に出力する。
次に、ジョブ制御部２２２は、操作受付部２２３から入力された実行指示に基づきジョブを実行し（Ｓ１６）、ステップＳ１１に戻る。

＜ノイズ除去方法＞
図６は、音データからノイズを除去する手順の例を説明するための図である。図６のグラフ（１）〜（３）は、縦軸に音の強さ[ｄＢ]、横軸に音の周波数[ｆ]を表す。

上述したように本実施の形態に係るノイズ除去部２１２は、ノイズパターンのデータを用いて、音データからノイズを除去する。したがって、ノイズ除去の手法としては、例えば、一般的に知られているアルゴリズムである、周波数領域でノイズ除去を行うスペクトラム・サブトラクション法を用いることができる。

図６のグラフ（１）は、ユーザの音声に動作音（ノイズ）が混入した音データの周波数分布３０１を表している。周波数分布３０１は、ユーザの音声に動作音（ノイズ）が混入された音データのスペクトルを示す。
図６のグラフ（２）は、動作音（ノイズ）に対応するノイズパターンの周波数分布３０２を表す。つまり、周波数分布３０２は、ノイズパターンのスペクトルを示す。

図６のグラフ（３）は、ノイズ除去済み音データの周波数分布３０３を示す。周波数分布３０３は、ノイズ除去済み音データのスペクトルを示している。スペクトラム・サブトラクション法を用いると、ノイズ除去部２１２は、周波数分布３０１から、周波数分布３０２を減算することで、周波数分布３０３を取り出すことができる。

なお、音声認識部２１４は、周波数分布３０３から得られる周波数成分から音声認識を行ってもよいし、変換した時系列データから音声認識を行ってもよい。
スペクトラム・サブトラクション法としては、改良されたアルゴリズムが多数提案されており、ノイズ除去部２１２は、改良されたアルゴリズムを使用してもかまわない。

＜まとめ＞
以上説明した一実施の形態に係る画像形成装置１は、ジョブの実行中に音声入力があった場合、ノイズ除去部２１２が入力された音データからノイズパターンのデータを除去する。音声認識部２１４は、ノイズを除去された音データ（ノイズ除去済み音データ）に基づいて音声認識を行う。ここで、音声認識部２１４は、ノイズ除去済み音データと一致する実行指示に対応する操作パターンデータが存在すれば、その操作パターンデータに対応する、ジョブの実行指示を操作受付部２２３に出力する。操作受付部２２３は、音声認識部２１４から受け付けたジョブの実行指示をジョブ制御部２２２に入力する。そして、ジョブ制御部２２２は、実行指示に基づいてジョブを実行する。
このため、実行中のジョブが動作音を発生させている環境下において、画像形成装置１が音声による実行指示を認識することができる。

また、ノイズパターン判定部２２１は、実行中のジョブにジョブ実行状態の変化があった場合、引き続き実行するジョブの残り、さらに新たに実行されるジョブがあれば、ジョブ制御部２２２からジョブ情報を取得する。そして、ノイズパターン判定部２２１はジョブ情報に基づいて、ジョブ実行状態の変化後に実行される該当のジョブにより発生する動作音に対応するノイズパターンのデータを新たに生成し、ノイズパターン格納部２１１に格納する。

このため、ノイズ除去部２１２は、実行するジョブの種別に応じて発生する動作音によるノイズに加え、並行して実行される複数のジョブの干渉音や、通紙ジャム等による異常音などから成る音質や音量の変化が急激なノイズまでも音データから除去することができる。そのため、画像形成装置１は、実行中のジョブによる定常的なノイズ、変化が急激なノイズが発生しているあらゆる状況下において、ジョブに伴う動作を変更することなく、音声による実行指示を正確に認識することができる。

[変形例]
なお、本実施の形態に係る画像形成装置１のマイク２０１は、図１では操作表示部７０に内蔵されているが、画像形成装置１に近接する装置等に設けられてもよい。また、マイク２０１は、画像形成装置１に内蔵されていてもよい。

また、図２では、音声入力部１５０と音声処理部１６０を、メインコントローラ１００とインターフェースを介して接続している様子が示される。しかし、音声入力部１５０、音声処理部１６０、及びメインコントローラ１００間との通信は、ＬＡＮ（Local Area Network）やＷＡＮ（Wide Area Network）等のネットワークを介して行われてもよい。この場合、音声入力部１５０、音声処理部１６０は、それぞれ画像形成装置１に近接する装置として設置されてもよい。

また、音声処理部１６０は、メインコントローラ１００とインターフェースを介して接続している様子が示される。しかし、音声処理部１６０の一部又はすべての機能をメインコントローラ１００に含む構成としてもよい。
また、音声入力部１５０と音声処理部１６０を一体化した構成としてもよい。

なお、本発明は上述した実施の形態に限られるものではなく、特許請求の範囲に記載した本発明の要旨を逸脱しない限りその他種々の応用例、変形例を取り得ることは勿論である。
例えば、上述した実施の形態は本発明を分かりやすく説明するために装置及びシステムの構成を詳細かつ具体的に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されない。また、ここで説明した実施の形態の構成の一部を他の実施の形態の構成に置き換えることは可能であり、さらにはある実施の形態の構成に他の実施の形態の構成を加えることも可能である。また、各実施の形態の構成の一部について、他の構成の追加、削除、置換をすることも可能である。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。

１…画像形成装置、２０１…音声入力部、２１２…ノイズ除去部、２１４…音声認識部、２２１…ノイズパターン判定部、２２２…ジョブ制御部

Claims

入力されたジョブを実行する制御部と、
前記制御部により実行される前記ジョブのジョブ実行状態に基づいて発生する自装置の動作音に対応するノイズパターンを判定するノイズパターン判定部と、
前記制御部が実行中の前記ジョブの種別に応じて前記ノイズパターン判定部が判定した前記ノイズパターンのデータに基づいて、音を集音する入力部より入力される音データから、前記ノイズパターンに該当するノイズを除去するノイズ除去部と、
前記ノイズが除去された前記音データから実行指示を認識する音声認識部と、を備える
画像形成装置。
前記ノイズパターン判定部は、前記制御部により並行して実行される異なる種別の複数の前記ジョブから判定する前記ノイズパターンのデータを組み合わせて新たな前記ノイズパターンのデータを生成し、
前記ノイズ除去部は、生成された新たな前記ノイズパターンのデータに基づいて、音データから、新たな前記ノイズパターンに該当するノイズを除去する
請求項１に記載の画像形成装置。
前記ノイズパターン判定部は、前記制御部が実行中である前記ジョブのジョブ実行状態に生じた変化に基づいて、前記ノイズパターンのデータを生成する
請求項１又は２に記載の画像形成装置。
さらに、前記ノイズパターンのデータを格納する格納部を備え、
前記ノイズパターン判定部は、生成した前記ノイズパターンのデータを前記格納部に格納し、
前記ノイズ除去部は、前記制御部が実行中の前記ジョブの種別に応じて、前記ノイズパターン判定部が判定した前記ノイズパターンのデータを前記格納部から取得する
請求項１〜３のいずれか一項に記載の画像形成装置。
前記ジョブ実行状態の変化は、前記ジョブの実行指示がされる場合、実行中の前記ジョブの途中から並行して別の前記ジョブが実行される場合、並行して実行する複数の前記ジョブのうち１つの前記ジョブが終了する場合、全ての前記ジョブが終了する場合、実行中の前記ジョブに異常が発生する場合、又は前記異常が解消される場合のいずれかのタイミングを表す
請求項４に記載の画像形成装置。
前記入力部は、前記入力部が設置された位置で集音した音を、前記音データに変換し、前記ノイズ除去部に前記音データを出力する
請求項１に記載の画像形成装置。
設置された位置で集音した音を、音データに変換する入力部と、
前記音データから画像形成装置が実行するジョブの実行指示を認識する音声処理部と、を備え、
前記音声処理部は、
前記ジョブのジョブ実行状態に基づいて発生する前記画像形成装置の動作音に対応するノイズパターンのデータを格納する格納部と、
実行中の前記ジョブの種別に応じた前記ノイズパターンのデータに基づいて、前記音を集音する前記入力部より入力される前記音データから、前記ノイズパターンに該当するノイズを除去するノイズ除去部と、
前記ノイズが除去された前記音データから実行指示を認識する音声認識部と、を備える
音声認識装置。
入力されたジョブを実行するステップと、
前記ジョブのジョブ実行状態に基づいて発生する画像形成装置の動作音に対応するノイズパターンを判定するステップと、
実行中の前記ジョブの種別に応じて判定した前記ノイズパターンのデータに基づいて、音を集音する入力部より入力される音データから、前記ノイズパターンに該当するノイズを除去するステップと、
前記ノイズが除去された前記音データから実行指示を認識するステップと、
をコンピュータに実行させるためのプログラム。