JP2007193138A

JP2007193138A - 画像形成装置

Info

Publication number: JP2007193138A
Application number: JP2006011635A
Authority: JP
Inventors: Naoya Morita; 直也守田
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2006-01-19
Filing date: 2006-01-19
Publication date: 2007-08-02

Abstract

【課題】ユーザの声紋パターンを登録しておくことで、暗証番号を入力せずに認証を行うことができ、且つ画面を確認しながら音声応答できることで操作の利便性を向上させる画像形成装置を提供する。
【解決手段】この画像形成装置１００は、図示しない利用者の音声を電気信号に変換するマイク８と、合成音を発音するスピーカ９と、キーや液晶表示パネルから構成される操作表示部１０と、マイク８、スピーカ９及び操作表示部１０の信号をインターフェースするユーザインターフェース７と、利用者の音声を認識し、認識した音声からキーワードを抽出する音声認識部４と、指定した音声を合成して出力する音声合成部５と、声紋の特徴を抽出し登録されている声紋パターンと照合する声紋認証部６と、対話を記述した文書を解釈する対話インタプリタ３と、ファイル情報を記憶するハードディスク２と、を備えて構成される。
【選択図】図１

Description

本発明は、画像形成装置に関し、さらに詳しくは、利用者の音声を認識することにより利用者を特定し、且つその利用者の音声による操作手順を実行する画像形成装置に関するものである。

従来の各種電子機器においては、視覚障害を有した利用者の要求を音声認識技術により装置が認識して、次の操作手順を音声により知らせる技術が開発されている。また、聴覚障害を有した利用者に対しては、大きな表示部を設けたり、操作手順を順次表示部に文字として表示したり、或いは利用者が振動部に接触して振動の種類により操作方法を認識する手法が採られていた。

また最近では、セキュリティの関係から利用者を特定する目的で、ユーザ認証部を設けて利用制限するために、操作キーを利用して暗証番号を押すようにする装置も開発されている。しかし、視覚障害を有した利用者にとっては操作キーを操作することが難しく、また、音声入力だけで制御すると操作履歴を確認することができないといった問題と、一般の音声認識装置は平均的な音声パターンを利用しているため、ユーザによって音声認識率が異なるといった問題もある。更に、全ての音声を認識しようとすると、認識率を高めるために認識レベルを低くせざるを得なくなり、その結果、装置の誤動作につながる虞が出てくる。
また、聴覚障害を有した利用者に対して操作画面だけで操作を行なわせると、機能が階層化されている場合、目的の操作を入力するのに手間取るといった問題がある。

また従来技術として特許文献１には、装置本体の操作ツリーを構造化した構造化文書を、音声構造化文書に変換して、入出力通信自在に記憶させる。また、マイクロホンからのオペレータの指示を音声構造化文書によって制御情報に変換し、装置本体を制御する。また、オペレータのフィールド毎の使用頻度や誤認識率などを集計し、構造化文書に変換して出力する。そして集計結果に基づいて、操作ツリーの体系を変更し、オペレータがより容易に入力できるようにし、またキーワードを変更するなどにより音声認識を容易にする音声制御装置について開示されている。

また特許文献２には、個人情報の識別を行なう個人識別手段と、個人識別手段によって識別された個人情報に基づいて機器の動作をカスタマイズするカスタマイズ手段とを有する画像形成装置について開示されている。
また特許文献３には、マイクロホンからの音声に含まれる指示が、音声認識部で認識され、それに対応する制御信号が制御信号作成部で作成される。また、通信部を介して入力された音声に含まれる指示が音声認識部で認識され、それに対応する制御信号が制御信号作成部で作成され、制御信号に基づき装置の機能実施部の動作が制御される画像形成装置について開示されている。
特開２００３−３０２９９７公報特開２０００−２３１３０９公報特開２００２−２８７７９６公報

しかしながら、特許文献１に開示されている従来技術は、音声構造化文書を変更することにより、音声制御の内容を容易に変更することができるが、セキュリティの点で多くの問題を含んでいる。
また、特許文献２に開示されている従来技術は、個人情報に基づいて機器の動作をカスタマイズすることは容易である反面、特許文献１と同様にセキュリティの点で多くの問題を含んでいる。
また、特許文献３に開示されている従来技術は、通信部を介して入力された音声に含まれる指示が認識されて装置を遠隔制御するものであるが、通信データの中から音声データを抽出する必要があり、その抽出能力により音声認識率が左右されるといった問題がある。

本発明は、かかる課題に鑑み、ユーザの声紋パターンを登録しておくことで、暗証番号を入力せずに認証を行うことができ、且つ画面を確認しながら音声応答できることで操作の利便性を向上させる画像形成装置を提供することを目的とする。
また、他の目的は、ユーザの音声パターンを集計することで音声認識率を向上させることである。
また、他の目的は、遠隔地でも画面を確認しながら音声応答できることで操作の利便性を更に向上させることである。

本発明はかかる課題を解決するために、請求項１は、利用者の音声を認識することにより、操作手順を実行する画像形成装置であって、前記利用者の音声を認識し、認識した音声からキーワードを抽出する音声認識部と、指定した音声を合成して出力する音声合成部と、声紋の特徴を抽出し登録されている声紋パターンと照合する声紋認証部と、対話を記述した文書を解釈する対話インタプリタと、対話を記述したＸＭＬ文書ファイルと、前記利用者毎に音声をパターン化し、該利用者が利用する毎に更新される音声パターンファイルと、認証された利用者のキーワードをパターン化して登録する声紋パターンファイルと、を備えたことを特徴とする。
本発明の最も大きな特徴は、装置を制御する利用者を特定するために、予め利用者のキーワード声紋パターンを登録しておき、装置を操作する場合、利用者が登録したキーワードを音声入力することにより、装置の操作許可を得るようにした点である。

請求項２は、前記利用者が音声を入力することにより、前記音声認識部により該利用者のキーワードを抽出し、該キーワードと前記声紋パターンファイルに登録されたキーワードとを前記声紋認証部により比較し、該比較の結果が一致した場合、該利用者の音声に基づいて操作手順を実行することを特徴とする。
登録した利用者のキーワードは声紋認証部に記憶されている。従って、利用者が音声を入力すると、音声認識部がキーワードを抽出し、そのキーワードが登録されたキーワードと一致するか否かを声紋認証部により比較する。一致していれば、入力した利用者は認証されていると判断されて、それ以降、操作を実行することができる。

請求項３は、前記声紋認証部により利用者が認証された場合、前記音声認識部により認識された音声に基づいて前記対話インタプリタにより対話を解釈し、前記音声合成部により合成音を作成して該利用者に提供することを特徴とする。
声紋認証部により利用者が認証されると、入力された音声は認識されて対話インタプリタにより順次機械語に変換され、対話形式の合成音が生成され、その合成音が利用者に提供されて操作が始まる。

請求項４は、音声により入力した操作履歴及び印刷物の確認映像を出力する画面生成部と、該画面生成部により表示された画面と前記音声合成部により合成された音声との同期をとる音声画面同期部と、を更に備えたことを特徴とする。
本発明は、音声が認識できない場合に、印刷物の確認映像と音声を同期させることにより、利用者に音声を認識させるものである。

請求項５は、前記声紋認証部により利用者が認証された場合、前記音声認識部により認識された音声に基づいて前記対話インタプリタにより対話を解釈し、前記音声合成部により合成音を作成すると共に、前記画面生成部により操作部の表示画面を作成し、前記音声画面同期部により前記合成音と前記表示画面とを同期させて該利用者に提供することを特徴とする。
本発明は、声紋認証部により利用者が認証された場合、操作方法の合成音を提供すると共に、操作部の表示画面を作成して音声と同期して利用者に提供するものである。

請求項６は、インターネット及びイントラネットなどのＴＣＰ／ＩＰネットワークを使って音声データを送受信するＶＯＩＰゲートウェイを更に備え、前記利用者が前記ＶＯＩＰゲートウェイを介して音声を入力することにより、前記声紋認証部により利用者が認証された場合、前記音声認識部により認識された音声に基づいて前記対話インタプリタにより対話を解釈し、前記音声合成部により合成音を作成して該利用者に提供することを特徴とする。
遠隔操作を行う場合、ネットワークに接続した装置から音声データを送信して行うことができる。そのとき必要なものは、インターネット及びイントラネットなどのＴＣＰ／ＩＰネットワークを使って音声データを送受信するＶＯＩＰゲートウェイである。本発明はこのＶＯＩＰゲートウェイをユーザインターフェースに接続して、ネットワークに接続した音声操作端末から音声を入力し、その結果を音声で送信したり、画像データとして複合機、ＦＡＸ及びプリンタに送信するものである。

請求項７は、前記音声認識部に入力する音声を断接する音声断接手段を更に備えたことを特徴とする。
実際の操作時は、音声入力をＯＮ、ＯＦＦする手段が必要である。即ち、常に音声入力が入力されていると、不必要な音声により装置が誤動作する可能性があるためである。そこで本発明では、音声認識部に入力する音声を断接する音声断接手段を更に備え、音声認識が必要なときにのみ音声を入力するものである。

本発明によれば、装置を制御する利用者を特定するために、予め利用者のキーワードの声紋パターンを登録しておき、装置を操作する場合、利用者が登録したキーワードを音声入力することにより、装置の操作許可を得るようにしたので、許可されない利用者による操作を防止することでセキュリティ管理の質を向上させることができる。

以下、本発明を図に示した実施形態を用いて詳細に説明する。但し、この実施形態に記載される構成要素、種類、組み合わせ、形状、その相対配置などは特定的な記載がない限り、この発明の範囲をそれのみに限定する主旨ではなく単なる説明例に過ぎない。
図１は本発明の第１の実施形態に係る画像形成装置の要部ブロック図である。尚、図１では、画像形成装置の画像形成部は公知であるので省略している。また、本発明は制御対象として画像形成装置に限定されるものではない。この画像形成装置１００は、図示しない利用者の音声を電気信号に変換するマイク８と、合成音を発音するスピーカ９と、キーや液晶表示パネルから構成される操作表示部１０と、マイク８、スピーカ９及び操作表示部１０の信号をインターフェースするユーザインターフェース７と、利用者の音声を認識し、認識した音声からキーワードを抽出する音声認識部４と、指定した音声を合成して出力する音声合成部５と、声紋の特徴を抽出し登録されている声紋パターンと照合する声紋認証部６と、対話を記述した文書を解釈する対話インタプリタ３と、ファイル情報を記憶するハードディスク２と、を備えて構成される。尚、ハードディスク２には、対話を記述したＸＭＬ文書ファイル２ａと、利用者毎に音声をパターン化し、利用者が利用する毎に更新される音声パターンファイル２ｂと、認証された利用者のキーワードをパターン化して登録する声紋パターンファイル２ｃと、を記憶している。

次に画像形成装置１００の概略動作について図１を参照して説明する。まず、ユーザ認証について説明する。尚、認証を受けるために予め対象となる利用者の声紋パターンを声紋パターンファイル２ｃに登録しておく必要がある。この説明では、登録者が音声を入力する場合について説明する。利用者はマイク８に向かって登録したキーワード（例えば、名前等）を発声する。その音は電気信号に変換されてユーザインターフェース７を介して音声認識部４に入力される。音声認識部４は音声から機械語に変換するために音声を認識する。このとき、音声パターンファイル２ｂに記憶されている音声パターンを更新するために、音声を順次記憶していく。これにより、同一登録者の音声認識率を高めることができる。それと同時に、音声認識部４により認識された音声の声紋パターンと声紋パターンファイル２ｃに予め登録してある声紋パターンとを声紋認識部６により比較する。声紋パターンファイル２ｃの中に記憶されている声紋パターンと一致する声紋パターンが存在すると、音声合成部５が声紋認証部６の比較結果の合成音を作成して利用者に提示する。音声を入力した利用者は認証された利用者であると判断し、以後、この利用者の音声の指示に従って画像形成の動作が行なわれる。

次にコピー動作について説明する。尚、ここではユーザ認証が行なわれた後の動作として説明する。まず、利用者が印刷に必要な情報を音声で入力する。音声認識部４はそれらを認識して必要な制御情報を抽出する。次に、音声合成部５が設定した情報の合成音を作成し、ユーザインターフェース７を介してスピーカ９により報知して利用者と対話形式にやり取りを行い、確認がとれると画像形成装置１００は制御情報に則って動作を開始する。そして、画像形成装置１００が動作を完了すると、動作完了を利用者に知らせるために音声合成部５が合成音を作成し、ユーザインターフェース７を介してスピーカ９により報知する。尚、利用者と対話形式にやり取りを行い、印刷に必要な情報が足りない場合、音声合成部５が足りない情報をユーザに要求する合成音を作成する。（これは情報が足りるまで繰り返す。）

図２は本発明の第２の実施形態に係る画像形成装置の要部ブロック図である。尚、図２では、画像形成装置の画像形成部は公知であるので省略している。また、本発明は制御対象として画像形成装置に限定されるものではない。同じ構成要素には図１と同じ参照番号を付して説明する。この画像形成装置１１０は、図示しない利用者の音声を電気信号に変換するマイク８と、合成音を発音するスピーカ９と、キーや液晶表示パネルから構成される操作表示部１０と、マイク８、スピーカ９及び操作表示部１０の信号をインターフェースするユーザインターフェース７と、利用者の音声を認識し、認識した音声からキーワードを抽出する音声認識部４と、指定した音声を合成して出力する音声合成部５と、声紋の特徴を抽出し登録されている声紋パターンと照合する声紋認証部６と、対話を記述した文書を解釈する対話インタプリタ３と、ファイル情報を記憶するハードディスク２と、音声により入力した操作履歴及び印刷物の確認映像を出力する画面生成部１２と、画面生成部１２により表示された画面と音声合成部５により合成された音声との同期をとる音声画面同期部１１と、を備えて構成される。尚、ハードディスク２には、対話を記述したＸＭＬ文書ファイル２ａと、利用者毎に音声をパターン化し、利用者が利用する毎に更新される音声パターンファイル２ｂと、認証された利用者のキーワードをパターン化して登録する声紋パターンファイル２ｃと、を記憶している。

次に画像形成装置１１０の概略動作について図２を参照して説明する。まず、ユーザ認証について説明する。尚、認証を受けるために予め対象となる利用者の声紋パターンを声紋パターンファイル２ｃに登録しておく必要がある。この説明では、登録者が音声を入力する場合について説明する。利用者はマイク８に向かって登録したキーワード（例えば、名前等）を発声する。その音は電気信号に変換されてユーザインターフェース７を介して音声認識部４に入力される。音声認識部４は音声から機械語に変換するために音声を認識する。このとき、音声パターンファイル２ｂに記憶されている音声パターンを更新するために、音声を順次記憶していく。これにより、同一登録者の音声認識率を高めることができる。それと同時に、音声認識部４により認識された音声の声紋パターンと声紋パターンファイル２ｃに予め登録してある声紋パターンとを声紋認識部６により比較する。声紋パターンファイル２ｃの中に記憶されている声紋パターンと一致する声紋パターンが存在すると、音声合成部５が声紋認証部６の比較結果の合成音を作成し、画面生成部１２が操作表示部１０の表示画面を作成する。そして、音声画面同期部１１が合成音と表示画面との同期をとり利用者に提示する。音声を入力した利用者は認証された利用者であると判断し、以後、この利用者の音声の指示に従って画像形成の動作が行なわれる。

次にコピー動作について説明する。尚、ここではユーザ認証が行なわれた後の動作として説明する。まず、利用者が印刷に必要な情報を音声で入力する。音声認識部４はそれらを認識して必要な制御情報を抽出する。次に、音声合成部５が設定した情報の合成音を作成し、画面生成部１２が操作表示部１０の表示画面を作成する。そして、音声画面同期部１１が合成音と表示画面との同期をとり、ユーザインターフェース７を介してスピーカ９により報知して利用者と対話形式にやり取りを行い、確認がとれると画像形成装置１１０は制御情報に則って動作を開始する。そして、画像形成装置１が動作を完了すると、動作完了を利用者に知らせるために音声合成部５が合成音を作成し、ユーザインターフェース７を介してスピーカ９により報知する。尚、利用者と対話形式にやり取りを行い、印刷に必要な情報が足りない場合、音声合成部５が足りない情報を利用者に要求する合成音を作成する。（これは情報が足りるまで繰り返す。）

図３は本発明の第３の実施形態に係る画像形成装置の要部ブロック図である。尚、図３では、画像形成装置１２０の画像形成部は公知であるので省略してあり、且つ図１及び図２と同じ部分については図示を省略している。また、本発明は制御対象として画像形成装置に限定されるものではない。この画像形成装置１２０は、インターネット及びイントラネットなどのＴＣＰ／ＩＰネットワークを使って音声データを送受信するＶＯＩＰゲートウェイ１３を更に備え、ＶＯＩＰゲートウェイ１３は、公衆回線網又はインターネット１４に接続され、公衆回線網又はインターネット１４には、例えば、音声操作端末類１５と、ＭＦＰ１６と、ＦＡＸ１７と、ＬＰ１８が接続されている。尚、音声操作端末類１５として、カーナビ１５ａ、携帯電話１５ｂ、固定電話１５ｃがある。

次に画像形成装置１２０の概略動作について図３を参照して説明する。まず、ユーザ認証について説明する。尚、認証を受けるために予め対象となる利用者の声紋パターンを声紋パターンファイル２ｃに登録しておく必要がある。この説明では、登録者が音声を入力する場合について説明する。利用者は音声操作端末類１５の例えば携帯電話１５ｂから公衆回線網１４を介して電話を掛ける。そして回線が接続されると、利用者が認証のために登録した音声を発声する。その音声はＶＯＩＰゲートウェイ１３を介して、電気信号に変換されてユーザインターフェース７を介して音声認識部４に入力される。これ以降の動作は第１と第２の実施形態と同様なので、説明を省略する。

次にコピー動作について説明する。尚、ここではユーザ認証が行なわれた後の動作として説明する。まず、利用者は音声操作端末類１５の例えば携帯電話１５ｂから公衆回線網１４を介して電話を掛ける。そして回線が接続されると、利用者が認証のために登録した音声を発声する。その音声はＶＯＩＰゲートウェイ１３を介して、電気信号に変換されてユーザインターフェース７を介して音声認識部４に入力される。これ以降の動作は第１と第２の実施形態と同様なので、説明を省略する。

図４は本発明の操作表示部の外観構成図である。この操作表示部１０は、液晶等の表示パネル１０ａと、テンキーやスタートボタン１０ｂと、スピーカ９と、マイク８と、マイク８からの音声入力をＯＮ／ＯＦＦする音声入力解除ボタン１９と、を備えて構成される。尚、図４ではこれらが一体となって構成されているが、夫々が個別でも構わない。

図５は本発明の第１の実施形態の動作をより詳しく説明するフローチャートである。尚、認証を受けるために予め対象となる利用者のキーワードの声紋パターンを声紋パターンファイル２ｃに登録しておく必要がある。この説明では、登録者が音声を入力する場合について説明する。利用者はマイク８に向かって登録したキーワード（例えば、名前等）を発声する（Ｓ１）。その音は電気信号に変換されてユーザインターフェース７を介して音声認識部４に入力される。音声認識部４は音声から機械語に変換するために音声を認識する（Ｓ２）。このとき、音声が認識されない場合（Ｓ２でＮＯのルート）は、繰り返して音声認識動作を行なう。認識されると、音声パターンファイル２ｂに記憶されている音声パターンを更新するために、音声を順次記憶していく。これにより、同一登録者の音声認識率を高めることができる。また、予め登録したキーワードを抽出し（Ｓ４）、音声認識部４により認識されたキーワードと声紋パターンファイル２ｃに予め登録してあるキーワードとを声紋認識部６により比較する。声紋パターンファイル２ｃの中に記憶されているキーワードと一致するキーワードが存在すると（Ｓ５でＹＥＳのルート）、対話インタプリタ３により音声合成部５が声紋認証部６の比較結果の合成音を作成して利用者に提示する（Ｓ６）。音声を入力した利用者は認証された利用者であると判断し、以後、この利用者の音声の指示に従って画像形成の動作が行なわれる。

図６は本発明の第２の実施形態の動作をより詳しく説明するフローチャートである。同じステップには図５と同じ参照番号を付して説明する。尚、Ｓ１からＳ６までは、図５と同様であるので説明を省略する。即ち、Ｓ６により音声合成部５が声紋認証部６の比較結果の合成音を作成し、画面生成部１２が操作表示部１０の表示画面を作成する（Ｓ７）。そして、音声画面同期部１１が合成音と表示画面との同期をとり利用者に提示する（Ｓ８）。音声を入力した利用者は認証された利用者であると判断し、以後、この利用者の音声の指示に従って画像形成の動作が行なわれる。

（実施例）
次に、実施例として本発明の画像形成装置と利用者とのやりとりの一例を示す。尚、ここでは基本的な操作を例にとり、Ｐを利用者、Ｍを装置として表している。
Ｐ：環境計画書を２０部、Ａ４でプリントアウトしてください。
Ｍ：その他にプリントアウト設定をされますか。
Ｐ：いいえ。
Ｍ：環境計画書を２０部、Ａ４でプリントアウトします。
《処理中》
Ｍ：環境計画書を２０部、Ａ４でプリントアウトしました。
次に、エラーが発生した場合について説明する。
Ｐ：環境計画書を２０部、Ａ４でプリントアウトしてください。
Ｍ：その他にプリントアウト設定をされますか。
Ｐ：いいえ。
Ｍ：環境計画書を２０部、Ａ４でプリントアウトします。
《処理中に紙詰まり》
Ｍ：紙詰まりがおこりました。コピーを中止します。
※もし、別のＭＦＰがあるのならば、そちらでコピーをするかＭが聞く。
※管理者に紙詰まりを通知する。

次に細かな設定操作をする場合について説明する。
Ｐ：環境計画書を２０部、Ａ４でプリントアウトしてください。
Ｍ：その他にプリントアウト設定をされますか。
Ｐ：２ｉｎ１、両面でお願いします。
Ｍ：環境計画書を２ｉｎ１、両面で編集し、２０部、Ａ４でプリントアウトしてよろしいですか。
Ｐ：はい。
Ｍ：環境計画書を２ｉｎ１、両面で編集し、２０部、Ａ４でプリントアウトします。
《処理中》
Ｍ：環境計画書を２０部、Ａ４でプリントアウトしました。

次に予約をする場合について説明する。
Ｐ：環境計画書を１０部、明日の午後２時までにコピーをしておいてください。
Ｍ：はい、わかりました。
《処理中》
Ｍ：予約が完了しました。環境計画書を１０部、明日の午後２時までにコピーをしておきます。
予約完了の内容が画面にも表示される。
また、予約が実行されるとメールで通知される。

次に外出先の複合機で印刷する場合について説明する。
Ｐ：環境計画書を１５部、○○店に設置されているＭＦＰにプリントアウトしてください。
Ｍ：はい、わかりました。
《処理中》
Ｍ：○○店のＭＦＰからを１５部プリントアウトしました。

以上の通り本発明によれば、装置を制御する利用者を特定するために、予め利用者のキーワードの声紋パターンを登録しておき、装置を操作する場合、利用者が登録したキーワードを音声入力することにより、装置の操作許可を得るようにしたので、許可されない利用者による操作を防止することでセキュリティ管理の質を向上させることができる。
また、利用者が音声を入力することにより、音声認識部４によりこの利用者のキーワードを抽出し、キーワードと声紋パターンファイル２ｃに登録されたキーワードとを声紋認証部６により比較し、比較の結果一致した場合、利用者の音声に基づいて操作手順を実行するので、許可されない利用者による操作を防止することができる。

また、声紋認証部６により利用者が認証された場合、音声認識部４により認識された音声に基づいて対話インタプリタ３により対話を解釈し、音声合成部５により合成音を作成して利用者に提供するので、操作の手順を分かり易くすることができる。
また、音声により入力した操作履歴及び印刷物の確認映像を出力する画面生成部と、この画面生成部１２により表示された画面と音声合成部５により合成された音声との同期をとる音声画面同期部１１と、を更に備えたので、音声が認識されないときでも、画面上から操作手順を確認することができる。

また、声紋認証部４により利用者が認証された場合、音声認識部４により認識された音声に基づいて対話インタプリタ３により対話を解釈し、音声合成部５により合成音を作成すると共に、画面生成部１２により操作部の表示画面を作成し、音声画面同期部１１により合成音と表示画面とを同期させて利用者に提供するので、対話形式の合成音が認識されないときでも、画面上から操作手順を確認することができる。
また、利用者がＶＯＩＰゲートウェイ１３を介して音声を入力することにより、声紋認証部６により利用者が特定された場合、音声認識部４により認識された音声に基づいて対話インタプリタ３により対話を解釈し、音声合成部５により合成音を作成して利用者に提供するので、遠隔地からでも複数の情報機器を操作することができる。
また、音声認識部４に入力する音声を断接する音声断接手段を更に備えたので、音声入力のタイミングを利用者が指定することができ、不必要な音声を除外することができる。

本発明の第１の実施形態に係る画像形成装置の要部ブロック図である。本発明の第２の実施形態に係る画像形成装置の要部ブロック図である。本発明の第３の実施形態に係る画像形成装置の要部ブロック図である。本発明の操作表示部の外観構成図である。本発明の第１の実施形態の動作をより詳しく説明するフローチャートである。本発明の第２の実施形態の動作をより詳しく説明するフローチャートである。

符号の説明

２ハードディスク、２ａＸＭＬ文書ファイル、２ｂ音声パターンファイル、２ｃ声紋パターンファイル、３対話インタプリタ、４音声認識部、５音声合成部、６声紋認証部、７ユーザインターフェース、８マイク、９スピーカ、１０操作表示部、１００画像形成装置

Claims

利用者の音声を認識することにより、操作手順を実行する画像形成装置であって、
前記利用者の音声を認識し、認識した音声中からキーワードを抽出する音声認識部と、指定した音声を合成して出力する音声合成部と、声紋の特徴を抽出し登録されている声紋パターンと照合する声紋認証部と、対話を記述した文書を解釈する対話インタプリタと、対話を記述したＸＭＬ文書ファイルと、前記利用者毎に音声をパターン化し、該利用者が利用する毎に更新される音声パターンファイルと、認証された利用者のキーワードをパターン化して登録する声紋パターンファイルと、を備えたことを特徴とする画像形成装置。
前記利用者が音声を入力することにより、前記音声認識部により該利用者のキーワードを抽出し、該キーワードと前記声紋パターンファイルに登録されたキーワードとを前記声紋認証部により比較し、該比較の結果が一致した場合、該利用者の音声に基づいて操作手順を実行することを特徴とする請求項１に記載の画像形成装置。
前記声紋認証部により利用者が認証された場合、前記音声認識部により認識された音声に基づいて前記対話インタプリタにより対話を解釈し、前記音声合成部により合成音を作成して該利用者に提供することを特徴とする請求項１又は２に記載の画像形成装置。
音声により入力した操作履歴及び印刷物の確認映像を出力する画面生成部と、該画面生成部により表示された画面と前記音声合成部により合成された音声との同期をとる音声画面同期部と、を更に備えたことを特徴とする請求項１、２又は３に記載の画像形成装置。
前記声紋認証部により利用者が認証された場合、前記音声認識部により認識された音声に基づいて前記対話インタプリタにより対話を解釈し、前記音声合成部により合成音を作成すると共に、前記画面生成部により操作部の表示画面を作成し、前記音声画面同期部により前記合成音と前記表示画面とを同期させて該利用者に提供することを特徴とする請求項４に記載の画像形成装置。
インターネット及びイントラネットなどのＴＣＰ／ＩＰネットワークを使って音声データを送受信するＶＯＩＰゲートウェイを更に備え、前記利用者が前記ＶＯＩＰゲートウェイを介して音声を入力することにより、前記声紋認証部により利用者が認証された場合、前記音声認識部により認識された音声に基づいて前記対話インタプリタにより対話を解釈し、前記音声合成部により合成音を作成して該利用者に提供することを特徴とする請求項１乃至５の何れか一項に記載の画像形成装置。
前記音声認識部に入力する音声を断接する音声断接手段を更に備えたことを特徴とする請求項１乃至６の何れか一項に記載の画像形成装置。