JP2004077601A - 音声入力機能を有する稼働装置 - Google Patents

音声入力機能を有する稼働装置 Download PDF

Info

Publication number
JP2004077601A
JP2004077601A JP2002234939A JP2002234939A JP2004077601A JP 2004077601 A JP2004077601 A JP 2004077601A JP 2002234939 A JP2002234939 A JP 2002234939A JP 2002234939 A JP2002234939 A JP 2002234939A JP 2004077601 A JP2004077601 A JP 2004077601A
Authority
JP
Japan
Prior art keywords
data
voice
sound
unit
sound data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002234939A
Other languages
English (en)
Inventor
Yasuhiko Yamaguchi
山口 恭彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2002234939A priority Critical patent/JP2004077601A/ja
Publication of JP2004077601A publication Critical patent/JP2004077601A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Control Or Security For Electrophotography (AREA)

Abstract

【課題】動作音が発生する装置において音声入力による操作指令をできるだけ誤りなく行うことを可能にする。
【解決手段】音声入力部23と、音声認識部24と、音声認識結果に基づいて操作指令を特定する操作指令特定部25と、特定された操作指令に基づいて装置の動作を制御する制御部と、動作音を動作シーケンスに関連付けて記憶する動作音データ記憶部260とを有している。音声認識部24は、動作シーケンス情報に基づいて対応する動作音データを動作音データ記憶部から取出し、該動作音データに基づいて前記音データから音声データを抽出して音声認識を行う。
【効果】動作によって異なる動作音が発生したり、動作音が刻々と変化する場合にも、高精度で入力音声の認識を行って確実に操作の指令を行うことできる。
【選択図】    図4

Description

【0001】
【発明の属する技術分野】
本発明は、非健常者に対しても操作性が問題とならず、音声入力によって複合機、画像形成装置、MFP、ファクシミリ、複写機、コピー等の操作指令を可能とする音声入力機能を有する稼働装置に関するものである。
【0002】
【従来の技術】
画像形成装置等の各種装置を動作させる際には、手動で操作パネルや操作スイッチを操作して装置への操作指令を行うのが一般的である。また、最近では、このような操作が困難な非健常者に対しても音声入力によって操作を可能としたユニバーサルデザインの機器も提供されるようになっている。
上記のように音声入力による操作指令を可能とする装置では、図7に示すように、一般に、操作者の音声を入力するマイクロホン1と該マイクロホン1で得られる信号をA/D変換するA/D変換部2とにより音声入力部が構成されている。該音声入力部で取得された音声データは音声認識部3に送られる。音声認識部3には音声データが記憶された音声データ記憶部4が備えられている。音声認識部3では、音声データ記憶部4に記憶された音声データを用いて入力音声データから入力音声を認識する。認識結果は操作指令特定部5に送られる。該操作指令特定部5には指令に関するデータが記憶された操作指令データ記憶部6が備えられている。操作指令特定部5では、上記認識結果に基づいて操作指令データ記憶部6に記憶された操作指令データを取り出して音声入力による操作指令を特定する。特定された操作指令は、制御部7に送られる。該制御部7では、操作指令内容に従って装置本体を制御して動作させる。すなわち、この装置では、対応する指令データを記憶させておくことにより音声入力に従って所望の操作指令を行うことができる。
【0003】
また、音声入力の適切化を図るため、距離検知手段によって携帯情報端末装置と使用者との距離を検知し、検知した距離に応じて音声入力装置の音声入力感度を調整するものが提案されている(特開平11−305984号)。この調整方法を上記画像形成装置等に適用して、より適切な音声入力を可能にすることもできる。
【0004】
ところで、上記した入力音声の認識では、装置の周辺で騒音が発生していると、操作者が発生した音声に周囲の騒音が取り込まれた状態でマイクロホン等に入力されるため、この騒音によって入力音声の認識率が低下するという問題がある。特に画像形成装置のように稼働部分を有する装置では、稼働に伴って動作音が発生し、この動作音が音声とともに取り込まれることで音声認識率を一層低下させる。上記のような距離に応じた調整方法では、音声感度とともに騒音の感度も調整されてしまうので、音声の認識率を高めることは困難である。
そこで、予測される動作音等の騒音をデータ化しておき、この騒音データをマイクロホン等で入力した音データから除外するようにして音声の認識率を向上させる方法が提案されている。
【0005】
【発明が解決しようとする課題】
上記のように騒音データを除外する方法では、定量的な騒音の場合には、適切な騒音データを記憶しておくことにより、音声の認識率も相当に改善することが期待される。しかし、画像形成装置でコピーやプリンタ、スキャナ動作を実施しているような場合、装置は一連のプロセスシーケンスに従って動作しており、給紙やドラム駆動等の動作が順次行われる。この動作に際しては給紙時の紙捌き音やドラム駆動のモータ音等の動作音が強弱変化したり異なる動作音として発生する。このため、動作シーケンスに従って動作音が発生する稼働装置では、上記のようにして騒音データを除外する従来の方法によっても音声認識の精度を十分に高めることができず、操作者が発声する音声の誤認識が発生してしまうという問題がある。
【0006】
本発明は、上記事情を背景としてなされたものであり、動作シーケンスに従って稼働する装置において音声入力による操作指令を高精度に認識して実行することを可能にする、音声入力機能を有する稼働装置を提供することを目的とする。
【0007】
【課題を解決するための手段】
上記課題を解決するため本発明の音声入力機能を有する稼働装置のうち請求項1記載の発明は、操作者の発声に基づく音声入力により操作指令を可能とするとともに、装置が動作シーケンスに伴って稼働する際に発生する動作音を予め動作音データとしてデータ化しておき、前記入力音声を認識して操作指令を判別する際に、動作シーケンスに対応する前記動作音データを参照して前記音声入力において取得された音データから音声データを抽出し、該音声データに基づいて入力音声を認識することを特徴とする。
【0008】
請求項2記載の音声入力機能を有する稼働装置の発明は、操作者の発声に基づく音声を入力する音声入力部と、該音声入力部で得られた音データに基づいて音声を認識する音声認識部と、該音声認識部で得られた認識結果に基づいて操作指令を特定する操作指令特定部と、該操作指令特定部で特定された操作指令に基づいて装置の動作を制御する制御部と、該制御部により制御される動作シーケンスに従って発生する動作音を、予め前記動作シーケンスに関連付けて記憶しておく動作音データ記憶部とを有しており、前記音声認識部では、前記制御部から与えられる動作シーケンス情報に基づいて対応する動作音データを前記動作音データ記憶部から取出し、取り出された動作音データに基づいて前記音データから音声データを抽出して入力音声の認識を行うことを特徴とする。
【0009】
請求項3記載の音声入力機能を有する稼働装置の発明は、請求項2記載の発明において、前記動作音データ記憶部は、一つの仕向地に対応する動作音データを一群として、複数の仕向地に応じて複数の動作音データ群が記憶されていることを特徴とする。
【0010】
請求項4記載の音声入力機能を有する稼働装置は、請求項3記載の発明において、前記音声認識部は、音声情報と関連付けて音声データを記録した音声データ記録部を備えているとともに、音声入力部で入力された音声データと、前記音声データ記録部に記録された記録音声データとを照合し、適合する記録音声データを判別してこれに関連する音声情報から入力音声を認識するものであることを特徴とする。
【0011】
請求項5記載の音声入力機能を有する稼働装置は、請求項4記載の発明において、前記音声データ記憶部には、一つの言語に対応する音声データを一群として、複数の言語に応じて複数の音声データ群が記憶されていることを特徴とする。
【0012】
請求項6記載の音声入力機能を有する稼働装置の発明は、請求項2〜5のいずれかに記載の発明において、前記音声認識部での音声認識が不可であった場合に、操作者に通知する認識不可通知手段を有することを特徴とする。
【0013】
請求項7記載の音声入力機能を有する稼働装置の発明は、請求項2〜6のいずれかに記載の発明において、前記操作指令特定部での操作指令の特定内容が不正であった場合に、操作者に通知する指令不可通知手段を有することを特徴とする。
【0014】
請求項8記載の音声入力機能を有する稼働装置は、請求項1〜7のいずれかに記載の発明において、前記動作音データは、一連の動作シーケンスに対応して時間変化に対しデータが変化するものであることを特徴とする。
【0015】
請求項9記載の音声入力機能を有する稼働装置は、請求項1〜8のいずれかに記載の音声入力機能を有する稼働装置において、前記動作音データが、音量に関するものであることを特徴とする。
【0016】
請求項10記載の音声入力機能を有する稼働装置は、請求項1〜9のいずれかに記載の音声入力機能を有する稼働装置において、前記動作音データが、音質に関するものであることを特徴とする。
【0017】
請求項11記載の音声入力機能を有する稼働装置は、請求項1〜10のいずれかに記載の発明において、前記音データから音声データを抽出する際には、前記音データから前記動作音データを除去して音声データとすることを特徴とする。
【0018】
請求項12記載の音声入力機能を有する稼働装置は、請求項1〜11のいずれかに記載の発明において、前記音データから音声データを抽出する際には、前記音データと前記動作音データとの差分を音声データとすることを特徴とする。
【0019】
請求項13記載の音声入力機能を有する稼働装置は、請求項1〜12のいずれかに記載の発明において、前記音データから音声データを抽出する際には、前記音データの内、動作音データに相当するデータ分を相対的に低量化して音声データとすることを特徴とする。
【0020】
請求項14記載の音声入力機能を有する稼働装置は、請求項1〜13のいずれかに記載の発明において、画像形成部を備えることを特徴とする。
【0021】
請求項15記載の音声入力機能を有する稼働装置は、請求項1〜14のいずれかに記載の発明において、音声認識に際しての音データの調整量を表示する調整量表示部を備えることを特徴とする。
【0022】
請求項16記載の音声入力機能を有する稼働装置は、請求項1〜15に記載の発明において、装置近傍で発生する音を検知する周囲音検知手段を備え、該周囲音検知手段によって得られた周囲音データから周囲の騒音データを取得し、該騒音データを前記動作音データとともに参照して前記音データから音声データを抽出することを特徴とする。
【0023】
請求項17記載の音声入力機能を有する稼働装置は、請求項16記載の発明において、前記騒音データと前記動作音データとを参照する際に、騒音データに含まれる動作音に関するデータ分を除外することを特徴とする。
【0024】
すなわち本発明によれば、シーケンス動作に伴って発生する動作音に関する動作音データが予め記憶されているので、音声入力に際し、動作シーケンスに従って記録されている動作音データを取出し、この動作音データを用いて音声入力により得た音データから音声データを抽出し、音声認識を行う。この音声認識に際しては動作シーケンスに従って刻々と変化する動作音データが参照されるので、音データから排除すべき騒音分を動作シーケンス情報に従って正確に把握して音声データを抽出することができ、音声認識精度が大幅に向上して装置に対する的確な操作指令を実行することができる。
【0025】
なお、本発明で対象とされる稼働装置は、代表的には、複合機、画像形成装置、MFP、ファクシミリ、複写機、コピー等の画像形成部を備えるものを示すことができる。これら装置では、画像形成部を含めた各部の動作において種々の動作音が発生しており、しかも動作音は刻々変化することもあり、従来の音声入力方法では精度の高い音声認識が困難であったものである。ただし、本発明としては適用される装置が上記に限定されるものではなく、動作シーケンスに従って動作し、稼働時に予測可能な動作音が発生するとともに、動作シーケンス情報が得られる装置であれば広く適用可能である。
【0026】
動作シーケンスに従って発生する動作音データは、音声入力認識の精度を向上させるために、予め動作シーケンスに従った動作状態、動作音を検知/認識しておき、動作シーケンスに関連付けて、種々の記憶手段に読み出し可能に記憶しておく。なお、記憶手段は特に限定されるものではなく、ハードディスク、フラッシュメモリ等、適宜の記憶手段に記憶させておけばよい。また、ネットワークを介してデータが提供されるものでもよい。
【0027】
動作音データの記憶に際しては、例えば、画像形成プロセス等の動作時に発生する騒音レベルを時間軸にてTable化して、そのTable値から参照する可変騒音レベルにより、音データから音声データを抽出する際の調整量を可変にする。動作音データとしては、音量に関しデータ化したものでもよいが、発生する騒音は、音量のみでなく、音の高低や音質も特有なものがあるため、これらの特性まで含めて動作音データとしてデータ化することも可能である。
前記動作音データは、仕向地毎に動作音データ群を設定して、仕向地に応じて一つの動作音データ群を選定するようにしてもよい。また、仕向地毎の動作音群データをホストやフラッシュメモリ等に用意しておき、仕向地に合わせて必要な動作音データ群を選定し、該群に含まれる動作音データを利用するようにしてもよい。
【0028】
音声データを抽出する際の調整方法の一つとしては、音データから動作音データを除去して、残余を音声データとする方法が挙げられる。また、他の方法としては、音データと動作音データとの差分を音声データとする方法が挙げられる。さらに、音データの内、動作音データに相当するデータ分を相対的に低量化して音声データを抽出することもできる。ただし、本発明としては、音声データの抽出方法が上記に限定されるものではなく、動作シーケンスに従って刻々と変化する動作音データによって調整量を定め、動作シーケンスに従って変化する該調整量によって効果的に音データから音声データを抽出できるものであればよい。したがって、動作音の性質等によって各方法で抽出効果が異なるような場合には、動作音によってより抽出効果が高い方法を選定すればよい。また、一つの稼働装置において、複数の動作シーケンスを有する場合、該動作シーケンスの内容によって異なる抽出方法を採択することもできる。
【0029】
また、上記音声データの抽出に際しては、装置近傍で発生する音を検知する周囲音検知手段を設け、該検知手段によって得られた周囲音データから周囲の騒音データを取得し、該騒音データを前記動作音データとともに参照して認識精度を改善することもできる。この方法によれば、装置の動作音以外の周囲の騒音も音データから排除できるので、認識精度の向上が期待できる。
なお、騒音データに動作音に関するデータ分も含まれるような場合には、騒音データから動作音データ分を除外することで動作音データが重複して排除されるのを避けることができる。
【0030】
なお、本発明で音声を入力する手段としては、従来公知の音声入力部を用いることができる。該音声入力部は、通常、マイクロホン等の音入力を行う機器と、得られた音をA/D変換するA/D変換部とを有している。なお、音声が入力されるマイクロホン等の音入力機器は、動作音が発生する原稿送り装置、操作ブザー等の近傍をさけて、設置する方が良い。
なお、音声入力を行う際には、上記動作音データによる調整量をレベル表示することにより、操作者に注意を喚起することができる。操作者は、調整量が大きい場合には、入力音声が勝るように十分に大きな音量で発音したり明瞭に発声することにより認識精度を上げることができる。一方、調整量がそれ程大きくない場合には、通常の音量で音声入力をしても高い認識精度が得られるため、必要以上の配慮をして、大きな声等で音声入力を行う必要がない。
【0031】
上記構成により音声入力部でデジタル音信号が得られる。該デジタル音信号は、上記のように動作音データを参照して音声データが抽出され、該音声データに対し認識処理がなされ、入力音声が認識される。認識処理に際しては、予め音声情報と関連付けて音声データを記憶しておき、入力音声データと照合することにより合致する音声データを探知し、これに関連付けた音声情報から入力音声の認識を行うことができる。なお、記録された音声データに合致するか否かは、正にデータが合致する場合の他、所定の類似度で両データが類似する場合にも合致するものと判定することができる。類似度は、誤認識の程度等を勘案して適宜定めることができる。また、各種レベルをユーザーが設定できるような構成とすることもできる。
【0032】
なお、音声データは複数の言語に対応できるように、前記音声データ記憶部には、一つの言語に対応する音声データを一群として、複数の音声データ群を記憶しておくこともできる。音声データ群は操作者が選択してもよく、また、仕向地に応じて使用する音声データ群を設定しておいてもよい。
さらに複数の言語に応じて音声データ群をホスト等、フラッシュメモリに用意しておき、該ホスト等から必要な音声データ群が得られるようにしてもよい。
【0033】
入力音声を認識した後、認識結果に基づいて操作指令が特定される。認識結果は音声情報として得られるものでもよく、また文字情報に変換したものであってもよく、要は入力音声に対応する情報が得られるものであればよい。操作指令の特定では、認識結果で用いられる情報に対応する形で操作指令内容データを記憶しておき、認識結果に基づいて対応する操作指令データを検索して操作指令を決定することができる。操作指令データは、全ての操作指令に対応するものでもよく、また、音声入力を許容する一部の操作指令に対応するものでもよい。
操作指令を特定した後は、特定された操作指令に基づいて装置の動作制御がなされる。操作指令は、装置を稼働させる指令であってもよく、また稼働のための設定等を行う指令であってもよい。
【0034】
上記音声認識において不明瞭な発声や雑音の混入によって、音声認識が正常に行われなかったときや、操作指令の特定が不可であったときに、装置の表示部に不可情報を表示したり、LEDの点滅で操作者への通知を実施することが可能である。これにより操作者は、指令が実行されなかった原因を知って適切な対応を行うことができる。また、音声認識が正常に行われない可能性が高いような環境では、予め、その旨を表示しても良い。
【0035】
【発明の実施の形態】
以下に、本発明の一実施形態を説明する。この実施形態では、稼働装置として画像形成装置に適用する場合について説明する。
図1は、本発明の画像装置をブロック図で示すものであり、図2は、操作部およびタッチパネルを含む操作パネルを示す図であり、図3は、タッチパネルに表示された画面の一例を示すものである。
【0036】
画像形成装置10は、該装置の各部を制御するCPU11を備えており、該CPU11は、フラッシュロム12に格納されたプログラムによって定められた手順に従って動作する。また画像形成装置10は、手動で操作指令を行うための操作部13と各種情報を表示するためのLCD14とを有している。前記操作部13は、図2に示すように画像形成装置10の前面操作パネルに設けられた操作キー群13aとタッチパネル14aとで構成されており、タッチパネル14aはLCD14上で入力を可能とするものである。すなわちタッチパネル14aは、図3に示すように、適宜のメッセージ、設定内容等の表示が可能になっているとともに、手動で操作指令を行うことができるようにタッチ入力が可能になっている。LCD14上の表示内容は、上記CPU11から与えられ、操作部13による入力情報はCPU11に送られて、所定の処理がなされる。
【0037】
また、画像形成装置10は、原稿読み取り部15を有しており、上記CPU11に接続されている。該原稿読み取り部15は、上記CPU11により制御されつつ原稿を読み取り、画像データを得る手段である。この原稿読み取り部15は、一般に、原稿台に置かれた原稿に光照射して、反射光をCCDで受けて画像データを得るものであり、所望によりADF(自動原稿送り装置)を備えることもできる。また、画像形成装置10は、不揮発RAM16を備えており、該不揮発RAM16には、画像読み取り条件等、画像形成装置10の動作において必要な設定事項が記憶されており、該記憶内容は書き換え可能になっている。CPU11は、上記原稿の読み取りに際し、不揮発RAM16から設定事項を読み出し、操作指令によって設定事項に変更がなければ、この読み出された設定事項に従って原稿の読み取りを行う。原稿読み取り部15で読み取られた画像データは、RAM17に一時保存される。また上記画像データは、所望により後述するハードディスク26に記録することもできる。
【0038】
また、画像形成装置10は、CPU11で制御される画像形成部18を備えている。この実施形態の画像形成部18は、上記原稿読み取り部15で得た画像データに対し必要に応じて適宜の信号処理を行い、このデータに基づいて電子写真プロセスにより画像を形成するものである。画像形成部18は、一般に、画像データに基づいて潜像させる感光体ドラムを備えている。該潜像は、レーザ書き込みにより感光体ドラムを露光することにより行われる。
【0039】
さらに画像形成装置10は、上記感光体ドラムに形成された潜像(トナー像)を転写するための転写部19を備えている。該転写部19では、搬送されてくる記録紙に前記感光体ドラムからトナー像を転写し、該記録紙を感光体ドラムから分離した後、記録紙上のトナー像を定着させる動作を行う。
給紙部20は、複数枚の記録紙を積層状態で格納しておいて、必要に応じて上記転写部19に記録紙を供給するものである。なお、給紙部20を複数備え、それぞれにサイズの異なる用紙を格納するものであってもよい。
【0040】
ネットワーク制御部21は、LANインターフェースを備え、所定の通信プロトコルによりLANとの通信を行うように構成されている。
FAX制御部22は、モデムを備え、所定の通信プロトコルにより電話回線を通じた通信を行うように構成されている。
【0041】
さらに画像形成装置10は、音声入力部23と音声認識部24と操作指令特定部25を備えている。該音声入力部23は、図4に示すように音声を入力するマイクロホン230とマイクロホン230で得たアナログ音信号をデジタル音信号に変換するA/D変換部231とを備えている。なお、マイクロホン230は、図2に示すように操作パネルの適所に設けることができ、これにより音声入力による処理状況をタッチパネル14aの表示を通して容易に知ることができる。
【0042】
音声認識部24は、音声入力部で得た音データから入力音声を認識するものであり、前記したCPU11とプログラムとによって構成することができる。またハードディスク26には動作音データベース260と音声データ261ベースとが設けられている。動作音データベース260では、動作シーケンスに関連付けて動作音データが記録されており、音声データベース261では、音声情報に関連付けて音声データベースが記録されている。すなわちハードディスク26は、音声データ記憶部および動作音データ記憶部の役割を有している。音声認識部24は、音声データ抽出部240と音声データ認識部241とを有している。音声データ抽出部240は、ハードディスク26にアクセスして動作音データベース260から動作音データを取り出すことができ、音声データ認識部241は、ハードディスク26にアクセスして音声データベース261から音声データを取り出すことができるように構成されている。
【0043】
操作指令特定部25は、音声認識部24で認識された入力音声に基づいて操作指令を特定するものであり、前記したCPU11とプログラムとによって構成することができる。またハードディスク26には操作指令を特定するため操作指令データベース262が設けられている。該操作指令データベース262では、音声情報に関連付けて操作指令データが記憶されている。すなわちハードディスク26は、操作指令データ記憶部の役割を有している。操作指令特定部25で特定された操作指令は、CPU11によって所定の操作制御がなされる。
【0044】
また、画像形成装置10は、上記音声データ抽出部240で動作音データによって音データを調整する際の調整量を示すことができる調整量LED30が、前記した操作パネルに設けられている。この実施形態の調整量LED30は、調整量が所定値以上(動作音データの排除分が大きい)になった際に点灯して調整量が大きいことを示すようにされている。
【0045】
次に、上記画像形成装置10において音声入力によって操作指令を行う際の手順を図5のフローチャート図を参照しつつ説明する。
画像形成装置10では、図3に示すように、初期画面が表示されており、初期設定事項が網掛けで表示されている。
この状態で音声入力によって「ゲンコウヨミコミ」を実行したり、設定内容を変更するために「サイズエーヨン」等の設定変更を行うことができる。音声入力可能な指令事項は、手動で操作可能のものの全てを対象にすることもでき、また、特定の指令事項のみ音声入力で操作可能としてもよい。
操作者は、必要に応じて音声入力を行う。この際に、画像形成装置10において誤入力が生じないように、「オンセイニュウリョク」等の開始コマンドを音声で指示することを必須にしておくこともできる。
【0046】
画像形成装置10で音声入力を検知すると、音声入力による操作指令タスクが実行される。
操作者が発生した音声は、マイクロホン230で感知され入力音に対応してアナログ音信号が生成される。該アナログ信号は、A/D変換部231でデジタル化され、音データが音声認識部24へと送られる。音声認識部24では、CPU11から与えられる動作シーケンス情報が取得されている。該動作シーケンス情報は、動作の内容情報と、シーケンスの進行情報とからなり、進行情報は刻々と変化しつつ音声認識部24で取得されている。音声認識部24の音声データ抽出部240では、上記動作シーケンス情報に従って動作音データベース260から動作音データが読み出される。この際には、動作シーケンスの内容に従って刻々と変化する一連の動作音データを取得すればよい。そして、音声データ抽出部240では、上記動作シーケンスの進行情報に従って、該進行情報に合致する動作音データを抽出する。音声データ抽出部240では、この動作音データを参照して音データを調整して音声データを抽出する。音データの調整は、この実施形態では動作音データを音量および音質の観点から除去する方法により行う。このときの調整量が大きい(相対的に動作音データ分が大きくなっている状態)場合、所定値を超えると前記した調整量LED30を点灯させて操作者に注意を促す。
【0047】
また、動作シーケンス情報に従えば、動作音の発生を無視できる状態(動作音がないか、ごく小さい動作音である場合)では、動作音データの参照を行わず、音データをそのまま音声データとして音声データ認識部241に受け渡すこともできる。
音声データ抽出部240で抽出された音声データは、次いで音声データ認識部241に送られる。音声データ認識部241では、得られた音声データを基に、音声データベース261から類似する音声データを検索する。この検索に際しては、例えば音声データをパラメータ化して、適宜の類似度を有するものを見出すようにして行うことができる。ただし、本発明としては検索方法が特に限定されるものではない。
【0048】
上記検索によって、合致する音声データが見出された場合には、該音声データに関連する音声情報を認識結果として操作指令特定部25に送出する。一方、認識が不可であった場合には、不可通知部27に不可結果を伝える。不可通知部27では、音声認識ができなかったことを操作者に通知する。通知方法は特に限定されないが、例えばブザーによって通知したり、前記LCD14に不可結果を表示したり、LEDの点滅で通知したりする。認識が不可である場合には、再度、音声入力を行うこともできる。適正に認識結果が得られた場合、操作指令特定部25は認識結果を受けて操作指令を特定する。すなわち、認識結果を基に、操作指令特定データベース262から操作指令データを検索する。検索の結果、適正な操作指令データが見出された場合、該データに基づいて操作指令が特定され、該操作指令がCPU11に対し発行される。また、操作指令データベース262で、合致する操作指令データが見出されない場合、上記と同様に不可通知部27に特定不可通知が伝えられる。操作指令の特定が不可な場合としては、許容されない操作指令がなされた場合が挙げられる。不可通知部27では、操作指令が特定されなかったことを上記認識不可通知と同様に操作者に通知する。
【0049】
操作指令の発行がなされると、画像形成装置10では、手動で操作がなされたときと同様にCPU11で操作制御がなされ、設定の変更がなされたり、所定の動作の実行がなされたりする。例えば図3の表示画面では、設定事項の変更に関する指令がなされた場合には、手動で操作した場合と同様に設定が変更された事項に網掛け表示がなされるように、表示の変更がなされる。
また、所定の動作を指令する場合には、上記した原稿読み取りや画像形成等がなされ、また、LANとの通信を制御する指令においては、ネットワーク制御部21を介して所望の通信がなされる。また、FAXに関する操作指令がなされる場合には、上記原稿読み取りがなされたり、FAX制御部22および電話回線を介してデータの送受信がなされる。
【0050】
なお、この実施形態では、稼働装置として画像形成装置について説明したが、本発明の稼働装置が該画像形成装置に限定されないことは勿論であり、画像形成部を有していない他の稼働装置においても同様に音声入力による操作指令を行うことができる。また、この実施形態では、手動による操作部を備える装置について説明したが、本発明としては手動による操作指令を行わず、音声入力による操作指令のみを行う装置を対象とするものであってもよい。
【0051】
また、上記実施形態では説明していないが、画像形成装置に周囲音を検知するマイクロホンを図6に示すように設けることもできる。該マイクロホン280は、音声入力用の前記マイクロホン230からは離して音声が入り込まないようにするのが望ましい。これにより騒音をより多く取り込んだ騒音データを得ることができる。該音とデータはA/D変換部281で変換され、上記音声データ抽出部240に送られる。音声データ抽出部240では、音声データの抽出に際し、騒音データを除去することにより音声データの抽出をより精度よく行うことができる。なお、騒音には動作音も含まれていることから、騒音データから動作音データ音を除去した分について、上記音データから除去するのが望ましい。
【0052】
【発明の効果】
以上説明したように、本発明の音声入力機能を有する稼働装置によれば、操作者の発声に基づく音声入力により操作指令を可能とするとともに、装置が動作シーケンスに伴って稼働する際に発生する動作音を予め動作音データとしてデータ化しておき、前記入力音声を認識して操作指令を判別する際に、動作シーケンスに対応する前記動作音データを参照して前記音声入力において取得された音データから音声データを抽出し、該音声データに基づいて入力音声を認識するので、動作によって異なる動作音が発生したり、動作音が刻々と変化する場合にも、該動作音を除いた音声データを抽出して高い精度で入力音声の認識を行って確実に操作指令を行うことができる。
【図面の簡単な説明】
【図1】本発明の一実施形態の画像形成装置を示すブロック図である。
【図2】同じく操作パネルを示す図である。
【図3】同じくタッチパネルの表示画面の一例を示す図である。
【図4】同じく音声入力による操作指令タスクを行うブロック図である。
【図5】同じく音声入力による操作指令タスクを示すフローチャート図である。
【図6】本発明の他の実施形態の音声入力による操作指令タスクを行うブロック図である。
【図7】従来の音声入力機能付き画像形成装置を示すブロック図である。
【符号の説明】
10  画像形成装置
11  CPU
12  フラッシュロム
13  操作部
14  LCD
15  原稿読み取り部
16  不揮発RAM
17  RAM
18  原稿形成部
19  転写部
20  給紙部
21  ネットワーク制御部
22  FAX制御部
23  音声入力部
230 マイクロホン
24  音声認識部
240 音声データ抽出部
241 音声データ認識部
25  操作指令特定部
26  ハードディスク
27  マイクロホン
30  調整量LED
260 動作音データベース
261 音声データベース
262 操作指令データベース

Claims (17)

  1. 操作者の発声に基づく音声入力により操作指令を可能とするとともに、装置が動作シーケンスに伴って稼働する際に発生する動作音を予め動作音データとしてデータ化しておき、前記入力音声を認識して操作指令を判別する際に、動作シーケンスに対応する前記動作音データを参照して前記音声入力において取得された音データから音声データを抽出し、該音声データに基づいて入力音声を認識することを特徴とする音声入力機能を有する稼働装置。
  2. 操作者の発声に基づく音声を入力する音声入力部と、該音声入力部で得られた音データに基づいて音声を認識する音声認識部と、該音声認識部で得られた認識結果に基づいて操作指令を特定する操作指令特定部と、該操作指令特定部で特定された操作指令に基づいて装置の動作を制御する制御部と、該制御部により制御される動作シーケンスに従って発生する動作音を、予め前記動作シーケンスに関連付けて記憶しておく動作音データ記憶部とを有しており、前記音声認識部では、前記制御部から与えられる動作シーケンス情報に基づいて対応する動作音データを前記動作音データ記憶部から取出し、取り出された動作音データに基づいて前記音データから音声データを抽出して入力音声の認識を行うことを特徴とする音声入力機能を有する稼働装置。
  3. 前記動作音データ記憶部は、一つの仕向地に対応する動作音データを一群として、複数の仕向地に応じて複数の動作音データ群が記憶されていることを特徴とする請求項2記載の音声入力機能を有する稼働装置。
  4. 前記音声認識部は、音声情報と関連付けて音声データを記録した音声データ記録部を備えているとともに、音声入力部で入力された音声データと、前記音声データ記録部に記録された記録音声データとを照合し、適合する記録音声データを判別してこれに関連する音声情報から入力音声を認識するものであることを特徴とする請求項3記載の音声入力機能を有する稼働装置。
  5. 前記音声データ記憶部には、一つの言語に対応する音声データを一群として、複数の言語に応じて複数の音声データ群が記憶されていることを特徴とする請求項4記載の音声入力機能を有する稼働装置。
  6. 前記音声認識部での音声認識が不可であった場合に、操作者に通知する認識不可通知手段を有することを特徴とする請求項2〜5のいずれかに記載の音声入力機能を有する稼働装置。
  7. 前記操作指令特定部での操作指令の特定内容が不正であった場合に、操作者に通知する指令不可通知手段を有することを特徴とする請求項2〜6のいずれかに記載の音声入力機能を有する稼働装置。
  8. 前記動作音データは、一連の動作シーケンスに対応して時間変化に対しデータが変化するものであることを特徴とする請求項1〜7のいずれかに記載の音声入力機能を有する稼働装置。
  9. 前記動作音データが、音量に関するものであることを特徴とする請求項1〜8のいずれかに記載の音声入力機能を有する稼働装置。
  10. 前記動作音データが、音質に関するものであることを特徴とする請求項1〜9のいずれかに記載の音声入力機能を有する稼働装置。
  11. 前記音データから音声データを抽出する際には、前記音データから前記動作音データを除去して音声データとすることを特徴とする請求項1〜10のいずれかに記載の音声入力機能を有する稼働装置。
  12. 前記音データから音声データを抽出する際には、前記音データと前記動作音データとの差分を音声データとすることを特徴とする請求項1〜11のいずれかに記載の音声入力機能を有する稼働装置。
  13. 前記音データから音声データを抽出する際には、前記音データの内、動作音データに相当するデータ分を相対的に低量化して音声データとすることを特徴とする請求項1〜12のいずれかに記載の音声入力機能を有する稼働装置。
  14. 画像形成部を備えることを特徴とする請求項1〜13のいずれかに記載の音声入力機能を有する稼働装置。
  15. 音声認識に際しての音データの調整量を表示する調整量表示部を備えることを特徴とする請求項1〜14のいずれかに記載の音声入力機能を有する稼働装置。
  16. 装置近傍で発生する音を検知する周囲音検知手段を備え、該周囲検知手段によって得られた周囲音データから周囲の騒音データを取得し、該騒音データを前記動作音データとともに参照して前記音データから音声データを抽出することを特徴とする請求項1〜15に記載の音声入力機能を有する稼働装置。
  17. 前記騒音データと前記動作音データとを参照する際に、騒音データに含まれる動作音に関するデータ分を除外することを特徴とする請求項16記載の音声入力機能を有する稼働装置。
JP2002234939A 2002-08-12 2002-08-12 音声入力機能を有する稼働装置 Pending JP2004077601A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002234939A JP2004077601A (ja) 2002-08-12 2002-08-12 音声入力機能を有する稼働装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002234939A JP2004077601A (ja) 2002-08-12 2002-08-12 音声入力機能を有する稼働装置

Publications (1)

Publication Number Publication Date
JP2004077601A true JP2004077601A (ja) 2004-03-11

Family

ID=32019606

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002234939A Pending JP2004077601A (ja) 2002-08-12 2002-08-12 音声入力機能を有する稼働装置

Country Status (1)

Country Link
JP (1) JP2004077601A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109545221A (zh) * 2019-01-23 2019-03-29 努比亚技术有限公司 参数调整方法、移动终端及计算机可读存储介质
JP2020064197A (ja) * 2018-10-18 2020-04-23 コニカミノルタ株式会社 画像形成装置、音声認識装置、及びプログラム
JP2020071370A (ja) * 2018-10-31 2020-05-07 京セラドキュメントソリューションズ株式会社 動作モード制御システム及び画像形成装置
JP2020095091A (ja) * 2018-12-10 2020-06-18 コニカミノルタ株式会社 音声認識装置、画像形成装置、音声認識方法よび音声認識プログラム
JP2020202514A (ja) * 2019-06-12 2020-12-17 コニカミノルタ株式会社 画像形成装置、及び、画像形成装置の制御方法
US11375071B2 (en) 2019-09-27 2022-06-28 Konica Minolta, Inc. Speech setting system, non-transitory computer-readable recording medium having speech setting assistance program stored thereon, and speech setting assistance device

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020064197A (ja) * 2018-10-18 2020-04-23 コニカミノルタ株式会社 画像形成装置、音声認識装置、及びプログラム
JP2020071370A (ja) * 2018-10-31 2020-05-07 京セラドキュメントソリューションズ株式会社 動作モード制御システム及び画像形成装置
JP7230435B2 (ja) 2018-10-31 2023-03-01 京セラドキュメントソリューションズ株式会社 動作モード制御システム及び画像形成装置
JP2020095091A (ja) * 2018-12-10 2020-06-18 コニカミノルタ株式会社 音声認識装置、画像形成装置、音声認識方法よび音声認識プログラム
CN109545221A (zh) * 2019-01-23 2019-03-29 努比亚技术有限公司 参数调整方法、移动终端及计算机可读存储介质
CN109545221B (zh) * 2019-01-23 2024-03-19 努比亚技术有限公司 参数调整方法、移动终端及计算机可读存储介质
JP2020202514A (ja) * 2019-06-12 2020-12-17 コニカミノルタ株式会社 画像形成装置、及び、画像形成装置の制御方法
JP7275880B2 (ja) 2019-06-12 2023-05-18 コニカミノルタ株式会社 画像形成装置、及び、画像形成装置の制御方法
US11375071B2 (en) 2019-09-27 2022-06-28 Konica Minolta, Inc. Speech setting system, non-transitory computer-readable recording medium having speech setting assistance program stored thereon, and speech setting assistance device

Similar Documents

Publication Publication Date Title
JP2009116841A (ja) 入力装置
JP2001274969A (ja) 画像処理装置
JP6776639B2 (ja) 情報処理システム、電子機器、情報処理装置、情報処理方法、電子機器処理方法、及びプログラム
JP2018046416A (ja) 情報処理装置及びプログラム
JP2007102012A (ja) 画像形成装置
US20040088165A1 (en) Information processing apparatus and method
US20200249883A1 (en) Image forming apparatus, image forming system, and information processing method
US20200341728A1 (en) Information processing system and non-transitory recording medium
JP5343652B2 (ja) 操作画面制御装置、画像形成装置、およびコンピュータプログラム
JP2019215485A (ja) 画像形成装置、画像形成システム、制御方法および制御プログラム
JP2010147624A (ja) 通信装置、検索処理方法および検索処理プログラム
JP7263869B2 (ja) 情報処理装置及びプログラム
JP2004077601A (ja) 音声入力機能を有する稼働装置
US10606531B2 (en) Image processing device, and operation control method thereof
JP2011193139A (ja) 画像形成装置
JP2006184722A (ja) 自己診断機能を備えた画像形成装置
JP2020062796A (ja) 画像処理装置、操作制御方法及び操作制御プログラム
US7890332B2 (en) Information processing apparatus and user interface control method
US20200274979A1 (en) System, image forming apparatus, method, and program
JP7206827B2 (ja) システム、画像形成装置、方法およびプログラム
JP2006133880A (ja) 情報処理装置及び情報処理方法
JP4520262B2 (ja) 画像形成装置、画像形成方法、その方法をコンピュータに実行させるプログラム、画像処理装置、および画像処理システム
JP7081451B2 (ja) 設定制御装置、設定制御装置の制御方法、およびプログラム
JP2007158858A (ja) 画像形成装置及び画像形成処理プログラム
JP4185744B2 (ja) 画像処理装置、文書管理システム、画像処理装置の制御方法、及び制御プログラム