JP2003302994A - 音声認識機能付き電子機器及びその制御方法 - Google Patents

音声認識機能付き電子機器及びその制御方法

Info

Publication number
JP2003302994A
JP2003302994A JP2002108060A JP2002108060A JP2003302994A JP 2003302994 A JP2003302994 A JP 2003302994A JP 2002108060 A JP2002108060 A JP 2002108060A JP 2002108060 A JP2002108060 A JP 2002108060A JP 2003302994 A JP2003302994 A JP 2003302994A
Authority
JP
Japan
Prior art keywords
information
abbreviation
voice
word model
electronic device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2002108060A
Other languages
English (en)
Inventor
Atsushi Otani
篤志 大谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2002108060A priority Critical patent/JP2003302994A/ja
Publication of JP2003302994A publication Critical patent/JP2003302994A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Telephone Function (AREA)

Abstract

(57)【要約】 【課題】 音声による操作指示は、電話帳検索等の用途
に限定されており機器の操作の容易化を大きく向上させ
るものではなかった。 【解決手段】 操作パネルを使用して指示された一もし
くは複数の操作を示す操作情報242と、その操作情報
242に対応する操作略称情報241と、その操作略称
情報241に対応する単語モデル243を生成して相互
に関連付けて不揮発メモリ114に登録する。そしてマ
イク113よりの音声により操作略称情報が指示される
と、その音声認識した音声データと単語モデル243と
を比較し、対応する操作略称情報を検索し、その検索さ
れた操作略称情報241に対応する操作情報242に基
づく操作が指示されたように通信装置を動作させる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声による指示に
対応する登録されている情報に基づく処理動作を実行す
る音声認識機能付き電子機器及びその制御方法に関する
ものである。
【0002】
【従来の技術】音声認識技術の向上により、電話器やフ
ァクシミリ装置等において、相手先のダイヤル番号やア
ドレスなどの相手先指定情報や、宛先指定情報に対応す
る登録済みの操作略称情報を音声で入力して発信できる
音声認識機能付き通信装置が開発されている。このよう
な装置における音声認識の方法としては一般に、例えば
特開平11−65590号公報に記載されている様に、
多くの人の平均的な音声パラメータを予め記憶してお
き、入力された音声との類似度が最も大きいものを選択
する不特定話者音声認識を用いる方法と、特開平5−2
19176号公報に記載されているように、実際に使用
するオペレータの音声を入力して音声パラメータとして
登録しておく特定話者認識を用いる方法とがある。いず
れの方法においても、音声認識の誤りによる誤発信を防
止するために、オペレータに対して音声認識結果を確認
させる必要があり、このような確認操作をより簡易にす
るために、より高い音声認識率が求められる。
【0003】また、特開平7−212456号公報に記
載の音声認識を用いた電話帳検索の方法や、その派生と
して特開2000−196784号公報の様に、インタ
ーネットアドレスなどのブックマーク情報とラベル情報
とを関連付けて記憶しておき、音声認識によりラベルを
認識し、対応するブックマークのURL情報を表示する
ものがある。
【0004】
【発明が解決しようとする課題】このような従来の通信
装置における音声認識の用途としては、電話帳検索等の
用途に限定されており、機器の操作の容易化を大きく向
上させるものではなかった。また、不特定話者認識の場
合、オペレータによる音声パラメータの登録が不要であ
るという利点はあるが、予め記憶されている音声パラメ
ータは多くの人のデータを平均化して作成したものであ
るため、特定の個人にとっては音声パラメータが最適で
なく認識率が低下してしまうことになる。一方、特定話
者認識の場合、オペレータの音声パラメータを登録して
辞書として使用するので、その認識率は不特定話者認識
の場合に比べて向上するが、同じ装置を複数の使用者が
利用する場合には認識率が低下することもある。更に、
音声認識機能を利用する前にオペレータは必ず音声パラ
メータを登録しなければならない。このような音声パラ
メータの登録に際して、操作が煩雑であったり、またオ
ペレータに緊張を強いるため失敗することも多く、また
認識率を向上させるには、多くの単語又は長い文章を登
録する必要があり、オペレータに多大な負担をかけると
いう問題があった。
【0005】本発明は上記従来例に鑑みてなされたもの
で、ユーザが操作の対象をカスタマイズでき、それを音
声で指示できるようにした音声認識機能付き電子機器及
びその制御方法を提供することを目的とする。
【0006】また本発明の目的は、一つ或いは複数の操
作を含む操作情報と、その操作情報に対応して操作略称
情報を登録し、その操作略称情報を示す音声を入力して
その操作情報に基づく操作を行わせることができる音声
認識機能付き電子機器及びその制御方法を提供すること
にある。
【0007】又本発明の目的は、複数の操作の組み合わ
せの情報を機器状態の遷移として捉えた機器状態情報が
登録し、その機器状態情報に対応して略称情報を登録
し、その略称情報を示す音声を入力してその機器状態情
報に基づく操作を行わせることができる音声認識機能付
き電子機器及びその制御方法を提供することにある。
【0008】
【課題を解決するための手段】上記目的を達成するため
に本発明の音声認識機能付き電子機器は以下のような構
成を備える。即ち、音声認識機能を備えた電子機器であ
って、操作を指示するための操作指示手段と、前記操作
指示手段を使用して指示された一もしくは複数の操作を
示す操作情報を登録する操作登録手段と、前記操作情報
に対応する操作略称情報を登録する操作略称登録手段
と、予め記憶された音素モデルを用いて、前記操作略称
登録手段により登録された前記操作略称情報に対応する
単語モデルを生成する単語モデル生成手段と、前記単語
モデル生成手段により生成された前記単語モデルと前記
操作情報および前記操作略称情報を相互に関連付けて記
憶する記憶手段と、音声を入力する音声入力手段と、前
記音声入力手段により入力された音声に基づいて音声デ
ータを生成する音声認識手段と、前記音声認識手段によ
り生成された前記音声データと前記記憶手段に記憶され
た前記単語モデルとを比較し、前記音声入力手段により
入力された音声に対応する前記操作略称情報を検索する
検索手段と、前記検索手段により検索された前記操作略
称情報に対応する操作情報に基づく操作が指示されたよ
うに前記電子機器の動作を制御する制御手段と、を有す
ることを特徴とする。
【0009】上記目的を達成するために本発明の音声認
識機能付き電子機器は以下のような構成を備える。即
ち、音声認識機能を備えた電子機器であって、操作を指
示するための操作指示手段と、前記操作指示手段を使用
して指示された操作に対応する機器状態を示す機器状態
情報を登録する状態登録手段と、前記機器状態情報に対
応する略称情報を登録する略称登録手段と、予め記憶さ
れた音素モデルを用いて、前記略称登録手段により登録
された前記略称情報に対応する単語モデルを生成する単
語モデル生成手段と、前記単語モデル生成手段により生
成された前記単語モデルと前記機器状態情報および前記
略称情報を相互に関連付けて記憶する記憶手段と、音声
を入力する音声入力手段と、前記音声入力手段により入
力された音声に基づいて音声データを生成する音声認識
手段と、前記音声認識手段により生成された前記音声デ
ータと前記記憶手段に記憶された前記単語モデルとを比
較し、前記音声入力手段により入力された音声に対応す
る前記略称情報を検索する検索手段と、前記検索手段に
より検索された前記略称情報に対応する機器状態情報に
対応する操作が指示されたように前記電子機器の動作を
制御する制御手段と、を有することを特徴とする。
【0010】上記目的を達成するために本発明の電子機
器の制御方法は以下のような工程を備える。即ち、音声
認識機能を備えた電子機器の制御方法であって、操作を
指示するための操作指示工程と、前記操作指示工程で指
示された一もしくは複数の操作を示す操作情報を登録す
る操作登録工程と、前記操作情報に対応する操作略称情
報を登録する操作略称登録工程と、予め記憶された音素
モデルを用いて、前記操作略称登録工程で登録された前
記操作略称情報に対応する単語モデルを生成する単語モ
デル生成工程と、前記単語モデル生成工程で生成された
前記単語モデルと前記操作情報および前記操作略称情報
を相互に関連付けて記憶する記憶工程と、音声を入力す
る音声入力工程と、前記音声入力工程で入力された音声
に基づいて音声データを生成する音声認識工程と、前記
音声認識工程で生成された前記音声データと前記記憶工
程により記憶された前記単語モデルとを比較し、前記音
声入力工程で入力された音声に対応する前記操作略称情
報を検索する検索工程と、前記検索工程で検索された前
記操作略称情報に対応する操作情報に基づく操作が指示
されたように前記電子機器の動作を制御する制御工程
と、を有することを特徴とする。
【0011】上記目的を達成するために本発明の電子機
器の制御方法は以下のような工程を備える。即ち、音声
認識機能を備えた電子機器の制御方法であって、操作を
指示するための操作指示工程と、前記操作指示工程で指
示された操作に対応する機器状態を示す機器状態情報を
登録する状態登録工程と、前記機器状態情報に対応する
略称情報を登録する略称登録工程と、予め記憶された音
素モデルを用いて、前記略称登録工程で登録された前記
略称情報に対応する単語モデルを生成する単語モデル生
成工程と、前記単語モデル生成工程で生成された前記単
語モデルと前記機器状態情報および前記略称情報を相互
に関連付けて記憶する記憶工程と、音声を入力する音声
入力工程と、前記音声入力工程で入力された音声に基づ
いて音声データを生成する音声認識工程と、前記音声認
識工程で生成された前記音声データと前記記憶工程で記
憶された前記単語モデルとを比較し、前記音声入力工程
で入力された音声に対応する前記略称情報を検索する検
索工程と、前記検索工程で検索された前記略称情報に対
応する機器状態情報に対応する操作が指示されたように
前記電子機器の動作を制御する制御工程と、を有するこ
とを特徴とする。
【0012】
【発明の実施の形態】以下、添付図面を参照して本発明
の好適な実施の形態を詳細に説明する。
【0013】図1は、本発明の実施の形態に係る音声認
識機能付き通信装置の機能構成例を示すブロック図で、
ここでは、通信装置がファクシミリ装置の場合で説明す
るが、本発明はこのようなファクシミリ装置に限定され
るものではない。
【0014】図において、CPU101は、ROM10
2に記憶されている制御プログラムに従って装置全体の
動作制御やデータ処理などを行う制御部として機能して
いる。ROM102は、CPU101により実行される
各種プログラムや固定データを格納している。また、こ
のROM102は、後述の音声認識処理で使用する音素
モデル201(図3)も格納している。RAM103
は、CPU101により制御処理の実行時に、ワークメ
モリや音声や画像データ等のバッファメモリとして使用
される。
【0015】104は密着型カラーイメージセンサCI
S(Contact Image Sensor)で、ライン単位に原稿画像
を読み取って画像信号を生成するための赤(R)、緑
(G)、青(B)のLEDアレイを内蔵しており、読取
画像処理部105から読み取りタイミング信号が入力さ
れると、そのタイミング信号に同期して画像信号を出力
している。読取画像処理部105は、CIS104へ読
み取りタイミング信号を出力したり、CIS104が出
力する画像信号をA/D変換し、シェーディング補正、
輝度/濃度のガンマ変換等を行ってデジタル多値/2値
データに変換したり、画像の拡大縮小や解像度変換を行
う。そして、この読取画像処理部105により生成され
たデジタル画像データは、CPU101の制御の下にR
AM103に格納される。
【0016】106は記録画像処理部で、多値画像デー
タを2値画像データに変換する2値化処理や、画像の拡
大縮小などに際して必要となる画像処理を行うととも
に、画像データの解像度をプリンタ107の解像度(例
えば、360dpi)に合せて変換する解像度変換を行
ない、印刷データとしてカラープリンタ107に出力す
る。プリンタ107は、このファクシミリ装置の記録部
としての機能を有する、例えば周知のインクジェット・
カラープリンタであり、インクタンクとインクジェット
ヘッドとが一体になっているヘッドカートリッジを記録
紙の主走査方向に移動させながら、例えば360dpi
の記録解像度で記録紙に画像を記録することができる。
【0017】108はモデムで、周知のG3モードなど
でファクシミリ通信を行うためにデータを変復調する。
109はNCUで、アナログ電話回線110と、このフ
ァクシミリ装置との間のインターフェースを制御してい
る。
【0018】111は操作パネルで、ダイヤル操作や各
種の動作指示やモードの設定を行ったり、データの登録
・検索・選択を行ったりするためのキー入力部と、ファ
クシミリ装置の状態や各種データ、オペレータのメッセ
ージ及び後述の音声認識の検索結果等を表示する液晶表
示部やLEDを備えている。
【0019】図2は、この操作パネル111の概略図
で、ここでは本実施の形態において特徴的な動作を行う
際に必要となるキーや表示部に限定して図示している。
【0020】図2において、701は液晶表示部(LC
D)で、16文字分の文字を表示でき、このファクシミ
リ装置の状態や各種メッセージを表示出力するために使
われる。702は各種登録処理や設定処理のための「機
能キー」、703は音声認識機能を起動するための「音
声認識キー」、704は、登録や設定の内容を確定させ
たり、肯定の意思表示をするための「セットキー」、7
05は表示内容の消去や否定の意思表示をするための
「クリアキー」である。706はカーソルキーで、上下
左右に夫々対応する4つのキーを有し、表示部701に
表示された表示内容を各方向にスクロールしたり、カー
ソルを各方向に移動させたりするために使用される。7
07は、実行中の動作や登録・設定処理を中断するため
の「ストップキー」、708は「10キー」で、「0」
〜「9」の数字及び文字キーと、「*」および「#」の
12個のキーを有しており、英数字や文字、記号の入力
に使用される。
【0021】再び図1に戻り、112はスピーカで、各
種アラーム音、呼び出し音、音声ガイダンス音、回線上
の音声信号を出力させるために使用される。113はマ
イクロフォンで、音声を入力するために使用され、ここ
では音声波形中の雑音成分を抑圧して音声成分を強調す
るために指向性マイクを使用している。114は主電源
が断となってもデータが消失しないための不揮発性メモ
リで、このファクシミリ装置において必要な登録データ
(各種ソフトスイッチ、ユーザの電話番号や略称などの
ID情報)を格納している。また、図3を参照して後述
するように、ユーザが登録した操作情報242、これに
関連付けられる操作略称情報241と音声認識に用いる
単語モデル243が格納されている。115は音声認識
処理部で、本実施の形態の中心的な機能を提供してお
り、後述図3に示す様に、音声分析部251、音素認識
部252、単語判定部253及び単語モデル作成部25
4を備えている。以上説明した各機能ブロックは、バス
120を介して接続されており、このバス120はアド
レスやデータ、制御信号などを伝送してやり取りするの
に使用される。
【0022】[実施の形態1]図3は、本発明の実施の
形態1に係るファクシミリ装置の機能を説明する機能ブ
ロック図で、ここでは音声認識処理に係る機能及び信号
の流れを中心に示している。尚、この図3に示す信号の
流れはあくまでも説明のためのものであり、この図3で
直接接続されていても、実際の信号は前述のバス120
を介して伝送されるものもある。
【0023】図3において、音声分析部251は、マイ
クロフォン113より入力した音声信号を所定の微小フ
レームに分割し、雑音成分の除去を目的として所定のフ
ィルタリングと信号演算処理を行う。尚、この音声分析
部251は、音声信号の処理を高速にするためにDSP
を用いている。こうして音声分析部251により微小フ
レームに分割された音データは、音素認識部252に入
力される。音素認識部252では、予めROM102に
記憶されている音素モデル201を基準にして、各微小
フレームの周波数スペクトルを時間変化を含めて比較・
照合し、音素の特定を行う。単語判定部253は、音素
認識部252で特定された音素を先頭から順次並べたも
の(以下、音素データ列という)と、予め登録されてい
る単語モデルとを比較・照合することにより、両者の一
致頻度を計算して単語を特定し、その特定した結果をバ
ス120に出力する。
【0024】また、操作パネル111を使用して、1つ
或いは複数の操作を示す操作情報242と、その操作情
報242に対応する操作略称情報241が登録される
と、その操作略称情報241に対応した単語モデル24
3が、単語モデル作成部254において、音素モデル2
01を組み合わせることにより作成され、操作略称情報
241に関連付けられて不揮発性メモリ114に格納さ
れる。
【0025】以上説明した構成を有する本実施の形態1
に係るファクシミリ装置の特徴的な動作について図4〜
図7のフローチャートを参照して用いて説明する。尚、
本実施の形態1に係るファクシミリ装置におけるコピー
や送受信動作に関しては、公知のファクシミリ装置と同
様であるので、その説明を省略する。
【0026】この実施の形態1では、1つ或いは複数の
操作からなる操作情報242と、その操作情報242を
示す操作略称情報(ショートカット)241とを登録し
ておく。そして、オペレータがマイクロフォン113に
より、操作略称情報を音声で入力し、その登録されてい
る1つ或いは複数の操作からなる操作(操作情報)を指
示すると、その音声を認識して単語モデルを求め、その
単語モデルに該当する登録されている単語モデル243
を検索し、それに対応する操作略称情報241、操作情
報242を抽出する。そして、その抽出した操作情報2
42に基づいて、このファクシミリ装置の操作・指示を
行うことを特徴としている。以下、詳しく説明する。
【0027】図4は、本実施の形態1に係るファクシミ
リ装置における操作略称情報241及び操作情報242
の登録処理を示すフローチャートで、この処理を実行す
るプログラムはROM102に記憶されている。なお、
本実施の形態1では、操作略称情報241及び操作情報
242の登録時に、後述の音声認識処理で使用する単語
モデル243を生成して不揮発メモリ114に記憶して
いる。
【0028】まずステップS301で、操作パネル11
1の機能キー702により操作情報の登録モードが選択
されると、このファクシミリ装置の状態が待機状態から
操作情報の登録モードに移行してステップS302に進
み、オペレータによる操作パネル111を使用した操作
情報242の入力処理に進む。ここでは、オペレータに
より操作パネル111のキー操作がなされる毎にステッ
プS303に進み、その操作された操作内容を追加記憶
していく。この処理は、ステップS304で操作登録の
終了指示(セットキー704の入力)が入力されるまで
行われる。この場合、このファクシミリ装置は、操作情
報の登録モードになっているため、オペレータによる操
作パネル111の操作指示キーの押下により、通常の動
作モードで操作を行ったときと同様の表示及び応答が表
示部701に表示される。しかし、例えばコピーなどの
動作指示が入力されても、実際のコピー動作は行われな
い。従って、この登録モードで指定できる操作の組み合
わせは、指定した動作が起動されるまでの操作に限定さ
れており、動作が起動された後の停止や中断指示操作等
は含まれない。
【0029】このように本実施の形態1において、ショ
ートカット操作として登録できる操作内容を特定の動作
に限定するのは、例えば、コピー動作を開始した後のス
トップキー押下による停止、電話番号の入力、発呼動作
後のDTMF信号の送出操作などは、操作指示による動
作開始と、その動作の経過時間との関係を有する操作に
なるためショートカット処理が難しいためである。
【0030】こうして登録すべき操作情報が確定すると
ステップS305に進み、その操作情報242の操作略
称情報241を入力する工程へ進み、操作略称の入力を
促すための表示を表示部701に表示すると共に、スピ
ーカ112から音声ガイダンスを出力する。この操作略
称情報241を入力する場合は、ステップS306,S
308で、オペレータは操作パネル111の数字、文字
キー708を使用して、その操作情報の内容の判断でき
る操作略称を入力する。一方、操作略称情報241の入
力が行われない場合はステップS307に進み、登録さ
れている操作情報242の順番に応じた番号と、操作を
行った最後の操作キーの名称から、自動的に操作略称情
報241を生成する。
【0031】こうしてステップS309に進み、オペレ
ータにより入力された操作略称情報241、或いはステ
ップS307で自動生成された操作略称情報241を表
示部701に表示し、オペレータによる登録確認待ちに
なる。ここでセットキー704が押下されて登録確認が
行われるとステップS310に進み、その操作略称情報
241と、ROM102に記憶されている音素モデル2
01とを基にして単語モデル243を生成する。そして
ステップS311に進み、操作略称情報241、操作情
報242、単語モデル243とを互いに関連付けて不揮
発性メモリ114に記憶する。
【0032】尚、ステップS301〜S304における
登録モードの選択、操作略称情報241の入力および登
録確認操作は、主に表示部701、「機能キー」70
2、「セットキー」704、「カーソルキー」706、
「10キー」708を使用して行われる。
【0033】尚、ステップS310における単語モデル
243の生成処理では、不揮発性メモリ114に記憶さ
れた操作略称情報241を、単語モデル生成部254
で、先頭から順次、音素単位に分解しつつ、対応する音
素モデル201をROM102から読み出し、それらを
合成することにより単語モデル243を生成する。こう
して生成された単語モデル243は、対応する操作略称
情報241に関連付けて記憶される。その結果、一つの
操作略称情報241に対して操作情報242と単語モデ
ル243とが相互に関連付けられて不揮発性メモリ11
4に記憶されることになる。
【0034】図5〜図7は、本実施の形態1に係るファ
クシミリ装置における、音声による操作情報242(操
作略称情報241)の指定動作を示すフローチャート
で、この処理を実行するプログラムはROM102に記
憶されている。
【0035】通常、オペレータは、ファクシミリ送信、
電話による通話、コピー等を行う際には、先ず操作情報
を操作パネル111のキーを使用して入力するか、若し
くは予め登録されている電話帳情報を表示部701に表
示し、カーソルキー706を使用して、所望のアドレス
(電話番号)を指定することにより通信操作の指示を行
う。
【0036】これに対して本実施の形態1に係るファク
シミリ装置では、予め操作情報242と関連付けられて
登録されている操作略称情報241を、オペレータがマ
イクロフォン113から音声で入力することにより所望
の操作を指示することにより行うことができるようにし
ている。以下、詳しく説明する。
【0037】まず最初にステップS401で、オペレー
タは操作パネル111の「音声認識キー」703を押下
する。ここで音声による開始指示を行わないのは、雑音
等の影響を極力排除するため、音声認識を開始するタイ
ミングを確実に装置に伝えるためである。こうして、フ
ァクシミリ装置が待機状態の時に「音声認識キー」70
3が押下されるとステップS402に進み、音声分析部
251はマイクロフォン113からの音声信号の入力待
ちに遷移する。ここで、オペレータによる音声入力があ
るとステップS403に進み、図3で説明した音声認識
処理部115による音声認識処理へ進む。即ち、マイク
ロフォン113から入力された音声信号を所定の微小フ
レームに分割し、所定のフィルタリングと背景ノイズの
除去等の信号演算処理を行って音データを出力する音声
分析工程を実行する。そしてステップS404に進み、
ROM102の音素モデル201を基準にして、ステッ
プS403で求めた音データの周波数スペクトルを、時
間変化を含めて比較・照合し、音素の特定を行う音素認
識工程を実行する。そしてステップS405に進み、そ
の特定された音素を先頭から順次並べた音素データ列
と、ROM102に予め登録されている単語モデル24
3とを比較・照合することで、両者の一致頻度を計算し
て、その音素に対応する単語を特定して結果を出力する
単語判定工程を実行する。尚、このステップS405で
は、所定の比率以上で一致したものを単語候補として出
力し、一致したものが存在しない場合は、エラーステー
タスを出力する。尚、所定の比率以上で一致したものが
複数存在する場合には、一致した比率の高いものから順
次、単語候補とする。
【0038】次にステップS406に進み、単語候補が
あるかどうかを調べ、ない場合は音声認識が失敗したと
みなしてステップS501(図6)に進むが、そのステ
ップS501以降の動作については後述する。
【0039】ステップS406で単語候補がある場合は
ステップS407に進み、オペレータに確認させるた
め、その単語候補を表示部701に表示する。次にステ
ップS408に進み、所定時間(例えば5秒)キー入力
が無いか、或いはステップS409で、オペレータが所
定のキー入力操作(例えば、「セットキー」704の押
下)などで肯定の意思を表した場合はステップS601
(図7)に進む。この場合は、音声認識が成功したとみ
なし、その確定された単語に相当する、不揮発性メモリ
114内の単語モデル243と関連付けられて登録され
ている操作略称情報241を検索し、それに対応する操
作情報242を読み出して、その操作情報に該当する操
作を実行する(ステップS602)。
【0040】一方、ステップS407において、表示部
701に単語候補を表示した後、ステップS410でオ
ペレータが所定のキー入力操作(例えば、「クリアキ
ー」705の押下)などで否定の意思を表した場合はス
テップS411に進み、音声認識結果の次候補があるか
どうかを判断し、あればステップS407に戻って、そ
の次候補の単語候補を表示部701に表示する。以下の
動作は既に説明した通りである。
【0041】またステップS411において次候補がな
ければ認識失敗とみなしてステップS501(図6)に
進み、音声認識の失敗が所定回数(ここでは3回)連続
して発生したかをみる。そうでなければステップS50
2に進み、オペレータに対して再度音声入力を促すため
再入力依頼を表示部701に表示し、再度ステップS4
01に戻る。
【0042】またステップS501で、音声認識が3回
連続して失敗した場合はステップS503に進み、不揮
発メモリ114に記憶されている単語モデル243では
認識不能とみなし、その旨を表示部701に表示する。
続いてステップS504に進み、現在のオペレータの声
に基づく音素データ列を単語モデル243として追加登
録する動作へ移行する。ここではまずステップS504
で、オペレータに対して、追加登録の意思を確認する。
ここで、オペレータが所定のキー入力操作(例えば、
「ストップキー」707の押下)などで、追加登録の否
定の意思を表した場合は、オペレータが音声による通信
操作の指定を断念したものとみなし、この動作を終了し
て待機状態へ移行する。
【0043】一方、ステップS504において、オペレ
ータが所定のキー入力操作(例えば、「セットキー」7
04の押下)などで肯定の意思を表した場合はステップ
S505に進み、既に登録済みの操作略称情報241を
順次表示部701に表示し、オペレータが所望の操作略
称情報を選択できるようにする。これは、オペレータが
音声認識機能を使用して登録されている操作を指示する
ということは、そのオペレータは、その操作を指示する
操作情報242が既に登録されていると認識しているの
が一般的であり、そのオペレータによる所望の操作が登
録済みである確率が高いとの判断によるものである。
【0044】具体的には、ステップS505で、操作略
称情報241を一つ表示部701に表示し、ステップS
506でオペレータが所定のキー入力操作(例えば、
「セットキー」704の押下)などを行って、所望の操
作である旨の意思を表した場合はステップS603(図
7)に進み、前述のステップS402乃至S405と同
様にして、入力されたオペレータの音声に基づく音素デ
ータ列を単語モデル243として、表示中の操作略称情
報241及び対応する操作情報242に関連付けて不揮
発性メモリ114に記憶する。そしてステップS601
に進み、その単語モデル243を基に操作略称情報24
1を検索し、その音声略称情報241に該当する操作情
報242の操作を実行する。従って不揮発性メモリ11
4には、操作略称情報241と操作情報242が同じで
単語モデル243のみが異なる登録データが存在するこ
とになる。これは、次回以降に登録を不要にするためで
ある。
【0045】又ステップS506において、オペレータ
が所定のキー入力操作(例えば、「クリアキー」70
5)などで所望の操作でない旨の意思を表した場合はス
テップS507に進み、残りの操作略称情報241を検
索し、未表示の操作略称情報241があるかどうかを判
断する。未表示の操作略称情報241があればステップ
S505に戻り、前記の動作を繰り返す。またステップ
S507において、未表示の操作略称情報241がない
場合はステップS508に進み、そのオペレータが所望
している操作は未登録であるとみなし、新規登録である
旨を表示部701に表示し、前述の図4のステップS3
02からステップS307で説明した操作情報242お
よび操作略称情報241の登録モードへ移行する。その
後、図示しないが、ステップS602の如く、その登録
した操作情報に基づく操作を実行しても良い。
【0046】尚、図5のステップS410及び図6のス
テップS506において、否定の意思表示として「クリ
アキー」705が押下される例を示したが、「カーソル
キー」706の操作により、表示部701の表示内容を
スクロールさせて意思表示を行うようにしても良い。
【0047】また、ステップS407(図5)及びステ
ップS505(図6)において、表示部701に表示で
きる単語候補または操作略称情報241が一つであるこ
とを前提にしたが、複数表示が可能である場合には、同
時に複数表示させて、「カーソルキー」706と「セッ
トキー」704とを使用して、所望のものをオペレータ
に選択させるようにしても良い。
【0048】以上説明したように本実施の形態1によれ
ば、音声により操作略称を入力して指示するだけで、そ
の操作略称に対応する操作情報として登録されている操
作を実行させることができる。
【0049】又実施の形態1では、通常は、音声の登録
動作をしなくても、音声によるダイヤルやアドレスの発
信が可能であり、音声認識エラーが多発した場合のみ、
簡単な操作で、所望の操作情報に対応する音声を登録で
きるので、操作性が向上するという効果がある。
【0050】ここで操作情報242の登録処理と音声認
識処理の実行を、ファクシミリ装置が待機状態である場
合に限定しているのは、複数の動作が並列して実行でき
ない装置では待機状態以外の状態で操作を実行するため
には、装置を一旦待機状態に戻して操作情報242に基
づいた処理を行う必要があるためである。更に、複数の
動作が並列して実行できる装置でも、コピー中のコピー
操作の様に、操作内容によっては複数の処理動作を禁止
する必要があり、このような点を考慮したプログラムを
作成すると制御プログラムが複雑化し、またオペレータ
により操作の禁止が行われた理由を直感的に把握しづら
いという問題が発生するためである。
【0051】[実施の形態2]次に本発明の実施の形態
2について説明する。この実施の形態2では、操作情報
242として、前述の実施の形態1に係る操作情報と共
に、その操作情報の登録処理が開始された場合の装置の
状態情報も同時に記憶する。そして、入力された音声を
認識して単語モデルの比較・照合を行う際には、音声入
力前の装置の状態と単語モデル243に関連づけられて
いる操作情報の状態情報とが同じものについて、比較・
照合を実施することを特徴としている。これにより、実
施の形態1の場合のように、操作情報の登録や音声認識
処理の実行を常に待機状態を前提とするのではなく、所
定の状態での操作を可能にして、更にその状態を、操作
情報の検索にも使用するというものである。
【0052】図8は、本発明の実施の形態2に係るファ
クシミリ装置の機能を説明する機能ブロック図で、実施
の形態1の図3と同様に、ここでは音声認識処理に係る
機能及び信号の流れを中心に示している。尚、この図8
に示す信号の流れはあくまでも説明のためのものであ
り、この図8で直接接続されていても、実際の信号は前
述のバス120を介して伝送されるものもある。又、図
8において図3と共通する部分は同じ記号で示し、その
説明を省略する。
【0053】図8において、操作情報242には、指定
された操作開始時の装置の状態を示す状態情報242a
が登録されている。
【0054】この実施の形態2の登録処理は前述の図4
と実質的に同様であるため、図4を参照して簡単に説明
する。
【0055】本実施の形態2においても、操作略称情報
241および操作情報242の登録時に後述の音声認識
処理で使用する単語モデル243を生成して記憶する。
まずステップS301で、操作情報登録モードが選択さ
れるとステップS302,S303で操作情報242を
入力する工程へ進み、この処理はステップS304で、
操作登録終了指示があるまで実行され、キー操作等の操
作がある毎に、その操作内容を追加記憶していく(ステ
ップS303)。この際、この操作登録の開始時の装置
の状態情報も操作情報242と合わせて状態情報242
aとして操作情報242に記憶する。ここで、装置の状
態情報とは、例えばメール入力画面表示状態、電話番号
入力待ち状態等の状態を指し、例えばメール入力画面で
何らかの入力が行われている場合の入力データについて
は、この状態情報には反映されない。これは全ての状態
情報を保持するようにすると、保持すべきデータ量が大
きくなってしまうため、及び制御プログラムの処理内容
が複雑になってしまうために、その状態を限定している
ものである。しかしながら、本発明はこれに限定され
ず、全ての状態情報を保持するようにしても良い。
【0056】こうして登録すべき操作情報が確定すると
ステップS305に進み、その操作情報242の操作略
称情報241を入力する工程へ進み、操作略称の入力を
促すための表示を表示部701に表示すると共に、スピ
ーカ112から音声ガイダンスを出力する。こうして前
述の図4のステップS306乃至S311と同様にし
て、オペレータにより入力された操作略称情報241、
或いはステップS307で自動生成された操作略称情報
241と、ROM102に記憶されている音素モデルと
を基にして単語モデル243を生成し、操作略称情報2
41、操作情報242、単語モデル243とを互いに関
連付けて不揮発性メモリ114に記憶する。
【0057】そして、音声入力による単語判定処理(図
5のステップS405)では、音声入力前の装置の状態
と、単語モデル243と関係付けられた状態情報242
aとが同じもののみについて比較・照合を行う。このよ
うに比較対照を現状の装置の状態に対応する状態情報2
42aを有する操作情報242に絞り込むことで、音声
認識処理の高速化と認識率の向上を図ることができる。
【0058】また、操作処理を実行する際に、起点とな
る装置の状態が登録時と一致するため、あたかも操作情
報242のキー操作がそのまま入力されたかのように処
理を行うことができ、制御プログラムの処理を簡素化で
きる。ここで、装置の状態の切り分け例としては、メー
ルツールを立ち上げた状態を初期状態とし、操作情報2
42を、例えば宛先とメッセージの冒頭部分の入力操
作、電話機を取り上げた状態での電話番号の入力操作、
またFAX送信モードでの電話番号の入力操作などと
し、これら操作情報242を状態情報242aに応じて
分類しておくことにより、装置の状態に応じた操作情報
242の呼び出しが可能になる。
【0059】このように本実施の形態2によれば、操作
情報に装置の状態情報を付加し、操作登録時の装置の状
態と、音声による操作指示の入力時の状態情報とが一致
するもののみを認識候補として絞り込む音声認識を行う
ことにより、音声認識処理の高速化と認識率の向上を図
ることができる。
【0060】また、操作処理を実行する際にも起点とな
る状態が一致するため、あたかも操作情報で示されたキ
ー操作がそのまま行われたかのように処理を行うことが
でき制御プログラムの処理を簡素化できる。
【0061】[実施の形態3]次に本発明の実施の形態
3について説明する。この実施の形態3では、前述の実
施の形態1における操作情報242に代えて機器状態情
報244を記憶する。そして、入力された音声を認識し
て単語モデルの比較・照合を行う際には、音声入力前の
装置の状態と単語モデル243に関連づけられている機
器状態情報244とが同じものについて、比較・照合を
実施することを特徴としている。
【0062】図9は、本実施の形態3に係るファクシミ
リ装置の機能を説明する機能ブロック図で、前述の図3
と共通する部分は同じ記号で示し、その説明を省略す
る。
【0063】図9において、不揮発性メモリ114は、
このファクシミリ装置に必要な登録データ(各種ソフト
スイッチ、ユーザの電話番号や略称などのID情報)を
不揮発に格納しており、ここには、オペレータによる操
作登録時の装置の状態を示す機器状態情報244、これ
に関連付けられる操作略称情報241と音声認識に用い
る単語モデル243が格納されている。
【0064】こうして、オペレータが操作パネル111
を操作して操作略称情報241を登録すると、その時の
機器状態情報242とともに、その操作略称情報241
に対応した単語モデル243が、単語モデル作成部25
4において、音素モデル201を組み合わせることによ
り作成され、操作略称情報241に関連付けられて不揮
発性メモリ114に格納される。
【0065】図10は、本実施の形態3に係るファクシ
ミリ装置における操作略称情報241及び状態情報24
4の登録処理を示すフローチャートで、この処理を実行
するプログラムはROM102に記憶されている。な
お、本実施の形態3では、操作略称情報241及び機器
状態情報244の登録時に後述の音声認識処理で使用す
る単語モデル243を生成して記憶している。
【0066】まずステップS701で、操作パネル11
1の機能キー702により機器状態情報の登録モードが
選択されるとステップS703に進み、機器状態情報2
44を入力する工程へ進み、ステップS704で、登録
終了指示があるまで、キー操作等の操作がある毎に、こ
の装置の状態(機器状態)の変化を追加記憶していく。
この登録開始時に取得する装置の機器状態情報として
は、待機状態、メールツールを起動した状態、電話機の
使用状態というように、キー操作に従ったこの装置の動
作状況を示す状態であり、例えばメールツール上で既に
何らかの入力を行っているときに、この登録操作を開始
してもこの場合の機器状態は反映されない。また機器状
態の遷移を示す情報としては、初期状態から操作によっ
て遷移していく状態の差分のみを記憶していく。この
際、このファクシミリ装置は登録モードになっているた
め通常の操作を行ったときと同様の表示、応答を操作者
に表示するが、例えばコピーなどの動作指示を行っても
実際の動作は行われない。
【0067】このように本実施の形態3において、ショ
ートカット操作として登録できる機器状態の内容を特定
の状態に限定するのは、例えば、コピー動作を開始した
後のストップキー押下による停止、電話番号の入力、発
呼動作後のDTMF信号の送出操作などは、操作指示に
よる動作開始と、その動作の経過時間との関係を有する
操作になるためショートカット処理が難しいためであ
る。
【0068】こうして登録すべき機器状態情報が確定す
るとステップS705に進み、その機器状態情報244
の操作略称情報241を入力する工程へ進み、操作略称
の入力を促すための表示を表示部701に表示すると共
に、スピーカ112から音声ガイダンスを出力する。こ
の操作略称情報を入力する場合は、ステップS706,
S708で、オペレータは操作パネル111の数字、文
字キー708を使用して、その機器状態の内容を判断で
きる操作略称を入力する。一方、操作略称情報241の
入力が行われない場合はステップS707に進み、登録
されている機器状態情報244の順番に応じた番号と、
操作を行った最後の機器状態情報を操作略称情報241
として自動的に生成する。
【0069】こうしてステップS709に進み、オペレ
ータにより入力された操作略称情報241、或いはステ
ップS707で自動生成された操作略称情報241を表
示部701に表示し、オペレータによる登録確認待ちに
なる。ここで操作パネル111のセットキー704が押
下されて登録確認が行われるとステップS710に進
み、その操作略称情報241と、ROM102に記憶さ
れている音素モデル201とを基にして単語モデル24
3を生成する。そしてステップS711に進み、操作略
称情報241、機器状態情報244、単語モデル243
とを互いに関連付けて不揮発性メモリ114に記憶す
る。
【0070】尚、ステップS701〜S704における
登録モードの選択、操作略称情報の入力および登録確認
操作は、主に表示部701、「機能キー」702、「セ
ットキー」704、「カーソルキー」706、「10キ
ー」708を使用して行われる。
【0071】尚、ステップS710における単語モデル
243の生成処理は、不揮発性メモリ114に記憶され
た操作略称情報241を、単語モデル生成部254で、
先頭から順次、音素単位に分解しつつ、対応する音素モ
デル201をROM102から読み出し、それらを合成
することにより単語モデル243を生成する。こうして
生成された単語モデル243は、対応する操作略称情報
241に関連付けて記憶される。その結果、一つの操作
略称情報241に対して機器状態情報244と単語モデ
ル243とが相互に関連付けられて不揮発性メモリ11
4に記憶されることになる。
【0072】図11及び図12は、本実施の形態3に係
るファクシミリ装置における、音声による機器状態情報
(操作略称情報241)の指定動作を示すフローチャー
トである。
【0073】通常、オペレータは、ファクシミリ送信、
電話による通話、コピー等を行う際には、先ず機器状態
情報244を操作パネル111のキーを使用して入力す
るか、若しくは予め登録されている電話帳情報を表示部
701に表示し、カーソルキー706を使用して、所望
のアドレス(電話番号)を指定することにより通信操作
の指示を行う。
【0074】これに対して本実施の形態3においては、
予め機器状態情報244と関連付けられて登録された操
作略称情報241をマイクロフォン113から音声で入
力することにより所望の操作を指示するもので、まずス
テップS801で、操作パネル111の「音声認識キ
ー」703を押下する。これは、雑音等の影響を極力排
除するため音声認識を開始するタイミングを確実に機器
に与えるためのものである。こうして、ファクシミリ装
置が待機状態の時に「音声認識キー」703が押下され
るとステップS802に進み、音声分析部251はマイ
クロフォン113からの音声信号の入力待ちに遷移す
る。ここで、オペレータによる音声入力があるとステッ
プS803に進み、図3で説明した音声認識処理へ進
む。即ち、マイクロフォン113から入力された音声信
号を所定の微小フレームに分割し、所定のフィルタリン
グと背景ノイズの除去等の信号演算処理を行って音デー
タを出力する音声分析工程を実行する。そしてステップ
S804に進み、ROM102の音素モデル201を基
準にして、ステップS803で求めた音データの周波数
スペクトルを、時間変化を含めて比較・照合し、音素の
特定を行う音素認識工程を実行する。次にステップS8
05に進み、音素データ列と、予め登録されている単語
モデル243とを比較・照合することで、両者の一致頻
度を計算し単語の特定を行い、結果を出力する単語判定
工程を実行する。
【0075】この比較判定工程は以下のように行われ
る。音声入力時の機器状態に対応した始点を持つ機器状
態情報244のみを候補として絞り込んで、音素を先頭
から順次並べた音素データ列と、絞り込んだ予め登録さ
れている単語モデル243とを比較・照合することで、
両者の一致頻度を計算して単語の特定を行い、その結果
を出力する。なお、このステップS805においては、
所定の比率以上で一致したものを単語候補として出力
し、一致したものが存在しない場合は、エラーステータ
スを出力する。尚、所定の比率以上で一致したものが複
数存在する場合には、一致した比率の高いものから順
次、単語候補とする。
【0076】次にステップS806に進み、単語候補が
あるかどうかを判定し、単語候補がない場合は認識失敗
とみなしステップS812に進み、全ての単語モデルを
候補として再度比較照合を行う。このステップS812
に続くステップS813でも単語候補がない場合には、
音声認識の失敗として図6のステップS501へ移行す
るが、そのステップS501以降の動作は前述した通り
である。
【0077】又ステップS806において単語候補があ
る場合、或いはステップS813で単語候補があるとき
はステップS807に進み、オペレータに確認させるた
め、その単語候補を表示部701に表示する。そしてス
テップS808で、所定時間(例えば5秒)キー入力が
無い場合、或いはステップS809で、オペレータが所
定のキー入力操作(例えば、「セットキー」704の押
下)などで肯定の意思を表した場合は音声認識成功とみ
なしてステップS815(図12)に進み、その確定し
た単語に相当する不揮発性メモリ114内の単語モデル
243と関連付けられて登録されている機器状態情報2
44を検索する。次にステップS816に進み、現在の
装置の状態と機器状態情報244の始点状態を比較し、
一致しない場合はステップS817に進み、装置の状態
を機器状態情報244の始点状態に移行する処理を行っ
た後、ステップS818で、該当する操作を実行する。
【0078】このように機器状態情報244によって検
索対象を絞り込むことによって音声認識に基づく検索を
行なうことで、音声認識処理の高速化と認識率の向上を
図ることができる。
【0079】また、操作処理を実行する際にも起点とな
る機器状態が一致するため、あたかも操作情報のキー操
作がそのまま入力されたかのように処理を行うことがで
き、制御プログラムの処理を簡素化できる。
【0080】また、絞り込んだ対象に付いての検索で候
補が得られなかった場合には、全ての登録単語モデルと
の比較・照合を行い、一致する候補が見つかった場合
に、現在の機器状態と異なった機器状態情報が候補とな
り選択された場合は機器状態の始点が異なっていること
を表示することにより、操作が実行される前に機器状態
が一度待機状態にリセットされてから指定した状態情報
の始点状態に移行することを操作者に明示することが可
能になる。これにより、誤操作の防止や現状の操作状況
が不用意にクリアされることを防ぐことが出来る。
【0081】一方、ステップS807において、表示部
701に単語候補を表示した後、オペレータが所定のキ
ー入力操作(例えば、「クリアキー」705の押下)な
どで否定の意思を表した場合はステップS811に進
み、次候補があるかどうかを判断しあればステップS8
07に戻り、新たな単語候補を表示部701に表示す
る。以下の動作は既に説明した通りである。
【0082】またステップS811において次候補がな
ければ音声認識が失敗したとみなして図6のステップS
501に進み、認識失敗が所定回数(ここでは3回)連
続していなければ、オペレータへ再度音声入力を促すた
め再入力依頼を表示部701に表示した後、ステップS
801に戻る。又ステップS501で、認識失敗が3回
連続した場合は、前述の図6を参照して説明した場合と
同様の処理を実行する。
【0083】尚、図6において、ステップS505で、
操作略称情報241を一つ表示部701に表示し、オペ
レータが所定のキー入力操作(例えば、「セットキー」
704の押下)などで所望の操作である旨の意思を表し
た場合は図12のステップS814(図12)に進み、
前記音素データ列を単語モデル243として、表示中の
操作略称情報241および対応する機器状態情報244
に関連付けて不揮発性メモリ114に登録する。そして
ステップS815に進んで機器状態情報244を検索
し、ステップS816で、機器状態と機器状態情報24
4の始点状態を比較し、一致しない場合はステップS8
17に進み、この装置の機器状態を機器状態情報244
の始点状態に移行する処理を行う。そしてステップS8
18に進み、該当する操作を実行する。
【0084】従って不揮発性メモリ114には、操作略
称情報241と機器状態情報244が同じで単語モデル
のみ異なる登録データが存在することになる。これは、
次回以降に登録を不要にするためである。
【0085】尚、前述の図6において、ステップS50
7で、未表示の操作略称情報241がなくなった場合に
は、所望の操作は未登録とみなしてステップS508に
進み、新規登録である旨を表示部701に表示し、前述
の図10のステップS701からステップS711で説
明した機器状態情報244および操作略称情報241の
登録モードへ移行する。その後、図示しないが、ステッ
プS815のように、現在の機器状態を機器状態情報2
44に関連付けられた機器状態に強制的に移行して該当
する操作を実行しても良い。
【0086】尚、図11のステップS810において
は、否定の意思表示として「クリアキー」705の押下
を例示したが、表示部701の表示内容をスクロールさ
せるイメージで「カーソルキー」706で操作させるよ
うにしても良い。
【0087】また、図11のステップS807におい
て、表示部701に表示できる単語候補または操作略称
情報241が一つであることを前提にしたが、複数表示
が可能である場合には、同時に複数表示させて、「カー
ソルキー」706及び「セットキー」704を使用して
所望のものをオペレータに選択させても良い。
【0088】このように本実施の形態3によれば、通常
は、音声の登録動作をしなくても、音声によるダイヤル
やアドレスの発信が可能であり、認識エラーが多発した
場合のみ、簡単な操作で登録が行えるので、操作性が向
上する。
【0089】[実施の形態4]前述の実施の形態1乃至
3においては、音声認識に連続して3回失敗した場合に
は、オペレータの意思を確認した後、既に登録済みの操
作略称情報241を順次表示部701に表示し、オペレ
ータが所望のものを選択する動作へ移行していた(図6
参照)。これは、オペレータの音声データの追加登録動
作を簡素化するための工夫であった。この場合、話者で
あるオペレータに依存した音源モデルを生成することに
なるため、オペレータに依存した音声認識を行うように
なる可能性がある。そこで、本発明の実施の形態4で
は、操作略称情報241の名称設定が悪いために音声認
識ができない場合を救済するための方法を提案するもの
で、オペレータが操作略称情報241の追加登録の意思
を表した場合、直ちに操作略称情報241の入力を促す
ように動作する。
【0090】以下、図13のフローチャートを参照し
て、本発明の実施の形態4に係る動作について説明す
る。尚、特に断らない動作については、前記実施の形態
1乃至3に係る動作と同様である。
【0091】図13は、本発明の実施の形態4に係る動
作のうち、前述の実施の形態と異なる動作を行う音声に
よる操作の指定動作の一部を示すフローチャートであ
る。
【0092】本実施の形態4に係る、音声による操作の
指定動作は、図6のステップS503を実行するまで
(結合子Eの位置)は、前述の実施の形態1と同様に動
作する。今、音声認識が3回連続して失敗して認識不能
である旨を表示部701に表示した時点から開始され
る。ここでステップS901で、前述のステップS50
4と同様に、オペレータに追加登録の意思を確認する。
ここでもし、オペレータが所定のキー入力操作(例え
ば、「ストップキー」707の押下)などで否定の意思
を表した場合は、オペレータが音声による通信操作の指
定を断念したものとみなし、この処理を終了して待機状
態へ移行する。
【0093】一方、ステップS901において、オペレ
ータが所定のキー入力操作(例えば、「セットキー」7
04の押下)などで肯定の意思を表した場合はステップ
S902に進み、前述の図4を参照して説明した操作略
称情報241及び操作情報242の登録動作へ移行す
る。即ち、操作略称情報241を選択し、続いてステッ
プS903に進み、操作情報242を入力する。こうし
てステップS904に進み、登録確認操作が行われると
ステップS905に進み、操作略称情報241と音素モ
デルとを基にして単語モデル243を生成し、操作略称
情報241と操作情報242とを関連付けて不揮発性メ
モリ114に記憶する(ステップS906)。
【0094】(その他の実施の形態)尚、上記実施形態
においては、ファクシミリ装置を例に説明したが本発明
はこれに限定されるものでなく、音声認識機能が設けら
れた通信装置であれば、例えば電話器、複合複写機、パ
ーソナルコンピュータなどにも適用可能である。
【0095】また本発明は、1つの機器からなる装置だ
けでなく、複数の機器から構成されるシステムに適用し
てもよい。
【0096】本発明の目的は前述したように、実施形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体をシステム或は装置に提供し、そのシス
テム或は装置のコンピュータ(又はCPUやMPU)が
記憶媒体に格納されたプログラムコードを読み出し実行
することによっても達成される。この場合、記憶媒体か
ら読み出されたプログラムコード自体が前述した実施形
態の機能を実現することになり、そのプログラムコード
を記憶した記憶媒体は本発明を構成することになる。こ
のようなプログラムコードを供給するための記憶媒体と
しては、例えば、フロッピィディスク、ハードディス
ク、光ディスク、光磁気ディスク、CD−ROM,CD
−R、磁気テープ、不揮発性のメモリカード、ROMな
どを用いることができる。
【0097】また、コンピュータが読み出したプログラ
ムコードを実行することにより、前述した実施の形態の
機能が実現されるだけでなく、そのプログラムコードの
指示に基づき、コンピュータ上で稼動しているOS(オ
ペレーティングシステム)などが実際の処理の一部又は
全部を行い、その処理によって前述した実施の形態の機
能が実現される場合も含まれている。
【0098】更に、記憶媒体から読み出されたプログラ
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書きこまれた後、そのプログラムコードの指示
に基づき、その機能拡張ボードや機能拡張ユニットに備
わるCPUなどが実際の処理の一部又は全部を行い、そ
の処理によって前述した実施の形態の機能が実現される
場合も含む。
【0099】以上説明したように本実施の形態によれ
ば、操作情報に対応する操作略称情報が登録されると、
単語モデルを生成して記憶し、入力された音声と記憶さ
れた単語モデルを比較し、入力された音声と相関の高い
単語モデルに対応する操作情報を読み出し、入力された
音声と相関の高い単語モデルが無いならば、所望の操作
情報または操作略称情報に対応した単語モデルを入力さ
れた音声から生成して登録することを可能にした。
【0100】これにより、認識率を損なわずに、音声パ
ラメータの登録を不要または簡素化して使用者の負担を
軽減した音声認識機能付き通信装置およびその制御プロ
グラムを提供することが可能になった。
【0101】また、操作内容の登録、音声の認識処理を
機器状態の待機状態に限定することで、機器状態に依存
した操作の禁止や、機器状態の一時待避等の処理を行う
必要がないため制御プログラムの構成の容易化を図るこ
とができる。
【0102】
【発明の効果】以上説明したように本発明によれば、ユ
ーザが操作の対象をカスタマイズして、それを音声で指
示できるという効果がある。
【0103】また本発明によれば、一つ或いは複数の操
作を含む操作情報と、その操作情報に対応して操作略称
情報を登録し、その操作略称情報を示す音声を入力して
その操作情報に基づく操作を行わせることができる。
【0104】又本発明によれば、複数の操作の組み合わ
せの情報を機器状態の遷移として捉えた機器状態情報が
登録し、その機器状態情報に対応して略称情報を登録
し、その略称情報を示す音声を入力してその機器状態情
報に基づく操作を行わせることができるという効果があ
る。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る音声認識機能付き通
信装置(ファクシミリ装置)の構成を示すブロック図で
ある。
【図2】本実施の形態に係るファクシミリ装置の操作パ
ネルの概略図である。
【図3】本実施の形態1に係るファクシミリ装置の機能
構成を示す機能ブロック図である。
【図4】本実施の形態1に係るファクシミリ装置におけ
る操作略称情報及び操作情報の登録処理を示すフローチ
ャートである。
【図5】本実施の形態1に係るファクシミリ装置におけ
る音声による操作の指定処理を示すフローチャートであ
る。
【図6】本実施の形態1に係るファクシミリ装置におけ
る音声による操作の指定処理を示すフローチャートであ
る。
【図7】本実施の形態1に係るファクシミリ装置におけ
る音声による操作の指定処理を示すフローチャートであ
る。
【図8】本発明の実施の形態2に係るファクシミリ装置
の機能構成を示す機能ブロック図である。
【図9】本発明の実施の形態3に係るファクシミリ装置
の機能構成を示す機能ブロック図である。
【図10】本実施の形態3に係るファクシミリ装置にお
ける操作略称情報及び操作情報の登録処理を示すフロー
チャートである。
【図11】本実施の形態3に係るファクシミリ装置にお
ける音声による操作の指定処理を示すフローチャートで
ある。
【図12】本実施の形態3に係るファクシミリ装置にお
ける音声による操作の指定処理を示すフローチャートで
ある。
【図13】本発明の実施の形態4における音声による通
信操作の指定動作を示す制御フローチャートである。
フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/28 G10L 3/00 531W H04M 1/00 571K 1/274

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】 音声認識機能を備えた電子機器であっ
    て、 操作を指示するための操作指示手段と、 前記操作指示手段を使用して指示された一もしくは複数
    の操作を示す操作情報を登録する操作登録手段と、 前記操作情報に対応する操作略称情報を登録する操作略
    称登録手段と、 予め記憶された音素モデルを用いて、前記操作略称登録
    手段により登録された前記操作略称情報に対応する単語
    モデルを生成する単語モデル生成手段と、 前記単語モデル生成手段により生成された前記単語モデ
    ルと前記操作情報および前記操作略称情報を相互に関連
    付けて記憶する記憶手段と、 音声を入力する音声入力手段と、 前記音声入力手段により入力された音声に基づいて音声
    データを生成する音声認識手段と、 前記音声認識手段により生成された前記音声データと前
    記記憶手段に記憶された前記単語モデルとを比較し、前
    記音声入力手段により入力された音声に対応する前記操
    作略称情報を検索する検索手段と、 前記検索手段により検索された前記操作略称情報に対応
    する操作情報に基づく操作が指示されたように前記電子
    機器の動作を制御する制御手段と、を有することを特徴
    とする電子機器。
  2. 【請求項2】 前記操作登録手段は、前記操作情報に対
    応して更に、前記操作指示手段を使用して指示された際
    の前記電子機器の状態情報を登録し、 前記検索手段は、前記音声認識手段により生成された前
    記音声データと、前記記憶手段における前記状態情報が
    現在の機器状態情報に一致する前記単語モデルとを比較
    して前記操作略称情報を検索することを特徴とする請求
    項1に記載の電子機器。
  3. 【請求項3】 前記検索手段により、前記音声データに
    対応する前記単語モデルが検索できない場合、前記制御
    手段は、前記音声入力手段により入力された音声に基づ
    いて所定の操作情報に関連付けをした単語モデルを生成
    して前記記憶手段に記憶することを特徴とする請求項1
    又は2に記載の電子機器。
  4. 【請求項4】 前記記憶手段に記憶されている単語モデ
    ルを検索する単語モデル検索手段を更に有し、前記操作
    略称登録手段は、前記単語モデル検索手段により検索さ
    れた単語モデルに対応する操作略称情報を登録すること
    を特徴とする請求項1に記載の電子機器。
  5. 【請求項5】 前記電子機器は通信装置であって、前記
    操作情報は、メールアドレスまたは端末識別番号に関連
    した操作を含むことを特徴とする請求項1乃至4記載の
    電子機器。
  6. 【請求項6】 音声認識機能を備えた電子機器であっ
    て、 操作を指示するための操作指示手段と、 前記操作指示手段を使用して指示された操作に対応する
    機器状態を示す機器状態情報を登録する状態登録手段
    と、 前記機器状態情報に対応する略称情報を登録する略称登
    録手段と、 予め記憶された音素モデルを用いて、前記略称登録手段
    により登録された前記略称情報に対応する単語モデルを
    生成する単語モデル生成手段と、 前記単語モデル生成手段により生成された前記単語モデ
    ルと前記機器状態情報および前記略称情報を相互に関連
    付けて記憶する記憶手段と、 音声を入力する音声入力手段と、 前記音声入力手段により入力された音声に基づいて音声
    データを生成する音声認識手段と、 前記音声認識手段により生成された前記音声データと前
    記記憶手段に記憶された前記単語モデルとを比較し、前
    記音声入力手段により入力された音声に対応する前記略
    称情報を検索する検索手段と、 前記検索手段により検索された前記略称情報に対応する
    機器状態情報に対応する操作が指示されたように前記電
    子機器の動作を制御する制御手段と、を有することを特
    徴とする電子機器。
  7. 【請求項7】 前記電子機器は通信装置であって、前記
    機器状態情報は、メールアドレスまたは端末識別番号に
    関する機器状態を含むことを特徴とする請求項6に記載
    の電子機器。
  8. 【請求項8】 音声認識機能を備えた電子機器の制御方
    法であって、 操作を指示するための操作指示工程と、 前記操作指示工程で指示された一もしくは複数の操作を
    示す操作情報を登録する操作登録工程と、 前記操作情報に対応する操作略称情報を登録する操作略
    称登録工程と、 予め記憶された音素モデルを用いて、前記操作略称登録
    工程で登録された前記操作略称情報に対応する単語モデ
    ルを生成する単語モデル生成工程と、 前記単語モデル生成工程で生成された前記単語モデルと
    前記操作情報および前記操作略称情報を相互に関連付け
    て記憶する記憶工程と、 音声を入力する音声入力工程と、 前記音声入力工程で入力された音声に基づいて音声デー
    タを生成する音声認識工程と、 前記音声認識工程で生成された前記音声データと前記記
    憶工程により記憶された前記単語モデルとを比較し、前
    記音声入力工程で入力された音声に対応する前記操作略
    称情報を検索する検索工程と、 前記検索工程で検索された前記操作略称情報に対応する
    操作情報に基づく操作が指示されたように前記電子機器
    の動作を制御する制御工程と、を有することを特徴とす
    る電子機器の制御方法。
  9. 【請求項9】 前記操作登録工程では、前記操作情報に
    対応して更に、前記操作指示工程により指示された際の
    前記電子機器の状態情報を登録し、 前記検索工程では、前記音声認識工程で生成された前記
    音声データと、前記記憶工程で記憶された前記状態情報
    が現在の機器状態情報に一致する前記単語モデルとを比
    較して前記操作略称情報を検索することを特徴とする請
    求項8に記載の電子機器の制御方法。
  10. 【請求項10】 前記検索工程で、前記音声データに対
    応する前記単語モデルが検索できない場合、前記制御工
    程では、前記音声入力工程で入力された音声に基づいて
    所定の操作情報に関連付けをした単語モデルを生成して
    前記記憶工程で記憶することを特徴とする請求項8又は
    9に記載の電子機器の制御方法。
  11. 【請求項11】 前記記憶工程で記憶される単語モデル
    を検索する単語モデル検索工程を更に有し、前記操作略
    称登録工程では、前記単語モデル検索工程で検索された
    単語モデルに対応する操作略称情報を登録することを特
    徴とする請求項8に記載の電子機器の制御方法。
  12. 【請求項12】 前記電子機器は通信装置であって、前
    記操作情報は、メールアドレスまたは端末識別番号に関
    連した操作を含むことを特徴とする請求項8乃至11記
    載の電子機器の制御方法。
  13. 【請求項13】 音声認識機能を備えた電子機器の制御
    方法であって、 操作を指示するための操作指示工程と、 前記操作指示工程で指示された操作に対応する機器状態
    を示す機器状態情報を登録する状態登録工程と、 前記機器状態情報に対応する略称情報を登録する略称登
    録工程と、 予め記憶された音素モデルを用いて、前記略称登録工程
    で登録された前記略称情報に対応する単語モデルを生成
    する単語モデル生成工程と、 前記単語モデル生成工程で生成された前記単語モデルと
    前記機器状態情報および前記略称情報を相互に関連付け
    て記憶する記憶工程と、 音声を入力する音声入力工程と、 前記音声入力工程で入力された音声に基づいて音声デー
    タを生成する音声認識工程と、 前記音声認識工程で生成された前記音声データと前記記
    憶工程で記憶された前記単語モデルとを比較し、前記音
    声入力工程で入力された音声に対応する前記略称情報を
    検索する検索工程と、 前記検索工程で検索された前記略称情報に対応する機器
    状態情報に対応する操作が指示されたように前記電子機
    器の動作を制御する制御工程と、を有することを特徴と
    する電子機器の制御方法。
  14. 【請求項14】 前記電子機器は通信装置であって、前
    記機器状態情報は、メールアドレスまたは端末識別番号
    に関する機器状態を含むことを特徴とする請求項8に記
    載の電子機器の制御方法。
  15. 【請求項15】 請求項8乃至14のいずれか1項に記
    載の電子機器の制御方法を実行することを特徴とするプ
    ログラム。
  16. 【請求項16】 請求項8乃至14のいずれか1項に記
    載の電子機器の制御方法を実行するプログラムを記憶し
    たことを特徴とする、コンピュータにより読み取り可能
    な記憶媒体。
JP2002108060A 2002-04-10 2002-04-10 音声認識機能付き電子機器及びその制御方法 Withdrawn JP2003302994A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002108060A JP2003302994A (ja) 2002-04-10 2002-04-10 音声認識機能付き電子機器及びその制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002108060A JP2003302994A (ja) 2002-04-10 2002-04-10 音声認識機能付き電子機器及びその制御方法

Publications (1)

Publication Number Publication Date
JP2003302994A true JP2003302994A (ja) 2003-10-24

Family

ID=29391933

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002108060A Withdrawn JP2003302994A (ja) 2002-04-10 2002-04-10 音声認識機能付き電子機器及びその制御方法

Country Status (1)

Country Link
JP (1) JP2003302994A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011030817A1 (ja) * 2009-09-09 2011-03-17 クラリオン株式会社 情報検索装置,情報検索方法及びナビゲーションシステム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011030817A1 (ja) * 2009-09-09 2011-03-17 クラリオン株式会社 情報検索装置,情報検索方法及びナビゲーションシステム
JP2011059313A (ja) * 2009-09-09 2011-03-24 Clarion Co Ltd 情報検索装置,情報検索方法及びナビゲーションシステム
US8949133B2 (en) 2009-09-09 2015-02-03 Clarion Co., Ltd. Information retrieving apparatus

Similar Documents

Publication Publication Date Title
JP5587119B2 (ja) 文字入力装置、その制御方法、及びプログラム
JP3226719B2 (ja) 情報伝送方法およびその装置
US20110071829A1 (en) Image processing apparatus, speech recognition processing apparatus, control method for speech recognition processing apparatus, and computer-readable storage medium for computer program
JP2006330576A (ja) 機器操作システム、音声認識装置、電子機器、情報処理装置、プログラム、及び記録媒体
US7421394B2 (en) Information processing apparatus, information processing method and recording medium, and program
JP2010224890A (ja) 操作画面制御装置、画像形成装置、およびコンピュータプログラム
JP2017102939A (ja) オーサリング装置、オーサリング方法、およびプログラム
JP2003302994A (ja) 音声認識機能付き電子機器及びその制御方法
JP4149370B2 (ja) オーダー処理装置、オーダー処理方法、オーダー処理プログラム、オーダー処理プログラム記録媒体及びオーダー処理システム
JPH10334084A (ja) 情報処理装置
JP3088399B2 (ja) 文書データ音声合成方式
JP2000315097A (ja) 電子機器、その制御方法、及び記録媒体
JPH10143638A (ja) 画像処理装置
JP2007026000A (ja) 情報処理装置及びユーザインターフェース制御方法
JP3606904B2 (ja) 画像形成装置
JP2004072274A (ja) 音声処理システム及びその制御方法
JP2004351622A (ja) 画像形成装置、プログラムおよび記録媒体
JP3068939B2 (ja) ファクシミリ装置
JP2006003411A (ja) 情報処理装置
JP2000112497A (ja) 音声認識方法及び装置と通信装置及びその制御方法
JP2008066819A (ja) 画像形成装置
JPH10151840A (ja) 情報処理装置
JP3097721B2 (ja) ターミナルプリンタ
JP2021009243A (ja) 画像形成装置およびそれを制御するためのプログラム
JP2021057786A (ja) 画像送信装置、画像送信装置の制御方法、及びそのプログラム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050705