JP2003195885A - Communication device and its control method - Google Patents

Communication device and its control method

Info

Publication number
JP2003195885A
JP2003195885A JP2001392732A JP2001392732A JP2003195885A JP 2003195885 A JP2003195885 A JP 2003195885A JP 2001392732 A JP2001392732 A JP 2001392732A JP 2001392732 A JP2001392732 A JP 2001392732A JP 2003195885 A JP2003195885 A JP 2003195885A
Authority
JP
Japan
Prior art keywords
voice
input
communication device
connection destination
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001392732A
Other languages
Japanese (ja)
Inventor
Atsushi Takahashi
淳 高橋
Hisashi Toyoda
寿 豊田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2001392732A priority Critical patent/JP2003195885A/en
Publication of JP2003195885A publication Critical patent/JP2003195885A/en
Withdrawn legal-status Critical Current

Links

Landscapes

  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To accelerate processing by lightening the load of speech recognition processing and to improve speech recognition precision. <P>SOLUTION: A communication device (100) which is equipped with a speech recognition means (102) for recognition an inputted speech and can be controlled according to the output of the speech recognition means (102) comprises a storage means (104) for storing a plurality of kinds of dictionaries for speech recognition and a selecting means (103) for selecting a dictionary for speech recognition corresponding to the operation mode of the communication device (100) from the storage means (104) and supplies the selected dictionary to the speech recognition means (102). <P>COPYRIGHT: (C)2003,JPO

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、音声認識機能を備
える通信装置に関する。
TECHNICAL FIELD The present invention relates to a communication device having a voice recognition function.

【0002】[0002]

【従来の技術】電話機、ファクシミリ装置、あるいはこ
れらの複合装置等の通信装置において、装置の操作や接
続先の入力を、操作部のキー入力に代えて、ユーザの音
声を認識して行うものが提案されている。
2. Description of the Related Art In a communication device such as a telephone, a facsimile device, or a complex device of these devices, there is a device for recognizing a user's voice for operating the device or inputting a connection destination, instead of inputting keys on an operation section. Proposed.

【0003】音声認識処理は概ね次のように行われる。
まず、マイクロフォンから入力されたユーザの音声を、
A/Dコンバータによりデジタル信号に変換し、雑音成
分の除去等を目的とした所定のフィルタリング処理を施
す。さらに、入力された音声データの周波数スペクトル
を算出し、予め用意された標準音声パターンとのパター
ンマッチング(照合)を行う。そして、このパターンマ
ッチングにおいて、標準音声パターンの中から最も類似
した標準音声が認識結果として出力される。
Speech recognition processing is generally performed as follows.
First, the user's voice input from the microphone,
It is converted into a digital signal by an A / D converter and subjected to a predetermined filtering process for the purpose of removing noise components. Further, the frequency spectrum of the input voice data is calculated, and pattern matching with a standard voice pattern prepared in advance is performed. Then, in this pattern matching, the most similar standard voice among the standard voice patterns is output as the recognition result.

【0004】また、近年、電話機能およびファクシミリ
通信機能に加えて、電話回線を介してインターネットへ
接続し、電子メール(Eメール)の送受信機能やWeb
ページの閲覧機能(ブラウザ機能)を有する、いわゆる
多機能(マルチファンクション)通信装置が提案されて
いる。
In recent years, in addition to the telephone function and the facsimile communication function, the function of transmitting and receiving an electronic mail (E-mail) and the Web by connecting to the Internet through a telephone line are provided.
A so-called multi-function communication device having a page browsing function (browser function) has been proposed.

【0005】このように多機能化が進むと操作が複雑に
なる可能性がある。すなわち、通信装置は一般に、パー
ソナルコンピュータ等のキーボードに比べその操作部の
キーが限定されているため、Eメールアドレスやインタ
ーネットアドレスを入力する場合、複雑なキー操作が必
要である。
As the number of functions increases, the operation may become complicated. That is, since the keys of the operation unit of a communication device are generally limited as compared with a keyboard of a personal computer or the like, complicated key operation is required when inputting an email address or an internet address.

【0006】かかる事情から最近では、音声認識機能を
備える通信装置が提案されている。音声認識機能によれ
ば、音声による接続先の指定等が可能になり、操作性の
向上が見込まれる。
Under these circumstances, a communication device having a voice recognition function has recently been proposed. According to the voice recognition function, it becomes possible to specify a connection destination by voice, and the operability is expected to be improved.

【0007】[0007]

【発明が解決しようとする課題】しかしながら、従来の
音声認識機能は、音声認識用辞書(音声辞書)に登録さ
れている全ての標準音声パターンと入力音声パターンと
のパターンマッチングを行うため、音声辞書に登録され
た標準音声パターンが多くなればなるほど、その処理負
荷が増大するという問題がある。
However, since the conventional voice recognition function performs pattern matching between all the standard voice patterns registered in the voice recognition dictionary (voice dictionary) and the input voice pattern, the voice dictionary is used. There is a problem that the processing load increases as the number of standard voice patterns registered in is increased.

【0008】また、パターンマッチングにおいて類似し
た音声を検索するため、標準音声パターンが多くなる
と、誤った標準音声パターンを選択する可能性が増し、
認識の精度が低下するという問題点がある。
Further, since similar voices are searched for in the pattern matching, when the number of standard voice patterns increases, the possibility of selecting an incorrect standard voice pattern increases.
There is a problem that the accuracy of recognition decreases.

【0009】さらに、ある相手先が電話番号のファクシ
ミリ番号の両方を有している場合において、その相手先
の電話番号、ファクシミリ番号それぞれを同一の相手先
略称で登録してしまうと、単にその相手先略称を音声入
力しただけでは、電話とファクシミリのどちらに発呼し
たいのか判別することができないという問題もある。そ
のため、いずれにせよ音声入力またはキー入力よって電
話かファクシミリを選択する操作が必要となっている。
その相手先略称にさらにEメールアドレスが登録されて
いる場合には、使用する機能は電話かファクシミリかに
加え、Eメール送受信機能なのかを選ぶ必要がある。
Further, when a destination has both a facsimile number and a telephone number, if the telephone number and the facsimile number of the destination are registered with the same destination abbreviation, the destination is simply There is also a problem that it is not possible to determine which one of the telephone and the facsimile is to be called by simply inputting the abbreviation. Therefore, in any case, it is necessary to select either telephone or facsimile by voice input or key input.
If an e-mail address is further registered in the recipient's abbreviation, it is necessary to select whether the function to be used is a telephone or facsimile and also an e-mail transmission / reception function.

【0010】本発明はかかる問題点を解決するためにな
されたものであり、音声認識手段を備える通信装置にお
いて、音声認識処理の負荷を軽減し、処理の高速化を図
るとともに、音声認識精度を向上させることを目的とす
る。
The present invention has been made to solve the above problems, and in a communication device having a voice recognition means, the load of voice recognition processing is reduced, the processing speed is increased, and the voice recognition accuracy is improved. The purpose is to improve.

【0011】さらに、本発明は、多機能(例えば、通話
機能、ファクシミリ通信機能、Eメール送受信機能等を
含む)通信装置において、相手先略称を音声入力しただ
けでどの機能を使用したいのか判別することを可能に
し、もって操作手順を簡略化することを目的とする。
Further, according to the present invention, in a multi-function (including a call function, a facsimile communication function, an e-mail transmission / reception function, etc.) communication apparatus, it is possible to determine which function is desired to be used only by voice inputting the other party's abbreviation. It is possible to simplify the operation procedure.

【0012】[0012]

【課題を解決するための手段】本発明によれば、入力さ
れた音声を認識する音声認識手段を備え、当該音声認識
手段の出力に応じて制御されうる通信装置であって、複
数種類の音声認識用辞書を記憶する記憶手段と、前記記
憶手段から、当該通信装置の動作モードに応じた音声認
識用辞書を選択し、前記音声認識手段に供給する選択手
段と、を備えることを特徴とする通信装置が提供され
る。
According to the present invention, there is provided a voice recognition device for recognizing an input voice, which is a communication device which can be controlled according to the output of the voice recognition device. It is characterized by further comprising: storage means for storing a recognition dictionary; and selection means for selecting a voice recognition dictionary according to the operation mode of the communication device from the storage means and supplying it to the voice recognition means. A communication device is provided.

【0013】また、本発明によれば、複数種類の音声認
識用辞書を記憶する記憶手段を備える通信装置の制御方
法であって、当該通信装置の動作モードを判定する判定
ステップと、前記記憶手段から、前記判定ステップで判
定された前記動作モードに応じた音声認識用辞書を選択
し、前記音声認識手段に供給する選択ステップと、音声
を入力する音声入力ステップと、入力された前記音声に
ついて、前記選択ステップで供給された前記音声認識辞
書を用いて音声認識処理を行う音声認識ステップと、前
記音声認識処理の出力に基づき、前記動作モードにおけ
る処理を実行するステップと、を有することを特徴とす
る通信装置の制御方法が提供される。
Further, according to the present invention, there is provided a method of controlling a communication device, comprising a storage means for storing a plurality of types of speech recognition dictionaries, the determination step of determining an operation mode of the communication device, and the storage means. From the selection step of selecting a voice recognition dictionary according to the operation mode determined in the determination step, supplying to the voice recognition means, a voice input step of inputting voice, and the input voice, A voice recognition step of performing a voice recognition process using the voice recognition dictionary supplied in the selection step; and a step of executing a process in the operation mode based on an output of the voice recognition process. A method of controlling a communication device is provided.

【0014】さらに、本発明によれば、電話回線を介し
て通話を行う通話手段と、電話回線を介してファクシミ
リ通信を行うファクシミリ通信手段と、インターネット
を介してデータ通信を行うデータ通信手段と、を備える
通信装置であって、接続先略称とその接続先を特定する
情報との対応関係を記述した記憶手段と、音声を入力す
る音声入力手段と、入力された前記音声を認識する音声
認識手段と、上記各通信手段のうちいずれの手段を使用
するのかを判定する判定手段と、前記音声認識手段の出
力と前記記憶手段における各接続先略称とを照合してそ
の照合結果に応じて接続先略称を選択する照合手段と、
を備え、前記照合手段は、前記判定手段における判定結
果に応じて、前記記憶手段における各接続先略称の照合
候補を制限する制御手段を含むことを特徴とする通信装
置も提供される。
Further, according to the present invention, a call means for making a call via a telephone line, a facsimile communication means for making a facsimile communication via a telephone line, and a data communication means for making a data communication via the Internet, A communication device comprising: a storage unit that describes a correspondence relationship between a connection destination abbreviation and information that identifies the connection destination; a voice input unit that inputs a voice; and a voice recognition unit that recognizes the input voice. And a determination means for determining which one of the communication means is to be used, the output of the voice recognition means and each connection destination abbreviation in the storage means are compared, and the connection destination is determined according to the comparison result. Collation means for selecting an abbreviation,
There is also provided a communication device, characterized in that the collation means includes control means for limiting collation candidates of each connection destination abbreviation in the storage means according to the determination result of the determination means.

【0015】さらにまた、本発明によれば、接続先略称
とその接続先を特定する情報との対応関係を記述した記
憶手段と、電話回線を介して通話を行う通話手段と、電
話回線を介してファクシミリ通信を行うファクシミリ通
信手段と、インターネットを介してデータ通信を行うデ
ータ通信手段と、を備える通信装置の制御方法であっ
て、音声を入力する音声入力ステップと、入力された前
記音声を認識する音声認識ステップと、上記各通信手段
のうちいずれの手段を使用するのかを判定する判定ステ
ップと、前記音声認識ステップで得られた認識結果と前
記記憶手段における各接続先略称とを照合してその照合
結果に応じて接続先略称を選択する照合ステップと、を
有し、前記照合ステップは、前記判定ステップで得られ
た判定結果に応じて、前記記憶手段における各接続先略
称の照合候補を制限する制御ステップを含むことを特徴
とする通信装置の制御方法も提供される。
Further, according to the present invention, storage means describing the correspondence between the abbreviation of the connection destination and the information for specifying the connection destination, the communication means for making a call through the telephone line, and the communication line for the telephone line are used. A method for controlling a communication device, comprising: a facsimile communication means for performing facsimile communication by means of facsimile communication; and a data communication means for performing data communication via the Internet, comprising a voice input step of inputting voice, and recognizing the input voice. Voice recognition step, a determination step of determining which one of the above-mentioned communication means is used, the recognition result obtained in the voice recognition step and each connection destination abbreviation in the storage means are compared. And a collating step of selecting a connection destination abbreviation according to the collating result, the collating step according to the determination result obtained in the determining step. The communication control method characterized by comprising the control step of limiting the matching candidates for each destination referred in the storage means is also provided.

【0016】[0016]

【発明の実施の形態】以下、図面を参照して本発明の好
適な実施形態について詳細に説明する。
BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the drawings.

【0017】(実施形態1)図1は、本実施形態におけ
る通信装置のブロック構成図である。以下、この図の各
ブロックについて説明する。
(Embodiment 1) FIG. 1 is a block diagram of a communication device in this embodiment. Each block in this figure will be described below.

【0018】通信装置100は、公衆回線113を介し
て他の電話機やファクシミリ装置と接続され、通話やフ
ァクシミリデータの送受信が可能である。また、公衆回
線113を介してインターネットサービスプロバイダ
(Internet Service Provider、以下ISP)と接続さ
れ、ISPを介してEメールの送受信やWebページの
閲覧も可能である。つまり、通信装置100は、電話回
線を介して通話を行う通話機能およびファクシミリ送受
信を行うファクシミリ通信機能、そして、インターネッ
トを介してデータ通信(Eメール送受信およびWeb閲
覧を含む)を行うデータ通信機能を有している。
The communication device 100 is connected to another telephone or a facsimile device via the public line 113 and is capable of making a call or transmitting / receiving facsimile data. Further, it is connected to an Internet service provider (hereinafter referred to as ISP) via the public line 113, and it is possible to send and receive e-mail and browse Web pages via the ISP. That is, the communication device 100 has a call function for making a call via a telephone line, a facsimile communication function for performing facsimile transmission / reception, and a data communication function for performing data communication (including email transmission / reception and Web browsing) via the Internet. Have

【0019】制御部114は、CPU、プログラムを格
納したROMなど(図示省略)から構成され、ROMに
記憶されているプログラムに従い各ブロックを制御し、
さらには通信装置全体の制御を行う。
The control unit 114 is composed of a CPU, a ROM storing a program, etc. (not shown), and controls each block in accordance with the program stored in the ROM.
Furthermore, it controls the entire communication device.

【0020】101はユーザの音声を入力し、入力音声
をアナログ信号として音声認識部102に与えるマイク
ロフォンである。
Reference numeral 101 is a microphone for inputting a user's voice and giving the input voice as an analog signal to the voice recognition unit 102.

【0021】音声認識部102は、A/Dコンバータ、
DSP等の信号処理回路(ともに図示省略)から構成さ
れ、マイクロフォン101より入力したユーザの音声を
認識し、認識結果を制御部114に出力する。
The voice recognition unit 102 is an A / D converter,
It is composed of a signal processing circuit such as a DSP (both not shown), recognizes the user's voice input from the microphone 101, and outputs the recognition result to the control unit 114.

【0022】マイクロフォン101より入力されたユー
ザの音声は、A/Dコンバータによりデジタル信号に変
換され、信号処理回路において雑音成分の除去を目的と
した所定のフィルタリング処理が施される。続いて、信
号処理回路において入力された音声信号の周波数スペク
トルを算出し、入力音声パターンを生成する。さらに、
この入力音声パターンと辞書選択部103から与えられ
る標準音声パターンとのパターンマッチングを行い、音
声認識用辞書(音声辞書)の中から最も類似した標準音
声を認識結果として出力する。
The user's voice input from the microphone 101 is converted into a digital signal by an A / D converter, and a predetermined filtering process for removing a noise component is performed in the signal processing circuit. Then, the frequency spectrum of the audio signal input in the signal processing circuit is calculated to generate an input audio pattern. further,
Pattern matching between this input voice pattern and the standard voice pattern given from the dictionary selection unit 103 is performed, and the most similar standard voice from the voice recognition dictionary (voice dictionary) is output as a recognition result.

【0023】辞書選択部103は、制御部114の制御
に従い、音声辞書メモリ104に登録されている複数の
音声辞書の中から所定の音声辞書を選択し、その音声辞
書内の標準音声パターンを音声認識部102に与えるも
のである。
Under the control of the control unit 114, the dictionary selection unit 103 selects a predetermined voice dictionary from a plurality of voice dictionaries registered in the voice dictionary memory 104, and outputs a standard voice pattern in the voice dictionary as a voice. This is given to the recognition unit 102.

【0024】音声辞書メモリ104は、音声認識部10
2のパターンマッチグにおいて認識対象となる標準音声
パターンを、デジタル形式のデータとして記憶したメモ
リである。この音声辞書メモリ104に格納される音声
辞書の構成については後述する。
The voice dictionary memory 104 includes a voice recognition unit 10.
This is a memory in which a standard voice pattern to be recognized in the second pattern matching is stored as digital format data. The structure of the voice dictionary stored in the voice dictionary memory 104 will be described later.

【0025】操作部105は、接続先アドレスを入力す
るダイヤルキー、予め登録された接続先アドレスを呼び
出すワンタッチキー、送信/受信動作を起動するスター
トキー、動作を停止させるストップキー、この通信装置
の動作モードを設定するモード設定キーなどから構成さ
れ、その押下状態の情報を制御部114に出力する。ユ
ーザはこの操作部105を使用して本通信装置100を
操作してもよいし、マイクロフォン101から音声を入
力し、音声認識によって本通信装置100を操作しても
よい。
The operation unit 105 includes a dial key for inputting a connection destination address, a one-touch key for calling a pre-registered connection destination address, a start key for activating a transmission / reception operation, a stop key for stopping the operation, and a communication key of this communication device. It is composed of a mode setting key for setting the operation mode, and outputs information on the pressed state to the control unit 114. The user may operate the communication device 100 by using the operation unit 105, or may input the voice from the microphone 101 and operate the communication device 100 by voice recognition.

【0026】表示部106は、LCD(液晶表示器)や
LED(発光ダイオード)などから構成され、制御部1
14の制御に基づき本通信装置100の動作状態等を表
示するものである。また、インターネットを介してロー
ドしたWebページ情報や、受信したEメールの内容も
表示可能である。さらに、辞書選択部103で選択され
ている音声辞書の種別を表示し、ユーザに認識可能な音
声の種別を知らしめるためにも使用される。
The display unit 106 is composed of an LCD (liquid crystal display), an LED (light emitting diode), etc., and the control unit 1
The operation state and the like of the communication device 100 are displayed under the control of 14. Further, it is possible to display the web page information loaded via the Internet and the content of the received e-mail. Further, it is also used to display the type of the voice dictionary selected by the dictionary selection unit 103 and inform the user of the recognizable voice type.

【0027】読取部107は、CCD(Charge Coupled
Device)やCS(密着型イメージセンサ)などの光電
変換手段から構成され、制御部114の制御に基づき原
稿を読み取り、その画像データをデジタルデータとして
順次データメモリ109に蓄積するものである。また、
A/D変換回路、シェーディング補正回路、解像度変換
回路、エッジ強調回路、γ補正回路などを有し、読み取
った画像データに2値もしくは多値の画像処理を施す。
さらに、原稿の給排紙ローラを駆動するためのステッピ
ングモータ、そのモータを駆動するためのドライバ回
路、原稿幅や原稿の有無を検知するセンサ回路などを有
し、制御部114の制御に基づき原稿の搬送を行う。
The reading unit 107 is a CCD (Charge Coupled).
Device), CS (contact type image sensor), or other photoelectric conversion means, which reads a document under the control of the control unit 114 and sequentially stores the image data as digital data in the data memory 109. Also,
It has an A / D conversion circuit, a shading correction circuit, a resolution conversion circuit, an edge enhancement circuit, a γ correction circuit, and the like, and performs binary or multivalued image processing on the read image data.
Further, it has a stepping motor for driving a document feeding / discharging roller, a driver circuit for driving the motor, a sensor circuit for detecting the document width and the presence or absence of the document, and the like based on the control of the control unit 114. Carry out.

【0028】記録部108は、BJ(バブルジェット
(登録商標))などのプリンタヘッド、給排紙ローラを
駆動するステッピングモータ、これらを駆動するドライ
バ回路、記録紙幅や記録紙有無を検知するセンサ回路な
どから構成され、制御部114の制御に基づき、ファク
シミリ受信画像やWebページなどを記録紙にプリント
出力する。
The recording unit 108 includes a printer head such as a BJ (Bubble Jet (registered trademark)), a stepping motor that drives a paper feed / discharge roller, a driver circuit that drives these, and a sensor circuit that detects the recording paper width and the presence or absence of the recording paper. Under the control of the control unit 114, the facsimile received image, the Web page, etc. are printed out on the recording paper.

【0029】データメモリ109は、DRAMなどのメ
モリから構成され、読取部107で読み取った画像デー
タや、公衆回線113を介して接続先ファクシミリから
受け取るファクシミリデータを格納する。また、データ
メモリ109は、Eメール送信時に作成したEメール情
報や、接続先のISPから受け取ったWebページ情報
なども格納する。
The data memory 109 is composed of a memory such as a DRAM and stores the image data read by the reading unit 107 and the facsimile data received from the connected facsimile via the public line 113. The data memory 109 also stores e-mail information created during e-mail transmission, web page information received from the ISP of the connection destination, and the like.

【0030】アドレス帳110は、バッテリ等でバック
アップされたSRAMやフラッシュメモリなどの不揮発
性メモリで構成され、接続先の電話(FAX)番号やE
メールアドレス、インターネットアドレス(例えばUR
L)に接続先略称を付加して記憶する。また、アドレス
帳検索時には、接続先略称を基に接続先アドレスを検索
する。さらには、装置固有の情報、ISPの電話番号、
通信履歴なども記憶する。
The address book 110 is composed of a nonvolatile memory such as SRAM or flash memory backed up by a battery or the like, and has a telephone (FAX) number or E of a connection destination.
Email address, internet address (eg UR
The connection destination abbreviation is added to L) and stored. When searching the address book, the connection destination address is searched based on the connection destination abbreviation. Furthermore, device-specific information, ISP phone number,
It also stores communication history.

【0031】通話部111はいわゆるハンドセットであ
り、通話のためのマイクやスピーカなどから構成され
る。
The call unit 111 is a so-called handset, and is composed of a microphone and a speaker for making a call.

【0032】通信制御部112は、通信データの変復調
を行うモデム、回線の補足回路、Ci(呼出信号)検出
回路、ダイヤル番号送出回路などから構成され、制御部
114の制御に基づき、通信装置100と接続先である
電話機/ファクシミリ装置/ISPとを公衆回線113
を介して接続して、通信データの送受を行う。
The communication control unit 112 is composed of a modem that modulates and demodulates communication data, a line supplemental circuit, a Ci (call signal) detection circuit, a dial number transmission circuit, etc., and under the control of the control unit 114, the communication device 100. And the telephone / facsimile device / ISP that is the connection destination to the public line 113
To connect and receive communication data.

【0033】通話は、通話部111と公衆回線113に
接続して行われる。また、ファクシミリ通信は、公衆回
線113を介して相手先のファクシミリ装置と接続した
後に、G3ファクシミリ手順に従い通信データの送受信
を行う。さらに、Eメール送受信やWebページの閲覧
は、公衆回線113を介してISPと接続した後に、T
CP/IP(Transmission Control Protocol/Interne
t Protocol)プロトコルに従い通信データの送受を行
う。
A call is made by connecting to the call section 111 and the public line 113. In facsimile communication, communication data is transmitted and received according to the G3 facsimile procedure after connecting to the facsimile machine of the other party via the public line 113. Furthermore, for sending / receiving E-mail and browsing Web pages, after connecting to the ISP via the public line 113, T
CP / IP (Transmission Control Protocol / Interne
t Protocol) Transmission and reception of communication data according to the protocol.

【0034】図2は、音声辞書メモリ104に格納され
る音声辞書の構造を概念的に示す図である。
FIG. 2 is a diagram conceptually showing the structure of the voice dictionary stored in the voice dictionary memory 104.

【0035】図示の如く、音声辞書メモリ104は、標
準音声パターンをその種別に応じ、複数の音声辞書に分
類して記憶する。図示において、“ ”で挟まれる表記
は標準音声パターンを示し、「 」で挟まれる表記はそ
れぞれの標準音声に対応する文字または操作コマンドを
示している。
As shown in the figure, the voice dictionary memory 104 classifies and stores standard voice patterns into a plurality of voice dictionaries according to their types. In the figure, the notation between "" indicates a standard voice pattern, and the notation between "" indicates a character or an operation command corresponding to each standard voice.

【0036】201で示される辞書Aは仮名用標準音声
パターンであり、「あ」、「い」、「う」などの五十音
の標準音声パターンを格納する。この辞書Aは主に接続
先略称を音声入力する際の音声認識に用いられる。
The dictionary A indicated by 201 is a kana standard voice pattern, and stores standard voice patterns of Japanese syllabary such as "A", "I", "U". This dictionary A is mainly used for voice recognition when voice inputting the connection destination abbreviation.

【0037】202で示される辞書Bは数字用標準音声
パターンであり、「1」、「2」、「3」などの数字の
標準音声データを格納する。この辞書Bは主に接続先の
電話番号を音声入力する際の音声認識に用いられる。
The dictionary B indicated by 202 is a standard voice pattern for numbers, and stores standard voice data of numbers such as "1", "2", "3". This dictionary B is mainly used for voice recognition when the telephone number of the connection destination is input by voice.

【0038】203で示される辞書Cはアルファベット
用標準音声パターンであり、アルファベット「a」、
「b」、「c」や、記号「@」、「/」、「:」などの
標準音声パターンを格納する。この辞書Cは主にインタ
ーネットアドレスを音声入力する際の音声認識に用いら
れる。
The dictionary C indicated by 203 is a standard voice pattern for the alphabet, and the alphabet "a",
Standard voice patterns such as “b” and “c” and symbols “@”, “/”, “:” are stored. This dictionary C is mainly used for voice recognition when voice inputting an Internet address.

【0039】204で示される辞書Dは操作コマンド用
標準音声パターンであり、「開始」、「停止」、「登
録」などの装置制御用のコマンドや、「電話」、「FA
X」、「Eメール」などの装置機能を選択するコマンド
の標準音声パターンを格納する。
A dictionary D indicated by 204 is a standard voice pattern for operation commands, and includes device control commands such as "start", "stop", "register", "telephone", and "FA".
A standard voice pattern of a command for selecting a device function such as "X" or "E-mail" is stored.

【0040】このように本実施形態では、辞書A、B、
Cはそれぞれ、接続先を特定する情報の入力するための
接続先入力用辞書として使用され、辞書Dは操作コマン
ド用辞書として使用される。なお、本実施形態の通信装
置では上記の如く音声辞書を4種類に分類したが、音声
認識の目的、用途に応じて異なる分類またはより詳細な
分類を行うことにしてもよい。
As described above, in this embodiment, the dictionaries A, B,
Each C is used as a connection destination input dictionary for inputting information for identifying a connection destination, and the dictionary D is used as an operation command dictionary. In the communication device of the present embodiment, the voice dictionary is classified into four types as described above, but different classification or more detailed classification may be performed depending on the purpose and use of voice recognition.

【0041】以上、本実施形態における通信装置の構成
について説明した。
The configuration of the communication device according to this embodiment has been described above.

【0042】次に、図3から図6のフローチャートに従
い、本発明の通信装置の動作について説明する。
Next, the operation of the communication apparatus of the present invention will be described with reference to the flow charts of FIGS.

【0043】図3は、ユーザの音声によって電話番号の
入力を行う際の通信装置100の動作を示すフローチャ
ートである。これらのフローチャートに対応するプログ
ラムは制御部114が具備する図示しないROMに格納
され、制御部114によって実行されるものである。
FIG. 3 is a flowchart showing the operation of the communication device 100 when the telephone number is input by the voice of the user. Programs corresponding to these flowcharts are stored in a ROM (not shown) included in the control unit 114 and executed by the control unit 114.

【0044】通信装置100の初期状態では、その動作
モードを、操作コマンドの入力を待機する操作待機モー
ドに設定する。この操作待機モードにおいて、辞書選択
部103で操作コマンド用標準音声パターン204を選
択しておき(ステップS301)、ユーザの音声により
何らかの操作がなされると次のステップへと移行する
(ステップS302)。すなわち、通信装置100は、
操作待機モードから、接続先を特定する情報の入力を可
能とする入力モードに移行する。本実施形態における入
力モードは、以下に示すように、アドレス帳登録モー
ド、アドレス帳検索モード、Eメール&インターネット
モード、そして、TEL&FAXモードを含む。
In the initial state of the communication device 100, its operation mode is set to the operation standby mode for waiting for the input of an operation command. In the operation standby mode, the standard voice pattern 204 for operation command is selected by the dictionary selection unit 103 (step S301), and if any operation is performed by the user's voice, the process proceeds to the next step (step S302). That is, the communication device 100
The operation standby mode is shifted to the input mode in which the information specifying the connection destination can be input. The input modes in this embodiment include an address book registration mode, an address book search mode, an e-mail & Internet mode, and a TEL & FAX mode, as shown below.

【0045】ここで、例えば、ユーザにより“アドレス
チョウ”+“トウロク”という音声が入力され、この音
声を音声認識部102で「アドレス帳」+「登録」とい
う操作コマンドとして認識されると、通信装置100は
制御部114の制御によりアドレス帳登録モードとして
図5のフローに移行する(ステップS303)。
Here, for example, when the user inputs the voice "Address butterfly" + "Touroku" and the voice is recognized by the voice recognition unit 102 as the operation command "Address book" + "Registration", communication is performed. The device 100 shifts to the flow of FIG. 5 as the address book registration mode under the control of the control unit 114 (step S303).

【0046】また、“アドレスチョウ”+“ケンサク”
という音声が入力され、音声認識部102で「アドレス
帳」+「検索」という操作コマンドとして認識される
と、通信装置100は制御部114の制御によりアドレ
ス帳検索モードとして図6のフローに移行する(ステッ
プS304)。
Also, "address butterfly" + "kensaku"
6 is input and recognized by the voice recognition unit 102 as an operation command of “address book” + “search”, the communication device 100 shifts to the flow of FIG. 6 as the address book search mode under the control of the control unit 114. (Step S304).

【0047】さらに、“メール”または“インターネッ
ト”という音声が入力され、音声認識部102で「Eメ
ール」または「インターネット」という操作コマンドと
して認識されると、通信装置100は制御部114の制
御によりEメール&インターネットモードとして図4の
フローに移行する(ステップS305)。
Further, when the voice of “mail” or “Internet” is input and recognized by the voice recognition unit 102 as an operation command of “Email” or “Internet”, the communication device 100 is controlled by the control unit 114. The flow shifts to the flow of FIG. 4 as the e-mail & Internet mode (step S305).

【0048】ステップS302において認識された操作
コマンドが、「電話」または「FAX」であった場合、
ユーザにより通話またはファクシミリ送信が行われるも
のとみなし(ステップS305)、続いて音声による電
話番号の入力処理へ移行する。
If the operation command recognized in step S302 is "telephone" or "FAX",
It is considered that the user is making a call or a facsimile transmission (step S305), and the process proceeds to a voice telephone number input process.

【0049】制御部114は音声による電話番号の入力
のために、辞書選択部103において、音声辞書として
操作コマンド用標準音声パターン204と数字用標準音
声パターン202を選択し(ステップS306)、さら
に、表示部106に数字の音声認識が可能であることを
表示する(ステップS307)。次に、ユーザの音声に
より入力される電話番号の認識を行う。
In order to input the telephone number by voice, the control unit 114 selects the standard voice pattern for operation command 204 and the standard voice pattern for numbers 202 as the voice dictionary in the dictionary selection unit 103 (step S306). It is displayed on the display unit 106 that the number can be recognized by voice (step S307). Next, the telephone number input by the user's voice is recognized.

【0050】音声認識部102は入力された音声を1文
字づつ認識し(ステップS308)、認識した数字を表
示部106に表示する(ステップS309)。この処理
を、発呼の開始を示す“スタート”という音声が入力さ
れるまで繰り返す(ステップS308〜ステップS31
0)。
The voice recognition unit 102 recognizes the input voice character by character (step S308), and displays the recognized number on the display unit 106 (step S309). This process is repeated until the voice "start" indicating the start of calling is input (steps S308 to S31).
0).

【0051】例えば、電話番号として03−1234−
5678という番号をユーザが音声入力する場合、ユー
ザは先ず“ゼロ”という音声を入力することになる。音
声認識部102はこの音声を「0」という数字として認
識し、表示部106に<0>と表示する。次に“サン”
という音声が入力され、同様の音声認識処理を行い、表
示部103に<03>と表示する。この処理を、表示部
103に<0312345678>と表示されるまで繰
り返す(ステップS308〜ステップS310)。
For example, the telephone number is 03-1234.
When the user voice-inputs the number 5678, the user first inputs the voice "zero". The voice recognition unit 102 recognizes this voice as a number “0” and displays <0> on the display unit 106. Then "Sun"
Is input, the same voice recognition processing is performed, and <03> is displayed on the display unit 103. This process is repeated until <0312345678> is displayed on the display unit 103 (steps S308 to S310).

【0052】ステップS310において、ユーザから
“スタート”という音声が入力され、この音声を音声認
識部102が「開始」という操作コマンドであると認識
すると、続いて電話の発呼処理を行う。制御部114
は、ステップS308〜ステップS310で認識した電
話番号を通信制御部112を介して公衆回線113へ送
出(ステップS311)し、相手先の電話機またはファ
クシミリ装置との接続を行う。
In step S310, the voice "start" is input from the user, and when the voice recognition unit 102 recognizes this voice as the operation command "start", the telephone call process is subsequently performed. Control unit 114
Sends out the telephone number recognized in steps S308 to S310 to the public line 113 via the communication control unit 112 (step S311), and connects to the destination telephone or facsimile machine.

【0053】次に、ステップS302においてユーザに
より入力された音声が「電話」の操作を示すコマンドで
あったのか「ファクシミリ」の操作を示すコマンドであ
ったのかが判断される(ステップS312)。ここで、
ユーザにより入力された音声が「電話」の操作を示すコ
マンドであった場合は、通話部111を公衆回線113
に接続して通話を行う(ステップS313)。一方、ユ
ーザにより入力された音声が「ファクシミリ」の操作を
示すコマンドであった場合は、読取部107で読み取っ
た画像データをG3のファクシミリデータに変換し、公
衆回線113を介して相手先のファクシミリ装置に送信
する(ステップS314)。
Next, it is determined whether the voice input by the user in step S302 is a command indicating a "telephone" operation or a command indicating a "facsimile" operation (step S312). here,
If the voice input by the user is a command indicating a “telephone” operation, the call unit 111 is set to the public line 113.
To make a call (step S313). On the other hand, when the voice input by the user is a command indicating a “facsimile” operation, the image data read by the reading unit 107 is converted into G3 facsimile data, and the facsimile of the other party is transmitted via the public line 113. It is transmitted to the device (step S314).

【0054】通信装置100は、通話またはファクシミ
リ送信の終了後、初期状態(操作待機モード)に戻り、
辞書選択部103で操作コマンド用標準音声パターン2
04を選択し(ステップS301)、ユーザによる次の
操作を待機する。
After the call or the facsimile transmission is completed, the communication device 100 returns to the initial state (operation standby mode),
Standard voice pattern 2 for operation command in dictionary selection unit 103
04 is selected (step S301), and the next operation by the user is awaited.

【0055】図4は、ユーザの音声により、Eメールア
ドレスまたはインターネットアドレスを入力する際の動
作を示すフローチャートである。先述したとおり、図3
のステップS305においてEメール&インターネット
モードと判定された場合、以降、Eメール送信またはW
ebページの閲覧が行われるものとみなし、音声による
アドレス入力処理へ移行する。
FIG. 4 is a flow chart showing an operation when inputting an e-mail address or an internet address by the voice of the user. As mentioned earlier, Figure 3
If it is determined to be the e-mail & Internet mode in step S305 of step S305, the e-mail transmission or W
Since it is assumed that the eb page is browsed, the process shifts to a voice address input process.

【0056】先ず、制御部114は音声によるアドレス
入力のために、辞書選択部103において、数字用標準
音声パターン202、アルファベット用標準音声パター
ン203、および操作コマンド用標準音声パターン20
4を音声辞書として選択し(ステップS401)、表示
部106に数字とアルファベットの音声認識が可能であ
ることを表示する(ステップS402)。
First, the control unit 114 uses the standard voice pattern 202 for numbers, the standard voice pattern 203 for alphabets, and the standard voice pattern 20 for operation commands in the dictionary selection unit 103 to input an address by voice.
4 is selected as a voice dictionary (step S401), and it is displayed on the display unit 106 that voice recognition of numbers and alphabets is possible (step S402).

【0057】次に、ユーザの音声により入力されるアド
レスの認識を行う。入力された音声を音声認識部102
において1文字づつ認識し(ステップS403)、認識
した文字を表示部106に表示する(ステップS40
4)。この処理を、開始の操作コマンドを示す“スター
ト”という音声が入力されるまで繰り返す(ステップS
403〜ステップS405)。
Next, the address input by the voice of the user is recognized. The input voice is converted into the voice recognition unit 102.
In step S403, the characters are recognized one by one, and the recognized characters are displayed on the display unit 106 (step S40).
4). This process is repeated until a voice "START" indicating a start operation command is input (step S
403 to step S405).

【0058】例えば、アドレスとしてabc@123.co.jpと
いうEメールアドレスを入力する場合、ユーザは先ず
“エー”という音声を入力することになる。この音声を
音声認識部102で「a」という数字として認識し、表
示部106に<a>と表示する。次に“ビー”という音
声が入力されると、同様の音声認識処理によって、表示
部103に<ab>と表示する。この処理を、表示部10
3に<abc@123.co.jp>と表示されるまで繰り返す(ス
テップS403〜ステップS405)。
For example, when the e-mail address abc@123.co.jp is input as the address, the user first inputs the voice "A". The voice recognition unit 102 recognizes this voice as a number “a” and displays <a> on the display unit 106. Next, when the voice "BEE" is input, the same voice recognition processing is performed, and <ab> is displayed on the display unit 103. This process is performed by the display unit 10
This is repeated until <abc@123.co.jp> is displayed in step 3 (step S403 to step S405).

【0059】ユーザが“スタート”という音声が入力さ
れ、ステップS405で、この音声が音声認識部102
において「開始」という操作コマンドであると認識され
ると、予め登録してあるISPの電話番号を、通信制御
部112を介して公衆回線113へ送出してISPとの
接続を行う(ステップS406)。
The user inputs the voice "start", and this voice is recognized by the voice recognition unit 102 in step S405.
When it is recognized that the operation command is “start”, the ISP telephone number registered in advance is sent to the public line 113 via the communication control unit 112 to establish connection with the ISP (step S406). .

【0060】次に、Eメール送受信を行うのか、Web
ページの閲覧を行うのかを、上記したステップS302
での操作コマンドに基づき判断する(ステップS40
7)。上記のステップS302で「インターネット」を
示す操作コマンドが認識されていた場合は、ステップS
403〜ステップS405で入力されたインターネット
アドレスをISPへと送出し(ステップS408)、該
当するWebページの情報をISP経由でダウンロード
する(ステップS409)。ダウンロードした情報は一
旦データメモリ109へと蓄積し、その内容を表示部1
06において表示、または記録部108において印刷し
て(ステップS410)Webページの閲覧を行う。
Next, whether to send and receive e-mail,
Whether to browse the page is determined in step S302 described above.
Judgment based on the operation command in step S40 (step S40)
7). If the operation command indicating "Internet" is recognized in step S302, step S
The Internet address input in steps 403 to S405 is sent to the ISP (step S408), and the information of the corresponding web page is downloaded via the ISP (step S409). The downloaded information is temporarily stored in the data memory 109, and the contents are displayed on the display unit 1.
The web page is displayed at 06 or printed at the recording unit 108 (step S410) to browse the web page.

【0061】一方、ステップS302で「Eメール」を
示す操作コマンドが認識されていた場合は、ステップS
403〜ステップS405で入力されたEメールアドレ
スを、予め作成したEメールの宛先欄へ挿入し(ステッ
プS411)、SMTP(Simple Mail Transfer Proto
col)プロトコルに従い、Eメール情報をISPへと送
信する(ステップS412)。
On the other hand, if the operation command indicating "Email" is recognized in step S302, step S302
The email address input in steps 403 to S405 is inserted into the destination field of the email created in advance (step S411), and the SMTP (Simple Mail Transfer Proto) is entered.
col) protocol, the e-mail information is transmitted to the ISP (step S412).

【0062】通信装置100は、Eメール送信またはW
ebページの閲覧が終了後、初期状態(操作待機モー
ド)に戻り、辞書選択部103で操作コマンド用標準音
声パターン204を選択し(ステップS301)、ユー
ザによる次の操作を待機する。
The communication device 100 sends e-mail or W
After the browsing of the eb page is completed, the process returns to the initial state (operation standby mode), the standard voice pattern 204 for operation command is selected by the dictionary selection unit 103 (step S301), and the next operation by the user is awaited.

【0063】なお、送信するEメールの本文作成におい
ても音声認識機能を用いることができる。この場合、入
力したい文字の種別に応じ、その都度対応する音声辞書
を切り替えて、音声入力による文書の作成を行えばよ
い。
It should be noted that the voice recognition function can also be used in creating the body of the email to be sent. In this case, the corresponding voice dictionary may be switched each time according to the type of character to be input, and the document may be created by voice input.

【0064】図5は、ユーザの音声により、アドレス帳
登録を行う際の動作を示すフローチャートである。先述
したとおり、図3のステップS303でアドレス帳登録
モードと判定された場合、アドレス帳登録が行われるも
のとみなし、ユーザの音声による接続先略称および接続
先アドレスの入力処理へ移行する。
FIG. 5 is a flow chart showing the operation when the address book is registered by the voice of the user. As described above, when the address book registration mode is determined in step S303 of FIG. 3, it is considered that the address book registration is performed, and the process proceeds to the process of inputting the connection destination abbreviation and the connection destination address by the voice of the user.

【0065】先ず、辞書選択部103において、仮名用
標準音声パターン201、操作コマンド用標準音声パタ
ーン204を音声辞書として選択し(ステップS50
1)、表示部106に仮名の音声認識が可能であること
を表示する(ステップS502)。
First, the dictionary selecting section 103 selects the kana standard voice pattern 201 and the operation command standard voice pattern 204 as a voice dictionary (step S50).
1) The display unit 106 displays that kana voice recognition is possible (step S502).

【0066】次に、ユーザから入力された接続先略称の
音声を音声認識部102において1文字づつ認識し(ス
テップS503)、認識した文字を表示部106に表示
する(ステップS504)。この処理を、決定の操作コ
マンドを示す“セット”という音声が入力されるまで繰
り返す(ステップS503〜ステップS505)。
Next, the voice recognition unit 102 recognizes the voice of the connection destination abbreviation inputted by the user character by character (step S503) and displays the recognized character on the display unit 106 (step S504). This process is repeated until a voice "SET" indicating the operation command for determination is input (steps S503 to S505).

【0067】例えば、略称として[やまだ]という略称
を入力する場合、ユーザは先ず“ヤ”という音声を入力
することになる。この音声を音声認識部102で「や」
と認識し、表示部106に<や>と表示する。次に、
“マ”という音声が入力されると、同様の音声認識処理
を行い、表示部103に<やま>と表示する。この処理
を、表示部103に<やまだ>と表示されるまで繰り返
す(ステップS503〜ステップS505)。
For example, when the abbreviation "Yamada" is input as the abbreviation, the user first inputs the voice "YA". The voice is recognized by the voice recognition unit 102 as “ya”.
And displays <or> on the display unit 106. next,
When the voice "MA" is input, the same voice recognition process is performed, and "Yama" is displayed on the display unit 103. This process is repeated until <Yamada> is displayed on the display unit 103 (steps S503 to S505).

【0068】ステップS505において、ユーザから
“セット”という音声が入力され、音声認識部102が
「決定」コマンドであると認識すると、次に、接続先ア
ドレスの音声入力のために、辞書選択部103は、数字
用標準音声パターン202、アルファベット用標準音声
パターン203、および操作コマンド用標準音声パター
ン204を音声辞書として選択し(ステップS50
6)、表示部106に数字とアルファベットの音声認識
が可能であることを表示する(ステップS507)。
In step S505, when the user inputs the voice "set" and the voice recognition unit 102 recognizes that it is the "determine" command, the dictionary selection unit 103 then inputs the voice of the connection destination address. Selects the standard voice pattern for numbers 202, the standard voice pattern for alphabets 203, and the standard voice pattern for operation commands 204 as a voice dictionary (step S50).
6) The display unit 106 displays that voice recognition of numbers and alphabets is possible (step S507).

【0069】次に、ユーザから入力された接続先アドレ
スの音声を音声認識部102において1文字づつ認識し
(ステップS508)、認識した文字を表示部106に
表示する(ステップ509)。この処理を、決定の操作
コマンドを示す“セット”という音声が入力されるまで
繰り返す(ステップS508〜ステップS510)。な
お、入力される接続先アドレスは、電話番号、Eメール
アドレス、インターネットアドレスのいずれでもよい。
Next, the voice recognition unit 102 recognizes the voice of the connection destination address input by the user character by character (step S508) and displays the recognized character on the display unit 106 (step 509). This process is repeated until a voice "SET" indicating a determination operation command is input (steps S508 to S510). The input destination address may be a telephone number, an email address, or an internet address.

【0070】ステップS510において、ユーザから
“セット”という音声が入力され、この音声が音声認識
部102において「決定」コマンドであると認識される
と、ステップS503〜ステップS505の処理におい
て入力された接続先略称に、ステップS508〜ステッ
プS510の処理において入力された接続先アドレスを
付加して、アドレス帳110へ登録する。
In step S510, the user inputs a voice "set", and when the voice recognition unit 102 recognizes this voice as a "decide" command, the connection input in the processes of steps S503 to S505. The connection destination address input in the processing of steps S508 to S510 is added to the abbreviation and registered in the address book 110.

【0071】通信装置100は、アドレス帳登録が終了
後、初期状態に戻り、辞書選択部103で操作コマンド
用標準音声パターン204を選択し(ステップS30
1)、ユーザによる次の操作を待機する。
After the address book registration is completed, the communication device 100 returns to the initial state, and the dictionary selection unit 103 selects the standard voice pattern 204 for operation command (step S30).
1) Wait for the next operation by the user.

【0072】図5のアドレス帳登録では、平仮名文字を
用いて略称を登録したが、通信装置100に漢字変換用
のROMを搭載し、[やまだ]→[山田]のように平仮
名を漢字に変換してアドレス帳に登録可能にしてもよ
い。この場合、操作コマンド用標準音声パターンに「漢
字変換」の操作コマンドを示す“ヘンカン”とうい標準
音声パターンを用意し、ユーザの音声により漢字変換を
行えばよい。
In the address book registration of FIG. 5, the abbreviations are registered using hiragana characters, but a kanji conversion ROM is installed in the communication device 100, and hiragana characters are converted to kanji characters such as [Yamada] → [Yamada]. Then, it may be registered in the address book. In this case, a standard voice pattern “Henkan” indicating the operation command of “Kanji conversion” may be prepared as the standard voice pattern for operation command, and the Kanji conversion may be performed by the voice of the user.

【0073】図6は、ユーザの音声により、アドレス帳
検索を行う際の動作を示すフローチャートである。先述
したとおり、図3のステップS304でアドレス帳検索
モードと判定された場合、アドレス帳検索が行われるも
のとみなし、ユーザの音声による接続先略称の入力処理
へ移行する。
FIG. 6 is a flow chart showing the operation when the address book is searched by the voice of the user. As described above, when the address book search mode is determined in step S304 of FIG. 3, it is considered that the address book search is performed, and the process proceeds to the process of inputting the connection destination abbreviation by the voice of the user.

【0074】先ず、辞書選択部103は、仮名用標準音
声パターン201および操作コマンド用標準音声パター
ン204を音声辞書として選択し(ステップS60
1)、表示部106に仮名の音声認識が可能であること
を表示する(ステップS602)。
First, the dictionary selection unit 103 selects the kana standard voice pattern 201 and the operation command standard voice pattern 204 as a voice dictionary (step S60).
1) The display unit 106 displays that voice recognition of a kana is possible (step S602).

【0075】次に、ユーザから入力された接続先略称の
音声を音声認識部102において1文字づつ認識し(ス
テップS603)、認識した文字を表示部106に表示
する(ステップS604)。この処理を、決定の操作コ
マンドを示す“セット”という音声が入力されるまで繰
り返す(ステップS603〜ステップS605)。
Next, the voice recognition unit 102 recognizes the voice of the connection destination abbreviation input by the user character by character (step S603), and displays the recognized characters on the display unit 106 (step S604). This process is repeated until the voice "SET" indicating the operation command for determination is input (steps S603 to S605).

【0076】ステップS605において、ユーザから
“セット”という音声が入力され、この音声が音声認識
部102において「決定」コマンドであると認識される
と、続いてアドレス帳検索を行う。入力された接続先略
称と、アドレス帳110に登録された接続先略称が一致
するものを検索し(ステップS606)、一致した場合
は、その略称とアドレスを表示部106に表示する(ス
テップS607)。
In step S605, the user inputs the voice "set", and when this voice is recognized by the voice recognition unit 102 as the "decide" command, the address book search is performed subsequently. The input connection abbreviation and the connection destination abbreviation registered in the address book 110 are searched for (step S606). If they match, the abbreviation and address are displayed on the display unit 106 (step S607). .

【0077】次に、ユーザにより“スタート”という音
声が入力され、この音声が音声認識部102において
「開始」コマンドであると認識されると(ステップS6
08)、アドレス帳110から検索された接続先アドレ
スに対応した処理を実行する。検索されたアドレスが電
話番号である場合には、その番号を公衆回線113に送
出し、通話もしくはファクシミリ送信を行う。検索され
たアドレスがEメールアドレスまたはインターネットア
ドレスならば、ISPとの接続を行い、Eメールの送信
もしくはWebページの閲覧が行われる(ステップS6
09)。
Next, when the user inputs the voice "start" and this voice is recognized by the voice recognition unit 102 as the "start" command (step S6).
08), the processing corresponding to the connection destination address retrieved from the address book 110 is executed. If the retrieved address is a telephone number, the number is sent to the public line 113 to make a call or send a facsimile. If the retrieved address is an e-mail address or an internet address, connection is made with the ISP to send e-mail or browse a web page (step S6).
09).

【0078】通信装置100は、アドレス帳検索が終了
後、初期状態に戻り、辞書選択部103で操作コマンド
用標準音声パターン204を選択し(ステップS30
1)、ユーザによる次の操作を待機する。
After the address book search is completed, the communication device 100 returns to the initial state, and the dictionary selection unit 103 selects the standard voice pattern 204 for operation command (step S30).
1) Wait for the next operation by the user.

【0079】以上説明したように、本実施形態の通信装
置によれば、通信装置の動作モードによって認識処理に
使用される音声辞書が限定される。そのため、パターン
マッチングの対象となる標準音声パターンが従来に比べ
少量で済むため、音声認識処理の負荷を軽減し、さらに
処理の高速化を図ることが可能になる。
As described above, according to the communication device of this embodiment, the voice dictionary used for recognition processing is limited depending on the operation mode of the communication device. Therefore, the standard voice pattern to be subjected to the pattern matching is smaller than that in the conventional case, so that the load of the voice recognition processing can be reduced and the processing speed can be further increased.

【0080】また、標準音声パターンを音声の種別で分
類した複数の音声辞書を用意し、通信装置の動作モード
によって最適な音声辞書を選択するため、音声認識にお
いて誤った標準音声パターンが選択される可能性が低く
なり、認識率を向上させることが可能である(例えば、
通信装置が電話番号の入力モードの時は、音声辞書とし
て数字用標準音声パターンを選択し、他の標準音声パタ
ーンは使用しないことで、認識結果として数字以外の文
字は出力されなくなる)。
Further, since a plurality of voice dictionaries in which standard voice patterns are classified according to the type of voice are prepared and the optimum voice dictionary is selected according to the operation mode of the communication device, an incorrect standard voice pattern is selected in voice recognition. Less likely to improve recognition rate (eg,
When the communication device is in the telephone number input mode, the standard voice pattern for numbers is selected as the voice dictionary and the other standard voice patterns are not used, so that characters other than numbers are not output as the recognition result).

【0081】また、通信装置の動作モードが装置の表示
部に表示されるため、入力すべき音声の種別をユーザが
容易に知ることができる。
Further, since the operation mode of the communication device is displayed on the display section of the device, the user can easily know the type of voice to be input.

【0082】さらに、ユーザの音声によりアドレス帳の
登録/検索ができるため、パソコン等のキーボードに比
べその操作部のキーが限定されている通信装置において
も、Eメールアドレスやインターネットアドレスを容易
に入力でき、通信装置の操作性を大きく向上させること
が可能である。
Further, since the address book can be registered / searched by the voice of the user, even in a communication device in which the keys of the operation section are limited as compared with the keyboard of a personal computer, it is easy to input the e-mail address or the internet address. Therefore, it is possible to greatly improve the operability of the communication device.

【0083】(実施形態2)本実施形態は、相手先略称
を音声入力しただけでどの機能を使用したいのか判別す
ることを可能する通信装置について説明する。なお、本
実施形態では、Webの閲覧はHTTPのプロトコルに
従うものとし、これにより、インターネットアドレスと
してURLを使用するものとする。
(Embodiment 2) In this embodiment, a communication device capable of discriminating which function is desired to be used only by inputting the other party's abbreviation is described. It should be noted that in the present embodiment, the browsing of the Web follows the HTTP protocol, and thus the URL is used as the Internet address.

【0084】図7は、本実施形態における通信装置のブ
ロック構成図である。
FIG. 7 is a block diagram of the communication device in this embodiment.

【0085】図中、701は装置全体の動作制御やデー
タ処理などを行う制御部としてのCPU、702はCP
U701によって実行される各種プログラムや固定デー
タを格納するためのROMである。また、ROM702
には、音声認識処理で使用する音素モデルも格納されて
いる(詳細は後述する)。703はCPU701用のワ
ークメモリや音声、画像データ等のバッファメモリとし
て使用されるRAMである。
In the figure, 701 is a CPU as a control unit for controlling the operation of the entire apparatus and data processing, and 702 is a CP.
It is a ROM for storing various programs executed by the U 701 and fixed data. Also, the ROM 702
A phoneme model used in the speech recognition processing is also stored in (details will be described later). A RAM 703 is used as a work memory for the CPU 701 and a buffer memory for voice, image data, and the like.

【0086】704はライン単位にイメージデータを読
み取るための密着型カラーイメージセンサCIS(Conta
ct Image Sensor)で、赤(R)、緑(G)、青(B)の
LEDアレイを内蔵していて、読み取りタイミング信号
が入力されると、タイミング信号に同期してビデオ信号
が出力される。
Reference numeral 704 denotes a contact type color image sensor CIS (Conta) for reading image data line by line.
ct Image Sensor) has a built-in red (R), green (G), and blue (B) LED array, and when a read timing signal is input, a video signal is output in synchronization with the timing signal. .

【0087】705はCIS104へ読み取りタイミン
グ信号を出力したり、CIS104が出力するビデオ信
号をA/D変換した上で、シェーディング補正、輝度/
濃度のガンマ変換を行ってデジタル多値/2値データに
変換したり、画像の拡大縮小や解像度変換を行う読取画
像処理部である。デジタルデータに変換された画像デー
タは、RAM703に格納される。
Reference numeral 705 outputs a read timing signal to the CIS 104, A / D-converts the video signal output by the CIS 104, and then performs shading correction and luminance /
This is a read image processing unit that performs gamma conversion of density to convert it into digital multi-value / binary data, and performs image enlargement / reduction and resolution conversion. The image data converted into digital data is stored in the RAM 703.

【0088】706は多値画像データを2値画像に変換
する2値化処理や画像の拡大縮小など必要となる画像処
理を行うとともに、画像データの解像度をプリンタ70
7の解像度360dpiに変換する解像度変換を行い、
印刷データをカラープリンタに転送する記録画像処理部
である。また、707は本装置のプリンタ部としての例
えばインク吐出方式の公知のカラープリンタであって、
インクタンクとインク吐出部が一体になっているカート
リッジを記録紙の主走査方向に移動させながら360d
piの記録解像度で記録紙に2値データを記録してゆく
ものである。
Reference numeral 706 carries out necessary image processing such as binarization processing for converting multi-valued image data into a binary image and image enlargement / reduction, and the resolution of the image data is changed to the printer 70.
Resolution conversion to convert to a resolution of 360 dpi of 7
A recording image processing unit that transfers print data to a color printer. Reference numeral 707 denotes a known color printer of, for example, an ink discharge method as a printer unit of this apparatus,
While moving the cartridge in which the ink tank and the ink discharge unit are integrated in the main scanning direction of the recording paper, 360 d
Binary data is recorded on a recording paper with a recording resolution of pi.

【0089】708は公知のG3モードなどでファクシ
ミリ通信を行うためデータを変復調するためのFAXモ
デムおよびインターネットサービスを利用するための公
知のDATAモデム、709はアナログ電話回線710
と本装置のインターフェイスをとるための公知のNCU
である。また、NCU709には、通話用のハンドセッ
ト716が接続され、通話する場合はハンドセットのオ
フフックを検知して、電話回線710とハンドセット7
16が接続される。
Reference numeral 708 designates a FAX modem for modulating / demodulating data for performing facsimile communication in the well-known G3 mode and the like, and a well-known DATA modem for utilizing the Internet service, and 709 denotes an analog telephone line 710.
And known NCU for interfacing with this device
Is. Further, a handset 716 for a call is connected to the NCU 709, and when a call is made, the off-hook of the handset is detected, and the telephone line 710 and the handset 7 are detected.
16 are connected.

【0090】711はダイヤル操作や各種の動作指示、
モードの設定、データの登録・検索・選択を行ったり、
インターネットサービスを利用するためのインターネッ
トボタンやEメールを利用するためのメールボタンから
なるキー入力部と、装置の状態や各種データ及び後述の
音声認識の検索結果を表示する液晶表示部やLEDから
構成される操作パネルである。
Reference numeral 711 is a dial operation or various operation instructions,
Mode setting, data registration / search / selection,
Consists of a key input unit consisting of an Internet button for using Internet services and a mail button for using E-mail, and a liquid crystal display unit and LEDs for displaying the status of the device, various data and search results for voice recognition, which will be described later. This is the operation panel.

【0091】712は各種アラーム音や呼び出し音、回
線上の音声信号を出力させるためのスピーカ、713は
音声を入力するためのマイクロフォンである。このマイ
クロフォン713には、雑音成分の混入をなるべく少な
くするために、指向性マイクを使用することが望まし
い。
Reference numeral 712 is a speaker for outputting various alarm sounds, ringing sounds and voice signals on the line, and 713 is a microphone for inputting voice. It is desirable to use a directional microphone for this microphone 713 in order to reduce the mixing of noise components as much as possible.

【0092】714は主電源断となってもデータが消失
しない不揮発性メモリであり、本装置の動作に必要な登
録データ(各種ソフトスイッチ、ユーザの電話番号や略
称などのID情報)を格納している。また、後述するよ
うに、ユーザが登録した宛先情報(具体的には電話番
号、ファクシミリ番号、またはメールアドレスやUR
L)が相手先略称と関連づけられて格納されている。
Reference numeral 714 is a non-volatile memory in which data is not lost even when the main power is cut off, and stores registration data (various soft switches, ID information such as user's telephone number and abbreviated name) necessary for the operation of this apparatus. ing. In addition, as will be described later, destination information registered by the user (specifically, a telephone number, a facsimile number, a mail address or a UR).
L) is stored in association with the other party's abbreviation.

【0093】715は記録紙幅センサ、記録紙有無セン
サ、原稿幅センサ及び、原稿有無センサから構成される
センサ部で、CPU701の制御により、原稿及び記録
紙の状態検知を行う。
Reference numeral 715 denotes a sensor section composed of a recording paper width sensor, a recording paper presence sensor, a document width sensor and a document presence sensor, and detects the condition of the document and the recording paper under the control of the CPU 701.

【0094】717は音声認識処理部であり、その詳細
な構成は後述する。
Reference numeral 717 is a voice recognition processing unit, the detailed structure of which will be described later.

【0095】そして、各機能ブロックはアドレス・デー
タバス720を介して接続されている。
Each functional block is connected via an address / data bus 720.

【0096】図8は、本実施形態における音声認識処理
に係るブロック構成および信号フローを示す図である。
なお、信号フローは説明のためのものであり、フロー上
で直接接続されていても、実際の信号はアドレス・デー
タバス720を介して接続されているものもある。
FIG. 8 is a diagram showing a block configuration and a signal flow relating to the voice recognition processing in this embodiment.
It should be noted that the signal flow is for the purpose of explanation, and the actual signal may be connected via the address / data bus 720 even if it is directly connected on the flow.

【0097】図示の如く、音声認識処理部717は、音
声分析部83、音素認識部84、および単語判定部85
で構成されている。
As shown in the figure, the voice recognition processing section 717 includes a voice analysis section 83, a phoneme recognition section 84, and a word determination section 85.
It is composed of.

【0098】音声分析部83は、マイク713より入力
した音声信号を所定の微小フレームに分割し、雑音成分
の除去を目的として所定のフィルタリングおよび信号演
算処理を行う。なお、信号処理を高速にするためDSP
を用いている。音声分析部83で微小フレームに分割さ
れた音声データは、音素認識部84に入力される。
The voice analysis unit 83 divides the voice signal input from the microphone 713 into predetermined minute frames and performs predetermined filtering and signal calculation processing for the purpose of removing noise components. In addition, in order to speed up the signal processing, DSP
Is used. The voice data divided into minute frames by the voice analysis unit 83 is input to the phoneme recognition unit 84.

【0099】音素認識部84では、予め用意されている
音素モデル702a(ROM702に格納されている)
を基準に、各微小フレームの周波数スペクトルを、時間
変化を含めて比較・照合し、音素の特定を行う。
In the phoneme recognition unit 84, a phoneme model 702a prepared beforehand (stored in the ROM 702).
Based on, the frequency spectrum of each minute frame is compared and collated including the time change, and the phoneme is specified.

【0100】単語判定部85では、特定された音素モデ
ルと、予め登録されている単語モデルを比較・照合する
ことで、両者の一致頻度を計算し単語の特定を行い、結
果を出力する。この出力結果は不揮発性メモリ714に
格納された相手先略称テーブル81の各相手先略称と照
合され、最も類似度の高い相手先略称を特定する。そし
て、装置の動作状態に応じて、相手先略称と関連づけて
格納されている宛先情報テーブル82から、特定された
相手先略称に対応する宛先情報が選ばれる。なお、宛先
情報テーブル82は、図示のように、電話番号テーブ
ル、FAX番号テーブル、メールアドレステーブル、U
RLテーブルを含む。
The word determining unit 85 compares and collates the specified phoneme model with a previously registered word model, thereby calculating the matching frequency between the two and specifying the word, and outputting the result. This output result is collated with each partner abbreviation in the partner abbreviation table 81 stored in the non-volatile memory 714, and the partner abbreviation with the highest degree of similarity is specified. Then, according to the operating state of the device, the destination information corresponding to the specified abbreviation of the destination is selected from the destination information table 82 stored in association with the abbreviation of the destination. The destination information table 82 is, as shown in the figure, a telephone number table, a FAX number table, a mail address table, a U number table.
Contains the RL table.

【0101】次に、図9のフローチャートを用いて本実
施形態における通信装置の動作を詳細に説明する。
Next, the operation of the communication apparatus according to this embodiment will be described in detail with reference to the flowchart of FIG.

【0102】まず、スタンバイ状態において、ハンドセ
ット716の状態を判断し(ステップS1)、オフフッ
クを検出すると、ステップS5に進み、マイク713か
らの音声入力の有無を判断する。音声入力があった場合
は、ステップS6において音声認識処理部717で音素
の特定を行い、その認識結果から不揮発性メモリ714
に登録されている相手先略称を特定する。相手先略称が
特定されると、ステップS7で、不揮発性メモリ714
に登録されている電話番号テーブルを参照し、相手先略
称に関連付けされた電話番号を検索して、その結果を操
作パネル711の表示部に相手先略称/電話番号を表示
し、スピーカ712から相手先略称を音声でオペレータ
にアナウンスする。
First, in the standby state, the state of the handset 716 is determined (step S1), and if off-hook is detected, the process proceeds to step S5, and it is determined whether or not there is a voice input from the microphone 713. If there is a voice input, the voice recognition processing unit 717 identifies the phoneme in step S6, and the nonvolatile memory 714 is identified from the recognition result.
Specify the abbreviation of the other party registered in. When the destination abbreviation is specified, in step S7, the nonvolatile memory 714
The telephone number table registered in is searched for the telephone number associated with the destination abbreviation, the result is displayed on the display unit of the operation panel 711 as the destination abbreviation / telephone number, and the speaker 712 displays the destination. Announce the abbreviation to the operator by voice.

【0103】その後、ステップS8に進み、検索された
電話番号に自動的にダイアルして、ステップS9で、通
話後再びスタンバイ状態に戻る。なお、ステップS5に
おいて相手先略称の音声入力がなかった場合は、ステッ
プS8においてオペレータは通常の手動にてダイアル発
呼して通話を行うことになる。
Then, in step S8, the searched telephone number is automatically dialed, and in step S9, the telephone is returned to the standby state after the call. If there is no voice input of the other party's abbreviation in step S5, the operator dials the call manually in step S8 to make a call.

【0104】次に、ステップS1でオンフック状態であ
ると判断された場合は、ステップS2に進み、原稿の有
無を判断する。センサ部715で原稿ありを検知する
と、ステップS10で、マイク713から音声入力の有
無を判断する。音声入力があった場合は、ステップS1
1に進み、音声認識処理部717で音素の特定を行い、
その認識結果から不揮発性メモリ714に登録されてい
る相手先略称を特定する。
Next, when it is determined in step S1 that the hook is on-hook, the process proceeds to step S2, and it is determined whether or not there is a document. When the sensor section 715 detects the presence of a document, it is determined in step S10 whether or not there is a voice input from the microphone 713. If there is voice input, step S1
1, the speech recognition processing unit 717 identifies phonemes,
From the recognition result, the other party's abbreviation registered in the non-volatile memory 714 is specified.

【0105】相手先略称が特定されると、ステップS1
2において不揮発性メモリ714に登録されているFA
X番号テーブルを参照し、相手先略称に関連付けされた
FAX番号を検索して、その結果を操作パネル711の
表示部に相手先略称/FAX番号を表示し、スピーカ7
12から相手先略称を音声でオペレータにアナウンスす
る。
When the other party's abbreviation is specified, step S1
FA registered in the non-volatile memory 714 in No. 2
Referring to the X number table, the FAX number associated with the destination abbreviation is searched, and the result is displayed as the destination abbreviation / FAX number on the display unit of the operation panel 711, and the speaker 7 is displayed.
From 12 the voice of the other party is announced to the operator.

【0106】その後、ステップS13で、検索されたF
AX番号に自動的にダイアルし、ステップS14でFA
X送信を終えしだい再びスタンバイ状態に戻る。
Then, in step S13, the retrieved F
Automatically dials the AX number, and in step S14 FA
As soon as X transmission is completed, it returns to the standby state again.

【0107】なお、ステップS10において相手先略称
の音声入力がなかった場合は、ステップS24に進み、
コピーキーの押下の有無を判断し、コピーキーが押下さ
れた場合はステップS25でコピー動作を行いスタンバ
イ状態に戻る。コピーキーが押下されない場合は、ステ
ップS13に進み、オペレータ手動によるダイアル発呼
後、FAX送信を行うことになる。
If there is no voice input of the other party's abbreviation in step S10, the process proceeds to step S24,
Whether or not the copy key is pressed is determined. If the copy key is pressed, the copy operation is performed in step S25 and the operation returns to the standby state. If the copy key is not pressed, the process proceeds to step S13, and the fax transmission is performed after the dial call is manually made by the operator.

【0108】次に、ステップS1でオンフック状態と判
断され、さらにステップS2で原稿なしと判断された場
合は、ステップS3に進み、Eメール作成のためのメー
ルキーが押下されたかどうかを判断する。メールキーが
押下された場合は、ステップS15に進み、マイク71
3からの音声入力の有無を判断する。
If it is determined in step S1 that the document is on-hook and that there is no document in step S2, the flow advances to step S3 to determine whether or not the mail key for creating an email has been pressed. If the mail key is pressed, the process proceeds to step S15, and the microphone 71
The presence or absence of voice input from 3 is determined.

【0109】音声入力があった場合は、ステップS16
で、音声認識処理部717で音素の特定を行い、その認
識結果から不揮発性メモリ714に登録されている相手
先略称を特定する。相手先略称が特定されると、ステッ
プS17で、不揮発性メモリ714に登録されているメ
ールアドレステーブルを参照し、相手先略称に関連付け
されたメールアドレスを検索して、その結果を操作パネ
ル711の表示部に相手先略称/メールアドレスを表示
し、スピーカー712から相手先略称を音声でオペレー
タにアナウンスする。
If there is voice input, step S16.
Then, the speech recognition processing unit 717 identifies the phoneme, and identifies the partner abbreviation registered in the non-volatile memory 714 from the recognition result. When the destination abbreviation is specified, in step S17, the email address table registered in the non-volatile memory 714 is referred to, the email address associated with the destination abbreviation is searched, and the result is displayed on the operation panel 711. The other party abbreviation / email address is displayed on the display unit, and the other party abbreviation is announced to the operator by voice from the speaker 712.

【0110】その後、ステップS18において宛先欄
(To:)へ自動的にアドレスを入力して、ステップS1
9でメール本文を作成した後、ステップS20でメール
送信後、再びスタンバイ状態に戻る。
After that, in step S18, the address is automatically entered in the destination field (To :), and in step S1
After the mail text is created in 9, the mail is sent in step S20, and the standby state is restored again.

【0111】なお、ステップS15において相手先略称
の音声入力がなかった場合は、ステップS18は、オペ
レータ手動にてメールアドレスがテンキーより入力さ
れ、さらに、メール本文が作成された後、メール送信を
行うことになる。
When the voice of the recipient's abbreviation is not input in step S15, the mail address is manually input by the operator through the ten-key pad, and the mail text is created, and then the mail is transmitted. It will be.

【0112】次に、ステップS1でオンフック状態と判
断され、ステップS2で原稿なしと判断され、さらに、
ステップS3でメールキーの押下もないと判断された場
合は、ステップS4に進み、マイク713からの音声入
力の有無を判断する。音声入力があった場合は、ステッ
プS21に進み、音声認識処理部717で音素の特定を
行い、その認識結果から不揮発性メモリ714に登録さ
れている相手先略称を特定する。
Next, it is determined in step S1 that the document is on-hook, and in step S2 that there is no document,
If it is determined in step S3 that the mail key has not been pressed, the process proceeds to step S4, and it is determined whether or not there is voice input from the microphone 713. If there is a voice input, the process proceeds to step S21, the phoneme is identified by the voice recognition processing unit 717, and the destination abbreviation registered in the non-volatile memory 714 is identified from the recognition result.

【0113】相手先略称が特定されると、S22で、不
揮発性メモリ714に登録されているURLテーブルを
参照し、相手先略称に関連付けされたURLを検索し
て、その結果を操作パネル711の表示部に相手先略称
/URLを表示し、スピーカー712から相手先略称を
音声でアナウンスする。その後、ステップS23に進
み、インターネットサービスを利用して、検索されたU
RLへ自動的にアクセスし、操作パネル711の表示部
にそのURLで指定されたホームページ情報を表示す
る。
When the destination abbreviation is specified, the URL table registered in the non-volatile memory 714 is referred to in S22, the URL associated with the destination abbreviation is searched, and the result is displayed on the operation panel 711. The other party's abbreviation / URL is displayed on the display unit, and the other party's abbreviation is announced by voice from the speaker 712. After that, the process proceeds to step S23, and the searched U is searched by using the Internet service.
The RL is automatically accessed, and the home page information designated by the URL is displayed on the display unit of the operation panel 711.

【0114】以上説明した本実施形態の通信装置によれ
ば、音声認識手段を有する画像通信装置において、入力
された音声について音声認識を行いその結果を、テーブ
ルに格納されている各相手先略称と照合する場合に、装
置の動作状態に応じてそのテーブルの参照範囲を限定す
ることで、多数の宛先情報が登録されていても効率よく
検索することができる。
According to the communication device of the present embodiment described above, in the image communication device having the voice recognition means, voice recognition is performed on the input voice, and the result is used as the abbreviations of the destinations stored in the table. When collating, by limiting the reference range of the table according to the operation state of the device, it is possible to efficiently search even if a large number of destination information is registered.

【0115】さらに、本実施形態によれば、多機能(例
えば、通話機能、ファクシミリ通信機能、Eメール送受
信機能を含む)型の通信装置において、あらかじめ通信
装置の動作状態を判断することでいずれの機能を使用す
るのかを決定するので、ユーザがどの機能を使用するか
を指定する操作を省略することが可能になる。
Further, according to the present embodiment, in a multi-function (including a call function, a facsimile communication function, an e-mail transmission / reception function) type communication device, the operating state of the communication device is determined in advance to determine which one. Since the function to be used is determined, it becomes possible for the user to omit the operation of specifying which function to use.

【0116】(実施形態3)上述した実施形態1は、ア
ドレス帳検索モードの場合に、仮名用標準音声パターン
201および操作コマンド用標準音声パターン204を
音声辞書として選択して、音声入力された接続先(相手
先)略称の音声認識を行うものであったが、相手先略称
入力用の標準音声パターンをあらかじめ用意しておき、
これを用いて相手先略称の音声認識を行うようにしても
よい。以下、具体的に説明する。
(Third Embodiment) In the above-described first embodiment, in the address book search mode, the kana standard voice pattern 201 and the operation command standard voice pattern 204 are selected as the voice dictionary, and the voice input connection is made. Although the voice recognition of the destination (destination) abbreviation was performed, a standard voice pattern for inputting the destination abbreviation is prepared in advance,
This may be used to perform voice recognition of the other party's abbreviation. The details will be described below.

【0117】本実施形態における通信装置の構成は、図
1と同様であるので、その説明は省略する。
Since the configuration of the communication device in this embodiment is the same as that in FIG. 1, its description is omitted.

【0118】本実施形態では、図2に示した音声辞書メ
モリ104に、アドレス帳110に予め登録されている
各相手先略称の音声パターン(以降単語モデルと称す)
の辞書が、さらに記憶されている。この相手先略称を示
す単語を示す単語モデルは、図5のアドレス帳登録モー
ドのS511で、アドレス帳110に略称とアドレスを
登録する際に、略称から単語モデルを生成するようにし
てもよい。また、S503からS504では、1文字づ
つ入力された音声より文字を表示する方法をとったが、
入力された音声をそのまま相手先の略称を示す単語モデ
ルとしてアドレス帳110に登録してもよい。このよう
にして、アドレス帳110の略称を表す単語モデルの音
声辞書があらかじめ生成されている。
In the present embodiment, the voice pattern of each destination abbreviation registered in advance in the address book 110 in the voice dictionary memory 104 shown in FIG. 2 (hereinafter referred to as a word model).
Is further stored in the dictionary. The word model indicating the word indicating the other party abbreviation may be generated from the abbreviation when the abbreviation and the address are registered in the address book 110 in S511 of the address book registration mode in FIG. In addition, in S503 to S504, the method of displaying characters from the voice input one by one is adopted.
The input voice may be directly registered in the address book 110 as a word model indicating the abbreviation of the other party. In this way, the voice dictionary of the word model representing the abbreviation of the address book 110 is generated in advance.

【0119】本実施形態における通信装置の動作概要は
実施形態1で示した図3のフローと同様である。ただ
し、図3のステップS304でアドレス帳検索モードが
選択された場合には、図6のフローに移行するのではな
く、図10に示すフローに移行する。以下、図10のフ
ローを説明する。
The outline of the operation of the communication device in this embodiment is the same as the flow of FIG. 3 shown in the first embodiment. However, when the address book search mode is selected in step S304 of FIG. 3, the flow shifts to the flow shown in FIG. 10 instead of shifting to the flow shown in FIG. The flow of FIG. 10 will be described below.

【0120】図3のステップ304でアドレス帳検索モ
ードが選択されると、先ず、辞書選択部103は、相手
先略称の単語モデルおよび操作コマンド用標準音声パタ
ーン204を音声辞書として選択し(ステップS100
1)、表示部106に相手先略称の音声認識が可能であ
ることを表示する(ステップS1002)。
When the address book search mode is selected in step 304 of FIG. 3, first, the dictionary selection section 103 selects the word model of the other party's abbreviation and the standard voice pattern 204 for operation command as a voice dictionary (step S100).
1) The display unit 106 displays that the voice recognition of the other party's abbreviation is possible (step S1002).

【0121】ここでは、アドレス帳110にある全ての
相手先略称を音声認識の対象にする。
Here, all the other party's abbreviations in the address book 110 are subject to voice recognition.

【0122】次に、ユーザから相手先略称に相当する音
声の入力(例えば「やまだ」という音声)があったかど
うかを判断し(ステップS1003)、音声入力があっ
た場合、続いてアドレス帳検索として入力された音声と
登録されている相手先略称単語モデルの辞書と比較する
(ステップS1004)。入力された音声と、アドレス
帳110に登録された接続先略称の単語モデルと一致す
るものがあるかどうか判断し(ステップS1005)、
一致した場合は、その略称とアドレスを表示部106に
表示する(ステップS1006)。これによって、認識
対象の音声辞書が適切に限定されているので、迅速で正
確なアドレス帳検索が可能となる。
Next, it is judged whether or not the user inputs a voice corresponding to the other party's abbreviation (for example, "Yamada" voice) (step S1003), and if there is a voice input, it is subsequently input as an address book search. The generated voice is compared with the dictionary of the registered destination abbreviation word model (step S1004). It is determined whether or not the input voice matches the word model of the connection destination abbreviation registered in the address book 110 (step S1005),
If they match, the abbreviation and address are displayed on the display unit 106 (step S1006). As a result, the voice dictionary to be recognized is appropriately limited, so that a quick and accurate address book search can be performed.

【0123】次に、ユーザにより“スタート”という音
声が入力される(もしくは操作部105にあるスタート
キーなどが押下される)と、この音声が音声認識部10
2において「開始」コマンドであると認識される(ステ
ップS1007)。開始コマンドが認識されると、アド
レス帳100から検索された接続先アドレスに対応した
処理を実行する。すなわち、検索されたアドレスが電話
番号である場合には、その番号を公衆回線113に送出
し、通話もしくはファクシミリ送信を行う。検索された
アドレスがEメールアドレスまたはインターネットアド
レスならば、ISPとの接続を行い、Eメールの送信も
しくはWebページの閲覧が行われる(ステップS10
08)。一方、ステップ1005で、入力された音声
と、アドレス帳110に登録された接続先略称の単語モ
デルと一致するものがないと判断されると、音声認識が
エラーしたことを示す表示を行う(ステップS100
9)。
Next, when the user inputs the voice "start" (or presses the start key or the like on the operation unit 105), the voice is recognized by the voice recognition unit 10.
In step 2, the command is recognized as a "start" command (step S1007). When the start command is recognized, the processing corresponding to the connection destination address retrieved from the address book 100 is executed. That is, when the retrieved address is a telephone number, that number is sent to the public line 113 to make a call or a facsimile transmission. If the retrieved address is an e-mail address or an internet address, connection with the ISP is made, and e-mail is transmitted or a web page is browsed (step S10).
08). On the other hand, if it is determined in step 1005 that the input voice does not match the word model of the connection destination abbreviation registered in the address book 110, a display indicating that the voice recognition has failed is displayed (step S100
9).

【0124】一方、ステップS1003で音声入力され
る前に、操作部105にあるインターネットキーが押さ
れたかどうか判断し(ステップS1010)、インター
ネットキーが押されたと判断すると、操作コマンドの単
語モデルと、アドレス帳にE−mailアドレスやWe
bブラウザのインターネットアドレスが登録されている
相手先略称の単語モデルのみを、音声辞書として選択す
る(ステップS1011)。これによって音声辞書が更
に限定されるので、迅速で正確なアドレス帳検索が可能
になる。
On the other hand, before voice input in step S1003, it is determined whether or not the Internet key on the operation unit 105 is pressed (step S1010). If it is determined that the Internet key is pressed, the word model of the operation command, E-mail address and We in address book
b Only the word model of the other party's abbreviation in which the internet address of the browser is registered is selected as the voice dictionary (step S1011). This further limits the voice dictionary, allowing for quick and accurate address book searches.

【0125】ここでは、インターネットキーが押下され
たかどうかを判断しているが、図3のステップS305
で述べたように「インターネット」という音声を操作コ
マンドとして入力してもよい。
Here, it is determined whether or not the Internet key is pressed, but step S305 in FIG.
As described above, the voice "Internet" may be input as the operation command.

【0126】また、実施形態2の図9のステップS3で
示されるように「メールキー」が押下された場合は、E
−mailアドレスが登録されている相手先略称の単語
モデルのみが、音声辞書として選択されるようにしても
よい。
If the "mail key" is pressed as shown in step S3 of FIG. 9 of the second embodiment, E
Only the word model of the other party abbreviation for which the -mail address is registered may be selected as the voice dictionary.

【0127】ステップS1011で音声辞書が選択され
ると、ステップS1003の処理を行う。
When the voice dictionary is selected in step S1011, the process of step S1003 is performed.

【0128】ステップS1010で、インターネットキ
ーが押されていないと判断すると、次に、通話部111
の電話機がオフフックされているかどうかを判断する
(ステップS1012)。オフフックされていると判断
した場合、電話かFAX送信に使われると判断し、操作
コマンドの単語モデルと、アドレス帳に電話、FAX用
の電話番号が登録されている相手先略称の単語モデルの
みを、音声辞書として選択する(ステップS101
3)。これによって音声辞書が更に限定されるので、迅
速で正確なアドレス帳検索が可能になる。音声辞書が選
択された後は、ステップS1003の処理を行う。
If it is determined in step S1010 that the Internet key has not been pressed, then the call unit 111
It is determined whether the telephone is off-hook (step S1012). If it is judged that the phone is off-hook, it is judged that it will be used for telephone or FAX transmission, and only the word model of the operation command and the word model of the abbreviation of the recipient whose telephone number for the telephone or FAX is registered in the address book are used. , As a voice dictionary (step S101)
3). This further limits the voice dictionary, allowing for quick and accurate address book searches. After the voice dictionary is selected, the process of step S1003 is performed.

【0129】ステップS1012で、通話部111の電
話機がオンフックである場合にはステップS1014に
進む。ステップS1014では、読取部107に原稿が
あるかどうかを不図示のセンサ(実施形態2のセンサ部
715でもよい)で判断し、原稿がある場合は、操作コ
マンドの単語モデルと、FAX用の電話番号が登録され
ている相手先略称の単語モデルのみを、音声辞書として
選択する(ステップS1015)。音声辞書が選択され
ると、ステップS1003の処理を行う。
In step S1012, if the telephone of the call section 111 is on-hook, the process proceeds to step S1014. In step S1014, a sensor (not shown) (may be the sensor unit 715 of the second embodiment) determines whether or not there is a document in the reading unit 107. If there is a document, the word model of the operation command and the fax phone are used. Only the word model of the other party's abbreviation for which the number is registered is selected as the voice dictionary (step S1015). When the voice dictionary is selected, the process of step S1003 is performed.

【0130】ここでは、原稿がある場合は、FAX用の
電話番号が登録されている相手先略称の単語モデルのみ
を、音声辞書として選択するようにしたが、これに限ら
ず、読み取った画像をE−mailの添付ファイルとし
て送信する機能がある場合には、さらにE−mailア
ドレスが登録されている相手先略称の単語モデルも音声
辞書に加えてよい。Webブラウザのインターネットア
ドレスに読み取った画像を送る機能がある場合には、さ
らにその相手先略称の単語モデルも音声辞書に加えてよ
い。
Here, when there is a manuscript, only the word model of the other party's abbreviation in which the FAX telephone number is registered is selected as the voice dictionary, but the present invention is not limited to this, and the read image is not used. When there is a function of transmitting as an attached file of E-mail, the word model of the other party abbreviation in which the E-mail address is registered may be added to the voice dictionary. When the function of sending the read image to the Internet address of the Web browser is provided, the word model of the other party's abbreviation may be added to the voice dictionary.

【0131】以上説明した本実施形態の通信装置によっ
ても、通信装置の動作モードによって認識処理に使用さ
れる音声辞書が限定され、上述の実施形態1と同様の効
果を奏することが可能である。
Also with the communication device of the present embodiment described above, the voice dictionary used for the recognition processing is limited depending on the operation mode of the communication device, and it is possible to achieve the same effect as in the above-described first embodiment.

【0132】[0132]

【他の実施形態】以上、本発明の実施形態を詳述した
が、本発明は、複数の機器(例えばホストコンピュー
タ、インタフェイス機器、リーダ、プリンタ等)から構
成されるシステムに適用しても、1つの機器からなる装
置(例えば、複写機、ファクシミリ装置等)に適用して
もよい。
Other Embodiments Although the embodiments of the present invention have been described in detail above, the present invention can be applied to a system including a plurality of devices (eg, host computer, interface device, reader, printer, etc.). It may be applied to an apparatus (for example, a copying machine, a facsimile apparatus, etc.) which is composed of one device.

【0133】なお、本発明は、前述した実施形態の機能
を実現するソフトウェアのプログラムを、システムある
いは装置に直接あるいは遠隔から供給し、そのシステム
あるいは装置のコンピュータがその供給されたプログラ
ムを読み出して実行することによっても達成される場合
を含む。
The present invention supplies a software program for realizing the functions of the above-described embodiments to a system or apparatus directly or remotely, and a computer of the system or apparatus reads and executes the supplied program. Including the case where it is achieved by

【0134】したがって、本発明の機能処理をコンピュ
ータで実現するために、そのコンピュータにインストー
ルされるプログラムコード自体も本発明を実現するもの
である。つまり、本発明の特許請求の範囲には、本発明
の機能処理を実現するためのコンピュータプログラム自
体も含まれる。
Therefore, the program code itself installed in a computer to implement the functional processing of the present invention by the computer also implements the present invention. That is, the claims of the present invention include the computer program itself for realizing the functional processing of the present invention.

【0135】その場合、プログラムの機能を有していれ
ば、オブジェクトコード、インタプリタにより実行され
るプログラム、OSに供給するスクリプトデータ等、プ
ログラムの形態を問わない。
In this case, the program may take any form such as an object code, a program executed by an interpreter, or script data supplied to an OS as long as it has the function of the program.

【0136】プログラムを供給するための記憶媒体とし
ては、例えば、フロッピー(登録商標)ディスク、光デ
ィスク(CD-ROM、CD-R、CD-RW、DVD等)、光磁気ディス
ク、磁気テープ、メモリカード等がある。
Storage media for supplying the program include, for example, floppy (registered trademark) disks, optical disks (CD-ROM, CD-R, CD-RW, DVD, etc.), magneto-optical disks, magnetic tapes, memory cards. Etc.

【0137】その他、プログラムの供給方法としては、
インターネットを介して本発明のプログラムをファイル
転送によって取得する態様も含まれる。
As another method of supplying the program,
A mode in which the program of the present invention is acquired by file transfer via the Internet is also included.

【0138】また、本発明のプログラムを暗号化してCD
-ROM等の記憶媒体に格納してユーザに配布し、所定の条
件をクリアしたユーザに対し、インターネットを介して
暗号化を解く鍵情報を取得させ、その鍵情報を使用する
ことで暗号化されたプログラムを実行してコンピュータ
にインストールさせて実現することも可能である。
[0138] The program of the present invention is encrypted to be a CD.
-Stored in a storage medium such as a ROM and distributed to users, users who have met prescribed conditions are allowed to acquire key information for decryption via the Internet, and the key information is used for encryption. It is also possible to execute the program and install the program on a computer to realize it.

【0139】また、コンピュータが、読み出したプログ
ラムを実行することによって、前述した実施形態の機能
が実現される他、そのプログラムの指示に基づき、コン
ピュータ上で稼働しているOS等が実際の処理の一部ま
たは全部を行い、その処理によって前述した実施形態の
機能が実現され得る。
The computer executes the read program to realize the functions of the above-described embodiments, and the OS or the like running on the computer executes the actual processing based on the instructions of the program. The functions of the above-described embodiments may be realized by performing a part or all of the processing.

【0140】さらに、記憶媒体から読み出されたプログ
ラムが、コンピュータに挿入された機能拡張ボードやコ
ンピュータに接続された機能拡張ユニットに備わるメモ
リに書き込まれた後、そのプログラムの指示に基づき、
その機能拡張ボードや機能拡張ユニットに備わるCPU
等が実際の処理の一部または全部を行い、その処理によ
っても前述した実施形態の機能が実現される。
Furthermore, after the program read from the storage medium is written in the memory provided in the function expansion board inserted into the computer or the function expansion unit connected to the computer, based on the instructions of the program,
CPU provided on the function expansion board or function expansion unit
Etc. perform a part or all of the actual processing, and the functions of the above-described embodiments are also realized by the processing.

【0141】[0141]

【発明の効果】本発明によれば、音声認識手段を備える
通信装置において、音声認識処理の負荷を軽減し、処理
の高速化を図るとともに、音声認識精度を向上させるこ
とができる。さらに、本発明によれば、多機能(例え
ば、通話機能、ファクシミリ通信機能、Eメール送受信
機能等を含む)通信装置において、相手先略称を音声入
力しただけでどの機能を使用したいのか判別することを
可能にし、もって操作手順を簡略化することができる。
According to the present invention, in a communication device equipped with a voice recognition means, it is possible to reduce the load of voice recognition processing, speed up the processing, and improve the voice recognition accuracy. Further, according to the present invention, in a multi-function communication device (including, for example, a call function, a facsimile communication function, an e-mail transmission / reception function, etc.), it is possible to determine which function to use only by voice inputting the abbreviation of the other party. Therefore, it is possible to simplify the operation procedure.

【図面の簡単な説明】[Brief description of drawings]

【図1】実施形態1における通信装置のブロック構成図
である。
FIG. 1 is a block configuration diagram of a communication device according to a first embodiment.

【図2】実施形態1における音声辞書メモリに格納され
る音声辞書の構造を概念的に示す図である。
FIG. 2 is a diagram conceptually showing the structure of a voice dictionary stored in a voice dictionary memory according to the first embodiment.

【図3】実施形態1における通信装置の、ユーザの音声
によって電話番号の入力を行う際の動作を示すフローチ
ャートである。
FIG. 3 is a flowchart showing an operation of the communication device according to the first embodiment when a telephone number is input by a voice of a user.

【図4】実施形態1における通信装置の、ユーザの音声
によりEメールアドレスまたはインターネットアドレス
を入力する際の動作を示すフローチャートである。
FIG. 4 is a flowchart showing an operation of the communication device according to the first embodiment when inputting an e-mail address or an internet address by voice of a user.

【図5】実施形態1における通信装置の、ユーザの音声
によりアドレス帳登録を行う際の動作を示すフローチャ
ートである。
FIG. 5 is a flowchart showing an operation of the communication device according to the first embodiment when registering an address book by a voice of a user.

【図6】実施形態1における通信装置の、ユーザの音声
によりアドレス帳検索を行う際の動作を示すフローチャ
ートである。
FIG. 6 is a flowchart illustrating an operation of the communication device according to the first exemplary embodiment when an address book search is performed by a user's voice.

【図7】実施形態2における通信装置のブロック構成図
である。
FIG. 7 is a block configuration diagram of a communication device according to a second embodiment.

【図8】実施形態2における音声認識処理に係るブロッ
ク構成および信号フローを示す図である。
FIG. 8 is a diagram showing a block configuration and a signal flow relating to a voice recognition process in a second embodiment.

【図9】実施形態2における通信装置の動作を示すフロ
ーチャートである。
FIG. 9 is a flowchart illustrating an operation of the communication device according to the second exemplary embodiment.

【図10】実施形態3における通信装置の、ユーザの音
声によりアドレス帳検索を行う際の動作を示すフローチ
ャートである。
FIG. 10 is a flowchart showing an operation of the communication device according to the third exemplary embodiment when an address book search is performed by a user's voice.

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04M 1/274 H04M 11/00 302 1/56 G10L 3/00 551A 11/00 302 521V Fターム(参考) 5D015 KK01 5K027 BB01 EE04 FF22 HH20 5K036 BB01 DD17 FF06 JJ02 JJ13 5K101 NN07 NN18 NN21 ─────────────────────────────────────────────────── ─── Continuation of front page (51) Int.Cl. 7 Identification code FI theme code (reference) H04M 1/274 H04M 11/00 302 1/56 G10L 3/00 551A 11/00 302 521V F term (reference) 5D015 KK01 5K027 BB01 EE04 FF22 HH20 5K036 BB01 DD17 FF06 JJ02 JJ13 5K101 NN07 NN18 NN21

Claims (23)

【特許請求の範囲】[Claims] 【請求項1】 入力された音声を認識する音声認識手段
を備え、当該音声認識手段の出力に応じて制御されうる
通信装置であって、 複数種類の音声認識用辞書を記憶する記憶手段と、 前記記憶手段から、当該通信装置の動作モードに応じた
音声認識用辞書を選択し、前記音声認識手段に供給する
選択手段と、 を備えることを特徴とする通信装置。
1. A communication device comprising voice recognition means for recognizing an input voice, which can be controlled according to the output of the voice recognition means, and storage means for storing a plurality of types of voice recognition dictionaries. A communication device comprising: a selection unit that selects a voice recognition dictionary according to an operation mode of the communication device from the storage unit and supplies the dictionary to the voice recognition unit.
【請求項2】 前記複数の音声認識用辞書は、当該通信
装置に対する操作コマンド用の標準音声パターンを格納
した操作コマンド用辞書を含み、 前記選択手段は、前記動作モードが前記操作コマンドの
入力を待機する操作待機モードであるときに、前記操作
コマンド用辞書を選択することを特徴とする請求項1に
記載の通信装置。
2. The plurality of voice recognition dictionaries include an operation command dictionary in which standard voice patterns for operation commands for the communication device are stored, and the selection unit has the operation mode input of the operation command. The communication device according to claim 1, wherein the operation command dictionary is selected in a standby operation standby mode.
【請求項3】 前記複数の音声認識用辞書は、更に、接
続先を特定する情報の入力用の標準音声パターンを格納
した接続先入力用辞書を含み、 前記選択手段は、更に、前記動作モードが接続先を特定
する情報の入力を待機する入力モードであるときに、前
記接続先入力用辞書を追加的に選択することを特徴とす
る請求項2に記載の通信装置。
3. The plurality of voice recognition dictionaries further includes a connection destination input dictionary that stores a standard voice pattern for inputting information for identifying a connection destination, and the selection unit further includes the operation mode. 3. The communication device according to claim 2, wherein the connection destination input dictionary is additionally selected when is in an input mode of waiting for input of information specifying a connection destination.
【請求項4】 前記複数の音声認識用辞書は、更に、接
続先略称を特定する情報の入力用の標準音声パターンを
格納した接続先略称入力用辞書を含み、 前記選択手段は、更に、前記動作モードが接続先略称を
特定する情報の入力を待機する入力モードであるとき
に、前記接続先略称入力用辞書を追加的に選択すること
を特徴とする請求項2または3に記載の通信装置。
4. The plurality of voice recognition dictionaries further includes a connection destination abbreviation input dictionary that stores a standard voice pattern for inputting information for identifying a connection destination abbreviation, and the selection unit further includes: The communication device according to claim 2 or 3, wherein the connection destination abbreviation input dictionary is additionally selected when the operation mode is an input mode for waiting for input of information specifying the connection destination abbreviation. .
【請求項5】 前記選択手段によって前記音声認識手段
に供給された前記音声認識用辞書に応じて、音声認識可
能な音声の種別を表示する表示手段を更に備えることを
特徴とする請求項1から4までのいずれかに記載の通信
装置。
5. The display device further comprises display means for displaying the types of voices that can be recognized by voice, in accordance with the voice recognition dictionary supplied to the voice recognition means by the selecting means. 4. The communication device according to any one of 4 to 4.
【請求項6】 複数種類の音声認識用辞書を記憶する記
憶手段を備える通信装置の制御方法であって、 当該通信装置の動作モードを判定する判定ステップと、 前記記憶手段から、前記判定ステップで判定された前記
動作モードに応じた音声認識用辞書を選択し、前記音声
認識手段に供給する選択ステップと、 音声を入力する音声入力ステップと、 入力された前記音声について、前記選択ステップで供給
された前記音声認識辞書を用いて音声認識処理を行う音
声認識ステップと、 前記音声認識処理の出力に基づき、前記動作モードにお
ける処理を実行するステップと、 を有することを特徴とする通信装置の制御方法。
6. A method of controlling a communication device, comprising: a storage unit for storing a plurality of types of voice recognition dictionaries, the determination step comprising: determining an operation mode of the communication device; A selection step of selecting a voice recognition dictionary corresponding to the determined operation mode and supplying the voice recognition means, a voice input step of inputting voice, and a voice input step of inputting the voice in the selection step. A method of controlling a communication device, comprising: a voice recognition step of performing a voice recognition process using the voice recognition dictionary; and a step of executing a process in the operation mode based on an output of the voice recognition process. .
【請求項7】 前記複数の音声認識用辞書は、当該通信
装置に対する操作コマンド用の標準音声パターンを格納
した操作コマンド用辞書を含み、 前記判定ステップにおいて、前記動作モードが前記操作
コマンドの入力を待機する操作待機モードであると判定
されたときは、前記選択ステップで、前記操作コマンド
用辞書を選択することを特徴とする請求項6に記載の通
信装置の制御方法。
7. The plurality of voice recognition dictionaries include a manipulation command dictionary in which standard voice patterns for manipulation commands for the communication device are stored, and in the determining step, the operation mode indicates that the manipulation command is input. 7. The control method of the communication device according to claim 6, wherein when it is determined that the operation standby mode for waiting is selected, the operation command dictionary is selected in the selection step.
【請求項8】 前記複数の音声認識用辞書は、更に、接
続先を特定する情報の入力用の標準音声パターンを格納
した接続先入力用辞書を含み、 前記判定ステップにおいて、前記動作モードが接続先を
特定する情報の入力を待機する入力モードであると判定
されたときは、前記選択ステップで、更に、前記接続先
入力用辞書を追加的に選択することを特徴とする請求項
7に記載の通信装置の制御方法。
8. The plurality of voice recognition dictionaries further includes a connection destination input dictionary that stores a standard voice pattern for inputting information for identifying a connection destination, and in the determining step, the operation mode is connection. 8. The connection destination input dictionary is additionally selected in the selection step when it is determined that the input mode is to wait for the input of information specifying the destination, and the connection destination input dictionary is additionally selected. Method for controlling communication device of the present invention.
【請求項9】 前記複数の音声認識用辞書は、更に、接
続先略称を特定する情報の入力用の標準音声パターンを
格納した接続先略称入力用辞書を含み、 前記判定ステップにおいて、前記動作モードが接続先略
称を特定する情報の入力を待機する入力モードであると
判定されたときは、前記選択ステップで、更に、前記接
続先略称入力用辞書を追加的に選択することを特徴とす
る請求項7または8に記載の通信装置の制御方法。
9. The plurality of voice recognition dictionaries further includes a connection destination abbreviation input dictionary storing a standard voice pattern for inputting information for identifying a connection destination abbreviation, and in the determining step, the operation mode is set. Is determined to be an input mode for waiting for the input of information specifying a connection destination abbreviation, the connection destination abbreviation input dictionary is additionally selected in the selecting step. Item 9. A method for controlling a communication device according to item 7 or 8.
【請求項10】 複数種類の音声認識用辞書を記憶する
記憶手段を備える通信装置を制御するためのプログラム
であって、 当該通信装置の動作モードを判定する判定ステップのプ
ログラムコードと、 前記記憶手段から、前記判定ステップで判定された前記
動作モードに応じた音声認識用辞書を選択し、前記音声
認識手段に供給する選択ステップのプログラムコード
と、 音声を入力する音声入力ステップのプログラムコード
と、 入力された前記音声について、前記選択ステップで供給
された前記音声認識辞書を用いて音声認識処理を行う音
声認識ステップのプログラムコードと、 前記音声認識処理の出力に基づき、前記動作モードにお
ける処理を実行するステップのプログラムコードと、 を有することを特徴とするプログラム。
10. A program for controlling a communication device comprising a storage means for storing a plurality of types of speech recognition dictionaries, the program code of a determination step for determining an operation mode of the communication device, and the storage means. From the selection, the voice recognition dictionary corresponding to the operation mode determined in the determination step is selected, and the program code of the selection step to be supplied to the voice recognition means, and the program code of the voice input step of inputting voice, The program in the voice recognition step that performs voice recognition processing using the voice recognition dictionary supplied in the selection step on the generated voice, and the processing in the operation mode is executed based on the output of the voice recognition processing. And a program code of a step, and a program comprising:
【請求項11】 複数種類の音声認識用辞書を記憶する
記憶手段を備える通信装置を制御するためのプログラム
を格納した記憶媒体であって、 当該通信装置の動作モードを判定する判定ステップのプ
ログラムコードと、 前記記憶手段から、前記判定ステップで判定された前記
動作モードに応じた音声認識用辞書を選択し、前記音声
認識手段に供給する選択ステップのプログラムコード
と、 音声を入力する音声入力ステップのプログラムコード
と、 入力された前記音声について、前記選択ステップで供給
された前記音声認識辞書を用いて音声認識処理を行う音
声認識ステップのプログラムコードと、 前記音声認識処理の出力に基づき、前記動作モードにお
ける処理を実行するステップのプログラムコードと、 を格納することを特徴とする記憶媒体。
11. A storage medium storing a program for controlling a communication device, comprising a storage means for storing a plurality of types of speech recognition dictionaries, the program code of a determination step of determining an operation mode of the communication device. A program code of a selection step for selecting a voice recognition dictionary corresponding to the operation mode determined in the determination step from the storage means, and supplying the voice recognition means to the voice recognition means; and a voice input step of inputting voice. A program code, a program code of a voice recognition step of performing voice recognition processing on the inputted voice using the voice recognition dictionary supplied in the selection step, and the operation mode based on an output of the voice recognition processing. And a program code of steps for executing the process in Medium.
【請求項12】 電話回線を介して通話を行う通話手段
と、電話回線を介してファクシミリ通信を行うファクシ
ミリ通信手段と、インターネットを介してデータ通信を
行うデータ通信手段と、を備える通信装置であって、 接続先略称とその接続先を特定する情報との対応関係を
記述した記憶手段と、 音声を入力する音声入力手段と、 入力された前記音声を認識する音声認識手段と、 上記各通信手段のうちいずれの手段を使用するのかを判
定する判定手段と、 前記音声認識手段の出力と前記記憶手段における各接続
先略称とを照合してその照合結果に応じて接続先略称を
選択する照合手段と、を備え、 前記照合手段は、前記判定手段における判定結果に応じ
て、前記記憶手段における各接続先略称の照合候補を制
限する制御手段を含むことを特徴とする通信装置。
12. A communication device comprising: a call means for making a call via a telephone line, a facsimile communication means for making a facsimile communication via a telephone line, and a data communication means for making a data communication via the Internet. Storage means describing the correspondence between the connection destination abbreviation and the information specifying the connection destination, a voice input means for inputting a voice, a voice recognition means for recognizing the input voice, and each of the communication means. A determining means for determining which one of the means to be used, a collating means for collating the output of the voice recognizing means with each connection destination abbreviation in the storage means, and selecting the connection destination abbreviation according to the comparison result. And, the collation unit includes a control unit that limits the collation candidates of each connection destination abbreviation in the storage unit according to the determination result of the determination unit. Characterized communication device.
【請求項13】 前記記憶手段は、前記対応関係を上記
各通信手段毎に分類して記述した複数のテーブルを記憶
し、 前記制御手段は、前記複数のテーブルのうち、前記判定
結果に応じたテーブルを選択することで照合候補を制限
することを特徴とする請求項12に記載の通信装置。
13. The storage means stores a plurality of tables in which the correspondences are classified and described for each of the communication means, and the control means responds to the determination result among the plurality of tables. The communication device according to claim 12, wherein the matching candidates are limited by selecting a table.
【請求項14】 前記判定手段は、当該通信装置がオフ
フック状態で、前記音声入力手段により音声が入力され
たときに、前記通話手段を使用すると判定することを特
徴とする請求項12または13に記載の通信装置。
14. The deciding means decides to use the call means when the communication device is off-hook and a voice is inputted by the voice input means. The communication device described.
【請求項15】 前記判定手段は、当該通信手段にファ
クシミリ送信用原稿がセットされた状態で、前記音声入
力手段により音声が入力されたときに、前記ファクシミ
リ通信手段を使用すると判定することを特徴とする請求
項12から14までのいずれかに記載の通信装置。
15. The determination means determines to use the facsimile communication means when a voice is input by the voice input means in a state where a facsimile transmission original is set in the communication means. The communication device according to any one of claims 12 to 14.
【請求項16】 前記判定手段は、当該通信手段がオン
フック状態で、前記音声入力手段により音声が入力され
たときに、前記データ通信手段を使用すると判定するこ
とを特徴とする請求項12から15までのいずれかに記
載の通信装置。
16. The determination unit determines that the data communication unit is to be used when the communication unit is on-hook and a voice is input by the voice input unit. The communication device according to any one of 1 to.
【請求項17】 前記接続先を特定する情報は、電話番
号およびファクシミリ番号を含み、更に、電子メールア
ドレスおよび/またはインターネットアドレスを含むこ
とを特徴とする請求項12から16までのいずれかに記
載の通信装置。
17. The information for identifying the connection destination includes a telephone number and a facsimile number, and further includes an electronic mail address and / or an internet address, according to any one of claims 12 to 16. Communication device.
【請求項18】 前記判定手段で前記通話手段を使用す
ると判定されたときに、前記照合手段で選択された前記
接続先略称に対応する電話番号に発呼する電話発呼手段
を更に備えることを特徴とする請求項17に記載の通信
装置。
18. A telephone calling means for calling a telephone number corresponding to the connection destination abbreviation selected by the collating means when the judging means determines that the calling means is to be used. 18. The communication device according to claim 17, wherein the communication device is a communication device.
【請求項19】 前記判定手段で前記ファクシミリ通信
手段を使用すると判定されたときに、前記照合手段で選
択された前記接続先略称に対応するファクシミリ番号に
発呼するファクシミリ発呼手段を更に備えることを特徴
とする請求項17または18に記載の通信装置。
19. A facsimile calling means for calling a facsimile number corresponding to the connection destination abbreviation selected by the collating means when the judging means determines to use the facsimile communication means. The communication device according to claim 17 or 18, characterized in that.
【請求項20】 前記判定手段で前記データ通信手段を
使用すると判断されたときは、前記照合手段で選択され
た前記接続先略称に対応する電子メールアドレスおよび
/またはインターネットアドレスを入力するアドレス入
力手段を更に備えることを特徴とする請求項17から1
9までのいずれかに記載の通信装置。
20. Address input means for inputting an electronic mail address and / or an internet address corresponding to the connection destination abbreviation selected by the collating means when the judging means determines to use the data communication means. 18. The method according to claim 17, further comprising:
9. The communication device according to any one of 9 to 9.
【請求項21】 接続先略称とその接続先を特定する情
報との対応関係を記述した記憶手段と、電話回線を介し
て通話を行う通話手段と、電話回線を介してファクシミ
リ通信を行うファクシミリ通信手段と、インターネット
を介してデータ通信を行うデータ通信手段と、を備える
通信装置の制御方法であって、 音声を入力する音声入力ステップと、 入力された前記音声を認識する音声認識ステップと、 上記各通信手段のうちいずれの手段を使用するのかを判
定する判定ステップと、 前記音声認識ステップで得られた認識結果と前記記憶手
段における各接続先略称とを照合してその照合結果に応
じて接続先略称を選択する照合ステップと、を有し、 前記照合ステップは、前記判定ステップで得られた判定
結果に応じて、前記記憶手段における各接続先略称の照
合候補を制限する制御ステップを含むことを特徴とする
通信装置の制御方法。
21. A storage unit describing a correspondence relationship between a connection destination abbreviation and information specifying the connection destination, a call unit for making a call via a telephone line, and a facsimile communication for making a facsimile communication via a telephone line. A voice input step of inputting a voice, a voice recognition step of recognizing the input voice, comprising: A determination step of determining which one of the communication means is used, the recognition result obtained in the voice recognition step and each connection destination abbreviation in the storage means are collated, and connection is made according to the collation result. A collating step of selecting an abbreviation, and the collating step according to the determination result obtained in the determining step; The communication control method characterized by comprising the control step of limiting the matching candidates for the destination abbreviation.
【請求項22】 接続先略称とその接続先を特定する情
報との対応関係を記述した記憶手段と、電話回線を介し
て通話を行う通話手段と、電話回線を介してファクシミ
リ通信を行うファクシミリ通信手段と、インターネット
を介してデータ通信を行うデータ通信手段と、を備える
通信装置を制御するためのプログラムであって、 音声を入力する音声入力ステップのプログラムコード
と、 入力された前記音声を認識する音声認識ステップのプロ
グラムコードと、 上記各通信手段のうちいずれの手段を使用するのかを判
定する判定ステップのプログラムコードと、 前記音声認識ステップで得られた認識結果と前記記憶手
段における各接続先略称とを照合してその照合結果に応
じて接続先略称を選択する照合ステップのプログラムコ
ードと、を有し、 前記照合ステップのプログラムコードは、前記判定ステ
ップで得られた判定結果に応じて、前記記憶手段におけ
る各接続先略称の照合候補を制限する制御ステップのプ
ログラムコードを含むことを特徴とするプログラム。
22. Storage means describing a correspondence relationship between a connection destination abbreviation and information for identifying the connection destination, a communication means for making a call via a telephone line, and a facsimile communication for making a facsimile communication via a telephone line. And a data communication means for performing data communication via the Internet, the program being for controlling a communication device, the program code of a voice input step for inputting voice, and recognizing the input voice. Program code for the voice recognition step, program code for the determination step for determining which of the above communication means is to be used, recognition result obtained in the voice recognition step, and each connection destination abbreviation in the storage means And the program code of the verification step that selects the connection destination abbreviation according to the verification result. , Program code of the verification step, the determination in accordance with the determination result obtained in step, the program characterized by comprising a program code of the control step of limiting the matching candidates for each destination referred in the storage means.
【請求項23】 接続先略称とその接続先を特定する情
報との対応関係を記述した記憶手段と、電話回線を介し
て通話を行う通話手段と、電話回線を介してファクシミ
リ通信を行うファクシミリ通信手段と、インターネット
を介してデータ通信を行うデータ通信手段と、を備える
通信装置を制御するためのプログラムを格納した記憶媒
体であって、 音声を入力する音声入力ステップのプログラムコード
と、 入力された前記音声を認識する音声認識ステップのプロ
グラムコードと、 上記各通信手段のうちいずれの手段を使用するのかを判
定する判定ステップのプログラムコードと、 前記音声認識ステップで得られた認識結果と前記記憶手
段における各接続先略称とを照合してその照合結果に応
じて接続先略称を選択する照合ステップのプログラムコ
ードと、を格納し、 前記照合ステップのプログラムコードは、前記判定ステ
ップで得られた判定結果に応じて、前記記憶手段におけ
る各接続先略称の照合候補を制限する制御ステップのプ
ログラムコードを含むことを特徴とする記憶媒体。
23. Storage means describing the correspondence between a connection destination abbreviation and information specifying the connection destination, a communication means for making a call via a telephone line, and a facsimile communication for making a facsimile communication via a telephone line. A storage medium storing a program for controlling a communication device, comprising: a communication means for performing data communication via the Internet; and a program code of a voice input step for inputting voice, A program code of a voice recognition step for recognizing the voice, a program code of a determination step for determining which of the communication means is to be used, a recognition result obtained in the voice recognition step, and the storage means. Matching step abbreviations for each connection destination and selecting the connection destination abbreviation according to the matching result And a program code of the control step for limiting the verification candidate of each connection destination abbreviation in the storage means according to the determination result obtained in the determination step. A storage medium characterized by.
JP2001392732A 2001-12-25 2001-12-25 Communication device and its control method Withdrawn JP2003195885A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001392732A JP2003195885A (en) 2001-12-25 2001-12-25 Communication device and its control method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001392732A JP2003195885A (en) 2001-12-25 2001-12-25 Communication device and its control method

Publications (1)

Publication Number Publication Date
JP2003195885A true JP2003195885A (en) 2003-07-09

Family

ID=27599947

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001392732A Withdrawn JP2003195885A (en) 2001-12-25 2001-12-25 Communication device and its control method

Country Status (1)

Country Link
JP (1) JP2003195885A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005168009A (en) * 2003-11-20 2005-06-23 Lucent Technol Inc Communication device providing extended service
JP2006086755A (en) * 2004-09-15 2006-03-30 Ricoh Co Ltd Image forming apparatus, image forming method, program for executing its method by computer, image processor, and image processing system
GB2443981A (en) * 2004-04-01 2008-05-21 Honda Motor Co Ltd A vehicle simulation apparatus which selects dictionaries in response to a simulated situation.
JP2019512105A (en) * 2016-03-14 2019-05-09 アップル インコーポレイテッドApple Inc. Identifying Voice Input Providing Credentials
JP2021081505A (en) * 2019-11-15 2021-05-27 コニカミノルタ株式会社 Image processing device and control method

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005168009A (en) * 2003-11-20 2005-06-23 Lucent Technol Inc Communication device providing extended service
JP4526931B2 (en) * 2003-11-20 2010-08-18 アルカテル−ルーセント ユーエスエー インコーポレーテッド Communication devices that provide extended services
GB2443981A (en) * 2004-04-01 2008-05-21 Honda Motor Co Ltd A vehicle simulation apparatus which selects dictionaries in response to a simulated situation.
GB2443981B (en) * 2004-04-01 2008-09-03 Honda Motor Co Ltd Simulation apparatus
JP2006086755A (en) * 2004-09-15 2006-03-30 Ricoh Co Ltd Image forming apparatus, image forming method, program for executing its method by computer, image processor, and image processing system
JP4520262B2 (en) * 2004-09-15 2010-08-04 株式会社リコー Image forming apparatus, image forming method, program for causing computer to execute the method, image processing apparatus, and image processing system
JP2019512105A (en) * 2016-03-14 2019-05-09 アップル インコーポレイテッドApple Inc. Identifying Voice Input Providing Credentials
JP2021081505A (en) * 2019-11-15 2021-05-27 コニカミノルタ株式会社 Image processing device and control method

Similar Documents

Publication Publication Date Title
JP2000196787A (en) Communication system and facsimile equipment
JP2008113370A (en) Facsimile apparatus
JP2003195885A (en) Communication device and its control method
JP2002202791A (en) Communication device, control method and memory medium
JP2003108481A (en) Communication system, communication method, program and recording medium
JP2003108482A (en) Communication system, communication method, program and recording medium
US20050111404A1 (en) Wireless communication apparatus, method and program therefor
JP3058761B2 (en) Facsimile machine
JPH11187170A (en) Facsimile equipment
JP2000115327A (en) Communication equipment, method and storage medium thereof
JP3941117B2 (en) Communication device
JP2000115335A (en) Communication equipment and registration data management method and storage medium thereof
JP3057170B2 (en) Facsimile apparatus, telephone, calling method and telephone number recognition method
JP2001309016A (en) Electronic telephone directory
JP2000112493A (en) Speech recognizing device and communication device, and their control method
JP2002158880A (en) Communication device and storing medium
JP2000115325A (en) Communication equipment, method and storage medium
JP2002073083A (en) Voice recognition device, voice recognition method, communication equipment, communication control method, and storage medium
JP2000115328A (en) Communication equipment, method and storage medium thereof
JP2003078702A (en) Image communication device, image communication method and storage medium
JP2000115337A (en) Communication equipment, and registration data management method and storage medium thereof
JP2005094211A (en) Information communicating system and its controlling method, control program, and storage medium
JP2000112492A (en) Speech recognizing method, device therefor, and comminication device, and control method therefor
JP2000115336A (en) Communication equipment, and registration data management method and storage medium thereof
JP2000115338A (en) Communication equipment, and registration data management method and storage medium thereof

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050301