JP2001075775A - 情報処理装置および方法、並びにプログラム格納媒体 - Google Patents

情報処理装置および方法、並びにプログラム格納媒体

Info

Publication number
JP2001075775A
JP2001075775A JP25067799A JP25067799A JP2001075775A JP 2001075775 A JP2001075775 A JP 2001075775A JP 25067799 A JP25067799 A JP 25067799A JP 25067799 A JP25067799 A JP 25067799A JP 2001075775 A JP2001075775 A JP 2001075775A
Authority
JP
Japan
Prior art keywords
program
voice
word
still image
engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP25067799A
Other languages
English (en)
Inventor
Kiyonobu Kojima
清信 小島
Yasuhiko Kato
靖彦 加藤
Shuji Yonekura
修二 米倉
Satoshi Fujimura
聡 藤村
Takashi Sasai
崇司 笹井
Naoki Fujisawa
直樹 藤澤
Junji Oi
純司 大井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP25067799A priority Critical patent/JP2001075775A/ja
Publication of JP2001075775A publication Critical patent/JP2001075775A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 使用者の意図通りに処理が実行されているか
否かを容易に知る。 【解決手段】 ランチャ設定データベース113は、プ
ログラムを特定する特定データを記憶する。音声認識エ
ンジン101は、音声を認識して、音声に対応する単語
を生成する。音声コマンダ102は、音声認識エンジン
101により生成された単語が特定データに対応する場
合、特定データに対応するプログラムを起動させるとと
もに、音声認識エンジン101または音声コマンダ10
2のいずれかに対応する画像から、プログラムに対応す
る画像への送信を表す画像の表示を制御する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、情報処理装置およ
び方法、並びにプログラム格納媒体に関し、特に、音声
を認識する情報処理装置および方法、並びにプログラム
格納媒体に関する。
【0002】
【従来の技術】所定のパーソナルコンピュータは、音声
を認識して所定のプログラムを起動させることができ
る。
【0003】
【発明が解決しようとする課題】しかしながら、音声で
所定のプログラムを起動させるとき、認識された音声に
対応する文字などを表示させるのみで、どのプログラム
を対象として処理が実行されているかを知ることができ
なかった。
【0004】本発明はこのような状況に鑑みてなされた
ものであり、音声で所定のプログラムを起動させるとき
など、使用者の意図通りに処理が実行されているか否か
を容易に知ることができるようにする。
【0005】
【課題を解決するための手段】請求項1に記載の情報処
理装置は、プログラムを特定する特定データを記憶する
特定データ記憶手段と、音声を認識して、音声に対応す
る単語を生成する生成手段と、生成手段により生成され
た単語が特定データに対応する場合、特定データに対応
するプログラムを起動させる起動手段と、起動手段がプ
ログラムを起動させる場合、生成手段または起動手段の
いずれかに対応する画像から、プログラムに対応する画
像への送信を表す画像の表示を制御する表示制御手段と
を含むことを特徴とする。
【0006】請求項2に記載の情報処理方法は、プログ
ラムを特定する特定データを記憶する特定データ記憶ス
テップと、音声を認識して、音声に対応する単語を生成
する生成ステップと、生成ステップの処理で生成された
単語が特定データに対応する場合、特定データに対応す
るプログラムを起動させる起動ステップと、起動ステッ
プの処理でプログラムを起動させる場合、生成ステップ
または起動ステップのいずれかに対応する画像から、プ
ログラムに対応する画像への送信を表す画像の表示を制
御する表示制御ステップとを含むことを特徴とする。
【0007】請求項3に記載のプログラム格納媒体のプ
ログラムは、プログラムを特定する特定データを記憶す
る特定データ記憶ステップと、音声を認識して、音声に
対応する単語を生成する生成ステップと、生成ステップ
の処理で生成された単語が特定データに対応する場合、
特定データに対応するプログラムを起動させる起動ステ
ップと、起動ステップの処理でプログラムを起動させる
場合、生成ステップまたは起動ステップのいずれかに対
応する画像から、プログラムに対応する画像への送信を
表す画像の表示を制御する表示制御ステップとからなる
ことを特徴とする。
【0008】請求項4に記載の情報処理装置は、音声を
認識して、音声に対応する単語を生成する生成手段と、
生成手段により生成された単語に対応させて、所定のプ
ログラムのコマンドを記憶する記憶手段と、プログラム
に、生成手段により生成された単語に対応するコマンド
を送信する送信手段と、送信手段がプログラムにコマン
ドを送信する場合、生成手段または送信手段のいずれか
に対応する画像から、プログラムに対応する画像への送
信を表す画像の表示を制御する表示制御手段とを含むこ
とを特徴とする。
【0009】請求項5に記載の情報処理方法は、音声を
認識して、音声に対応する単語を生成する生成ステップ
と、生成ステップの処理で生成された単語に対応させ
て、所定のプログラムのコマンドを記憶する記憶ステッ
プと、プログラムに、生成ステップの処理で生成された
単語に対応するコマンドを送信する送信ステップと、送
信ステップの処理でプログラムにコマンドを送信する場
合、生成ステップまたは送信ステップのいずれかに対応
する画像から、プログラムに対応する画像への送信を表
す画像の表示を制御する表示制御ステップとを含むこと
を特徴とする。
【0010】請求項6に記載のプログラム格納媒体のプ
ログラムは、音声を認識して、音声に対応する単語を生
成する生成ステップと、生成ステップの処理で生成され
た単語に対応させて、所定のプログラムのコマンドを記
憶する記憶ステップと、プログラムに、生成ステップの
処理で生成された単語に対応するコマンドを送信する送
信ステップと、送信ステップの処理でプログラムにコマ
ンドを送信する場合、生成ステップまたは送信ステップ
のいずれかに対応する画像から、プログラムに対応する
画像への送信を表す画像の表示を制御する表示制御ステ
ップとからなることを特徴とする。
【0011】請求項1に記載の情報処理装置において
は、プログラムを特定する特定データが記憶され、音声
を認識して、音声に対応する単語が生成され、生成され
た単語が特定データに対応する場合、特定データに対応
するプログラムが起動され、プログラムを起動させる場
合、生成手段または起動手段のいずれかに対応する画像
から、プログラムに対応する画像への送信を表す画像の
表示が制御される。
【0012】請求項2に記載の情報処理方法および請求
項3に記載のプログラム格納媒体においては、プログラ
ムを特定する特定データが記憶され、音声を認識して、
音声に対応する単語が生成され、生成された単語が特定
データに対応する場合、特定データに対応するプログラ
ムが起動され、プログラムを起動させる場合、生成ステ
ップまたは起動ステップのいずれかに対応する画像か
ら、プログラムに対応する画像への送信を表す画像の表
示が制御される。
【0013】請求項4に記載の情報処理装置において
は、音声を認識して、音声に対応する単語が生成され、
生成された単語に対応させて、所定のプログラムのコマ
ンドが記憶され、プログラムに生成された単語に対応す
るコマンドが送信され、プログラムにコマンドを送信す
る場合、生成手段または送信手段のいずれかに対応する
画像から、プログラムに対応する画像への送信を表す画
像の表示が制御される。
【0014】請求項5に記載の情報処理方法および請求
項6に記載のプログラム格納媒体においては、音声を認
識して、音声に対応する単語が生成され、生成された単
語に対応させて、所定のプログラムのコマンドが記憶さ
れ、プログラムに生成された単語に対応するコマンドが
送信され、プログラムにコマンドを送信する場合、生成
ステップまたは送信ステップのいずれかに対応する画像
から、プログラムに対応する画像への送信を表す画像の
表示が制御される。
【0015】
【発明の実施の形態】以下、本発明に係る情報処理装置
の一実施の形態を図面を参照して説明する。
【0016】図1乃至図6は、本発明を適用した携帯型
パーソナルコンピュータの構成例を表している。このパ
ーソナルコンピュータ1は、ミニノート型のパーソナル
コンピュータとされ、基本的に、本体2と、本体2に対
して開閉自在とされている表示部3により構成されてい
る。図1は、表示部3を本体2に対して開いた状態を示
す外観斜視図、図2は、図1の平面図、図3は、表示部
3を本体2に対して閉塞した状態を示す左側側面図、図
4は、表示部3を本体2に対して180度開いた状態を
示す右側側面図、図5は、図3の正面図、図6は、図4
の底面図である。
【0017】本体2には、各種の文字や記号などを入力
するとき操作されるキーボード4、マウスカーソルを移
動させるときなどに操作されるスティック式ポインティ
ングデバイス5が、その上面に設けられている。また、
本体2の上面には、音を出力するスピーカ8と、表示部
3に設けられているCCDビデオカメラ23で撮像すると
き操作されるシャッタボタン10がさらに設けられてい
る。
【0018】表示部3の上端部には、ツメ13が設けら
れており、図3に示すように、表示部3を本体2に対し
て閉塞した状態において、ツメ13に対向する位置にお
ける本体2には、ツメ13が嵌合する孔部6が設けられ
ている。本体2の前面には、スライドレバー7が前面に
平行に移動可能に設けられており、スライドレバー7は
孔部6に嵌合したツメ13と係合してロックし、またロ
ック解除することができるようになっている。ロックを
解除することにより、表示部3を本体2に対して回動す
ることができる。ツメ13の隣りには、マイクロホン2
4が取り付けられている。このマイクロホン24は、図
6にも示すように、背面からの音も収音できるようにな
されている。
【0019】本体2の正面にはまた、プログラマブルパ
ワーキー(PPK)9が設けられている。本体2の右側面
には、図4に示すように、排気孔11が設けられてお
り、本体2の前面下部には、図5に示すように、吸気孔
14が設けられている。さらに、排気孔11の右側に
は、PCMCIA(Personal Computer Memory Card Internat
ional Association)カード(PCカード)を挿入する
ためのスロット12が設けられている。
【0020】表示部3の正面には、画像を表示するLCD
(Liquid Crystal Display)21が設けられており、そ
の上端部には、撮像部22が、表示部3に対して回動自
在に設けられている。すなわち、この撮像部22は、LC
D21と同一の方向と、その逆の方向(背面の方向)と
の間の180度の範囲の任意の位置に回動することがで
きるようになされている。撮像部22には、CCDビデオ
カメラ23が取り付けられている。
【0021】表示部3の下側の本体側には、電源ランプ
PL、電池ランプBL、メッセージランプML、その他のLED
よりなるランプが設けられている。なお、図3に示す符
号40は、本体2の左側面に設けられた電源スイッチで
あり、図5に示す符号25は、CCDビデオカメラ23の
フォーカスを調整する調整リングである。さらに、図6
に示す符号26は、本体2内に増設メモリを取り付ける
ための開口部を被覆する蓋であり、符号41は、蓋26
のロックツメを外すためのピンを挿入する小孔である。
【0022】図7は、パーソナルコンピュータ1の内部
の構成を表している。内部バス51には、図7に示すよ
うに、CPU(Central Processing Unit)52、必要に応
じて挿入されるPCカード53、RAM(Random Access M
emory)54、およびグラフィックチップ81が接続さ
れている。この内部バス51は、外部バス55に接続さ
れており、外部バス55には、ハードディスクドライブ
(HDD)56、I/O(入出力)コントローラ57、キ
ーボードコントローラ58、スティック式ポインティン
グデバイスコントローラ59、サウンドチップ60、LC
Dコントローラ83、モデム50などが接続されてい
る。
【0023】CPU52は、各機能を統括するコントロー
ラであり、PCカード53は、オプションの機能を付加
するとき適宜装着される。
【0024】RAM54の中には、起動が完了した時点に
おいて、電子メールプログラム(アプリケーションプロ
グラム)54A、オートパイロットプログラム(アプリ
ケーションプログラム)54B、そしてOS(基本プロ
グラム)54Cが、HDD56から転送され、記憶され
る。
【0025】電子メールプログラム54Aは、電話回線
のような通信回線などからネットワーク経由で通信文を
授受するプログラムである。電子メールプログラム54
Aは、特定機能としての着信メール取得機能を有してい
る。この着信メール取得機能は、メールサーバ93に対
して、そのメールボックス93A内に自分(利用者)宛
のメールが着信しているかどうかを確認して、自分宛の
メールがあれば取得する処理を実行する。
【0026】オートパイロットプログラム54Bは、予
め設定された複数の処理(またはプログラム)などを、
予め設定された順序で順次起動して、処理するプログラ
ムである。
【0027】OS54Cは、Windows98(商標)に代
表される、コンピュータの基本的な動作を制御するもの
である。
【0028】一方、外部バス55側のハードディスクド
ライブ(HDD)56には、電子メールプログラム56
A、オートパイロットプログラム56B、OS56Cが
記憶されている。ハードディスクドライブ56内のOS
56C、オートパイロットプログラム56B、および電
子メールプログラム56Aは、起動(ブートアップ)処
理の過程で、RAM54内に順次転送され、格納される。
【0029】I/Oコントローラ57は、マイクロコン
トローラ61を有し、このマイクロコントローラ61に
は、I/Oインタフェース62が設けられている。この
マイクロコントローラ61は、I/Oインタフェース6
2、CPU63、RAM64、ROM69が相互に接続されて構
成されている。このRAM64は、キー入力ステイタスレ
ジスタ65、LED(発光ダイオード)制御レジスタ6
6、設定時刻レジスタ67、レジスタ68を有してい
る。設定時刻レジスタ67は、ユーザが予め設定した時
刻(起動条件)になると起動シーケンス制御部76の動
作を開始させる際に利用される。レジスタ68は、予め
設定された操作キーの組み合わせ(起動条件)と、起動
すべきアプリケーションプログラムの対応を記憶するも
ので、その記憶された操作キーの組み合わせがユーザに
より入力されると、その記憶されたアプリケーションプ
ログラム(例えば電子メール)が起動されることにな
る。
【0030】キー入力ステイタスレジスタ65は、ワン
タッチ操作用のプログラマブルパワーキー(PPK)9が
押されると、操作キーフラグが格納されるようになって
いる。LED制御レジスタ66は、レジスタ68に記憶さ
れたアプリケーションプログラム(電子メール)の立ち
上げ状態を表示するメッセージランプMLの点灯を制御す
るものである。設定時刻レジスタ67は、所定の時刻を
任意に設定することができるものである。
【0031】なお、このマイクロコントローラ61に
は、バックアップ用のバッテリ74が接続されており、
各レジスタ65,66,67の値は、本体2の電源がオ
フとされている状態においても保持されるようになって
いる。
【0032】マイクロコントローラ61内のROM69の
中には、ウェイクアッププログラム70、キー入力監視
プログラム71、LED制御プログラム72が予め格納さ
れている。このROM69は、例えばEEPROM(electricall
y erasable and programmable read only memory)で構
成されている。このEEPROMはフラッシュメモリとも呼ば
れている。さらにマイクロコントローラ61には、常時
現在時刻をカウントするRTC(Real-Time Clock)75が
接続されている。
【0033】ROM69の中のウェイクアッププログラム
70は、RTC75から供給される現在時刻データに基づ
いて、設定時刻レジスタ67に予め設定された時刻にな
ったかどうかをチェックして、設定された時刻になる
と、所定の処理(またはプログラム)などの起動をする
プログラムである。キー入力監視プログラム71は、PP
K9が利用者により押されたかどうかを常時監視するプ
ログラムである。LED制御プログラム72は、メッセー
ジランプMLの点灯を制御するプログラムである。
【0034】ROM69には、さらにBIOS(Basic Input O
utput System)73が書き込まれている。このBIOS73
は、電源投入時にOS56Cを起動したり、起動した
後、各種アプリケーションソフトウェアと周辺機器(デ
ィスプレイ、キーボード、ハードディスクドライブな
ど)の間でデータを授受する等の機能を有する。
【0035】外部バス55に接続されているキーボード
コントローラ58は、キーボード4からの入力をコント
ロールする。スティック式ポインティングデバイスコン
トローラ59は、スティック式ポインティングデバイス
5の入力を制御する。
【0036】サウンドチップ60は、マイクロホン24
からの入力を取り込み、あるいは内蔵スピーカ8に対し
て音声信号を供給する。
【0037】モデム50は、公衆電話回線90、インタ
ーネットサービスプロバイダ91を介して、インターネ
ットなどの通信ネットワーク92やメールサーバ93な
どに接続することができる。
【0038】内部バス51に接続されているグラフィッ
クチップ81には、CCDビデオカメラ23で取り込んだ
画像データが、処理部82で処理された後、ZV(Zo
omed Video)ポートを介して入力されるよう
になされている。グラフィックチップ81は、処理部8
2を介してCCDビデオカメラ23より入力されたビデオ
データを、内蔵するVRAM81に記憶し、適宜、これを読
み出して、LCDコントローラ83に出力する。LCDコント
ローラ83は、グラフィックチップ81より供給された
画像データをLCD21に出力し、表示させる。バックラ
イト84は、LCD21を後方から照明するようになされ
ている。
【0039】電源スイッチ40は、電源をオンまたはオ
フするとき操作される。半押しスイッチ85は、シャッ
タボタン10が半押し状態にされたときオンされ、全押
しスイッチ86は、シャッタボタン10が全押し状態に
されたときオンされる。反転スイッチ87は、撮像部2
2が180度回転されたとき(CCDビデオカメラ23がL
CD21の反対側を撮像する方向に回転されたとき)、オ
ンされるようになされている。
【0040】ドライブ88は、外部バス55に接続され
ている。ドライブ88は、磁気ディスク351(フロッ
ピディスクを含む)、光ディスク352(CD-ROM(Compa
ct Disc-Read Only Memory)、DVD(Digital Versatile D
isc)を含む)、光磁気ディスク353(MD(Mini-Dis
c)を含む)、または半導体メモリ354などが装着さ
れ、装着された磁気ディスク351、光ディスク35
2、光磁気ディスク353、または半導体メモリ354
などに記録されているプログラムまたはデータを、外部
バス55または内部バス51を介して、HDD56またはR
AM54に供給する。
【0041】ドライブ88は、外部バス55または内部
バス51を介して、モデム50、HDD56、またはRAM5
4から供給されたプログラムまたはデータなどを、装着
された磁気ディスク351、光ディスク352、光磁気
ディスク353、または半導体メモリ354などに記録
させる。
【0042】図8は、音声認識に係るプログラムをパー
ソナルコンピュータ1が起動させたときの、所定のプロ
グラムによる機能ブロックを示す図である。音声認識エ
ンジン101は、読み仮名辞書データベース111に予
め記憶されている漢字に対する読み、またはエンジン用
認識単語・文法データベース112に予め記憶されてい
る認識単語、若しくは文法を基に、マイクロホン24か
ら入力された使用者の音声に対応するデータを入力し、
使用者が喋った言葉に対応するテキストなどの所定の方
式のデータを生成して、音声コマンダ102に供給す
る。
【0043】音声認識エンジン101は、音声コマンダ
102から認識単語、若しくは文法などのデータを受信
して、読み仮名辞書データベース111またはエンジン
用認識単語・文法データベース112に記憶させる。
【0044】音声コマンダ102は、使用者が喋った所
定の言葉に対応する単語(テキストなど)などのデータ
が音声認識エンジン101から供給されたとき、静止画
撮影プログラム103、静止画閲覧プログラム104、
若しくは電子ペットプログラム105を起動させ、また
は静止画撮影プログラム103、静止画閲覧プログラム
104、若しくは電子ペットプログラム105に所定コ
マンド(使用者が喋った言葉に対応する)を送信する。
【0045】音声コマンダ102は、使用者が喋った他
の所定の言葉に対応する単語(テキストなど)などのデ
ータが音声認識エンジン101から供給されたとき、ラ
ンチャ設定データベース113に記憶されている起動に
関する設定に基づき、電子メールプログラム54A、ワ
ードプロセッサプログラム106、または表計算プログ
ラム107を起動させ、電子メールプログラム54Aに
メールアドレスなどの所定のデータを供給する。
【0046】また、音声コマンダ102は、グラフィカ
ルなユーザインターフェースを有し、使用者により、グ
ラフィカルなユーザインターフェースを介して種々の設
定がなされ、使用者により設定された内容を分類して、
アプリケーションプログラム(電子メールプログラム5
4A、ワードプロセッサプログラム106、または表計
算プログラム107)の起動に関する設定をランチャ設
定データベース113に、漢字の読み、または静止画撮
影プログラム103、静止画閲覧プログラム104、若
しくは電子ペットプログラム105のコマンドなどに関
する設定を辞書設定データベース114に、音声認識す
る単語または文法に関する設定を認識単語・文法データ
ベース115にそれぞれ記憶させる。
【0047】音声コマンダ102は、所定のタイミング
で、例えば、音声認識エンジン101に音声を認識させ
るとき、認識単語・文法データベース115に記憶して
いる認識単語のデータおよび文法のデータを、音声認識
エンジン101に送信する。
【0048】音声認識エンジン101は、OS54Cを
起動するとき入力される使用者を判別するデータに基づ
いて、その使用者用の読み仮名辞書データベース111
およびエンジン用認識単語・文法データベース112を
利用する。音声コマンダ102は、OS54Cを起動す
るとき入力される使用者を判別するデータに基づいて、
その使用者用のランチャ設定データベース113、辞書
設定データベース114、および認識単語・文法データ
ベース115を利用する。
【0049】仮名辞書データベース111、エンジン用
認識単語・文法データベース112、ランチャ設定デー
タベース113、辞書設定データベース114、および
認識単語・文法データベース115は、パーソナルコン
ピュータ1の使用者毎に生成され、HDD56に記録され
る。
【0050】静止画撮影プログラム103は、CCDビデ
オカメラ23から入力された画像を、シャッタボタン1
0などの操作に対応した信号に基づき、静止画像のデー
タを生成して、所定のファイルとしてHDD56に記録す
る。
【0051】静止画閲覧プログラム104は、静止画撮
影プログラム103が記録させた静止画像のファイルを
選択し、または使用者に選択させ、選択された静止画像
をLCD21に表示させる。電子ペットプログラム105
は、LCD21に仮想的なペットを表示させ、使用者の操
作に対応して、仮想的なペットに指示などを与える。
【0052】ワードプロセッサプログラム106は、文
字または図形などから成る文書を編集するためのプログ
ラムである。表計算プログラム107は、所定の形式の
表に配置された数値に所定の演算を実行する、または配
置された数値に対応するグラフを描写するなどの機能を
有する。
【0053】図9は、音声コマンダ102のより詳細な
機能を説明する図である。UI(ユーザインターフェー
ス)処理部123は、アプリケーション通信部121、
エンジン通信部122、音声ランチャ制御部124、ユ
ーザ辞書制御部125、または認識テスト処理部126
から所定のデータを入力するとともに、キーボード4ま
たはスティック式ポインティングデバイス5などから所
定の信号を入力して、マイクロフォン24を介して入力
された音声の大きさまたは音声認識の結果などを、所定
のウィンドウに表示させる。UI処理部123は、所定
のプログラムを起動させるとき、アプリケーション通信
部121、または音声ランチャ制御部124から入力さ
れたデータを基に、所定の画像をLCD21に表示させ
る。
【0054】UI処理部123は、キーボード4または
ステッィク式ポインティングデバイス5などの操作に対
応した信号を基に、UI処理部123自身の状態を変化
させ、所定のデータをアプリケーション通信部121、
エンジン通信部122、音声ランチャ制御部124、ユ
ーザ辞書制御部125、または認識テスト処理部126
に供給する。
【0055】また、UI処理部123は、静止画撮影プ
ログラム103、静止画閲覧プログラム104、および
電子ペットプログラム105の状態、並びにエンジン通
信部122を介して音声認識エンジン101から供給さ
れた、使用者が喋った所定の言葉に対応する所定のテキ
ストなどのデータを基に、アプリケーション通信部12
1または音声ランチャ制御部124に、コマンドを送信
または所定のプログラムの起動をさせるか否かを決定
し、アプリケーション通信部121または音声ランチャ
制御部124にコマンドを送信させ、または所定のプロ
グラムの起動させる。
【0056】アプリケーション通信部121は、静止画
撮影プログラム103、静止画閲覧プログラム104、
または電子ペットプログラム105を起動させ、起動し
ている静止画撮影プログラム103、静止画閲覧プログ
ラム104、または電子ペットプログラム105と通信
を行い、静止画撮影プログラム103、静止画閲覧プロ
グラム104、または電子ペットプログラム105から
それぞれの状態を示すデータを受信する。
【0057】アプリケーション通信部121は、静止画
撮影プログラム103、静止画閲覧プログラム104、
および電子ペットプログラム105の状態を示すデータ
などをエンジン通信部122またはUI処理部123に
供給するとともに、エンジン通信部122またはUI処
理部123から、使用者が喋った所定の言葉に対応する
所定のテキストなどのデータ、または使用者のキーボー
ド4などへの操作に対応するデータなどを受信する。
【0058】また、アプリケーション通信部121は、
静止画撮影プログラム103、静止画閲覧プログラム1
04、および電子ペットプログラム105の状態、並び
にエンジン通信部122を介して音声認識エンジン10
1から供給された、使用者が喋った所定の言葉に対応す
る所定のテキストなどのデータを基に、静止画撮影プロ
グラム103、静止画閲覧プログラム104、若しくは
電子ペットプログラム105のいずれかを起動させ、ま
たは静止画撮影プログラム103、静止画閲覧プログラ
ム104、若しくは電子ペットプログラム105のいず
れかに所定のコマンドを供給する。
【0059】静止画撮影プログラム103、静止画閲覧
プログラム104、および電子ペットプログラム105
のいずれもが、フォーカスがあてられていないとき(い
ずれもアクティブでないとき)、音声コマンダ102
は、静止画撮影プログラム103、静止画閲覧プログラ
ム104、または電子ペットプログラム105のいずれ
かを対象としたコマンドを実行できない。
【0060】静止画撮影プログラム103、静止画閲覧
プログラム104、および電子ペットプログラム105
のいずれかが、フォーカスがあてられているとき(いず
れかがアクティブであるとき)、音声コマンダ102
は、アクティブである、静止画撮影プログラム103、
静止画閲覧プログラム104、または電子ペットプログ
ラム105のいずれかを対象としたコマンドを実行する
ことができる。
【0061】このような静止画撮影プログラム103、
静止画閲覧プログラム104、または電子ペットプログ
ラム105のいずれかの特定のプログラムを対象とした
コマンドをローカルなコマンドと称する。
【0062】なお、音声コマンダ102がローカルなコ
マンドを送信するプログラムを特定する方法は、フォー
カスに限らず、他の状態またはデータを参照するように
してもよい。
【0063】エンジン通信部122は、所定の方式を基
づいて、認識単語・文法データベース115から認識単
語のデータおよび文法のデータを読み出して、そのデー
タを音声認識エンジン101に送信するとともに、音声
認識エンジン101から供給された使用者が喋った所定
の言葉に対応する所定のテキストなどのデータを受信す
る。
【0064】エンジン通信部122は、例えば、図10
に例を示すMicrosoft Speech API(商標)(以下、SAPI
と称する)に規定された方式で、音声認識エンジン10
1に認識単語・文法データベース115に記憶されてい
る認識単語のデータおよび文法のデータを送信する。図
10に示すデータの例には、音声認識の対象が<Global>
および<SVCommand>から構成され、<Global>が更に(Chan
geWin),(VoiceCommand)から構成され、<SVCommand>が
「ヘルプ」、「前へ」などのコマンドの他、<SendMail>
で表されるメールのコマンドも含むことが記述されてい
る。また、図10に示すデータの例には、「ヘルプ」と
いうコマンドのコード番号が102であり、「パパ」と
いう読みを有する単語に「daddy@test.company.co.jp」
という文字列が関連していることなどが示されている。
【0065】音声認識エンジン101は、エンジン通信
部122から受信したデータを、所定の方式のデータに
変換して、読み仮名辞書データベース111またはエン
ジン用認識単語・文法データベース112に記憶させ、
読み仮名辞書データベース111またはエンジン用認識
単語・文法データベース112に記憶しているデータに
基づき、音声認識の処理を実行する。
【0066】音声認識エンジン101は、エンジン通信
部122に、使用者が喋った所定の言葉に対応する、コ
ード番号(例えば、102など)、認識した単語または
文(例えば、”パパにメール”など)、および認識した
単語に関連する文字列(例えば、”daddy@test.compan
y.co.jp”)のデータを送信する。
【0067】例えば、使用者がマイクロフォン24に向
かって「パパにメール」という音声を入力して、音声認
識エンジン101が正しく音声を認識したとき、音声認
識エンジン101は、7fffffff(16進数)、”パパに
メール”、および”daddy@test.company.co.jp”をエン
ジン通信部122に送信する。
【0068】エンジン通信部122は、音声認識エンジ
ン101から受信したデータを基に、受信したデータを
アプリケーション通信部121、UI処理部123、音
声ランチャ制御部124、ユーザ辞書制御部125、ま
たは認識テスト処理部126のいずれに送信するかを判
断し、その判断に基づいて、音声認識エンジン101か
ら受信したデータを所定の方式に変換して、選択された
アプリケーション通信部121、UI処理部123、音
声ランチャ制御部124、ユーザ辞書制御部125、ま
たは認識テスト処理部126のいずれかに変換したデー
タを供給する。
【0069】音声ランチャ制御部124は、グラフィカ
ルなユーザインターフェースを表示させて使用者により
入力された、アプリケーションプログラム(電子メール
プログラム54A、ワードプロセッサプログラム10
6、または表計算プログラム107)の起動に関する設
定をランチャ設定データベース113に保存させるとと
もに、その設定に基づき、認識単語・文法データベース
115に記憶されている音声認識する単語または文法に
関する設定を更新させる。
【0070】音声ランチャ制御部124は、エンジン通
信部122からランチャに関するデータを受信したと
き、ランチャ設定データベース113に記憶されている
起動に関する設定に基づき、電子メールプログラム54
A、ワードプロセッサプログラム106、または表計算
プログラム107のいずれかを起動させ、電子メールプ
ログラム54Aにメールアドレスなどを供給する。
【0071】音声コマンダ102は、フォーカスの状態
にかかわらず(いずれのプログラムがアクティブであっ
ても)、電子メールプログラム54A、ワードプロセッ
サプログラム106、または表計算プログラム107の
いずれかを起動させるコマンドを実行することができ
る。
【0072】このような、フォーカスの状態などにかか
わらず、常に実行することができる、例えば、電子メー
ルプログラム54A、ワードプロセッサプログラム10
6、または表計算プログラム107のいずれかを起動さ
せるコマンドをグローバルなコマンドと称する。
【0073】ユーザ辞書制御部125は、グラフィカル
なユーザインターフェースを表示させ使用者により入力
された、認識する音声に関する設定を辞書設定データベ
ース114に記憶させるとともに、その設定に基づき、
認識単語・文法データベース115に記憶されている音
声認識する単語または文法に関する設定を更新させる。
【0074】認識テスト処理部126は、使用者により
テストを実行する旨がユーザ辞書制御部125に入力さ
れたとき、グラフィカルなユーザインターフェースを表
示させて、辞書設定データベース114に記憶され、選
択されている所定の1の単語と、エンジン通信部122
を介して、音声認識エンジン101から供給された、音
声を認識した結果を示す単語とが一致するか否かを判定
し、その判定の結果を表示する。
【0075】また、認識テスト処理部126は、使用者
によりテストを実行する旨がユーザ辞書制御部125に
入力されたとき、グラフィカルなユーザインターフェー
スを表示させて、エンジン通信部122を介して、音声
認識エンジン101から供給された、音声を認識した結
果を示す単語が、辞書設定データベース114に記憶さ
れ、選択されている所定の1以上の単語に含まれるか否
かを判定し、その判定の結果を表示する。
【0076】図11は、所定の入力に対応した、UI処
理部123の状態の遷移を説明する状態遷移図である。
図11において、()で囲まれた文は、状態の遷移の条
件(例えば、プログラムの起動、エンジン起動完了な
ど)を示し、[]で囲まれた文は、状態の遷移に伴って
実行される処理(例えば、起動中の旨表示、認識単語・
文法設定など)を示す。
【0077】音声コマンダ102が起動されると、UI
処理部123は、LCD21に起動中を示す画像を表示さ
せるとともに、図12に示す音声コマンダ102のウィ
ンドウを表示させ、音声認識エンジン101の起動を待
つ状態1に遷移する。
【0078】音声コマンダウィンドウ151は、レベル
ゲージ161、認識結果表示部162、表示切り換えボ
タン163、ランチャ設定ボタン164、辞書管理ボタ
ン165、ヘルプボタン166、最小化ボタン167、
閉じるボタン168、認識状態表示部169、および音
声入力モード切り換えボタン170を有する。
【0079】レベルゲージ161は、マイクロフォン2
4を介して入力された使用者の音声のレベル(マイクロ
フォン24が出力する信号の振幅)を表示する。認識結
果表示部162は、エンジン通信部122から供給され
た認識された音声に対応する単語または文を表示する。
【0080】表示切り換えボタン163は、音声コマン
ダウィンドウ151を図示せぬ小型のウィンドウに切り
換えるとき、操作される。ランチャ設定ボタン164
は、電子メールプログラム54A、ワードプロセッサプ
ログラム106、または表計算プログラム107の起動
に関する設定をするとき、操作される。
【0081】辞書管理ボタン165は、認識する音声に
関する設定を辞書設定データベース114に記憶させる
とき、操作される。ヘルプボタン166は、オンライン
ヘルプをLCD21に表示させるとき、操作される。最小
化ボタン167は、音声コマンダウィンドウ151をLC
D21から消去し、例えば、タスクトレイ上に所定のア
イコンを表示させるとき、操作される。閉じるボタン1
68は、音声コマンダ102を終了させるとき、操作さ
れる。
【0082】認識状態表示部169は、音声認識エンジ
ン101の状態またはローカルコマンドが使用できるか
否か(所定のプログラムがアクティブであるか否か)な
どを表示する。音声入力モード切り換えボタン170
は、常時認識モードと通常の認識モードとを切り換える
ときに、操作される。
【0083】状態1において、音声認識エンジン101
の起動が失敗したとき、UI処理部123は終了する。
【0084】状態1において、音声認識エンジン101
の起動が成功したとき、UI処理部123は、ユーザの
操作を待つ状態2に遷移する。
【0085】状態2において、閉じるボタン168がク
リックされたとき、UI処理部123は、音声コマンダ
102を終了させる。状態2において、使用者が音声認
識に割り当てているキー(例えば、キーボード4のコン
トロールキーなど。以下、認識キーと称する)が押圧さ
れたとき、UI処理部123は、音声入力可能な状態3
に遷移する。
【0086】状態2から状態3に遷移するとき、UI処
理部123は、アプリケーション通信部121から静止
画撮影プログラム103、静止画閲覧プログラム10
4、および電子ペットプログラム105の内、アクティ
ブであるプログラムを示すデータを受信し、アクティブ
であるプログラムの名称を音声コマンダウィンドウ15
1の認識状態表示部169に表示させる。静止画撮影プ
ログラム103、静止画閲覧プログラム104、または
電子ペットプログラム105のいずれもアクティブでな
いとき、UI処理部123は、音声コマンダウィンドウ
151の認識状態表示部169にその旨(例えば、”Gl
obal Command”など)を表示させる。
【0087】状態3において、使用者がマイクロフォン
24から入力させた音声に対応する信号が音声認識エン
ジン101に供給され、音声認識エンジン101に供給
された音声に対応する信号のレベルに対応するデータ
が、エンジン通信部122を介して、UI処理部123
に供給される。状態3において、UI処理部123は、
音声に対応する信号のレベルに対応するデータに基づ
き、音声コマンダウィンドウ151のレベルゲージ16
1の表示を更新する。
【0088】また、状態3において、音声認識エンジン
101が音声を認識したとき、UI処理部123は、音
声認識エンジン101から認識した単語または文などの
データを受信し、音声コマンダウィンドウ151の認識
結果表示部162に認識した単語または文を表示させ
る。
【0089】状態3において、使用者が認識キーの押圧
を続けると、UI処理部123は、状態3における処理
を繰り返す。
【0090】状態3において、使用者が認識キーを離し
たとき、UI処理部123は、アプリケーション通信部
121または音声ランチャ制御部124に、音声認識エ
ンジン101から供給された、コード番号、認識した単
語または文、および認識した単語に関連する文字列のデ
ータに対応する、所定の動作(例えば、電子メールプロ
グラム54Aの起動など)を要求する。
【0091】このとき、アプリケーション通信部121
は、UI処理部123からの要求に対応して、静止画撮
影プログラム103、静止画閲覧プログラム104、若
しくは電子ペットプログラム105のいずれかを起動さ
せ、または静止画撮影プログラム103、静止画閲覧プ
ログラム104、若しくは電子ペットプログラム105
のいずれかに所定のコマンドを送信する。
【0092】このとき、音声ランチャ制御部124は、
UI処理部123からの要求に対応して、電子メールプ
ログラム54A、ワードプロセッサプログラム106、
若しくは表計算プログラム107のいずれかを起動さ
せ、または電子メールプログラム54Aに所定のデータ
(例えば、メールアドレスなど)を供給する。
【0093】アプリケーション通信部121または音声
ランチャ制御部124が所定のプログラムに対して、所
定の動作を完了させたとき、アプリケーション通信部1
21または音声ランチャ制御部124はUI処理部12
3にその旨を通知し、UI処理部123は、動作の対象
となる所定のプログラムに応じて、動作の対象となる所
定のプログラムを使用者に認識させる画像(後述する)
をLCD21に表示させる。
【0094】LCD21に動作の対象となる所定のプログ
ラム認識させる画像が表示されるので、使用者は、音声
の認識の結果、および音声コマンダ102の動作を知る
ことができる。
【0095】状態3から状態2に遷移するとき、UI処
理部123は、認識状態表示部169の表示を消去す
る。
【0096】状態2において、音声入力モード切り換え
ボタン170がクリックされたとき、UI処理部123
は、常時認識モードである状態4に遷移する。
【0097】状態2から状態4に遷移するとき、UI処
理部123は、アプリケーション通信部121から静止
画撮影プログラム103、静止画閲覧プログラム10
4、および電子ペットプログラム105の内、アクティ
ブであるプログラムを示すデータを受信し、アクティブ
であるプログラムの名称を認識状態表示部169に表示
させる。静止画撮影プログラム103、静止画閲覧プロ
グラム104、または電子ペットプログラム105のい
ずれもアクティブでないとき、UI処理部123は、音
声コマンダウィンドウ151の認識状態表示部169に
その旨(例えば、”Global Command”など)を表示させ
る。
【0098】状態4において、使用者がマイクロフォン
24から入力させた音声に対応する信号が音声認識エン
ジン101に供給され、音声認識エンジン101に供給
された音声に対応する信号のレベルに対応するデータ
が、エンジン通信部122を介して、UI処理部123
に供給される。状態4において、UI処理部123は、
音声に対応する信号のレベルに対応するデータに基づ
き、音声コマンダウィンドウ151のレベルゲージ16
1の表示を更新する。
【0099】また、状態4において、音声認識エンジン
101が音声を認識したとき、UI処理部123は、音
声認識エンジン101から認識した単語または文などの
データを受信し、音声コマンダウィンドウ151の認識
結果表示部162に認識した単語または文を表示させ
る。
【0100】状態4において、UI処理部123が、音
声認識エンジン101から認識した単語または文などの
データを受信したとき、UI処理部123は、アプリケ
ーション通信部121または音声ランチャ制御部124
に、音声認識エンジン101から供給された、コード番
号、認識した単語または文、および認識した単語に関連
する文字列のデータに対応する、所定の動作を要求す
る。
【0101】このとき、アプリケーション通信部121
は、UI処理部123からの要求に対応して、静止画撮
影プログラム103、静止画閲覧プログラム104、若
しくは電子ペットプログラム105のいずれかを起動さ
せ、または静止画撮影プログラム103、静止画閲覧プ
ログラム104、若しくは電子ペットプログラム105
のいずれかに所定のコマンドを送信する。
【0102】このとき、音声ランチャ制御部124は、
UI処理部123からの要求に対応して、電子メールプ
ログラム54A、ワードプロセッサプログラム106、
若しくは表計算プログラム107のいずれかを起動さ
せ、または電子メールプログラム54Aに所定のデータ
(例えば、メールアドレスなど)を供給する。
【0103】アプリケーション通信部121または音声
ランチャ制御部124が所定のプログラムに対して、所
定の動作を完了させたとき、アプリケーション通信部1
21または音声ランチャ制御部124はUI処理部12
3にその旨を通知し、UI処理部123は、動作の対象
となる所定のプログラムに応じて、動作の対象となる所
定のプログラムを使用者に認識させる画像(後述する)
をLCD21に表示させる。
【0104】状態4においては、音声コマンダ2は、認
識キーに対する操作に係わらず、音声認識エンジンが所
定の音声を認識したとき、静止画撮影プログラム10
3、静止画閲覧プログラム104、若しくは電子ペット
プログラム105のいずれかを起動させ、若しくは静止
画撮影プログラム103、静止画閲覧プログラム10
4、若しくは電子ペットプログラム105のいずれかに
所定のコマンドを送信し、または電子メールプログラム
54A、ワードプロセッサプログラム106、若しくは
表計算プログラム107のいずれかを起動させ、若しく
は電子メールプログラム54Aに所定のデータを供給す
る。
【0105】状態4において、音声入力モード切り換え
ボタン170がクリックされたとき、UI処理部123
は、状態2に遷移する。
【0106】状態2において、静止画撮影プログラム1
03に静止画像を撮影する操作が加えられたとき(例え
ば、シャッタボタン10が押圧されたなど)、UI処理
部123は、静止画像に添付するコメントを入力する状
態5に遷移する。
【0107】状態5において、使用者がマイクロフォン
24から入力させた音声に対応する信号が音声認識エン
ジン101に供給され、音声認識エンジン101に供給
された音声に対応する信号のレベルに対応するデータ
が、エンジン通信部122を介して、UI処理部123
に供給される。状態5において、UI処理部123は、
音声に対応する信号のレベルに対応するデータに基づ
き、音声コマンダウィンドウ151のレベルゲージ16
1の表示を更新する。
【0108】また、状態5において、音声認識エンジン
101が音声を認識したとき、UI処理部123は、音
声認識エンジン101から認識した単語または文などの
データを受信し、LCD21に表示されている、コメント
を添付する画像に対応する所定のダイアログなどに認識
した単語または文を表示させる。
【0109】状態5において、UI処理部123は、ア
プリケーション通信部121に、音声認識エンジン10
1から供給された、認識した単語または文を送信する。
アプリケーション通信部121は、静止画撮影プログラ
ム103に認識した単語または文を送信し、静止画撮影
プログラム103に認識した単語または文を画像のコメ
ントとして保存させる。
【0110】状態5において、アプリケーション通信部
121を介して、静止画撮影プログラム103からコメ
ントの入力を終了させる操作(例えば、シャッタボタン
10が離されたなど)を示すデータがUI処理部123
に入力されたとき、UI処理部123は、状態2に遷移
する。
【0111】状態2において、音声コマンダウィンドウ
151の辞書管理ボタン165がクリックされると、U
I処理部123は、辞書を設定する状態6に遷移し、ユ
ーザ辞書制御部125に辞書の設定の処理を要求する。
【0112】状態6において、ユーザ辞書制御部125
は、辞書設定用のダイアログをLCD21に表示させ、辞
書設定用のダイアログへの操作に基づき、辞書設定デー
タベース114および認識単語・文法データベース11
5に記憶されている設定を更新する。
【0113】状態6において、辞書設定用のダイアログ
に配置されているテストボタンがクリックされると、U
I処理部123は、音声認識テストを実行するする状態
8に遷移し、認識テスト処理部126に音声認識テスト
の処理を要求する。
【0114】認識テスト処理部126は、音声認識テス
トのダイアログをLCD21に表示させ、エンジン通信部
122を介して、音声認識エンジン101から供給され
た、音声を認識した単語が、辞書設定データベース11
4に登録されている単語と一致するか否かを判定する音
声認識のテストを実行し、その結果を表示する。
【0115】または、認識テスト処理部126は、音声
認識テストのダイアログをLCD21に表示させ、エンジ
ン通信部122を介して、音声認識エンジン101から
供給された認識した単語が、辞書設定データベース11
4に登録されている単語に含まれているか否かを判定す
る音声認識のテストを実行し、その結果を表示する。
【0116】状態8において、音声認識テストのダイア
ログに配置されているテストボタンがクリックされる
と、UI処理部123は、状態6に遷移する。
【0117】状態6において、辞書設定用のダイアログ
に配置されている閉じるボタンがクリックされると、U
I処理部123は、状態2に遷移する。
【0118】状態2において、音声コマンダウィンドウ
151のランチャ設定ボタン164がクリックされる
と、UI処理部123は、音声ランチャ制御部124の
電子メールプログラム54A、ワードプロセッサプログ
ラム106、または表計算プログラム107を起動する
設定を行う状態7に遷移し、音声ランチャ制御部124
にプログラムの起動の設定の処理を要求する。
【0119】状態7において、音声ランチャ制御部12
4は、ランチャ設定用のダイアログをLCD21に表示さ
せ、ランチャ設定用のダイアログへの操作に基づき、ラ
ンチャ設定データベース113に記憶されている設定を
更新する。
【0120】状態7において、ランチャ設定用のダイア
ログに配置されているテストボタンがクリックされる
と、UI処理部123は、音声認識テストを実行する状
態9に遷移し、認識テスト処理部126に音声認識テス
トの処理を要求する。
【0121】認識テスト処理部126は、音声認識テス
トのダイアログをLCD21に表示させ、エンジン通信部
122を介して、音声認識エンジン101から供給され
た認識した単語または文に、ランチャ設定データベース
113に登録されている単語が含まれ、認識した単語ま
たは文が設定されている文法に一致するか否かを判定す
る音声認識のテストを実行し、その結果を表示する。
【0122】状態9において、音声認識テストのダイア
ログに配置されているテストボタンがクリックされる
と、UI処理部123は、状態7に遷移する。
【0123】状態7において、ランチャ設定用のダイア
ログに配置されている閉じるボタンがクリックされる
と、UI処理部123は、状態2に遷移する。
【0124】図13は、所定の入力に対応した、エンジ
ン通信部122の状態の遷移を説明する状態遷移図であ
る。図13において、()で囲まれた文は、状態の遷移
の条件(例えば、プログラムの起動、起動の終了通知な
ど)を示し、[]で囲まれた文は、状態の遷移に伴って
実行される処理(例えば、処理結果通知、認識結果転送
など)を示す。
【0125】音声コマンダ102が起動されると、エン
ジン通信部122は、音声認識エンジン101を起動
し、音声認識エンジン101の起動を待つ状態11に遷
移する。状態11において、初期化に失敗すると、エン
ジン通信部122は、その結果をUI処理部123に送
信する。初期化に失敗した旨を受信したUI処理部12
3は、音声コマンダ102を終了させるので、初期化に
失敗したとき、エンジン通信部122は、終了する。
【0126】状態11において、音声認識エンジン10
1の起動の結果をUI処理部123に通知したとき、エ
ンジン通信部122は、イベント待ちの状態12に遷移
する。
【0127】使用者が認識キー(例えば、コントロール
キー)を押圧すると、UI処理部123がその旨のデー
タをエンジン通信部122に送信するので、状態11に
おいて、エンジン通信部122は、使用者が認識キーを
押圧した旨のデータを受信したとき、アプリケーション
通信部121から静止画撮影プログラム103、静止画
閲覧プログラム104、および電子ペットプログラム1
05の内、アクティブであるプログラムを示すデータを
受信し、そのデータに対応した単語および文法を示すデ
ータを認識単語・文法データベース115から読み出
す。
【0128】エンジン通信部122は、アクティブであ
るプログラムに対応した単語および文法を示すデータ、
または静止画撮影プログラム103、静止画閲覧プログ
ラム104、若しくは電子ペットプログラム105のコ
マンドなどに関するデータを適宜変換して、音声認識エ
ンジン101に送信して、音声認識エンジン101から
音声認識の結果を示すデータを受信できる状態13に遷
移する。
【0129】状態13において、エンジン通信部122
は、使用者がマイクロフォン24から入力させた音声に
対応する信号を受信した音声認識エンジン101が生成
する、信号のレベルに対応するデータを受信して、UI
処理部123に供給する。UI処理部123は、音声に
対応する信号のレベルに対応するデータに基づき、音声
コマンダウィンドウ151のレベルゲージ161の表示
を更新する。
【0130】使用者がマイクロフォン24に向かって音
声を発すると、音声認識エンジン101が、それを検知
して、音声を検出した旨のデータをエンジン通信部12
2に送信する。状態13において、エンジン通信部12
2は、音声を検出した旨のデータを受信すると、そのデ
ータをUI処理部123に転送するとともに、状態14
に遷移する。
【0131】状態14において、エンジン通信部122
は、使用者がマイクロフォン24から入力させた音声に
対応する信号を受信した音声認識エンジン101が生成
する、信号のレベルに対応するデータを受信して、UI
処理部123に供給する。UI処理部123は、音声に
対応する信号のレベルに対応するデータに基づき、音声
コマンダウィンドウ151のレベルゲージ161の表示
を更新する。
【0132】状態14において、エンジン通信部122
は、音声認識エンジン101から認識した単語または文
などのデータを受信したとき、そのデータをUI処理部
123に供給する。UI処理部123は、認識した単語
または文などのデータを基に、LDC21に表示する画
像または文字などを更新する。
【0133】状態14において、エンジン通信部122
は、音声認識エンジン101から受信した、認識した単
語または文などのデータが、静止画撮影プログラム10
3、静止画閲覧プログラム104、若しくは電子ペット
プログラム105のいずれかの起動、または静止画撮影
プログラム103、静止画閲覧プログラム104、若し
くは電子ペットプログラム105のいずれかにコマンド
に対応すると判定したとき、認識した単語または文など
のデータをアプリケーション通信部121に供給する。
【0134】状態14において、エンジン通信部122
は、音声認識エンジン101から受信した、認識した単
語または文などのデータが、電子メールプログラム54
A、ワードプロセッサプログラム106、若しくは表計
算プログラム107のいずれかの起動、または電子メー
ルプログラム54Aに供給すべきデータに対応すると判
定したとき、認識した単語または文などのデータを音声
ランチャ制御部124に供給する。
【0135】状態14において、認識した単語または文
などのデータをアプリケーション通信部121または音
声ランチャ制御部124に供給したとき、エンジン通信
部122は、状態12に遷移する。
【0136】図14は、所定の入力に対応した、アプリ
ケーション通信部121の状態の遷移を説明する状態遷
移図である。
【0137】アプリケーション通信部121は、音声コ
マンダ102の起動とともに、状態21に遷移する。状
態21において、音声コマンダ102が終了したとき、
アプリケーション通信部121は、終了する。
【0138】アプリケーション通信部121は、動作し
ているとき、常に状態21にあり、ウィンドウのフォー
カスが変化したとき、または所定の時間が経過したと
き、静止画撮影プログラム103、静止画閲覧プログラ
ム104、または電子ペットプログラム105が起動さ
れているか否か、またはいずれがアクティブになってい
るかを調べて、アプリケーション通信部121内部に記
憶されている所定のデータを更新する。
【0139】また、アプリケーション通信部121は、
UI処理部123またはエンジン通信部122から要求
があったとき、静止画撮影プログラム103、静止画閲
覧プログラム104、または電子ペットプログラム10
5が起動されているか否か、または、いずれがアクティ
ブになっているか(いずれもアクティブでない場合、そ
れを示すデータ含む)を示すデータをUI処理部123
またはエンジン通信部122に送信する。
【0140】状態21において、エンジン通信部122
から認識した単語または文などのデータを受信したと
き、アプリケーション通信部121は、図47で後述す
るフローチャートに示す手順に従って、静止画撮影プロ
グラム103、静止画閲覧プログラム104、若しくは
電子ペットプログラム105を起動させ、静止画撮影プ
ログラム103、静止画閲覧プログラム104、若しく
は電子ペットプログラム105のいずれかをアクティブ
にし、または静止画撮影プログラム103、静止画閲覧
プログラム104、若しくは電子ペットプログラム10
5に所定のコマンドを供給する。
【0141】また、状態21において、静止画撮影プロ
グラム103からコメントの入力させる、または終了さ
せる操作(例えば、シャッタボタン10が押圧された、
または離されたなど)を示すデータが入力されたとき、
アプリケーション通信部121は、UI処理部123に
そのデータを転送する。
【0142】次に、パーソナルコンピュータ1のLCD2
1に表示する画面について説明する。図15は、音声コ
マンダ102、音声認識エンジン101、および静止画
撮影プログラム103が起動しているとき、LCD21に
表示される画面を示す図である。
【0143】LCD21の画面の所定の位置に、電子メー
ルプログラム54Aに対応するアイコン191、ワード
プロセッサプログラム106に対応するアイコン19
2、表計算プログラム107に対応するアイコン19
3、音声コマンダウィンドウ151、および静止画撮影
プログラム103が表示させるウィンドウ194が配置
される。
【0144】スティック式ポインティングデバイス5な
どを操作してアイコン191を選択して、起動コマンド
を実行する(図示せぬメニューなどから選択するなどの
操作をする)と、電子メールプログラム54Aが起動さ
れる。アイコン192を選択して、起動コマンドを実行
すると、ワードプロセッサプログラム106が起動され
る。アイコン193を選択して、起動コマンドを実行す
ると、表計算プログラム107が起動される。
【0145】静止画撮影プログラム103が表示させる
ウィンドウ194は、CCDビデオカメラ23が撮像して
いる画像を表示する画像表示領域195およびエフェク
トボタン196などを有する。
【0146】図15に示す状態からパーソナルコンピュ
ータ1のシャッタボタン10を押圧すると、静止画撮影
プログラム103は、CCDビデオカメラ23が撮像てい
る画像を基に、所定の形式(例えば、JPEG(Joint Photo
graphic Experts Group)など)の静止画像のデータを
生成して、そのデータを格納したファイルを生成して、
生成したファイルをHDD56に記録させるとともに、静
止画閲覧プログラム104を起動させる。
【0147】パーソナルコンピュータ1のシャッタボタ
ン10を押圧したまま、使用者がマイクロフォン24に
音声(例えば、”パパと八丈島で”)を入力すると、U
I処理部123は、状態5に遷移して、アプリケーショ
ン通信部122を介して、音声認識エンジン101から
供給された、認識された単語または文を受信して、アプ
リケーション通信部121を介して受信した単語または
文を静止画撮影プログラム103に出力する。
【0148】静止画撮影プログラム103は、静止画像
のファイルの、例えば、ヘッダの所定の位置に、受信し
た単語または文をコメントとして貼付する。
【0149】パーソナルコンピュータ1のシャッタボタ
ン10が離されたとき、UI処理部123は、状態2に
遷移するので、音声の認識の処理は終了する。
【0150】なお、静止画像のファイルへのコメントの
貼付は、静止画閲覧プログラム104が実行するように
してもよい。
【0151】図16に示すように、静止画閲覧プログラ
ム104は、生成したファイルに格納されている静止画
像を表示させる。静止画閲覧プログラム104が表示さ
せるウィンドウ201は、生成したファイルの静止画像
を表示させる画像表示領域203、貼付された単語また
は文を表示させるコメント入力ダイアログ202、メー
ルと名前が付されたボタン204などを有する。
【0152】次に、静止画像のファイルに添付する単語
を登録するダイアログについて説明する。図17は、音
声コマンダウィンドウ151の辞書管理ボタン165を
クリックしたとき、ユーザ辞書制御部125がLCD21
に表示させる辞書管理ダイアログを示す図である。
【0153】辞書管理ダイアログには、呼び名(音声認
識エンジン101に認識させる単語または文)に対応す
るメールアドレスを表示させるときクリックされるメー
ルアドレスと名前が付されたタブ221、呼び名に対応
する人名を表示させるときクリックされる人名と名前が
付されたタブ222、呼び名に対応する地名を表示させ
るときクリックされる地名と名前が付されたタブ22
3、呼び名に対応する都道府県名を表示させるときクリ
ックされる都道府県と名前が付されたタブ224、およ
び呼び名に対応するURLを表示させるときクリックさ
れるURLと名前が付されたタブ225が配置されてい
る。
【0154】図17に示す例では、タブ222がクリッ
クされ、呼び名表示フィールド226には、辞書設定デ
ータベース114に記憶されている、人名のカテゴリに
属する、呼び名および呼び名に対応する登録語(音声認
識が成功したとき、コメントとして入力される単語)が
表示されている。例えば、呼び名”パパ”に対する登録
語は、”パパ”である。”かおりちゃん”または”かお
りん”のいずれかが認識されたとき、コメントとして入
力される登録語は、”かおりちゃん”である。呼び名”
隣のお姉さん”に対する登録語は、”隣のお姉さん”で
ある。
【0155】辞書管理ダイアログには、状態8に遷移す
るためのテストボタン227および登録ボタン228が
配置されている。
【0156】登録ボタン228がクリックされたとき、
ユーザ辞書制御部125は、図18に示す新規登録ダイ
アログをLCD21に表示させる。新規登録ダイアログ
は、呼び名を入力するための呼び名入力フィールド24
1、および登録語を入力するための登録語入力フィール
ド242を有する。呼び名入力フィールド241に所定
の呼び名を入力して、登録語入力フィールド242に呼
び名に対応する登録語を入力して、OKと名前が付され
たボタンをクリックすれば、呼び名入力フィールド24
1に入力された呼び名、および登録語入力フィールド2
42に登録語(呼び名に対応する)は、辞書設定データ
ベース114に記憶される。
【0157】新規登録ダイアログのテストと名前が付さ
れたボタン243をクリックすると、UI処理部123
は、状態8に遷移して、認識テスト処理部126は、図
19に示す新規登録単語テストダイアログを表示させ
る。
【0158】新規登録単語テストダイアログは、呼び名
入力フィールド241、所定のメッセージを表示するメ
ッセージフィールド252、およびテスト結果表示フィ
ールド253を有する。使用者がマイクロフォン24に
向かって音声を入力すると(マイクロフォン24に向か
って呼び名を喋ると)、認識テスト処理部126は、音
声認識エンジン101が認識した音声と、呼び名入力フ
ィールド241に入力した単語とが一致したか否かを判
定し、その結果をテスト結果表示フィールド253に表
示する。
【0159】図19に示す、テスト結果表示フィールド
253の例は、使用者がマイクロフォン24に向かっ
て”おねえちゃん”と入力し、音声認識エンジン101
が”おねえちゃん”を認識して、認識テスト処理部12
6が、音声認識エンジン101が認識した”おねえちゃ
ん”と、呼び名入力フィールド241に入力されてい
る”おねえちゃん”とが一致したと判定したとき、表示
される例である。
【0160】音声認識エンジン101が認識した音声
と、呼び名入力フィールド241に入力した単語とが一
致しないと判定された場合、例えば、認識テスト処理部
126は、テスト結果表示フィールド253に音声認識
エンジン101が認識した音声に対応するテキスト、お
よび一致しないことを示すメッセージ(例えば、”N
G”など)を表示させる。
【0161】新規登録単語テストダイアログのテスト中
と名前が付されたボタン251がクリックされたとき、
UI処理部123は、状態6に遷移して、ユーザ辞書制
御部125に辞書管理ダイアログを表示させる。
【0162】辞書管理ダイアログのテストボタン227
がクリックされたとき、UI処理部123は、状態8に
遷移して、認識テスト処理部126は、図20に示す登
録単語テストダイアログを表示する。
【0163】登録単語テストダイアログは、タブ22
1、タブ222、タブ223、タブ224、タブ22
5、および呼び名表示フィールド226に加えて、所定
のメッセージを表示するメッセージフィールド272、
およびテスト結果表示フィールド273を有する。
【0164】登録単語テストダイアログが表示されてい
る状態において、使用者がマイクロフォン24に向かっ
て音声を入力すると(マイクロフォン24に向かって呼
び名を喋ると)、認識テスト処理部126は、呼び名表
示フィールド226に表示されているいずれかの単語
と、音声認識エンジン101が認識した単語とが一致し
たか否かを判定し、呼び名表示フィールド226に表示
されているいずれかの単語と、音声認識エンジン101
が認識した単語とが一致した場合、呼び名表示フィール
ド226に表示されている一致した単語をハイライトに
して表示させる。
【0165】音声認識エンジン101が認識した単語
が、呼び名表示フィールド226に表示されているいず
れの単語とも一致しないと判定された場合、認識テスト
処理部126は、例えば、テスト結果表示フィールド2
73に音声認識エンジン101が認識した音声に対応す
るテキスト、および一致しないことを示すメッセージ
(例えば、”NG”など)を表示させる。
【0166】登録単語テストダイアログのテスト中と名
前が付されたボタン271がクリックされたとき、UI
処理部123は、状態6に遷移して、ユーザ辞書制御部
125に辞書管理ダイアログを表示させる。
【0167】辞書管理ダイアログのタブ223がクリッ
クされたとき、ユーザ辞書制御部125は、図21に示
すように、呼び名表示フィールド281に、辞書設定デ
ータベース114に記憶されている、地名のカテゴリに
属する、呼び名および呼び名に対応する登録語(音声認
識が成功したとき、コメントとして入力される単語)を
表示させる。例えば、呼び名”八丈島”または”八丈”
に対する登録語は、”八丈島”である。呼び名”東京タ
ワー”に対する登録語は、”東京タワー”である。”野
球場”または”球場”のいずれかが認識されたとき、コ
メントとして入力される登録語は、”野球場”である。
【0168】図16に示すように、静止画閲覧プログラ
ム104が、所定の静止画像を表示させている状態か
ら、メールと名前が付されたボタン204をクリックす
ると、静止画閲覧プログラム104は、電子メールプロ
グラム54Aが起動していないとき、電子メールプログ
ラム54Aを起動させる。
【0169】静止画閲覧プログラム104は、電子メー
ルプログラム54Aに新規のメールを生成させる。静止
画像閲覧プログラム104は、生成させた新規のメール
に静止画像のファイル(表示している静止画像に対応す
る)を添付する。
【0170】更に、静止画像閲覧プログラム104は、
添付した静止画像ファイルに格納されているコメント
を、新規のメールの本文に貼付させる。
【0171】図22は、静止画像閲覧プログラム104
が、電子メールプログラム54Aに新規のメッセージを
生成させたとき、電子メールプログラム54AがLCD2
1に表示させるメッセージウィンドウ301を説明する
図である。
【0172】添付ファイル表示フィールド312には、
添付された静止画像のファイルのファイル名が表示され
る。本文表示フィールド313には、添付した静止画像
ファイルに格納されているコメントから貼付された新規
のメッセージの本文が表示される。
【0173】宛先フィールド311に、所定のメールア
ドレスが入力され、メッセージウィンドウ301の送信
と名前が付されたボタンがクリックされたとき、メッセ
ージウィンドウ301に表示されたメッセージは、宛先
フィールド311に設定されたメールアドレス宛てに、
インターネット92を介して、送信される。
【0174】次に、音声コマンダ102が電子メールプ
ログラム54Aを起動させて、電子メールプログラム5
4Aに所定のメールアドレスが設定されたメールを生成
させる処理について説明する。音声コマンダ102が起
動している状態で、認識キーを押圧したまま、マイクロ
フォン24に、例えば、”姉さんにメール”と音声を入
力すると、音声認識エンジン101は、”姉さんにメー
ル”に対応する所定のデータを音声コマンダ102に供
給する。
【0175】図23に示すように、UI処理部123
は、音声コマンダウィンドウ151から画面全体に向か
って広がるように(図中の点線の矢印(点線の矢印は、
説明のための矢印で、実際には表示されない)で示す方
向に向かって)、LCD21に波紋状の画像を表示させ
る。
【0176】次に、図24に示すように、UI処理部1
23は、画面全体から電子メールプログラム54Aに対
応するアイコン191に向かって収束するように(図中
の点線の矢印(点線の矢印は、説明のための矢印で、実
際には表示されない)で示す方向に向かって)、LCD2
1に波紋状の画像を表示させる。
【0177】そして、図25に示すように、UI処理部
123は、電子メールプログラム54Aに対応するアイ
コン191を強調表示させる。電子メールプログラム5
4Aが起動していないとき、音声コマンダ102のアプ
リケーション通信部12は、静止画像閲覧プログラム1
04に、電子メールプログラム54Aを起動させる。
【0178】その後、図26に示すように、音声ランチ
ャ制御部124は、電子メールプログラム54Aに、新
規のメッセージを生成させ、電子メールプログラム54
Aは、新規のメッセージをメッセージウィンドウ301
に表示させる。音声ランチャ制御部124は、電子メー
ルプログラム54Aに、新規のメッセージのメールアド
レスとして、エンジン通信部122を介して、音声認識
エンジンから供給された、”姉さんにメール”の”姉さ
ん”に対応するメールアドレスを設定させる。
【0179】新規のメッセージを表示するメッセージウ
ィンドウ301の宛先フィールド311には、”姉さん
にメール”の”姉さん”に対応して設定したメールアド
レス(例えば、ane@home.zzz)が表示される。
【0180】図27は、辞書管理ダイアログのメールア
ドレスと名前が付されたタブ221がクリックされたと
き、辞書管理ダイアログの例を示す図である。呼び名表
示フィールド351には、ランチャ設定データベース1
13に記憶されている、メールアドレスのカテゴリに属
する、呼び名および呼び名に対応する登録語(音声認識
が成功したとき、メールアドレスとして設定されるテキ
スト)が表示されている。例えば、呼び名”パパ”に対
する登録語は、”daddy@nowhere.xxx”である。”兄さ
ん”が認識されたとき、メールアドレスとして設定され
る登録語は、”ani@home.yyy”である。呼び名”姉さ
ん”に対する登録語は、”ane@home.zzz”である。
【0181】次に、音声コマンダ102が静止画撮影プ
ログラム103に所定のコマンドを供給するときの画面
の表示について説明する。静止画撮影プログラム103
が表示させるウィンドウ194のエフェクトボタン19
6をクリックすると、図28に示すエフェクト設定ダイ
アログ371がLDC21に表示される。
【0182】エフェクト設定ダイアログ371のエフェ
クト選択フィールド372から所定のエフェクトを選択
すると、静止画撮影プログラム103は、CCDビデオカ
メラ23が撮像した画像に選択されたエフェクトをかけ
る。
【0183】例えば、エフェクト設定ダイアログ371
で”モザイク”を選択すると、静止画撮影プログラム1
03は、CCDビデオカメラ23が撮像した画像にいわゆ
る”モザイク”エフェクトをかけ、”モザイク”エフェ
クトをかけた画像を画像表示領域195に表示させる。
エフェクト設定ダイアログ371で”ネガポジ反転”を
選択すると、静止画撮影プログラム103は、CCDビデ
オカメラ23が撮像した画像にいわゆる”モザイク”エ
フェクトをかけ、”ネガポジ反転”エフェクトをかけた
画像を画像表示領域195に表示させる。
【0184】図29に示すように、静止画撮影プログラ
ム103がアクティブで、音声コマンダウィンドウ15
1および静止画撮影プログラム103が表示させるウィ
ンドウ194がLCD21に表示されている場合、認識キ
ーを押圧したまま、マイクロフォン24に、例えば、”
モザイク”と音声を入力すると、音声認識エンジン10
1は、”モザイク”に対応するコマンドを示すデータを
音声コマンダ102に供給する。
【0185】図30に示すように、UI処理部123
は、音声コマンダウィンドウ151から画面全体に向か
って広がるように(図中の点線の矢印(点線の矢印は、
説明のための矢印で、実際には表示されない)で示す方
向に向かって)、LCD21に波紋状の画像を表示させ
る。
【0186】図31に示すように、UI処理部123
は、画面全体からウィンドウ194に向かって収束する
ように(図中の点線の矢印(点線の矢印は、説明のため
の矢印で、実際には表示されない)で示す方向に向かっ
て)、LCD21に波紋状の画像を表示させる。
【0187】そして、図32に示すように、UI処理部
123は、静止画撮影プログラム103が表示させるウ
ィンドウ194を強調表示させる。
【0188】音声コマンダ102は、”モザイク”に対
応するコマンドを示すデータを基に、静止画撮影プログ
ラム103に”モザイク”に対応するコマンドを送信す
る。図33に示すように、静止画撮影プログラム103
は、音声コマンダ102から”モザイク”に対応するコ
マンドを受信して、CCDビデオカメラ23が撮像した画
像にいわゆる”モザイク”エフェクトをかけ、”モザイ
ク”エフェクトをかけた画像を画像表示領域195に表
示させる。
【0189】次に、音声コマンダ102がワードプロセ
ッサプログラム106を起動させる処理について説明す
る。図34に示すように、音声コマンダ102が起動し
ている状態で、認識キーを押圧したまま、マイクロフォ
ン24に、例えば、”ワープロ”と音声を入力すると、
音声認識エンジン101は、”ワープロ”に対応する所
定のデータを音声コマンダ102に供給する。
【0190】図35に示すように、UI処理部123
は、音声コマンダウィンドウ151から画面全体に向か
って広がるように(図中の点線の矢印(点線の矢印は、
説明のための矢印で、実際には表示されない)で示す方
向に向かって)、LCD21に波紋状の画像を表示させ
る。
【0191】図36に示すように、UI処理部123
は、画面全体からワードプロセッサプログラム106に
対応するアイコン192に向かって収束するように(図
中の点線の矢印(点線の矢印は、説明のための矢印で、
実際には表示されない)で示す方向に向かって)、LCD
21に波紋状の画像を表示させる。
【0192】そして、図37に示すように、UI処理部
123は、ワードプロセッサプログラム106に対応す
るアイコン192を強調表示させる。
【0193】音声コマンダ102の音声ランチャ制御部
124は、ワードプロセッサプログラム106を起動さ
せる。ワードプロセッサプログラム106は、所定のウ
ィンドウ391をLCD21に表示させる。ワードプロセ
ッサプログラム106が表示させるウィンドウ391に
は、文書ファイルを表示させる表示領域392が配置さ
れる。
【0194】マイクロフォン24に、例えば、”ワープ
ロ”と音声を入力して、音声コマンダ102の音声ラン
チャ制御部124にワードプロセッサプログラム106
を起動させたとき、音声ランチャ制御部124は、ワー
ドプロセッサプログラム106のみを起動させる。この
とき、ワードプロセッサプログラム106は新規の文書
を生成して、新規の文書を表示領域392に表示させ
る。
【0195】マイクロフォン24に、例えば、”ワープ
ロで手紙”と音声を入力して、音声コマンダ102の音
声ランチャ制御部124にワードプロセッサプログラム
106を起動させたとき、音声ランチャ制御部124
は、”手紙”に対応する文書ファイルをワードプロセッ
サプログラム106に開かせる。このとき、図39に示
すように、ワードプロセッサプログラム106は”手
紙”に対応する文書ファイルに対応する文字または画像
を、表示領域392に表示させる。
【0196】同様に、マイクロフォン24に、例え
ば、”表計算”と音声を入力して、音声コマンダ102
の音声ランチャ制御部124に表計算プログラム107
を起動させたとき、音声ランチャ制御部124は、表計
算プログラム107のみを起動させる。音声ランチャ制
御部124が表計算プログラム107を起動させとき
も、UI処理部123は、所定の波紋状の画像の表示、
およびアイコン193の強調の表示を実行する。図40
に示すように、表計算プログラム107は新規の文書を
生成して、新規の文書を表計算プログラム107が表示
させるウィンドウ411の表示領域412に表示させ
る。
【0197】マイクロフォン24に、例えば、”表計算
で家計簿”と音声を入力して、音声コマンダ102の音
声ランチャ制御部124に表計算プログラム107を起
動させたとき、音声ランチャ制御部124は、”家計
簿”に対応する文書ファイルを表計算プログラム107
に開かせる。このとき、図41に示すように、表計算プ
ログラム107は”家計簿”に対応する文書ファイルに
対応する文字または画像を、表示領域412に表示させ
る。
【0198】次に、起動するプログラムに対応する単語
を登録するダイアログについて説明する。図42は、音
声コマンダウィンドウ151のランチャ設定ボタン16
4をクリックしたとき、音声ランチャ制御部113がLC
D21に表示させるランチャ設定ダイアログを示す図で
ある。
【0199】ランチャ設定ダイアログは、実行可能ファ
イルと名前が付されたチェックボックスがチェックされ
ているとき、呼び名表示フィールド451に、ランチャ
設定データベース113に記憶されている、呼び名およ
び呼び名に対応する実行ファイルの名前(ディレクトリ
を含む)を表示する。このとき、呼び名表示フィールド
451に表示される、実行ファイルの名前に対応する実
行ファイルは、実行ファィルカテゴリに属すると称す
る。
【0200】例えば、呼び名”ワープロ”に対する実行
ファイルの名前は、”C:\ProgramFiles\ProWord”であ
る。呼び名”表計算”に対する実行ファイルの名前
は、”C:\ProgramFiles\大介”である。呼び名”お絵か
き”に対する実行ファイルの名前は、”C:\ProgramFile
s1\華子”である。
【0201】ランチャ設定ダイアログは、テストと名前
が付されたボタンおよび詳細と名前が付されたボタン4
52を有する。
【0202】文書ファイルと名前が付されたチェックボ
ックスがチェックされているとき、ランチャ設定ダイア
ログは、図43に示すように、呼び名表示フィールド4
51に、ランチャ設定データベース113に記憶されて
いる、呼び名および呼び名に対応する文書ファイルの名
前(ディレクトリを含む)を表示する。例えば、呼び
名”家計簿”に対する文書ファイルの名前は、”C:\文
書ファイル\家計簿”である。呼び名”見積り”に対す
る文書ファイルの名前は、”C:\文書ファイル1\見積
り”である。呼び名”手紙”に対する文書ファイルの名
前は、”C:\文書ファイル1\手紙”である。
【0203】このとき、呼び名表示フィールド451に
表示される、文書ファイルの名前に対応する文書ファイ
ルは、文書ファイルカテゴリに属すると称する。
【0204】呼び名表示フィールド451に表示されて
いる所定の呼び名(例えば、”ワープロ”)、および呼
び名に対応する実行ファイルの名前を選択して、詳細と
名前が付されたボタン452をクリックすると、音声ラ
ンチャ制御部113は、図44に示すランチャ詳細設定
ダイアログをLCD21に表示させる。
【0205】ランチャ詳細設定ダイアログは、呼び名表
示フィールド471に、呼び名表示フィールド451で
選択された呼び名(例えば、”ワープロ”)に対応する
ボイス形式[実行ファイル=ワープロ]が表示される。
ランチャ詳細設定ダイアログに配置された辞書参照と名
前が付されたボタンなどを操作して、使用者は、実行フ
ァイルと文書ファイルを組み合わせたボイス形式、例え
ば、”[実行ファイル=ワープロ]で[文書ファイ
ル]”に定義することができる。
【0206】音声ランチャ制御部124は、設定された
ボイス形式に所定の文法番号を割り振って、ランチャ設
定データベース113に記憶させる。
【0207】使用者に設定された実行ファイルと文書フ
ァイルを組み合わせたボイス形式は、呼び名表示フィー
ルド471に表示される。例えば、図44に示す実行フ
ァイルカテゴリに属するファイルと文書ファイルカテゴ
リに属するファイルとを組み合わせたボイス形式、”
[実行ファイル=ワープロ]で[文書ファイル]”
は、”[文書ファイル]”を引数としているので、音声
ランチャ制御部124に”[実行ファイル=ワープロ]
で[文書ファイル]”に対応する音声が認識されたデー
タ(例えば、”ワープロで手紙”および文法番号など)
が供給されたとき、音声ランチャ制御部124は、文法
番号を基に、呼び名が”ワープロ”に対応する実行ファ
イルカテゴリに属する実行ファイル(例えば、C:\Progr
amFiles\ProWord)を開き(すなわち、ワードプロセッ
サプログラム106を起動して)、呼び名が設定されて
いる文書ファイルカテゴリに属する文書ファイル(例え
ば、”手紙”に対応するC:\文書ファイル1\手紙)を、
ワードプロセッサプログラム106に開かせる。
【0208】同様に、例えば、音声ランチャ制御部12
4に、”[実行ファイル=ワープロ]で[文書ファイ
ル]”に対応する音声が認識された”ワープロで家計
簿”およびその文法番号が供給されたとき、音声ランチ
ャ制御部124は、文法番号を基に、呼び名が”ワープ
ロ”に対応する実行ファイルカテゴリに属する実行ファ
イルであるC:\ProgramFiles\ProWordを開き、文書ファ
イルカテゴリに属する文書ファイルであるC:\文書ファ
イル\家計簿を、ワードプロセッサプログラム106に
開かせる。
【0209】なお、ランチャ制御部124は、図示せぬ
所定のスクリプト実行プログラムに、所定のスクリプト
ファイル(コマンドなどの処理手順が記述されているフ
ァイル)を実行させるようにしてもよい。更に、スクリ
プトファイルの引数として、所定のデータ(例えば、メ
ールアドレスまたは画像データなど)を指定するように
してもよい。このとき、ランチャ設定データベース11
3は、スクリプトファイルまたはスクリプトファイルの
引数としてのデータを特定するデータ、または文法番号
などを記憶する。
【0210】次に、音声認識エンジン101、音声コマ
ンダ102、および静止画撮影プログラム103を実行
するCPU52の静止画像の撮像の処理を図45のフロー
チャートを参照して説明する。ステップS11におい
て、静止画撮影プログラム103は、マイクロコントロ
ーラ61、外部バス55、および内部バス51を介し
て、前押しスイッチ86から供給される信号を基に、シ
ャッタボタン10が押されたか否かを判定し、シャッタ
ボタン10が押されていないと判定された場合、ステッ
プS11に戻り、シャッタボタン10が押されるまで判
定の処理を繰り返す。
【0211】ステップS11において、シャッタボタン
10が押されたと判定された場合、ステップS12に進
み、静止画撮影プログラム103は、静止画像閲覧プロ
グラム104を起動させる。ステップS13において、
静止画像撮影プログラム103は、処理部82およびグ
ラフィックチップ81を介して、CCDビデオカメラ23
から供給された信号を基に、所定の方式の静止画像デー
タのファイルを生成して、生成した静止画像データのフ
ァイルをHDD56に保存させる。
【0212】ステップS14において、静止画撮影プロ
グラム103は、シャッタボタン10が押されているか
否かを判定し、シャッタボタン10が押されていると判
定された場合、ステップS15に進み、音声コマンダ1
02は、音声認識エンジン101にマイクロフォン24
から入力された信号を基に、音声認識の処理を実行させ
る。ステップS16において、音声コマンダ102は、
音声認識エンジン101から、音声認識の処理の結果を
受信する。
【0213】ステップS17において、音声コマンダ1
02は、音声認識の結果を静止画撮影プログラム103
に送信する。ステップS18において、音声コマンダ1
02は、静止画撮影プログラム103に音声認識の結果
を画像ファイルのコメントとして添付させる。
【0214】ステップS19において、音声コマンダ1
02は、静止画像閲覧プログラム104にコメントを表
示させ、処理は終了する。
【0215】ステップS14において、シャッタボタン
10が離されたと判定された場合、ステップS15乃至
ステップS19の処理は、スキップされ、処理は終了す
る。
【0216】このように、使用者は、静止画撮影プログ
ラム103で撮像した静止画像に、キーボート4などを
操作することなく、簡単にコメントを貼付することがで
きる。
【0217】次に、音声認識エンジン101および音声
コマンダ102を実行するCPU52の音声によるコマン
ド送信または起動の処理を図46のフローチャートを参
照して説明する。ステップS31において、音声コマン
ダ102は、常時入力モードが選択されているか否かを
判定し、常時入力モードが選択されていないと判定され
た場合、ステップS32に進み、認識キーが押圧されて
いるか否かを判定する。
【0218】ステップS32において、認識キーが押圧
されていないと判定された場合、ステップS32に戻
り、音声コマンダ102は、認識キーが押圧されるま
で、認識キーの押圧の判定の処理を繰り返す。
【0219】ステップS32において、認識キーが押圧
されたと判定された場合、ステップS33に進み、音声
コマンダ102は、音声認識エンジン101に音声認識
の処理を実行させる。ステップS34において、音声コ
マンダ102は、音声認識エンジン101から音声認識
の処理の結果を受信する。
【0220】ステップS35において、音声コマンダ1
02は、音声認識エンジン101から受信した音声認識
の処理の結果を表示させる。
【0221】ステップS36において、音声コマンダ1
02は、認識キーが離されたか否かを判定し、認識キー
が離されたと判定された場合、ステップS37に進み、
コマンドの送信または起動を実行して、処理は終了す
る。
【0222】ステップS36において、認識キーが離さ
れていないと判定された場合、ステップS38に進み、
音声コマンダ102は、解除キー(例えば、シフトキ
ー)が押圧されたか否かを判定する。ステップS38に
おいて、解除キーが押圧されたと判定された場合、ステ
ップS39に進み、音声コマンダ102は、音声認識の
結果をクリアして、ステップS33に戻り、音声認識の
処理を繰り返す。
【0223】ステップS38において、解除キーが押圧
されていないと判定された場合、ステップS39はスキ
ップされ、ステップS33に戻り、音声認識の処理を繰
り返す。
【0224】ステップS31において、常時入力モード
が選択されていると判定された場合、ステップS40に
進み、音声コマンダ102は、音声認識エンジン101
に音声認識の処理を実行させる。ステップS41におい
て、音声コマンダ102は、音声認識エンジン101か
ら音声認識の処理の結果を受信する。
【0225】ステップS42において、音声コマンダ1
02は、音声認識エンジン101から受信した音声認識
の処理の結果を表示させる。ステップS43において、
音声コマンダ102は、コマンドの送信または起動を実
行して、ステップS31に戻り、コマンドの送信または
起動の処理を繰り返す。
【0226】このように、認識キーの操作により、使用
者は、音声が認識された結果を確認して、コマンドの送
信または所定のプログラムの起動をさせることができ、
誤った認識による処理の実行を防止することができる。
【0227】次にステップS37またはステップS43
に対応する、音声コマンダ102を実行するCPU52の
アプリケーションプログラムの起動またはコマンド送信
の処理を図47のフローチャートを参照して説明する。
ステップS51において、音声コマンダ102は、音声
認識エンジン101から受信した音声認識の処理の結果
が、所定のアプリケーションプログラムの起動させるデ
ータであるか否かを判定し、所定のアプリケーションプ
ログラムの起動させるデータであると判定された場合、
ステップS52に進む。
【0228】ステップS52において、音声コマンダ1
02は、音声認識エンジン101から受信した音声認識
の処理の結果に対応する所定のアプリケーションプログ
ラムが既に起動されているか否かを判定し、所定のアプ
リケーションプログラムが既に起動されていると判定さ
れた場合、ステップS53に進み、ウィンドウのフォー
カスを対応するアプリケーションプログラムに移し、処
理は終了する。
【0229】ステップS52において、所定のアプリケ
ーションプログラムが起動されていないと判定された場
合、ステップS54に進み、音声コマンダ102は、対
応するアプリケーションプログラムを起動して、処理は
終了する。
【0230】ステップS51において、所定のアプリケ
ーションプログラムの起動させるデータであると判定さ
れた場合、ステップS55に進み、音声コマンダ102
は、対応するコマンドをアプリケーションプログラムに
送信して、処理は終了する。
【0231】このように、音声コマンダ102は、プロ
グラムの状態、および音声で入力されたデータに対応し
て、コマンドの送信またはプログラムの起動の処理を実
行することができる。
【0232】次に、静止画閲覧プログラム104を実行
するCPU52の電子メールプログラム54Aの起動の処
理を図48のフローチャートを参照して説明する。ステ
ップS71において、静止画閲覧プログラム104は、
電子メールプログラム54Aを起動させる。ステップS
72において、静止画閲覧プログラム104は、電子メ
ールプログラム54Aに新規のメールを開かせる。
【0233】ステップS73において、静止画閲覧プロ
グラム104は、画像データを新規のメールに添付す
る。ステップS74において、静止画閲覧プログラム1
04は、画像データのコメントを新規のメールの本文に
貼り付け、処理は終了する。
【0234】以上のように、使用者は、キーボード4な
どを操作することなく、簡単に、所定の画像を貼付し、
所定のコメントを貼付したメールを生成することができ
る。
【0235】次に、図48のステップS37またはステ
ップS43に対応する、音声コマンダ102を実行する
CPU52のアプリケーションプログラムの起動またはデ
ータの送信の処理を図49のフローチャートを参照して
説明する。ステップS91において、音声コマンダ10
2は、音声認識の結果に引数が含まれているか否かを判
定し、音声認識の結果に引数が含まれていないと判定さ
れた場合、ステップS92に進み、対応するアプリケー
ションプログラムを起動して、処理は終了する。
【0236】ステップS91において、音声認識の結果
に引数が含まれていると判定された場合、ステップS9
3に進み、音声コマンダ102は、音声認識の結果に含
まれる引数のカテゴリがメールアドレスであるか否かを
判定し、音声認識の結果に含まれる引数のカテゴリがメ
ールアドレスであると判定された場合、ステップS94
に進み、電子メールプログラム54Aを起動する。ステ
ップS95において、音声コマンダ102は、引数に対
応したメールアドレスを設定した新規のメールを開き、
処理は終了する。
【0237】ステップS93において、音声認識の結果
に含まれる引数のカテゴリがメールアドレスでないと判
定された場合、ステップS96に進み、音声コマンダ1
02は、引数で指定される文書ファイルを対応するアプ
リケーションプログラムで開き、処理は終了する。
【0238】以上のように、音声コマンダ102は、入
力された音声に対応して、所定のプログラムを起動さ
せ、そのプログラムに文書ファイルカテゴリに属する所
定の文書ファイルを開かせることができる。
【0239】次に、音声コマンダ102を実行するCPU
52の起動またはコマンド送信のときの画像表示の処理
を図50のフローチャートを参照して説明する。ステッ
プS101において、音声コマンダ102は、コマンド
の送信であるか否かを判定し、コマンドの送信であると
判定された場合、ステップS102に進み、音声コマン
ダウィンドウ151から画面全体に広がるように波紋の
画像を表示させる。
【0240】ステップS103において、音声コマンダ
102は、画面全体からアプリケーションプログラムの
ウィンドウに収束するように波紋の画像を表示させる。
【0241】ステップS104において、音声コマンダ
102は、コマンドを受信するアプリケーションプログ
ラムのウィンドウを強調表示させ、処理は終了する。
【0242】ステップS101において、コマンドの送
信でないと判定された場合、アプリケーションプログラ
ムの起動なので、ステップS105に進み、音声コマン
ダ102は、画面全体からアプリケーションプログラム
のウィンドウに収束するように波紋の画像を表示させ
る。
【0243】ステップS106において、音声コマンダ
102は、画面全体からアプリケーションプログラムの
アイコンに収束するように波紋の画像を表示させる。
【0244】ステップS107において、音声コマンダ
102は、起動するアプリケーションプログラムのアイ
コンを強調表示させ、処理は終了する。
【0245】このように、音声コマンダ102は、音声
コマンダウィンドウ151から、コマンドを受信するプ
ログラムのウィンドに向かう画像を表示させるので、使
用者は、確実に、音声コマンダ102が動作しているこ
と、および音声コマンダ102の操作対象を知ることが
できる。
【0246】また、音声コマンダ102は、音声コマン
ダウィンドウ151から、起動させるプログラムのアイ
コンに向かう画像を表示させるので、使用者は、確実
に、音声コマンダ102が動作していること、および音
声コマンダ102の操作対象を知ることができる。
【0247】次に、音声コマンダ102を実行するCPU
52の音声認識のテストの処理を図51のフローチャー
トを参照して説明する。ステップS131において、音
声コマンダ102は、音声認識エンジン101から供給
された所定の単語の認識結果を基に、所定の単語が認識
されたか否かを判定する単語の認識テストを実行する。
【0248】ステップS132において、音声コマンダ
102は、ステップS131の結果を基に、所定の単語
が認識されたか否かを判定し、所定の単語が認識された
と判定された場合、ステップS133に進み、所定のカ
テゴリに含まれる単語の認識のテストを実行する。
【0249】ステップS134において、音声コマンダ
102は、所定のカテゴリに含まれる単語が認識された
か否かを判定し、所定のカテゴリに含まれる単語が認識
されたと判定された場合、ステップS135に進み、複
数の単語を含むときの文法の認識のテストを実行する。
【0250】ステップS136において、音声コマンダ
102は、複数の単語を含むときの文法が認識されたか
否かを判定し、複数の単語を含むときの文法が認識され
たと判定された場合、処理は終了する。
【0251】ステップS136において、複数の単語を
含むときの文法が認識されないと判定された場合、ステ
ップS138に進み、音声コマンダ102は、文法を修
正して、ステップS135に戻り、複数の単語を含むと
きの文法の認識のテストを繰り返す。
【0252】ステップS134において、所定のカテゴ
リに含まれる単語が認識されない判定された場合、およ
びステップS132において、所定の単語が認識されな
いと判定された場合、ステップS137に進み、音声コ
マンダ102は、単語を修正して、ステップS131に
戻り、単語の認識のテストから処理を繰り返す。
【0253】以上のように、音声コマンダ102は、音
声認識のテストの結果を表示して、単語または文法を修
正するので、確実に所定の音声を認識することができ
る。
【0254】ステップS131の単語の認識のテストに
対応する、音声コマンダ102を実行するCPU52の登
録する呼び名のテストの処理を図52のフローチャート
を参照して説明する。ステップS151において、音声
コマンダ102は、音声認識エンジン101から音声認
識の結果を受信する。
【0255】ステップS152において、音声コマンダ
102は、音声認識の結果と呼び名が一致するか否かを
判定し、音声認識の結果と呼び名が一致すると判定され
た場合、ステップS153に進み、テスト結果表示フィ
ールド253に正しく認識された旨を表示して、処理は
終了する。
【0256】ステップS152において、音声認識の結
果と呼び名が一致しないと判定された場合、ステップS
154に進み、音声コマンダ102は、テスト結果表示
フィールド253に正しく認識されなかった旨を表示し
て、処理は終了する。
【0257】ステップS133のカテゴリの認識のテス
トに対応する、音声コマンダ102を実行するCPU52
のカテゴリの呼び名のテストの処理を図53のフローチ
ャートを参照して説明する。ステップS171におい
て、音声コマンダ102は、音声認識エンジン101か
ら音声認識の結果を受信する。
【0258】ステップS172において、音声コマンダ
102は、音声認識の結果と一致する呼び名が登録され
ているか否かを判定し、音声認識の結果と一致する呼び
名が登録されていると判定された場合、ステップS17
3に進み、呼び名表示フィールド226に表示されてい
る、音声認識の結果と一致する呼び名を強調表示して、
処理は終了する。
【0259】ステップS172において、音声認識の結
果と一致する呼び名が登録されていないと判定された場
合、ステップS174に進み、音声コマンダ102は、
テスト結果表示フィールド273に音声認識の結果と一
致する呼び名が登録されていない旨を表示して、処理は
終了する。
【0260】次に、音声コマンダ102を実行するCPU
52が、静止画撮影プログラム103を起動させて、静
止画像を撮像させて、静止画像にコメントを貼付するま
での一連の処理を図54および図55にフローチャート
を参照して説明する。ステップS211において、エン
ジン通信部122は、音声認識エンジン101を起動さ
せ、状態11に遷移する。ステップS251において、
UI処理部123は、エンジン起動中の表示を実行し
て、状態1に遷移する。ステップS301において、ア
プリケーション通信部121は、状態21に遷移する。
【0261】ステップS212において、エンジン通信
部122は、音声認識エンジン101から起動が成功し
た旨のデータを受信して、音声認識エンジン101の起
動が成功したことを示すデータをUI処理部123に送
信する。ステップS252において、UI処理部123
は、音声認識エンジン101の起動が成功したことを示
すデータを受信して、状態2に遷移する。
【0262】ステップS253において、UI処理部1
23は、音声認識エンジン101が起動完了したことを
示す画像または文をLCD21に表示させる。
【0263】ステップS254において、UI処理部1
23は、認識キーであるコントロールキーが押圧されて
いるか否かを検出する。認識キーであるコントロールキ
ーが押圧されているとき、ステップS255に進み、U
I処理部123は、アプリケーション通信部121に、
静止画撮影プログラム103、静止画閲覧プログラム1
04、または電子ペットプログラム105のいずれにフ
ォーカスがあたっているか(いずれのプログラムがアク
ティブになっているか、またはいずれもアクティブにな
っていないか)を示すデータの送信を要求する。ステッ
プS302において、アプリケーション通信部121
は、アプリケーション通信部121からの、静止画撮影
プログラム103、静止画閲覧プログラム104、また
は電子ペットプログラム105のいずれにフォーカスが
あたっているかを示すデータの送信の要求を受信する。
【0264】ステップS303において、アプリケーシ
ョン通信部121は、静止画撮影プログラム103、静
止画閲覧プログラム104、または電子ペットプログラ
ム105のいずれにフォーカスがあたっているかを示す
データを送信する。ステップS256において、UI処
理部123は、アプリケーション通信部121からの、
静止画撮影プログラム103、静止画閲覧プログラム1
04、または電子ペットプログラム105のいずれにフ
ォーカスがあたっているかを示すデータを受信する。ス
テップS257において、静止画撮影プログラム10
3、静止画閲覧プログラム104、または電子ペットプ
ログラム105のいずれにもフォーカスがあたっていな
いことを示すデータを受信したとき、UI処理部123
は、音声コマンダウィンドウ151の認識状態表示部1
69に、グローバルコマンドしか受け付けないことを示
す文字(例えば、「(Global Comman
d)」)と表示させる。
【0265】ステップS258において、UI処理部1
23は、エンジン通信部122に音声受付(すなわち、
音声入力を可能にすること)を要求を送信して、状態3
に遷移する。ステップS213において、エンジン通信
部122は、音声受付の要求を受信する。ステップS2
14において、エンジン通信部122は、アプリケーシ
ョン通信部121に、静止画撮影プログラム103、静
止画閲覧プログラム104、または電子ペットプログラ
ム105のいずれにフォーカスがあたっているか(いず
れのプログラムがアクティブになっているか、またはい
ずれもアクティブになっていないか)を示すデータの送
信を要求する。
【0266】ステップS305において、アプリケーシ
ョン通信部121は、エンジン通信部122に、静止画
撮影プログラム103、静止画閲覧プログラム104、
または電子ペットプログラム105のいずれにフォーカ
スがあたっているかを示すデータを送信する。
【0267】ステップS215において、エンジン通信
部122は、静止画撮影プログラム103、静止画閲覧
プログラム104、または電子ペットプログラム105
のいずれにフォーカスがあたっているかを示すデータを
受信する。ステップS216において、エンジン通信部
122は、認識単語・文法データベース115から現在
受付可能な単語および文法のデータを読み出し、読み出
したデータを音声認識エンジン101に送信して、状態
13に遷移する。
【0268】使用者がマイクロフォン24に音声を入力
し始めると、ステップS217に進み、エンジン通信部
122は、音声認識エンジン101から音声検知を示す
データを受信して、状態14に遷移する。
【0269】ステップS218において、エンジン通信
部122は、音声認識エンジン101から音声に対応す
る信号のレベル(音声の音量を示す)に対応するデータ
を受信する。ステップS219において、エンジン通信
部122は、音声に対応する信号のレベルに対応するデ
ータをUI処理部123に送信する。ステップS259
において、UI処理部123は、音声に対応する信号の
レベルに対応するデータを受信する。ステップS260
において、UI処理部123は、受信した音声に対応す
る信号のレベルに対応するデータに基づき、音声コマン
ダウィンドウ151のレベルゲージ161の表示を更新
する。
【0270】ステップS220において、エンジン通信
部122は、音声認識エンジン101から音声に対応す
る信号のレベル(音声の音量を示す)に対応するデータ
を受信する。ステップS221において、エンジン通信
部122は、音声に対応する信号のレベルに対応するデ
ータをUI処理部123に送信する。ステップS261
において、UI処理部123は、音声に対応する信号の
レベルに対応するデータを受信する。ステップS262
において、UI処理部123は、受信した音声に対応す
る信号のレベルに対応するデータに基づき、音声コマン
ダウィンドウ151のレベルゲージ161の表示を更新
する。
【0271】音声認識エンジン101から音声に対応す
る信号のレベルを受信して、音声コマンダウィンドウ1
51のレベルゲージ161の表示を更新する処理は、音
声受付が可能である状態では、随時繰り返される。
【0272】ステップS222において、エンジン通信
部122は、音声認識エンジン101から音使用者が喋
った所定の言葉に対応する、コード番号(例えば、10
6など)、認識した単語または文(例えば、”撮影”な
ど)、および認識した単語に関連する文字列のデータを
受信する。ステップS223において、エンジン通信部
122は、コード番号、認識した単語または文、および
認識した単語に関連する文字列のデータをUI処理部1
23に送信する。ステップS263において、UI処理
部123は、コード番号、認識した単語または文、およ
び認識した単語に関連する文字列のデータを受信する。
ステップS264において、UI処理部123は、認識
した単語または文を、音声コマンダウィンドウ151の
認識結果表示部162に表示させる。
【0273】ステップS224において、エンジン通信
部122は、コード番号を基にアプリケーション通信部
121にも受信したデータを送信すべきものと判定し
て、コード番号、認識した単語または文、および認識し
た単語に関連する文字列のデータをアプリケーション通
信部121に送信して、状態13に遷移する。ステップ
S306において、アプリケーション通信部121は、
コード番号、認識した単語または文、および認識した単
語に関連する文字列のデータを受信する。
【0274】ステップS265において、UI処理部1
23は、認識キーであるコントロールキーがは離されて
いるか否かを検出する。認識キーであるコントロールキ
ーが離されているとき、ステップS266に進み、UI
処理部123は、エンジン通信部122に音声受付の終
了を要求するとともに、アプリケーション通信部121
に対して、ステップ306でアプリケーション通信部1
21が受信しているコード番号、認識した単語または
文、および認識した単語に関連する文字列のデータを基
にした、所定の処理(例えば、静止画撮影プログラム1
03を起動させる)の実行を要求して、状態2に遷移す
る。
【0275】ステップS225において、エンジン通信
部122は、UI処理部123からの音声受付の終了の
要求を受信する。ステップS226において、エンジン
通信部122は、音声認識エンジン101に音声受付を
終了させ、状態12に遷移する。
【0276】ステップS307において、アプリケーシ
ョン通信部121は、UI処理部123からの要求を受
信する。ステップS308において、アプリケーション
通信部121は、静止画撮影プログラム103を起動さ
せる。
【0277】ステップS309において、アプリケーシ
ョン通信部121は、静止画撮影プログラム103か
ら、シャッタボタン10の押し下げなどに対応した、コ
メント入力の要求を受信する。ステップS310におい
て、アプリケーション通信部121は、コメント入力の
要求をUI処理部123に送信する。ステップS267
において、UI処理部123は、コメント入力の要求を
受信する。ステップS268において、UI処理部12
3は、コメント入力の要求をエンジン通信部122に送
信して、状態5に遷移する。ステップS227におい
て、エンジン通信部122は、コメント入力の要求を受
信する。
【0278】ステップS228において、エンジン通信
部122は、認識単語・文法データベース115から現
在受付可能な単語および文法のデータを読み出し、読み
出したデータを音声認識エンジン101に送信して、状
態13に遷移する。
【0279】使用者がマイクロフォン24に音声を入力
し始めると、ステップS229に進み、エンジン通信部
122は、音声認識エンジン101から音声検知を示す
データを受信して、状態14に遷移する。
【0280】ステップS230において、エンジン通信
部122は、音声認識エンジン101から音声に対応す
る信号のレベル(音声の音量を示す)に対応するデータ
を受信する。ステップS231において、エンジン通信
部122は、音声に対応する信号のレベルに対応するデ
ータをUI処理部123に送信する。ステップS269
において、UI処理部123は、音声に対応する信号の
レベルに対応するデータを受信する。ステップS270
において、UI処理部123は、受信した音声に対応す
る信号のレベルに対応するデータに基づき、音声コマン
ダウィンドウ151のレベルゲージ161の表示を更新
する。
【0281】ステップS232において、エンジン通信
部122は、音声認識エンジン101から音使用者が喋
った所定の言葉に対応する、コード番号(例えば、10
7など)、認識した単語または文(例えば、”パパと八
丈島で”など)、および認識した単語に関連する文字列
のデータを受信する。ステップS233において、エン
ジン通信部122は、コード番号、認識した単語または
文、および認識した単語に関連する文字列のデータをU
I処理部123に送信する。ステップS271におい
て、UI処理部123は、コード番号、認識した単語ま
たは文、および認識した単語に関連する文字列のデータ
を受信する。ステップS272において、UI処理部1
23は、認識した単語または文を、音声コマンダウィン
ドウ151の認識結果表示部162に表示させる。
【0282】ステップS234において、エンジン通信
部122は、コード番号を基にアプリケーション通信部
121にも受信したデータを送信すべきものと判定し
て、コード番号、認識した単語または文、および認識し
た単語に関連する文字列のデータをアプリケーション通
信部121に送信して、状態13に遷移する。ステップ
S311において、アプリケーション通信部121は、
コード番号、認識した単語または文、および認識した単
語に関連する文字列のデータを受信する。
【0283】ステップS312において、アプリケーシ
ョン通信部121は、認識した単語または文をコメント
として静止画撮影プログラム103に送信して、静止画
撮影プログラム103に識した単語または文をコメント
として貼付させる。
【0284】ステップS232乃至ステップS312の
処理は、シャッタボタン10が離されず、使用者の音声
を音声認識エンジン101が認識したとき、繰り返し実
行される。
【0285】ステップS313において、アプリケーシ
ョン通信部121は、静止画撮影プログラム103か
ら、シャッタボタン10を離すなどの操作に対応した、
コメント入力の終了の要求を受信する。ステップS31
4において、アプリケーション通信部121は、コメン
ト入力の終了の要求をUI処理部123に送信する。ス
テップS273において、UI処理部123は、コメン
ト入力の終了の要求を受信する。ステップS274にお
いて、UI処理部123は、コメント入力の終了の要求
をエンジン通信部122に送信して、状態2に遷移す
る。ステップS225において、エンジン通信部122
は、コメント入力の終了の要求を受信する。ステップS
236において、エンジン通信部122は、音声認識エ
ンジン101に音声受付を終了させ、状態12に遷移し
て、処理は終了する。
【0286】このように、キーボード4またはスティッ
ク式ポインティングデバイス5への複雑な操作すること
なく、音声コマンダ102は、音声の入力に対応して、
静止画撮影プログラム103を起動させ、静止画撮影プ
ログラム103が撮像した静止画像にコメントを入力す
ることができる。
【0287】なお、音声認識エンジン101は、登録さ
れた単語または文のみを認識するだけでなく、任意の単
語または文を認識する機能(いわゆる、ディクテーショ
ン機能)を有するようにしてもよい。
【0288】上述した一連の処理は、ハードウェアによ
り実行させることもできるが、ソフトウェアにより実行
させることもできる。一連の処理をソフトウェアにより
実行させる場合には、そのソフトウェアを構成するプロ
グラムが、専用のハードウェアに組み込まれているコン
ピュータ、または、各種のプログラムをインストールす
ることで、各種の機能を実行することが可能な、例えば
汎用のパーソナルコンピュータなどに、プログラム格納
媒体からインストールされる。
【0289】コンピュータにインストールされ、コンピ
ュータによって実行可能な状態とされるプログラムを格
納するプログラム格納媒体は、図7に示すように、磁気
ディスク95(フロッピディスクを含む)、光ディスク
96(CD-ROM(Compact Disc-Read Only Memory)、DVD(D
igital Versatile Disc)を含む)、光磁気ディスク97
(MD(Mini-Disc)を含む)、若しくは半導体メモリ9
8などよりなるパッケージメディア、または、プログラ
ムが一時的若しくは永続的に格納されるROM69や、ハ
ードディスク56などにより構成される。プログラム格
納媒体へのプログラムの格納は、必要に応じてルータ、
モデム50などのインタフェースを介して、ローカルエ
リアネットワーク、インターネット92、図示せぬデジ
タル衛星放送といった、有線または無線の通信媒体を利
用して行われる。
【0290】なお、本明細書において、プログラム格納
媒体に格納されるプログラムを記述するステップは、記
載された順序に沿って時系列的に行われる処理はもちろ
ん、必ずしも時系列的に処理されなくとも、並列的ある
いは個別に実行される処理をも含むものである。
【0291】また、本明細書において、システムとは、
複数の装置により構成される装置全体を表すものであ
る。
【0292】
【発明の効果】請求項1に記載の情報処理装置によれ
ば、プログラムを特定する特定データが記憶され、音声
を認識して、音声に対応する単語が生成され、生成され
た単語が特定データに対応する場合、特定データに対応
するプログラムが起動され、プログラムを起動させる場
合、生成手段または起動手段のいずれかに対応する画像
から、プログラムに対応する画像への送信を表す画像の
表示が制御されるようにしたので、使用者の意図通りに
処理が実行されているか否かを容易に知ることができる
ようになる。
【0293】請求項2に記載の情報処理方法および請求
項3に記載のプログラム格納媒体によれば、プログラム
を特定する特定データが記憶され、音声を認識して、音
声に対応する単語が生成され、生成された単語が特定デ
ータに対応する場合、特定データに対応するプログラム
が起動され、プログラムを起動させる場合、生成ステッ
プまたは起動ステップのいずれかに対応する画像から、
プログラムに対応する画像への送信を表す画像の表示が
制御されるようにしたので、使用者の意図通りに処理が
実行されているか否かを容易に知ることができるように
なる。
【0294】請求項4に記載の情報処理装置によれば、
音声を認識して、音声に対応する単語が生成され、生成
された単語に対応させて、所定のプログラムのコマンド
が記憶され、プログラムに生成された単語に対応するコ
マンドが送信され、プログラムにコマンドを送信する場
合、生成手段または送信手段のいずれかに対応する画像
から、プログラムに対応する画像への送信を表す画像の
表示が制御されるようにしたので、使用者の意図通りに
処理が実行されているか否かを容易に知ることができる
ようになる。
【0295】請求項5に記載の情報処理方法および請求
項6に記載のプログラム格納媒体によれば、音声を認識
して、音声に対応する単語が生成され、生成された単語
に対応させて、所定のプログラムのコマンドが記憶さ
れ、プログラムに生成された単語に対応するコマンドが
送信され、プログラムにコマンドを送信する場合、生成
ステップまたは送信ステップのいずれかに対応する画像
から、プログラムに対応する画像への送信を表す画像の
表示が制御されるようにしたので、使用者の意図通りに
処理が実行されているか否かを容易に知ることができる
ようになる。
【図面の簡単な説明】
【図1】パーソナルコンピュータ1の外観斜視図であ
る。
【図2】パーソナルコンピュータ1の平面図である。
【図3】パーソナルコンピュータ1の左側側面図であ
る。
【図4】パーソナルコンピュータ1の右側側面図であ
る。
【図5】パーソナルコンピュータ1の正面図である。
【図6】パーソナルコンピュータ1の底面図である。
【図7】パーソナルコンピュータ1の構成を示すブロッ
ク図である。
【図8】パーソナルコンピュータ1の機能ブロックを示
す図である。
【図9】パーソナルコンピュータ1の機能ブロックを示
す図である。
【図10】SAPIを説明する図である。
【図11】UI処理部123の状態遷移図である。
【図12】音声コマンダウィンドウ151を示す図であ
る。
【図13】エンジン通信部122の状態遷移図である。
【図14】アプリケーション通信部121の状態遷移図
である。
【図15】LCD21に表示される画面を説明する図であ
る。
【図16】LCD21に表示される画面を説明する図であ
る。
【図17】LCD21に表示される画面を説明する図であ
る。
【図18】LCD21に表示される画面を説明する図であ
る。
【図19】LCD21に表示される画面を説明する図であ
る。
【図20】LCD21に表示される画面を説明する図であ
る。
【図21】LCD21に表示される画面を説明する図であ
る。
【図22】LCD21に表示される画面を説明する図であ
る。
【図23】LCD21に表示される画面を説明する図であ
る。
【図24】LCD21に表示される画面を説明する図であ
る。
【図25】LCD21に表示される画面を説明する図であ
る。
【図26】LCD21に表示される画面を説明する図であ
る。
【図27】LCD21に表示される画面を説明する図であ
る。
【図28】LCD21に表示される画面を説明する図であ
る。
【図29】LCD21に表示される画面を説明する図であ
る。
【図30】LCD21に表示される画面を説明する図であ
る。
【図31】LCD21に表示される画面を説明する図であ
る。
【図32】LCD21に表示される画面を説明する図であ
る。
【図33】LCD21に表示される画面を説明する図であ
る。
【図34】LCD21に表示される画面を説明する図であ
る。
【図35】LCD21に表示される画面を説明する図であ
る。
【図36】LCD21に表示される画面を説明する図であ
る。
【図37】LCD21に表示される画面を説明する図であ
る。
【図38】LCD21に表示される画面を説明する図であ
る。
【図39】LCD21に表示される画面を説明する図であ
る。
【図40】LCD21に表示される画面を説明する図であ
る。
【図41】LCD21に表示される画面を説明する図であ
る。
【図42】LCD21に表示される画面を説明する図であ
る。
【図43】LCD21に表示される画面を説明する図であ
る。
【図44】LCD21に表示される画面を説明する図であ
る。
【図45】静止画像の撮像の処理を説明するフローチャ
ートである。
【図46】音声によるコマンド送信または起動の処理を
説明するフローチャートである。
【図47】アプリケーションプログラムの起動またはコ
マンド送信の処理を説明するフローチャートである。
【図48】電子メールプログラム54Aの起動の処理を
説明するフローチャートである。
【図49】アプリケーションプログラムの起動またはデ
ータの送信の処理を説明するフローチャートである。
【図50】起動またはコマンド送信のときの画像表示の
処理を説明するフローチャートである。
【図51】音声認識のテストの処理を説明するフローチ
ャートである。
【図52】登録する呼び名のテストの処理を説明するフ
ローチャートである。
【図53】カテゴリの呼び名のテストの処理を説明する
フローチャートである。
【図54】静止画撮影プログラム103を起動させて、
静止画像を撮像させて、静止画像にコメントを貼付する
までの一連の処理を説明するフローチャートである。
【図55】静止画撮影プログラム103を起動させて、
静止画像を撮像させて、静止画像にコメントを貼付する
までの一連の処理を説明するフローチャートである。
【符号の説明】
1 パーソナルコンピュータ, 4 キーボード, 1
0 シャッタボタン,21 LCD, 23 CCDビデオカ
メラ, 24 マイクロフォン, 52 CPU, 59
ROM, 54 RAM, 84A 電子メールプログラ
ム, 86 前押しスイッチ, 88 ドライブ, 9
2 インターネット, 95 磁気ディスク, 96
光ディスク, 97 光磁気ディスク, 98 半導体
メモリ,101 音声認識エンジン, 102 音声コ
マンダ, 103 静止画撮影プログラム, 104
静止画閲覧プログラム, 111 読み仮名辞書データ
ベース, 112 エンジン用認識単語・文法データベ
ース, 113 ランチャ設定データベース, 114
辞書設定データベース, 115 認識単語データベ
ース, 121 アプリケーション通信部, 122
エンジン通信部,123 UI処理部, 124 音声
ランチャ制御部, 125 ユーザ辞書制御部, 12
6 認識テスト処理部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 米倉 修二 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 藤村 聡 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 笹井 崇司 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 藤澤 直樹 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 大井 純司 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 Fターム(参考) 5D015 BB01 KK01 9A001 BZ03 DD11 HH17

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 プログラムを特定する特定データを記憶
    する特定データ記憶手段と、 音声を認識して、前記音声に対応する単語を生成する生
    成手段と、 前記生成手段により生成された前記単語が前記特定デー
    タに対応する場合、前記特定データに対応する前記プロ
    グラムを起動させる起動手段と、 前記起動手段が前記プログラムを起動させる場合、前記
    生成手段または前記起動手段のいずれかに対応する画像
    から、前記プログラムに対応する画像への送信を表す画
    像の表示を制御する表示制御手段とを含むことを特徴と
    する情報処理装置。
  2. 【請求項2】 プログラムを特定する特定データを記憶
    する特定データ記憶ステップと、 音声を認識して、前記音声に対応する単語を生成する生
    成ステップと、 前記生成ステップの処理で生成された前記単語が前記特
    定データに対応する場合、前記特定データに対応する前
    記プログラムを起動させる起動ステップと、 前記起動ステップの処理で前記プログラムを起動させる
    場合、前記生成ステップまたは前記起動ステップのいず
    れかに対応する画像から、前記プログラムに対応する画
    像への送信を表す画像の表示を制御する表示制御ステッ
    プとを含むことを特徴とする情報処理方法。
  3. 【請求項3】 プログラムを特定する特定データを記憶
    する特定データ記憶ステップと、 音声を認識して、前記音声に対応する単語を生成する生
    成ステップと、 前記生成ステップの処理で生成された前記単語が前記特
    定データに対応する場合、前記特定データに対応する前
    記プログラムを起動させる起動ステップと、 前記起動ステップの処理で前記プログラムを起動させる
    場合、前記生成ステップまたは前記起動ステップのいず
    れかに対応する画像から、前記プログラムに対応する画
    像への送信を表す画像の表示を制御する表示制御ステッ
    プとからなることを特徴とするプログラムを情報処理装
    置に実行させるプログラム格納媒体。
  4. 【請求項4】 音声を認識して、前記音声に対応する単
    語を生成する生成手段と、 前記生成手段により生成された前記単語に対応させて、
    所定のプログラムのコマンドを記憶する記憶手段と、 前記プログラムに、前記生成手段により生成された前記
    単語に対応する前記コマンドを送信する送信手段と、 前記送信手段が前記プログラムにコマンドを送信する場
    合、前記生成手段または前記送信手段のいずれかに対応
    する画像から、前記プログラムに対応する画像への送信
    を表す画像の表示を制御する表示制御手段とを含むこと
    を特徴とする情報処理装置。
  5. 【請求項5】 音声を認識して、前記音声に対応する単
    語を生成する生成ステップと、 前記生成ステップの処理で生成された前記単語に対応さ
    せて、所定のプログラムのコマンドを記憶する記憶ステ
    ップと、 前記プログラムに、前記生成ステップの処理で生成され
    た前記単語に対応する前記コマンドを送信する送信ステ
    ップと、 前記送信ステップの処理で前記プログラムにコマンドを
    送信する場合、前記生成ステップまたは前記送信ステッ
    プのいずれかに対応する画像から、前記プログラムに対
    応する画像への送信を表す画像の表示を制御する表示制
    御ステップとを含むことを特徴とする情報処理方法。
  6. 【請求項6】 音声を認識して、前記音声に対応する単
    語を生成する生成ステップと、 前記生成ステップの処理で生成された前記単語に対応さ
    せて、所定のプログラムのコマンドを記憶する記憶ステ
    ップと、 前記プログラムに、前記生成ステップの処理で生成され
    た前記単語に対応する前記コマンドを送信する送信ステ
    ップと、 前記送信ステップの処理で前記プログラムにコマンドを
    送信する場合、前記生成ステップまたは前記送信ステッ
    プのいずれかに対応する画像から、前記プログラムに対
    応する画像への送信を表す画像の表示を制御する表示制
    御ステップとからなることを特徴とするプログラムを情
    報処理装置に実行させるプログラム格納媒体。
JP25067799A 1999-09-03 1999-09-03 情報処理装置および方法、並びにプログラム格納媒体 Withdrawn JP2001075775A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP25067799A JP2001075775A (ja) 1999-09-03 1999-09-03 情報処理装置および方法、並びにプログラム格納媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP25067799A JP2001075775A (ja) 1999-09-03 1999-09-03 情報処理装置および方法、並びにプログラム格納媒体

Publications (1)

Publication Number Publication Date
JP2001075775A true JP2001075775A (ja) 2001-03-23

Family

ID=17211414

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25067799A Withdrawn JP2001075775A (ja) 1999-09-03 1999-09-03 情報処理装置および方法、並びにプログラム格納媒体

Country Status (1)

Country Link
JP (1) JP2001075775A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020173835A (ja) * 2010-01-18 2020-10-22 アップル インコーポレイテッドApple Inc. インテリジェント自動アシスタント

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020173835A (ja) * 2010-01-18 2020-10-22 アップル インコーポレイテッドApple Inc. インテリジェント自動アシスタント
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
JP7213206B2 (ja) 2010-01-18 2023-01-26 アップル インコーポレイテッド インテリジェント自動アシスタント

Similar Documents

Publication Publication Date Title
JP4200607B2 (ja) 情報処理装置および方法、並びにプログラム格納媒体
JP4320487B2 (ja) 情報処理装置および方法、並びにプログラム格納媒体
US20220043628A1 (en) Electronic device and method for generating short cut of quick command
US10686951B2 (en) Methods and systems for accessing printing and scanning functions of a multi-function printer through natural language text or voice messages
CN111095399A (zh) 助理应用的语音用户接口快捷方式
US20070022372A1 (en) Multimodal note taking, annotation, and gaming
EP1081615A2 (en) Picture information transmission apparatus and method
EP3660661A1 (en) Information processing system, method of processing information and carrier means
JP2005327258A (ja) ウエブサービスアプリケーションベースの光学文字認識システム及び方法
JP2000035896A (ja) デジタル・デ―タ転送装置
JP2004302929A (ja) 自動インストーラプログラム
US11036441B1 (en) System and method for creation and invocation of predefined print settings via speech input
JP4200608B2 (ja) 情報処理装置および方法、並びにプログラム格納媒体
JP2001075591A (ja) 情報処理装置および方法、並びにプログラム格納媒体
JP2001216131A (ja) 情報処理装置および方法、並びにプログラム格納媒体
JP2001075775A (ja) 情報処理装置および方法、並びにプログラム格納媒体
JP2001075773A (ja) 情報処理装置および方法、並びにプログラム格納媒体
JP4513192B2 (ja) 情報処理装置および方法、並びにプログラム記録媒体
JP4320488B2 (ja) 情報処理装置および方法、並びにプログラム格納媒体
JP2001216128A (ja) 情報処理装置および方法、並びにプログラム格納媒体
JP2001216059A (ja) 情報処理装置および方法、並びにプログラム格納媒体
JP2001216061A (ja) 情報処理装置および方法、並びにプログラム格納媒体
CN113207042B (zh) 一种媒资播放方法及显示设备
JP2002007048A (ja) 電子機器におけるプログラム起動装置、プログラム起動方法、媒体および電子機器
JP4868728B2 (ja) 情報処理装置、情報処理方法、及びそのプログラム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20061107