JP2001296881A

JP2001296881A - 情報処理装置および方法、並びに記録媒体

Info

Publication number: JP2001296881A
Application number: JP2000112872A
Authority: JP
Inventors: Masato Shimakawa; 真人島川
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2000-04-14
Filing date: 2000-04-14
Publication date: 2001-10-26
Also published as: US6993486B2; US20020013710A1

Abstract

(57)【要約】【課題】音声認識装置と音声入力インターフェースを
統一して、音声コマンドによりネットワーク上の複数の
電子機器を制御できるようにする。【解決手段】音声UI定義管理部３２は、音声UI定義情
報を取得し、XMLパーサ２２ａおよび音声認識辞書生成
部２２ｂを介して、音声ＵＩ定義情報記憶部４１に音声
認識辞書を記憶させる。音声認識制御部２４ａは、音声
入力部２から入力される音声コマンドを、音声認識辞書
を参照して認識し、候補となるUIコマンドをUIコマンド
決定部２４に出力する。UIコマンド決定部２４は、UIコ
マンド履歴を参照し、所定のUIコマンドを選択して、IE
EE1394AV/Cコマンド変換部２５に出力する。IEEE1394AV
/Cコマンド変換部２５は、入力されたUIコマンドをAV/C
コマンドに変換し、所定の電子機器に出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、情報処理装置およ
び方法、並びに記録媒体に関し、特に、単一の音声認識
装置と統一されたユーザインタフェースにより、複数の
電子機器を統合して制御できるようにした情報処理装置
および方法、並びに記録媒体に関する。

【０００２】

【従来の技術】音声によりコマンドを送り、電子機器を
制御する音声認識技術が普及しつつある。音声認識技術
とは、ユーザが発する音声が、どのような言葉であるの
かを認識する技術であり、例えば、この認識された言葉
に対応するコマンドに基づいて、電子機器を制御する装
置などに応用されている。

【０００３】例えば、カーナビゲーション装置などに使
用する場合、ユーザが、そのマイクロフォンなどのユー
ザインタフェース装置に、音声コマンドとして「しんじ
ゅく」を入力すると、カーナビゲーション装置は、マイ
クロフォンから入力された音声を、内蔵された音声認識
装置で解析し、入力された音声が「新宿」という言葉で
あり、これが地名であることを認識する。カーナビゲー
ション装置は、予め設定されたプログラムにより、認識
した地名である「新宿」を目的地としたルート探索を実
行し、現在位置から最適なルートを探索して、表示す
る。

【０００４】

【発明が解決しようとする課題】しかしながら、上記の
ような構成では、個々の電子機器に音声認識装置を内蔵
させ、個別にユーザからの指示を受付ける形態がとられ
ているため、複数の電子機器を音声により制御する場
合、制御したい電子機器の数だけ、音声認識装置を設け
る必要があり、現実的な装置を構成することができない
という課題があった。

【０００５】また、この課題を解決する為に、音声認識
装置をネットワーク上に設けることが提案されたが、例
えば、マイクロフォンなどのユーザインタフェース自体
は、各電子機器に設けられる必要があるので、統一的な
ユーザインタフェースを実現することが困難であるとい
う課題があった。

【０００６】さらに、新たな電子機器を設けようとする
と、対応する音声認識装置およびインタフェース装置を
新たに設けなければならないという課題があった。

【０００７】さらにまた、上記の構成では、個々の電子
機器に内蔵された音声認識装置により、個別にユーザか
らの指示を受付けるようにされているため、ユーザイン
タフェースが不統一になると共に、複数機器を統合した
コントロールが不可能であるという課題があった。

【０００８】本発明はこのような状況に鑑みてなされた
ものであり、単一の音声認識装置と統一されたユーザイ
ンタフェースにより、複数の電子機器を統合して制御で
きるようにするものである。

【０００９】

【課題を解決するための手段】本発明の情報処理装置
は、ネットワークに接続された電子機器を制御するユー
ザインタフェースコマンドと、ユーザにより入力される
音声コマンドとの対応関係が定義された音声ユーザイン
タフェース定義情報を取得する音声ユーザインタフェー
ス定義情報取得手段と、音声ユーザインタフェース定義
情報取得手段により取得された音声ユーザインタフェー
ス定義情報を記憶する記憶手段と、ユーザにより入力さ
れた電子機器を制御する音声コマンドを認識する音声認
識手段と、音声認識手段により認識された音声コマンド
に対応するユーザインタフェースコマンドを、記憶手段
により記憶された音声ユーザインタフェース定義情報に
基づいて決定する決定手段と、決定手段により決定され
たユーザインタフェースコマンドにより、電子機器を制
御する制御手段とを備えることを特徴とする。

【００１０】前記音声ユーザインタフェース定義情報
は、電子機器のID情報に対応させるようにすることがで
きる。

【００１１】前記音声ユーザインタフェース定義情報に
は、電子機器の動作状態毎に対応可能な、音声コマン
ド、ユーザインタフェースコマンド、および、ユーザイ
ンタフェースコマンドに対応した動作をしたときの動作
状態の遷移先の情報を含ませるようにすることができ
る。

【００１２】前記決定手段には、電子機器の動作状態を
認識する動作状態認識手段をさらに設けることができ、
動作状態認識手段により認識した電子機器の動作状態に
基づいて、音声認識手段により認識された音声コマンド
に対応するユーザインタフェースコマンドを、音声ユー
ザインタフェース定義情報に基づいて決定するようにさ
せることができる。

【００１３】前記電子機器のID情報を取得するID情報取
得手段をさらに設けることができ、音声ユーザインタフ
ェース定義情報取得手段には、ID情報取得手段により取
得された電子機器のID情報に基づいて、対応する音声ユ
ーザインタフェース定義情報を取得させるようにするこ
とができる。

【００１４】前記ID情報には、ノードID、機器ID、機種
ID、または、機器タイプIDを含ませるようにすることが
できる。

【００１５】ここでノードIDとはネットワーク上で個々
の機器を識別するためのID,機器IDとは製造番号のよう
な機器の個体毎に設けられたID, 機種IDとは型名のよう
な同じ機能を持つ機器の集合に対応して設けられたID,
機器タイプIDとは例えばTV,ビデオなどのように同種の
機能を持つ機器ごとに設定されたIDを示す。

【００１６】前記音声ユーザインタフェース定義情報取
得手段には、ノードID, 機器ID、機種ID、機器タイプID
の順位で、機器に対応する音声ユーザインタフェース定
義情報の取得を試みさせるようにすることができる。

【００１７】前記ネットワークに接続された電子機器の
接続状態を検出する接続状態検出手段をさらに設けるこ
とができ、音声ユーザインタフェース定義情報取得手段
には、接続状態検出手段により検出された電子機器の接
続状態に基づいて、音声ユーザインタフェース定義情報
取得及び破棄を行うようにさせることができる。

【００１８】前記ネットワークに接続された電子機器を
選択する選択手段をさらに設けることができ、決定手段
には、選択手段により選択された電子機器に対する音声
ユーザインタフェース定義情報のみに基づいて決定させ
るようにすることができる。

【００１９】決定手段により検索されたユーザインタフ
ェースコマンドを履歴として記憶するユーザインタフェ
ースコマンド履歴記憶手段をさらに設けることができ、
決定手段により決定されたユーザインタフェースコマン
ドにより制御すべき、ネットワークに接続された電子機
器が特定できない場合、ユーザに電子機器を問い合わ
せ、問い合わせ結果に基づく電子機器を制御するか、ま
たは、ユーザインタフェースコマンド履歴記憶手段によ
り記憶された、最近制御された電子機器を制御するよう
にすることができる。

【００２０】また、任意に音声ユーザインタフェース定
義情報を生成する音声ユーザインタフェース定義情報生
成手段をさらに設けることができ、音声ユーザインタフ
ェース定義情報取得手段には、インターネット上のサー
バ、記録媒体、または、音声ユーザインタフェース定義
情報生成手段より音声ユーザインタフェース定義情報を
取得させるようにすることができる。

【００２１】本発明の情報処理方法は、ネットワークに
接続された電子機器を制御するユーザインタフェースコ
マンドと、ユーザにより入力される音声コマンドとの対
応関係が定義された音声ユーザインタフェース定義情報
を取得する音声ユーザインタフェース定義情報取得ステ
ップと、音声ユーザインタフェース定義情報取得ステッ
プの処理で取得された音声ユーザインタフェース定義情
報を記憶する記憶ステップと、ユーザにより入力された
電子機器を制御する音声コマンドを認識する音声認識ス
テップと、音声認識ステップの処理で認識された音声コ
マンドに対応するユーザインタフェースコマンドを、記
憶ステップの処理で記憶された音声ユーザインタフェー
ス定義情報に基づいて決定する決定ステップと、決定ス
テップの処理で決定されたユーザインタフェースコマン
ドにより、電子機器を制御する制御ステップとを含むこ
とを特徴とする。

【００２２】本発明の記録媒体のプログラムは、ネット
ワークに接続された電子機器を制御するユーザインタフ
ェースコマンドと、ユーザにより入力される音声コマン
ドとの対応関係が定義された音声ユーザインタフェース
定義情報の取得を制御する音声ユーザインタフェース定
義情報取得制御ステップと、音声ユーザインタフェース
定義情報取得制御ステップの処理で取得された音声ユー
ザインタフェース定義情報の記憶を制御する記憶制御ス
テップと、ユーザにより入力された電子機器を制御する
音声コマンドの認識を制御する音声認識制御ステップ
と、音声認識制御ステップの処理で認識された音声コマ
ンドに対応するユーザインタフェースコマンドの、記憶
ステップの処理で記憶された音声ユーザインタフェース
定義情報に基づく決定処理を制御する決定制御ステップ
と、決定制御ステップの処理で決定されたユーザインタ
フェースコマンドにより、電子機器を制御する制御ステ
ップとを含むことを特徴とする。

【００２３】本発明の情報処理装置および方法、並びに
記録媒体においては、ネットワークに接続された電子機
器を制御するユーザインタフェースコマンドと、ユーザ
により入力される音声コマンドとの対応関係が定義され
た音声ユーザインタフェース定義情報が取得され、取得
された音声ユーザインタフェース定義情報が記憶され、
ユーザにより入力された電子機器を制御する音声コマン
ドが認識され、認識された音声コマンドに対応するユー
ザインタフェースコマンドが、記憶された音声ユーザイ
ンタフェース定義情報かに基づき決定され、検索された
ユーザインタフェースコマンドにより、電子機器が制御
される。

【００２４】

【発明の実施の形態】図１は、本発明に係る音声認識装
置１の一実施の形態の構成を示す図である。音声認識装
置１のIEEE（Institute of Electrical and Electronic
Engineers）1394ネットワークコントローラ２１は、IE
EE1394ネットワーク３のインタフェースとして機能し、
IEEE1394ネットワーク３に接続されたテレビジョン受像
機（TV）４、セットトップボックス（Set Top Box：ST
B）５、DVD（Digital VersatileDisk）記録再生装置（D
VD）６、および、DVC（Digital Video Camera）７と、
データを授受する。

【００２５】IEEE1394ネットワークコントローラ２１に
は、機器接続検出部２１ａが設けられており、IEEE1394
ネットワーク３上に接続された電子機器の1394Node ID
を検出し、音声UI（User Interface）定義管理部３２に
出力する。

【００２６】音声UI定義管理部３２は、利用する音声UI
定義情報の追加・削除に関する全体の動作を制御してい
る。また、音声UI定義管理部３２は、機器接続検出部２
１ａより入力された1394Node IDに基づいて、IEEE1394
ネットワーク上に接続された電子機器の接続状態を把握
する。さらに、音声UI定義管理部３２は、音声ＵＩ定義
情報変換部２２に対して、テキスト形式のXML（eXtensi
ble Markup Language）で記述された音声UI定義情報
を、IEEE1394ネットワーク３上のTV４、STB５、DVD６、
DVC７から取得したり、ネットワークコントローラ２７
およびTCP/IPネットワーク（インターネット）８を介し
てWWW（World Wide Web）サーバ９から取得したり、ド
ライブ２８に装着された磁気ディスク１０１、光ディス
ク１０２、光磁気ディスク１０３、または、半導体メモ
リ１０４から取得したり、ROM２６、HDD（Hard Disk Dr
ive）２９、音声UI定義情報生成部３０から取得するよ
うに指示をする。また、このとき音声UI定義管理部３２
は同時に機器接続検出部２１ａからの電子機器の各種 I
Dも供給する。音声UI定義情報は、電子機器の動作状態
毎に、受付ける音声コマンドと、それに対応するUIコマ
ンドを決定するための情報を記録したものである。尚、
XMLについては、後述する。

【００２７】XMLパーサ２２ａは、音声UI定義管理部３
２から供給され、XMLで記述された音声UI定義情報を解
釈し、その解釈結果を、音声UI定義管理部３２から供給
されたID情報と共に、音声認識辞書生成部２２ｂに出力
する。

【００２８】音声認識辞書生成部２２ｂは、XMLパーサ
２２ａから供給された音声UIファイルの解釈結果と、電
子機器の1394Node IDに基づいて、音声認識辞書４１ａ,
４１b, ４１c, ４１dを生成し、音声ＵＩ定義情報記憶
部４１に出力する。音声認識辞書は、音声UI定義情報に
基づいて、各電子機器毎に生成され、その電子機器の動
作状態毎に、受付ける音声コマンドと、それに対応する
UIコマンドを決定するための情報を記録した内容を、後
述する音声認識制御部２４ａが音声認識の際に利用する
フォーマットに変換したものである。尚、音声認識辞書
については後述する。

【００２９】音声認識部２３の音声ＵＩ定義情報記憶部
４１は、音声ＵＩ定義管理部３２により制御され、音声
UI定義情報変換部２２の音声認識辞書生成部２２ｂから
供給された音声認識辞書４１を、対応するそれぞれの電
子機器の1394Node IDと共に記憶する。

【００３０】音声認識制御部２４ａは音声認識部２３の
全体の動作を制御している。音声認識制御部２４ａは音
声認識辞書を用いて、HMM（Hidden Markov Model：隠れ
マルコフモデル）と呼ばれる音声認識手法により、音声
入力部２のマイクロフォン（MIC）２ｂから無線通信部
２ａ，３１を介して入力される音声コマンドを認識す
る。なお、音声認識方法は、HMM以外の方法であっても
よい。

【００３１】さらに、音声認識制御部２４ａは音声コマ
ンドを送る電子機器が指定された場合については、機器
のID情報に基づいて、音声認識辞書として使用する辞書
を、対応する音声認識辞書のみを使用するように制限す
る。

【００３２】さらにまた、音声認識制御部２４ａは、認
識された音声コマンドの候補となる音声認識結果のう
ち、上位１０位までの候補をUIコマンド決定部２４に出
力する。尚、この例においては、音声認識制御部２４ａ
は、音声認識結果のうち、上位１０位までの候補をUIコ
マンド決定部２４ｂに出力するようにしているが、上位
何位までを出力させるかは、任意に設定できるようにし
てもよい。

【００３３】UIコマンド決定部２４ｂは、音声認識制御
部２４ａより入力された音声認識結果の上位１０位まで
の候補を必要に応じてUIコマンド履歴２４ｃに照合し、
最適とされる音声認識結果をUIコマンドとして決定す
る。UIコマンド決定部２４ｂは、その決定されたUIコマ
ンドをIEEE1394AV/Cコマンド変換部２５に出力する。

【００３４】IEEE1394AV/Cコマンド変換部２５は、UIコ
マンド決定部２４ｂから入力されたUIコマンドをAV/Cコ
マンドに変換し、IEEE1394ネットワークコントローラ２
１およびIEEE 1394ネットワーク３を介して、所定の電
子機器に出力する。

【００３５】ROM２６には、XMLで記述された、各電子機
器に共通な、必要最低限のコマンドが記述された音声UI
定義情報が、データベースとして記録されている。音声
UI定義管理部３２は、他の方法によって対応する音声Ｕ
Ｉ定義情報を取得できないときには、機器接続検出部２
１ａからのID情報に基づいて、ROM２６に記録された音
声UI定義情報を取得するように音声ＵＩ定義情報変換部
２２に指示を行う。

【００３６】ネットワークコントローラ２７は、音声UI
定義管理部３２の指示に基づいて音声ＵＩ定義情報変換
部２２によって制御され、TCP/IPネットワーク（インタ
ーネット）８を介して、所定のWWWサーバ９にアクセス
し、WWWサーバ９のHDD９ａに記録された、電子機器の音
声UI定義情報を取得する。

【００３７】ドライブ２８は、音声UI定義管理部３２の
指示に基づいて音声ＵＩ定義情報変換部２２によって制
御され、装着される磁気ディスク１０１、光ディスク１
０２、光磁気ディスク１０３、または、半導体メモリ１
０４に記録された、電子機器の音声UI定義情報を読み出
す。HDD２９は、音声UI定義管理部３２の指示に基づい
て音声ＵＩ定義情報変換部２２によって制御され、記録
された音声UI定義情報を読み出す。また、磁気ディスク
１０１、光ディスク１０２、光磁気ディスク１０３、半
導体メモリ１０４、HDD２９には、IEEE1394ネットワー
クコントローラ２１、または、ネットワークコントロー
ラ２７を介して、音声UI定義情報変換部２２に読み込ま
れた音声UI定義情報を記録し、再び、必要に応じてそれ
を読み出すようにしてもよい。

【００３８】ユーザ問い合せ型の音声UI定義情報生成部
３０は、上記のいずれの方法でも、音声UI定義情報が入
手できない場合、または、ユーザが特に音声UI定義情報
を生成できるように設定された場合に使用され、音声入
力部２の液晶表示部２ｃに音声UI定義情報のエディタを
表示させ、ユーザの、MIC２ｂからの入力や選択ボタン
２ｄの操作に基づいて音声UI定義情報を生成し、無線通
信部２ａ，３１を介して入力された信号に基づいて、音
声UI定義情報変換部２２に出力する。

【００３９】音声認識装置を使用するユーザにより保持
される音声入力部２では、MIC２ｂから入力される各種
の音声コマンドや、選択ボタン２ｄが操作されることに
より発生される信号が、無線通信部２ａを介して、無線
で音声認識装置１の無線通信部３１に出力される。ま
た、音声入力部２の液晶表示部２ｃは、音声UI定義情報
を生成するエディタを表示する。ユーザは、この表示に
基づいて、音声UI定義情報を編集し、生成することがで
きる。また、音声入力部２の液晶表示部２ｃには、音声
認識制御部２４ａにより、特定の電子機器に対するUIコ
マンドが特定できなかった場合、その候補となる電子機
器が表示される。この表示により、ユーザは、選択ボタ
ン２ｄを操作して、UIコマンドの対象となる電子機器を
特定することができる。

【００４０】IEEE1394ネットワーク３に接続されたTV
４、STB５、DVD６、および、DVC７には、CPU（Central
Processing Unit）、記憶部（HDDやメモリなど）、およ
び、通信部（いずれも図示せず）が設けられており、各
電子機器は、そのCPUにより制御され、IEEE1394ネット
ワーク３を介して、TV４の記憶部に記憶されている1394
Node ID４ａ、機器ID４ｂ、機種ID４ｃ、または、機器
タイプID４ｄ、STB５の記憶部に記憶されている1394Nod
e ID５ａ、機器ID５ｂ、機種ID５ｃ、または、機器タイ
プID５ｄ、DVD６の記憶部に記憶されている1394Node ID
６ａ、機器ID６ｂ、機種ID６ｃ、機器タイプID６ｄ、ま
たは、音声UI定義情報６ｅ、DVC７の記憶部に記憶され
ている1394Node ID７ａ、機器ID７ｂ、機種ID７ｃ、ま
たは、機器タイプID７ｄを、それぞれ、（IEEE1394ネッ
トワークに対応した）通信部から、IEEEネットワーク３
を介して、音声認識装置１のIEEE1394ネットワークコン
トローラ２１に送信する。

【００４１】1394Node ID４ａ乃至７ａは、IEEE1394ネ
ットワーク３上のIDであり、IEEE1394ネットワーク３に
接続される毎に（バスリセットされる毎に）付されるID
である。機器IDは、各電子機器を認識する為のIDであ
り、例えば製造メーカや型式番号、製造番号などの組み
合わせによって構成され、その電子機器を一意に決定す
ることを可能とする。この例においては、IEEE1394ネッ
トワーク３によりネットワークが構成されているので、
各種の処理では、1394Node IDが使用されているが、例
えば、機器を接続するネットワークが、IEEE1394ネット
ワーク３以外のもので構成された場合、機器ＩＤを各電
子機器を認識するIDとして使用してもよい。

【００４２】機種IDは、各電子機器の機種を認識する為
のIDであり、例えば製造メーカ、型式番号などの組み合
わせによって構成される。機器タイプIDは電子機器の種
別を大まかに分類するためのIDであり、例えば、その電
子機器が、TVであるか、STBであるか、といったことが
認識される。

【００４３】この例においては、DVD６にのみ、専用の
音声UI定義情報６ｅが保持されており、ネットワークを
介してこの音声ＵＩ定義情報が直接取得され、その他の
機器については上記ID情報に基づいて適切な音声ＵＩ定
義情報を取得することによって動作するようになってい
る。

【００４４】次に、音声UI定義情報について説明する。
音声UI定義情報の最も単純な形式は、状態毎に受付可能
な音声コマンド、UIコマンド、および、遷移先State
（状態）の対応関係を組合せにしたものである。図２
は、DVC７の音声UI定義情報の概念図を示している。例
えば、この音声UI定義情報のState０の場合、音声コマ
ンドとして受付可能な音声コマンドは、「電源オン」と
「電源を入れて」の２つである。これらの音声コマンド
が対応するUIコマンドは、いずれも「Power On」であ
る。遷移先Stateに示されるように、DVC７は、「Power
On」の処理を実行すると、その状態は、State０からSta
te１に遷移する。この関係が、図３に示されている。図
３に示すように、このState０の場合、「電源オン」と
「電源を入れて」という音声コマンドに対応した電源を
入れるといった処理ができ、状態は、図中の番号１で示
すように、State０からState１に遷移する。

【００４５】また、State１の場合、受付可能な音声コ
マンドは、「電源オフ」、「電源を切って」、および
「再生」である。音声コマンドの「電源オフ」、「電源
を切って」に対応するUIコマンドは、「Power Off」で
あり、音声コマンドの「再生」に対応するUIコマンド
は、「Play」である。DVC７は、「Power Off」を実行す
ると、図中の番号２で示すように、State１からState０
に遷移し、「Play」を実行すると、図中の番号３で示す
ように、State１からState２に遷移する。

【００４６】さらに、State２の場合、受付可能な音声
コマンドは、「停止」であり、対応するUIコマンドは、
「Stop」となり、これが実行されると、状態は、図中の
番号４で示すように、State２からState１に遷移する。

【００４７】このように、電子機器の状態により、受付
可能な音声コマンドが限定されており、さらに、その音
声コマンドにより、その状態も、決まった状態に遷移す
る。このため、音声認識制御部２４ａは、音声認識する
際に、この状態に基づいて、その状態でしか受付けられ
ない音声コマンドに関してだけが有効となるように、音
声認識処理を行う。

【００４８】次に、この音声UI定義情報を実際に記述す
るためのXMLベースのフォーマットについて説明する。
図２に示すように状態がState０乃至２の場合の音声UI
定義情報をXMLで記述したものを以下に示す。

【００４９】１ <音声UI定義> ２ <定義クラス>機種</定義クラス> ３ <ID>MDX-001</ID> ４ <Date>1999/12/17</Date> ５ <State数>3</State数> ６ <State NO=0> ７ <コマンド> ８ <音声コマンド>電源オン</音声コマンド> ９ <音声コマンド>電源を入れて</音声コマンド> １０ <UIコマンド>Power On</UIコマンド> １１ <遷移先State>1</遷移先State> １２ </コマンド> １３ </State> １４ <State NO=1> １５ <コマンド> １６ <音声コマンド>電源オフ</音声コマンド> １７ <音声コマンド>電源を切って</音声コマンド> １８ <UIコマンド>Power Off</UIコマンド> １９ <遷移先State>0</遷移先State> ２０ </コマンド> ２１ <コマンド> ２２ <音声コマンド>再生</音声コマンド> ２３ <UIコマンド>Play</UIコマンド> ２４ <遷移先State>2</遷移先State> ２５ </コマンド> ２６ </State> ２７ <State NO=2> ２８ <コマンド> ２９ <音声コマンド>停止</音声コマンド> ３０ <UIコマンド>Stop</UIコマンド> ３１ <遷移先State>1</遷移先State> ３２ </コマンド> ３３ </State> ３４ </音声UI定義>

【００５０】以上に示すように、XMLは、記述内容を示
すタグと呼ばれる「<」と「>」で囲まれた中に、内容を
表記しており、各コマンドは、<***>と</***>で囲まれ
た中に記述される。例えば、第３行目に示すように、<I
D>と</ID>で囲まれた中に示される内容は、IDであるこ
とを示し、その間に記述された「MDX-001」が、実際のI
Dである。以下に、各行の記述内容について説明する。

【００５１】第1行目は、第３４行目までに記述されて
いる内容が、音声UI定義情報であることを示している。
第２行目は、この音声UI定義情報が、機種IDに基づいて
定義されているものであることを記述している。第３行
目は、この音声UI定義情報が、機種ID「MDX-001」に、
対応しているものであることを記述している。

【００５２】第４行目は、この音声UI定義情報が生成さ
れた日付が、「１９９９年１２月１７日」であることを
記述している。第５行目は、この音声UI定義情報で扱う
状態数（State数）を示しており、図２に示したよう
に、ここでは、状態数は、State０乃至２の合計３つの
状態を示すことが記述されている。

【００５３】第６行目は、それ以降においては、状態
が、State０である場合に使用されるコマンドについて
記述することを示している。第７行目は、それ以降の行
で、コマンドについて記述することを示している。第８
行目は、State０の状態で、音声コマンドとして「電源
オン」が、受付けられることを記述している。また、第
９行目も、第8行目と同様に、「電源を入れて」が音声
コマンドとして受付けられることを記述している。

【００５４】第１０行目は、第８行目と第９行目に記述
された「電源オン」、「電源を入れて」の音声コマンド
が、認識されたとき、対応するUIコマンドとして「Powe
r On」が出力されることが記述されている。第１１行目
は、「Power On」のコマンドを実行したとき、状態が、
State０からState１に遷移することが記述されている。
第１２行目は、第７行目の「コマンド」の記述の括りを
示している。第１３行目は、第６行目のState０の場合
の記述の括りを示している。

【００５５】第１４行目は、状態が、State１の場合に
ついて、以下に記述することを示している。第１５行目
は、以下にコマンドについて記述することを示してい
る。第１６行目および第１７行目は、音声コマンドとし
て「電源オフ」、「電源を切って」が、State１の状態
で受付けられることを記述している。

【００５６】第１８行目は、音声コマンドとして、「電
源オフ」、「電源を切って」が、認識されたとき、所定
の電子機器に「Power Off」のUIコマンドを出力するこ
とが記述されている。第１９行目は、「Power Off」のU
Iコマンドが、実行されたときの状態が、State１からSt
ate０に遷移することが記述されている。第２０行目
は、第１５行目の「コマンド」の記述の括りを示してい
る。

【００５７】第２１行目は、以下にコマンドの記述があ
ることを示している。第２２行目は、状態が、State１
の場合、音声コマンドとして「再生」が、受付けられる
ことが記述されている。第２３行目は、音声コマンドと
して「再生」が、認識されたとき、実行されるUIコマン
ドとして「Play」が出力されることを記述している。第
２４行目は、UIコマンド「Play」が、実行されることに
より、状態が、State１からState２に遷移することが記
述されている。第２５行目は、第２１行目の「コマン
ド」の記述の括りを示している。第２６行目は、第１４
行目のState１の記述の括りを示している。

【００５８】第２７行目は、以下にState２の状態の場
合について、記述されていることを示している。第２８
行目は、以下にコマンドの記述があることを示してい
る。第２９行目は、State２の場合、音声コマンドとし
て「停止」が受付けられることを記述している。第３０
行目は、音声コマンドとして「停止」を認識したとき
に、UIコマンドとして「Stop」を出力することを記述し
ている。第３１行目は、UIコマンドとして「Stop」を実
行したとき、状態が、State２からState１に遷移するこ
とが記述されている。第３２行目は、第２８行目の「コ
マンド」の括りを示している。第３３行目は、第２７行
目のState２の場合の記述の括りを示している。第３４
行目は、第１行目の「音声UI定義」の記述の括りを示し
ている。

【００５９】音声UI定義情報は、以上のように記述さ
れ、XMLパーサ２２ａにより認識され、認識結果が音声
認識辞書生成部２２ｂに出力される。音声認識辞書生成
部２２ｂは、この認識結果に基づいて、音声認識制御部
２４ａが、音声認識の際に使用する認識情報とコマンド
情報を含む内部フォーマットに変換し、電子機器毎に音
声認識辞書として出力する。従って、音声認識制御部２
４ａの処理は、この音声UI定義情報に基づいた処理とな
る。

【００６０】次に、音声認識辞書について説明する。音
声認識辞書は、上述のように電子機器毎に音声UI定義情
報から生成され、音声認識制御部に適した内部フォーマ
ットに変換されたものである。図１に示すように、音声
認識辞書４１ａ乃至４１ｄは、音声ＵＩ定義情報記憶部
４１に記憶される。例えば、それぞれ音声認識辞書４１
ａが、TV４の機器IDに、音声認識辞書４１ｂが、STB５
の機器IDに、音声認識辞書４１ｃが、DVD６の機器ID
に、音声認識辞書４１ｄが、DVC７の機器IDにそれぞれ
対応していた場合、音声認識制御部２４ａは、音声認識
辞書４１ａ乃至４１ｄに基づいて認識処理を行う。

【００６１】次に、図４のフローチャートを参照して、
音声認識装置１が、IEEE1394ネットワーク３に接続され
た電子機器に対応する音声認識辞書を生成する処理につ
いて説明する。

【００６２】ステップＳ１において、音声UI定義管理部
３２は、IEEE1394ネットワークコントローラ２１の機器
接続検出部２１ａに、IEEE1394ネットワーク３に接続が
開始された電子機器の有無を問い合わせる。ステップＳ
１において、機器接続検出部２１ａから接続が開始され
た電子機器がないとの応答があった場合、その処理は、
ステップＳ２に進む。

【００６３】ステップＳ２において、音声UI定義管理部
３２は、機器接続検出部２１ａに、接続が解除された電
子機器の有無を問い合わせる。ステップＳ２において、
接続が解除された電子機器はないと判定された場合、そ
の処理は、ステップＳ１の処理に戻り、接続が解除され
た電子機器があると判定された場合、その処理は、ステ
ップＳ３に進む。

【００６４】ステップＳ３において、音声UI定義管理部
３２は、接続が解除された電子機器の機器ＩＤを受け取
り、これに基づいて、接続が解除された電子機器の機器
IDに対応する音声認識辞書を音声ＵＩ定義情報記憶部か
ら削除し（または、使用不可のフラグを設定し）、ステ
ップＳ１の処理に戻る。

【００６５】ステップＳ１において、接続を開始した電
子機器があると判定された場合、ステップＳ４におい
て、音声UI定義管理部３２は、IEEE1394ネットワークコ
ントローラ２１経由で電子機器の音声UI定義情報が取得
できるか否かを判定する。ステップＳ４において、IEEE
1394ネットワークコントローラ２１経由で、音声UI定義
情報が取得できないとの応答があったと判定された場
合、その処理は、ステップＳ５に進む。

【００６６】ステップＳ５において、音声UI定義管理部
３２は、ネットワークコントローラ２７を介して、イン
ターネット８上のＷＷＷサーバ９から音声UI定義情報を
取得できるか否かを判定し、取得できないとの応答があ
ったと判定した場合、その処理は、ステップＳ６に進
む。

【００６７】ステップＳ６において、音声UI定義管理部
３２は、ドライブ２８またはHDD２９から音声UI定義情
報が取得できるか否かを判定する。ステップＳ６におい
て、ドライブ２８またはHDD２９から音声UI定義情報が
取得できないと判定された場合、その処理は、ステップ
Ｓ７の処理に進む。

【００６８】ステップＳ７において、音声UI定義管理部
３２は、ユーザ問い合せによる音声UI定義情報生成を行
う設定になっているか否かを判定する。ステップＳ７に
おいて、ユーザ問い合せによる音声UI定義情報生成を行
う設定になっていないと判定された場合、その処理は、
ステップＳ８に進む。

【００６９】ステップＳ８において、音声UI定義管理部
３２は、ROM２６に問い合わせ、入手したTVの1394Node
IDに対応する必要最低限の音声UI定義情報を取得し、XM
Lパーサ２２ａに出力する。ステップＳ９において、XML
パーサ２２ａは、入力された音声UI定義情報を解析し、
その解析結果を音声認識辞書生成部２２ｂに出力する。
音声認識辞書生成部２２ｂは、入力された解析結果か
ら、音声認識辞書を生成し、1394Node IDと共に音声認
識部２３の音声認識制御部２４ａに出力する。音声認識
制御部２４ａは、入力された音声認識辞書を音声ＵＩ定
義情報記憶部４１に出力し、ステップＳ１の処理に戻り
それ以降の処理が繰り返される。

【００７０】ステップＳ４において、例えば、DVD６が
接続開始された場合、DVD６は、音声UI定義情報６ｅを
備えているので、音声UI定義管理部３２は、IEEE1394ネ
ットワークコントローラ２１から音声UI定義情報が取得
可能であると判定し、その処理は、ステップＳ１１に進
む。

【００７１】ステップＳ１１において、音声UI定義管理
部３２は、IEEE1394ネットワークコントローラ２１を介
してDVD６の音声UI定義情報６ｅを取得し、XMLパーサ２
２ａに出力し、その処理は、ステップＳ９に進む。

【００７２】ステップＳ５において、ネットワーク上の
ＷＷＷサーバ９から音声UI定義情報を取得できると判定
された場合、その処理は、ステップＳ１２に進む。

【００７３】ステップＳ１２において、音声UI定義管理
部３２は、ネットワークコントローラ２７を制御し、TC
P/IPネットワーク（インターネット）８を介して、WWW
サーバ９にアクセスし、そのHDD９ａに記録された音声U
I定義情報を取得し、XMLパーサ２２ａに出力し、その処
理は、ステップＳ９に進む。

【００７４】ステップＳ６において、ドライブ２８また
はHDD２９から音声UI定義情報が取得できると判定され
た場合、その処理は、ステップＳ１３に進む。

【００７５】ステップＳ１３において、音声UI定義管理
部３２は、ドライブ２８に装着されている磁気ディスク
１０１、光ディスク１０２、光磁気ディスク１０３、若
しくは、半導体メモリ１０４、または、HDD２９にアク
セスし、音声UI定義情報を取得し、XMLパーサ２２ａに
出力し、その処理は、ステップＳ９に進む。

【００７６】ステップＳ７において、ユーザ問い合せに
よる音声UI定義情報を生成させる設定になっている場
合、その処理は、ステップＳ１４に進む。

【００７７】ステップＳ１４において、音声UI定義管理
部３２は、ユーザ問い合せ型の音声UI定義情報生成部３
０に問い合わせて、音声UI定義情報を生成させる。この
とき、音声UI定義情報生成部３０は、無線通信部３１，
２ａを介して音声入力部２に問い合せ、音声UI定義情報
を生成する為のエディタを液晶表示部２ｃに表示させ
る。このとき、例えば、図２に示されていたような音声
UI定義情報を生成する場合、図５に示すように、液晶表
示部２ｃにはエディタが表示され、ユーザは、各状態と
遷移先の関係を音声コマンドとUIコマンドを記述するこ
とで音声UI定義情報を生成する。

【００７８】すなわち、図５に示すように、状態（Stat
e）を描き、各種State間を結ぶ矢印により状態遷移を示
す。その際、矢印の傍らに、各状態で受付可能な音声コ
マンドとUIコマンドを併記することで、音声UI定義情報
を生成する。この例に、おいては、この音声UI定義情報
のState０の場合、音声コマンドとして受付可能な音声
コマンドは、「電源オン」と「電源を入れて」の２つで
ある。これらの音声コマンドが対応するUIコマンドは、
いずれも「Power On」である。遷移先Stateに示される
ように、DVC７は、「Power On」の処理を実行すると、
その状態は、State０からState１に遷移する。

【００７９】また、State１の場合、受付可能な音声コ
マンドは、「電源オフ」、「電源を切って」、および
「再生」である。音声コマンドの「電源オフ」、「電源
を切って」に対応するUIコマンドは、「Power Off」で
あり、音声コマンドの「再生」に対応するUIコマンド
は、「Play」である。DVC７は、「Power Off」を実行す
ると、State１からState０に遷移し、「Play」を実行す
ると、State１からState２に遷移する。

【００８０】さらに、State２の場合、受付可能な音声
コマンドは、「停止」であり、対応するUIコマンドは、
「Stop」となり、これが実行されると、状態は、図中の
番号４で示すように、State２からState１に遷移する。

【００８１】その後、生成された音声UI定義情報は、無
線通信部２ａ，３１および音声定義ファイル生成部３０
を介して音声UI定義管理部３２に出力される。そこで、
音声UI定義管理部３２は、取得した音声UI定義情報をXM
Lパーサ２２ａに出力し、その処理は、ステップＳ９に
進む。

【００８２】次に、図６のフローチャートを参照して、
音声認識処理について説明する。ここで、音声認識装置
１上では、図４のフローチャートの処理により、既に、
IEEE1394ネットワーク３上に接続された各電子機器の音
声認識辞書が、音声ＵＩ定義情報記憶部４１に記憶され
ているものとする。

【００８３】音声入力部２のMIC２ｂからユーザによ
り、音声コマンドが入力されると処理が開始される。ス
テップＳ２１において、音声認識制御部２４ａは、無線
通信部３１より入力された音声コマンドを、音声ＵＩ定
義情報記憶部４１に記憶された音声認識辞書４１ａ乃至
ｄに基づいて認識処理を行い、所定のコマンドとみなさ
れる上位１０位までのUIコマンド候補をUIコマンド決定
部２４ｂに出力する。

【００８４】ステップＳ２２において、UIコマンド決定
部２４ｂは、対象電子機器とUIコマンドを決定できたが
否かを判定し、対象電子機器とUIコマンドを決定するこ
とができたと判定した場合、その処理は、ステップＳ２
３に進む。

【００８５】ステップＳ２３において、UIコマンド決定
部２４ｂは、所定の電子機器のUIコマンドをIEEE1394AV
/Cコマンド変換部２５に出力する。ステップＳ２４にお
いて、IEEE11394AV/Cコマンド変換部２５は、入力され
たUIコマンドを、AV/Cコマンドに変換し、IEEE1394ネッ
トワーク３を介して、所定の電子機器に出力する。

【００８６】ステップＳ２２において、対象電子機器と
UIコマンドが決定できなかったと判定された場合、ステ
ップＳ２５において、UIコマンド決定部２４ｂは、UIコ
マンドが決定できたか否かを判定し、UIコマンドが決定
できたと判定した場合、すなわち、対象電子機器が、複
数になってしまったような場合、その処理は、ステップ
Ｓ２６に進む。

【００８７】ステップＳ２６において、UIコマンド決定
部２４ｂは、候補となる電子機器を出力する。ステップ
Ｓ２７において、UIコマンド決定部２４ｂは、無線通信
部３１，２ａを介して、音声入力部２の液晶表示部２ｃ
に候補となる電子機器として、例えば、DVD６とDVC７が
候補となる電子機器としてあげられた場合、図７に示す
ように、音声入力部２の液晶表示部２ｃに表示される。
ユーザは、この表示に基づいて、選択ボタン２ｄを操作
して、「DVD」か「DVC」のいずれかを選択する。この選
択ボタンは、図７に示すようなボタンでもよいし、ま
た、タブレット式のボタンでもよい。さらに、液晶表示
部２ｃをタッチパネルとして、液晶表示部を触れること
で決定するようにしてもよい。そして、UIコマンド決定
部２４ｂは、候補の電子機器がいずれであるかについて
の選択結果を受信した後、ステップＳ２３以降の処理が
繰り返される。

【００８８】ステップＳ２５において、コマンドが決定
できなかったと判定された場合、すなわち、全く認識で
きなかった場合、ステップＳ２８において、音声認識制
御部２４ａは、再入力を求める表示を音声入力部２の液
晶表示部２ｃに表示させ、再び、ステップＳ１以降の処
理を繰り返す。

【００８９】ステップＳ２５において、UIコマンドが決
定したと判定された場合、UIコマンド決定部２４ｂは、
UIコマンド履歴を用いて、対象機器を最近使用した電子
機器とするようにしてもよい。

【００９０】以上においては、IEEE1394AV/Cコマンド変
換部２５は、AV/Cコマンドを生成し、出力するのみであ
るが、例えば、電子機器から動作完了を示すAV/Cレスポ
ンスを受信するようにし、さらに、音声認識制御部２４
ａに出力するようにしてもよい。

【００９１】また、以上においては、電子機器を接続す
るネットワークとして、IEEE1394を用いた例について説
明したが、ネットワークは、これ以外のものを使用して
もよく、その際、1394Node IDが使用できないことにな
るが、機器IDを、1394Node IDと同様に使用したり、あ
るいはそのネットワーク上のIDを1394NodeIDに代えて利
用すれば、ネットワーク上に、接続された電子機器を識
別することができる。

【００９２】さらに、以上においては、各種IDは、電子
機器に予め付されたものとして説明してきたが、例え
ば、音声UI定義管理部３２が、接続された電子機器に対
して、IDを付するようにしてもよい。また、機器ID、機
種ID、および、機器タイプIDのいずれも、保持していな
い電子機器を使用する場合、ユーザが音声UI定義情報を
生成した後、音声UI定義管理部３２が、IDを付するよう
にすることで、上記と同様の操作が可能となる。

【００９３】さらにまた、音声認識辞書を記憶する音声
ＵＩ定義情報記憶部４１が、必要に応じて、音声認識辞
書を削除する場合、キャッシュメモリをさらに設けて、
そこに、移動させることで、一度は削除された音声認識
辞書が必要となったときに、そのキャッシュメモリから
読み込むようにすれば、音声認識辞書の生成処理を省く
ことができ、その処理を高速化することができる。

【００９４】以上によれば、複数の電子機器を単一の音
声認識装置とユーザインタフェースにより制御できるよ
うにすることが可能となる。

【００９５】上述した一連の処理は、ハードウェアによ
り実行させることもできるが、ソフトウェアにより実行
させることもできる。一連の処理をソフトウェアにより
実行させる場合には、そのソフトウェアを構成するプロ
グラムが、専用のハードウェアに組み込まれているコン
ピュータ、または、各種のプログラムをインストールす
ることで、各種の機能を実行させることが可能な、例え
ば汎用のパーソナルコンピュータなどに記録媒体からイ
ンストールされる。

【００９６】この記録媒体は、図１に示すように音声認
識装置１に予め組み込まれた状態でユーザに提供され
る、プログラムが記録されているHDD２９だけではな
く、コンピュータとは別に、ユーザにプログラムを提供
するために配布される、プログラムが記録されている磁
気ディスク１０１（フロッピー（登録商標）ディスクを
含む）、光ディスク１０２（CD-ROM(Compact Disk-Read
Only Memory)，DVD（Digital Versatile Disk）を含
む）、光磁気ディスク１０３（MD（Mini-Disk）を含
む）、もしくは半導体メモリ１０４（Memory Stickを含
む）などよりなるパッケージメディアにより構成され
る。

【００９７】尚、本明細書において、記録媒体に記録さ
れるプログラムを記述するステップは、記載された順序
に沿って時系列的に行われる処理は、もちろん、必ずし
も時系列的に処理されなくとも、並列的あるいは個別に
実行される処理を含むものである。

【００９８】

【発明の効果】本発明の情報処理装置および方法、並び
に記録媒体によれば、ネットワークに接続された電子機
器を制御するユーザインタフェースコマンドと、ユーザ
により入力される音声コマンドとの対応関係が定義され
た音声ユーザインタフェース定義情報を取得し、取得し
た音声ユーザインタフェース定義情報を記憶し、ユーザ
により入力した電子機器を制御する音声コマンドが認識
し、認識した音声コマンドに対応するユーザインタフェ
ースコマンドを、記憶した音声ユーザインタフェース定
義情報から検索し、検索したユーザインタフェースコマ
ンドにより、電子機器を制御するようにしたので、単一
の音声認識装置と統一されたユーザインタフェースによ
り、複数の電子機器を統合して制御することが可能とな
る。

【図面の簡単な説明】

【図１】本発明を適用した音声認識装置のブロック図で
ある。

【図２】音声UI定義情報を説明する図である。

【図３】状態の遷移を説明する図である。

【図４】音声認識辞書を生成する処理を説明するフロー
チャートである。

【図５】音声UI定義情報を生成するときのエディタの表
示例である。

【図６】音声認識処理を説明するフローチャートであ
る。

【図７】UIコマンドの対象となる電子機器の候補を選択
するときの表示例である。

【符号の説明】

１音声認識装置，２音声入力部，２ａ無線通信
部，２ｂ MIC，２ｃ液晶表示部，２ｄ選択ボタン，
３ IEEE1394ネットワーク，４ TV，４ａ 1394Node I
D，４ｂ機器ID，４ｃ機種ID，４ｄ機器タイプI
D，５ STB，５ａ1394Node ID，５ｂ機器ID，５ｃ
機種ID，５ｄ機器タイプID，６ DVD，６ａ 1394Nod
e ID，６ｂ機器ID，６ｃ機種ID，６ｄ機器タイプ
ID，７ DVC，７ａ 1394Node ID，７ｂ機器ID，７ｃ
機種ID，７ｄ機器タイプID，８ TCP/IPネットワー
ク，９ WWWサーバ，９ａ HDD，２１ IEEE1394ネット
ワークコントローラ，２１ａ機器接続検出部，２１
ｂ，２２音声UI定義情報変換部，２２ａ XMLパー
サ，２２ｂ音声認識辞書生成部，２３音声認識部，
２４ＵＩ制御部, ２４ａ音声認識制御部，２４ｂ U
Iコマンド決定部，２４ｃＵＩコマンド履歴，２５ I
EEE1394AV/Cコマンド変換部，２６ ROM，２７ネットワ
ークコントローラ，２８ドライブ，２９ HDD，３０
音声UI定義情報生成部，３１無線通信部，４１音
声ＵＩ定義情報記憶部，４１ａ乃至４１ｄ音声認識辞
書，１０１磁気ディスク，１０２光ディスク，１０
３光磁気ディスク，１０４半導体メモリ

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 3/00 ５６１Ｈ

Claims

【特許請求の範囲】

【請求項１】ユーザにより入力された音声コマンドに
より、ネットワークを介して接続された電子機器を制御
する情報処理装置において、前記ネットワークに接続された電子機器を制御するユー
ザインタフェースコマンドと、前記ユーザにより入力さ
れる音声コマンドとの対応関係が定義された音声ユーザ
インタフェース定義情報を取得する音声ユーザインタフ
ェース定義情報取得手段と、前記音声ユーザインタフェース定義情報取得手段により
取得された前記音声ユーザインタフェース定義情報を記
憶する記憶手段と、前記ユーザにより入力された電子機器を制御する音声コ
マンドを認識する音声認識手段と、前記音声認識手段により認識された音声コマンドに対応
するユーザインタフェースコマンドを、前記記憶手段に
より記憶された音声ユーザインタフェース定義情報に基
づいて決定する決定手段と、前記決定手段により決定されたユーザインタフェースコ
マンドにより、前記電子機器を制御する制御手段とを備
えることを特徴とする情報処理装置。
【請求項２】前記音声ユーザインタフェース定義情報
は、前記電子機器のID情報に対応していることを特徴と
する請求項１に記載の情報処理装置。
【請求項３】前記音声ユーザインタフェース定義情報
は、前記電子機器の動作状態毎に対応可能な、音声コマ
ンド、ユーザインタフェースコマンド、および、前記ユ
ーザインタフェースコマンドに対応した動作をしたとき
の動作状態の遷移先の情報を含むことを特徴とする請求
項１に記載の情報処理装置。
【請求項４】前記決定手段は、前記電子機器の動作状
態を認識する動作状態認識手段をさらに備え、前記動作状態認識手段により認識した前記電子機器の動
作状態に基づいて、前記音声認識手段により認識された
音声コマンドに対応するユーザインタフェースコマンド
を、前記音声ユーザインタフェース定義情報に基づいて
決定することを特徴とする請求項３に記載の情報処理装
置。
【請求項５】前記音声ユーザインタフェース定義情報
取得手段は、インターネット上のサーバ、または、記録
媒体より前記音声ユーザインタフェース定義情報を取得
することを特徴とする請求項１に記載の情報処理装置。
【請求項６】前記電子機器のID情報を取得するID情報
取得手段をさらに備え、前記音声ユーザインタフェース情報取得手段は、前記ID
情報取得手段により取得された前記電子機器のID情報に
基づいて、対応する前記音声ユーザインタフェース定義
情報を取得することを特徴とする請求項１に記載の情報
処理装置。
【請求項７】前記ID情報は、ノードID、機器ID、機種
ID、または、機器タイプIDを含むことを特徴とする請求
項６に記載の情報処理装置。
【請求項８】前記音声ユーザインタフェース情報取得
手段は、前記ID情報取得手段により取得された前記電子
機器のID情報のうち、ノードID、機器ID、機種ID、機器
タイプIDの順位で、対応する前記音声ユーザインタフェ
ース定義情報を取得することを特徴とする請求項６に記
載の情報処理装置。
【請求項９】前記ネットワークに接続された電子機器
の接続状態を検出する接続状態検出手段をさらに備え、前記音声ユーザインタフェース情報取得手段は、前記接
続状態検出手段により検出された電子機器の接続状態に
基づいて、対応する前記音声ユーザインタフェース定義
情報を取得・削除することを特徴とする請求項１に記載
の情報処理装置。
【請求項１０】前記ネットワークに接続された電子機
器をユーザによって選択させる選択手段をさらに備え、前記決定手段は、前記選択手段で選択された機器に対応
する前記音声ユーザインタフェース定義情報にのみ基づ
いて決定を行う機能を有することを特徴とする請求項１
に記載の情報処理装置。
【請求項１１】前記決定手段により決定されたユーザ
インタフェースコマンドを履歴として記憶するユーザイ
ンタフェースコマンド履歴記憶手段をさらに備え、前記決定手段により決定されたユーザインタフェースコ
マンドにより制御すべき、前記ネットワークに接続され
た電子機器が特定できない場合、ユーザに電子機器を問
い合わせ、問い合わせ結果に基づく電子機器を制御する
か、または、ユーザインタフェースコマンド履歴記憶手
段により記憶された、最近制御された電子機器を制御す
ることを特徴とする請求項１に記載の情報処理装置。
【請求項１２】任意に音声ユーザインタフェース定義
情報を生成する音声ユーザインタフェース定義情報生成
手段をさらに備え、前記音声ユーザインタフェース定義情報取得手段は、音
声ユーザインタフェース定義情報生成手段より前記音声
ユーザインタフェース定義情報を取得することを特徴と
する請求項１に記載の情報処理装置。
【請求項１３】ユーザにより入力された音声コマンド
により、ネットワークを介して接続された電子機器を制
御する情報処理装置の情報処理方法において、前記ネットワークに接続された電子機器を制御するユー
ザインタフェースコマンドと、前記ユーザにより入力さ
れる音声コマンドとの対応関係が定義された音声ユーザ
インタフェース定義情報を取得する音声ユーザインタフ
ェース定義情報取得ステップと、前記音声ユーザインタフェース定義情報取得ステップの
処理で取得された前記音声ユーザインタフェース定義情
報を記憶する記憶ステップと、前記ユーザにより入力された電子機器を制御する音声コ
マンドを認識する音声認識ステップと、前記音声認識ステップの処理で認識された音声コマンド
に対応するユーザインタフェースコマンドを、前記記憶
ステップの処理で記憶された音声ユーザインタフェース
定義情報に基づいて決定する決定ステップと、前記決定ステップの処理で決定されたユーザインタフェ
ースコマンドにより、前記電子機器を制御する制御ステ
ップとを含むことを特徴とする情報処理方法。
【請求項１４】ユーザにより入力された音声コマンド
により、ネットワークを介して接続された電子機器を制
御する情報処理装置を制御するプログラムであって、前記ネットワークに接続された電子機器を制御するユー
ザインタフェースコマンドと、前記ユーザにより入力さ
れる音声コマンドとの対応関係が定義された音声ユーザ
インタフェース定義情報の取得を制御する音声ユーザイ
ンタフェース定義情報取得制御ステップと、前記音声ユーザインタフェース定義情報取得制御ステッ
プの処理で取得された前記音声ユーザインタフェース定
義情報の記憶を制御する記憶制御ステップと、前記ユーザにより入力された電子機器を制御する音声コ
マンドの認識を制御する音声認識制御ステップと、前記音声認識制御ステップの処理で認識された音声コマ
ンドに対応するユーザインタフェースコマンドの、前記
記憶ステップの処理で記憶された音声ユーザインタフェ
ース定義情報に基づいた決定を制御する決定制御ステッ
プと、前記決定制御ステップの処理で検索されたユーザインタ
フェースコマンドにより、前記電子機器を制御する制御
ステップとを含むことを特徴とするコンピュータが読み
取り可能なプログラムが記録されている記録媒体。