JP2006227634A

JP2006227634A - 音声認識を用いた機器制御方法および音声認識を用いた機器制御システムならびに音声認識を用いた機器制御プログラムを記録した記録媒体

Info

Publication number: JP2006227634A
Application number: JP2006090652A
Authority: JP
Inventors: Yasunaga Miyazawa; 康永宮沢; Hiroshi Hasegawa; 浩長谷川
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2006-03-29
Filing date: 2006-03-29
Publication date: 2006-08-31

Abstract

【課題】音声認識機能を有する機器が限られた空間内に複数存在する場合、その
どれかに音声コマンドを与えると、他の機器も認識動作を行って誤動作を行うこ
とが多い。
【解決手段】１つの部屋１内に存在する音声認識機能を有した複数の機器（エア
コン２、ＴＶ３、音響機器４など）をネットワーク１０に接続し、それぞれの機
器が個々に有する情報を当該ネットワーク１０を介して相互に交換し合い、ユー
ザの発話する音声コマンドに対し、自己機器の有する情報に加えてネットワーク
１０を介して送られてくる他の機器の情報を参照することで、それぞれの機器の
配置関係や、それぞれの機器が収集した雑音情報などを参照して音声認識を行う
ようにする。
【選択図】図１

Description

本発明は、音声認識機能を持つ家庭電化製品などの機器が限られた空間内に複
数存在し、それらの機器が音声コマンドを認識して動作制御を行う音声認識を用
いた機器制御方法および音声認識を用いた機器制御システムならびに音声認識を
用いた機器制御プログラムを記録した記録媒体に関する。

近年、半導体製品の高性能化や低価格化により、広い分野にマイクロコンピュ
ータ（マイコンという）が使用されている。特に、家庭電化製品（家電製品とい
う）には多くの製品にマイコンが使用され、ますます多機能・高性能化が進んで
いる。

このように家電製品などにもマイコンが気軽に搭載できることから、この種の
機器にも、従来ではあまり考えられなかった多様な機能を持たせることが容易に
なってきている。たとえば、音声認識機能や音声合成機能などがその一例であっ
て、これら音声認識機能や音声合成機能を持たせることで、音声対話型のユーザ
インタフェース機能を持った機器が種々考えられてきている。これは、家電製品
以外においても同様のことが言える。

このような音声対話型のユーザインタフェース機能を持った機器が、ある限ら
れた空間内に複数存在している状況を考える。図５は１つの限られた空間として
のある１つの部屋１内に、音声対話型のユーザインタフェース機能を持った機器
として、エアコンディショナ（エアコンという）２とテレビジョン（ＴＶという
）３とステレオなどの音響機器４が存在している様子を示すものである。

このように、１つの部屋１に、複数の音声対話型のユーザインタフェース機能
を持った機器が存在する場合、ユーザがたとえばエアコン２に対して何らかの動
作を行わせるための音声コマンドを与えると、エアコン２がその音声コマンドを
認識し、その認識結果に応じた動作をなすが、このとき、他の機器もその音声コ
マンドに対して音声認識動作を行い、誤動作を行うことがある。

仮りに、ユーザの発した音声コマンドが、エアコンだけが認識可能な内容であ
って、ＴＶ３や音響機器４にとっては認識可能な内容ではなくても、ＴＶ３や音
響機器４もその音声コマンドを認識しようとして音声認識動作を開始する場合が
あり、これによって、誤った認識を行って誤動作を行うことがある。特に、ユー
ザの与えた音声コマンドに対して、機器側から音声によって何らかの応答を行う
音声対話機能を有する機器は、ユーザの与えた音声コマンドに対して全く関係の
ない応答がなされるなど色々な不具合が生じがちである。

そこで本発明は、音声認識機能を持つ家電製品などの機器が限られた空間内に
複数存在する場合、それぞれの機器がその機器としての独立した動作を行いなが
らも、ユーザからの音声コマンドに対しては相互に情報交換を行いながら音声認
識が行えるようにすることで、誤認識やそれによる誤動作を回避でき、さらに、
雑音除去などを機能的に行えるようにして適切な機器制御を可能とすることを目
的としている。

上述の目的を達成するために、本発明の音声認識を用いた機器制御方法は、
限られた空間内に音声認識機能を有する複数の機器が存在し、これらの機器のい
ずれかに対し音声コマンドを与えることで、その音声コマンドの与えられた機器
がその音声コマンドを認識してその認識結果に応じて所定の動作制御をなす音声
認識を用いた機器制御方法において、前記複数の機器をネットワークに接続し、
それぞれの機器が個々に有する情報を当該ネットワークを介して相互に交換し合
い、前記ユーザの発話する音声コマンドに対し、自己機器の有する情報に加えて
前記ネットワークを介して送られてくる他の機器の情報を参照して音声認識を行
って、その認識結果に応じた機器の動作制御を行うようにしている。

また、本発明の音声認識を用いた機器制御システムは、限られた空間内に音声
認識機能を有する複数の機器が存在し、これらの機器のいずれかに対し音声コマ
ンドを与えることで、その音声コマンドの与えられた機器がその音声コマンドを
認識してその認識結果に応じて所定の動作制御をなす音声認識を用いた機器制御
システムにおいて、前記複数の機器は、それぞれの機器が相互に情報交換可能と
なるようにネットワークに接続され、そのネットワークに接続された前記複数の
機器それぞれが、その機器がもともと有する機器動作部とこの機器動作部の動作
状態の設定を行うユーザ操作部を有するとともに、少なくとも、音声コマンドを
受け付けてその音声コマンドを認識し、その認識結果に基づいて前記機器動作部
を制御する音声認識を用いた機器動作制御部と、ネットワークに自己の機器を接
続するためのネットワーク接続部とを有してなり、前記複数の機器それぞれが個
々に有する情報を当該ネットワークを介して相互に交換し合い、前記ユーザの発
話する音声コマンドに対し、自己の有する情報に加えて前記ネットワークを介し
て送られてくる他の機器の情報を参照して音声認識を行って、その認識結果に応
じた機器の動作制御を行うようにしている。

これら各発明において、前記相互に交換し合う情報は、少なくとも、それぞれ
の機器を識別するための機器識別情報、それぞれの機器が収集した雑音情報を含
むものである。

そして、前記認識結果に応じた機器の動作制御を行うまでの処理手順は、前記
それぞれの機器を識別するための機器識別情報を前記ネットワークを介して取得
して、当該ネットワーク上に存在する情報交換すべき機器を認知するとともに、
それぞれ機器の位置関係の測定を行い、その後、音声コマンドが入力されると、
上記それぞれの機器の位置関係に基づき、ユーザの発話する音声コマンドが自己
機器に対して発せられたか否かを判定し、当該音声コマンドが自己機器に対して
発せられたものであると判定された場合には、その音声コマンドに対する認識処
理を行ってその認識結果に基づく機器の動作制御を行う。

そして、前記音声認識を行う際、前記それぞれの機器が収集した雑音情報を相
互に交換し合い、その雑音情報を用いて、音声コマンドに重畳する雑音の除去を
行って音声認識を行うようにしている。

このとき、前記音声コマンドに重畳する雑音は、機器の定常的な運転音や環境
上に定常的に存在する定常音と、ネットワークに接続されている機器が動作する
ことによって発する音声や音楽などの音であり、前記定常音については、それぞ
れの機器が定常的雑音情報として取得するとともに、取得した定常的雑音情報を
ネットワークを通じて他の機器との間で相互に交換しあってそれぞれの機器で保
存し、音声認識を行う際は、その定常的雑音情報を音声コマンドから除去して音
声認識を行う。

また、前記音声や音楽などの音については、それを発する機器がリアルタイム
でその音を雑音情報として取得するとともに、ネットワークに接続されている他
の機器もその雑音情報をネットワークを通じてリアルタイムで取得し、音声認識
を行う際は、その雑音情報を音声コマンドから除去して音声認識を行うようにす
る。

また、前記それぞれの機器が行う音声コマンドに対する音声認識は、それぞれ
の機器同志が相互に情報交換し合うことによって、ある機器における認識可能単
語を他の機器も認識可能としている。

また、本発明の音声認識を用いた機器制御プログラムを記録した記録媒体は
、限られた空間内に存在する音声認識機能を有した複数の機器をネットワークに
接続し、それぞれの機器が個々に有する情報として、少なくとも、それぞれの機
器を識別するための機器識別情報、それぞれの機器が収集した雑音情報を当該ネ
ットワークを介して相互に交換することを可能とし、ユーザの発話する音声コマ
ンドに対し、自己機器の有する情報に加えて前記ネットワークを介して送られて
くる他の機器の情報を参照して音声認識を行って、その認識結果に応じた機器の
動作制御を行う音声認識を用いた機器制御プログラムを記録した記録媒体であっ
て、その機器制御プログラムは、それぞれの機器を識別するための機器識別情報
を前記ネットワークを介して取得して、当該ネットワーク上に存在する情報交換
すべき機器を認知するとともに、それぞれ機器の位置関係の測定を行う手順と、
この位置関係の測定後、ユーザからの音声コマンドを待つ状態とし、音声コマン
ドが入力されると、上記それぞれの機器の位置関係に基づき、ユーザの発話する
音声コマンドが自己機器に対して発せられたか否かを判定する手順と、当該音声
コマンドが自己機器に対して発せられたものであると判定された場合には、その
音声コマンドに対する認識処理を行って、その認識結果に応じた機器の動作制御
を行う手順とを含むものである。

この音声認識を用いた機器制御プログラムを記録した記録媒体の発明において
、前記音声認識を行う際、前記それぞれの機器が収集した雑音情報を相互に交換
し合い、その雑音情報を用いて、音声コマンドに重畳する雑音の除去を行って音
声認識を行うようにしている。

このように本発明は、音声認識機能を有する複数の機器をネットワークに接続
し、それぞれの機器が個々に有する情報を当該ネットワークを介して相互に情報
交換し合いながら、音声認識を行って、その認識結果に応じた機器の動作制御を
行うようにしているので、従来のように、ユーザがある機器に対して発話した音
声コマンドに対し、他の機器もその音声コマンドを認識する動作を行って、誤動
作するといった不具合を未然に防止することができ、ユーザの意図した機器の動
作制御を的確に行うことができる。

なお、上述したそれぞれの機器が個々に有する情報というのは、少なくとも、
それぞれの機器を識別するための機器識別情報、それぞれの機器が収集した雑音
情報であり、この機器識別情報によって、ネットワーク上にどのような機器が存
在するかを知ることができ、ネットワーク上に存在する情報交換すべき機器の存
在を知った上で、機器間で音の送受信を行うなどして音の到達時間などから、そ
れぞれの機器間の距離を求め、それに基づいて、それぞれの機器の位置関係を推
定することもできる。

また、ある機器が収集した雑音情報を他の機器も共有することによって、音声
コマンドを認識する際、音声コマンドに重畳した雑音情報を除去した上で音声認
識処理することができるので、高い認識率を得ることができる。

また、本発明の処理手順は、それぞれの機器を識別するための機器識別情報を
前記ネットワークを介して取得することによって、ネットワーク上にどのような
機器が存在するかを認知するとともに、それぞれの機器の位置関係の測定を行う
ことによって機器の配置を推定し、その後、入力された音声コマンドに対し、機
器相互間で情報交換を行いながら音声認識処理を行うようにしている。これによ
って、ユーザの音声コマンドがどの機器に対して発せられたかを的確に判定する
ことができ、当該音声コマンドが自己の機器に対するものであると判定された場
合は、その音声コマンドに対する認識処理を行ってその認識結果に基づく機器の
動作制御を行うようにしているので、ユーザの意図しない機器が誤動作するのを
防止できる。

また、ある機器が収集した雑音情報を相互に交換し合い、その雑音情報を用い
て、音声コマンドに重畳する雑音の除去を行って音声認識を行うようにしている
。

このように、ネットワークに接続されたすべての機器が雑音情報を共有できる
ので、どの機器に音声コマンドが与えられても、その音声コマンドに重畳された
雑音を適切に除去した上で音声認識することができ、高い認識率を得ることがで
きる。

なお、前記音声コマンドに重畳する雑音が環境上に定常的に存在する定常音（
エアコンの運転音など）である場合には、予めその定常音を定常的雑音情報とし
てそれぞれの機器で保存しておくことができる。

したがって、音声コマンドを認識する際、音声コマンドにその定常的雑音情報
が重畳されていても、保存されている定常的雑音情報を読み出すことによって、
音声コマンドからその定常的雑音情報を除去して音声認識を行うことができる。
このように、定常的雑音情報が重畳された音声コマンドに対し、適切な雑音除去
が行えるので、高い認識率を得ることができる。

また、前記音声コマンドに重畳する雑音がＴＶや音響機器の発する音声や音楽
などである場合には、それを発する機器がリアルタイムでその音情報を雑音情報
として取得するとともに、ネットワークに接続されている他の機器もその雑音情
報をネットワークを通じてリアルタイムで取得できるようにしている。

これによって、音声コマンドを認識する際は、その雑音情報を音声コマンドか
ら除去して音声認識を行うようにする。このように、ＴＶや音響機器などの音
が雑音として重畳された音声コマンドに対し、適切な雑音除去が行えるので、高
い認識率を得ることができる。

さらに、情報を共有することによって、ある機器における認識可能単語を他の
機器も認識可能とすることもでき、これによって、誤認識による誤動作を防止で
きる効果がある。すなわち、個々の機器が独自に認識する従来のシステムでは、
それぞれの機器は、自分の認識可能な単語のみしか認識できないことはいうまで
もない。これに対して、本発明のように、それぞれの機器がネットワークにつな
がれてそれぞれの情報を共有できるようにすれば、それぞれの機器が認識可能な
単語をすべての機器が認識可能単語とすることができる。これによって、きめ細
かい高精度な認識処理がなされるので、紛らわしい単語などを的確に認識処理す
ることができるので、誤認識による誤動作を防止できるようになる。

以上説明したように本発明によれば、音声認識機能を有した複数の機器をネッ
トワークに接続し、それぞれの機器が個々に有する情報を当該ネットワークを介
して相互に情報交換し合いながら、音声認識を行って、その認識結果に応じた機
器の動作制御を行うようにしているので、ユーザの音声コマンドがどの機器に対
して発せられたかを的確に判定することができ、ユーザの意図しない機器が誤動
作するのを防止できる。

また、それぞれの機器同志で情報交換が可能となることによって、ある機器が
収集した雑音情報を、ネットワークに接続されたすべての機器が共有できるので
、どの機器に音声コマンドが与えられても、その音声コマンドに重畳された雑音
を適切に除去した上で音声認識することができ、高い認識率を得ることができる
。

さらに、情報を共有することによって、ある機器における認識可能単語を他の
機器も認識可能とすることもでき、これによって、誤認識による誤動作を防止で
きる効果がある。すなわち、個々の機器が独自に認識する従来のシステムでは、
それぞれの機器は、自分の認識可能な単語のみしか認識できないことはいうまで
もない。これに対して、本発明のように、それぞれの機器がネットワークにつな
がれてそれぞれの情報を共有できるようにすれば、それぞれの機器が認識可能な
単語をすべての機器が認識可能単語とすることができる。

これによって、きめ細かい高精度な認識処理がなされるので、紛らわしい単語
などを的確に認識処理することができるので、誤認識による誤動作を防止できる
ようになる。

以下、本発明の実施の形態について説明する。なお、この実施の形態で説明す
る内容は、本発明の音声認識を用いた機器制御方法および音声認識を用いた機器
制御システムについての説明であるとともに、本発明の音声認識を用いた機器制
御プログラムを記録した記録媒体における機器制御プログラムの具体的な処理内
容をも含むものである。

この実施の形態では、図５で説明したように、１つの居住空間１内に、音声対
話型のユーザインタフェース機能を持った機器として、エアコン２とＴＶ３とス
テレオなどの音響機器４が存在している状況を考えるが、本発明では、図１に示
すように、これら各機器がネットワーク１０に接続されていて、それぞれの機器
は独立した動作が可能でありながら、それぞれの機器同志が相互に情報交換を行
いながら音声認識を行うことができるようになっている。

なお、このネットワーク１０は、この図１では便宜上、有線通信路によるネッ
トワークとしているが、近距離無線（Blue Toothなど）などによる無線通信によ
るネットワークでもよい。また、有線通信路によるネットワークは建物内の電気
配線を用いるなどの方法もあり、ネットワークを構築する手段は本発明では限定
されるものではない。また、この実施の形態では、音声対話型のインターフェー
ス機能を有した機器を考えているが、本発明は、音声コマンドを認識してその認
識結果に応じた動作をなす機器であればよく、ユーザに対して音声による応答を
行う機能は必ずしも必要ではない。

図２および図３は図１で示した音声対話型のユーザインタフェース機能を持っ
た機器の構成をそれぞれ示すブロック図であるが、ここでは、エアコン２（図２
参照）とＴＶ３（図３参照）について説明する。なお、これらの機器は、音声対
話型のユーザインタフェース機能を持った機器であるので、音声認識機能や音声
合成機能を有し、また、それらの機能に伴って、音声入力部や音声出力部を有す
る。以下、詳細に説明する。

図２はエアコン２の構成を示すもので、従来から普通に用いられている通常の
エアコンとしての動作をなす機器動作部２１やエアコンの運転の開始／停止やタ
イマ設定など通常のエアコンでなされる様々な設定がユーザによって可能なユー
ザ操作部２２の他に、音声対話型のユーザインタフェース機能を実現する音声認
識を用いた機器制御部２３、エアコン２をネットワーク１０に接続するためのネ
ットワーク接続部２４が設けられる。

また、図３はＴＶ３の構成を示すもので、図２に示したエアコン２と基本的に
は殆ど同じ構成であり、従来から普通に用いられている通常のＴＶとしての動作
をなす機器動作部３１やＴＶの動作の開始／停止やチャンネル設定など通常のＴ
Ｖでなされる様々な設定がユーザによって可能なユーザ操作部３２の他に、図２
のエアコン２と同様に、音声対話型のユーザインタフェース機能を実現する音声
認識を用いた機器制御部３３、ＴＶ３をネットワーク１０に接続するためのネッ
トワーク接続部３４が設けられる。

これらエアコン２あるいはＴＶ３における音声認識を用いた機器制御部２３，
３３は、それぞれ同じ構成となっているので、ここでは、同一部分には同一符号
を付して説明する。この実施の形態では、音声対話型のユーザインタフェース機
能を有しているので、音声コマンド入力用のマイクロホン４１、このマイクロホ
ン４１に入力された音声の増幅などを行う増幅器４２、音声をディジタル変換す
るＡ／Ｄ変換部４３、ユーザに対する応答用の音声データをアナログ変換するＤ
／Ａ変換部４４、それを増幅する増幅器４５、それを出力するスピーカ４６が設
けられるとともに、入力された音声コマンドを認識してそれに対する応答用の音
声データを生成したり、認識結果に対応した機器制御信号を生成したり、さらに
は、自己機器が有する自己機器情報（たとえば、自己機器に割り当てられた機器
識別情報や自己機器が収集した雑音情報など）をネットワーク接続部２４（ＴＶ
３の場合はネットワーク接続部３４）を介してネットワーク１０上に送出したり
、ネットワーク１０上に存在する他の機器からの情報（たとえば、それぞれの機
器に割り当てられた機器識別情報やそれぞれの機器が収集した雑音情報など）を
ネットワーク接続部２４（ＴＶ３の場合はネットワーク接続部３４）を介して受
け取ってそれを処理する情報処理部４７と、この情報処理部４７が実行する動作
処理プログラムなどが保存されたＲＯＭや上述の自己機器情報や他の機器からの
情報など、情報処理部４７が行う処理に必要な様々な情報を保存するＲＡＭから
なる情報記録部４８とを有している。

なお、情報処理部４７は、ユーザ操作部２２（ＴＶ３の場合はユーザ操作部３
２）にも接続されていて、このユーザ操作部２２（ＴＶ３の場合はユーザ操作部
３２）によって、出力音声の音量などの制御や機器動作部２１（ＴＶ３の場合は
機器動作部３１）に対する制御内容など様々な項目をユーザが設定できるように
なっている。

また、ＴＶ３の場合は、もともと、音声を発する機能を有しているので、ＴＶ
としての音声出力用の増幅器やスピーカと、ユーザ応答用の増幅器やスピーカな
どは共用することができる。したがって、図３では、ＴＶ３としての機器動作部
３１からの音声出力とユーザに対する応答出力は、ともに増幅器４５で増幅され
たのちに、スピーカ４６から出力されるようになっている。

また、エアコン２はその運転中に運転音が定常的な雑音として常に発生するの
が普通であるが、その運転音が音声コマンドに重畳されて、認識性能に悪影響を
与えることがある。

これに対処するために、その運転音をそれぞれの機器が自己のマイクロホン４
１で収集して、情報処理部４７で解析を行って雑音情報として出力し、その雑音
情報を情報記憶部４８に保存するとともに、ネットワーク１０にも送出してそれ
ぞれの機器がその雑音情報を共有し合うことができるようにしている。そして、
音声コマンドを認識する際、その雑音情報を用いて音声コマンドに重畳された運
転音を雑音として除去した上で音声認識する。

なお、このような定常的な雑音は、ネットワーク１０に接続されている機器が
発する雑音だけではなく、ネットワーク１０に接続されていない機器が発する場
合もあり、また、環境上に定常的に存在する雑音の場合もある。これらの定常的
な雑音も、ネットワーク１０に接続されているそれぞれの機器が、自己のマイク
ロホン４１で収集して、情報処理部４７で解析を行って雑音情報として出力し、
その雑音情報を情報記憶部４８に保存するとともに、ネットワーク１０にも送出
してそれぞれの機器がその雑音情報を共有し合うようにする。

一方、ＴＶ３の場合は、そのＴＶ３の音声（増幅器４５の出力側音声）をＡ／
Ｄ変換器４３を介して情報処理部４７にリアルタイムで入力させ、情報処理部４
７で解析して雑音情報として出力し、、その雑音情報を用いて、音声コマンドを
音声認識する際、音声コマンドに重畳されたＴＶの音声を雑音として除去しなが
ら音声認識する。さらに、情報処理部４７で解析されて得られた雑音情報は、ネ
ットワーク１０を介して他の機器にもリアルタイムで与えることができ、それに
よって、他の機器においても、ユーザからのコマンドに対し音声認識を行う際、
音声コマンドに重畳されたＴＶの音声を雑音として除去しながら音声認識する
。

また、図１においては、これらエアコン２やＴＶ３の他に音響機器４が存在す
るが、この音響機器４もこの図２や図３と同様に考えることができ。なお、音響
機器４はＴＶ３と同様に、もともと、音を出力する機能を有しているので、図３
で示したＴＶ３と同様に、音響機器４としての音声出力用の増幅器やスピーカ
と、ユーザ応答用の増幅器やスピーカなどは共用することができる。

さらに、ＴＶ３と同様、その音響機器４から発せられる音を増幅器４５の出力
側から取り出して情報処理部４７にリアルタイムで入力させ、情報処理部４７で
解析して雑音情報を得て、その雑音情報を用いて、音声コマンドを音声認識する
際、音声コマンドに重畳されたＴＶの音声を雑音として除去するようにしている
。そして、この雑音情報はネットワーク１０を介して他の機器にもリアルタイム
で与えることができる。

このように本発明では、ある限られた空間として１つの部屋１内に、音声対話
型のユーザインタフェース機能を持った機器が複数存在している状況を考えてい
る。そして、それぞれの機器（ここではエアコン２、ＴＶ３、音響機器４）は、
それぞれの機器としての動作は独立して並列に行いながら、自己の情報処理部４
７から自己機器情報をネットワーク１０に送出するとともに、ネットワーク１０
上に存在する他の機器からの情報（他機器情報）を受け取って、それぞれが相互
に情報を交換しながら音声認識を用いた機器制御を行うようにしている。以下、
その動作について図４のフローチャートを参照しながら説明する。

この図４のフローチャートは、個々の機器における情報処理部４７が行う処理
を示すものであり、個々の機器の動作が開始された状態（たとえば、電源スイッ
チなどがオンして、その機器の動作が開始した状態）で、この図４に示す処理が
それぞれの機器において並列的になされる。

その処理手順としては、個々の機器がネットワーク１０に接続されると（ステ
ップｓ１）、それによって、それぞれの機器が相互に自己機器情報の交換を行う
（ステップｓ２）。これによって、自己機器からみてどの機器がネットワーク１
０に接続されているかを知ることができる。これは、機器がネットワーク１０に
接続されると、個々の機器の機器識別情報（機器ＩＤという）がネットワーク１
０上に送出され、その機器ＩＤを他の機器が取得することによって、現在、どの
機器がネットワーク１０に接続されているかを知ることができる。

そして、個々の機器ごとに個々の機器の位置関係の測定を行うか否かを判断す
る（ステップｓ３）。これは、自己機器からみて、現在、ネットワーク１０に接
続されている複数の機器がどのような位置関係にあるか否かを調べるもので、そ
の位置関係の測定は、ある機器が出す音を他の機器のマイクロホンが取得（たと
えば、ＴＶ３のスピーカ４６から出される音をエアコン２のマイクロホン４１が
取得）し、その音の到達時間の遅れなどによって２つの機器間の距離を測定し、
その距離によって位置関係を調べる。たとえば、この実施の形態のように、３つ
の機器（エアコン２、ＴＶ３、音響機器４）について考えている場合には、３つ
の機器の間の距離がわかればそれによって、図１に示す部屋１内における３つの
機器の位置関係を推定することができる。

なお、この位置関係の測定は、位置関係測定モードとなっている場合にのみ行
われる。その位置関係測定モードとなる条件としては、たとえば、自己機器が新
たにネットワーク１０に加わった場合、他の機器が新たにネットワーク１０に加
わった場合、前回の位置関係測定から所定の時間が経過している場合などである
。

上述の位置関係測定モードとなる条件として、自己機器が新たにネットワーク
１０に加わった場合、あるいは、他の機器が新たにネットワーク１０に加わった
場合の例としては、たとえば、エアコン２とＴＶ３がすでに動作中で、これら２
つの機器がすでにネットワーク１０に接続されている状態にあって、そこに新た
に、音響機器４の電源スイッチがオンとなってネットワーク１０に接続された場
合などがある。

この場合、音響機器４から見れば、自己機器が新たにネットワーク１０に加わ
ったので、音響機器４においては、位置関係測定モードとなる。一方、すでにネ
ットワーク１０に接続状態となっているエアコン２やＴＶ３にとっては、音響機
器４が新たにネットワーク１０に接続されたので、それを検知すると、その時点
で位置測定モードとなる。

このように、位置測定モードとなった場合には、前述したような手法によって
位置測定を行い（ステップｓ４）、それぞれの機器の位置関係を取得し、自己の
機器から見て他の機器がどのような位置関係となっているかを推定する。

そして次に、雑音解析を行うか否かを調べ（ステップｓ５）、雑音解析を行う
必要がある場合には、雑音解析を行う（ステップｓ６）。ここでの雑音というの
は、前述したように、エアコン２の運転音やその他の機器の運転音など、さらに
は、環境下に存在する定常的な雑音である。これらの定常的な雑音は、ネットワ
ーク１０に接続されているそれぞれの機器がそれぞれ自分のマイクロホンで入力
し、それぞれの機器において雑音解析する。そして、その解析結果を、定常的な
雑音情報として自己の情報記憶部４８に保存しておくとともに、ネットワーク１
０を介して他の機器にも送り、それぞれの機器がその定常的な雑音情報を共有す
る。

なお、定常的な雑音が存在しない場合には、ステップｓ６の処理は不要であり
、また、定常的な雑音があっても、一度、その定常的な雑音情報が得られれば、
それ以降は特には雑音解析処理は行う必要はないが、その定常的な雑音に大きな
変化があったときには、再度、雑音解析処理を行ったほうが望ましい。この定常
的な雑音に大きな変化があったときの例として、たとえば、定常的な雑音の発生
源がエアコンであった場合、ユーザによって運転内容の設定変更がなされた場合
など（たとえば、送風を「弱」から「強」に変更した場合など）がある。

このようにして、位置関係の測定が終了し、さらに、定常的な雑音などに対す
る雑音解析がなされたあと、それぞれの機器は、ユーザからの音声コマンドの入
力待ち状態となる（ステップｓ７）。ここで、音声コマンドが発せられ、それが
それぞれの機器のマイクロホンに入力されると、それぞれの機器は、音声認識処
理モードに入る（ステップｓ８）。この音声認識処理モードは、それぞれの機器
がネットワーク１０を介して相互に情報交換を行い、ユーザがどの機器に対して
音声コマンドを与えたかを判定して、その音声コマンドの与えられた機器が音声
コマンドに対する音声認識を行う。

その処理としては、それぞれの機器の位置関係に基づき、ユーザがどの機器に
対して音声コマンドを発話したのかを特定する。たとえば、ユーザの音声コマン
ドがエアコン２に対してなされたものであることがわかったとすれば、エアコン
２がユーザの音声コマンドの認識結果に対する動作を行う。そして、この音声コ
マンドに対する認識処理を行う際、音声コマンドに重畳されている雑音を除去し
た上で音声認識処理を行う。

ここでの雑音情報とは、上述したエアコン２などが発する定常的な運転音を解
析して得られた雑音情報や、ＴＶ３や音響機器４などが発する音声あるいは音楽
などの音を解析して得られた雑音情報である。そして、これら音源既知の雑音情
報は、その雑音の発生源となる機器が収集し、それを解析して雑音情報としてネ
ットワーク１０にも送出する。それによって、ネットワーク１０に接続されてい
る他の機器もそれらの雑音情報を取得することができ、ネットワーク１０に接続
されたすべての機器がその雑音情報を共有する。

これによって、音声コマンドを認識する際、音声コマンドに重畳されたそれら
の雑音を除去した上で、音声コマンドを認識することができる。

なお、エアコン２などが発する定常的な運転音は、前述したように、収集した
雑音を予め解析して、それをそれぞれの機器の情報記憶部４８などに保存してお
くことができる。したがって、音声認識する際、情報記憶部４８からその雑音情
報を読み出して、音声コマンドに重畳されているエアコン２の運転音を除去して
音声認識するということができる。

一方、音声コマンドに重畳されたＴＶ３や音響機器４が発する音は、リアル
タイムで雑音情報を解析しながら雑音を除去して音声認識する必要がある。した
がって、これらＴＶ３や音響機器４からの音情報は、それをアルタイムで取得し
て、取得した音を他の機器にもリアルタイムで送る必要がある。なお、この場合
、実際の音声認識処理は、ユーザからの音声コマンドやＴＶ３や音響機器４から
の音情報をバッファリングして両者の同期をとりながら多少の時間遅れを持った
状態で行うことができる。

以上のように、ユーザによって音声コマンドが与えられると、機器の位置関係
に基づき、ユーザがどの機器に対して音声コマンドを発話したのかを特定する。
たとえば、ユーザの発話した音声を各機器が入力したときの時刻のタイミングや
入力音声のパワーなどを用いて、さらに、各機器の位置関係から、ユーザがどの
機器に向かって発話したかを解析することが可能となる。

そして、ユーザからの音声コマンドが与えられた機器（ここでは、エアコン２
としている）が、ユーザの音声コマンドを雑音除去しながら音声認識処理して、
その認識結果に対する動作を行う。なお、この音声認識処理を行っているときに
も常に他の機器との間で情報交換が行われている。

上述の音声認識結果に対する動作手順は、まず、音声による応答を行うか否か
の判定を行（ステップｓ９）。つまり、そのエアコン２が音声対話型であって音
声による応答を行う必要のある場合には、ユーザの音声コマンドに対し音声によ
る応答を行い（ステップｓ１０）、次に、その認識結果に応じた機器の制御を行
うか否かを判定し（ステップｓ１１）、機器の制御を行うのであれば、その認識
結果に応じた機器の制御を行う（ステップｓ１２）。

たとえば、ユーザの音声コマンドが「スイッチオフ」であったとすれば、それ
を音声認識し、その認識結果に基づいて、たとえば、機器側からユーザに対して
「スイッチオフですね」といった応答を行ったのちに、スイッチをオフすること
によって機器（この場合、エアコン２）の運転を停止するといった制御がなされ
る。

一方、ステップｓ９における判定が、音声による応答は行わないとの判定であ
れば、直接、その認識結果に基づいた機器の制御を行うか否かを判定し（ステッ
プｓ１１）、機器の制御を行うのであれば、そのまま、認識結果に基づいた機器
の制御を行う（ステップｓ１２）。たとえば、ユーザの音声コマンドが「スイッ
チオフ」であったとすれば、それを音声認識し、その認識結果に基づいて、スイ
ッチをオフして機器（この場合、エアコン２）の運転を停止するといった制御が
なされる。

また、ステップｓ９における判定が、音声による応答は行わないとの判定であ
り、かつ、ステップｓ１１の判定が、機器の制御を行うのではない場合には、再
び、ステップｓ２に処理が戻り、ステップｓ２〜ｓ６を経て、ステップｓ７にお
ける次の音声コマンド入力を待つ処理に入る。なお、このとき、位置関係の測定
や定常雑音の計測などを行う必要がなければ、ステップｓ２〜ｓ６を省略して、
直接、ステップｓ７に処理が飛んでもよい。

以上説明したように、この実施の形態では、ある限られた空間としての１つの
部屋１内に、音声対話型のユーザインタフェースを持った機器として、エアコン
２とＴＶ３と音響機器４が存在し、それらがネットワーク１０に接続され、それ
ぞれの機器は機器としての動作を独立して並列に行いながらも、相互に情報交換
を行うことができるようにしている。

これによって、それぞれの機器は、現在、ネットワーク１０上にどのような機
器が存在するかを認知することができるとともに、それぞれの機器がどのような
位置関係にあるかを推定することができ、それに基づいて、ユーザがどの機器に
対して音声コマンドを発しているかを判定することができる。さらに、他の機器
から出されている雑音情報をそれぞれの機器が共有することもできる。

このように、それぞれの機器がネットワーク１０に接続され、相互に情報交換
することによって、ユーザがどの機器に対して音声コマンドを発しているかを個
々の機器において判定することができることから、ユーザの意図しない機器が誤
動作するのを未然に防止することができる。

また、ある機器から発せられる音声や音楽、あるいは、前述した定常的な雑音
情報を機器が収集すると、その収集した雑音は、ネットワーク１０を通じて他の
機器にも与えることができるので、音声認識する際、それらの雑音が音声コマン
ドに重畳されていても、その雑音を除去した上で音声認識処理することが可能と
なり、機器が動作している環境下での音声認識率を向上させることができる。

また、情報を共有できるということは、それぞれの機器が独自に認識可能な単
語を他の機器も認識できるようにすることも可能であり、誤認識による誤動作を
防止できる効果もある。すなわち、個々の機器が独自に認識する従来のシステム
では、たとえば、エアコン２の認識可能な単語が２０単語、ＴＶ３が認識可能な
単語が３０単語、音響機器４の認識可能な単語が１０単語であるとすれば、それ
ぞれの機器は、自分の認識可能な単語のみしか認識できないことはいうまでもな
い。

したがって、これらの機器が１つの限られた空間内に存在し、ユーザの発話す
る音声コマンドによって動作制御を行う場合、ユーザがたとえばエアコン２に対
して、そのエアコン２のみが認識可能な音声コマンドを発話したとすると、その
音声コマンドはエアコン２以外の機器にも入力され、エアコン２以外の機器も無
理に認識を行おうとする。そして、エアコン２以外の機器は、その音声コマンド
に比較的近いコマンドとして認識を行って、その認識結果に応じた動作制御を行
ってしまうという不具合が生じる可能性がある。

これに対して、本発明のように、それぞれの機器がネットワークにつながれて
それぞれの情報を共有できるようにすれば、エアコン２の認識可能な２０単語、
ＴＶ３が認識可能な３０単語、音響機器４の認識可能な１０単語をすべて認識可
能単語とすることができる。

たとえば、ユーザがエアコン２に対して「スイッチオフ」という音声コマンド
を発生した場合を考える。この「スイッチオフ」という音声コマンドは、どの機
器にも共通のコマンドであり、どの機器においても認識可能であるとする。そこ
で、ある１つの機器がユーザに対し「どの機器ですか」といった応答を行い、そ
れに対して、ユーザが「エアコン」と発話したとすると、ユーザの発話した「エ
アコン」が、すべての機器で相互に情報交換しながら音声認識され、その結果、
エアコン２だけがユーザの「スイッチオフ」の音声コマンドに対する動作を行う
というようなことが可能となる。

これは、それぞれの機器がネットワーク１０に接続され、認識可能単語をも共
有できることによって可能となるものである。つまり、エアコン２は「エアコン
」という単語を認識可能単語として持っていても、ＴＶ３、音響機器４はそれぞ
れ単独では、「エアコン」は認識可能単語として持っていないのが普通であるが
、上述したように、認識可能単語を共有することによって、本来、認識できない
単語をも認識することができるようになる。

なお、本発明は以上説明した実施の形態に限定されるものではなく、本発明の
要旨を逸脱しない範囲で種々変形実施可能となるものである。たとえば、前述の
実施の形態では、音声対話型のインターフェース機能を有した機器、つまり、ユ
ーザの音声コマンドを認識して、その応答を音声により行うとともに、その認識
結果に応じた機器制御を行う機能を有した機器について説明したが、本発明は、
ユーザに対して音声による応答を行う機能は必ずしも必要ではない。

また、ネットワーク１０つながる機器は全てが音声認識を行ってその認識結果
に応じた機器の動作制御をなす機能を有するものでなくてもよい。たとえば、Ｔ
Ｖ３や音響機器４など、音声や音楽などの音を発する機器は、たとえ、音声認識
機能を持たず、音声コマンドによる制御対象の機器でないとしても、それらの機
器をネットワーク１０に接続しておき、それらの機器が発する音声や音楽などの
音を雑音情報として、ネットワーク１０に接続された音声認識機能を有する他の
機器に提供できるようにすることも可能である。

これによって、それらＴＶ３や音響機器４などが動作しているときに、ユーザ
からの音声コマンドが、音声認識機能を有する機器に対して与えられた場合、そ
の音声コマンドに重畳されるＴＶ３や音響機器４などの音を除去した上で音声認
識することができる。

また、前述の実施の形態では、制御対象の機器としては主に家庭電化製品を想
定したが、本発明は家電製品に限られるものではなく、音声コマンドを認識して
その認識結果に応じた動作をなす音声認識機能を有する機器が、限られた空間内
に複数存在するような場合には広く適用することができるものである。

また、本発明は、以上説明した本発明を実現するための処理手順が記述された
処理プログラムを作成し、その処理プログラムをフロッピィディスク、光ディス
ク、ハードディスクなどの記録媒体に記録させておくことができ、本発明はその
処理プログラムが記録された記録媒体をも含むものである。また、ネットワーク
から当該処理プログラムを得るようにしてもよい。

本発明の実施の形態を説明する機器配置例を示す図であり、限られた空間内に複数の音声認識機能を有した機器がネットワークに接続された様子を概略的に示す図である。図１で示された機器としてエアコンの構成図を示すブロック図である。図１で示された機器としてＴＶの構成図を示すブロック図である。本発明の実施の形態の処理手順を説明するフローチャートである。限られた空間内に複数の音声認識機能を有した機器が存在する場合の従来技術を説明する図である。

符号の説明

１限られた空間としての部屋
２エアコン
３ＴＶ
４音響機器
１０ネットワーク
２１エアコンにおける機器動作部
２２エアコンにおけるユーザ制御部
２３エアコンにおける音声認識を用いた機器制御部
２４エアコンにおけるネットワーク接続部
３１ＴＶにおける機器動作部
３２ＴＶにおけるユーザ制御部
３３ＴＶにおける音声認識を用いた機器制御部
３４ＴＶにおけるネットワーク接続部
４１マイクロホン
４２増幅器
４３Ａ／Ｄ変換器
４４Ｄ／Ａ変換器
４５増幅器
４６スピーカ
４７情報処理部
４８情報記憶部

Claims

限られた空間内に音声認識機能を有する複数の機器が存在し
、これらの機器のいずれかに対し音声コマンドを与えることで、その音声コマン
ドの与えられた機器がその音声コマンドを認識してその認識結果に応じて所定の
動作制御をなす音声認識を用いた機器制御方法において、
前記複数の機器をネットワークに接続し、それぞれの機器が個々に有する情報
を当該ネットワークを介して相互に交換し合い、前記ユーザの発話する音声コマ
ンドに対し、自己機器の有する情報に加えて前記ネットワークを介して送られて
くる他の機器の情報を参照して音声認識を行って、その認識結果に応じた機器の
動作制御を行うことを特徴とする音声認識を用いた機器制御方法。
前記相互に交換し合う情報は、少なくとも、それぞれの機器
を識別するための機器識別情報、それぞれの機器が収集した雑音情報を含むこと
を特徴とする請求項１記載の音声認識を用いた機器制御方法。
前記認識結果に応じた機器の動作制御を行うまでの処理手順
は、前記それぞれの機器を識別するための機器識別情報を前記ネットワークを介
して取得して、当該ネットワーク上に存在する情報交換すべき機器を認知すると
ともに、それぞれ機器の位置関係の測定を行い、その後、音声コマンドが入力さ
れると、上記それぞれの機器の位置関係に基づき、ユーザの発話する音声コマン
ドが自己機器に対して発せられたか否かを判定し、当該音声コマンドが自己機器
に対して発せられたものであると判定された場合には、その音声コマンドに対す
る認識処理を行ってその認識結果に基づく機器の動作制御を行うことを特徴とす
る請求項２記載の音声認識を用いた機器制御方法。
前記音声認識を行う際、前記それぞれの機器が収集した雑音
情報を相互に交換し合い、その雑音情報を用いて、音声コマンドに重畳する雑音
の除去を行って音声認識を行うことを特徴とする請求項２または３記載の音声認
識を用いた機器制御方法。
前記音声コマンドに重畳する雑音は、機器の定常的な運転音
や環境上に定常的に存在する定常音と、ネットワークに接続されている機器が動
作することによって発する音声や音楽などの音であり、
前記定常音については、それぞれの機器が定常的雑音情報として取得するとと
もに、取得した定常的雑音情報をネットワークを通じて他の機器との間で相互に
交換しあってそれぞれの機器で保存し、音声認識を行う際は、その定常的雑音情
報を音声コマンドから除去して音声認識を行い、
前記音声や音楽などの音については、それを発する機器がリアルタイムでその
音を雑音情報として取得するとともに、ネットワークに接続されている他の機器
もその雑音情報をネットワークを通じてリアルタイムで取得し、音声認識を行う
際は、その雑音情報を音声コマンドから除去して音声認識を行う、
ことを特徴とする請求項４記載の音声認識を用いた機器制御方法。
前記それぞれの機器が行う音声コマンドに対する音声認識は
、それぞれの機器同志が相互に情報交換し合うことによって、ある機器における
認識可能単語を他の機器も認識可能とすることを特徴とする請求項１から５のい
ずれかに記載の音声認識を用いた機器制御方法。
限られた空間内に音声認識機能を有する複数の機器が存在し
、これらの機器のいずれかに対し音声コマンドを与えることで、その音声コマン
ドの与えられた機器がその音声コマンドを認識してその認識結果に応じて所定の
動作制御をなす音声認識を用いた機器制御システムにおいて、
前記複数の機器は、それぞれの機器が相互に情報交換可能となるようにネット
ワークに接続され、そのネットワークに接続された前記複数の機器それぞれが、
その機器がもともと有する機器動作部とこの機器動作部の動作状態の設定を行う
ユーザ操作部を有するとともに、少なくとも、音声コマンドを受け付けてその音
声コマンドを認識し、その認識結果に基づいて前記機器動作部を制御する音声認
識を用いた機器動作制御部と、ネットワークに自己の機器を接続するためのネッ
トワーク接続部とを有してなり、
前記複数の機器それぞれが個々に有する情報を当該ネットワークを介して相互
に交換し合い、前記ユーザの発話する音声コマンドに対し、自己の有する情報に
加えて前記ネットワークを介して送られてくる他の機器の情報を参照して音声認
識を行って、その認識結果に応じた機器の動作制御を行うことを特徴とする音声
認識を用いた機器制御システム。
前記相互に交換し合う情報は、少なくとも、それぞれの機器
を識別するための機器識別情報、それぞれの機器が収集した雑音情報を含むこと
を特徴とする請求項７記載の音声認識を用いた機器制御システム。
前記音声認識を用いた機器動作制御部が行う認識結果に応じ
た機器の動作制御を行うまでの処理手順は、前記それぞれの機器を識別するため
の機器識別情報を前記ネットワークを介して取得して、当該ネットワーク上に存
在する情報交換すべき機器を認知するとともに、それぞれ機器の位置関係の測定
を行い、その後、音声コマンドが入力されると、上記それぞれの機器の位置関係
に基づき、ユーザの発話する音声コマンドが自己機器に対して発せられたか否か
を判定し、当該音声コマンドが自己機器に対して発せられたものであると判定さ
れた場合には、その音声コマンドに対する認識処理を行ってその認識結果に基づ
く機器の動作制御を行うことを特徴とする請求項８記載の音声認識を用いた機器
制御システム。
前記音声認識を行う際、前記それぞれの機器が収集した雑
音情報を相互に交換し合い、その雑音情報を用いて、音声コマンドに重畳する雑
音の除去を行って音声認識を行うことを特徴とする請求項８または９記載の音声
認識を用いた機器制御システム。
前記音声コマンドに重畳する雑音は、機器の定常的な運
転音や環境上に定常的に存在する定常音と、ネットワークに接続されている機器
が動作することによって発する音声や音楽などの音であり、
前記定常音については、それぞれの機器が定常的雑音情報として取得するとと
もに、取得した定常的雑音情報をネットワークを通じて他の機器との間で相互に
交換しあってそれぞれの機器で保存し、音声認識を行う際は、その定常的雑音情
報を音声コマンドから除去して音声認識を行い、
前記音声や音楽などの音については、それを発する機器がリアルタイムでその
音を雑音情報として取得するとともに、ネットワークに接続されている他の機器
もその雑音情報をネットワークを通じてリアルタイムで取得し、音声認識を行う
際は、その雑音情報を音声コマンドから除去して音声認識を行う、
ことを特徴とする請求項１０記載の音声認識を用いた機器制御システム。
前記それぞれの機器が行う音声コマンドに対する音声認識
は、それぞれの機器同志が相互に情報交換し合うことによって、ある機器におけ
る認識可能単語を他の機器も認識可能とすることを特徴とする請求項７から１１
のいずれかに記載の音声認識を用いた機器制御システム。
限られた空間内に存在する音声認識機能を有した複数の機
器をネットワークに接続し、それぞれの機器が個々に有する情報として、少なく
とも、それぞれの機器を識別するための機器識別情報、それぞれの機器が収集し
た雑音情報を当該ネットワークを介して相互に交換することを可能とし、ユーザ
の発話する音声コマンドに対し、自己機器の有する情報に加えて前記ネットワー
クを介して送られてくる他の機器の情報を参照して音声認識を行って、その認識
結果に応じた機器の動作制御を行う音声認識を用いた機器制御プログラムを記録
した記録媒体であって、その機器制御プログラムは、
それぞれの機器を識別するための機器識別情報を前記ネットワークを介して取
得して、当該ネットワーク上に存在する情報交換すべき機器を認知するとともに
、それぞれ機器の位置関係の測定を行う手順と、
この位置関係の測定後、ユーザからの音声コマンドを待つ状態とし、音声コマ
ンドが入力されると、上記それぞれの機器の位置関係に基づき、ユーザの発話す
る音声コマンドが自己機器に対して発せられたか否かを判定する手順と、
当該音声コマンドが自己機器に対して発せられたものであると判定された場合
には、その音声コマンドに対する認識処理を行って、その認識結果に応じた機器
の動作制御を行う手順と、
を含むことを特徴とする音声認識を用いた機器制御プログラムを記録した記録
媒体。
前記音声認識を行う際、前記それぞれの機器が収集した雑
音情報を相互に交換し合い、その雑音情報を用いて、音声コマンドに重畳する雑
音の除去を行って音声認識を行うことを特徴とする請求項１３記載の音声認識を
用いた機器制御プログラムを記録した記録媒体。
前記音声コマンドに重畳する雑音は、機器の定常的な運転
音や環境上に定常的に存在する定常音と、ネットワークに接続されている機器が
動作することによって発する音声や音楽などの音であり、
前記定常音については、それぞれの機器が定常的雑音情報として取得するとと
もに、取得した定常的雑音情報をネットワークを通じて他の機器との間で相互に
交換しあってそれぞれの機器で保存し、音声認識を行う際は、その定常的雑音情
報を音声コマンドから除去して音声認識を行い、
前記音声や音楽などの音については、それを発する機器がリアルタイムでその
音を雑音情報として取得するとともに、ネットワークに接続されている他の機器
もその雑音情報をネットワークを通じてリアルタイムで取得し、音声認識を行う
際は、その雑音情報を音声コマンドから除去して音声認識を行う、
ことを特徴とする請求項１４記載の音声認識を用いた機器制御プログラムを記
録した記録媒体。
前記それぞれの機器が行う音声コマンドに対する音声認識
は、それぞれの機器同志が相互に情報交換し合うことによって、ある機器におけ
る認識可能単語を他の機器も認識可能とすることを特徴とする請求項１３から１
５のいずれかに記載の音声認識を用いた機器制御プログラムを記録した記録媒体
。