JP3834848B2

JP3834848B2 - 音情報提供装置、及び音情報選択方法

Info

Publication number: JP3834848B2
Application number: JP24128495A
Authority: JP
Inventors: 雄一矢川; ひろみ鵜飼
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1995-09-20
Filing date: 1995-09-20
Publication date: 2006-10-18
Anticipated expiration: 2015-09-20
Also published as: JPH0990963A

Description

【０００１】
【産業上の利用分野】
本発明は、音を用いて利用者に情報を提供する装置に係り、特に複数の音情報を同時に利用者に提供する音情報提供装置、及び利用者が複数の音情報のなかから欲する情報を選択する音情報選択方法に関する。
【０００２】
【従来の技術】
「いつでもどこでも」コンピュータを扱いたい、他人とコミュニケーションをとりたい、情報にアクセスしたいとのニーズから、携帯型情報通信システムや車載型情報通信システムなどいわゆるモーバイルコンピューティングへの期待が高まりつつある。特に、電子手帳やパーソナルディジタルアシスタント（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔｓ、以下ＰＤＡという）またはパーソナルインテリジェントコミュニケータ（ＰｅｒｓｏｎａｌＩｎｔｅｌｌｉｇｅｎｔＣｏｍｍｕｎｉｃａｔｏｒ、以下ＰＩＣという）と呼ばれる携帯型コンピュータ及び、ページャや、携帯電話、自動車電話といった携帯型のコミュニケーションツールは、世の中に広く受け入れられつつある。
【０００３】
従来の携帯型情報通信システムは、入力手段として電子ペンやタッチパネル、出力手段として液晶ディスプレイ、コミュニケーション手段として無線データ通信装置などから構成されている。主な用途としては、スケジュール管理や住所録などいわゆるパーソナルインフォメーションマネージメント（ＰｅｒｓｏｎａｌＩｎｆｏｒｍａｔｉｏｎＭａｎａｇｅｍｅｎｔ、ＰＩＭ）機能、情報やサービスの検索・利用、電子メールや電子会議等が挙げられる。また、エージェント（電子秘書）と呼ばれる電子的な秘書の概念に相当するプログラムが、情報検索やスケジュール管理など、利用者にとって面倒な仕事を代行する。例えば、利用者が入力したスケジュールを時間通りに伝達する。
【０００４】
これら既存のシステムにおいても、音情報を積極的に利用したものはない。従来のデスクトップ型のコンピュータと同様に、効果音など補助的に用いているのみである。以上、最近の携帯型情報通信システムについては、日経エレクトロニクス１９９５年２月１３日号（ｎｏ．６２８）ｐｐ７３〜９７、日経ＢＰ社に詳しい。
【０００５】
また、既存の車載型情報通信システムは、入力手段としてリモコンやジョイスティック、出力手段として液晶ディスプレイ、自動車の位置を計測する自動車測位装置などから構成されている。目的地まで経路誘導する自動車ナビゲーション機能が主な用途である。また、将来には無線データ通信装置を内蔵し、道路交通情報の提供サービスに対応するシステムも開発される。音情報の利用については、音声認識によるコマンド入力機能、合成音声による情報出力機能を備えたシステムがある。
【０００６】
一方、コミュニケーションツールでは、小型ラジオなどの放送受信装置、携帯電話などの音声通信装置、携帯型ＣＤプレーヤなどの音再生装置など、携帯型で音により情報を提供する装置は多い。また、例えば携帯型ラジオ付きＣＤプレーヤなどのように、複数のコミュニケーション手段を組み合わせて、一つの装置で複数の音情報にアクセスできるような装置も登場しつつある。
【０００７】
【発明が解決しようとする課題】
一般に、ＰＤＡなど既存の携帯型情報通信システムでは、情報出力手段として液晶ディスプレイを前提としているものが多い。このため、小形化は進みにくく、また仮に小形化されたとしても画面が小さく、そこから得る情報には限りがある。
【０００８】
省スペース及び携帯性という観点から考えると、携帯型情報通信システムでは、音情報による入力及び出力が有効である。例えば、携帯電話などは小形化が進み、スーツの内ポケットに入れて持ち運べるぐらいに小さいものまで登場しつつある。携帯型情報通信システムでも音による入出力を前提にすると、同程度まで小形化できる可能性がある。
【０００９】
また、車載型情報通信システムにおいても、音による情報出力が望ましい。経路情報を音声で伝えてくれると、視線を情報表示画面に移す必要もなくなる。
【００１０】
しかし、音情報は時系列データであり、時間軸に依存する度合が視覚情報に比べて高いため、直感性や一覧性に劣るという問題がある。このため、利用者が音情報を用いて情報通信システムと対話する場合は、逐次処理が前提となり、効率が悪い。
【００１１】
従って、本発明の目的は、携帯型、車載型をはじめとする各種情報処理装置において、音による情報の提供を行う装置、あるいは方法を提供し、音情報による人間とコンピュータとの対話及び人間と人間との対話の効率を向上させることである。
【００１２】
また、本発明の具体的な目的は、同時に提供されている複数の音情報から利用者が欲する音情報を選択する方法、装置を提供することである。
【００１３】
また、本発明の他の具体的な目的は、複数の音情報を提供する処理手段に対し、命令、データを入力する方法、装置を提供することである。
【００１４】
また、本発明の他の目的は、目が不自由な人向けの情報提供装置を提供することである。
【００１５】
【課題を解決するための手段】
上記目的を達成するために本発明は、複数の音情報を利用者に提供する装置であって、前記複数の音情報を生成する処理手段と、前記複数の音情報の仮想的な音源位置を音空間に定義する仮想音空間定義手段と、前記音情報の音像を、前記定義された仮想音源位置に定位させる音像定位加工手段と、音像定位加工された前記複数の音情報を出力する手段と、利用者指示を検出する利用者指示検出手段と、前記利用者指示に基づいて、前記仮想音源位置に配置された前記音情報とその音情報を生成する処理手段を選択する音情報操作手段とを備えたものである。
【００１６】
また、前記利用者指示検出手段が検出する利用者指示は、利用者動作、あるいは利用者音声の少なくともいずれか一つであることを特徴とするものである。
【００１７】
また、前記音情報提供装置は、利用者の位置を測定する位置測定手段を備え、前記音情報は、当該音情報が関連する事象の位置情報を属性として備え、仮想音空間定義手段は、前記位置測定手段が測定した利用者位置と、前記音情報が表す位置に基づいて、前記利用者位置を基準とした前記音情報の仮想的な音源位置を定義することを特徴とするものである。
【００１８】
また、前記利用者指示検出手段は、検出した利用者指示から方向を表す要素を抽出し、前記音情報操作手段は、前記方向を表す要素が示す方向の前記仮想音源位置に配置された音情報を選択することを特徴とするものである。
【００１９】
また、前記音情報提供装置は、命令やデータを入力する手段を備え、前記音情報操作手段は、前記利用者指示検出手段が検出した利用者指示または、前記入力された命令またはデータを前記選択された音情報を生成する処理手段に送ることを特徴とするものである。
【００２０】
また、前記仮想音空間定義部は、前記音空間をあらかじめ定めた基準位置を中心に構成し、前記利用者指示検出手段は、前記抽出した方向を表す要素を補正して、前記基準位置を中心とした方向に補正することを特徴とするものである。
【００２１】
また、前記音情報を生成する処理手段は、音情報毎に属性を定義し、前記仮想音空間定義手段は、あらかじめ音情報の属性毎に仮想的な音空間における音源位置決定規則を定めておき、提供される音情報の属性を前記音源位置決定規則に当てはめて音源位置を決めることを特徴とするものである。
【００２２】
また、前記音情報を生成する処理手段は、指定された処理を行い、処理終了時にその処理結果、または終了通知を音情報にて出力するものであることを特徴とするものである。
【００２３】
また、前記音情報は、属性として重要度または優先度を備え、前記仮想音空間定義手段は、前記重要度または優先度が高い音情報を利用者位置の近くに定義し、前記重要度または優先度が低い音情報を利用者位置から遠くに定義するように設定するものである。
【００２４】
また、前記音情報操作手段は、前記利用者指示に基づき、選択した音情報の音像に対し、前記音像の移動と、音量の変更と、一時的な出力の停止と、一時停止の解除と、優先出力と、優先出力からもとの状態への復帰と、音情報の出力停止のいずれかを行なうよう前記仮想音空間定義手段を制御するものである。
【００２５】
また、前記音出力手段の出力数は、前記音像定位加工手段が音像定位加工した音情報の数より少ない数であって、前記音情報提供装置は、前記音像定位加工手段が音像定位加工した音情報を、前記音出力手段の出力数に合成する手段を備えたことを特徴とするものである。
【００２６】
また、本発明は、複数の音情報を利用者に提供する装置であって、前記複数の音情報を生成する処理手段と、前記複数の音情報の仮想的な音源位置を音空間に定義する仮想音空間定義手段と、前記音情報の音像を、前記定義された仮想音源位置に定位させる音像定位加工手段と、音像定位加工された前記複数の音情報を出力する手段と、利用者位置を検出する利用者位置検出手段と、前記利用者位置に基づいて、利用者位置近傍の前記仮想音源位置に配置された前記音情報とその音情報を生成する処理手段を選択する音情報操作手段とを備えたことを特徴とするものである。
【００２７】
また、本発明は、複数の通信相手と音声通信する装置であって、前記複数の通信相手と通信するための通信手段と、前記複数の通信相手と自分の仮想的な位置を音空間に定義する仮想音空間定義手段と、前記通信手段から出力される前記複数の通信相手と自分の音声の音像を、前記定義された仮想位置に定位させる音像定位加工手段と、音像定位加工された前記複数の音声を出力する手段と、利用者動作を検出する利用者動作検出手段と、前記利用者動作に基づいて、前記仮想位置に配置された前記通信相手を選択する音情報操作手段とを備えたことを特徴とするものである。
【００２８】
また、本発明は、複数の音情報を利用者に提供する装置であって、前記複数の音情報を生成する処理手段と、利用者位置を検出する利用者位置検出手段と、前記利用者位置に基づいて、前記複数の音情報の仮想的な音源位置を音空間に定義する仮想音空間定義手段と、前記音情報の音像を、前記定義された仮想音源位置に定位させる音像定位加工手段と、音像定位加工された前記複数の音情報を出力する手段とを備えたことを特徴とするものである。
【００２９】
また、本発明は、利用者を乗せ、音情報を前記利用者に提供する、移動可能な装置であって、前記音情報を生成する処理手段と、前記移動可能な装置の位置を測定する装置位置測定手段と、前記装置の位置に基づいて、前記音空間における利用者位置を設定する仮想利用者位置設定手段と、前記音情報の仮想的な音源位置を、前記設定された利用者位置に基づいて、固定された音空間に定義する仮想音空間定義手段と、前記音情報の音像を、前記定義された仮想音源位置に定位させる音像定位加工手段と、前記音像定位加工された前記音情報を出力する手段とを備えたことを特徴とするものである。
【００３０】
また、前記音情報提供装置は、利用者指示を検出し、検出した利用者指示から方向を表す要素を抽出する利用者指示検出手段と、前記方向を表す要素が示す方向の前記仮想音源位置に配置された音情報を選択する音情報操作手段とを備えたことを特徴とするものである。
【００３１】
また、本発明は、複数の音情報の仮想的な音源位置を音空間に定義し、前記音情報の音像を、前記定義された仮想音源位置に定位させ、前記定義された仮想音源位置から、前記複数の音情報を出力し、前記仮想音源を選択する利用者指示に基づいて、前記選択された仮想音源から出力される音情報を選択することを特徴とするものである。
【００３２】
また、本発明は、複数の音情報の仮想的な音源位置を音空間に定義し、前記音情報の音像を、前記定義された仮想音源位置に定位させ、前記定義された仮想音源位置から、前記複数の音情報を出力し、前記音空間を移動する利用者の位置に基づいて、前記利用者の位置近傍にある仮想音源から出力される音情報を選択することを特徴とするものである。
【００３３】
【作用】
一般に、コンピュータと人間との対話の効率を向上させる一つの方法としては、複数の仕事を同時に行う並行処理があげられる。既存のコンピュータシステムでは、並行処理を行うための手段として、「マルチウィンドウ」が用意されている。また、利用者が「マルチウィンドウ」ごとに分けられた処理を選択する手段として、マウスなどの「ポインティングデバイス」が用意されている。利用者は「マルチウィンドウ」ごとに処理を割り当てて、必要に応じてポインティングすることにより処理を選択する。利用者は意識するしないにかかわらず、平行的に仕事を進めることができ、この結果、人間とコンピュータとの対話の効率も向上する。音の世界にも同様の仕組みを導入すれば、対話の効率も上がり、さらには、電話や放送など既存のコミュニケーション手段をそれぞれ「マルチウィンドウ」として組み合わせたシステムも可能になる。
【００３４】
実世界において、無音という状況はありえない。人間は常に何らかの音を無意識のうちに聞き分けており、自分に必要な音情報だけを選択して聞いている。騒がしいカクテルパーティであっても自分の興味ある話題が会話にのぼると、たとえ離れたところにいても自然に耳に入る。音響心理学において、先の人間の特性はこの現象にちなんでカクテルパーティ効果と呼ばれている。
【００３５】
コンピュータが作り出す仮想的な音の世界で絶えず多様な音が聞こえていても、カクテルパーティ効果により利用者は音情報を取捨選択できる。そこで、まず音源を仮想的な音の空間に配置することによって音情報を区別しやすくする。複数の音情報が同時に聞こえたとしても、聞こえてくる方向がそれぞれ違うため、利用者は音情報を識別しやすい。この仮想的な音空間に配置した音源が「ウィンドウ」に相当する。
【００３６】
更に、複数の音情報の中から利用者が希望のものを選択する手段を備える。基本的に、空間内で方向を示せるものであれば良く、本発明では利用者の位置または動作により、音情報を選択する。例えば、利用者がある地点に移動すると、その場所に対応付けられた音情報が聞こえる。あるいは、音が聞こえてくる方向を指し示すことにより、音情報を選択する。この利用者の位置または動作により音情報を選択する手段が「マウス」に相当する。
【００３７】
本発明では、仮想的な空間に情報を処理する手段を割り当てて、処理結果は音で返す。音が聞こえてくる方向によって処理内容を判断できるので、利用者は処理結果に対してすばやく応答できる。また、電話や放送など従来のコミュニケーション手段も同じ音空間に割り付ける。利用者は仮想的な音空間から必要な処理を次々と選択することによって平行して仕事を進めることができ、結果的に人間とコンピュータとの対話及び人間と人間との対話の効率も向上する。
【００３８】
【実施例】
以下、図面を参照して本発明の一実施例を説明する。
【００３９】
＜発明の概要説明＞
図１は、本発明の特徴を概念的に表す図である。まず、音源として、利用者１からの命令をサーバコンピュータまたはローカルなコンピュータで代行して処理してその処理結果を合成音声で出力する電子秘書２と、通信手段を用いて複数の相手と通信する電子会議３及び４と、ラジオなどの放送またはＣＤプレーヤなどの音再生５がある。それぞれの出力音は、あたかも仮想音空間１０内のそれぞれ音像６、７、８、９に実際の音源があるかのように聞こえる。
【００４０】
音像とは音響的に作られた感覚上の音源のことを言い、本実施例では仮想音源と同義に用いる。利用者１は頭部や手等、身体の一部を用いてそれぞれの音像すなわち音情報を選択し、音情報に対する各種処理を実行する。利用者が行う処理には、例えば音像位置の移動、音量変更、音量最小化、音量最小化解除、一時停止、一時停止解除、出力優先（他の音源からの出力をすべて一時停止）、出力優先解除、停止などがある。音情報の内容、種類に応じて音像を配置できるので、利用者は出力音が聞こえてくる方向からその内容を容易に把握できる。また、複数の音情報を同時に聞く場合だけでなく、必要に応じて他の音源からの出力量を抑えて、一つの音情報を聞くなどもできる。
【００４１】
音像６〜９にはそれぞれ処理手段２〜５が対応付けられている。つまり、利用者１が仮想音空間１０内の音像を選択することはすなわち処理手段をも選択したことになる。よって、利用者１はコマンドや音声などのデータを各処理手段に入力することができ、また処理手段を切り替えることによって平行的に仕事を進めることが可能になる。
【００４２】
＜装置構成概略説明＞
図２は、本発明の一実施例に係る音情報提供装置の利用イメージと基本構成を表す。本装置は携帯型であり、その外部構成は本体部２０と、利用者１の現在位置及び手の動作を測定する利用者位置・動作測定部２１と、利用者１の頭の向きを測定する利用者頭部向き測定部２２と、利用者１の音声を入力するマイク２３と、本体部２０が生成した仮想音空間の出力音を利用者１が聞くためのヘッドホン２４とから成る。ここで、利用者位置・動作測定部２１は腕時計型で、利用者１がコマンドやデータの一部を入力する手段もともに兼ね備えている。また、マイク２３をヘッドホン２４に接続せず、利用者位置・動作測定部２１に内蔵し、必要に応じてマイクを口に近づけて音声入力する構成も考えられる。
【００４３】
本体部２０の内部構成は、利用者位置・動作測定部２１及び利用者頭部向き測定部２２で測定されたデータを解析して利用者動作３１及び利用者位置３２を検出する利用者状態検出部３０と、利用者の入力音声をＡ／Ｄ（アナログ・デジタル）変換する音声入力部４０と、入力音声を認識してコマンドやデータの文字列に変換する音声認識部４１と、本体部２０または利用者位置・動作測定部２１に設けられたボタン等からコマンド及びデータを入力する入力部４２と、利用者が選択した音情報を判断し、その音情報の識別番号と当該音情報を出力する仮想音源の識別番号とコマンドまたはデータをメッセージ５１としてカプセル化し、そのメッセージ５１を適切な処理手段に転送するメッセージ転送部５０と、利用者のコマンドを処理する電子秘書６０と、利用者のコマンドをサーバコンピュータ６１で処理するためのデータ通信手段６２と、それぞれの処理結果を合成音声で出力する音声合成部６３と、ラジオ等の放送局７１からの電波を受信する放送受信手段７０と、ＣＤ８１等を再生する音再生手段８０と、他の利用者９２〜９３とコミュニケーションするための音声通信手段９０〜９１と、前記メッセージ５１の内容や各音情報の属性１０３に従って仮想的な音空間内における利用者位置１０１または音源位置１０２が定義されるよう規則を決める仮想音空間定義部１００と、前記定義した位置に基づいて音情報を仮想的な音空間に音像定位し加工する仮想音空間作成部１１０と、前記作成結果または個別の音情報を一時的に記憶する音情報一時記憶領域１１４と、音情報をＤ／Ａ（デジタル・アナログ）変換してヘッドホン２４から出力する仮想音空間出力部１１３とから成る。
【００４４】
本実施例では、仮想音空間作成部１１０に音像定位加工処理１１１を設けたことにより、仮想音空間定義部１００で設定した仮想利用者位置１０１または仮想音源位置１０２に基づいて、複数の音情報を仮想的な音空間に音像定位できる点に特徴がある。ここで音像定位とは、音を音響的に加工し、感覚上の音源である音像を作り出すことである。この音像定位により、利用者は本装置が作り出した音像から本当に音情報が聞こえてくるように感じる。また、仮想音空間定義部１００で音像の位置を調整することにより、複数の音情報がそれぞれ違った方向から聞こえてくるといった音響効果を作り出すことができる。利用者は音情報をその聞こえてくる方向から明確に区別できるので、複数の音情報の中から一つを選択して処理することが可能になる。
【００４５】
次に、本実施例では、利用者位置・動作測定部２１や利用者頭部向き測定部２２を設けたことにより、利用者が音情報を直感的にそして感覚的に選択できる点に特徴がある。具体的には、利用者状態検出部３０で利用者が向いた方向や指し示した方向を検出し、その方向から聞こえてくる音情報を選択したものと判断する。また、ボタンや音声で音情報を選択することもできる。この場合、音情報が聞こえてくる方向を音声で指定したり、または方向が記載されたボタン等を使って選択する。あるいは、それぞれの音情報に名前等の識別子を付けておき、その識別子を音声やボタン等で選択する方法も考えられる。なお、これら利用者の向き、指し示した方向、発声、ボタン操作などを総称して利用者指示ということにする。
【００４６】
さらに、本実施例では、メッセージ転送部５０で利用者が選択した音情報とそれに対する処理をメッセージ５１としてカプセル化し、適切な処理手段にそのメッセージを転送する点に特徴がある。ここでいう処理手段には、仮想音空間定義部１００、電子秘書６０、放送受信手段７０、音再生手段８０、音声通信手段９０及び９１がある。仮想音空間定義部１００は音情報が音像定位されている仮想的な音源に対する処理を実行する。例えば、先に検出された利用者位置３２または身振り手振りなどの利用者動作３３から仮想的な音空間における利用者位置または音源位置を設定する。すなわち、利用者は同時に聞こえる複数の音情報の中から優先して聞きたい音情報を選択したり、聞きたくない音情報を消したり、音情報の聞こえる方向やそれぞれの音量を自由に変更したりできる。
【００４７】
また、仮想音空間定義部１００以外の処理手段では、音情報そのものを生成する。利用者が音情報を選択したということは、その音情報を生成する処理手段をも選択したことになり、当該処理手段にコマンドまたはデータを送ることになる。図２の例では、電子秘書６０が選択され、利用者からのコマンドまたはデータが送られ、その処理結果が音声合成部６３で合成音として仮想音空間作成部１１０に出力されている。
【００４８】
＜装置外観図の説明＞
図５、図６は、本体部２０と利用者位置・動作測定部２１のそれぞれ装置外観の一例を示す図である。画面２０１にはタッチパネルが重ねられていて、入力用ボタンの数を減らすためにプログラムによって画面２０１上に表示されたソフトウェアボタンをペン２０２、または、指で選択するという操作を行う。また、仮想音空間における音像の配置を画面に表示し、利用者が音像の位置をビジュアルに確認したり、表示された音像を画面上で選択するという操作も行う。
【００４９】
ボタン２０３は、モード切替や、頻繁に使うコマンド入力用のソフトウェアボタンまたは機械的なボタンである。例えば、電子会議用のコマンドを入力したいときは電子会議モードのボタンを選択し、電子秘書にコマンドを送りたいときは電子秘書モードのボタンを選択する。つまり、モードは音情報を出力する処理の種類ごとに用意されている。頻繁に使うコマンドとしては、例えば音量調節等がある。カードスロット２０４〜２０６には、赤外線通信機、ラジオ受信機やパーソナル・ハンディフォン・システム（以下、ＰＨＳという）通信機等のカードを差す。利用者が必要に応じて通信手段を選択できるフレキシブルな構成となっている。
【００５０】
カードとして、最近普及しつつあるパーソナル・コンピュータ・メモリ・カード・インターナショナル・アソシエーション（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒＭｅｍｏｒｙＣａｒｄＩｎｔｅｒｎａｔｉｏｎａｌＡｓｓｏｃｉａｔｉｏｎ、以下、ＰＣＭＣＩＡという）対応のカードを用いる。また、図５ではスロットの数が３個となっているが、特にこの数に限定しているわけではない。
【００５１】
本体部２０には、赤外線通信機２０７と有線データ通信のためのモデム２０８が内蔵されている。利用者は本体部２０を持ち運んで利用するため、カバー２０９で画面２０１を保護する。本実施例では、画面２０１を主に入力の手段として用いているが、もちろん処理結果を音情報として出力するのにあわせて、画面２０１に処理結果をビジュアルに表示してもよい。
【００５２】
利用者位置・動作測定部２１にも画面２１１が備えられている。通常は、時刻を表示しているが、利用者からの要求に応じて仮想音空間における音像の配置等を表示する。また、ボタン２１２は、本体部２０で行えるコマンドのショートカットキーまたは数字等の簡単なデータ入力もできるようになっているので、利用者は本体部２０をいちいち取り出して操作する必要がない。マイク２１３はヘッドホン２４に具備してあるマイク２３を利用者が屋外で用いるのに不都合がある場合に用いる。利用者位置・動作測定部２１は腕時計型の形状なので、バンド２１４で利用者の腕に固定して用いる。なお、上記画面２０１、２１１は液晶パネルを使用するのが一般的である。
【００５３】
＜ハードウェア構成の説明＞
図２の各構成要素を実現するハードウェア構成について、図３を用いて説明する。
まず、利用者位置・動作測定部２１は、利用者の現在位置を測定するグローバル・ポジショニング・システム（以下、ＧＰＳという）１２０と、利用者の動作を測定するジャイロ１２１から成り、本体部２０へは赤外線通信機を用いて無線でデータ送信する。ＧＰＳは周回衛星を利用した測位システムであり、最近自動車用ナビゲーションシステムの自動車測位装置として広く用いられている。各周回衛星からは衛星の経度、緯度、高さ、時刻のデータが送信され、これをＧＰＳが受信する。そして、到達するまでにかかった時間から各衛星までの距離を計算し、ＧＰＳの現在位置を得る。測位精度を上げる工夫もなされており、現状では位置を数十メートルの誤差内で特定できる。また、小形化も進み、腕時計と同程度の大きさのＧＰＳ装置も登場するとの予測もある。ＧＰＳについては、日経エレクトロニクス（日経ＢＰ社）１９９５年２月１３日号（no.628）ｐｐ１８７〜１９４などに詳しい。
【００５４】
ジャイロ１２１は、角速度センサの一種で、内蔵の振動子の振動から角速度または回転角を検出する。利用者の腕の向きの水平方向と垂直方向の回転角をそれぞれ検出できるよう、二軸ジャイロ（または水平方向用と垂直方向用の二つのジャイロ）を用いる。当該ジャイロでは一定時間ごとに回転角を測定し、本体部２０に送る。本体部２０では、当該回転角の変化量から利用者の手の動きを計算する。実装については、圧電振動ジャイロ等を用いることで携帯可能な利用者位置・動作測定部２１を開発できる。
【００５５】
利用者頭部向き測定部２２もジャイロ１２２を用いて利用者の頭部の向いている方向を測定する。ここでも、二軸ジャイロ（または水平方向用と垂直方向用の二つのジャイロ）を用い、水平方向と垂直方向の頭部の向きを測定する。また、図２に示すように、本体部２０へは有線でデータを送信している。
スピーカ１５１は、利用者がヘッドホン２４の代わりに用いる。スピーカ１５１については後述する。
【００５６】
次に、本体部２０は、図４に記載した各種プログラムを実行する中央処理装置（以下、ＣＰＵという）１３０と、プログラムやデータを一時保存するメモリ１３１と、プログラムや処理パラメータを記憶しておく外部記憶装置（以下、ディスクという）１３２と、利用者がモード切替、コマンド及びデータを入力するボタン類１４１（図５、図６のボタン２０３、ボタン２１２に相当する）と、マイクから入力された音声をアナログ・デジタル変換するＡ／Ｄ変換器１４０と、出力音をデジタル・アナログ変換するＤ／Ａ変換器１５０と、サーバコンピュータとデータ通信するための赤外線通信機１６０と、ラジオ受信機１６１と、ＣＤプレーヤ１６２と、データ通信または音声通信のためのＰＨＳ通信機１６３及び１６４と、各音情報をアナログ・デジタル変換するＡ／Ｄ変換器１６５〜１６８とから成る。なお、図示していないが、本体部２０と、利用者位置・動作測定部２１には上述の液晶パネルがあり、ＣＰＵ１３０からの指示に従って、表示を行う。
【００５７】
ボタン類１４１の例としては、電源のＯＮ／ＯＦＦスイッチ、音量調整つまみ、放送局選択用の周波数調整つまみ、ＣＤプレーヤ制御用ボタン、アルファベットやひらがな等を入力するキャラクタボタン、電話番号等を入力する数値ボタン等がある。装置を携帯できるサイズにおさめるため、本体部２０や利用者位置・動作測定部２１に液晶ディスプレイとタッチパネルを備え、プログラムによって画面に表示されたグラフィカル・ユーザ・インタフェース（以下、ＧＵＩという）のボタンやメニュー（以下、ソフトウェアボタンまたは単にボタンと呼ぶ）を利用者がペン、指等で選択する構成である。画面２０１、２１１、ボタン２０３、ボタン２１２がボタン類１４１に相当する。タッチパネルは、感圧式、電磁誘導式、超音波式、静電誘導式などの方式が使用可能である。
【００５８】
また、赤外線通信機１６０、ラジオ受信機１６１、ＰＨＳ通信機１６３、１６４は、カードスロット２０４〜２０６に必要に応じてカードを入れ替えるといった構成を採用する。以上述べてきたハードウェア構成要素は、システムバス１６９で互いに連結されており、データの受け渡しや制御をこのシステムバスを通じて行う。
【００５９】
＜ソフトウェア構成の説明＞
図４は、プログラムとデータ、及びプログラム間の制御とデータの流れを示すソフトウェア構成図である。また、図中の矩形のブロックはプログラムを表し、角が丸いブロックはデータを表す。この図から、図２で記載した利用者状態検出部３０、メッセージ転送部５０、仮想音空間定義部１００、仮想音空間作成部１１０は複数のプログラムとデータから成るソフトウェアモジュールで実現されることがわかる。また、本実施例では、本体部２０を携帯サイズに収めるため、音声認識部４１、音声合成部６３もソフトウェアで実現する。
【００６０】
なお、これらソフトウェアは、通常ディスク１３２に格納されており、必要に応じてメモリ１３１に読み出され、ＣＰＵ１３０がそれを実行するものである。もちろん、メモリ１３１上にこれらソフトウェアがあらかじめ格納されていてもよい。
【００６１】
以下、プログラム制御の流れに従って各構成要素を順次説明する。
入力音声データ４３は、利用者がマイク２３を用いて入力した音声をアナログ・デジタル変換したものである。
音声認識部４１では、この入力音声データ４３を認識し、コマンド４４またはデータ４５に変換する。ここで、ディスプレイやキーボード等を用いず音声情報だけで認識誤りを修正することが困難な場合は、認識率を向上させるため、利用者は単語毎に区切って発話するものとする。また、特定話者の単語音声認識に限定し、認識方式も実用化が進んでいるＤＰマッチングアルゴリズム等を用いる。
【００６２】
コマンド４６とデータ４７は、本体部２０または利用者位置・動作測定部２１に設けたボタンからの入力に相当する。先のコマンド４４及び４６とデータ４５及び４７は、それぞれメッセージ転送部５０に送られる。入力音声データ４３は、他の利用者と音声通信する場合にメッセージ転送部５０に送られる。
利用者状態検出部３０には、利用者動作検出処理３３と、利用者位置検出処理３４がある。ある一定時間ごとに利用者動作と利用者位置を検出し、それぞれ、利用者動作管理テーブル３５と利用者位置管理テーブル３６に記録する。詳細は後述する。
【００６３】
メッセージ転送部５０では、メッセージ５１を作成し、適切な処理手段へ転送する。以下、メッセージ５１のデータ構造及び処理方法について順に説明する。
本発明では、並行処理を前提としており、並行して走るプログラムをプロセスと呼ぶ。電子秘書プログラム（以下、エージェントという）群６４やハードウェア制御プログラム７２などのように、利用者が陽に指定して起動するプログラムをユーザプロセスと呼び、仮想音空間の構成を変えるプログラム等、システムが起動・制御するプログラムをシステムプロセスと呼ぶ。メッセージ５１は利用者が入力したコマンド及びデータを、それらを渡すべきプロセスと仮想音源の識別子とともにカプセル化したものである。そして、そのデータ構造は、メッセージ自身の識別子であるメッセージＩＤと、仮想音源の識別子である仮想音源ＩＤ５６と、プロセスの識別子であるプロセスＩＤ５７と、コマンド５８と、データ５９とからなる。
【００６４】
メッセージ５１が作成されると、メッセージ転送処理５５では、次にメッセージ内のプロセスＩＤに相当するプログラムすなわち、仮想音空間定義部１００と、エージェント群６４と、ハードウェア制御プログラム群７２のいずれかに当該メッセージを転送する。これらのプログラムは、メモリ上に置かれたイベント駆動型のプログラムである。つまり、何らかの要求がプログラムに送られると、各プログラムはＣＰＵ１３０をタイムシェアして使いながら、処理を実行する。
【００６５】
なお、エージェント群６４としては図１０に示す種類のものが考えられるが、新たに利用者または第三者が作成したエージェントをシステムに導入できる。この際、エージェントの名称（プロセス名称）やコマンドジェスチャ、コマンドボイス、コマンドボタンを新たに定義しておく。エージェント群６４の処理結果は、文字列として音声合成部６３に送られて音声データ１０３として出力する。
【００６６】
ハードウェア制御プログラム群７２としては、ＰＨＳ通信機１６３、１６４を制御して電子会議を行うための電子会議プログラム、ラジオ受信機１６１、ＣＤプレーヤ１６２、赤外線通信機１６０を制御するプログラムを用意しておく。処理結果、受信内容、再生内容は音情報１１５として出力される。
【００６７】
仮想音空間定義部１００では、仮想的な音空間における利用者の位置と音源の位置を設定する。この設定では、利用者の位置は固定したままで仮想音源の位置を変える場合（仮想音源位置設定処理１０４）と、あらかじめ仮想音源が設置されている仮想音空間を利用者が自由に動きまわる場合（仮想利用者位置設定処理１０５）の二種類の利用場面について考える。
【００６８】
仮想音源位置設定処理１０４では、図１２に示す仮想音空間管理テーブル１０６を用いて仮想音源の位置を定義・管理する。当該テーブルは、仮想音源ＩＤごとに、プロセスＩＤ、出力状態、仮想音源位置からなる。プロセスＩＤは、それぞれの仮想音源に割り当ててあるプロセスを識別するために用いる。特に、利用者が仮想音源を選択してコマンドまたはデータを入力する際に、システムがどのプロセスに対して入力が行われたかを識別するために用いる。
【００６９】
また、音情報は視覚情報に比べ、継続性がない。そのため、聞き逃した音を再度聞き直すことができるように、音情報一時記憶領域１１４をメモリ１３１、またはディスク１３２内に用意しておく。
【００７０】
＜詳細な説明＞
次に、上述の各構成要素の更に詳しい構成を説明する。
まず、利用者動作検出処理３３の動作について図７、図８を用いて説明する。
図７はメモリ１３１に設ける利用者動作管理テーブル（以下、動作管理テーブルという）３５の構成を示す図である。この動作管理テーブル３５には、検出時刻とその時刻における手の向きと頭の向きとを記録する。ここでは、水平方向と垂直方向の基準面からの回転角の組で向きを表している。
【００７１】
図８に頭の向きを検出する場合の例を示す。垂直方向の基準面２２０は常に利用者１の正面にあり、回転角は利用者１が正面から向かって右方向を向いた場合に正の値をとり、左方向を向いた場合に負の値をとる。図８（ａ）では、利用者１の頭部の向きは、水平方向で−４５度となっている。また、水平方向の基準面２２１は常に利用者１の耳の位置にあり、回転角は利用者１が上方向を向いた場合に正の値をとり、下方向を向いた場合に負の値をとる。図８（ｂ）の例では、利用者１の頭部の向きは、垂直方向で＋２０度となっている。それぞれの回転中心については後述する。
【００７２】
図７は、図８（ａ）での利用者頭部の向きを記録している。すなわち、時刻が１８時３０分４０秒から４２秒までの間に、頭部の向きが水平方向に−４５度だけ変化している。利用者の動作は短時間に変化する可能性があるため、１秒といった短い単位時間ごとに検出する。また、テーブル３５は、利用者動作の変化を１０分程度連続して記録できるように容量を決め、メモリ１３１に設ける。手の動きについても同様であるが、詳細は後述する。
【００７３】
利用者動作検出処理３３は、まず、ジャイロ１２２で測定した頭部の水平方向と垂直方向の回転角を、バス１６９を介して得る。そして、ジャイロ１２２がとりつけてある位置と基準面との誤差を考慮し、回転角を補正して動作管理テーブル３５に記録する。
【００７４】
図２に示すように、ジャイロ１２２を内蔵する利用者頭部向き測定部２２が利用者１の頭部頂点に配置してある場合は、水平方向の誤差はないが、垂直方向では利用者の耳の位置とジャイロ１２２の位置が違うため、耳から頭部頂上までの高さ分の誤差補正を行う。各利用者間で耳から頭部頂上までの高さの個人差は無視できるほど小さいと考えると、誤差補正処理があらかじめジャイロに組み込まれているといった構成でもよい。
【００７５】
手の向きを検出する場合も上記とほとんど同じ処理になる。利用者動作検出処理３３では、ジャイロ１２１の位置と基準面との誤差を考慮し、ジャイロ１２１で測定した回転角を補正して動作管理テーブル３５に記録する。垂直方向の基準面２２０は利用者の正面にあり、回転角は利用者が正面から向かって右方向に手を向けた場合に正の値をとり、左方向に向いた場合に負の値をとる。同じく、水平方向の基準面２２１は常に利用者の耳の位置にあり、回転角は利用者が手を上方向に向けた場合に正の値をとり、下方向に向けた場合に負の値をとる。手の動きにあわせてジャイロ１２１の位置が変わることによって生じる誤差については、利用者動作・位置測定部２１にジャイロの位置を測定する装置を内蔵するか、または誤差を許容または予測できる範囲での手の移動しか認めないといった制限を設け、補正を可能にする。
【００７６】
以上の説明では、音像を三次元空間に定位させることを前提としていたが、装置を簡単かつ安価にするため、音像を水平方向にのみ定位させる実施もありえる。この場合は、一軸のみ検出するジャイロを一つ用いる。
【００７７】
次に、利用者位置検出処理３４の動作について、図９を用いて説明する。
図９は、メモリ１３１に設ける利用者位置管理テーブル（以下、位置管理テーブルという）３６の構成を示す図である。位置管理テーブル３６には、利用者位置・動作測定部２１で測定した利用者の現在位置を記録する。図９に示す例では、ＧＰＳ１２０で測定した経度と緯度と高度を記録している。１８時３０分から３２分までの間に、利用者は東経１４０度２０分３０秒、北緯４０度４０分３５秒、高度１０Ｍの位置から東へ経度６秒分（約１８０メートル）移動している。図９の例では、経度、緯度は秒単位までであり、高度はメートル単位なので、利用者検出処理の分解能は水平方向で３０メートル程度、また垂直方向では１メートルとなっているが、他の応用ではさらに分解能をあげてもよいし、また逆に下げてもよい。
【００７８】
利用者位置管理テーブル３６は、利用者が連続して移動する時間（例えば１０時間程度）を連続して記録できるように容量を決め、メモリ１３１に設ける。
【００７９】
＜メッセージの説明＞
次にメッセージ５１について、図を用いて説明する。
図１０はメッセージ５１の例を示すものである。この図からわかるように、メッセージが送られるプロセスごとにコマンド５８の種類とデータ５９の受け渡し方は違う。まず、メッセージＩＤ１００〜１０２は仮想音空間定義部１００（図１０ではプロセスＩＤが０）に送られるメッセージの例である。仮想音空間定義部１００では受け取ったメッセージ内の仮想音源ＩＤから処理を施すべき仮想音源を特定し、同じメッセージ内のコマンドを実行する。この際、データ５９にはコマンドを実行する際の引数が記述されている。例えば、メッセージＩＤ１００では、左方向から聞こえてくる仮想音源を右方向へ移動するといった具合に解釈する。仮想音源定義部に対するコマンドは、上述の通りであるが、「強制停止」コマンドでは該当する仮想音源に割り当ててあるプロセスを強制終了する。
【００８０】
次に、メッセージＩＤ２００〜２０３ではエージェント群６４に対するコマンドとデータをカプセル化している。エージェントプログラムの種類には、例えばＰＩＭエージェント、データベース（以下、ＤＢという）検索エージェント、ニュースウォッチエージェント、位置監視エージェント等がある。ＰＩＭエージェントは、例えば利用者のスケジュールや住所録等の利用者個人情報の管理を行う。メッセージＩＤ２００では７月１日のスケジュールとして関西出張を入力している。この際、利用者が音声でデータを入力する場合は、日付や時間等は音声認識する必要があるが、予定は利用者の音声のままで保存していても構わない。
【００８１】
メッセージＩＤ２０１ではＤＢ検索エージェントに利用者が現在いる場所の観光名所を探させている。このとき、利用者の現在位置はＧＰＳから得る。ニュースウォッチエージェントは放送されているニュースを利用者の代わりに常にウォッチし、利用者が指定した内容を含むニュースのみ取り出して利用者に聞かせる。このため、利用者はニュースを常に聞いていなくても自分の興味あるニュースを自動的に入手できる。また、この場合はラジオ放送によるニュースだけでなく、テレビ放送によるニュースであっても、エージェントによるウォッチは可能で、放送内容から音声を認識し、利用者が指定した話題に関するキーワードとマッチングさせる。
【００８２】
メッセージＩＤ２０２では米国に関するニュースを集めてくるようにエージェントに命令している。また、この処理結果は、エージェントが最新のニュースを入手する度に利用者にその旨報告する。このとき、エージェントは、処理が終わった時点で、終わったことをまずアラーム、メッセージにて報告し、利用者から改めて指示があってから結果を報告するようにしてもよい。エージェントからのアナウンスはプロセスが割り当ててある左方向から常に聞こえてくるので、利用者は聞こえてくる音声がエージェントからの出力結果であることを判断できる。
【００８３】
位置監視エージェントは、利用者の現在位置を常に把握し、目的地までの道案内等を行う。もちろん、目的地の位置情報も属性として目的地データの中に備えていて、その相対位置関係を用いる。メッセージＩＤ２０３では東京駅までの道順をナビゲーションするようにエージェントに命令している。この際、現在位置から見た目的地の方向に仮想音源を配置し、利用者が進む方向を直感的に分からせるといった工夫もできる。位置監視エージェントが扱う事象としては、道案内の目的地だけではなく、後述する交通渋滞なども可能である。
【００８４】
次に、メッセージＩＤ３００〜３０２はハードウェア制御プログラム７２に送られるメッセージである。メッセージ３００と３０１では電子会議の際の利用者本人の入力音声がメッセージとしてカプセル化され、それぞれプロセスＩＤ２１と２２の電子会議プログラムに送られている。電子会議の相手に送るメッセージが相手毎に分かれているので、それぞれの相手と秘話通話もできる。また、メッセージ３０２ではラジオ制御プログラムに音量を３レベル落とすよう命令している。
【００８５】
＜メッセージ作成処理の説明＞
次にメッセージ作成処理５４について、図を用いて説明する。
図１１は、選択音源判定処理５３を含むメッセージ作成処理５４の処理フローを示す図である。流れを説明する前に、選択音源判定処理５３（ステップ２３２、２３７、２４３）について説明する。
選択音源判定処理５３では、利用者が選択（ポインティング）した仮想音源を判定し、メッセージ５１内の仮想音源ＩＤ５６を決める。以下では、本実施例におけるポインティングの方法と選択音源判定処理を場合分けして説明する。
マウスに備えられているボタンのように、ポインティングデバイスには選択を確定する手段が必要である。本実施例の利用者が選択する仮想音源の確定について説明する。
【００８６】
まず、利用者の身ぶりのみで選択を確定する方法について説明する。この場合、あらかじめ選択を確定するジェスチャ（以下、ピッキングジェスチャ：ＰｉｃｋｉｎｇＧｅｓｔｕｒｅと呼ぶ）を定義しておく。例えば、利用者が頭部の向きを変えてうなずくと、向いた方向にある仮想音源を選択したとみなす。または、利用者が腕の向きを変えて腕を軽く振ると、腕を向けた方向に配置してある仮想音源を選択したとみなす。この場合、普段の行為と区別するため、２回以上うなずかないと選択が確定されないなど、通常行うことが希なジェスチャにする。
【００８７】
次に、身ぶりと音声を組み合わせた方法について説明する。先と同じく、選択を確定する音声（以下、ピッキングボイス：ＰｉｃｋｉｎｇＶｏｉｃｅ）を定義しておく。例えば、「これ」「それ」といった指示語であったり、「選択」といった行為を表す言葉でも構わない。利用者が頭や腕の向きを変えた時に、先のピッキングボイスを発声すると、その頭部向きまたは腕の向きにある仮想音源を選択したとみなす。
【００８８】
次に、身ぶりと特別なデバイスを組み合わせた方法について説明する。このデバイスとしてはあらかじめ本体部２０または利用者動作・位置測定部２１に備え付けてあるボタン２０３、２１２等のひとつ（以下、ピッキングボタン：ＰｉｃｋｉｎｇＢｕｔｔｏｎという）を用いる。利用者が頭や腕の向きを変えた時に、ピッキングボタンを押すと、その頭部向きまたは腕の向きにある仮想音源を選択したとみなす。
【００８９】
また、身ぶりを用いず、すべて音声で行う方法もある（直接指定という）。例えば、「右方向」「左前方」といった具合に、仮想音源が配置してある方向または場所を音声で指定する。あるいは、仮想音源やプロセスに名前等の識別子を付けておいて、その名前を直接呼んで選択する。後者の場合は、仮想音源の名前を指定するのではなく、むしろ「ＤＢ検索エージェント」といった具合にプロセス名を直接指定する場合でも、そのプロセスが割り当ててある仮想音源をも選択したとみなす。
または、仮想音源の位置を画面２０１または２１１に表示し、その位置をペン等でクリックするといった仕組みが考えられる。
【００９０】
同じ方向に複数の仮想音源が配置してある場合は、利用者が指定する方向からだけでは選択された仮想音源を同定することが難しい。本実施例では、利用者がプロセス名で直接指定するか、仮想音源選択後に入力されるコマンドでシステム側が自動的に識別するか、または識別できない場合はシステム側から利用者に問い合わせるといった方法をとる。
上記いずれの選択方法においても、選択された仮想音源を利用者に確認させるという意味で、仮想音源から出力される音量を大きくしたりして変化させるといったことも有効である。
【００９１】
次に全体の流れについて説明する。まず、ステップ２３０では利用者操作を検出する。利用者が行う操作には、ジェスチャによる操作と、音声による操作と、ボタンによる操作の三種類がある。ジェスチャを検出する場合は、常に利用者動作管理テーブル３５（図７参照）を監視しておき、頭部または手の向きの変化量があるしきい値を越えた場合に利用者がジェスチャを入力したとみなす。また、音声が入力された場合とボタンが押された場合は、それぞれ音声による操作とボタンによる操作とみなす。ステップ２３０でジェスチャ、音声またはボタンの入力が検知されない場合はなにもせずにメッセージ作成処理５４を抜ける（ステップ２４８）。メッセージ作成処理５４はタイマを用いてある一定時間ごとに起動するようにし、これによって利用者操作検出を繰り返す。
【００９２】
ステップ２３１ではそのジェスチャを解析し、それがピッキングジェスチャまたはコマンドジェスチャであるかを判定する。ここで、コマンドジェスチャとは利用者がコマンドを入力するためのジェスチャを意味し、例えば頭部を横方向に振ると選択済み仮想音源の音出力を一時停止するといった具合に、ジェスチャとコマンドの対応をあらかじめ決めておく。そして、ピッキングジェスチャとコマンドジェスチャともに利用者の標準ジェスチャをあらかじめ登録しておき、入力ジェスチャとのマッチングをとる。利用者は常に同じ動作を忠実に繰り返すという前提は現実的でなく、特に時間軸のズレは大きいと考えられる。そこで、ジェスチャの特異変化点を符号化してその符号列でマッチングする方法や、時間軸のズレを吸収するＤＰマッチングアルゴリズムを使って標準ジェスチャと入力ジェスチャの変化パターンを比較する方法を用いる。
【００９３】
ピッキングジェスチャを検出すると、現在の頭部向きまたは手の向きにある仮想音源を選択したとみなし、仮想音源ＩＤをメッセージ内にセットする（ステップ２３２）。
【００９４】
コマンドジェスチャを検出した場合は、そのコマンドがどのプロセスに対するコマンドであるかをまず識別する（ステップ２３３）。例えば「移動」、「一時停止」、「出力優先」等の仮想音源に対するコマンドを検出した場合は、メッセージ転送先のプロセスを仮想音空間定義部にセットする。それ以外のコマンド（つまりユーザプロセスに対するコマンド）を検出した場合は、既にメッセージ内にセットしてある仮想音源ＩＤを調べて、その仮想音源に割り当ててあるプロセスを転送先にセットする。転送先としては、エージェントやハードウェア制御プログラムになる。この際、プロセスＩＤは、図１２に示す仮想音空間管理テーブルから選択済み仮想音源ＩＤに該当するものを検索する。また、検出したコマンドが当該プロセスに合致しない場合は、ステップ２３５で利用者に警告を発し、利用者操作検出に戻るか、または、利用者に確認をうながす。
【００９５】
ステップ２３４では、コマンド内容とデータをメッセージにセットする。ここで、メッセージが完成したことになるので、メッセージ転送処理５５によって適切なプロセスにメッセージが送られる。
【００９６】
入力ジェスチャがピッキングジェスチャとコマンドジェスチャのいずれとも違う場合は何もせずにメッセージ作成処理を抜け、再度利用者操作検出を繰り返す（ステップ２３５）。
【００９７】
同じく音声が入力された場合は、ステップ２３６で入力音声を認識し、それがピッキングボイスまたはコマンドボイスであるかを判定する。ここで、コマンドボイスとは利用者が音声で入力したコマンドを意味する。先にも述べたように、音声認識には特定話者の単語音声認識を用いるので、あらかじめピッキングボイスとコマンドボイスともに利用者の標準音声を登録しておき、入力音声とのマッチングをとる。
【００９８】
ピッキングボイスには、身ぶりや手振りによる選択を確定するための「これ」「それ」といった指示語や「選択」といった行為を表す言葉をあらかじめ設定しておく。これらピッキングボイスを検出した際は、その時点における頭部向きまたは手の向きにある仮想音源を選択したとみなし、仮想音源ＩＤをメッセージ内にセットする（ステップ２３７）。
【００９９】
「ＤＢ検索エージェント」といった具合に、プロセス名を音声で直接指定する場合は、プロセス名で指定したプロセスＩＤとそのプロセスが配置してある仮想音源のＩＤをメッセージ内にセットする（ステップ２３８）。この場合も、図１２に示す仮想音空間管理テーブルを参照し、直接指定したプロセスに対応する仮想音源ＩＤを求める。
【０１００】
コマンドボイスを検出した場合の処理（ステップ２３９及びステップ２４０）は、コマンドを音声認識によって識別すること以外は、コマンドジェスチャを検出した場合のステップ２３３とステップ２３４とほとんど同じなので詳細は省く。同じく、検出したコマンドが選択済みの仮想音源に割り当ててあるプロセスと矛盾する場合や入力音声がピッキングボイスとコマンドボイスのいずれとも合致しない場合は、ステップ２３５と同様に利用者に警告を発し、利用者操作検出に戻る（ステップ２４１）かまたは利用者に確認をうながす。
【０１０１】
ボタンによる入力が検出された場合は、ステップ２４２で利用者が選択したボタンを識別し、それがピッキングボタンまたはコマンドボタンのいずれかであるかを判定する。ここで、コマンドボタンとは利用者がボタンで入力したコマンドを意味する。
【０１０２】
ピッキングボタンには、身ぶりや手振りによる選択を確定するためのボタンをあらかじめ決めておく。このピッキングボタンを検出した際は、その時点における頭部向きまたは手の向きにある仮想音源を選択したとみなし、仮想音源ＩＤをメッセージ内にセットする（ステップ２４３）。
【０１０３】
プロセス名を表示したボタンを直接指定する場合は、プロセス名で指定したプロセスＩＤとそのプロセスが配置してある仮想音源のＩＤをメッセージ内にセットする（ステップ２４４）。ステップ２３８と同じく、仮想音空間管理テーブルを参照し、直接指定したプロセスに対応する仮想音源ＩＤを求める。
【０１０４】
コマンドボタンを検出した場合の処理（ステップ２４５及びステップ２４６）は、コマンドをボタン選択／非選択によって識別すること以外は、コマンドジェスチャを検出した場合のステップ２３３とステップ２３４とほとんど同じなので詳細は省く。検出したコマンドが選択済みの仮想音源に割り当ててあるプロセスと矛盾する場合は、利用者に警告を発し、利用者操作検出に戻るか、または、利用者に確認をうながす。また、その他のボタンが押された場合は、そのボタンに割り当ててある処理を実行する（ステップ２４７）。
【０１０５】
次に、仮想音空間定義部１００と、その中の仮想音源位置設定処理１０４について、図１２を用いて詳しく説明する。
図１２に示す出力状態は、各仮想音源からの音出力の状態を表し、通常出力と最小出力と優先出力と一時停止等の状態をとる。直感的には、仮想音源からの出力音の音量であらかじめ決められたレベルととらえても構わない。つまり、通常出力の場合は、他の仮想音源からの出力音と同等に扱われ、すべて同程度の音量レベルで出力される。最小出力では、最小限聞こえる程度の音量レベルで音が出力される。優先出力では、他の仮想音源からの出力音はすべて最小出力状態になり、結果的に当該仮想音源からの出力音が優先されることになる。一時停止状態では、当該仮想音源の出力音量レベルが０になり、利用者には何も聞こえなくなる。
【０１０６】
仮想音源位置は、感覚上の音源が利用者からみてどこに配置されているかを表す。図１２中の水平位置Ｘと水平位置Ｙと高さＺは、利用者の両耳を結ぶ線をＸ軸にとり、両耳間の中心を通り当該Ｘ軸と垂直をなす線をＹ軸に取った座標上での交点を原点としたときのそれぞれＸ座標とＹ座標を表す。同様に、高さＺは利用者の耳の位置からみた高さ方向位置を表す。図１２中ではともにメートル単位で記入してある。このＸ軸、Ｙ軸は、前述の水平方向の基準面２２１に含まれる。さらに、前述の利用者動作管理テーブル３５に記録する回転角は、このＸ軸、Ｙ軸の交点（原点）を回転中心とする。
【０１０７】
メッセージ作成処理５４が作成したメッセージ５１を、その内容に従って、メッセージ転送処理５５が該当するユーザプロセスに送ると、仮想音源位置設定処理１０４が当該ユーザプロセスに適当な仮想音源を割り当てて、さらに当該仮想音源をデフォルトの位置に配置するように、仮想音源位置管理テーブル１０６を設定する。
【０１０８】
いったん仮想音源の位置が決まると、あとは利用者が自由に配置を換えたり、各仮想音源からの出力音の音量を調整できる。利用者は先にも述べた各コマンドを入力し、仮想音源の配置や出力音量を調整する。これらのコマンドは仮想音源ＩＤとともにメッセージとしてカプセル化され、仮想音空間定義部１００に送られてくる。
【０１０９】
仮想音空間定義部１００では、メッセージ内の仮想音源ＩＤとコマンドをみて仮想音空間管理テーブル１０６を修正する。ここで、「移動」コマンドを受け取った場合は、該当する仮想音源ＩＤの音源位置をメッセージ内のデータに従って書き換える。また、「音量最小化」、「音量最小化解除」、「一時停止」、「一時停止解除」、「出力優先」、「出力優先解除」の各コマンドを受け取った場合は、テーブル内の出力状態を書き換える。この際、「出力優先」の場合は指定された仮想音源（または仮想音源群）以外はすべて自動的に最小出力状態にし、「出力優先解除」とともに元の状態に戻す。「音量変更」では各音源からの出力音量をアナログ的に調整する。
【０１１０】
また、人間の聴覚は方向性に比べて距離感の音像定位は鈍いので、仮想音空間で利用者と仮想音源間の距離を変化させることは音量を変化させることで対応する。最後に、「強制停止」コマンドでは、メッセージで指定された仮想音源ＩＤのデータを仮想音空間管理テーブル１０６から削除し、同時に当該仮想音源に割り当ててあったプロセスをメモリ１３１内から削除する。
【０１１１】
また、システム側で自動的に仮想音源の位置や出力音量を調整する場合もある。特に、緊急を要する情報や利用者があらかじめ命じておいた処理の結果はシステム側で自動的に優先出力する必要がある。このためには、図１３に示すように、ユーザプロセスが出力する音情報に重要度や内容識別子といった音情報属性を付加できるようにしておき、同時に仮想音空間定義部内の属性に対する音源位置決めの規則も変更する。例えば、音声メールを相手利用者に送る場合を想定すると、送り先に早急に聞いて欲しい内容は重要度を高く設定する。
【０１１２】
仮想音空間定義部では、当該音情報が他の音情報に優先して出力されるように加工し、受け手側では当該音情報が他の音情報に優先して出力される。また同様に、定義しておくことで、相手側でも即座に聞きたい内容をあらかじめメールエージェントに伝えておき、当該メールエージェントは音情報属性内の内容識別子から送られてきたメールの内容を判断し、送り先が設定した重要度にかかわらず当該音情報を優先出力する。
【０１１３】
この際、優先出力する前にエージェントから利用者にその旨伝達し、利用者からの許可を待って優先出力する仕組みにする。なお、他のメールについては利用者が好きなときにいつでも聞けるものとする。また、ニュースウォッチエージェントが利用者が要求する内容に合致したニュースを入手した場合も同様にシステム側で優先出力する。
【０１１４】
図１２に示すような仮想音空間が定義されると、続いて仮想音空間作成部１１０は、この定義の通りに各音情報が利用者に聞こえるような仮想音空間を作成する。具体的には、音情報内の仮想音源ＩＤ（図１３参照）をキーとして、仮想音空間管理テーブル１０６から当該音情報の仮想音空間における状態を検出し、その状態にあうよう音データを加工する。各音データが加工されると、それらをヘッドホンまたはスピーカの配置にあうように合成して出力する。音像定位加工及び合成のやり方で大きく二種類の構成が考えられ、それぞれ図１４と図１５に構成例を示す。
【０１１５】
図１４では、仮想音空間内に定位する音像の数と位置があらかじめ固定してあり、入力される音情報の数が、その音像の数と一致またはそれ以下である場合の構成を表し、音入力２５０〜２５１と仮想音空間管理テーブル２５２とクロスバースイッチ２５３と音出力２５４〜２５５からなる。クロスバースイッチ２５２では、仮想音空間内での音像位置に対応するように、音入力と音出力を対応付ける。
【０１１６】
具体的には、音入力内にどの仮想音源から出力すべきかを記載しておき、また仮想音空間管理テーブル２５２には各仮想音源がどの音出力に割り付けてあるかを記載しておく。クロスバースイッチ２５３は当該仮想音空間管理テーブルを通じて音入力と音出力を対応付ける。例えば、音出力手段としてヘッドホンを用いる場合を考えると、入力音は必然的に二種類に限られ、クロスバースイッチ２５３が入力音をヘッドホンの右及び左の出力に対応付ける。この場合は構成が簡単で、安価に実施できる。
【０１１７】
図１５は、音像の数を音出力手段の数に依存させない場合の仮想音空間作成部の構成を示すものである。。音入力２６０〜２６１から音出力２７０〜２７１にマッピングするフィルタ２６４〜２６７を設け、この結果を各出力手段ごとに設けたミキサで合成する。ここで音像の数を可変にできるよう、フィルタやミキサにはプログラム可能なＤＳＰ（Digital Signal Proccessor）等を用いる。また、音出力手段がヘッドホンなどのように音信号を両耳に直接伝達する場合とスピーカによっていったん音響空間を経て利用者に伝達する場合の二種類について処理方法を考える必要がある。以下それぞれについて説明する。
【０１１８】
まず、ヘッドホンを用いる場合には、バイノーラル方式と呼ばれる音像定位方法を用いる。音源を置いた部屋でダミーヘッドの両耳にマイクロホンを取り付けて録音したものをヘッドホンを用いて再生すると、録音した部屋と同じ音場を体験できる。この原理を応用し、各音源の位置から両耳までの音響的な伝達関数を求め、各音信号にこの伝達関数を畳み込み、両耳ごとに積分することにより、仮想音空間を作成する。この伝達関数は、無響室などにおいて音源を部屋内で移動させ、各地点でダミーヘッドの両耳に取り付けたマイクロホンから音を録音して測定する。伝達関数には個人差があるので、複数の代表的な伝達関数を用意し、利用者にあらかじめ自分にあった伝達関数を選んでもらってもよい。
【０１１９】
次に、音出力手段がスピーカである場合は、ヘッドホンを用いる場合に比べて、スピーカから両耳に至るまでの空間を音信号が伝達する際の影響を新たに考慮する必要がある。ここで、利用者の位置は固定しているとすると、スピーカから利用者の両耳までの伝達関数を求め、これを先のバイノーラル方式で求めた伝達関数と組み合わせたフィルタを用いればよい。本方式は、トランスノーラル方式と呼ばれる。スピーカから見た利用者の位置は固定していることを前提とするので、車載型情報通信システム等で本発明を実施する場合に用いる。また、音出力手段は２個より多ければ、より多くのスピーカで仮想音空間を作成できるので、安定した音像定位が得られる。
【０１２０】
図１５の音入力２６０には仮想音源２７２が対応している。これは、音情報内の仮想音源ＩＤから判断する。また、当該仮想音源２７２の仮想音空間内での位置は仮想音空間管理テーブル１０６からわかる。その音源位置から音出力手段２７０を通じて利用者の耳に伝達されるまでの伝達関数がフィルタ２６４に対応する。一方、フィルタ２６５は音出力手段２７１を通した場合の伝達関数であり、フィルタ２６６と２６７は音入力２６１に対応する仮想音源が置かれた位置から出力手段２７０と２７１を通した場合の伝達関数に相当する。それぞれ入力された音を伝達関数で畳み込み、これを各音出力手段に対応して設けられたミキサ２６８〜２６９で合成する。なお、図４中の音像定位加工処理１１１は図１５中の処理２６２〜２６３に対応する。同じく、音合成処理１１２はミキサ２６８〜２６９での処理に対応する。
【０１２１】
フィルタ２６４〜２６７の伝達係数は、各仮想音源位置と各出力手段とのマトリックス（図１６参照）としてディスク１３２中に保存されている。なお、図１６では、簡単のため、仮想音源位置は四種類しか記載されていないが、もちろん多様な仮想音源位置を設定することができる。この場合、人間が音像を聞き分ける能力とシステムによる音像定位の性能とを考慮に入れて仮想音源位置の分解能を決める。
【０１２２】
＜ソフトウェア全体構成の説明＞
図１７に、これまでに述べたソフトウェア構成図の全体の大まかな流れを示す。ステップ２８３からステップ２８８はすでに述べたので、ここではステップ２８１とステップ２８２の前処理と、ステップ２８９の後処理について述べる。プログラム起動時には仮想音空間をデフォルトの状態に設定する（ステップ２８１）。利用者が前回終了時の状態で起動したい場合は、その旨設定できるように、ステップ２８９にて常に終了時の仮想音空間の状態をディスク１３２中に保存しておく。また、音情報は視覚情報と比べて一覧性に劣るので、どのユーザプロセスが仮想音空間中のどの位置に割り当てられたかを利用者に知らせる必要がある。ステップ２８２では、例えば、各ユーザプロセスごとにプロセス名と現在位置を利用者にアナウンスすることによって、仮想音空間の初期状態を知らせる。また、利用者は起動後も任意に仮想音空間の状態を知ることができる。
【０１２３】
＜実施例の利用例＞
以下、図を用いて上記実施例における音情報提供装置の利用例を示す。
図１８は利用者による音情報の選択及び入力とその結果出力される音情報との関連を時間軸に従って記載したものである。図１９は図１８の時刻t1からt2までの仮想音空間２９０の状態を表したものである。
ラジオからの出力音は音像２９２に、Ｂ氏との電子会議からの出力音声は音像２９３に、同じくＡ氏からの出力音声は音像２９４に、電子秘書からの合成音声の出力は音像２９５に配置してある。
【０１２４】
まず、時刻t1までは右方向の音情報としてラジオからの出力が選択されている。時刻t1で電子会議を行うための呼出音が前方から聞こえ、この前方の音を利用者が選択することにより電子会議が開始される。選択方法は前述のいずれでもよい。
利用者動作検出処理３３は、ジャイロ１２１、１２２の動作を図７の動作管理テーブル３５に記録し、メッセージ作成処理５４が、図１１に示すステップに従って、選択内容を判定してメッセージ５１を作成し、メッセージ転送処理５５がハードウェア制御プログラム群７２にメッセージを転送する。
【０１２５】
ハードウェア制御プログラム群７２はＰＨＳ通信機１６３、１６４を介した電子会議相手の声を音情報１１５として渡す。
この時、会議相手の配置はあらかじめ仮想音空間定義部１００を介して定義してあり、仮想音空間作成部１１０によって、Ａ氏の音声が左前方から聞こえ、Ｂ氏の音声が右前方から聞こえる。
【０１２６】
時刻t2で、利用者は電子会議で必要となった情報をデータベースから検索するため、あらかじめ左方向に配置しておいた電子秘書を起動する。利用者２９１が方向２９９と方向３００の間を向いて、選択動作を行うと、利用者状態検出部３０によってコマンド４６が作成される。コマンド４６は、メッセージ転送部５０によってメッセージ５１となり、エージェント群６４に渡される。この結果、エージェント群６４のうち、たとえば、ＤＢ検索エージェントが起動される。このとき、仮想音空間作成部１１０は、電子秘書の音像２９５が仮想空間内を利用者２９１に近づく方向に移動し、電子会議の音像２９３と２９４がともに利用者２９１から離れる方向に移動するように、音像を制御する。なお、上述のように、仮想音空間で利用者との距離を変化させることは音量を変化させることで対応する。
【０１２７】
電子秘書（エージェント群６４）が起動されると、利用者は、データベース検索命令と検索条件を入力する。検索内容をマイク２３から入力すると、入力音声データ４３は、音声認識部４１で認識され、コマンド４４、データ４５が作成される。コマンド４４、データ４５は、メッセージ転送部５０によってメッセージ５１となり、エージェント群６４に渡される。
【０１２８】
エージェント群６４がデータベースを検索している時刻t3から時刻t4の間、利用者は前方の音情報を選びなおし、電子会議を再開する。図１８中の時刻t3で前方を指し示すと、上述と同様の過程を経て、再度電子会議が選択される。ここで、利用者が指し示した方向は２９８であり、音像２９３と音像２９４との中間にあたる。これは、Ａ氏及びＢ氏両者との電子会議を選択したことを意味する。
【０１２９】
時刻t4で、検索処理が終わると、エージェント群６４は左方向から、音声合成部６３で合成した音声またはアラーム音で知らせる。利用者が電子秘書を再度選ぶと、検索結果を音声合成部６３で音声合成し、音情報１１５として出力する。この時、出力内容は同時に音情報一時記憶領域１１４に蓄積される。利用者は聞き逃したり即座に理解できなかった場合に、入力音声データ４３、コマンド４６を入力することで、何度も繰り返し聞き直すことができる。
【０１３０】
時刻t5で、利用者は、検索結果についてＡ氏のみと話し合うため、左前方の音情報を選択する。選択は上述のように行う。時刻t5では方向２９８と方向２９９の丁度真ん中あたりにある音像２９４を指し示したため、メッセージ作成処理３３はＡ氏のみと電子会議を再開するようメッセージ５１を作成し、ハードウェア制御プログラム群７２に転送する。人間の聴覚は左右水平方向の音源には敏感で、２°〜３°程度の誤差で音源の場所を言い当てることができる。なお、この時、右前方からＢ氏からの音声も聞こえていて構わないが、Ｂ氏には利用者からの音声は届かないように、ハードウェア制御プログラム群７２はＰＨＳ通信機６３または１６４を制御する。これは電子会議で特定の相手と「ひそひそ話し」する場合などに適用できる。
【０１３１】
時刻t6では、Ｂ氏もまじえて電子会議を再開し、時刻t7で電子会議を終了する。終了するとともに、これまで電子会議開始後から一時停止状態だったラジオからの出力が自動的に再開される。
【０１３２】
仮想音空間の状態を図５に示す画面２０１または図６に示す画面２１１に図示して、ボタンで選択するようにしてもよい。
また、利用者操作により、ラジオの音像２９２と電子秘書の音像２９５を入れ替えるなど、音像の位置を変更することも可能である。
本実施例では、ＧＰＳ（または室内位置検出用の赤外線データ受信機）が腕時計型の本装置２１に内蔵されると述べてきたが、必ずしもこのような構成である必要はなく、例えばＧＰＳが本体部２０に内蔵されていても構わない。
【０１３３】
また、利用者の手の動きを測定する手段として、ジャイロの代わりにデータグローブを用いる構成も考えられる。データグローブは、グローブの各指の上部に光ファイバが通してあり、指を伸ばしたり曲げたりする際の光の屈折率によって、手の動きと現在の手の形状を検出する。従ってデータグローブを装着した利用者の手や指の動きも容易に検出できる。さらには、利用者の指輪や腕時計に発光体を装着し、それらをはめた手をビデオカメラで撮影するといった構成も考えられる。ここでは、手の映像を画像処理し、発光体の位置を抽出することによって利用者の手の動きを測定する。
【０１３４】
＜他の実施例＞
つぎに、他の実施例について図を用いて説明する。
図２０と図２１は、本発明の実施例に係る音情報提供装置の他の利用場面及び装置構成を表した図である。以下、それぞれ説明する。
【０１３５】
図２０は、本発明を車載型情報通信システムで用いた場合の利用例を表す。最近の自動車３１０では、自動車電話３１３や、ＣＤプレーヤ３１４や、カーラジオ・ＴＶ３１５等が備え付けられたものが多い。さらには、自動車ナビゲーションシステムなどのように、自動車測位装置３１６も備え付けているものもある。一般に、これは別々に制御され、スピーカ３１９〜３２０（前述のスピーカ１５１に対応する）から出力される。ここで、本発明による音情報提供装置３１１と、利用者の音声を入力するマイク３１２と、利用者の動作を検出するためのビデオカメラ３１７及び指輪型の発光体３１８を新たに設置する。
【０１３６】
この実施例では、利用者の現在位置に応じた情報を提供する。例えば、高速道路を走りながら音楽を聞いていて、あるポイントに車が近づくと進行方向から自然に道路渋滞情報が聞こえてくる。提供される情報にはそれが利用者にとって有効と思われる有効範囲を示すデータも含まれており、利用者がその場所に近づいて初めて情報が自然に聞こえてくる。また、その情報に関連する事象が発生した場所に関するデータも位置属性として提供され、聞こえてくる方向は利用者の現在位置から見た情報発生場所の方向と対応付けられている。道路渋滞情報の場合、渋滞している方向から音情報が聞こえると、利用者は不慣れな場所を運転していても、どこが渋滞しているかを容易に判断できる。
【０１３７】
これを実現する際は、まず前記ＧＰＳなどの利用者状態検出部３０から利用者の現在位置を入手し、提供される情報に含まれる有効範囲のデータと比較し、現在位置が有効範囲内にある場合は当該音情報を出力する。
このことにより、先に説明したような利用者の現在位置に応じた道路交通情報の入手など、今までにない新しい効果を得ることができる。
【０１３８】
これを発展させ、利用者が指し示した方向から提供される情報を出力するなどの応用も考えられる。例えば、電車の中吊り広告に音情報の発信器が取り付けてあり、音情報が放送されている。利用者がその中吊り広告を指し示したことによって、その中吊り広告が発信している音情報を選択したことになり、利用者には指し示した方向から当該音情報が聞こえてくる。
【０１３９】
なお、第１の実施例において、利用者の動作は秒単位で変化するが、位置の検出では本実施例の最小単位が３０メートルであり、利用者が歩いて移動することを前提とすると利用者位置は急激に変化しない。そのため、図７と図９で時刻の分解能を変えていた。しかし、本実施例において、本装置を車載システムとして実施する場合は、図９の時刻の分解能はさらに細かくとるべきである。また、歩行と乗り物による移動が併用される場合は、位置の変化量から時刻の分解能を動的に変えるといった方式をとる。例えば、利用者位置を検出する時間間隔の上限値を設定して、その範囲内で前時刻から現時刻までの利用者位置の変化量に反比例させて時間間隔を決める。
【０１４０】
最後に、図２１は本発明による音情報提供装置を室内で利用する場合の応用例を表す。室内３３０の天井には、利用者からのデータを送受信する赤外線データ送受信機３３２と、スピーカ３３４〜３３５と、利用者が部屋にいるかどうかを識別するためのビデオカメラ３３３が備え付けてある。利用者も腕時計型の赤外線データ送受信機３３１を内蔵した利用者位置・動作測定部２１を携帯している。前記複数の赤外線データ送信機３３２は、たえず送信機の位置と時刻のデータを送信する。そして、利用者が身に付けている赤外線データ受信機３３１は、前記送信機からのデータを受信して、各送信機からの距離を計算する。計算した利用者の現在位置は、常に赤外線データ送受信機３３２に送信している。
【０１４１】
また、本装置を室内などある決まった領域で用いる場合は、緯度、経度、高度に相当する何らかの基準を決めておく必要がある。例えば、基準となる原点と水平方向のＸＹ軸を適当に決めて、原点から見た利用者の現在位置をメートル単位で利用者位置管理テーブル３６に記録する。
【０１４２】
サーバコンピュータ６１は、利用者の現在位置を常に把握し、その場所に応じた音情報を出力する。例えば、室内のある領域が立入制限区域になっており、許可を受けていない利用者がその領域に近づくと、制限区域の方向から警告メッセージが流れる。利用者は警告を知るだけでなく、警告メッセージが聞こえる方向からどこが立入制限区域であるかも判断できる。また、本応用例では利用者が動きまわることを前提としているため、音像定位の方法として、図１４による方法を用いるが、この時スピーカ３３４〜３３５はコンピュータ制御により自由に配置できることが望ましい。図２１ではスピーカ３３４〜３３５を天井に配置しているが、スピーカを床に配置し自由に移動できる手段を設けた応用例も考えられる。
【０１４３】
また、本発明は視覚情報を用いずに情報提供できるという点で、目の不自由な障害者向けの情報提供装置としても応用できる。その場合は、本体部２０と利用者位置・動作測定部２１は、ボタン２０３、２１２がより重要になり、画面２０１、２１１に表示されるソフトウェアボタンよりは、各キーの形状、キートップの凹凸に特徴を持たせた機械的なボタンの方が望ましい。
【０１４４】
【発明の効果】
以上述べたように、本発明によれば、複数の音情報を音像定位し、合成することにより、利用者は複数の音が同時にそれぞれの方向から聞こえてくるように感じることができる。
【０１４５】
さらに、利用者は同時に聞こえる複数の音情報の中から優先して聞きたい音情報を選択したり、聞きたくない音情報を消したり、音情報の聞こえる方向やそれぞれの音量を自由に変更したりできる。
【０１４６】
さらに、利用者が選択した音情報に割り当てられた処理に利用者の命令またはデータを送ることができる。
【０１４７】
以上により、音情報における「ウィンドウ」や「マウス」に相当する概念を提供することができる。この結果、利用者は仮想的な音空間を渡り歩くことによって平行して仕事を進めることができ、人間とコンピュータとの対話及び人間と人間との対話の効率も向上する。
【図面の簡単な説明】
【図１】本発明の特徴を概念的に表す説明図である。
【図２】本発明の一実施例に係る音情報提供装置の利用イメージと基本構成を表す説明図である。
【図３】本発明の一実施例に係る音情報提供装置のハードウェア構成を表す説明図である。
【図４】本発明の一実施例に係る音情報提供装置のソフトウェア構成を表す説明図である。
【図５】本体部の装置外観を表す説明図である。
【図６】利用者位置・動作測定部の装置外観を表す説明図である。
【図７】利用者動作管理テーブルの構成を表す説明図である。
【図８】利用者頭部向きを検出する場合の例を表す説明図である。
【図９】利用者位置管理テーブルの構成を表す説明図である。
【図１０】メッセージの例を表す説明図である。
【図１１】メッセージ作成処理の処理フローを表す説明図である。
【図１２】仮想音空間管理テーブルの構成を表す説明図である。
【図１３】音情報の構成を表す説明図である。
【図１４】仮想音空間作成部の構成例を表す説明図である。
【図１５】仮想音空間作成部の別の構成例を表す説明図である。
【図１６】図１５における仮想音空間作成部のフィルタを管理するテーブルを表す説明図である。
【図１７】ソフトウェア構成図の全体の処理フローを表す説明図である。
【図１８】本発明の一実施例に係る音情報提供装置の利用例を表す説明図である。
【図１９】図１８の時刻t1からt2までの仮想音空間の状態を表す説明図である。
【図２０】本発明を車載型情報通信システムで用いた場合の応用例を表す説明図である。
【図２１】本発明のよる音情報提供装置を室内で利用する場合の応用例を表す説明図である。
【符号の説明】
１…利用者、２…電子秘書、
３…電子会議、４…電子会議、
５…放送・音再生、６〜９…音像、
１０…仮想音空間、２０…本体部、
２１…利用者位置・動作測定部、２２…利用者頭部向き測定部、
２３…マイク、２４…ヘッドホン、
３０…利用者状態検出部、３１…利用者動作、
３２…利用者位置、３３…利用者動作検出処理、
３４…利用者位置検出処理、３５…利用者動作管理テーブル、
３６…利用者位置管理テーブル、４０…音声入力部、
４１…音声認識部、４２…入力部、
４３…入力音声データ、４４…コマンド、
４５…データ、４６…コマンド、
４７…データ、５０…メッセージ転送部、
５１…メッセージ、５３…選択音源判定処理、
５４…メッセージ作成処理、５５…メッセージ転送処理、
５６…仮想音源ＩＤ、５７…プロセスＩＤ、
５８…コマンド、５９…データ、
６０…電子秘書、６１…サーバ、
６２…データ通信手段、６３…音声合成部、
６３…エージェント群、７０…放送受信手段、
７１…放送局、
７２…ハードウェア制御プログラム群、
８０…音再生手段、８１…ＣＤ、
９０…音声通信手段、９１…音声通信手段、
９２…通信相手、９３…通信相手、
１００…仮想音空間定義部、１０１…仮想利用者位置、
１０２…仮想音源位置、１０３…音情報属性、
１０４…仮想音源位置設定処理、
１０５…仮想利用者位置設定処理、
１０６…仮想音空間管理テーブル、１１０…仮想音空間作成部、
１１１…音像定位加工処理、１１２…音合成処理、
１１３…仮想音空間出力部、１１４…音情報一時記憶領域、
１１５…音情報、１２０…ＧＰＳ、
１２１…ジャイロ、１２２…ジャイロ、
１３０…ＣＰＵ、１３１…メモリ、
１３２…ディスク、１４０…Ａ／Ｄ変換器、
１４１…ボタン類、１５０…Ｄ／Ａ変換器、
１５１…スピーカ、１６０…赤外線通信機、
１６１…ラジオ受信機、１６２…ＣＤプレーヤ、
１６３、１６４…ＰＨＳ通信機、１６５〜１６８…Ａ／Ｄ変換器、
１６９…バス、２０１…液晶画面、
２０２…ペン、２０３…ボタン、
２０４〜２０６…ＰＣカード用スロット、２０７…赤外線通信機、
２０８…ファックスモデム、２０９…カバー、
２１１…液晶画面、２１２…ボタン、
２１３…マイク、２１４…バンド、
２５０〜２５１…音入力、
２５２…仮想音空間管理テーブル、２５３…クロスバースイッチ、
２５４〜２５５…音出力、２６０〜２６１…音入力、
２６４〜２６７…フィルタ、２６８〜２６９…ミキサ、
２７０〜２７１…音出力、２７２〜２７３…仮想音源、
２９１…利用者、２９２〜２９５…音像、
２９６〜３００…方向、３１０…自動車、
３１１…音情報提供装置、３１２…マイク、
３１３…自動車電話、３１４…ＣＤプレーヤ、
３１５…カーラジオ・ＴＶ、３１６…自動車測位装置、
３１７…カメラ、３１８…発光体、
３１９〜３２０…スピーカ、３３０…室内、
３３１…赤外線データ送受信機（携帯型）、
３３２…赤外線データ送受信機（据置型）、
３３３…カメラ、３３４〜３３５…スピーカ

Claims

内容、種類の異なる複数の音情報を利用者に提供する装置であって、
各音情報に対応し、前記各音情報を生成する処理手段と、
前記各音情報の内容、種類に応じて前記複数の音情報の仮想的な音源位置を音空間に定義する仮想音空間定義手段と、
前記音情報の音像を、前記定義された仮想音源位置に定位させる音像定位加工手段と、
音像定位加工された前記複数の音情報を出力する手段と、
前記利用者が向いた方向又は前記利用者が指示した方向を検出する利用者指示検出手段と、
前記利用者が向いた方向又は前記利用者が指示した方向にある前記仮想音源位置に配置された前記音情報とその音情報を生成する処理手段を選択する音情報操作手段と、
前記音情報操作手段によって選択された前記音情報に対する処理であって前記利用者の入力に応じた処理のためのコマンド又はデータを、前記音情報操作手段によって選択された前記音情報を生成する処理手段に転送する転送手段とを備えたことを特徴とする音情報提供装置。
前記利用者指示検出手段が検出する前記利用者が向いた方向又は前記利用者が指示した方向は、利用者動作、あるいは利用者音声の少なくともいずれか一つから検出されることを特徴とする請求項１記載の音情報提供装置。
前記音情報提供装置は、利用者の位置を測定する位置測定手段を備え、
前記音情報は、当該音情報が関連する事象の位置情報を属性として備え、
前記仮想音空間定義手段は、前記位置測定手段が測定した利用者位置と、前記音情報が表す位置に基づいて、前記利用者位置を基準とした前記音情報の仮想的な音源位置を定義することを特徴とする請求項１または２記載の音情報提供装置。
前記転送手段は、前記音情報操作手段によって選択された前記音情報に関する識別番号と前記コマンド又はデータをメッセージとして、前記仮想音空間定義手段へ転送し、
前記仮想音空間定義手段は、前記メッセージの内容に応じて前記音情報の仮想的な音源位置を音空間に定義することを特徴とする請求項１ないし３いずれか一に記載の音情報提供装置。
前記音情報提供装置は、前記利用者からの入力を受ける手段を備えることを特徴とする請求項１ないし４いずれか一に記載の音情報提供装置。
前記仮想音空間定義部は、前記音空間をあらかじめ定めた基準位置を中心に構成し、
前記利用者指示検出手段は、前記利用者が向いた方向又は前記利用者が指示した方向を前記基準位置を中心とした方向に補正することを特徴とする請求項１ないし５いずれか一に記載の音情報提供装置。
前記仮想音空間定義手段は、あらかじめ音情報の内容、種類毎に仮想的な音空間における音源位置決定規則を定めておき、
提供される音情報の内容、種類を前記音源位置決定規則に当てはめて音源位置を決めることを特徴とする請求項１ないし６いずれか一に記載の音情報提供装置。
前記音情報を生成する処理手段は、前記コマンド又はデータに従って処理を行い、処理終了時にその処理結果、または終了通知を音情報にて出力するものであることを特徴とする請求項１ないし７いずれか一に記載の音情報提供装置。
前記音情報は、属性として重要度または優先度を備え、
前記仮想音空間定義手段は、前記重要度または優先度が高い音情報を利用者位置の近くに定義し、前記重要度または優先度が低い音情報を利用者位置から遠くに定義するように設定することを特徴とする請求項１ないし８いずれか一に記載の音情報提供装置。
前記音情報に対する処理は、前記音像の移動と、音量の変更と、一時的な出力の停止と、一時停止の解除と、優先出力と、優先出力からもとの状態への復帰と、音情報の出力停止を含むことを特徴とする請求項１ないし９のいずれか一に記載の音情報提供装置。
前記音情報を出力する手段の出力数は、前記音像定位加工手段が音像定位加工した音情報の数より少ない数であって、
前記音情報提供装置は、前記音像定位加工手段が音像定位加工した音情報を、前記音情報を出力する手段の出力数に合成する手段を備えたことを特徴とする請求項１ないし１０のいずれか一に記載の音情報提供装置。
内容、種類の異なる複数の音情報を利用者に提供する方法であって、
各音情報に対応した処理手段において前記各音情報を生成し、
前記各音情報の内容、種類に応じて前記複数の音情報の仮想的な音源位置を音空間に定義し、
前記音情報の音像を、前記定義された仮想音源位置に定位させ、
音像定位加工された前記複数の音情報を出力し、
前記利用者が向いた方向又は前記利用者が指示した方向を検出し、
前記利用者が向いた方向又は前記利用者が指示した方向にある前記仮想音源位置に配置された前記音情報とその音情報を生成する処理手段を選択し、
選択された前記音情報に対する処理であって前記利用者の入力に応じた処理のためのコマンド又はデータを、選択された前記音情報を生成する処理手段に転送することを特徴とする音情報選択方法。