JPH0793367A

JPH0793367A - 音声情報検索システム及び装置

Info

Publication number: JPH0793367A
Application number: JP5241654A
Authority: JP
Inventors: Atsushi Matsushita; 温松下; Kenichi Okada; 謙一岡田; Naoto Oki; 直人大木; Tatsu Kikura; 龍亀倉; Keiichi Abe; 圭一阿部
Original assignee: Individual
Current assignee: Individual
Priority date: 1993-09-28
Filing date: 1993-09-28
Publication date: 1995-04-07

Abstract

(57)【要約】（修正有）【目的】仮想的な音場空間と、これに対応する視覚手
段を具えた検索インターフェースにより多数の音源中か
ら求める音源を検索し、そのデータ表示を受ける。【構成】想的音場空間と、当該音場空間の多数の音源
に対応する視覚手段とを具えた検索インターフェースに
より、多数の音源中から、求める音源の方向・距離を頼
りにこれにアクセスし、マウスなどのデバイスで、当該
映像及び音場空間中を移動すれば、所定のポイント毎に
当該部の視覚手段を現わし、求める音源に到達した場合
に、当該音源の映像とその特性などを出力することを特
徴とした音声情報検索システム。システム全体を制御す
るメイン制御部に、ユーザの指示を入力するマウス入力
部と、画像を蓄積及び提供する画像インターフェース部
と、発音制御のオーディオ制御部を夫々連結し、オーデ
ィオ制御部にオーディオ出力部を連結し、画像インター
フェース部に画像出力部を連結する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、仮想的な音場空間
と、これに対応する視覚手段を具えた検索インターフェ
ースにより多数の音源中から求める音源を検索し、その
データ表示を受けることを目的とした音声情報検索シス
テム及び装置に関する。

【０００２】

【従来の技術】従来知られているリンク法は、文字デー
タ・数値データを主に扱うためのデータベースで、拡張
機能としてマルチメディアデータを扱うときによく用い
られる方式であり、最も簡便な方法である。この方法で
は、マルチメディアデータは１つ、場合によっては複数
の文字データ・数値データとリンクされ、ある検索条件
によって文字データ・数値データが検索されると、それ
らとリンクされている画像データ・音声データが同時に
ユーザに提供される。

【０００３】またインデックス法は、従来のデータベー
スにおけるインデックス検索をそのままマルチメディア
情報に応用したものである。各データの整理番号あるい
はデータ名と、そのデータが格納されている記憶デバイ
スのアドレスとの対応表がインデックスである。前記に
よる場合の検索は、ユーザが整理番号あるいはデータ名
を検索システムに入力し、システムが入力された整理番
号あるいはデータ名をインデックスと照らしあわせ、そ
のデータの記憶デバイス上の位置を得て、目的のデータ
を出力するという手順で行われる。

【０００４】このインデックス法を用いたシステムの身
近な例として、ＣＤがある。ＣＤには曲目（データ）に
応じてトラック番号があり、ユーザはデータとトラック
番号との対照表（インデックス）を見て、聴きたい曲の
トラック番号を知ることができる。この番号をＣＤプレ
ーヤに入力することによって、聴きたい曲を聴くことが
できる。こうしてみると、ＣＤはそれ自身が立派な音声
データベースと言える。

【０００５】次にキーワード法は、前記のインデックス
法を使いやすく改良したもので、各データにそのデータ
の属性など関連する複数のキーワードを付加し、それら
のキーワードによって検索しようという方法である。多
くのマルチメディアデータベースがこの方法を採用して
いる。

【０００６】更にパターンマッチング法は、認識技術が
発達し、コンピュータに対しマルチメディア情報を入力
し、それを認識・内容解析することが可能となり、音声
のデータを音声の検索条件によって検索することが実現
した。このような検索方式は、キーワード検索のように
メディア間の変換（音声データから文字データへ、又は
文字データから音声データへ）を経る必要がないため、
より適切な音声情報検索が可能である。鳥類図鑑のハイ
パーブック（Ｈｙｐｅｒｂｏｏｋ）では、検索したい鳥
の鳴き声をユーザが真似ることによって検索条件を入力
することができる。ユーザの鳴き真似を解析し、振幅構
造・ピッチ構造・周波数成分変化構造などの音響的特徴
を解析し、登録されている鳥の鳴き声データの音響的特
徴との照合を距離関数によって行う。

【０００７】

【発明により解決すべき課題】前記リンク法は、あくま
でもマルチメディアデータは文字データ・数値データの
付録として扱われ、それ自身を直接検索することが困難
という問題点があった。

【０００８】またインデックス法では、ユーザが検索し
たい情報の整理番号・データ名を知らない場合には検索
が非常に困難になる問題点がある。例えばユーザがＣＤ
の曲名と曲番号との対応を調べないと（覚えていない
と）聴きたい曲を容易に検索できないことが往々ある。

【０００９】次にキーワード法では、音声データや画像
データに含まれる情報を完全にキーワードで表現するこ
とは不可能である、例えば「ドビュッシー」の曲“月の
光”やキリコの絵、“町の神秘と憂愁”が持つ雰囲気を
完全に言葉で表現しようとしても無理なように、どんな
に熟慮されたキーワードでも、結局はそのデータを聴い
てみるか観てみるかしない限りは、その検索結果が適当
か否か判断できない。

【００１０】更にパターンマッチング法の問題点は、音
声による検索条件の入力である。例えば鳥類図鑑で鳴き
真似を採用することによってこの問題の解決を試みてい
るが、鳥の鳴き声を事細かに表現するのは困難である。

【００１１】

【課題を解決するための手段】然るにこの発明は、前記
従来方式の各問題点を解消する為に人工現実感を用いた
新たな検索方式を提供するインターフェースを提案する
ものである。前記新たな方式は、インタラクティブ（ｉ
ｎｔｅｒａｃｔｉｖｅ）な音場インターフェースでは、
ユーザがマウスなどのディバイスで自分の動きをインタ
ーフェースに伝えると、インターフェースは、その動き
に応じた音場をユーザに提供し、これによってユーザは
恰も仮想的な空間で自分が移動したかのように感じるこ
とができる。さらに音場の動きに応じて次の行動を起
す。このようにユーザはインターフェースと情報を交換
しながら、仮想的な空間を動き回ることができるので、
これをインタラクティブな音場インターフェース（ｉｎ
ｔｅｒｆａｃｅｗｉｔｈｉｎｔｅｒａｃｔｉｖｅｓ
ｏｕｎｄＦｉｅｌｄ、以下ＩＳＦという）と名づけ
た。

【００１２】ＩＳＦは、音声データベースに登録されて
いる音声データを仮想的な音場に配置して、ユーザはそ
れらの音声データが発する音の方向、距離を手掛かりに
音場空間を移動し、欲する情報に辿り着く検索インター
フェースである。ある情報に近づくことによって、その
データの持つ音声情報だけでなく、画像データなど他の
メディアの情報をディスプレイ上に表示することもでき
る。

【００１３】即ちこの発明は仮想的な音場空間と、当該
音場空間の多数の音源に対応する視覚手段とを具えた検
索インターフェースにより、前記多数の音源中から、求
める音源の方向・距離を頼りにこれにアクセスし、マウ
スなどのデバイスで、当該映像及び音場空間中を移動す
れば、所定のポイント毎に当該部の視覚手段を現わし、
求める音源に到達した場合に、当該音源の映像とその特
性を出力することを特徴とした音声情報検索システムで
ある。

【００１４】また他の発明は仮想的な音場空間は、人間
の聞き分け可能な範囲に音源を配置する空間とすること
を特徴としたものであり、仮想的音場空間を多階層化
し、アクセス域を絞り込み可能としたものである。

【００１５】次に他の発明は視覚手段として、レーダー
ウインドウ、鳥瞰ウインド、３Ｄウインド及びデータ表
示ウインドを採用したものである。

【００１６】更に装置の発明は、システム全体を制御す
るメイン制御部に、ユーザの指示を入力するマウス入力
部と、画像を蓄積及び提供する画像インターフェース部
と、発音制御のオーディオ制御部を夫々連結し、前記オ
ーディオ制御部にオーディオ出力部を連結し、画像イン
ターフェース部に画像出力部を連結したことを特徴とす
る音声情報検索装置である。

【００１７】ＩＳＦは音声情報検索インターフェースと
して以下の特徴を持っている。１．検索条件の入力を必要としない。（１）明確な検索条件が不要。（２）検索条件のメディア変換が不要。（３）ブラウジングによる情報検索。（４）簡潔なインターフェース。２．音像が左右の定位感、距離感を持つ。３．複数の音声データを同時に聴くことができる。４．データ空間をアプリケーションに応じて演出するこ
とが可能である。５．音声情報の階層化が可能である。

【００１８】前記特質について更に詳細に説明する。

【００１９】前記したように、検索条件を入力しなくて
も情報が得られるという長所は、いくつかのメリットを
派生する。例えば検索条件が不要なのであるから、従来
のデータベース検索のように確固とした検索条件が無く
ても、“確かこんな音だった”という漠然としたイメー
ジがあれば検索が可能である。

【００２０】また、音を聴きながら情報を検索するので
あるから、キーワード検索のように検索条件を無理遣り
他のメディアに変換すること無く音声情報の検索ができ
る。

【００２１】ユーザが本をパラパラめくりながら情報を
探すときのように、あれこれと情報を“つまみ食い”し
ながら欲しい情報を探すという方法は、ブラウジングと
呼ばれており、画像インターフェースの分野ではよく知
られている。もしかすると、これらブラウジングの途中
で見られる情報の中にも有用な情報があるかも知れない
し、現実世界では、そのような偶然チラッと見た情報
が、実は有用な情報であるというケースは、研究のため
の文献を探しているときに誰もがよく経験することであ
る。このような偶然の情報の発見は、従来のデータベー
ス検索においては不可能である。このようにブラウジン
グは、人間的なインターフェースとして有効であり、こ
れを音声情報にも適用できるようにしたのである。

【００２２】また、従来のデータベースシステムでは、
検索のためのインターフェースが非常に複雑であった。
これは検索条件を入力する作業が煩雑である場合が多
い。検索条件の設定はどうしても文字を入力する作業が
必要になるし、全ての操作をマウスで行えるようなシス
テムも提案されているが、やはり検索条件を設定する作
業が必要であることには変わり無い。この点ＩＳＦで
は、ユーザは自分が音空間の中でどこに移動したいか
を、入力デバイスを用いてシステムに指示するだけでよ
い。現在のところ入力デバイスはマウスを用いている
が、方向が指示できさえすればよいので、キーボードの
１０キーでもデータグローブでも操作は可能である。

【００２３】ＩＳＦの音インターフェースは、左右の定
位感・遠近感を伴って提供される。このような立体感を
伴った音場は、ユーザがより自然な形で音声データを聴
取できる環境を実現し、これによって同時に発せられる
複数の音声データを聞き分けることが可能となる。

【００２４】人間には、同時に複数の音声が存在する環
境で、ある特定の音声だけを聴き取る能力がある。例え
ば、人が大勢集まってガヤガヤと会話が飛び交っている
カクテルパーティのような場所でも、自分の名前が会話
に出てくると、パッと振り向くことができる。これにな
ぞられて、このような効果はカクテルパーティ効果と呼
ばれている。カクテルパーティ効果は、個々の音源が独
自の左右定位・距離定位を持った音像である場合により
効果が強く現れる。そこで、音声データベースに登録さ
れているいくつかのデータを個々の左右定位・距離定位
で再生する事により、それらを識別・比較することがで
きる。

【００２５】仮想的な音空間に音声データを配置する際
に、ただ無秩序にデータを配置したのではユーザに混乱
を招くだけである。そこで、仮想的な音空間を何かに似
せて演出することを考えた。

【００２６】ＩＳＦでは様々な演出が可能だが、この発
明で例示システムとした“ＩＳＦ昆虫図鑑”では、自然
界を模しており、この空間には草原があり、木のざわめ
く林があり、せせらぎの聴こえる川が流れている。この
ような音で構成された仮想的な空間に、“鈴虫は草原
に”“ミンミンゼミは林に”という具合にソース（音声
データ）が配置されている。このためＩＳＦにおける仮
想的な音空間は、ソース（音声データ＝虫など）とオブ
ジェクト（音声データ以外のもので、音を出すものも出
さないものもある＝木、川など）で構成されている。ユ
ーザはこのような仮想的な音空間の中をあたかも自分が
その中にいるような感覚で歩き回り、情報を得ることが
できる。

【００２７】人間にカクテルパーティ効果があるとはい
え、百や千もの音を同時に聞いて、その個々の音を聞き
分けることは不可能である。一方、ハードウェアの面で
も制約がある。そこで今回実装した試作システムも同時
に８種類の音を独立した音声ラインに送出するのが限界
である。このため、人間の側からも、ハードウェアの側
からも同時に発生される音の種類は限られてくる。そこ
で、実用化を進める為には音声情報を階層化することが
好ましい。

【００２８】例えば音声情報をあらかじめいくつかにグ
ループ分けしておき、あるグループに属する音声情報は
仮想的な音空間内のあるまとまった範囲に位置する。ユ
ーザがあるグループの外にいるときには、そのグループ
の代表音がグループの重心に音像定位して聴こえてい
る。グループの代表音は、ある一個の音声情報でもよい
し、グループ全体のまとまった音でもよい。ユーザがグ
ループの中に入ったときのみ、グループ内の個々の音が
それぞれの音像定位を持って音を発する。これによって
より多くの音声情報が取り扱えるようになる。

【００２９】例えば、昆虫のなかで、蝉というグループ
を作っておき、ユーザがグループの外にいるときには蝉
時雨がグループの中心辺りから聴こえるが、グループに
入り込むと個々の蝉がそれぞれの場所で鳴いているのが
聞こえてくるといった具合である。

【００３０】前記ＩＳＦの実装には、エフェクタによる
方法を用いることができる。この方法によれば、疑似的
に音の遠近感を表現するので、これにより、ウインドシ
ステム上で、ウインド、アイコンの前後関係を遠近感と
して表現する。例えば遠方を表現するためにリバーヴ
（残響）の効果を強くしたり、背後からの音を表現する
ためにロウパスフィルタなどを用いる。この方法によれ
ば、左右方向の音像定位は、左右の音量差の他に、左右
の信号の時間差によっても得ることができる。

【００３１】前記エフェクタ法を用いれば、ＭＩＤＩ規
格のインターフェースによって、コンピュータと相互に
情報のやり取りが可能であり、制御しやすい長所があ
る。

【００３２】然し乍ら、この発明のＩＳＦの実装に際
し、前記エフェクタ法以外にも、右信号と左信号の相関
係数を１から−１まで連続的に変化させる相関係数変化
法を採用することができる。

【００３３】またバイノーラル方式によれば人間の頭部
を音響的に模したダミーヘッドの両耳の鼓膜に相当する
部分に設置された２個のマイクロフォンによって録音さ
れる。ユーザはこれをヘッドフォンによって聴くことに
より、ダミーヘッドがおかれた位置に居るかのような音
像の定位感を得ることができるバイノラール方式を採用
することができる。尤も現在バイノラール方式はダミー
ヘッドを用いずにダミーヘッドの音響的性質の伝達関数
を測定し、それを表わすデジタルフィルタを用いて、バ
イノーラル効果を得ている。この方式によれば、前後方
向と左右方向の音像定位をまとめて得られる特質があ
る。

【００３４】前記各実装方式には夫々得失があるので、
この発明の実施に際し、対象物の特性と合致した方式を
採用する。例えば高周波成分を多く含んでいる昆虫検索
にはエフェクタ法による実装が好ましい。

【００３５】またバイノーラル方式では、デジタルフィ
ルタで行われる畳み込み積分に必要な計算時間が非常に
長く、システム全体としてリアルタイムな反応が期待で
きないという問題点があるが、この点を解消できれば十
分採用し得る方式である。

【００３６】要するにこの発明は実装方式に限定を受け
ないものであり、対象音源に適する方式を適宜採用する
ことができる。

【００３７】

【作用】この発明によれば、多数の音の中から求める音
に絞り込むのであるから、予め検索数値その他の記号等
の入力は全く不用となる。

【００３８】また仮想的な音場空間と視覚手段の組み合
せによってユーザの臨場感を向上し、求める音の選定を
適格にすることができる。

【００３９】次に複数の視覚手段を併用することによ
り、求める音源への移動を適確にし、絞り込みの迅速化
を図ることができる。

【００４０】

【実施例】この発明の実施例を図１、２に基づいて説明
する。

【００４１】図１は、この発明のハードウェアの構成を
示すものである。即ちメイン制御部と、マウス入力部、
画像インターフェース部、オーディオ制御部を連結し、
オーディオ制御部には、オーディオ出力部を連結し、画
像インターフェース部には画像出力部してある。

【００４２】図２は、前記図１の構成に基づく機器を示
すものである。即ちスパークステーション（ｓｐａｒｃ
ｓｔａｔｉｏｎ）は、ＲＳ−２３２Ｃを介してパソコ
ンのＮＥＣＰＣ−９８０１に接続し、ＰＣ−９８０１
はミディ（ＭＩＤＩ）を介し、サンプラー（ｓａｍｐｌ
ｅｒ）ＥＰＳ−１６に接続し、サンプラーＥＰＳ−１６
は、ミディ、オーディオ（ａｕｄｉｏ）を介してミディ
ミキサーＤＭＰ−１１に接続し、ミディミキサーＤＭＰ
−１１はオーディオを介してステレオヘッドホーン（ｓ
ｔｅｒｅｏｈｅａｄｐｈｏｎｅ）に接続している。

【００４３】前記スパークステーション１は、システム
全体を制御する装置である。そこでディスプレイにより
視覚情報を提供し、マウスによってユーザは音場空間を
移動する。

【００４４】前記ＤＰ／４は、４チャンネルの独立した
音声信号にそれぞれ独立した処理を行うことができる。
これらの処理はＭＩＤＩ信号によるリアルタイム制御が
できる（図２）。相関係数変化法を用いて実装している
ので、音像の距離感制御のために、音声信号の位相制御
を行う。

【００４５】また前記以外の音声信号の処理として、距
離感を提供するリバーヴ（残響）・ディレイ（遅延）、
音像の広がり感を提供するフェイズシフタ・コーラス、
音質を変させるイコライザなどが可能である。

【００４６】またＥＰＳ−１６はソース・オブジェクト
の音源であって、ＭＩＤＩ信号により制御ができる。１
ＭＢのメモリに最大３２種類の音をデジタル録音し、１
６種類の音を同時に再生し、８チャンネルの独立したラ
インから音声信号を出すことができる。このＥＰＳ−１
６の音声データのサンプリングレイトは最高４４、８MH
z であり、ＣＤと同等の音質を得ることができる。

【００４７】前記ＥＰＳ−１６、ＤＰ／４によって得ら
れる複数の音像を、１つの音場にまとめるためにＤＭＰ
−１１を用いる。ＤＭＰ−１１は、ＭＩＤＩ信号での制
御が可能な８チャンネルデジタルミキサーである。８チ
ャンネルのアナログ音声ラインを入力時にＡ／Ｄ変換
し、その後の様々な処理はＤＳＰを用いてデジタル信号
のまま行なう。このため音質の劣化とか、ノイズの発生
を抑えることができると共に、各チャンネル独立にパン
ニング（左右音像定位）・リバーブ（残響効果）・イコ
ライジング（周波数成分変更）等もできる（図２）。

【００４８】前記のようなＭＩＤＩ機器を用いずに、ワ
ークステーションがこれらの機能をサポートしているの
が望ましいが、現開発の実情としては一部の機能が提供
されているのみである。例えばサンプラの代りにワーク
ステーションの外部記憶装置に音声データを蓄えること
もできるが、音声データを２チャンネル以上の複数の独
立したラインから出力することはできない。今後マルチ
メディアの発展により、これらの機能をワークステーシ
ョン機能の一部として組み込まれた際には、この発明に
も採用することができる。

【００４９】前記実施例の音像制御における音像定位に
関するパラメータは以下の４種である。

【００５０】１．音量はユーザとソース・オブジェクト
間の距離の自乘に反比例する。２．左右定位はパンを用いて３６０°、３２方向に音像
を振り分ける。３．距離感はリバーヴを用いて、距離が遠いほど残響音
のレベルを大きくしている。４．前後はユーザの背後から聞えるべき音を、ローパス
フィルタを用いてこもった音にしている。

【００５１】前記距離感に関し、実装に相関係数変化法
を用いた場合には、ホワイトノイズについては比較的良
好な遠近感が得られたが、この実施例のように、虫の鳴
き声を検索する場合には良好な距離感が得られなかった
ので、この実施例ではエフェクタによる方法を用いた。
前記のように、虫の鳴き声を検索する場合に、相関係数
変化法が不利な理由は次のように考えられる。

【００５２】即ち相関係数変化法は、前後方向の移動音
像に対して距離感が顕著に現れること、周波数によって
距離感が異なり、高い周波数域では距離感が乏しいこ
と、及び放送などで実際に用いられる時には、他の距離
感を出す方法を組み合せて用いられているなどである。

【００５３】従って音源の性質によっては、この発明の
実施に十分採用できる方法である。

【００５４】前記ＤＭＰ１１・ＥＰＳ１６を制御するＭ
ＩＤＩデータは、個々が６バイトの情報であり、図３に
示す構造をもっている。即ち第１、２バイトは、制御す
るＭＩＤＩ機器に割り当てられたチャンネル番号であ
る。例えば、ＤＰ／４が１ｃｈ、ＥＰＳ−１６ｐｌｕｓ
が２ｃｈ、ＤＭＰ−１１が３ｃｈと４ｃｈにチャンネル
番号が割り当てられている。第２、３バイトは制御する
べき機能の番号であり、第４、５バイトがその機能のパ
ラメータである。これらの値はＭＩＤＩ機器側で決めら
れており、それを用いている。

【００５５】前記ＭＩＤＩデータ生成部では、音像位置
計算部で計算された音像定位のための各パラメータを、
前記データフォーマットでＭＩＤＩ信号に変換する。前
記ＭＩＤＩデータ生成部で作られたＭＩＤＩデータを、
スパークステーションのＲＳ−２３２Ｃポートから出力
する。現バージョンではハンドシェイクなどのエラー防
止装置は行っていないので、この通信エラーの対策はＭ
ＩＤＩ信号中継部で行うようにしてある。この発明にお
いては、音のインターフェースだけでなく、音源の方
向、距離感を判断すると共に、臨場感を表現する補助的
インターフェースとして画像を用いたインターフェース
をいくつか採用しているので、その実施例について説明
する。この画像インターフェースは、Ｘ−ウインド上
に、Ｘ−ビューを用いて実現されている。図４はコント
ロールウインドの一例である。

【００５６】このコントロールウインドは、この発明の
システム起動時の初期画面で存在する唯一のウインドウ
であり、ユーザのマウス操作は主としてこのウインドウ
で行われ、マウスインターフェース部もこのコントロー
ルウインドウに属する。

【００５７】このウインドウ内には、各種画像のウイン
ドウを開くボタン（ａ〜ｃ）と、システムを終了するボ
タン（ｄ）及びマウスの動きを感知するキャンバス
（ｅ）がある。

【００５８】ユーザは前記キャンバス（ｅ）内でマウス
を動かすことにより、その方向の音場空間を進むことが
できる。またマウス上の左右のボタンにより、ユーザは
３６０／１６＝２２．５度ずつ向きを変えることができ
る。即ち図５において、ユーザは１６方向の内、任意の
方向を選択して音場空間を進むことができる。

【００５９】マウスインターフェース部では、この動き
によりユーザの位置を変更し、それぞれのウインドウ及
びオーディオ制御部に情報を伝達する。またマウスイン
ターフェース部では、コントロールウインドウ内でのマ
ウスの位置の制御を行っている。マウスが１度キャンバ
スｅ（図４）の中に入り、ユーザが音場空間内を動こう
としてマウスがキャンバスから出ようとすると、マウス
の位置をキャンバスの中央に戻す制御をする。もちろん
マウスが戻されたとしても、この時ユーザの位置は変更
されない。つまりユーザはコントロールウインドウ上の
マウスの位置を気にせず音場空間をさまようことができ
る。これによりユーザは目を閉じたまま音だけを頼りに
動きまわることもできるし、開かれている他のウインド
ウに集中して動きまわることもできる。

【００６０】この実施例におけるレーダーウインドウ
は、ソースを仮想空間の上方から見た図（図６）を表示
するウインドウであり、オブジェクトは表示しない。ソ
ースとユーザとの相対的な位置が判るので、ソースを目
ざしてマウスを動かし易い特質がある。

【００６１】図６に示すように、ユーザはレーダ画面上
で白い点により表示され、ソースの種類による区別はさ
れていない。またユーザの前方に相当する方向は縦線の
上方向（画面上の上）であり、マウスのボタンのクリッ
クによりユーザの方向が変ったとしても変化しない。例
えばユーザがマウスの左ボタンをクリックして左に旋回
したとすると、レーダーウインドウは画面上のソースを
ユーザを中心として右に回転して、ユーザが常に前方
（レーダー画面の上方）を向いているように保ってい
る。レーダーウインドウ上にはセンシティビィティ（Ｓ
ＥＮＳＩＴＩＶＩＴＹ）というスライダーバー（図６
ｂ）がついており、これはレーダーの感度を変えるもの
である。この感度を変ることによりレーダーに映る範囲
が変化し、その値がスライダーバーの横及びレーダー画
面の上方に表示される。

【００６２】センシティビィティの値は大きい方がレー
ダーに映る範囲が広くなり、小さい方が狭くなってい
る。この感度は任意に好まないときに変えることができ
るので、ソースが近くにないときには感度を大きくし、
目的のソースに近寄ってきたら感度を小さくしてユーザ
の位置の微調整するというような使い分けができるよう
にしてある。また視覚的感度を判別できるようにレーダ
ー画面の縦線と横線のダッシュパターンが感度値により
変化するようにしてある。

【００６３】この実施例における鳥瞰ウインドウ（図
７）は、レーダーウインドウとは表裏の関係になってお
り、ソースを表示せずにオブジェクトのみを表示させ、
ユーザ周辺の風景の上からみた図を表示するものであ
る。

【００６４】このウインドウでは、ユーザはソースがあ
りそうな場所（例えば蝉ならば森の中）をソースの音を
たよりに動きまわることになる。

【００６５】このウインドウもレーダーウインドウと同
様に画面の中心にユーザが位置し、画面の上方向がユー
ザの前方と一致している。鳥瞰ウインドウは、例えば５
０×５０のマップデータに対応したマップの中から、ユ
ーザの周囲、前後左右５個のオブジェクトに相当する範
囲がユーザの見える範囲となっている。またユーザのマ
ウスの動きによりスクロール、ボタンのクリックにより
回転するようになっている。

【００６６】実施上は、例えば図８のように、キャンバ
ス上に１６方向それぞれに対応した５０×５０の１６個
のマップが画いてあり、鳥瞰ウインドウにはその一部を
ビューとして表示している。そしてユーザがマウスのボ
タンをクリックしたという情報が入ってくると、その方
向に相当したマップにジャンプするようになっている。
これによりユーザの前方は常に変ることはない。このよ
うに予め１６種類のマップを用意しておくことは、メモ
リ効率上不利になるが、そのつど書き換えることによる
時間を削減することができる。またこのときに生じる画
面のちらつきもなくなる。この方法によれば、リアルタ
イムをとることができる。前記における鳥瞰ウインドウ
に使用するビットマップは、アイコンエディタにより作
成されており、例えば図９の通りである。実際にユーザ
に見えるそれぞれのオブジェクトの大きさは１６×１６
＝２５６ドットであるが、ビッドマップは正方形のため
１６×１６のものを使うとユーザの向いている方向９０
度の倍数以外のときにはマップ上に何もない空間が存在
してしまう。そこで２４×２４の大きさのビットマップ
を使い、重なる部分はそれぞれのオブジェクトの論理和
をとることにより、前記の空間の存在を排除している。

【００６７】この実施例における３Ｄウインドウ（３次
元オブジェクトのウインドウ）（図１０）は、鳥瞰ウイ
ンドウと同様にユーザ周辺の風景だけを表示するもので
あるが、ここでは３次元的にオブジェクトを配置してい
る。これは風景をユーザの目線に近付け、臨場感を高め
るためである。またこのウインドウでは、ユーザの方向
感覚認識のための背景も表示している。ウインドウー画
面に入る背景はユーザの視野角の９０度に相当する範囲
としてあり、この視野に入るオブジェクトを画面に表示
している。ユーザのとり得る方向は１６通りあるので、
背景も１６通り用意してあり、マウスを１回クリックす
ることにより背景は画面の４分の１ずつ変化していくよ
うになっている。それぞれのオブジェクトはユーザとの
距離に従い、４〜６種類用意してある。全てのオブジェ
クト及び背景は鳥瞰ウインドウのときと同様にアイコン
エディタにより作成されている。

【００６８】前記における背景は無限遠方にあるという
設定なのでユーザが方向を変えない限りこれは変化しな
いが、ユーザはこの背景と表示されているオブジェクト
を頼りに音場空間内を動きまわることができる。

【００６９】この実施例におけるデータ表示ウインドウ
は、ユーザがソースに近づいたときのみ開かれるウイン
ドウである。即ちユーザは任意に（コントロールウイン
ドウのボタンクリックにより）このウインドウを開くこ
とはできない。このウインドウには、ソースの持つ画像
情報とテキスト情報が表示される。例えばこの発明を昆
虫図鑑に応用した場合には、データ表示ウインドウには
図１１のように、例えばスズムシの画像とそのデータが
表示される。

【００７０】前記実施例において、ＩＳＦの起動プログ
ラムを実行すると、次の各データファイルを読み込んで
各種の設定を行うことができる。

【００７１】（１）ソースデータファイルは、ソース
の位置情報、ソースそのものの音量、音の指向性のデー
タファイルである。（２）マップデータファイルは、鳥瞰ウインドウ、３
Ｄウインドウに用いるオブジェクトの位置データファイ
ルである。（３）アイコンデータファイルは鳥瞰ウインドウ、３
Ｄウインドウに用いるオブジェクト、背景アイコンデー
タファイルである。（４）画像・テキストデータファイルは、データ表示
ウインドウに表示する画像情報、テキスト情報である。

【００７２】前記各データファイルを書き換えることに
よって、様々なアプリケーションに対応することができ
る。

【００７３】

【発明の効果】即ちこの発明によれば、仮想的な音場空
間と、当該音場空間の多数の音源に対応する視覚手段と
を具えたインターフェースにより、マウスなどのデバイ
スを操作して求める音源を検索できるようにしたので、
文字データ・数値データその他検索に必要な入力をする
ことなく、音と画像をたよりに求める音源を検索できる
効果がある。従って求める音源についてのデータが不確
かであっても、音を聞き分け音源に到達することによっ
て、正確なデータを表示できる効果がある。

【００７４】またインターフェースを多階層化すること
によって、著しく多量の情報を合理的に整理し、同様の
検索により求める情報を得ることができる。

【図面の簡単な説明】

【図１】この発明のＩＳＦシステム構成の図。

【図２】同じくハードウェアシステム構成の図。

【図３】同じくＭＩＤＩデータフォーマットの図。

【図４】同じくコントロールウインドウの図。

【図５】同じくマウスインターフェースの図。

【図６】同じくレーダウインドウの図。

【図７】同じく鳥瞰ウインドウの図。

【図８】同じくキャンバスに描かれた鳥瞰ウインドウの
図。

【図９】同じく鳥瞰ウインドウ描画のためのアイコンの
図。

【図１０】同じく３Ｄウインドウの図。

【図１１】同じくデータ表示ウインドウの図。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号庁内整理番号ＦＩ技術表示箇所Ｈ０４Ｓ 7/00 Ａ 8421−5Ｈ (72)発明者大木直人神奈川県横浜市港北区日吉三丁目14番１号慶應義塾大学理工学部計測工学科内 (72)発明者亀倉龍神奈川県横浜市港北区日吉三丁目14番１号慶應義塾大学理工学部計測工学科内 (72)発明者阿部圭一神奈川県横浜市港北区日吉三丁目14番１号慶應義塾大学理工学部計測工学科内

Claims

【特許請求の範囲】

【請求項１】仮想的音場空間と、当該音場空間の多数
の音源に対応する視覚手段とを具えた検索インターフェ
ースにより、前記多数の音源中から、求める音源の方向
・距離を頼りにこれにアクセスし、マウスなどのデバイ
スで、当該映像及び音場空間中を移動すれば、所定のポ
イント毎に当該部の視覚手段を現わし、求める音源に到
達した場合に、当該音源の映像とその特性などを出力す
ることを特徴とした音声情報検索システム。
【請求項２】仮想的な音場空間は、人間の聞き分け可
能な範囲に音源を配置する空間とすることを特徴とした
請求項１記載の音声情報検索システム。
【請求項３】仮想的な音場空間を多階層化し、アクセ
ス域を絞り込み可能としたことを特徴とする請求項１記
載の音声情報検索システム。
【請求項４】視覚手段は、レーダーウインドウ、鳥瞰
ウインド、３Ｄウインド及びデータ表示ウインドとした
ことを特徴とする請求項１記載の音声情報検索システ
ム。
【請求項５】システム全体を制御するメイン制御部
に、ユーザの指示を入力するマウス入力部と、画像を蓄
積及び提供する画像インターフェース部と、発音制御の
オーディオ制御部を夫々連結し、前記オーディオ制御部
にオーディオ出力部を連結し、画像インターフェース部
に画像出力部を連結したことを特徴とする音声情報検索
装置。