JPH0793367A - 音声情報検索システム及び装置 - Google Patents

音声情報検索システム及び装置

Info

Publication number
JPH0793367A
JPH0793367A JP5241654A JP24165493A JPH0793367A JP H0793367 A JPH0793367 A JP H0793367A JP 5241654 A JP5241654 A JP 5241654A JP 24165493 A JP24165493 A JP 24165493A JP H0793367 A JPH0793367 A JP H0793367A
Authority
JP
Japan
Prior art keywords
sound
data
window
field space
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5241654A
Other languages
English (en)
Inventor
Atsushi Matsushita
温 松下
Kenichi Okada
謙一 岡田
Naoto Oki
直人 大木
Tatsu Kikura
龍 亀倉
Keiichi Abe
圭一 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP5241654A priority Critical patent/JPH0793367A/ja
Publication of JPH0793367A publication Critical patent/JPH0793367A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Stereophonic System (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 (修正有) 【目的】 仮想的な音場空間と、これに対応する視覚手
段を具えた検索インターフェースにより多数の音源中か
ら求める音源を検索し、そのデータ表示を受ける。 【構成】 想的音場空間と、当該音場空間の多数の音源
に対応する視覚手段とを具えた検索インターフェースに
より、多数の音源中から、求める音源の方向・距離を頼
りにこれにアクセスし、マウスなどのデバイスで、当該
映像及び音場空間中を移動すれば、所定のポイント毎に
当該部の視覚手段を現わし、求める音源に到達した場合
に、当該音源の映像とその特性などを出力することを特
徴とした音声情報検索システム。システム全体を制御す
るメイン制御部に、ユーザの指示を入力するマウス入力
部と、画像を蓄積及び提供する画像インターフェース部
と、発音制御のオーディオ制御部を夫々連結し、オーデ
ィオ制御部にオーディオ出力部を連結し、画像インター
フェース部に画像出力部を連結する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、仮想的な音場空間
と、これに対応する視覚手段を具えた検索インターフェ
ースにより多数の音源中から求める音源を検索し、その
データ表示を受けることを目的とした音声情報検索シス
テム及び装置に関する。
【0002】
【従来の技術】従来知られているリンク法は、文字デー
タ・数値データを主に扱うためのデータベースで、拡張
機能としてマルチメディアデータを扱うときによく用い
られる方式であり、最も簡便な方法である。この方法で
は、マルチメディアデータは1つ、場合によっては複数
の文字データ・数値データとリンクされ、ある検索条件
によって文字データ・数値データが検索されると、それ
らとリンクされている画像データ・音声データが同時に
ユーザに提供される。
【0003】またインデックス法は、従来のデータベー
スにおけるインデックス検索をそのままマルチメディア
情報に応用したものである。各データの整理番号あるい
はデータ名と、そのデータが格納されている記憶デバイ
スのアドレスとの対応表がインデックスである。前記に
よる場合の検索は、ユーザが整理番号あるいはデータ名
を検索システムに入力し、システムが入力された整理番
号あるいはデータ名をインデックスと照らしあわせ、そ
のデータの記憶デバイス上の位置を得て、目的のデータ
を出力するという手順で行われる。
【0004】このインデックス法を用いたシステムの身
近な例として、CDがある。CDには曲目(データ)に
応じてトラック番号があり、ユーザはデータとトラック
番号との対照表(インデックス)を見て、聴きたい曲の
トラック番号を知ることができる。この番号をCDプレ
ーヤに入力することによって、聴きたい曲を聴くことが
できる。こうしてみると、CDはそれ自身が立派な音声
データベースと言える。
【0005】次にキーワード法は、前記のインデックス
法を使いやすく改良したもので、各データにそのデータ
の属性など関連する複数のキーワードを付加し、それら
のキーワードによって検索しようという方法である。多
くのマルチメディアデータベースがこの方法を採用して
いる。
【0006】更にパターンマッチング法は、認識技術が
発達し、コンピュータに対しマルチメディア情報を入力
し、それを認識・内容解析することが可能となり、音声
のデータを音声の検索条件によって検索することが実現
した。このような検索方式は、キーワード検索のように
メディア間の変換(音声データから文字データへ、又は
文字データから音声データへ)を経る必要がないため、
より適切な音声情報検索が可能である。鳥類図鑑のハイ
パーブック(Hyperbook)では、検索したい鳥
の鳴き声をユーザが真似ることによって検索条件を入力
することができる。ユーザの鳴き真似を解析し、振幅構
造・ピッチ構造・周波数成分変化構造などの音響的特徴
を解析し、登録されている鳥の鳴き声データの音響的特
徴との照合を距離関数によって行う。
【0007】
【発明により解決すべき課題】前記リンク法は、あくま
でもマルチメディアデータは文字データ・数値データの
付録として扱われ、それ自身を直接検索することが困難
という問題点があった。
【0008】またインデックス法では、ユーザが検索し
たい情報の整理番号・データ名を知らない場合には検索
が非常に困難になる問題点がある。例えばユーザがCD
の曲名と曲番号との対応を調べないと(覚えていない
と)聴きたい曲を容易に検索できないことが往々ある。
【0009】次にキーワード法では、音声データや画像
データに含まれる情報を完全にキーワードで表現するこ
とは不可能である、例えば「ドビュッシー」の曲“月の
光”やキリコの絵、“町の神秘と憂愁”が持つ雰囲気を
完全に言葉で表現しようとしても無理なように、どんな
に熟慮されたキーワードでも、結局はそのデータを聴い
てみるか観てみるかしない限りは、その検索結果が適当
か否か判断できない。
【0010】更にパターンマッチング法の問題点は、音
声による検索条件の入力である。例えば鳥類図鑑で鳴き
真似を採用することによってこの問題の解決を試みてい
るが、鳥の鳴き声を事細かに表現するのは困難である。
【0011】
【課題を解決するための手段】然るにこの発明は、前記
従来方式の各問題点を解消する為に人工現実感を用いた
新たな検索方式を提供するインターフェースを提案する
ものである。前記新たな方式は、インタラクティブ(i
nteractive)な音場インターフェースでは、
ユーザがマウスなどのディバイスで自分の動きをインタ
ーフェースに伝えると、インターフェースは、その動き
に応じた音場をユーザに提供し、これによってユーザは
恰も仮想的な空間で自分が移動したかのように感じるこ
とができる。さらに音場の動きに応じて次の行動を起
す。このようにユーザはインターフェースと情報を交換
しながら、仮想的な空間を動き回ることができるので、
これをインタラクティブな音場インターフェース(in
terface withinteractive s
ound Field、以下ISFという)と名づけ
た。
【0012】ISFは、音声データベースに登録されて
いる音声データを仮想的な音場に配置して、ユーザはそ
れらの音声データが発する音の方向、距離を手掛かりに
音場空間を移動し、欲する情報に辿り着く検索インター
フェースである。ある情報に近づくことによって、その
データの持つ音声情報だけでなく、画像データなど他の
メディアの情報をディスプレイ上に表示することもでき
る。
【0013】即ちこの発明は仮想的な音場空間と、当該
音場空間の多数の音源に対応する視覚手段とを具えた検
索インターフェースにより、前記多数の音源中から、求
める音源の方向・距離を頼りにこれにアクセスし、マウ
スなどのデバイスで、当該映像及び音場空間中を移動す
れば、所定のポイント毎に当該部の視覚手段を現わし、
求める音源に到達した場合に、当該音源の映像とその特
性を出力することを特徴とした音声情報検索システムで
ある。
【0014】また他の発明は仮想的な音場空間は、人間
の聞き分け可能な範囲に音源を配置する空間とすること
を特徴としたものであり、仮想的音場空間を多階層化
し、アクセス域を絞り込み可能としたものである。
【0015】次に他の発明は視覚手段として、レーダー
ウインドウ、鳥瞰ウインド、3Dウインド及びデータ表
示ウインドを採用したものである。
【0016】更に装置の発明は、システム全体を制御す
るメイン制御部に、ユーザの指示を入力するマウス入力
部と、画像を蓄積及び提供する画像インターフェース部
と、発音制御のオーディオ制御部を夫々連結し、前記オ
ーディオ制御部にオーディオ出力部を連結し、画像イン
ターフェース部に画像出力部を連結したことを特徴とす
る音声情報検索装置である。
【0017】ISFは音声情報検索インターフェースと
して以下の特徴を持っている。 1.検索条件の入力を必要としない。 (1) 明確な検索条件が不要。 (2) 検索条件のメディア変換が不要。 (3) ブラウジングによる情報検索。 (4) 簡潔なインターフェース。 2.音像が左右の定位感、距離感を持つ。 3.複数の音声データを同時に聴くことができる。 4.データ空間をアプリケーションに応じて演出するこ
とが可能である。 5.音声情報の階層化が可能である。
【0018】前記特質について更に詳細に説明する。
【0019】前記したように、検索条件を入力しなくて
も情報が得られるという長所は、いくつかのメリットを
派生する。例えば検索条件が不要なのであるから、従来
のデータベース検索のように確固とした検索条件が無く
ても、“確かこんな音だった”という漠然としたイメー
ジがあれば検索が可能である。
【0020】また、音を聴きながら情報を検索するので
あるから、キーワード検索のように検索条件を無理遣り
他のメディアに変換すること無く音声情報の検索ができ
る。
【0021】ユーザが本をパラパラめくりながら情報を
探すときのように、あれこれと情報を“つまみ食い”し
ながら欲しい情報を探すという方法は、ブラウジングと
呼ばれており、画像インターフェースの分野ではよく知
られている。もしかすると、これらブラウジングの途中
で見られる情報の中にも有用な情報があるかも知れない
し、現実世界では、そのような偶然チラッと見た情報
が、実は有用な情報であるというケースは、研究のため
の文献を探しているときに誰もがよく経験することであ
る。このような偶然の情報の発見は、従来のデータベー
ス検索においては不可能である。このようにブラウジン
グは、人間的なインターフェースとして有効であり、こ
れを音声情報にも適用できるようにしたのである。
【0022】また、従来のデータベースシステムでは、
検索のためのインターフェースが非常に複雑であった。
これは検索条件を入力する作業が煩雑である場合が多
い。検索条件の設定はどうしても文字を入力する作業が
必要になるし、全ての操作をマウスで行えるようなシス
テムも提案されているが、やはり検索条件を設定する作
業が必要であることには変わり無い。この点ISFで
は、ユーザは自分が音空間の中でどこに移動したいか
を、入力デバイスを用いてシステムに指示するだけでよ
い。現在のところ入力デバイスはマウスを用いている
が、方向が指示できさえすればよいので、キーボードの
10キーでもデータグローブでも操作は可能である。
【0023】ISFの音インターフェースは、左右の定
位感・遠近感を伴って提供される。このような立体感を
伴った音場は、ユーザがより自然な形で音声データを聴
取できる環境を実現し、これによって同時に発せられる
複数の音声データを聞き分けることが可能となる。
【0024】人間には、同時に複数の音声が存在する環
境で、ある特定の音声だけを聴き取る能力がある。例え
ば、人が大勢集まってガヤガヤと会話が飛び交っている
カクテルパーティのような場所でも、自分の名前が会話
に出てくると、パッと振り向くことができる。これにな
ぞられて、このような効果はカクテルパーティ効果と呼
ばれている。カクテルパーティ効果は、個々の音源が独
自の左右定位・距離定位を持った音像である場合により
効果が強く現れる。そこで、音声データベースに登録さ
れているいくつかのデータを個々の左右定位・距離定位
で再生する事により、それらを識別・比較することがで
きる。
【0025】仮想的な音空間に音声データを配置する際
に、ただ無秩序にデータを配置したのではユーザに混乱
を招くだけである。そこで、仮想的な音空間を何かに似
せて演出することを考えた。
【0026】ISFでは様々な演出が可能だが、この発
明で例示システムとした“ISF昆虫図鑑”では、自然
界を模しており、この空間には草原があり、木のざわめ
く林があり、せせらぎの聴こえる川が流れている。この
ような音で構成された仮想的な空間に、“鈴虫は草原
に”“ミンミンゼミは林に”という具合にソース(音声
データ)が配置されている。このためISFにおける仮
想的な音空間は、ソース(音声データ=虫など)とオブ
ジェクト(音声データ以外のもので、音を出すものも出
さないものもある=木、川など)で構成されている。ユ
ーザはこのような仮想的な音空間の中をあたかも自分が
その中にいるような感覚で歩き回り、情報を得ることが
できる。
【0027】人間にカクテルパーティ効果があるとはい
え、百や千もの音を同時に聞いて、その個々の音を聞き
分けることは不可能である。一方、ハードウェアの面で
も制約がある。そこで今回実装した試作システムも同時
に8種類の音を独立した音声ラインに送出するのが限界
である。このため、人間の側からも、ハードウェアの側
からも同時に発生される音の種類は限られてくる。そこ
で、実用化を進める為には音声情報を階層化することが
好ましい。
【0028】例えば音声情報をあらかじめいくつかにグ
ループ分けしておき、あるグループに属する音声情報は
仮想的な音空間内のあるまとまった範囲に位置する。ユ
ーザがあるグループの外にいるときには、そのグループ
の代表音がグループの重心に音像定位して聴こえてい
る。グループの代表音は、ある一個の音声情報でもよい
し、グループ全体のまとまった音でもよい。ユーザがグ
ループの中に入ったときのみ、グループ内の個々の音が
それぞれの音像定位を持って音を発する。これによって
より多くの音声情報が取り扱えるようになる。
【0029】例えば、昆虫のなかで、蝉というグループ
を作っておき、ユーザがグループの外にいるときには蝉
時雨がグループの中心辺りから聴こえるが、グループに
入り込むと個々の蝉がそれぞれの場所で鳴いているのが
聞こえてくるといった具合である。
【0030】前記ISFの実装には、エフェクタによる
方法を用いることができる。この方法によれば、疑似的
に音の遠近感を表現するので、これにより、ウインドシ
ステム上で、ウインド、アイコンの前後関係を遠近感と
して表現する。例えば遠方を表現するためにリバーヴ
(残響)の効果を強くしたり、背後からの音を表現する
ためにロウパスフィルタなどを用いる。この方法によれ
ば、左右方向の音像定位は、左右の音量差の他に、左右
の信号の時間差によっても得ることができる。
【0031】前記エフェクタ法を用いれば、MIDI規
格のインターフェースによって、コンピュータと相互に
情報のやり取りが可能であり、制御しやすい長所があ
る。
【0032】然し乍ら、この発明のISFの実装に際
し、前記エフェクタ法以外にも、右信号と左信号の相関
係数を1から−1まで連続的に変化させる相関係数変化
法を採用することができる。
【0033】またバイノーラル方式によれば人間の頭部
を音響的に模したダミーヘッドの両耳の鼓膜に相当する
部分に設置された2個のマイクロフォンによって録音さ
れる。ユーザはこれをヘッドフォンによって聴くことに
より、ダミーヘッドがおかれた位置に居るかのような音
像の定位感を得ることができるバイノラール方式を採用
することができる。尤も現在バイノラール方式はダミー
ヘッドを用いずにダミーヘッドの音響的性質の伝達関数
を測定し、それを表わすデジタルフィルタを用いて、バ
イノーラル効果を得ている。この方式によれば、前後方
向と左右方向の音像定位をまとめて得られる特質があ
る。
【0034】前記各実装方式には夫々得失があるので、
この発明の実施に際し、対象物の特性と合致した方式を
採用する。例えば高周波成分を多く含んでいる昆虫検索
にはエフェクタ法による実装が好ましい。
【0035】またバイノーラル方式では、デジタルフィ
ルタで行われる畳み込み積分に必要な計算時間が非常に
長く、システム全体としてリアルタイムな反応が期待で
きないという問題点があるが、この点を解消できれば十
分採用し得る方式である。
【0036】要するにこの発明は実装方式に限定を受け
ないものであり、対象音源に適する方式を適宜採用する
ことができる。
【0037】
【作用】この発明によれば、多数の音の中から求める音
に絞り込むのであるから、予め検索数値その他の記号等
の入力は全く不用となる。
【0038】また仮想的な音場空間と視覚手段の組み合
せによってユーザの臨場感を向上し、求める音の選定を
適格にすることができる。
【0039】次に複数の視覚手段を併用することによ
り、求める音源への移動を適確にし、絞り込みの迅速化
を図ることができる。
【0040】
【実施例】この発明の実施例を図1、2に基づいて説明
する。
【0041】図1は、この発明のハードウェアの構成を
示すものである。即ちメイン制御部と、マウス入力部、
画像インターフェース部、オーディオ制御部を連結し、
オーディオ制御部には、オーディオ出力部を連結し、画
像インターフェース部には画像出力部してある。
【0042】図2は、前記図1の構成に基づく機器を示
すものである。即ちスパークステーション(sparc
station)は、RS−232Cを介してパソコ
ンのNEC PC−9801に接続し、PC−9801
はミディ(MIDI)を介し、サンプラー(sampl
er)EPS−16に接続し、サンプラーEPS−16
は、ミディ、オーディオ(audio)を介してミディ
ミキサーDMP−11に接続し、ミディミキサーDMP
−11はオーディオを介してステレオヘッドホーン(s
tereo headphone)に接続している。
【0043】前記スパークステーション1は、システム
全体を制御する装置である。そこでディスプレイにより
視覚情報を提供し、マウスによってユーザは音場空間を
移動する。
【0044】前記DP/4は、4チャンネルの独立した
音声信号にそれぞれ独立した処理を行うことができる。
これらの処理はMIDI信号によるリアルタイム制御が
できる(図2)。相関係数変化法を用いて実装している
ので、音像の距離感制御のために、音声信号の位相制御
を行う。
【0045】また前記以外の音声信号の処理として、距
離感を提供するリバーヴ(残響)・ディレイ(遅延)、
音像の広がり感を提供するフェイズシフタ・コーラス、
音質を変させるイコライザなどが可能である。
【0046】またEPS−16はソース・オブジェクト
の音源であって、MIDI信号により制御ができる。1
MBのメモリに最大32種類の音をデジタル録音し、1
6種類の音を同時に再生し、8チャンネルの独立したラ
インから音声信号を出すことができる。このEPS−1
6の音声データのサンプリングレイトは最高44、8MH
z であり、CDと同等の音質を得ることができる。
【0047】前記EPS−16、DP/4によって得ら
れる複数の音像を、1つの音場にまとめるためにDMP
−11を用いる。DMP−11は、MIDI信号での制
御が可能な8チャンネルデジタルミキサーである。8チ
ャンネルのアナログ音声ラインを入力時にA/D変換
し、その後の様々な処理はDSPを用いてデジタル信号
のまま行なう。このため音質の劣化とか、ノイズの発生
を抑えることができると共に、各チャンネル独立にパン
ニング(左右音像定位)・リバーブ(残響効果)・イコ
ライジング(周波数成分変更)等もできる(図2)。
【0048】前記のようなMIDI機器を用いずに、ワ
ークステーションがこれらの機能をサポートしているの
が望ましいが、現開発の実情としては一部の機能が提供
されているのみである。例えばサンプラの代りにワーク
ステーションの外部記憶装置に音声データを蓄えること
もできるが、音声データを2チャンネル以上の複数の独
立したラインから出力することはできない。今後マルチ
メディアの発展により、これらの機能をワークステーシ
ョン機能の一部として組み込まれた際には、この発明に
も採用することができる。
【0049】前記実施例の音像制御における音像定位に
関するパラメータは以下の4種である。
【0050】1.音量はユーザとソース・オブジェクト
間の距離の自乘に反比例する。 2.左右定位はパンを用いて360°、32方向に音像
を振り分ける。 3.距離感はリバーヴを用いて、距離が遠いほど残響音
のレベルを大きくしている。 4.前後はユーザの背後から聞えるべき音を、ローパス
フィルタを用いてこもった音にしている。
【0051】前記距離感に関し、実装に相関係数変化法
を用いた場合には、ホワイトノイズについては比較的良
好な遠近感が得られたが、この実施例のように、虫の鳴
き声を検索する場合には良好な距離感が得られなかった
ので、この実施例ではエフェクタによる方法を用いた。
前記のように、虫の鳴き声を検索する場合に、相関係数
変化法が不利な理由は次のように考えられる。
【0052】即ち相関係数変化法は、前後方向の移動音
像に対して距離感が顕著に現れること、周波数によって
距離感が異なり、高い周波数域では距離感が乏しいこ
と、及び放送などで実際に用いられる時には、他の距離
感を出す方法を組み合せて用いられているなどである。
【0053】従って音源の性質によっては、この発明の
実施に十分採用できる方法である。
【0054】前記DMP11・EPS16を制御するM
IDIデータは、個々が6バイトの情報であり、図3に
示す構造をもっている。即ち第1、2バイトは、制御す
るMIDI機器に割り当てられたチャンネル番号であ
る。例えば、DP/4が1ch、EPS−16plus
が2ch、DMP−11が3chと4chにチャンネル
番号が割り当てられている。第2、3バイトは制御する
べき機能の番号であり、第4、5バイトがその機能のパ
ラメータである。これらの値はMIDI機器側で決めら
れており、それを用いている。
【0055】前記MIDIデータ生成部では、音像位置
計算部で計算された音像定位のための各パラメータを、
前記データフォーマットでMIDI信号に変換する。前
記MIDIデータ生成部で作られたMIDIデータを、
スパークステーションのRS−232Cポートから出力
する。現バージョンではハンドシェイクなどのエラー防
止装置は行っていないので、この通信エラーの対策はM
IDI信号中継部で行うようにしてある。この発明にお
いては、音のインターフェースだけでなく、音源の方
向、距離感を判断すると共に、臨場感を表現する補助的
インターフェースとして画像を用いたインターフェース
をいくつか採用しているので、その実施例について説明
する。この画像インターフェースは、X−ウインド上
に、X−ビューを用いて実現されている。図4はコント
ロールウインドの一例である。
【0056】このコントロールウインドは、この発明の
システム起動時の初期画面で存在する唯一のウインドウ
であり、ユーザのマウス操作は主としてこのウインドウ
で行われ、マウスインターフェース部もこのコントロー
ルウインドウに属する。
【0057】このウインドウ内には、各種画像のウイン
ドウを開くボタン(a〜c)と、システムを終了するボ
タン(d)及びマウスの動きを感知するキャンバス
(e)がある。
【0058】ユーザは前記キャンバス(e)内でマウス
を動かすことにより、その方向の音場空間を進むことが
できる。またマウス上の左右のボタンにより、ユーザは
360/16=22.5度ずつ向きを変えることができ
る。即ち図5において、ユーザは16方向の内、任意の
方向を選択して音場空間を進むことができる。
【0059】マウスインターフェース部では、この動き
によりユーザの位置を変更し、それぞれのウインドウ及
びオーディオ制御部に情報を伝達する。またマウスイン
ターフェース部では、コントロールウインドウ内でのマ
ウスの位置の制御を行っている。マウスが1度キャンバ
スe(図4)の中に入り、ユーザが音場空間内を動こう
としてマウスがキャンバスから出ようとすると、マウス
の位置をキャンバスの中央に戻す制御をする。もちろん
マウスが戻されたとしても、この時ユーザの位置は変更
されない。つまりユーザはコントロールウインドウ上の
マウスの位置を気にせず音場空間をさまようことができ
る。これによりユーザは目を閉じたまま音だけを頼りに
動きまわることもできるし、開かれている他のウインド
ウに集中して動きまわることもできる。
【0060】この実施例におけるレーダーウインドウ
は、ソースを仮想空間の上方から見た図(図6)を表示
するウインドウであり、オブジェクトは表示しない。ソ
ースとユーザとの相対的な位置が判るので、ソースを目
ざしてマウスを動かし易い特質がある。
【0061】図6に示すように、ユーザはレーダ画面上
で白い点により表示され、ソースの種類による区別はさ
れていない。またユーザの前方に相当する方向は縦線の
上方向(画面上の上)であり、マウスのボタンのクリッ
クによりユーザの方向が変ったとしても変化しない。例
えばユーザがマウスの左ボタンをクリックして左に旋回
したとすると、レーダーウインドウは画面上のソースを
ユーザを中心として右に回転して、ユーザが常に前方
(レーダー画面の上方)を向いているように保ってい
る。レーダーウインドウ上にはセンシティビィティ(S
ENSITIVITY)というスライダーバー(図6
b)がついており、これはレーダーの感度を変えるもの
である。この感度を変ることによりレーダーに映る範囲
が変化し、その値がスライダーバーの横及びレーダー画
面の上方に表示される。
【0062】センシティビィティの値は大きい方がレー
ダーに映る範囲が広くなり、小さい方が狭くなってい
る。この感度は任意に好まないときに変えることができ
るので、ソースが近くにないときには感度を大きくし、
目的のソースに近寄ってきたら感度を小さくしてユーザ
の位置の微調整するというような使い分けができるよう
にしてある。また視覚的感度を判別できるようにレーダ
ー画面の縦線と横線のダッシュパターンが感度値により
変化するようにしてある。
【0063】この実施例における鳥瞰ウインドウ(図
7)は、レーダーウインドウとは表裏の関係になってお
り、ソースを表示せずにオブジェクトのみを表示させ、
ユーザ周辺の風景の上からみた図を表示するものであ
る。
【0064】このウインドウでは、ユーザはソースがあ
りそうな場所(例えば蝉ならば森の中)をソースの音を
たよりに動きまわることになる。
【0065】このウインドウもレーダーウインドウと同
様に画面の中心にユーザが位置し、画面の上方向がユー
ザの前方と一致している。鳥瞰ウインドウは、例えば5
0×50のマップデータに対応したマップの中から、ユ
ーザの周囲、前後左右5個のオブジェクトに相当する範
囲がユーザの見える範囲となっている。またユーザのマ
ウスの動きによりスクロール、ボタンのクリックにより
回転するようになっている。
【0066】実施上は、例えば図8のように、キャンバ
ス上に16方向それぞれに対応した50×50の16個
のマップが画いてあり、鳥瞰ウインドウにはその一部を
ビューとして表示している。そしてユーザがマウスのボ
タンをクリックしたという情報が入ってくると、その方
向に相当したマップにジャンプするようになっている。
これによりユーザの前方は常に変ることはない。このよ
うに予め16種類のマップを用意しておくことは、メモ
リ効率上不利になるが、そのつど書き換えることによる
時間を削減することができる。またこのときに生じる画
面のちらつきもなくなる。この方法によれば、リアルタ
イムをとることができる。前記における鳥瞰ウインドウ
に使用するビットマップは、アイコンエディタにより作
成されており、例えば図9の通りである。実際にユーザ
に見えるそれぞれのオブジェクトの大きさは16×16
=256ドットであるが、ビッドマップは正方形のため
16×16のものを使うとユーザの向いている方向90
度の倍数以外のときにはマップ上に何もない空間が存在
してしまう。そこで24×24の大きさのビットマップ
を使い、重なる部分はそれぞれのオブジェクトの論理和
をとることにより、前記の空間の存在を排除している。
【0067】この実施例における3Dウインドウ(3次
元オブジェクトのウインドウ)(図10)は、鳥瞰ウイ
ンドウと同様にユーザ周辺の風景だけを表示するもので
あるが、ここでは3次元的にオブジェクトを配置してい
る。これは風景をユーザの目線に近付け、臨場感を高め
るためである。またこのウインドウでは、ユーザの方向
感覚認識のための背景も表示している。ウインドウー画
面に入る背景はユーザの視野角の90度に相当する範囲
としてあり、この視野に入るオブジェクトを画面に表示
している。ユーザのとり得る方向は16通りあるので、
背景も16通り用意してあり、マウスを1回クリックす
ることにより背景は画面の4分の1ずつ変化していくよ
うになっている。それぞれのオブジェクトはユーザとの
距離に従い、4〜6種類用意してある。全てのオブジェ
クト及び背景は鳥瞰ウインドウのときと同様にアイコン
エディタにより作成されている。
【0068】前記における背景は無限遠方にあるという
設定なのでユーザが方向を変えない限りこれは変化しな
いが、ユーザはこの背景と表示されているオブジェクト
を頼りに音場空間内を動きまわることができる。
【0069】この実施例におけるデータ表示ウインドウ
は、ユーザがソースに近づいたときのみ開かれるウイン
ドウである。即ちユーザは任意に(コントロールウイン
ドウのボタンクリックにより)このウインドウを開くこ
とはできない。このウインドウには、ソースの持つ画像
情報とテキスト情報が表示される。例えばこの発明を昆
虫図鑑に応用した場合には、データ表示ウインドウには
図11のように、例えばスズムシの画像とそのデータが
表示される。
【0070】前記実施例において、ISFの起動プログ
ラムを実行すると、次の各データファイルを読み込んで
各種の設定を行うことができる。
【0071】(1) ソースデータファイルは、ソース
の位置情報、ソースそのものの音量、音の指向性のデー
タファイルである。 (2) マップデータファイルは、鳥瞰ウインドウ、3
Dウインドウに用いるオブジェクトの位置データファイ
ルである。 (3) アイコンデータファイルは鳥瞰ウインドウ、3
Dウインドウに用いるオブジェクト、背景アイコンデー
タファイルである。 (4) 画像・テキストデータファイルは、データ表示
ウインドウに表示する画像情報、テキスト情報である。
【0072】前記各データファイルを書き換えることに
よって、様々なアプリケーションに対応することができ
る。
【0073】
【発明の効果】即ちこの発明によれば、仮想的な音場空
間と、当該音場空間の多数の音源に対応する視覚手段と
を具えたインターフェースにより、マウスなどのデバイ
スを操作して求める音源を検索できるようにしたので、
文字データ・数値データその他検索に必要な入力をする
ことなく、音と画像をたよりに求める音源を検索できる
効果がある。従って求める音源についてのデータが不確
かであっても、音を聞き分け音源に到達することによっ
て、正確なデータを表示できる効果がある。
【0074】またインターフェースを多階層化すること
によって、著しく多量の情報を合理的に整理し、同様の
検索により求める情報を得ることができる。
【図面の簡単な説明】
【図1】この発明のISFシステム構成の図。
【図2】同じくハードウェアシステム構成の図。
【図3】同じくMIDIデータフォーマットの図。
【図4】同じくコントロールウインドウの図。
【図5】同じくマウスインターフェースの図。
【図6】同じくレーダウインドウの図。
【図7】同じく鳥瞰ウインドウの図。
【図8】同じくキャンバスに描かれた鳥瞰ウインドウの
図。
【図9】同じく鳥瞰ウインドウ描画のためのアイコンの
図。
【図10】同じく3Dウインドウの図。
【図11】同じくデータ表示ウインドウの図。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 H04S 7/00 A 8421−5H (72)発明者 大木 直人 神奈川県横浜市港北区日吉三丁目14番1号 慶應義塾大学理工学部計測工学科内 (72)発明者 亀倉 龍 神奈川県横浜市港北区日吉三丁目14番1号 慶應義塾大学理工学部計測工学科内 (72)発明者 阿部 圭一 神奈川県横浜市港北区日吉三丁目14番1号 慶應義塾大学理工学部計測工学科内

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 仮想的音場空間と、当該音場空間の多数
    の音源に対応する視覚手段とを具えた検索インターフェ
    ースにより、前記多数の音源中から、求める音源の方向
    ・距離を頼りにこれにアクセスし、マウスなどのデバイ
    スで、当該映像及び音場空間中を移動すれば、所定のポ
    イント毎に当該部の視覚手段を現わし、求める音源に到
    達した場合に、当該音源の映像とその特性などを出力す
    ることを特徴とした音声情報検索システム。
  2. 【請求項2】 仮想的な音場空間は、人間の聞き分け可
    能な範囲に音源を配置する空間とすることを特徴とした
    請求項1記載の音声情報検索システム。
  3. 【請求項3】 仮想的な音場空間を多階層化し、アクセ
    ス域を絞り込み可能としたことを特徴とする請求項1記
    載の音声情報検索システム。
  4. 【請求項4】 視覚手段は、レーダーウインドウ、鳥瞰
    ウインド、3Dウインド及びデータ表示ウインドとした
    ことを特徴とする請求項1記載の音声情報検索システ
    ム。
  5. 【請求項5】 システム全体を制御するメイン制御部
    に、ユーザの指示を入力するマウス入力部と、画像を蓄
    積及び提供する画像インターフェース部と、発音制御の
    オーディオ制御部を夫々連結し、前記オーディオ制御部
    にオーディオ出力部を連結し、画像インターフェース部
    に画像出力部を連結したことを特徴とする音声情報検索
    装置。
JP5241654A 1993-09-28 1993-09-28 音声情報検索システム及び装置 Pending JPH0793367A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5241654A JPH0793367A (ja) 1993-09-28 1993-09-28 音声情報検索システム及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5241654A JPH0793367A (ja) 1993-09-28 1993-09-28 音声情報検索システム及び装置

Publications (1)

Publication Number Publication Date
JPH0793367A true JPH0793367A (ja) 1995-04-07

Family

ID=17077538

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5241654A Pending JPH0793367A (ja) 1993-09-28 1993-09-28 音声情報検索システム及び装置

Country Status (1)

Country Link
JP (1) JPH0793367A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08298635A (ja) * 1995-04-26 1996-11-12 Nippon Telegr & Teleph Corp <Ntt> 音声チャンネル選択合成方法およびこの方法を実施する装置
JP2001005477A (ja) * 1999-06-24 2001-01-12 Fujitsu Ltd 音響ブラウジング装置及び方法
JP2002140337A (ja) * 2000-10-31 2002-05-17 Nec Corp 音声データ検索方法及び音声データ検索装置
JPWO2006095599A1 (ja) * 2005-03-08 2008-08-14 パイオニア株式会社 情報処理装置及び情報処理方法等
JP2009055621A (ja) * 1998-03-23 2009-03-12 Nokia Mobile Phones Ltd 仮想音響環境において指向性音響を処理する方法
JP2013510372A (ja) * 2009-11-03 2013-03-21 クゥアルコム・インコーポレイテッド 空間的聴覚合図を用いたデータ探索

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08298635A (ja) * 1995-04-26 1996-11-12 Nippon Telegr & Teleph Corp <Ntt> 音声チャンネル選択合成方法およびこの方法を実施する装置
JP2009055621A (ja) * 1998-03-23 2009-03-12 Nokia Mobile Phones Ltd 仮想音響環境において指向性音響を処理する方法
JP2001005477A (ja) * 1999-06-24 2001-01-12 Fujitsu Ltd 音響ブラウジング装置及び方法
JP2002140337A (ja) * 2000-10-31 2002-05-17 Nec Corp 音声データ検索方法及び音声データ検索装置
JPWO2006095599A1 (ja) * 2005-03-08 2008-08-14 パイオニア株式会社 情報処理装置及び情報処理方法等
JP2013510372A (ja) * 2009-11-03 2013-03-21 クゥアルコム・インコーポレイテッド 空間的聴覚合図を用いたデータ探索
JP2015156215A (ja) * 2009-11-03 2015-08-27 クゥアルコム・インコーポレイテッドQualcomm Incorporated 空間的聴覚合図を用いたデータ探索

Similar Documents

Publication Publication Date Title
Begault et al. 3-D sound for virtual reality and multimedia
US7876914B2 (en) Processing audio data
US5812688A (en) Method and apparatus for using visual images to mix sound
Barrett Spatio-musical composition strategies
US6826282B1 (en) Music spatialisation system and method
Cohen Throwing, pitching and catching sound: audio windowing models and modes
Garcia et al. Interactive-compositional authoring of sound spatialization
JP2007256498A (ja) 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム
JPH0744575A (ja) 音声情報検索システム及び装置
JPH0793367A (ja) 音声情報検索システム及び装置
JP3743893B2 (ja) 静止画像の仮想空間に臨場感を醸成する為の音声補完方法及びシステム
US11721317B2 (en) Sound effect synthesis
Van Tonder et al. Acoustic atlas–auralisation in the browser
CN114520950B (zh) 音频输出方法、装置、电子设备及可读存储介质
CA3044260A1 (en) Augmented reality platform for navigable, immersive audio experience
Cohen et al. Cyberspatial audio technology
Lorho et al. Structured menu presentation using spatial sound separation
Ferreira Creating Immersive Audio in a Historical Soundscape Context
Fernström et al. Explorations in sonic browsing
Cliffe Audio augmented objects and the audio augmented reality experience
Woolf et al. Virtual and physical interfaces for collaborative evolution of sound
Lionello et al. Interactive soundscapes: Developing a physical space augmented through dynamic sound rendering and granular synthesis
Li Loco-Radio: designing high-density augmented reality audio browsers
Rosli Spatiotemporal granulation
Herder et al. The helical keyboard: perspectives for spatial auditory displays and visual music