JP2000106700A - 立体音響生成方法および仮想現実実現システム - Google Patents

立体音響生成方法および仮想現実実現システム

Info

Publication number
JP2000106700A
JP2000106700A JP10274833A JP27483398A JP2000106700A JP 2000106700 A JP2000106700 A JP 2000106700A JP 10274833 A JP10274833 A JP 10274833A JP 27483398 A JP27483398 A JP 27483398A JP 2000106700 A JP2000106700 A JP 2000106700A
Authority
JP
Japan
Prior art keywords
sound
sound field
noise
procedure
generation method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10274833A
Other languages
English (en)
Inventor
Tomohito Nakagawa
智仁 中川
Hideo Maejima
英雄 前島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP10274833A priority Critical patent/JP2000106700A/ja
Publication of JP2000106700A publication Critical patent/JP2000106700A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 発話者の位置の変動に対して、良好な音響特
性を得ることができる立体音響生成方法、能動的に雑音
を除去できる立体音響生成方法、比較的簡単な計算で移
動する対象者に追従して能動的に雑音を除去できる立体
音響再生方法および仮想現実実現システムを提供するこ
と。 【解決手段】 複数の音声入力装置(マイクロフォンア
レイ102)と複数の音声出力装置(スピーカアレイ104)を
用いて、発話者の位置を推定し(1011)、それに応じて立
体音響の音場を最適に制御する(1012)。さらにマイクロ
フォンアレイの超指向性機能(音源と雑音の分離機能)を
用い、これを相殺する信号を生成することで、能動的に
不要な雑音を除去する。この構成により、聴取者の動き
の変動に対しても、最適に音場が制御でき、また再生場
に存在する有害な雑音も能動的に除去できる。またこの
方法を音声認識装置や仮想現実実現システムに利用す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、マイコンなどの情
報処理装置を用いて、聴取者の発声を認識し、聴取者が
移動しても最適な立体音響を再現する立体音響生成方法
および仮想現実実現システムに関する。
【0002】
【従来の技術】立体音響は、単に優れた音響再生システ
ムとして、カーステレオなどのオーディオシステムへの
応用のみならず、映画,ゲーム,VR(Virtual Real
ity:仮想現実)など様々な応用に期待されている。立
体音響に関する従来技術としては次のようなものがあ
る。 (1)立体音響および音場制御法 立体音響および音場制御に関しては、例えば、ヘッドフ
ォンのような、二つのスピーカをそれぞれ左右の耳に近
接させる再生系を想定した場合(バイノーラル系;bina
ural系)と、複数(通常3個以上)のスピーカを用いる
場合(トランスオーラル系;transaural系)の二つの場
合がある(例えば、三好:音場を創る,日本音響学会
誌,Vol.52,No.6,pp.466-469 (1996) 参照)。図15
は、従来の音場制御システムの例を示す図であり、同図
(a)はバイノーラル系のシステム構成例を、同図
(b)はトランスオーラル系のシステム構成例を示して
いる。
【0003】(1.1)バイノーラル系 バイノーラル系は、図15(a)のような構成を有す
る。オーディオなどでは、最適な音像を得ることが目的
であるが、バイノーラル系では出力装置(ヘッドフォ
ン)が聴取者に伴って一体となって移動するために、聴
取者の位置の変動は考慮しなくてよい。この場合、各チ
ャンネルを独立に処理することが可能である。しかし、
VRでは、聴取者の位置の変動に応じて音像を調整する
必要がある。このような場合に対応させようとすると、
結局2入力2出力の線形システムで表現される。
【0004】(1.2) トランスオーラル系 トランスオーラル系は、図15(b)のように少々複雑
な系になる。トランスオーラル系のように複数の出力装
置から音場が再生される場合、それぞれの音が直接ある
いは反射して左右の耳に到達する。従って、線形システ
ムで表現するならば、N入力M出力の線形システムとし
て表現される。トランスオーラル系では、録音された時
には存在せず、再生時にのみ生じるような効果(例え
ば、再生空間での反響音など)を除去することが要望さ
れる。そのため、この前段に逆フィルタを挿入し、不要
な音場の音響的効果を相殺するような構成を採用するこ
ともある。
【0005】(2)マイクロフォンアレイ マイクロフォンアレイとは、複数のマイクロフォンをア
レイ状に配置したものをいう。しかしながら、音源の推
定は必ずしもアレイ状でなくとも可能である。音源の推
定は、例えば、岡村らの方法(離散的マイクロフォン配
置における単一話者位置推定,信学技報,EA96-54 (199
6))によって実現できる。図16は、マイクロフォンア
レイシステムの模式図を示している。同図において、M
iはマイクロフォン、giは重み係数、τiは遅延時間
を示している(i=0〜N)。話者とi番目(図の場合
はi=1〜5)のマイクロフォンの距離は、
【数1】 のようになる。ここで、誤差を考えると、
【数2】 となる。
【0006】今、話者からi番目のマイクロフォンとk
番目のマイクロフォンの音波の伝搬距離差を考えると、
【数3】 のようになる。これより、話者位置を求めるために、逐
次近似法を用いると、結局、誤差の修正量 ΔX=(Δ
x,Δy,Δz,Δs)T は、
【数4】 となり、これを反復計算することにより、逐次的に話者
の位置を推定できる。
【0007】また、このようなマイクロフォンアレイを
用いれば、指向性を制御することも可能である(例え
ば、金田:アダプティブマイクロフォンアレイ,電子情
報通信学会論文誌B-II,Vol.J75-B-II,No.11,pp.742-
748 (1992) 参照)。指向性の制御方法は、多くの場合
線形系で扱われることが多いが、ニューラルネットワー
ク(NN:Neural Network)のような非線形手法が用
いられることもある(例えば、小畑:非線形超指向性マ
イクロフォンアレイ,日本音響学会誌,Vol.51,No.5,
pp.407-410 (1995) 参照)。
【0008】(3)適応ノイズキャンセラ 適応ノイズキャンセラは、雑音を適応的に推定し、逆位
相の信号を生成し、相殺することで雑音を除去する方法
である。ここで、“適応”とは、システムの外部あるい
は内部の環境の変動に対して、自動的に最適な特性を持
つようにシステム特性を調整する機能を意味する。
【0009】適応処理方法としては、線形フィルタにお
けるLMS(Least Mean Square)法とRLS(Rec
usive Least Square)法が代表的な方法として知られ
ている。適応ノイズキャンセラでは、以下のように、過
去のサンプル値と重み係数(通常、タップ係数と呼ばれ
る)の線形和で表現されるデジタルフィルタを考える。
【数5】
【0010】このフィルタは、例えば音響管に衝撃音
(インパルス入力)を入れた時の残響(遅延)の特性を
表現し、また入力がフィードバックしないことから有限
インパルス応答(FIR:Finite Impulse Respons
e)フィルタと呼ばれる。これに対して、入力がフィー
ドバックする無限インパルス応答(IIR:Infinite
Inpulse Response)フィルタもある。
【0011】ここで、数1で表現されるFIRフィルタ
が、ある入力系列に対して所望の出力を得るようにする
ことを考える。このためには、誤差二乗関数を最小にす
るようにパラメータを修正すればよい。この誤差二乗関
数は、線形フィルタの場合、パラメータ空間における2
次曲面、すなわち単嶺性の関数として表現される。従っ
て、最小値は誤差二乗関数の極小値を求めればよい。こ
のことから、Yule-Walker の方程式が導かれる。
【0012】LMS法は、これを直接解かずに、いわば
反復的に収束させることを考える。すなわち、各ステッ
プごとに、
【数6】 のように修正する。この方法は、要するに、最急降下法
に基づくアルゴリズムで、実現が容易かつ計算量が僅少
なため、現在広く用いられている方法である。しかし、
修正量(数6のμ(ステップゲイン))の調整によっ
て、大きく収束特性が変動するという特徴を有してい
る。
【0013】これに対して、RLS法は Yule-Walker
方程式を再帰的に直接解く方法である。具体的には、
1ステップ前の共分散行列の逆行列を用いて、逆行列の
補助定理から、現在の共分散行列の逆行列を求める(共
分散行列の逆行列から、パラメータは簡単な計算で得ら
れる)。この方法は、収束特性は優れているが、計算量
が多く、また再帰的な計算のため、倍精度の浮動小数計
算が必要になる。
【0014】(4)非線形手法 非線形手法としてニューラルネットワーク(NN)を用
いるものがある。ニューラルネットワーク(NN)と
は、図17(a)のようなニューロン素子をネットワー
ク状に結合したものである。ニューロン素子の出力は、
一般に入力の総和に対する関数として表現される。例え
ば、
【数7】 のような、シグモイド関数で表現されることが多い。こ
れを、実システムに適用する場合、例えば図17(b)
のような階層型ネットワークを用いることができる(図
17(b)は3階層の場合を示す)。3階層型ネットワ
ークでは、左から入力層・中間層・出力層となってお
り、本実施例では、入力層の各ノードと分類を対応させ
(具体的には、分類の属性値を入力にする)、出力層に
重み係数を対応させている。そして、所望の入出力関係
が得られるように、結合係数を調整する。
【0015】結合係数の調整は、一般的な誤差逆伝播法
(BP法)によって実行できる。これは、
【数8】 のように、パラメータを修正する(ちょうど、誤差が逆
方向=出力層→入力層に伝わっていくイメージがあるた
め誤差逆伝播法と呼ばれる)。この計算を、収束するま
で繰り返し実行する。なお、ニューラルネットワーク
(NN)の計算は、次の
【数9】 によって、入力層のノードの値xiから中間層のノード
の値ymを、得られた中間層のノードの値ymから出力
層のノードの値zoを、というように順に計算すればよ
い。
【0016】
【発明が解決しようとする課題】近年、音場の最適制御
が重要な課題になっているが、これらは、一般に聴取者
の位置が既知(不動すなわち固定)であることを想定し
ている場合が多い。しかし、仮想現実(VR)や音声認
識など、発話者の位置が変動することもあり、その場
合、最適性が失われることもある。本発明の目的は、こ
のような発話者の位置の変動に対して、良好な音響特性
を得ることができる立体音響生成方法、能動的に雑音を
除去できる立体音響生成方法、比較的簡単な計算で移動
する対象者に追従して能動的に雑音を除去できる立体音
響再生方法および仮想現実実現システムを提供すること
にある。
【0017】
【課題を解決するための手段】本発明の立体音響生成方
法は、上記目的を達成するために、複数の音声入力装置
(マイクロフォンアレイ102)からの音声入力に基づ
いて対象者の位置を推定する第一の手順(図2の20
4)と、該第一の手順により推定された対象者の位置に
基づいて音場を制御するパラメータ(逆フィルタの特
性)を調整する第二の手順(同205)と、該第二の手
順で調整したパラメータに基づいて立体音場を再生する
第三の手順(同206)を有する。また、複数の音声入
力装置からの音声入力に基づいて対象者の位置を推定す
る第一の手順(図5の204)と、該第一の手順により
推定された対象者の位置に基づいて音場を制御するパラ
メータを調整する第二の手順(同205)と、複数の音
声入力装置からの入力された音声に基づいて音源からの
音声と雑音とを分離する第三の手順(同503)と、該
第三の手順によって分離された雑音を相殺しうる信号を
生成する第四の手順(同504)と、第四の手順によっ
て得られた信号と第二の手順によって得られる音場を制
御するパラメータに付加して雑音除去音声を得る第五の
手順(同506)を有する。これらの構成により、発話
者の位置の変動に対して良好な音響特性を得ることがで
き、また、能動的に雑音を除去することができる。ま
た、これらによって得られた雑音除去信号を音声認識装
置の入力することにより良好な音声認識装置が得られ
る。
【0018】また、音場を制御するパラメータを調整す
るための方法として、話者の存在しうる空間を有限個の
部分領域に分割し、その各々に最適に調整された音場を
生成しうる伝達特性に関するデータを具備し、対象者が
存在する部分領域を決定し、この部分領域に対応した伝
達特性の格納されているデータを選択して音場を調整す
る方法(部分領域による方法)、話者の存在しうる空間
を有限個の代表点を設定し、その各々に最適に調整され
た音場を生成しうる伝達特性に関するデータを具備し、
対象者が存在する位置と最も近い代表点を選択し、この
代表点に対応した伝達特性の格納されているデータを選
択して音場を調整する方法(代表点による方法)、話者
の存在しうる空間を有限個の代表点を設定し、その各々
に最適に調整された音場を生成しうる伝達特性に関する
データを具備し、対象者が存在する位置に近い3つの代
表点を選択し、その代表点に対応した伝達特性の格納さ
れているデータを選択し、対象者が存在する位置に近い
3つの代表点の位置関係から補正する係数を得、この係
数を用いて音場を調整する方法(3つの代表点による方
法)などがある。また、ヘッドフォン型の音響再生シス
テムと、位置を特定するセンサとを用い、該センサによ
り位置を決定し、その位置に合わせて音場を調整するこ
とにより、高性能な仮想現実実現システムが得られる。
【0019】
【発明の実施の形態】(実施例1)本発明の実施例1を
図面を用いて詳細に説明する。図1は、実施例1の基本
的な概念を示す図である。本システムは、図1(a)に
示すように、マイコンなどの情報処理装置(以下、マイ
コン)101と、位置推定用のマイクロフォンアレイな
どの複数の音声入力装置(以下、マイクロフォンアレ
イ)102と、スピーカアレイなどの複数の音声出力装
置(以下、スピーカアレイ)104より構成される。図
1では、簡単化するために、位置推定用マイクロフォン
アレイ102とは別個に再生すべき音声の入力端子10
3(Input)を設けたシステムを示している。このよう
なシステムにおいて、再生すべき音声が入力端子103
(Input)より入力され、マイコン101において一定
の処理が施された後、スピーカアレイ104に出力され
る。マイコン101は、位置推定装置1011、制御装
置1012、出力フィルタ1013から構成される。
【0020】図1(b)は、実施例1の原理を示す図で
ある。本実施例では、トランスオーラル系の処理を行っ
ている。すなわち、左側の録音系でサンプルされた音声
信号は、それぞれ各再生系の逆フィルタを通って、再生
される。本実施例では、マイクロフォンアレイ102か
らの入力によって聴取者の位置を推定し、この推定した
位置に応じて制御器を介して逆フィルタの特性を最適に
制御するようにしたものである。
【0021】図2は、本実施例1の全体の処理手順を示
すフローチャートである。まず、ステップ201で処理
が開始されると、音声再生と逆フィルタの特性調整が開
始される。逆フィルタの特性調整は、ステップ203
で、マイクロフォンアレイ102より信号を入力する。
ステップ204の位置推定では、マイクロフォンアレイ
102から入力された信号に基づき、聴取者の位置を推
定する。そして、ステップ205のパラメータ制御によ
り逆フィルタの特性を調整する。一方、音声再生では、
ステップ202で再生信号を入力すると、前述のステッ
プ203〜205の処理が終了するのを待って、ステッ
プ205によって調整された逆フィルタの特性に従っ
て、ステップ206で音場の再生を行う。ここで生成さ
れた(フィルタリングされた)再生音声は、ステップ2
07においてスピーカアレイより出力され、ステップ2
08で処理は終了する。
【0022】次に、図2のフローチャートのうち、ステ
ップ204(位置推定)および205(パラメータ制
御)をさらに詳細に説明する。図3は、ステップ204
における聴取者の位置の推定の詳細を説明するためのフ
ローチャートである。ここで、ステップ301〜308
は、具体的にはステップ204のサブルーチンに相当す
る。図3において、まず、ステップ301で処理が開始
されると、ステップ302において初期設定が行われ
る。ここでは、例えば聴取者の位置などを予め決められ
た適当な初期値に設定する。次のステップ303では、
数3に従って伝搬距離差を計算する。ステップ304で
は、ステップ302で初期設定した聴取者の位置を逐次
修正する。ステップ305では、ステップ304で修正
された値について、数4より誤差修正量を計算し、ステ
ップ306によって収束判定を行う。ここで収束しなけ
れば(ステップ306:N)、再びステップ304に戻
り、位置を再修正する。この処理を収束するまで繰り返
す。収束した場合(ステップ306:Y)、ステップ3
07で推定座標を決定し、ステップ308で処理を終了
する。
【0023】図4は、ステップ205におけるパラメー
タ制御の詳細を説明するための図であり、同図(a)に
フローチャートを、同図(b)に構成例を示す。本構成
例は、図4(b)のように、フィルタバンクを用いてい
る。ここでは、再生空間を複数に分割し、各再生空間ご
とに最適に調整した逆フィルタを複数個用意する。そし
て、聴取者の推定位置に応じて適宜最適なフィルタに切
り替える方法を採用している。
【0024】次に、図4(a)を用いて具体的な処理を
説明する。ステップ401〜405は、ステップ205
のサブルーチンに相当する。まず、ステップ401で処
理を開始すると、ステップ402において、前述のステ
ップ204で推定した聴取者の位置(ステップ307で
決定した位置)を入力する。ステップ403では、ステ
ップ402で入力した聴取者の位置に対応する存在領域
(部分空間)を決定し、この決定された領域に応じて次
のステップ404でフィルタバンクを切り替え、ステッ
プ405で終了する。なお、図2のステップ206にお
ける音場生成の処理は、通常のトランスオーラル系の処
理と全く同じであるので説明は省略する。
【0025】(実施例2)上記原理をVR実現に応用す
ることができる。ヘッドマウントディスプレー(HM
D)に付随したヘッドフォン型の音響再生システムと対
象者の位置を検出するセンサを設け、このセンサによっ
て対象者の位置を決定し、この決定した対象者の位置に
合わせて音場のパラメータを制御する。この構成によ
り、移動する対象者に対しても高性能なVRが実現でき
る。
【0026】(実施例3)次に、本発明の実施例3を図
面を用いて詳細に説明する。実施例3は、マイクロフォ
ンアレイ102による超指向性効果を用いて音源信号と
雑音信号を分離し、この雑音信号を相殺するような信号
を付加することによって、再生音場において不要な雑音
を能動的に除去可能とした立体音響システムに関するも
のである。
【0027】図5は、本実施例3の立体音響システムの
処理の全体のフローチャートである。同図において、図
2と同様の処理には同一のステップ番号を付与してあ
る。まず、実施例1の図2のフローチャートの場合と同
様に、ステップ202およびステップ203において、
それぞれ、入力端子103からの再生信号あるいはマイ
クロフォンアレイ102からの位置推定用の信号を入力
する。ステップ204の位置推定およびステップ205
のパラメータ制御では、それぞれ実施例1と同様に、聴
取者の位置を推定および逆フィルタの特性を制御して、
ステップ505で音場を生成する。ステップ503で
は、ステップ203で入力された信号より、音源からの
信号と雑音信号とを分離する(詳細は図6で説明)。
【0028】ステップ504では、この再生音場におい
て観測雑音を除去できる雑音相殺信号を生成し(詳細は
図7で説明)、ステップ506において、ステップ50
4で生成した雑音相殺信号をステップ505において生
成した音場を合成し、最終的な出力としてスピーカより
出力し、ステップ507で処理を終了する。
【0029】図6は、図5のステップ503の詳細を示
すフローチャートである。ここでは、図17(c)のよ
うなニューラルネットワーク(NN)を用いた差分型の
システムを用いた例を示す。図17(c)のシステムで
は、予めニューラルネットワーク(NN)のパラメータ
を学習しておき、再生時に信号をニューラルネットワー
ク(NN)に通すことで、雑音と音源信号を分離する。
【0030】図6(a)は、ニューラルネットワーク
(NN)の結合係数を学習する処理を示すフローチャー
トである。まず、ステップ601で処理が開始される
と、ステップ602で学習データが入力される。ステッ
プ603では、この学習データに対して出力が最適にな
るように(具体的には、誤差評価関数を最小にするよう
に)、例えば、数8を用いて結合係数を修正する。以上
の処理を収束するまで繰り返す(ステップ604)。収
束した場合に(ステップ604:Y)、収束したときの
結合係数を出力した後、ステップ605で処理を終了す
る。このときの結合係数は必要に応じてファイルなどに
保存しておいてもよい。
【0031】図6(b)は、図5のステップ503にお
ける音声と雑音の分離処理の詳細を示すフローチャート
である。まず、ステップ606で処理が開始されると、
ステップ607によってマイクロフォンアレイ102か
ら位置推定用の信号が入力される。ステップ608で
は、リファレンスとの差が計算され、ステップ609に
よって図6(a)で決定された結合係数を用いたニュー
ラルネットワーク(NN)での値が計算される。ステッ
プ610では、ニューラルネットワーク(NN)の出力
層の出力から雑音成分を求め、それとの比較から音源信
号を分離する。これらを、別々に出力し、ステップ61
1で処理を終了する。
【0032】図7は、図5のステップ504における雑
音相殺信号の生成処理の詳細を説明するための図であ
る。図7(a)は、適応ノイズキャンセラの原理を示す
図である。ここで、雑音重畳信号Si+n'iに相当す
るのは、再生系で聴取者に観測される音声であり、雑音
信号niには、分離された雑音信号が対応する。図7
(a)のANC(Active Noise Canceller)は、例
えば、雑音信号に適応型のFIRディジタルフィルタ
(Adaptive filter)をかけて、音声中の雑音成分を推
定する。このAdaptive filter のパラメータは、真の
雑音信号と推定雑音信号の差(誤差信号)を小さくする
ように、適宜修正される。この修正は、Adaptive Con
trol部において、例えば、数6に従って行われる。
【0033】ANC−Control部では、音声信号の有無
を判定し、ANCの適応を制御する。具体的には、音声
信号が存在する場合には、適応を実行(Adaptive filt
erのパラメータを更新・修正)する。音声信号が存在し
ない場合は、適応を停止(Adaptive filter パラメー
タを固定)するか、あるいはそれで性能劣化が生じる場
合、ANCそのものをOFF(Adaptive filter の出
力を0)にすることも可能である。なお、音声信号が存
在するか否かは、例えば、「信号の短時間パワーを分析
し、一定以上のパワー値になれば音声区間であると判定
する」などの方法がある。
【0034】図7(b)は、ステップ504の雑音相殺
信号の生成処理の詳細なフローチャートである。同図に
示すように、ステップ701で処理が開始されると、ス
テップ702で誤差評価を行い、ステップ703でパラ
メータの修正を行う。このパラメータの修正は、LMS
を用いれば、例えば数6のように修正すればよい。この
修正されたパラメータに従って、次のステップ704
で、相殺信号を生成する。これは、数5によって計算で
きる。尚、再生系で聴取者に観測される音声は、聴取者
の位置情報とマイクロフォンアレイ102からの入力か
ら推定できる。
【0035】(実施例4)実施例4は、上述した実施例
を利用して構成した音声認識システムである。図8は、
実施例4のシステム構成図である。ここでは、マイクロ
フォンアレイによって入力された信号から実施例3の方
法によって音源信号を分離した後、音声認識装置300
に入力することで、雑音耐性の強い音声認識システムが
実現することができる。
【0036】以下では、その他の実施例として、実施例
1でも触れた領域分割による高速な音場制御法を用いた
実施例について、より詳しく説明する。図9は、領域分
割による音場制御法の概念図である。本実施例において
は、図9(a)のように、マイクロフォンアレイ(音声
入力装置)とスピーカアレイ(音声出力装置)を用い
て、統合的かつ立体的な音声入出力インターフェースを
実現している。すなわち、聴取者の発声からその位置を
特定し、立体音場をその位置に追従させている。この場
合、聴取者の位置の変化に特性更新(追従)が追い付か
なければならないが、位置情報を得てから特性を計算す
ると、どうしても遅延が生ずることになる。この問題を
解決するため、以下の実施例では、聴取者が存在する
(動ける)領域を予め複数の部分領域に分割し、その部
分領域ごとに最適に調整された伝達特性を予め(オフラ
インで)設計し、そのパラメータのみを保有しておく。
【0037】オンラインでは、話者の位置が与えられる
と、その話者が属す(存在する)部分領域を選択し、そ
の領域に対応した伝達特性を用いて立体音響を生成す
る。さらに、話者が連続的に動き回って、切り替えによ
る音場の不連続的変化を回避したいような場合を想定
し、補間による連続化(スムージング)法も同時に示
す。また、実施例1では、機械的にメッシュ型の領域を
想定したが、実システムでは、むしろべクトル量子化に
よるクラスタリングも有効である。また、存在頻度(確
率)によって領域の密度(細かさ)を調整する手法の実
施例も示す。
【0038】(実施例5)実施例5は、補間によるスム
ージングに関するものである。上述の実施例1で示し
た、フイルタバンクを切り替える方法の場合、図9
(b)のような領域分割を考え、各領域と対応したフィ
ルタバンクを選択するようにしたものである。これは、
例えぱ、領域をべクトル量子化によってクラスタリング
する場合も同様である。べクトル量子化とは、2次元以
上の空間において、予め空間上の代表点を決めておき、
任意の点を、空間上で最も近い代表点に対応させる手法
である。ある代表点に対応させられた空間上の点の集合
を領域とみなせるから、結局この方法は、空間を代表点
を用いて分割する方法ともいえる。例えば、図9(b)
のような領域は、図10(a)のように、各正方形領域
の中心(対角線の交点)を代表点としてべクトル量子化
したものと同義である。この場合、各フィルタバンクの
伝達関数は、代表点における伝達特性として表現すれば
良い。
【0039】実施例5では、上記代表点を用いる方法を
採用し、さらに必要に応じて(=データ・パラメータは
フィルタバンクの切り替えによる方法と同―のものを用
いて)補間できる方法を示す。ここでは、前提として、
領域がべクトル量子化によってクラスタリングされてお
り、各量子化べクトル(代表点)に対応して、フィルタ
バンクのパラメータ(伝達関数)が決定されているもの
とする。上記の処理系では、実施例1を用いて、フィル
タバンクの切り替えで処理可能である。これと全く同じ
データで、連続的に特性を変化させたい場合、図10
(b)のように、各量子化べクトル(代表点)を頂点と
する三角形領域を考える。この場合、三角形のパターン
は、予め決定しておく。
【0040】図11は、この三角形領域を用いた補間法
の考え方を説明するための図である。同図(a)のよう
に、三点(Pl,P2,P3)が既知である領域で、点
P(=聴取者の位置)が与えられた場合、、点Pは三点
(Pl,P2,P3)の線形結合で与えられる(図11
(a))。このパラメータα,β,γは、点Pと一意に
対応している。また、点Pが領域内に存在する場合、α
≧0,β≧0,γ≧0であり、α+β+γ=1 とな
る。
【0041】そこで、このパラメータα,β,γを用い
て補間する。具体的には、図11(b)のように、この
パラメータの関数(パラメータそのものを用いても良
い)を重みとし、フィルタを合成する。図中の、H1
(z),H2(z),H3(z)は、各々既知の点P
1,P2,P3に対応した伝達特性である。この場合、
例えば、点PがP1上にいれば、α=1,β=0,γ=
0となって、合成するフィルタの特性はH1(z)その
ものとなる。他の点でも同様であり、整合性は保たれ
る。また、α≧0,β≧0,γ≧0であるから、例え
ば、重みが負になるなどの計算上の不都合は生じない。
【0042】図12は、本実施例5の処理手順を説明す
るためのフローチャートである。まず、ステップ120
1のSTARTによって処理が開始されると、ステップ
1202によって、話者(聴取者)の位置を推定する。
そして、ステップ1203で、ステップ1202で推定
した位置が存在する三角空間を選択する。ステップ12
04では、補間係数(図11のα,β,γ)を計算し、
これに基づいてステップ1205で伝達特性の補間を行
う。
【0043】(実施例6)次に、他の実施例として、実
施例1〜5を用いたシステムの設計方法の実施例を説明
する。ここでは、べクトル量子化法を用いた例を示す。
本実施例では、べクトル量子化によるクラスタリングを
行う。べクトル量子化は、通常、学習データに対して、
歪み(学習データと量子化べクトルの距離の総和)が最
小となるように行われる。しかし、このようなシステム
では、聴取者が高い確率で存在する場所で領域を細分化
する(密に制御する)戦略が有効なこともある。そこ
で、本実施例6では、学習データから求めた聴取者の位
置データから、聴取者の位置の存在確率の情報を加味し
た領域区分法を示す。基本的な考え方は、学習データか
ら代表べクトルを学習する際に、通常のクラスタリング
アルゴリズム(一般に、代表べクトルと学習データの距
離を最小にする)において、単に距離の総和を最小にす
るのではなく、存在確率を考慮した評価関数を用いる
(例えば、存在確率を距離の重みとした加重平均を用い
る等)。
【0044】図13は、設計(学習)システムの基本的
な概念図である。本装置では、同図(a)に示すよう
に、実際の使用条件を想定した環境の下で、移動する被
験者の発声をサンプルする。これは、音声認識システム
を構築する場合と同じである。同図(b)は、被験者の
存在確立に基づいて割り当てた量子化ベクトルによるク
ラスタリングの一例を示す図である。
【0045】図14は、実施例6の処理手順を説明する
ためのフローチャートである。まず、ステップ1401
で処理が開始されると、ステップ1402で学習データ
の分割を行う。これは、録音した音声データを(アナロ
グであればAD変換して)一定時間(フレーム)ごとに
分割する。ステップ1403では、上記で分割したフレ
ームごとに、話者位置の推定を行う。以上の処理を全て
のサンプルデータについて実行する(ステップ140
4)。
【0046】ステップ1405では、存在確率の計算を
行う。これは、近似的には、例えば、図9(b)のよう
なメッシュの領域を仮定し、そこに存在するフレームデ
ータの数をカウントすれば良い。メッシュ領域ごとの存
在確率は、当該領域に存在するデータ数/全データ数で
与えられる。そこで、近似的には、当該領域に存在する
フレームの全てに、当該領域における存在確率を量子化
べクトルの歪み評価における重みとして与えれば良い。
ステップ1406では、上記評価関数に基づいて代表べ
クトルを決定する。この代表べクトルは具体的には空間
上の代表点であるから、ステップ1407で、各々の代
表点に対応した伝達特性を計算し、ステップ1408で
処理を終了する。
【0047】
【発明の効果】本発明によれば、移動する聴取者(発話
者)に対しても、比較簡単な計算でシステムを追従させ
ることが可能になり、能動的に雑音を除去した良好な音
響特性を得ることができる。また、これを利用すること
により、高性能な応用システム(例えば、音声認識,仮
想現実実現システム)が可能になる。
【図面の簡単な説明】
【図1】実施例1の基本的な概念を示す図である。
【図2】実施例1の処理(全体図)を示すフローチャー
トである。
【図3】実施例1の処理(ステップ504)を示すフロ
ーチャートである。
【図4】実施例1の処理(ステップ505)を示すフロ
ーチャートである。
【図5】実施例3の処理(全体図)を示すフローチャー
トである。
【図6】実施例3の処理(ステップ803)を示すフロ
ーチャートである。
【図7】実施例3の処理(ステップ804)を示すフロ
ーチャートである。
【図8】実施例4の応用システム(音声認識システム)
の構成例を示す図である。
【図9】領域分割による音場制御法の概念図である。
【図10】実施例5の補間法を説明するための図である
(その1)。
【図11】実施例5の補間法を説明するための図である
(その2)
【図12】実施例5の処理方法を説明するためのフロー
チャートである。
【図13】音場制御システムの設計方法を説明するため
の図である。
【図14】実施例6の処理方法を説明するためのフロー
チャートである。
【図15】従来の音場制御システムの例を示す図であ
る。
【図16】マイクロフォンアレイシステムの模式図であ
る。
【図17】ニューラルネットワーク(NN)システムの
例を示す図である。
【符号の説明】
101:情報処理装置(マイコン)、1011:位置推
定装置、1012:制御装置、1013:出力フィル
タ、102:複数の音声入力装置(マイクロフォンアレ
イ)、103:入力端子(音声入力)、104:複数の
音声出力装置(スピーカアレイ)。

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 音場を制御するための複数の音声入力装
    置と、立体音響を再生するための複数の音声出力装置と
    を具備し立体音響を生成する立体音響生成方法であっ
    て、 前記複数の音声入力装置からの音声入力に基づいて対象
    者の位置を推定する第一の手順と、該第一の手順により
    推定された対象者の位置に基づいて音場を制御するパラ
    メータを調整する第二の手順と、該第二の手順で調整し
    たパラメータに基づいて立体音場を再生する第三の手順
    を有することを特徴とする立体音響生成方法。
  2. 【請求項2】 音場を制御するための複数の音声入力装
    置と、立体音響を再生するための複数の音声出力装置と
    を具備し、音声を認識し立体音響を生成する立体音響生
    成方法であって、 前記複数の音声入力装置からの音声入力に基づいて対象
    者の位置を推定する第一の手順と、 該第一の手順により推定された対象者の位置に基づいて
    音場を制御するパラメータを調整する第二の手順と、 前記複数の音声入力装置からの入力された音声に基づい
    て音源からの音声と雑音とを分離する第三の手順と、 該第三の手順によって分離された雑音を相殺しうる信号
    を生成する第四の手順と、 第四の手順によって得られた信号と第二の手順によって
    得られる音場を制御するパラメータに付加して雑音除去
    音声を得る第五の手順を有することを特徴とする適応的
    能動雑音除去機能を持つ立体音響生成方法。
  3. 【請求項3】 請求項2記載の立体音響生成方法におい
    て、 前記第五の手順によって得られる雑音除去音声に基づい
    て音声認識を行うようにしたことを特徴とする耐雑音型
    音声認識機能を有する立体音響生成方法。
  4. 【請求項4】 請求項1〜3のいずれか1項に記載の立
    体音響生成方法において、 音場を制御するパラメータを調整する第二の手順は、 予め、話者の存在しうる空間を有限個の部分領域に分割
    し、その各々に最適に調整された音場を生成しうる伝達
    特性に関するデータを具備し、対象者が存在する部分領
    域を決定する第一のステップと、該第1のステップによ
    って決定された部分領域に対応した伝達特性の格納され
    ているデータを選択する第二のステップと、該第二のス
    テップにより得られたパラメータを用いて音場を調整す
    る第三のステップからなることを特徴とする立体音響生
    成方法。
  5. 【請求項5】 請求項1〜3のいずれか1項に記載の立
    体音響生成方法において、 音場を制御するパラメータを調整する第二の手順は、 予め、話者の存在しうる空間を有限個の代表点を設定
    し、その各々に最適に調整された音場を生成しうる伝達
    特性に関するデータを具備し、対象者が存在する位置と
    最も近い代表点を選択する第一のステップと、該第一の
    ステップによって決定された代表点に対応した伝達特性
    の格納されているデータを選択する第二のステップと、
    該第二のステップにより得られたパラメータを用いて音
    場を調整する第三のステップからなることを特徴とする
    立体音響生成方法。
  6. 【請求項6】 請求項1〜3のいずれか1項に記載の立
    体音響生成方法において、 音場を制御するパラメータを調整する第二の手順は、 予め、話者の存在しうる空間を有限個の代表点を設定
    し、その各々に最適に調整された音場を生成しうる伝達
    特性に関するデータを具備し、対象者が存在する位置に
    近い3つの代表点を選択する第一のステップと、該第一
    のステップによって決定された代表点に対応した伝達特
    性の格納されているデータを選択する第二のステップ
    と、対象者が存在する位置に近い3つの代表点の位置関
    係から補正する係数を決定する第三のステップと、前記
    第一のステップにより得られた伝達特性と前記第三のス
    テップにより得られた補正係数を用いて音場を調整する
    第四のステップからなることを特徴とする立体音響生成
    方法。
  7. 【請求項7】 請求項4〜6のいずれか1項に記載の立
    体音響生成方法において、 音声データを提供する被検者から得たデータを一定時間
    の部分データに分割するステップと、該ステップで得ら
    れた部分データの全てに位置の推定を行うステップと、
    該ステップによって得られた位置データから、被検者が
    存在する確率分布を計算するステップと、該ステップに
    よって得られた確率分布を用いて、話者の存在しうる空
    間を有限個の部分領域あるいは話者の存在しうる空間を
    代表する有限個の代表点を決定するステップと、該ステ
    ップによって決定した部分領域あるいは代表点で最適に
    調整された音場を生成する伝達特性を決定するステップ
    を有することを特徴とする立体音響生成方法。
  8. 【請求項8】 仮想現実感を実現するシステムにおい
    て、 ヘッドマウントディスプレー(HMD)に付随したヘッ
    ドフォン型の音響再生システムと、位置を特定するセン
    サと、該センサにより位置を決定する第一の手段と、該
    第一の手段により決定した対象者の位置に合わせて音場
    を調整する第二の手段を具備する仮想現実実現システ
    ム。
JP10274833A 1998-09-29 1998-09-29 立体音響生成方法および仮想現実実現システム Pending JP2000106700A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10274833A JP2000106700A (ja) 1998-09-29 1998-09-29 立体音響生成方法および仮想現実実現システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10274833A JP2000106700A (ja) 1998-09-29 1998-09-29 立体音響生成方法および仮想現実実現システム

Publications (1)

Publication Number Publication Date
JP2000106700A true JP2000106700A (ja) 2000-04-11

Family

ID=17547226

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10274833A Pending JP2000106700A (ja) 1998-09-29 1998-09-29 立体音響生成方法および仮想現実実現システム

Country Status (1)

Country Link
JP (1) JP2000106700A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005184041A (ja) * 2003-12-15 2005-07-07 Sony Corp 音声信号処理装置及び音声信号再生システム
WO2006057131A1 (ja) * 2004-11-26 2006-06-01 Pioneer Corporation 音響再生装置、音響再生システム
JP2006319448A (ja) * 2005-05-10 2006-11-24 Yamaha Corp 拡声システム
JP2007081642A (ja) * 2005-09-13 2007-03-29 Yamaha Corp スピーカアレイ装置及びマイクロホンアレイ装置
JP2011188248A (ja) * 2010-03-09 2011-09-22 Yamaha Corp オーディオアンプ
JP2012029107A (ja) * 2010-07-23 2012-02-09 Nec Casio Mobile Communications Ltd 電子機器
CN109104670A (zh) * 2018-08-21 2018-12-28 潍坊歌尔电子有限公司 一种音频设备及其空间降噪方法、系统
WO2021140951A1 (ja) * 2020-01-09 2021-07-15 ソニーグループ株式会社 情報処理装置および方法、並びにプログラム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005184041A (ja) * 2003-12-15 2005-07-07 Sony Corp 音声信号処理装置及び音声信号再生システム
JP4617668B2 (ja) * 2003-12-15 2011-01-26 ソニー株式会社 音声信号処理装置及び音声信号再生システム
WO2006057131A1 (ja) * 2004-11-26 2006-06-01 Pioneer Corporation 音響再生装置、音響再生システム
JPWO2006057131A1 (ja) * 2004-11-26 2008-08-07 パイオニア株式会社 音響再生装置、音響再生システム
JP2006319448A (ja) * 2005-05-10 2006-11-24 Yamaha Corp 拡声システム
JP2007081642A (ja) * 2005-09-13 2007-03-29 Yamaha Corp スピーカアレイ装置及びマイクロホンアレイ装置
JP2011188248A (ja) * 2010-03-09 2011-09-22 Yamaha Corp オーディオアンプ
JP2012029107A (ja) * 2010-07-23 2012-02-09 Nec Casio Mobile Communications Ltd 電子機器
CN109104670A (zh) * 2018-08-21 2018-12-28 潍坊歌尔电子有限公司 一种音频设备及其空间降噪方法、系统
WO2021140951A1 (ja) * 2020-01-09 2021-07-15 ソニーグループ株式会社 情報処理装置および方法、並びにプログラム

Similar Documents

Publication Publication Date Title
EP0709999B1 (en) Method and apparatus for multi-channel acoustic echo cancellation
KR101409169B1 (ko) 억제 폭 조절을 통한 사운드 줌 방법 및 장치
EP0694197B1 (en) Improved audio reproduction system
US6674865B1 (en) Automatic volume control for communication system
US7117145B1 (en) Adaptive filter for speech enhancement in a noisy environment
US7171003B1 (en) Robust and reliable acoustic echo and noise cancellation system for cabin communication
US5774562A (en) Method and apparatus for dereverberation
US7039197B1 (en) User interface for communication system
CN110996209A (zh) 主动降噪方法、系统以及耳机
JPH08241086A (ja) 雑音消去装置
WO2002032356A1 (en) Transient processing for communication system
CN114582312B (zh) 一种车内抗干扰自适应路噪主动控制方法及控制系统
JP2000106700A (ja) 立体音響生成方法および仮想現実実現システム
CN112331226A (zh) 一种针对主动降噪系统的语音增强系统及方法
JP4409642B2 (ja) 音響獲得の間における外乱信号の最適化された処理のための方法および装置
KR100952400B1 (ko) 원하지 않는 라우드 스피커 신호들을 제거하는 방법
JP3756828B2 (ja) 反響消去方法、この方法を実施する装置、プログラムおよびその記録媒体
JP4920511B2 (ja) マルチチャンネルエコーキャンセラ
JP4068182B2 (ja) 適応フィルタ
Sato et al. An adaptive noise canceller with low signal-distortion based on variable stepsize subfilters for human-robot communication
JP3616341B2 (ja) 多チャネルエコーキャンセル方法、その装置、そのプログラム及び記録媒体
JP3403655B2 (ja) サブバンド適応フィルタを用いた未知システムの同定方法および装置
JP4928918B2 (ja) 適応フィルタを用いた信号処理装置
EP2257082A1 (en) Background noise estimation in a loudspeaker-room-microphone system
JP4247158B2 (ja) 多チャネル音響エコー消去方法、多チャネル音響エコー消去装置、多チャネル音響エコー消去プログラム、記録媒体