JP6774912B2

JP6774912B2 - 音像生成装置

Info

Publication number: JP6774912B2
Application number: JP2017131706A
Authority: JP
Inventors: 公孝堤; 高田　英明; 英明高田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-07-05
Filing date: 2017-07-05
Publication date: 2020-10-28
Anticipated expiration: 2037-07-05
Also published as: JP2019016871A

Description

本発明は、実空間内に仮想的な音源・音像を作り出す音響再生技術に関する。

パブリックビューイングやコンサート会場では、上映会場に設置された複数のスピーカから音声や音楽などが再生される。近年、その音源を仮想的に実空間内に作り出すことにより、これまで以上に臨場感のある音響再生を実現する取り組みが行われている。

上映空間内に仮想的な音源を作り出す音響再生技術について、特許文献１には、収録会場内の複数のマイクロフォンで実音源からの音響信号を収音した後、当該音響信号の上下左右方向の到来方向を分析して、遠隔地の上映空間内において、波面合成法（Wave Field Synthesis）を用いることにより、スピーカアレイから収録会場の音響信号を物理的に再現すること、つまり、実音源に対応する仮想音源を再現する方法が記載されている。

また、非特許文献１には、想定する仮想音場に吸い込み型音源（acoustic sink）があると仮定し、第１種レイリー積分から導出される駆動信号をスピーカアレイに与えることにより、図６に示すように、当該スピーカアレイの前面に仮想音像（Ｘ_ｓ）を作り出す方法が記載されている。

特開２０１１−２４４３０６号公報

Sascha Spors、外３名、"Physical and Perceptual Properties of Focused Sources in Wave Field Synthesis"、127th Audio Engineering Society Convention paper 7914、2009年10月 Hagen Wierstorf、外３名、"Perception of focused sources in wave field synthesis"、Journal of the Audio Engineering Society、vol. 61、No. 1/2、2013年1月,2月、p.5-p.16

特許文献１の方法は、収録地点の音響信号を忠実に再現するため、仮想音源の再現において高い再現性がある。しかし、スピーカアレイだけでなくマイクアレイも必要になるため、システム全体の規模が増大してしまう。また、収録した音を忠実に再生しようとするため、例えば映画に代表されるように日常存在しないような効果音を特殊効果として加えるなど、後に行われる音声コンテンツの編集が困難となる。

一方、非特許文献１の方法は、仮想音像を生成するためにマイクアレイを必要としない。一般に、非特許文献１に示されるように、解析的に定義されたディジタルフィルタは、逐次最適化などを用いる手法に比べて低演算量でフィルタ係数を算出できる。しかし、音響信号のチャネル毎に逆フーリエ変換処理などが必要となるため、リアルタイムに位置が変化する仮想音源を再現する場合、その演算量が膨大になるという課題があった。

そこで、非特許文献２の方法を用いることが考えられる。非特許文献１の方法は、非特許文献２の近似手法を用いて時間領域に変換することができる。

スピーカアレイの各スピーカに与える駆動信号（音響信号）は、仮想音像の位置Ｘ_ｓ（ｘ_ｓ，ｙ_ｓ）と、対象とするｉ番目のスピーカの位置Ｘ_ｉ（ｘ_ｉ，ｙ_ｉ）を用いて次式で定義できる。

ｊ＝√（−１）、ｋは波数（ｋ＝ω／ｃ）、ωは角周波数（ω＝２πｆ）、ｆは周波数、ｃは音速、ｇ_０＝√（２π｜ｙ_ｒｅｆ−ｙ_０｜）、｜ｙ_ｒｅｆ−ｙ_０｜は仮想音像からスピーカアレイまでの距離、Ｈ_１ ^（１）は１次の第１種ハンケル関数である。

式（１）をｘ軸方向に逆フーリエ変換により時間領域に変換して、時間領域の波面合成として知られる次式を得る。

式（２）に含まれる次式は、波面合成プレフィルタｈ（ｎ）として知られている。ｎは時間である。

そのため、時間領域での波面合成技術では、式（２）に示す通り、出力予定の音響信号に対して式（３）の波面合成プレフィルタｈ（ｎ）を適用すれば、その後はチャネル毎にパワー乗算処理と遅延処理を行うだけでよいため、演算量を劇的に削減することができる。

しかし、非特許文献２の方法では、算出された波面合成プレフィルタｈ（ｎ）はフィルタの中央以外の裾の部分にもパワーを有するため（後述）、出力される音響信号にリバーブ（反響音、残響音などのノイズ）がかかったような音質となり、主観的な品質を劣化させてしまうという課題があった。

本発明は、上記事情を鑑みてなされたものであり、音響信号のノイズを抑圧することを目的とする。

以上の課題を解決するため、請求項１に係る音像生成装置は、波面合成用の波面合成プレフィルタに窓関数を掛け合わせる窓関数掛合部と、前記窓関数が掛け合わせられた前記波面合成プレフィルタを音響信号に畳み込むフィルタ演算部と、を備えることを特徴とする。

請求項２に係る音像生成装置は、請求項１に記載の音像生成装置において、前記窓関数掛合部は、前記波面合成プレフィルタの最大振幅値を含む時間範囲に、前記波面合成プレフィルタの時間範囲よりも小さい時間範囲の窓関数を掛け合わせ、前記フィルタ演算部は、当該窓関数が掛け合わせられた時間範囲のみの波面合成プレフィルタを前記音響信号に畳み込むことを特徴とする。

本発明によれば、音響信号のノイズを抑圧することができる。

音像生成装置の構成を示す図である。波面合成プレフィルタの原形状を示す図である。ハニング窓の形状を示す図である。波面合成プレフィルタの形状を示す図である。従来と本発明の音圧分布を示す図である。スピーカアレイと仮想音源の位置関係を示す図である。

上記課題を解決するため、本発明は、波面合成プレフィルタに窓関数を掛け合わせることを特徴とする。これにより、波面合成プレフィルタの裾部分のパワーが抑圧されるので、出力される音響信号の持つリバーブ状のノイズを抑圧することができる。

また、本発明は、波面合成プレフィルタの最大振幅値を含む中心部分付近に限定して、当該波面合成プレフィルタの時間範囲よりも小さい時間範囲の窓関数を掛け合わせ、当該窓関数が掛け合わせられた時間範囲に限定した波面合成プレフィルタのみを取り出して、新たな波面合成プレフィルタとすることを特徴とする。これにより、波面合成プレフィルタの時間長が短くなるので、波面合成プレフィルタの畳み込み演算処理に伴う遅延時間を低遅延化することができる。

以下、本発明を実施する一実施の形態について図面を用いて説明する。

〔第１の実施形態〕
図１は、第１の実施形態に係る音像生成装置１の構成を示す図である。図１に示す構成は、時間領域の波面合成を行う場合の基本的な構成例である。音像生成装置１は、波面合成用の波面合成プレフィルタを生成する波面合成プレフィルタ生成部１１と、当該波面合成プレフィルタに窓関数を掛け合わせる窓関数掛合部１２と、当該窓関数が掛け合わせられた波面合成プレフィルタを音響信号に畳み込むフィルタ演算部１３と、当該音響信号の遅延量を調整する遅延調整部１４と、遅延量調整後の音響信号にゲインを乗算するゲイン乗算部１５と、を備えて構成される。遅延調整部１４とゲイン乗算部１５は、それぞれ、スピーカアレイのスピーカの数と同数であり、スピーカ毎に独立に演算処理を行う。

次に、音像生成装置１の動作について説明する。

ステップＳ１；
まず、波面合成プレフィルタ生成部１１は、波面合成プレフィルタｈ（ｎ）を生成する。以下、波面合成プレフィルタｈ（ｎ）の生成方法を改めて説明する。

例えば、スピーカアレイの各スピーカに与える音響信号は、仮想音像の位置Ｘ_ｓ（ｘ_ｓ，ｙ_ｓ）と、ｉ番目の対象スピーカの位置Ｘ_ｉ（ｘ_ｉ，ｙ_ｉ）を用いて、式（４）で定義することができる。

ここで、ｊ＝√（−１）、ｋは波数（ｋ＝ω／ｃ）、ωは角周波数（ω＝２πｆ）、ｆは周波数、ｃは音速、ｇ_０＝√（２π｜ｙ_ｒｅｆ−ｙ_０｜）、｜ｙ_ｒｅｆ−ｙ_０｜は仮想音像からスピーカアレイまでの距離、Ｈ_１ ^（１）は１次の第１種ハンケル関数である。

そして、式（４）をｘ軸方向に逆フーリエ変換により時間領域に変換することにより、時間領域の波面合成として知られる式（５）を得ることができる。

式（５）の右辺の一部を成す式（６）が波面合成プレフィルタｈ（ｎ）である。波面合成プレフィルタ生成部１１は、当該式（６）を用いて波面合成プレフィルタｈ（ｎ）を生成する。ｎは時間である。

波面合成プレフィルタｈ（ｎ）を図２に例示する。式（６）を用いることにより、例えば、０〜約２５０の時間範囲内でパワー（振幅値）を持つ波面合成プレフィルタｈ（ｎ）を生成することができる。ただし、「発明が解決しようとする課題」で説明した通り、当該波面合成プレフィルタｈ（ｎ）には、フィルタ中央以外の裾の部分にもパワーが含まれている。図２に例示した波面合成プレフィルタｈ（ｎ）の場合、０〜約１００の時間範囲と約１７０〜約２５０の時間範囲にもパワーがある。

ステップＳ２；
次に、窓関数掛合部１２は、ステップＳ１で生成した波面合成プレフィルタｈ（ｎ）の時間長と同じ時間長の窓関数ｗ（ｎ）を生成し、当該窓関数ｗ（ｎ）を当該波面合成プレフィルタｈ（ｎ）に掛け合わせ、式（７）に示す改良後の波面合成プレフィルタｈ（ｎ）｛ｈの上には“∧”｝を生成する。

例えば、窓関数ｗ（ｎ）としてハニング窓関数ｗ（ｎ）を生成する。当該ハニング窓関数ｗ（ｎ）を図３に例示する。図２に例示した波面合成プレフィルタｈ（ｎ）の時間長（０〜約２５０）と同じ時間長（０〜約２５０）で「１」を最大パワーとする。図３に示したハニング窓関数ｗ（ｎ）を図２に示した波面合成プレフィルタｈ（ｎ）に掛け合わせることにより、図４に示すような裾部分のパワーが抑圧された改良後の波面合成プレフィルタｈ（ｎ）｛ｈの上には“∧”｝を生成することができる。

なお、窓関数としては、ハニング窓関数以外に、ハミング窓関数などを用いてもよい。その他、元の波面合成プレフィルタｈ（ｎ）の裾部分のパワーを抑圧できればよいため、０〜約１００の時間範囲と約１７０〜約２５０の時間範囲の各パワーを「０」とし、約１００〜約１７０の時間範囲のパワーを「１」とする標準的な窓関数を用いてもよい。

ステップＳ３；
次に、フィルタ演算部１３は、式（８）に示すように、音像生成装置１に入力された音響信号ｓ（ｎ）に対して、ステップＳ２で生成した改良後の波面合成プレフィルタｈ（ｎ）｛ｈの上には“∧”｝を畳み込む。なお、当該畳み込みを行う畳み込み演算処理自体は、公知技術である。

ステップＳ４；
次に、遅延調整部１４は、式（９）に示すように、ステップＳ３で畳み込み処理を行った音響信号ｓ（ｎ）｛ｓの上には“∧”｝に対して、仮想音源の位置Ｘ_ｓとスピーカの位置Ｘ_ｉで決定される遅延量を加える。

ステップＳ５；
次に、ゲイン乗算部１５は、式（１０）に示すように、ステップＳ４で遅延量を加えた音響信号ｓ（ｎ）｛ｓの上には“・”｝のゲインを調整（加算、減算などの演算を含む）する。ゲイン調整された音響信号ｙ（ｎ）が、スピーカを駆動させる駆動信号となる。

ステップＳ４とステップＳ５をスピーカの数だけ繰り返すことにより、時間領域の波面合成に必要な音響信号を全て得ることができる。なお、遅延調整部１４とゲイン乗算部１５のパラメータを時間的に変更することにより、仮想音像の位置を動的に変化させることもできる。また、音像生成装置１は、音響信号とともに、仮想音像の位置が指定された音像位置情報を受信した場合、生成する仮想音像の位置が当該指定された位置に合うように上記パラメータを調整することもできる。

第１の実施形態によれば、波面合成プレフィルタに窓関数を掛け合わせるので、波面合成プレフィルタの裾部分のパワー（振幅値）が抑圧され、音響信号の持つリバーブ状のノイズを抑圧することができる。

効果を確認するため、単一周波数（１ｋＨｚ）の正弦波を用いた音場の計算機シミュレーションを行った。従来の音圧分布と本実施形態の音圧分布を図５に示す。図中の「ｘ…ｘ」はｘ軸上に１０ｃｍ間隔で並べた４０個のスピーカを示し、座標（０，２）が仮想音像の位置（焦点音源）を示している。波面合成プレフィルタに窓関数を掛け合わせた場合であっても、焦点音源が作る音場分布は、従来と比べて劣化していないことを把握できる。

〔第２の実施形態〕
第２の実施形態では、波面合成プレフィルタの畳み込み演算処理に伴う遅延時間を低遅延化することを目的とする。当該目的を達成するため、窓関数掛合部１２で波面合成プレフィルタに掛け合わる窓関数を、当該波面合成プレフィルタの時間長よりも短い時間長の窓関数とし、当該窓関数が掛け合わせられた時間長のみの波面合成プレフィルタを生成する。

本実施形態に係る音像生成装置１の構成は、第１の実施形態の構成と同じである。ただし、窓関数掛合部１２は、第１の実施形態で説明した機能以外に、元の波面合成プレフィルタの時間長よりも短い時間長の窓関数を生成し、当該元の波面合成プレフィルタの最大振幅値を含む時間範囲に当該窓関数を掛け合わせ、当該窓関数が掛け合わせられた時間範囲のみの波面合成プレフィルタのみを取り出して、改良後の波面合成プレフィルタとする機能を持つ。なお、窓関数掛合部１２以外の機能については、第１の実施形態と概ね同じである。

次に、本実施の形態に係る音像生成装置１の動作について説明する。

第１の実施形態で説明したステップＳ１の後、窓関数掛合部１２は、まず、ステップＳ１で生成した波面合成プレフィルタｈ（ｎ）の時間長よりも短い時間長Ｌの窓関数ｗ（ｐ）｛ｐ＝１，…，Ｌ｝を生成する。

次に、窓関数掛合部１２は、波面合成プレフィルタｈ（ｎ）の振幅の絶対値が最大となる時点を特定し、当該時点が中央にくる時間範囲を特定する。例えば、所定の開始時点ｔにｐ値をそれぞれ加算し、（ｔ＋１），（ｔ＋２），…，（ｔ＋Ｌ）の各時間範囲のうちから、波面合成プレフィルタの最大振幅値が中央に位置する時間範囲を特定する。

次に、窓関数掛合部１２は、式（１１）に示すように、特定した時間範囲内の波面合成プレフィルタに上記時間長Ｌの窓関数ｗ（ｐ）を掛け合わせ、当該窓関数ｗ（ｐ）が掛け合わせられた時間範囲のみからなる、第１の実施形態で用いた改良後の波面合成プレフィルタよりも時間長の短い波面合成プレフィルタを生成する。

これ以降は、第１の実施形態で説明したステップＳ３以降の処理と同じである。フィルタ演算部１３では、第１の実施形態よりも時間長の短い波面合成プレフィルタを音響信号に畳み込む処理が行われる。

第２の実施形態によれば、波面合成プレフィルタの最大振幅値を含む時間範囲に、当該波面合成プレフィルタの時間長よりも短い時間長の窓関数を掛け合わせ、当該窓関数が掛け合わせられた時間範囲のみの波面合成プレフィルタを音響信号に畳み込むので、波面合成プレフィルタの時間長が短くなり、波面合成プレフィルタの畳み込み演算処理に伴う遅延時間を低遅延化することができる。

最後に、各実施の形態で説明した音像生成装置１は、上記機能を備える回路やコンピュータなどで実現可能である。

１…音像生成装置
１１…波面合成プレフィルタ生成部
１２…窓関数掛合部
１３…フィルタ演算部
１４…遅延調整部
１５…ゲイン乗算部

Claims

波面合成用の波面合成プレフィルタに窓関数を掛け合わせる窓関数掛合部と、
前記窓関数が掛け合わせられた前記波面合成プレフィルタを音響信号に畳み込むフィルタ演算部と、
を備えることを特徴とする音像生成装置。
前記窓関数掛合部は、前記波面合成プレフィルタの最大振幅値を含む時間範囲に、前記波面合成プレフィルタの時間範囲よりも小さい時間範囲の窓関数を掛け合わせ、
前記フィルタ演算部は、
当該窓関数が掛け合わせられた時間範囲のみの波面合成プレフィルタを前記音響信号に畳み込むことを特徴とする請求項１に記載の音像生成装置。