JP6445407B2

JP6445407B2 - 音生成装置、音生成方法、プログラム

Info

Publication number: JP6445407B2
Application number: JP2015148269A
Authority: JP
Inventors: 尚植松; 小川　克彦; 克彦小川
Original assignee: Nippon Telegraph and Telephone Corp; Keio University
Current assignee: Nippon Telegraph and Telephone Corp; Keio University
Priority date: 2015-07-28
Filing date: 2015-07-28
Publication date: 2018-12-26
Anticipated expiration: 2035-07-28
Also published as: JP2017026967A

Description

本発明は、例えば野外収録におけるコンテンツ作成などにおいて、臨場感の高い環境音、背景音を作成するための音生成装置、音生成方法、プログラムに関する。

従来、例えば家庭用ビデオカメラでの撮影に際し、環境音や背景音は、目的音として収音したい音声を妨害する雑音であり、除去すべきものとして扱われてきた（例えば、特許文献１）。

一方、「カモメの鳴き声」、「船の汽笛」などの情景音を簡単な構成でバリエーション豊かに再現する情景音発生装置が提案されている（特許文献２）。ただし、特許文献２の情景音発生装置は、予め収録、又は収集しておいた情景音の素材（例えばカモメの鳴き声の音声データ）を他の音に合成することで所定の情景を再現するため、実際の現場の印象を再現しているとはいえない。

特開２００６−１７１０７７号公報特開２００４−２８９５１１号公報

例えば街角の風景をビデオカメラで記録する場合、実際にその場にいたときに感じられる印象と異なる印象で、環境音や背景音が収録される場合がある。街角に実際に立ってみると、目の前を通り過ぎる通行人の靴音、少し遠くにある店先から流れるＣＭの音などが鮮明に耳に残る場合がある。一方、これを録音して再生してみると、交通騒音ばかりが目立ち、前述の靴音やＣＭの音などはこの騒音に埋もれてしまい、鮮明に聞こえない場合がある。

環境音、背景音を収録する場合において、上述したような人間の聴覚系の特性を模擬して、臨場感のある環境音、背景音を生成できる音生成装置、音生成方法を確立することが望まれている。上述の技術は、ビデオカメラの録画のみならず、音声情報を活用する様々なサービスへの応用が期待される。

そこで本発明では、臨場感のある環境音、背景音を生成できる音生成装置を提供することを目的とする。

本発明の音生成装置は、収音部と、強調処理部と、原音抽出部と、強調度決定部と、合成部を含む。

収音部は、Ｍを３以上の整数とし、Ｍ方向の音をＭチャネルの音信号として収音する。強調処理部は、Ｍチャネルの音信号のうち２つのチャネルの音信号をそれぞれ第１、第２方向チャネルの音信号として選択する。原音抽出部は、Ｍチャネルの音信号のうち少なくとも何れかのチャネルの音信号を用いて原音を抽出する。強調度決定部は、予め定めた規則により、第１、第２方向チャネルの強調度を決定する。合成部は、決定された強調度に応じて第１、第２方向チャネルの音信号を増幅し、原音と合成する。

本発明の音生成装置によれば、臨場感のある環境音、背景音を生成できる。

実施例１の音生成装置の収音部の構成を示す図。実施例１の音生成装置の構成を示すブロック図。実施例１の音生成装置の動作を示すフローチャート。実施例２の音生成装置の構成を示すブロック図。実施例２の音生成装置の第１、第２方向強調部の構成を示すブロック図。実施例２の音生成装置の第１、第２方向強調部の動作を示すフローチャート。実施例３の音生成装置の構成を示すブロック図。実施例３の音生成装置の動作を示すフローチャート。実施例４の音生成装置の構成を示すブロック図。実施例４の音生成装置の動作を示すフローチャート。

人間の聴覚は、あらゆる方向から到来する音を均等に処理しているのではなく、何かしら注意の向いた音について選択的に注力して聞いているという研究結果がある。さらに、その注意の向く方向は、最大で２つである可能性が高いことも調べられている（参考非特許文献１参照）。
（参考非特許文献１：柏野、平原、「一度に何人の声を聞き分けられるか？」、日本音響学会研究発表会講演論文集、一般社団法人日本音響学会、平成8年3月1日、pp.467-468）

マイクによって収録された環境音、背景音は、音の空間的な配置といった空間情報が欠落しており、人間の聴覚処理がうまく機能しないため、臨場感を損なうひとつの要因となっていると考えられる。そこで以下の実施例では、収録する環境音、背景音の中から、特徴的な音の存在する方向を２つ選定し、２つの方向の音を強調することで、収録された環境音、背景音から失われた空間情報を補完し、あたかも収録された場にいながら環境音、背景音を聞いているかのような臨場感を創出することができる音生成装置を開示する。

２つの強調すべき方向の音の強調処理は、ハードウェアとして指向性を有するマイクを利用することで実現できる。一方、複数のマイクを利用して指向性を形成し方向ごとにフィルタリングし、さらにその後段で非線形処理を施すことで音の強調処理を実現することもできる。

強調された２方向の音情報は、強調処理を施さない原音と混合されることで臨場感のある音が生成される。この際、原音をダイオティックに、強調された２つの音を、左右のそれぞれに配置したステレオ音として再生することで、強調処理された２つの音をより明確に知覚させることが可能になる（実施例３参照）。さらに、強調された２つの音のそれぞれに任意の方向の頭部伝達関数を畳み込み、ヘッドホン受聴することで、より高い臨場感で環境音、背景音を聴取することが可能となる（実施例４参照）。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

以下、図１、図２、図３を参照して実施例１の音生成装置の構成および動作について説明する。図１は、本実施例の音生成装置１の収音部１１の構成を示す図である。図２は、本実施例の音生成装置１の構成を示すブロック図である。図３は、本実施例の音生成装置１の動作を示すフローチャートである。

図１に示すように、本実施例の音生成装置１が備える収音部１１は、例えばＭ本の単一指向性マイク１１−１、１１−２、…、１１−Ｍからなり、これらの指向性マイク１１−１、１１−２、…、１１−Ｍを円状に（各マイクの指向性が強となる方向が放射状に配列されるように）並べた構成とすることができる。なおＭは３以上の任意の整数とする。収音部１１は、Ｍ方向の音（環境音、背景音）をＭチャネルの音信号として収音する（Ｓ１１）。

図２に示すように、本実施例の音生成装置１は、上述の収音部１１に加え、強調処理部１２と、原音抽出部１３と、強調度決定部１４と、合成部１５を含む構成である。

強調処理部１２は、ステップＳ１１で録音されたＭチャネルの音信号のうち、所望の方向の２つのチャネルの音信号をそれぞれ第１、第２方向チャネルの音信号として選択する（Ｓ１２）。原音抽出部１３は、Ｍチャネルの音信号のうち少なくとも何れかのチャネルの音信号を用いて原音を抽出する（Ｓ１３）。より詳細には、原音抽出部１３は、Ｍチャネルの音信号の総和、もしくは任意の1チャネルの信号を原音として抽出し、出力する。

強調度決定部１４は、予め定めた規則により、第１、第２方向チャネルの強調度（強調係数）を決定する（Ｓ１４）。ステップＳ１４の強調度（強調係数）としては、原音抽出部１３からの出力と比較して不自然なバランスにならない範囲で、できるだけ高Ｓ／Ｎとなる値に設定することが望ましい。通常の場合、原音抽出部１３の出力から６〜１０ｄＢ程度高くなるように設定すると、この条件となる場合が多い。合成部１５は、決定された強調度に応じて第１、第２方向チャネルの音信号を増幅し、原音と合成して出力する（Ｓ１５）。

本実施例の音生成装置１によれば、強調処理部１２が第１、第２方向チャネルの音信号を選択し、合成部１５が第１、第２方向チャネルの音信号を増幅して原音と合成して出力するため、臨場感のある環境音、背景音を生成できる。

以下、図４、図５を参照して実施例１の強調処理部を変形した実施例２の音生成装置の構成について説明する。図４は、本実施例の音生成装置２の構成を示すブロック図である。図５は、本実施例の音生成装置２の第１、第２方向強調部２２１ａ、２２１ｂの構成を示すブロック図である。

図４に示すように、本実施例の音生成装置２は、実施例１の音生成装置１の強調処理部１２の代わりに強調処理部２２を備え、その他の構成要件については、実施例１と同じである。同図に示すように強調処理部２２は、第１方向強調部２２１ａと、第２方向強調部２２１ｂを含む。第１方向強調部２２１ａ、第２方向強調部２２１ｂは、図５に示す共通の構成要件で構成される。同図に示すように、第１（第２）方向強調部２２１ａ（２２１ｂ）は、フィルタ部２２１１と、足し合わせ部２２１２と、ターゲット／雑音エリアＰＳＤ推定部２２１３と、定常／非定常成分抽出部２２１４と、ポストフィルタ計算部２２１５と、掛けあわせ部２２１６と、逆フーリエ変換部２２１７を含む構成である。以下、図６を参照して本実施例の音生成装置２の第１、第２方向強調部２２１ａ、２２１ｂの動作について説明する。同図は、本実施例の音生成装置２の第１、第２方向強調部２２１ａ、２２１ｂの動作を示すフローチャートである。

本実施例では、Ｍ個（Ｍは２以上の任意の整数）のマイク素子で構成されるマイクロホンアレイに対して、Ｋ個（Ｋは１以上の任意の整数）の音源を観測する場合を考える。なお、Ｍ＝２の場合であってもマイクロホンアレイにソフトウェア処理を施すことにより、３方向以上の方向に指向性を持たせることができる。ｍ番目のマイク素子とｋ番目の音源との間の伝達特性をA_m,k(ω),ｋ番目の音源信号をS_k(ω,τ)と表した場合、ｍ番目の観測信号（ｍチャネルの音信号）X_m(ω,τ)は、次式でモデル化される。

ここで、ωは周波数、τはフレームを表す。ｍは１≦ｍ≦Ｍを充たす整数、ｋは１≦ｋ≦Ｋを充たす整数とする。

フィルタ部２２１１は、各チャネルの音信号を、ターゲットとなる音を強調するフィルタでフィルタリングする（Ｓ２２１１）。フィルタ部２２１１は各チャネルにつき一つずつ、計Ｍ個のチャネル別フィルタW₁(ω),W₂(ω),… ,W_M(ω)を含む。w(ω)=[W₁(ω),W₂(ω),… ,W_M(ω)]^Tは、次式で求められる。

ここでh(ω)=[H₁(ω),H₂(ω),…,H_M(ω)]^Tは、ターゲット音方向のアレイマニフォールドベクトルである。なお、h(ω)については、下付きのｋの表記を省略した。R^-1(ω)は空間相関行列の逆行列を表す。また上付きのTは転置記号、上付きのHはエルミート転置を表す。音源信号が互いに無相関であるとすると、空間相関行列R(ω)は、次式で表現される。

足し合わせ部２２１２は、フィルタリングされた各チャネルの音信号を足し合わせて、ターゲット音を強調するビームフォーミングの出力信号Y₀(ω,τ)を出力する（Ｓ２２１２）。すなわち、ターゲット音を強調するビームフォーミングの出力信号Y₀(ω,τ)は、下記の式により求められる。

ただし、x(ω,τ)=[X₁(ω,τ),X₂(ω.τ),…,X_M(ω,τ)]^Tである。

この出力信号Y₀(ω,τ)に雑音信号を抑圧するためのポストフィルタG(ω,τ)を掛け合わせることで、雑音信号が抑圧された最終出力（目的方向強調信号）を得ることができる。このポストフィルタG(ω,τ)を得る手段として、例えば参考非特許文献２などの方法が提案されている。参考非特許文献２の手法では、φ_S(ω,τ)をターゲットエリアのパワースペクトル密度、φ_N(ω,τ)を雑音エリアのパワースペクトル密度として次式でG(ω,τ)を求める。

参考非特許文献２ではさらに、観測信号X_m(ω,τ)からφ_S(ω,τ)、φ_N(ω,τ)を推定する方法が提案されている。なおパワースペクトル密度は、以下ではＰＳＤ(Power Spectral Density)とも呼称する。
（参考非特許文献２：Y.Hioka et al., “Underdetermined sound source separation using power spectrum density estimated by combination of directivity gain,” Audio, Speech, and Language Processing, IEEE Transactions on, IEEE, 2013.2.22, Volume:21, Issue:6, pp.1240-1250）

ただし、Y,D,Sの各シンボルのインデックスを省略してある。

上式の逆問題を解くことで、各方向に対するパワースペクトル密度の推定値を求めることができる。

ここで、[ ]⁺は[ ]に対する疑似逆行列演算を表す。

ターゲット／雑音エリアＰＳＤ推定部２２１３は、予め定めた各方向のパワースペクトル密度推定値に基づいて、ターゲットエリア、雑音エリアそれぞれのパワースペクトル密度推定値を推定する（Ｓ２２１３）。ターゲット／雑音エリアＰＳＤ推定部２２１３は、ターゲットエリアのＰＳＤ推定値φ^_S(ω,τ)、雑音エリアのＰＳＤ推定値φ^_N(ω,τ)を次式に従って計算する。

ただしこれらの推定値の計算には、ターゲット音と干渉雑音が混在することが仮定されてはいるが、実際の利用の場面では、コヒーレント性のある干渉雑音だけではなく、インコヒーレント性の強い定常性雑音が混在することが多く、このような条件下では、φ_S(ω,τ)、φ_N(ω,τ)の推定誤差が大きくなり、雑音抑圧性能が低下するという問題がある。このため下記のステップＳ２２１４（定常／非定常成分抽出部２２１４の動作）が必要となる。

定常／非定常成分抽出部２２１４は、ターゲットエリア、および雑音エリアのパワースペクトル密度推定値のそれぞれについて、ターゲットエリアから到来する音に由来する非定常成分と、雑音に由来する定常成分のそれぞれを抽出する（Ｓ２２１４）。

より詳細には、定常／非定常成分抽出部２２１４は、ターゲットエリアのパワースペクトル密度の推定値φ^_S(ω,τ)から、ターゲットエリアから到来する音に由来する非定常成分φ^_S ^(A)(ω,τ)と、インコヒーレントな雑音に由来する定常成分φ^_S ^(B)(ω,τ)のそれぞれを、時間平均処理による次式で求める（Ｓ２２１４）。

次に定常／非定常成分抽出部２２１４は、雑音エリアのパワースペクトル密度推定値φ^_N(ω,τ)から、ターゲットエリアから到来する音に由来する非定常成分φ^_N ^(A)(ω,τ)と、インコヒーレントな雑音に由来する定常成分φ^_N ^(B)(ω,τ)のそれぞれを、時間平均処理による次式で求める（Ｓ２２１４）。

ポストフィルタ計算部２２１５は、非定常成分と、定常成分に基づいてポストフィルタを計算する（Ｓ２２１５）。より詳細には、ポストフィルタ計算部２２１５は、φ^_S ^(A)(ω,τ)、φ^_S ^(B)(ω,τ)、φ^_N ^(A)(ω,τ)、φ^_N ^(B)(ω,τ)を用いて、ポストフィルタG~(ω,τ)を次式によって計算する（Ｓ２２１５）。

掛け合わせ部２２１６は、ポストフィルタと、ステップＳ２２１２で足し合わせられた信号を掛け合わせて目的方向強調信号を生成する（Ｓ２２１６）。掛け合わせ部２２１６は、ポストフィルタG~(ω,τ)と、足し合わせられた信号Y₀(ω,τ)を掛け合わせることで周囲の雑音を抑圧し目的の方向のみを抽出した目的方向強調信号Z(ω,τ)を得る（Ｓ２２１６）。

逆フーリエ変換部２２１７は、目的方向強調信号Z(ω,τ)を逆フーリエ変換する（Ｓ２２１７）。これにより、周囲の雑音を抑圧し所望の方向の音のみを抽出することが可能となる。

本実施例の音生成装置２は、その強調処理部２２に第１、第２方向強調部２２１ａ、２２１ｂを含み、第１、第２方向強調部２２１ａ，２２１ｂが上述のステップＳ２２１１〜Ｓ２２１７を実行することにより所望の一方向の音のみをそれぞれ抽出するため、強調処理部２２からは、計２方向の（２チャネル）の音信号が選択されて抽出される。従って、本実施例の音生成装置２は実施例１の音生成装置１と比べ、ソフトウェア的に２方向の音信号を選択することが可能であり、指向性マイクを並べる必要があるといったハードウェアの制約を受けにくいという利点がある。

以下、図７、図８を参照して、実施例１の音生成装置をステレオ形式に変形した実施例３の音生成装置について説明する。図７は、本実施例の音生成装置３の構成を示すブロック図である。図８は、本実施例の音生成装置３の動作を示すフローチャートである。図７に示すように、本実施例の音生成装置３は、実施例１の音生成装置１の合成部１５の代わりに合成部３５を備え、その他の構成要件については、実施例１と同じである。本実施例の音生成装置３の合成部３５は、右チャネル合成部３５Ｒと、左チャネル合成部３５Ｌを含む。

右チャネル合成部３５Ｒは、決定された強調度に応じて第１方向チャネルの音信号を増幅して原音と合成し、ステレオ方式における右チャネル音を生成する（Ｓ３５Ｒ）。同様に、左チャネル合成部３５Ｌは、決定された強調度に応じて第２方向チャネルの音信号を増幅して原音と合成し、ステレオ方式における左チャネル音を生成する（Ｓ３５Ｌ）。

右（左）チャネル合成部３５Ｒ（３５Ｌ）は、原音抽出部１３によって抽出された原音
を左右のチャンネルそれぞれに等しい信号（ダイオティック信号）とし、右チャンネル用に所望する任意の方向（第１方向とする）の音信号と原音が合成された音を、他方の左チャンネル用に、所望する他方の方向（第２方向とする）の音と原音が合成された音を生成する。合成部３５で生成された音は、拡声のステレオスピーカ、ステレオヘッドホンを用いて良好に再生できる。

本実施例の音生成装置３によれば、所望の２方向の音を合成部３５で合成する際、それぞれの音をステレオ信号の左右のチャンネルに分割して合成することが可能である。

以下、図９、図１０を参照して、実施例１の音生成装置をバイノーラル方式（参考非特許文献３）に変形した実施例４の音生成装置４について説明する。
（参考非特許文献３：安藤彰男著、「音響サイエンスシリーズ（第10巻）−音場再現」、株式会社コロナ社、2014年12月10日、第6章高臨場感音場再現）

図９は、本実施例の音生成装置４の構成を示すブロック図である。図１０は、本実施例の音生成装置４の動作を示すフローチャートである。図９に示すように、本実施例の音生成装置４は、実施例１の音生成装置１の構成要件に加え、第１方向音響特性付加部４４５ａ、第２方向音響特性付加部４４５ｂ、クロストーク排除部４６を備える。その他の構成要件については、実施例１と同じである。

本実施例の音生成装置４は、ステップＳ１２で選択、抽出された第１、第２方向チャネルの音信号それぞれに対して、空間的に弁別可能な任意の２つの方向を決定し、これらの方向に対応する音響特性を付加する。具体的には、第１方向音響特性付加部４４５ａは、第１方向チャネルの音信号に第1方向に対応する頭部伝達関数を畳込む（Ｓ４４５ａ）。同様に、第２方向音響特性付加部４４５ｂは、第２方向チャネルの音信号に第２方向に対応する頭部伝達関数を畳込む（Ｓ４４５ｂ）。

一方、原音抽出部から抽出された原音については、実施例３と同様にダイオティック信号とすることや、２つの音それぞれから弁別可能な位置にある任意の方向の伝達特性を畳み込むことが可能である。最終出力である生成音を再生する際は、ステレオスピーカを用いる方法とステレオヘッドホンを用いる方法がとり得る。ステレオヘッドホンを用いる場合には、左右のチャンネルからそれぞれのバイノーラル信号を出力すればよい。一方、ステレオスピーカを用いる場合には、左チャンネルの信号が右耳にも到達し、右チャンネルの信号が左耳にも到達するクロストークが発生する。この場合、クロストーク排除部４６により、クロストークを排除すれば好適である。クロストーク排除部４６は、ステップＳ１５で合成された信号からクロストークを排除する（Ｓ４６）。

本実施例の音生成装置４によれば、所望の２方向の音を、両耳の入口部分での音響特性を再現するバイノーラル方式を用いて合成することが可能となる。

＜発明のポイント＞
本発明のポイントは、収録された環境音、背景音の中から２つの方向の音を抽出し、その他の音（原音）との３つを合成することでマイク収録によって失われた空間情報を補完し、高い臨場感の環境音、背景音を生成する点である。また、抽出した２方向の音を、左右のスピーカもしくは仮想的に空間の任意の場所から再生させることで、再度人間の空間弁別能力の利用を可能とし、より高い臨場感を創出する点である。

ストリートビューのような街中の映像に付加する高臨場な環境音、背景音の生成、あるいは高臨場音響収録が可能なビデオカメラなどに利用することが可能である。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ−ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行、処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

Ｍを３以上の整数とし、Ｍ方向の音をＭチャネルの音信号として収音する収音部と、
前記Ｍチャネルの音信号のうち、任意の所望の方向の２つのチャネルの音信号をそれぞれ第１、第２方向チャネルの音信号として選択する強調処理部と、
前記Ｍチャネルの音信号のうち少なくとも何れかのチャネルの音信号を用いて原音を抽出する原音抽出部と、
予め定めた規則により、前記第１、第２方向チャネルの強調度を決定する強調度決定部と、
前記決定された強調度に応じて前記第１、第２方向チャネルの音信号を増幅し、前記原音と合成する合成部
を含む音生成装置。
請求項１に記載の音生成装置であって、
前記強調処理部は、
第１、第２方向強調部を含み、
前記第１、第２方向強調部は、
各チャネルの音信号を、ターゲットとなる音を強調するフィルタでフィルタリングするフィルタ部と、
前記フィルタリングされた各チャネルの音信号を足し合わせる足し合わせ部と、
予め定めた各方向のパワースペクトル密度推定値に基づいて、ターゲットエリア、雑音エリアそれぞれのパワースペクトル密度推定値を推定するターゲット／雑音エリアＰＳＤ推定部と、
前記ターゲットエリア、および前記雑音エリアのパワースペクトル密度推定値のそれぞれについて、前記ターゲットエリアから到来する音に由来する非定常成分と、雑音に由来する定常成分のそれぞれを抽出する定常／非定常成分抽出部と、
前記非定常成分と、前記定常成分に基づいてポストフィルタを計算するポストフィルタ計算部と、
前記ポストフィルタと、前記足し合わせられた信号を掛け合わせて目的方向強調信号を生成する掛け合わせ部と、
前記目的方向強調信号を逆フーリエ変換する逆フーリエ変換部
を含む音生成装置。
請求項１または２に記載の音生成装置であって、
前記合成部は、
前記決定された強調度に応じて前記第１方向チャネルの音信号を増幅して前記原音と合成し、ステレオ方式における右チャネル音を生成する右チャネル合成部と、
前記決定された強調度に応じて前記第２方向チャネルの音信号を増幅して前記原音と合成し、ステレオ方式における左チャネル音を生成する左チャネル合成部と、
を含む音生成装置。
請求項１または２に記載の音生成装置であって、
前記第１方向チャネルの音信号に前記第１方向に対応する頭部伝達関数を畳込む第１方向音響特性付加部と、
前記第２方向チャネルの音信号に前記第２方向に対応する頭部伝達関数を畳込む第２方向音響特性付加部と、
を含む音生成装置。
音生成装置が実行する音生成方法であって、
前記音生成装置は、
Ｍを３以上の整数とし、Ｍ方向の音をＭチャネルの音信号として収音するステップと、
前記Ｍチャネルの音信号のうち、任意の所望の方向の２つのチャネルの音信号をそれぞれ第１、第２方向チャネルの音信号として選択するステップと、
前記Ｍチャネルの音信号のうち少なくとも何れかのチャネルの音信号を用いて原音を抽出するステップと、
予め定めた規則により、前記第１、第２方向チャネルの強調度を決定するステップと、
前記決定された強調度に応じて前記第１、第２方向チャネルの音信号を増幅し、前記原音と合成するステップを実行する
音生成方法。
コンピュータを請求項１から４の何れかに記載の音生成装置として機能させるプログラム。