JP6445407B2 - 音生成装置、音生成方法、プログラム - Google Patents

音生成装置、音生成方法、プログラム Download PDF

Info

Publication number
JP6445407B2
JP6445407B2 JP2015148269A JP2015148269A JP6445407B2 JP 6445407 B2 JP6445407 B2 JP 6445407B2 JP 2015148269 A JP2015148269 A JP 2015148269A JP 2015148269 A JP2015148269 A JP 2015148269A JP 6445407 B2 JP6445407 B2 JP 6445407B2
Authority
JP
Japan
Prior art keywords
sound
channel
unit
signal
enhancement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015148269A
Other languages
English (en)
Other versions
JP2017026967A (ja
Inventor
尚 植松
尚 植松
小川 克彦
克彦 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Keio University
Original Assignee
Nippon Telegraph and Telephone Corp
Keio University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Keio University filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015148269A priority Critical patent/JP6445407B2/ja
Publication of JP2017026967A publication Critical patent/JP2017026967A/ja
Application granted granted Critical
Publication of JP6445407B2 publication Critical patent/JP6445407B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)

Description

本発明は、例えば野外収録におけるコンテンツ作成などにおいて、臨場感の高い環境音、背景音を作成するための音生成装置、音生成方法、プログラムに関する。
従来、例えば家庭用ビデオカメラでの撮影に際し、環境音や背景音は、目的音として収音したい音声を妨害する雑音であり、除去すべきものとして扱われてきた(例えば、特許文献1)。
一方、「カモメの鳴き声」、「船の汽笛」などの情景音を簡単な構成でバリエーション豊かに再現する情景音発生装置が提案されている(特許文献2)。ただし、特許文献2の情景音発生装置は、予め収録、又は収集しておいた情景音の素材(例えばカモメの鳴き声の音声データ)を他の音に合成することで所定の情景を再現するため、実際の現場の印象を再現しているとはいえない。
特開2006−171077号公報 特開2004−289511号公報
例えば街角の風景をビデオカメラで記録する場合、実際にその場にいたときに感じられる印象と異なる印象で、環境音や背景音が収録される場合がある。街角に実際に立ってみると、目の前を通り過ぎる通行人の靴音、少し遠くにある店先から流れるCMの音などが鮮明に耳に残る場合がある。一方、これを録音して再生してみると、交通騒音ばかりが目立ち、前述の靴音やCMの音などはこの騒音に埋もれてしまい、鮮明に聞こえない場合がある。
環境音、背景音を収録する場合において、上述したような人間の聴覚系の特性を模擬して、臨場感のある環境音、背景音を生成できる音生成装置、音生成方法を確立することが望まれている。上述の技術は、ビデオカメラの録画のみならず、音声情報を活用する様々なサービスへの応用が期待される。
そこで本発明では、臨場感のある環境音、背景音を生成できる音生成装置を提供することを目的とする。
本発明の音生成装置は、収音部と、強調処理部と、原音抽出部と、強調度決定部と、合成部を含む。
収音部は、Mを3以上の整数とし、M方向の音をMチャネルの音信号として収音する。強調処理部は、Mチャネルの音信号のうち2つのチャネルの音信号をそれぞれ第1、第2方向チャネルの音信号として選択する。原音抽出部は、Mチャネルの音信号のうち少なくとも何れかのチャネルの音信号を用いて原音を抽出する。強調度決定部は、予め定めた規則により、第1、第2方向チャネルの強調度を決定する。合成部は、決定された強調度に応じて第1、第2方向チャネルの音信号を増幅し、原音と合成する。
本発明の音生成装置によれば、臨場感のある環境音、背景音を生成できる。
実施例1の音生成装置の収音部の構成を示す図。 実施例1の音生成装置の構成を示すブロック図。 実施例1の音生成装置の動作を示すフローチャート。 実施例2の音生成装置の構成を示すブロック図。 実施例2の音生成装置の第1、第2方向強調部の構成を示すブロック図。 実施例2の音生成装置の第1、第2方向強調部の動作を示すフローチャート。 実施例3の音生成装置の構成を示すブロック図。 実施例3の音生成装置の動作を示すフローチャート。 実施例4の音生成装置の構成を示すブロック図。 実施例4の音生成装置の動作を示すフローチャート。
人間の聴覚は、あらゆる方向から到来する音を均等に処理しているのではなく、何かしら注意の向いた音について選択的に注力して聞いているという研究結果がある。さらに、その注意の向く方向は、最大で2つである可能性が高いことも調べられている(参考非特許文献1参照)。
(参考非特許文献1:柏野、平原、「一度に何人の声を聞き分けられるか?」、日本音響学会研究発表会講演論文集、一般社団法人日本音響学会、平成8年3月1日、pp.467-468)
マイクによって収録された環境音、背景音は、音の空間的な配置といった空間情報が欠落しており、人間の聴覚処理がうまく機能しないため、臨場感を損なうひとつの要因となっていると考えられる。そこで以下の実施例では、収録する環境音、背景音の中から、特徴的な音の存在する方向を2つ選定し、2つの方向の音を強調することで、収録された環境音、背景音から失われた空間情報を補完し、あたかも収録された場にいながら環境音、背景音を聞いているかのような臨場感を創出することができる音生成装置を開示する。
2つの強調すべき方向の音の強調処理は、ハードウェアとして指向性を有するマイクを利用することで実現できる。一方、複数のマイクを利用して指向性を形成し方向ごとにフィルタリングし、さらにその後段で非線形処理を施すことで音の強調処理を実現することもできる。
強調された2方向の音情報は、強調処理を施さない原音と混合されることで臨場感のある音が生成される。この際、原音をダイオティックに、強調された2つの音を、左右のそれぞれに配置したステレオ音として再生することで、強調処理された2つの音をより明確に知覚させることが可能になる(実施例3参照)。さらに、強調された2つの音のそれぞれに任意の方向の頭部伝達関数を畳み込み、ヘッドホン受聴することで、より高い臨場感で環境音、背景音を聴取することが可能となる(実施例4参照)。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
以下、図1、図2、図3を参照して実施例1の音生成装置の構成および動作について説明する。図1は、本実施例の音生成装置1の収音部11の構成を示す図である。図2は、本実施例の音生成装置1の構成を示すブロック図である。図3は、本実施例の音生成装置1の動作を示すフローチャートである。
図1に示すように、本実施例の音生成装置1が備える収音部11は、例えばM本の単一指向性マイク11−1、11−2、…、11−Mからなり、これらの指向性マイク11−1、11−2、…、11−Mを円状に(各マイクの指向性が強となる方向が放射状に配列されるように)並べた構成とすることができる。なおMは3以上の任意の整数とする。収音部11は、M方向の音(環境音、背景音)をMチャネルの音信号として収音する(S11)。
図2に示すように、本実施例の音生成装置1は、上述の収音部11に加え、強調処理部12と、原音抽出部13と、強調度決定部14と、合成部15を含む構成である。
強調処理部12は、ステップS11で録音されたMチャネルの音信号のうち、所望の方向の2つのチャネルの音信号をそれぞれ第1、第2方向チャネルの音信号として選択する(S12)。原音抽出部13は、Mチャネルの音信号のうち少なくとも何れかのチャネルの音信号を用いて原音を抽出する(S13)。より詳細には、原音抽出部13は、Mチャネルの音信号の総和、もしくは任意の1チャネルの信号を原音として抽出し、出力する。
強調度決定部14は、予め定めた規則により、第1、第2方向チャネルの強調度(強調係数)を決定する(S14)。ステップS14の強調度(強調係数)としては、原音抽出部13からの出力と比較して不自然なバランスにならない範囲で、できるだけ高S/Nとなる値に設定することが望ましい。通常の場合、原音抽出部13の出力から6〜10dB程度高くなるように設定すると、この条件となる場合が多い。合成部15は、決定された強調度に応じて第1、第2方向チャネルの音信号を増幅し、原音と合成して出力する(S15)。
本実施例の音生成装置1によれば、強調処理部12が第1、第2方向チャネルの音信号を選択し、合成部15が第1、第2方向チャネルの音信号を増幅して原音と合成して出力するため、臨場感のある環境音、背景音を生成できる。
以下、図4、図5を参照して実施例1の強調処理部を変形した実施例2の音生成装置の構成について説明する。図4は、本実施例の音生成装置2の構成を示すブロック図である。図5は、本実施例の音生成装置2の第1、第2方向強調部221a、221bの構成を示すブロック図である。
図4に示すように、本実施例の音生成装置2は、実施例1の音生成装置1の強調処理部12の代わりに強調処理部22を備え、その他の構成要件については、実施例1と同じである。同図に示すように強調処理部22は、第1方向強調部221aと、第2方向強調部221bを含む。第1方向強調部221a、第2方向強調部221bは、図5に示す共通の構成要件で構成される。同図に示すように、第1(第2)方向強調部221a(221b)は、フィルタ部2211と、足し合わせ部2212と、ターゲット/雑音エリアPSD推定部2213と、定常/非定常成分抽出部2214と、ポストフィルタ計算部2215と、掛けあわせ部2216と、逆フーリエ変換部2217を含む構成である。以下、図6を参照して本実施例の音生成装置2の第1、第2方向強調部221a、221bの動作について説明する。同図は、本実施例の音生成装置2の第1、第2方向強調部221a、221bの動作を示すフローチャートである。
本実施例では、M個(Mは2以上の任意の整数)のマイク素子で構成されるマイクロホンアレイに対して、K個(Kは1以上の任意の整数)の音源を観測する場合を考える。なお、M=2の場合であってもマイクロホンアレイにソフトウェア処理を施すことにより、3方向以上の方向に指向性を持たせることができる。m番目のマイク素子とk番目の音源との間の伝達特性をAm,k(ω),k番目の音源信号をSk(ω,τ)と表した場合、m番目の観測信号(mチャネルの音信号)Xm(ω,τ)は、次式でモデル化される。
Figure 0006445407
ここで、ωは周波数、τはフレームを表す。mは1≦m≦Mを充たす整数、kは1≦k≦Kを充たす整数とする。
フィルタ部2211は、各チャネルの音信号を、ターゲットとなる音を強調するフィルタでフィルタリングする(S2211)。フィルタ部2211は各チャネルにつき一つずつ、計M個のチャネル別フィルタW1(ω),W2(ω),… ,WM(ω)を含む。w(ω)=[W1(ω),W2(ω),… ,WM(ω)]Tは、次式で求められる。
Figure 0006445407
ここでh(ω)=[H1(ω),H2(ω),…,HM(ω)]Tは、ターゲット音方向のアレイマニフォールドベクトルである。なお、h(ω)については、下付きのkの表記を省略した。R-1(ω)は空間相関行列の逆行列を表す。また上付きのTは転置記号、上付きのHはエルミート転置を表す。音源信号が互いに無相関であるとすると、空間相関行列R(ω)は、次式で表現される。
Figure 0006445407
足し合わせ部2212は、フィルタリングされた各チャネルの音信号を足し合わせて、ターゲット音を強調するビームフォーミングの出力信号Y0(ω,τ)を出力する(S2212)。すなわち、ターゲット音を強調するビームフォーミングの出力信号Y0(ω,τ)は、下記の式により求められる。
Figure 0006445407
ただし、x(ω,τ)=[X1(ω,τ),X2(ω.τ),…,XM(ω,τ)]Tである。
この出力信号Y0(ω,τ)に雑音信号を抑圧するためのポストフィルタG(ω,τ)を掛け合わせることで、雑音信号が抑圧された最終出力(目的方向強調信号)を得ることができる。このポストフィルタG(ω,τ)を得る手段として、例えば参考非特許文献2などの方法が提案されている。参考非特許文献2の手法では、φS(ω,τ)をターゲットエリアのパワースペクトル密度、φN(ω,τ)を雑音エリアのパワースペクトル密度として次式でG(ω,τ)を求める。
Figure 0006445407
参考非特許文献2ではさらに、観測信号Xm(ω,τ)からφS(ω,τ)、φN(ω,τ)を推定する方法が提案されている。なおパワースペクトル密度は、以下ではPSD(Power Spectral Density)とも呼称する。
(参考非特許文献2:Y.Hioka et al., “Underdetermined sound source separation using power spectrum density estimated by combination of directivity gain,” Audio, Speech, and Language Processing, IEEE Transactions on, IEEE, 2013.2.22, Volume:21, Issue:6, pp.1240-1250)
今、様々な方向のエリアの信号を得るためのL+1個のビームフォーミングフィルタwl(ω),(l=0,1,…,L)について、k番目の方向に対する感度を|Dl,k|2、l番目の出力信号のパワースペクトル密度を|Yl(ω,τ)|2、各方向に対するパワースペクトル密度を|Sk(ω,τ)|2とすると、それぞれの関係は次式のようにモデル化できる。
Figure 0006445407
ただし、Y,D,Sの各シンボルのインデックスを省略してある。
上式の逆問題を解くことで、各方向に対するパワースペクトル密度の推定値を求めることができる。
Figure 0006445407
ここで、[ ]+は[ ]に対する疑似逆行列演算を表す。
ターゲット/雑音エリアPSD推定部2213は、予め定めた各方向のパワースペクトル密度推定値に基づいて、ターゲットエリア、雑音エリアそれぞれのパワースペクトル密度推定値を推定する(S2213)。ターゲット/雑音エリアPSD推定部2213は、ターゲットエリアのPSD推定値φ^S(ω,τ)、雑音エリアのPSD推定値φ^N(ω,τ)を次式に従って計算する。
Figure 0006445407
ただしこれらの推定値の計算には、ターゲット音と干渉雑音が混在することが仮定されてはいるが、実際の利用の場面では、コヒーレント性のある干渉雑音だけではなく、インコヒーレント性の強い定常性雑音が混在することが多く、このような条件下では、φS(ω,τ)、φN(ω,τ)の推定誤差が大きくなり、雑音抑圧性能が低下するという問題がある。このため下記のステップS2214(定常/非定常成分抽出部2214の動作)が必要となる。
定常/非定常成分抽出部2214は、ターゲットエリア、および雑音エリアのパワースペクトル密度推定値のそれぞれについて、ターゲットエリアから到来する音に由来する非定常成分と、雑音に由来する定常成分のそれぞれを抽出する(S2214)。
より詳細には、定常/非定常成分抽出部2214は、ターゲットエリアのパワースペクトル密度の推定値φ^S(ω,τ)から、ターゲットエリアから到来する音に由来する非定常成分φ^S (A)(ω,τ)と、インコヒーレントな雑音に由来する定常成分φ^S (B)(ω,τ)のそれぞれを、時間平均処理による次式で求める(S2214)。
Figure 0006445407
次に定常/非定常成分抽出部2214は、雑音エリアのパワースペクトル密度推定値φ^N(ω,τ)から、ターゲットエリアから到来する音に由来する非定常成分φ^N (A)(ω,τ)と、インコヒーレントな雑音に由来する定常成分φ^N (B)(ω,τ)のそれぞれを、時間平均処理による次式で求める(S2214)。
Figure 0006445407
ポストフィルタ計算部2215は、非定常成分と、定常成分に基づいてポストフィルタを計算する(S2215)。より詳細には、ポストフィルタ計算部2215は、φ^S (A)(ω,τ)、φ^S (B)(ω,τ)、φ^N (A)(ω,τ)、φ^N (B)(ω,τ)を用いて、ポストフィルタG~(ω,τ)を次式によって計算する(S2215)。
Figure 0006445407
掛け合わせ部2216は、ポストフィルタと、ステップS2212で足し合わせられた信号を掛け合わせて目的方向強調信号を生成する(S2216)。掛け合わせ部2216は、ポストフィルタG~(ω,τ)と、足し合わせられた信号Y0(ω,τ)を掛け合わせることで周囲の雑音を抑圧し目的の方向のみを抽出した目的方向強調信号Z(ω,τ)を得る(S2216)。
Figure 0006445407
逆フーリエ変換部2217は、目的方向強調信号Z(ω,τ)を逆フーリエ変換する(S2217)。これにより、周囲の雑音を抑圧し所望の方向の音のみを抽出することが可能となる。
本実施例の音生成装置2は、その強調処理部22に第1、第2方向強調部221a、221bを含み、第1、第2方向強調部221a,221bが上述のステップS2211〜S2217を実行することにより所望の一方向の音のみをそれぞれ抽出するため、強調処理部22からは、計2方向の(2チャネル)の音信号が選択されて抽出される。従って、本実施例の音生成装置2は実施例1の音生成装置1と比べ、ソフトウェア的に2方向の音信号を選択することが可能であり、指向性マイクを並べる必要があるといったハードウェアの制約を受けにくいという利点がある。
以下、図7、図8を参照して、実施例1の音生成装置をステレオ形式に変形した実施例3の音生成装置について説明する。図7は、本実施例の音生成装置3の構成を示すブロック図である。図8は、本実施例の音生成装置3の動作を示すフローチャートである。図7に示すように、本実施例の音生成装置3は、実施例1の音生成装置1の合成部15の代わりに合成部35を備え、その他の構成要件については、実施例1と同じである。本実施例の音生成装置3の合成部35は、右チャネル合成部35Rと、左チャネル合成部35Lを含む。
右チャネル合成部35Rは、決定された強調度に応じて第1方向チャネルの音信号を増幅して原音と合成し、ステレオ方式における右チャネル音を生成する(S35R)。同様に、左チャネル合成部35Lは、決定された強調度に応じて第2方向チャネルの音信号を増幅して原音と合成し、ステレオ方式における左チャネル音を生成する(S35L)。
右(左)チャネル合成部35R(35L)は、原音抽出部13によって抽出された原音
を左右のチャンネルそれぞれに等しい信号(ダイオティック信号)とし、右チャンネル用に所望する任意の方向(第1方向とする)の音信号と原音が合成された音を、他方の左チャンネル用に、所望する他方の方向(第2方向とする)の音と原音が合成された音を生成する。合成部35で生成された音は、拡声のステレオスピーカ、ステレオヘッドホンを用いて良好に再生できる。
本実施例の音生成装置3によれば、所望の2方向の音を合成部35で合成する際、それぞれの音をステレオ信号の左右のチャンネルに分割して合成することが可能である。
以下、図9、図10を参照して、実施例1の音生成装置をバイノーラル方式(参考非特許文献3)に変形した実施例4の音生成装置4について説明する。
(参考非特許文献3:安藤彰男著、「音響サイエンスシリーズ(第10巻)−音場再現」、株式会社コロナ社、2014年12月10日、第6章高臨場感音場再現)
図9は、本実施例の音生成装置4の構成を示すブロック図である。図10は、本実施例の音生成装置4の動作を示すフローチャートである。図9に示すように、本実施例の音生成装置4は、実施例1の音生成装置1の構成要件に加え、第1方向音響特性付加部445a、第2方向音響特性付加部445b、クロストーク排除部46を備える。その他の構成要件については、実施例1と同じである。
本実施例の音生成装置4は、ステップS12で選択、抽出された第1、第2方向チャネルの音信号それぞれに対して、空間的に弁別可能な任意の2つの方向を決定し、これらの方向に対応する音響特性を付加する。具体的には、第1方向音響特性付加部445aは、第1方向チャネルの音信号に第1方向に対応する頭部伝達関数を畳込む(S445a)。同様に、第2方向音響特性付加部445bは、第2方向チャネルの音信号に第2方向に対応する頭部伝達関数を畳込む(S445b)。
一方、原音抽出部から抽出された原音については、実施例3と同様にダイオティック信号とすることや、2つの音それぞれから弁別可能な位置にある任意の方向の伝達特性を畳み込むことが可能である。最終出力である生成音を再生する際は、ステレオスピーカを用いる方法とステレオヘッドホンを用いる方法がとり得る。ステレオヘッドホンを用いる場合には、左右のチャンネルからそれぞれのバイノーラル信号を出力すればよい。一方、ステレオスピーカを用いる場合には、左チャンネルの信号が右耳にも到達し、右チャンネルの信号が左耳にも到達するクロストークが発生する。この場合、クロストーク排除部46により、クロストークを排除すれば好適である。クロストーク排除部46は、ステップS15で合成された信号からクロストークを排除する(S46)。
本実施例の音生成装置4によれば、所望の2方向の音を、両耳の入口部分での音響特性を再現するバイノーラル方式を用いて合成することが可能となる。
<発明のポイント>
本発明のポイントは、収録された環境音、背景音の中から2つの方向の音を抽出し、その他の音(原音)との3つを合成することでマイク収録によって失われた空間情報を補完し、高い臨場感の環境音、背景音を生成する点である。また、抽出した2方向の音を、左右のスピーカもしくは仮想的に空間の任意の場所から再生させることで、再度人間の空間弁別能力の利用を可能とし、より高い臨場感を創出する点である。
ストリートビューのような街中の映像に付加する高臨場な環境音、背景音の生成、あるいは高臨場音響収録が可能なビデオカメラなどに利用することが可能である。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行、処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (6)

  1. Mを3以上の整数とし、M方向の音をMチャネルの音信号として収音する収音部と、
    前記Mチャネルの音信号のうち、任意の所望の方向の2つのチャネルの音信号をそれぞれ第1、第2方向チャネルの音信号として選択する強調処理部と、
    前記Mチャネルの音信号のうち少なくとも何れかのチャネルの音信号を用いて原音を抽出する原音抽出部と、
    予め定めた規則により、前記第1、第2方向チャネルの強調度を決定する強調度決定部と、
    前記決定された強調度に応じて前記第1、第2方向チャネルの音信号を増幅し、前記原音と合成する合成部
    を含む音生成装置。
  2. 請求項1に記載の音生成装置であって、
    前記強調処理部は、
    第1、第2方向強調部を含み、
    前記第1、第2方向強調部は、
    各チャネルの音信号を、ターゲットとなる音を強調するフィルタでフィルタリングするフィルタ部と、
    前記フィルタリングされた各チャネルの音信号を足し合わせる足し合わせ部と、
    予め定めた各方向のパワースペクトル密度推定値に基づいて、ターゲットエリア、雑音エリアそれぞれのパワースペクトル密度推定値を推定するターゲット/雑音エリアPSD推定部と、
    前記ターゲットエリア、および前記雑音エリアのパワースペクトル密度推定値のそれぞれについて、前記ターゲットエリアから到来する音に由来する非定常成分と、雑音に由来する定常成分のそれぞれを抽出する定常/非定常成分抽出部と、
    前記非定常成分と、前記定常成分に基づいてポストフィルタを計算するポストフィルタ計算部と、
    前記ポストフィルタと、前記足し合わせられた信号を掛け合わせて目的方向強調信号を生成する掛け合わせ部と、
    前記目的方向強調信号を逆フーリエ変換する逆フーリエ変換部
    を含む音生成装置。
  3. 請求項1または2に記載の音生成装置であって、
    前記合成部は、
    前記決定された強調度に応じて前記第1方向チャネルの音信号を増幅して前記原音と合成し、ステレオ方式における右チャネル音を生成する右チャネル合成部と、
    前記決定された強調度に応じて前記第2方向チャネルの音信号を増幅して前記原音と合成し、ステレオ方式における左チャネル音を生成する左チャネル合成部と、
    を含む音生成装置。
  4. 請求項1または2に記載の音生成装置であって、
    前記第1方向チャネルの音信号に前記第1方向に対応する頭部伝達関数を畳込む第1方向音響特性付加部と、
    前記第2方向チャネルの音信号に前記第2方向に対応する頭部伝達関数を畳込む第2方向音響特性付加部と、
    を含む音生成装置。
  5. 音生成装置が実行する音生成方法であって、
    前記音生成装置は、
    Mを3以上の整数とし、M方向の音をMチャネルの音信号として収音するステップと、
    前記Mチャネルの音信号のうち、任意の所望の方向の2つのチャネルの音信号をそれぞれ第1、第2方向チャネルの音信号として選択するステップと、
    前記Mチャネルの音信号のうち少なくとも何れかのチャネルの音信号を用いて原音を抽出するステップと、
    予め定めた規則により、前記第1、第2方向チャネルの強調度を決定するステップと、
    前記決定された強調度に応じて前記第1、第2方向チャネルの音信号を増幅し、前記原音と合成するステップを実行する
    音生成方法。
  6. コンピュータを請求項1から4の何れかに記載の音生成装置として機能させるプログラム。
JP2015148269A 2015-07-28 2015-07-28 音生成装置、音生成方法、プログラム Active JP6445407B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015148269A JP6445407B2 (ja) 2015-07-28 2015-07-28 音生成装置、音生成方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015148269A JP6445407B2 (ja) 2015-07-28 2015-07-28 音生成装置、音生成方法、プログラム

Publications (2)

Publication Number Publication Date
JP2017026967A JP2017026967A (ja) 2017-02-02
JP6445407B2 true JP6445407B2 (ja) 2018-12-26

Family

ID=57949693

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015148269A Active JP6445407B2 (ja) 2015-07-28 2015-07-28 音生成装置、音生成方法、プログラム

Country Status (1)

Country Link
JP (1) JP6445407B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3556987B2 (ja) * 1995-02-07 2004-08-25 富士通株式会社 環境音伝送型ヘッドセット装置
JP2004289511A (ja) * 2003-03-24 2004-10-14 Yamaha Corp 情景音発生装置
JP4345784B2 (ja) * 2006-08-21 2009-10-14 ソニー株式会社 音響収音装置及び音響収音方法
JP2009260574A (ja) * 2008-04-15 2009-11-05 Sony Ericsson Mobilecommunications Japan Inc 音声信号処理装置、音声信号処理方法及び音声信号処理装置を備えた携帯端末

Also Published As

Publication number Publication date
JP2017026967A (ja) 2017-02-02

Similar Documents

Publication Publication Date Title
US10382849B2 (en) Spatial audio processing apparatus
JP6466969B2 (ja) 適応性のある関数に基づく矛盾しない音響場面再生のためのシステムおよび装置および方法
KR101333031B1 (ko) HRTFs을 나타내는 파라미터들의 생성 및 처리 방법 및디바이스
US8705750B2 (en) Device and method for converting spatial audio signal
US10097943B2 (en) Apparatus and method for reproducing recorded audio with correct spatial directionality
KR20160020377A (ko) 음향 신호를 생성하고 재생하는 방법 및 장치
JP4620468B2 (ja) オーディオ信号を再生するためのオーディオ再生システムおよび方法
CN104919821B (zh) 用于重放音频信号的方法和系统
TW201727623A (zh) 聲場增強裝置及方法
EP3776544A1 (en) Spatial audio parameters and associated spatial audio playback
JP5611970B2 (ja) オーディオ信号を変換するためのコンバータ及び方法
US11122381B2 (en) Spatial audio signal processing
JP2012509632A5 (ja) オーディオ信号を変換するためのコンバータ及び方法
EP2268064A1 (en) Device and method for converting spatial audio signal
Duong et al. Audio zoom for smartphones based on multiple adaptive beamformers
JP6445407B2 (ja) 音生成装置、音生成方法、プログラム
WO2021212287A1 (zh) 音频信号处理方法、音频处理装置及录音设备
CN113286252B (zh) 一种声场重建方法、装置、设备及存储介质
CN113873420B (zh) 音频数据处理方法及装置
JP6017352B2 (ja) 音声信号変換装置及び方法
JP6526582B2 (ja) 再合成装置、再合成方法、プログラム
WO2020027062A1 (ja) 集音拡声装置、その方法、およびプログラム
JP6027873B2 (ja) インパルス応答生成装置、インパルス応答生成システム及びインパルス応答生成プログラム
KR20150005438A (ko) 오디오 신호 처리 방법 및 장치
Gauthier et al. Sound field capture with microphone arrays, proximity microphones, and optimal filters

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170704

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180516

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180529

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180719

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181129

R150 Certificate of patent or registration of utility model

Ref document number: 6445407

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250