JP5552764B2 - 信号処理装置、およびプログラム - Google Patents

信号処理装置、およびプログラム Download PDF

Info

Publication number
JP5552764B2
JP5552764B2 JP2009165545A JP2009165545A JP5552764B2 JP 5552764 B2 JP5552764 B2 JP 5552764B2 JP 2009165545 A JP2009165545 A JP 2009165545A JP 2009165545 A JP2009165545 A JP 2009165545A JP 5552764 B2 JP5552764 B2 JP 5552764B2
Authority
JP
Japan
Prior art keywords
signal
audio signal
sound
channel
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009165545A
Other languages
English (en)
Other versions
JP2011023862A (ja
Inventor
誠 山田
成英 金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2009165545A priority Critical patent/JP5552764B2/ja
Publication of JP2011023862A publication Critical patent/JP2011023862A/ja
Application granted granted Critical
Publication of JP5552764B2 publication Critical patent/JP5552764B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Stereophonic System (AREA)

Description

本発明は、左右各1チャネルのオーディオ信号からマルチチャネルオーディオ信号を生成する技術に関する。
臨場感に富んだ音響を聴者に提供する技術の一例としてマルチチャネルサラウンド技術が挙げられる。これは、聴者を取り囲むように複数のスピーカを配置し、各スピーカから聴者を包み込むように音を出力することで臨場感を高める技術である。マルチチャネルサラウンド技術における各スピーカの配置位置については、ITU(International Telecommunication Union)による勧告が為されている。例えば、センタチャネルスピーカC、左フロントスピーカL、右フロントスピーカR、左サラウンドスピーカLSおよび右サラウンドスピーカRSの5台のスピーカからなるシステムにおいては、図5に示すように各スピーカを配置すべきことが勧告されている。図5の左フロントスピーカLおよび右フロントスピーカRは、聴者から観て正面左側および正面右側に各々配置され、聴者の正面左側、真正面或いは正面右側の音像の定位に用いられる。左サラウンドスピーカLSおよび右サラウンドスピーカRSは、各々聴者の左側方(或いは左後方)および右側方(或いは右後方)に配置され、聴者の側方や後方の音像の定位や無定位の音(例えばどこからともなく聞こえてくる人の話し声のような音)の再生に用いられる。そして、聴者の真正面に配置されるセンタチャネルスピーカCは、例えば映画やドラマなどの台詞のように聴者の正面に定位する音の再生に用いられる。この種のマルチチャネルサラウンド技術は、例えば映画館などにおける音響再生に利用されることが多かったのであるが、近年では、所謂ホームシアターやテレビゲームなどにおける音響再生にも利用されている。また、上記5種類のスピーカにサブウーファを追加した5.1チャネルマルチサラウンドシステムも一般に普及している。サブウーファとは、主に重低音の再生を担当するスピーカのことである。
ホームシアターやテレビゲームにて臨場感に富んだ音響再生を行うには、再生対象のオーディオ信号がマルチチャネルサラウンド対応のものであることが必須となる。このため、従来のステレオ方式で録音が行われた映画DVD(Digital Versatile Disk)等の所有者の中には、「好きな映画だけどマルチチャネルサラウンド対応じゃないから、最近の機器では再生できないし、また、再生できたとしても臨場感に欠ける」といった不満を抱いているものもいる。そこで、このような不満を解消するために左右各1チャネルのステレオオーディオ信号に信号処理を施し、マルチチャネルサラウンドシステムに含まれる各スピーカに与えるオーディオ信号を生成する技術(以下、アップミキシング技術)が種々提案されている。その一例としては、Dolby Pro Logic(登録商標)や、主成分分析を利用した技術、特許文献1に開示された技術等が挙げられる。
Dolby Pro Logic(登録商標)では、左右各1チャネルの入力オーディオ信号(左チャネルオーディオ信号SL0および右チャネルオーディオ信号SR0)の各々をゲインを調整しつつ加算(或いは減算)してマルチチャネルサラウンドシステムに含まれる各スピーカに与えるオーディオ信号が生成される。例えばサラウンドスピーカに与えるオーディオ信号は、左チャネルオーディオ信号SL0から右チャネルオーディ信号SR0を減算した信号(SL0−SR0)として生成される。一方、主成分分析を利用した技術では、上記左右各1チャネルの入力オーディオ信号に含まれるセンタチャネルに割り当てるべき音を表す信号成分とサラウンドチャネルに割り当てるべき音を表す信号成分の位相差(図6に示すように、各信号成分が描くリサージュ図形の軸が為す角度)を手がかりに各信号成分の分離(すなわち、音源分離)が行われ、その分離結果に基づいてセンタチャネルオーディオ信号とサラウンドチャネルオーディオ信号が生成される。
米国特許第7003467号明細書
村田昇、「入門 独立成分分析」、東京電機大学出版局
しかし、Dolby Pro Logic(登録商標)のように左チャネルオーディオ信号と右チャネルオーディオ信号の加算(或いは減算)比率を調整することでセンタチャネルオーディオ信号とサラウンド信号とを生成する技術では、センタチャネルの音の分離が主な目的となっているため、適切なサラウンド信号が得られるとは限らない、という問題があった。具体的には、Dolby Pro Logic(登録商標)では、サラウンド信号として常にSL0−SR0が算出されるのであるが、この演算により抽出される信号成分が聴者の側方(あるいは後方)から聴こえてくる音を表すとは限らない。一方、主成分分析を利用したアップミキシング技術の場合は、センタチャネルの信号成分とサラウンドチャネルの信号成分とが互いに直交していない場合には、それら信号成分の分離を適切に行えないという問題があった。
本発明は上記課題に鑑みて為されたものであり、左右各1チャネルの入力オーディオ信号からマルチチャネルオーディオ信号を生成する際に、入力オーディオ信号に含まれている各信号成分が直交していない場合であっても各信号成分の分離が可能で、かつ、各信号成分を適切なチャネルに割り当てることを可能にする技術を提供することを目的とする。
上記課題を解決するために本発明は、少なくとも2つの音源の各々から放射された音の混合音を各々表す左右各1チャネルの入力オーディオ信号を取得し、前記各入力オーディオ信号に周波数領域独立成分分析を施して前記各音源の音に応じた信号成分を抽出する抽出手段と、前記各入力オーディオ信号から前記抽出手段により抽出される信号成分のうちの一方を除去して左右各1チャネルの第1の出力オーディオ信号を生成して出力するとともに、前記各入力オーディオ信号から前記抽出手段により抽出される信号成分のうちの他方を除去して左右各1チャネルの第2の出力オーディオ信号を生成して出力する信号生成手段とを有することを特徴とする信号処理装置、を提供する。また、本発明の別の態様においては、コンピュータを上記各手段として機能させるためのプログラムを提供する。
このような信号処理装置によるステレオオーディオ信号(左右各1チャネルのオーディオ信号)から5チャネルオーディオ信号へのアップミキシングは、以下の要領で行われる。すなわち、上記信号処理装置は、聴者を取り囲むように配置される5つのスピーカを含むマルチチャネルサラウンドスピーカシステムにて前記聴者の正面に配置されるセンタチャネルスピーカに与えるセンタチャネルオーディオ信号を、前記左右各1チャネルにて前記聴者の正面の音像定位に寄与する信号成分に応じて生成する。なお、センタチャネルオーディオ信号の具体的な算出態様としては種々の態様が考えられる。例えば、左右各チャネルの入力オーディオ信号を1対1の比率で加算して得られる信号をセンタチャネルオーディオ信号とすれば良い。一方、前記抽出手段は、前記左右各1チャネルの入力オーディオ信号の各々から前記センタチャネルオーディオ信号を減算して得られる左右1チャネルのオーディオ信号に周波数領域独立成分分析を施し、前記各音源の音に応じた信号成分を抽出する。そして、前記信号生成手段は、前記各入力オーディオ信号から前記センタチャネルオーディオ信号と前記抽出手段により抽出される信号成分のうちの一方を除去して左右各1チャネルの第1の出力オーディオ信号を生成するとともに、前記各入力オーディオ信号から前記センタチャネルオーディオ信号と前記抽出手段により抽出される信号成分のうちの他方を除去して左右各1チャネルの第2の出力オーディオ信号を生成し、前記聴者の正面左側および正面右側に配置される1組のスピーカに前記第1の出力オーディオ信号と前記第2の出力オーディオ信号の一方を与え、前記聴者の左後方および右後方に配置される1組のスピーカに他方を与える。
例えば、上記入力オーディオ信号に聴者の真正面に定位する音(聴者の正面に位置する音源から放射された音)を表す第1の信号成分、同聴者の正面左側(或いは正面右側)に定位する音を表す第2の信号成分、および同聴者の左後方(或いは右後方)に定位する音を表す第3の信号成分が含まれている場合、前記左右各1チャネルのオーディオ信号を1対1の比率で加算することで上記第1の信号成分で大半が占められるセンタチャネルオーディオ信号が生成される。このようなセンタチャネルオーディオ信号を上記各入力オーディオ信号から減算することで、減算後の各オーディオ信号においては上記第2の信号成分および第3の信号成分で大半が占められることとなる。このため、上記減算後のオーディオ信号に周波数領域独立成分分析を施すことにより、上記第2の信号成分と第3の信号成分とが分離されることとなる。そして、上記減算後のオーディオ信号からさらに上記第3の信号成分を除去して前記聴者の正面左側および正面右側に配置される1組のスピーカに各々与えることで、これらスピーカから放射される音によって聴者の正面左側(或いは同右側)の音像定位が実現される。同様に、上記減算後のオーディオ信号から上記第2の信号成分を除去して前記聴者の側方(或いは後方)に配置される1組のスピーカに各々与えることで、これらスピーカから放射される音によって聴者の側方(或いは後方)の音像定位が実現される。
さらに好ましい態様においては、前記センタチャネル信号生成手段は、前記入力オーディオ信号において前記聴者の正面の音像定位に寄与する信号成分が占める比率が所定の閾値を超えているか否かを判定し、越えていると判定される場合には、前記左右各1チャネルのオーディオ信号を1対1の比率で加算して前記センタチャネルオーディオ信号を生成すれば良い。
この発明の一実施形態に係る信号処理装置1の構成例を示す図である。 同信号処理装置1のセンタチャネル信号生成手段20が実行する信号処理の流れを示すフローチャートである。 同信号処理装置1の周波数分析手段30が実行する処理を説明するための図である。 同信号処理装置1の動作を説明するための図である。 5チャネルマルチサラウンドシステムにおける各スピーカの配置位置の一例を示す図である。 主成分分析を利用した音源分離技術を説明するための図である。
以下、本発明の実施形態について図面を参照しつつ説明する。
(A:構成)
図1は、本発明の一実施形態である信号処理装置1の構成例を示すブロック図である。
この信号処理装置1は、外部から与えられるデジタル形式のステレオオーディオ信号(左右各1チャネルのオーディオ信号)にアップミキシング処理を施し、前掲図5の各スピーカを駆動するための5種類のオーディオ信号(SC,SL、SR、SLSおよびSRS)を生成して出力する装置である。図1のセンタチャネルオーディオ信号SCは図5のセンタチャネルスピーカCを、図1の左チャネルオーディオ信号SLは図5の左フロントスピーカLを、図1の右チャネルオーディオ信号SRは図5の右フロントスピーカRを、図1の左サラウンド信号SLSは図5の左サラウンドスピーカLSを、図1の右サラウンド信号SRSは図5の右サラウンドスピーカRSを、各々駆動するためのオーディオ信号である。
この信号処理装置1は、例えばパーソナルコンピュータなどのコンピュータ装置である。信号処理装置1のCPU(Central Processor Unit:図示略)は記憶手段10に格納されている信号処理プログラムを実行することにより、アップミキシング処理を実行する。記憶手段10には、信号処理プログラムの他に各種データが格納されている。また、記憶手段10には、アップミキシング処理の実行過程で生成されるデータも格納される。記憶手段10としては、半導体記録媒体や磁気記録媒体などの公知の記録媒体が採用される。また、図1では、詳細な図示は省略したが、信号処理装置1はアップミキシング処理の対象となるステレオオーディオ信号を外部から取得するための信号取得手段を有している。例えば、DVDやCD−ROM(Compact Disk-Read Only Memory)などの外部記録媒体に記憶されているステレオオーディオ信号をアップミキシング処理の対象とする場合には、これら外部記録媒体からステレオオーディオ信号を読み出すドライバ等で信号取得手段を構成すれば良い。また、インターネットなどの電気通信回線経由の通信または有線(或いは無線)放送により配信されるステレオオーディオ信号をアップミキシングの対象とする場合には、通信インタフェース等で信号取得手段を構成すれば良い。なお、アップミキシング処理の対象となるオーディオ信号がアナログ形式のものである場合には、A/D変換を施した後に信号処理装置1へ入力するようにすれば良い。
信号処理装置1のCPUは信号処理プログラムを実行し、図1に示すセンタチャネル信号生成手段20、周波数分析手段30、分離行列生成手段40、独立成分抽出手段50およびサラウンド信号生成手段60として機能する。なお、本実施形態では、上記各手段をソフトウェアで実現したが、DSPなどの信号処理専用の電子回路でこれら各手段を実現しても良く、これら各手段を複数の集積回路に分散的に搭載した構成でも良い。
センタチャネル信号生成手段20は、信号取得手段(図1では図示略)により取得した左右各1チャネルの入力オーディオ信号(図1では左チャネルオーディオ信号SL0および右チャネルオーディオ信号SR0)から、センタチャネルオーディオ信号SC、左チャネルオーディオ信号SL1および右チャネルオーディオ信号SR1を生成して出力する。
図2は、センタチャネル信号生成手段20が実行する信号処理の流れを示すフローチャートである。図2に示すように、センタチャネル信号生成手段20は、まず、入力オーディオ信号についてM/S比率Rを算出し(ステップSA100)、このM/S比率Rが所定の閾値(本実施形態では、3)を上回っているか否かを判定する(ステップSA110)。ここで、M/S比率Rは、入力オーディオ信号に含まれる信号成分のうち、聴者の正面に定位する音を表す信号成分(Mid成分)と同聴者の左側(或いは右側)に定位する音を表す信号成分(Side成分)の何れが優位であるかを示す値であり、以下の数1に示す演算で算出される。数1を参照すれば明らかように、M/S比率Rが1よりも大きければ大きいほどMid成分が優位である。なお、数1においてrms(Mid)は、Mid成分の2乗平均の平方根を意味し、rms(Side)はSide成分の2乗平均の平方根を意味する。
Figure 0005552764
そして、ステップSA110の判定結果が“Yes”である場合には、センタチャネル信号生成手段20は、以下の数2にしたがってセンタチャネルオーディオ信号SC、左チャネルオーディオ信号SL1および右チャネルオーディオ信号SR1を生成して出力する(ステップSA120)。逆に、ステップSA110の判定結果が“No”である場合には、センタチャネル信号抽出手段20は、以下の数3にしたがって上記3種類のオーディオ信号を生成して出力する(ステップSA130)。なお、数2においてαは0.25〜0.5の範囲の任意のパラメータであり、アップミキシング処理の対象となる入力オーディオ信号の表す楽曲(或いは音声)の種類、またはセンタチャネルオーディオ信号SCとして抽出される信号成分の種類(楽曲のパート等)との兼ね合いで実験等により上記範囲内で適宜好適な値を定めれば良い。本実施形態ではパラメータαの値として0.31を採用している。
Figure 0005552764
Figure 0005552764
このように、M/S比率Rが所定の閾値を上回っているか否かに応じて上記3種類のオーディオ信号の算出態様を切り換えるようにしたのは、以下の理由による。数1および数2を参照すれば明らかなように、数2にしたがって算出されるセンタチャネルオーディオ信号SCは数1のMid成分のゲインを調整したものである。M/S比率Rが所定の閾値を上回っているということは、入力オーディオ信号においてMid成分が優位であること、すなわち、聴者の正面に定位する音を表す信号成分が優位であることを示しているのであるから、その信号成分をセンタチャネルオーディオ信号SCとして抽出し、その信号成分に応じた音をセンタチャネルスピーカCから出力させるようにしたのである。逆に、M/S比率Rが所定の閾値以下である場合は、入力オーディオ信号においてはMid成分が優位ではないことを示しているのであるから、センタチャネル信号SCを0とし、センタチャネルスピーカCを駆動しないようにしたのである。これが、M/S比率Rが所定の閾値を上回っているか否かに応じて異なる態様で上記3種類のオーディオ信号を算出するようにした理由である。なお、本実施形態にて上記閾値を3としたのは、M/S比率Rが3よりも大きい場合には聴者の正面の音像の定位感が強く、逆にM/S比率Rが3以下(特に、1.5未満)の場合には聴者の正面の音像の定位感が弱いことが経験的に知られているからである。
また、本実施形態では、M/S比率Rが所定の閾値を上回っているか否かに応じて上記3種類のオーディオ信号の算出式を切り換えたが、常に、数2にしたがって上記3種類のオーディオ信号を算出することとし、M/S比率Rが所定の閾値を上回っているか否かに応じてパラメータαの値を切り換えるようにしても良い。具体的には、M/S比率Rが所定の閾値を上回っている場合には、αを0.25〜0.5の範囲の値(例えば、0.31など)とし、M/S比率Rが所定の閾値以下である場合にはα=0とするのである。このような態様によっても本実施形態と同一の処理結果が得られる。
以上がセンタチャネル信号生成手段20の構成である。
周波数分析手段30は、左チャネルオーディオ信号SL1および右チャネルオーディオ信号SR1の各々を時間軸上で区分した複数のフレームの各々について周波数スペクトルQ(左チャネルオーディオ信号SL1の周波数スペクトルQ1および右チャネルオーディオ信号SR1の周波数スペクトルQ2)を算定する。周波数スペクトルQの算定には、例えば短時間フーリエ変換が利用される。図3に示すように、番号(時刻)tで識別される1個のフレームの周波数スペクトルQ1は、周波数軸上に設定されたK種類の周波数f1〜fKの各々における強度x1(t,f1)〜x1(t,fK)として算定される。同様に、周波数スペクトルQ2は、K種類の周波数f1〜fKの各々における強度x2(t,f1)〜x2(t,fK)として算定される。
周波数分析手段30は、K種類の周波数f1〜fKについてフレーム毎に強度ベクトルX(t,f1)〜X(t,fK)を生成する。第t番目のフレームにおける第k番目(k=1〜K)の周波数fkの強度ベクトルX(t,fk)は、図3に示すように、周波数スペクトルQ1のうち周波数fkでの強度x1(t,fk)と、共通のフレームの周波数スペクトルQ2のうち周波数fkでの強度x2(t,fk)とを要素とするベクトルであり、X(t,fk)=[x1(t,fk)x2(t,fk)と表される。なお、記号*は複素共役を意味し、記号Hはエルミート転置を意味する。周波数分析手段30が生成した強度ベクトルX(t,f1)〜X(t,fK)は記憶手段10に格納される。記憶手段10に格納された強度ベクトルX(t,f1)〜X(t,fK)は、図3に示すように、所定個(例えば50個)のフレームで構成される単位区間TU毎に強度データD(f1)〜D(fK)に区分される。周波数fkの強度データD(fk)は、単位区間TU内の各フレームについて算定された強度ベクトルX(t,fk)の時系列である。
分離行列生成手段40は、記憶手段10に記憶されている強度データD(fk)を読み出し、周波数領域独立成分分析(Frequency Domain Independent Component Analysis:以下、FDICA)を行って分離行列W(fk)を生成し記憶手段10に書き込む。ここで、分離行列とは、互いに統計的に独立な2つの音の混合音を各々表す2つの音信号から上記各音の信号成分を抽出するための信号処理演算に用いられる2行2列(一般には、n行n列)の複素数値行列である。分離行列生成手段40は、周波数fk(k=1〜K)の各々について、数4に示す初期分離行列W(fk)を初期値として数5に示す逐次演算による機械学習により分離行列W(fk)を生成する。数5において、ηはステップサイズパラメータ、Iは2行2列の単位行列、φ(t,fk)は所定の非線形関数である。また、数5のY(t,fk)は数6の演算により得られる強度ベクトルY(t,fk)の複素共役であり、E[φ(t,fk)Y(t,fk)]はフレーム毎に算出されるφ(t,fk)Y(t,fk)の期待値(例えば、単位区間TUにおけるφ(t,fk)Y(t,fk)の相加平均)である。
Figure 0005552764
Figure 0005552764
Figure 0005552764
より詳細に説明すると、分離行列生成手段40は、まず、単位区間TUを構成する各フレーム毎に強度ベクトルX(t,fk)と初期分離行列W(fk)とを用いて数6に示す演算を行い、強度ベクトルY(t,fk)を算出する。次いで、分離行列生成手段40は、フレーム毎に算出された強度ベクトルY(t,fk)の各々の第1成分により表わされる信号と同第2成分により表される信号とが統計的に独立であるか否かを所定の評価関数にしたがって評価する。両信号の独立性が充分であれば、分離行列生成手段40は、その時点の分離行列W(fk)(すなわち、W(fk))を分離行列W(fk)として記憶手段10に書き込む。逆に両信号の独立性が不十分であれば、強度ベクトルY(t,fk)と分離行列W(fk)を用いて数5にしたがって分離行列W(fk)を算出し、このW(fk)を用いて新たな強度ベクトルY(t,fk)をフレーム毎に算出して独立性を再度評価する、以下、充分な独立性が得られるまで数6および数5の演算を繰り返し実行するのである。なお、2つの信号の独立性をどのように定義するか、また、独立性を評価するための評価関数としてどのようなものを用いるのかについては従来より種々提案されている(例えば、非特許文献1参照)ので、それら周知技術の中から好適なものを適宜選択すれば良い。
上述したように、分離行列W(fk)の算定は単位区間TU毎に行われるのであるが、具体的な算定態様としては以下の2つの態様が考えられる。第1に、所謂バッチ形式の算定態様(アップミキシングおよびそのアップミキシング結果に応じた音の再生に先立って分離行列を予め算定しておく態様)である。具体的には、各単位区間TUについての分離行列W(fk)を予め算定して記憶手段10に記憶させておき、オーディオ信号に応じた楽曲(或いは音声)の再生を実際に行う際には、上記単位区間TU毎に記憶手段10から該当する分離行列W(fk)を読み出してアップミキシング処理を行う態様である。これに対して第2の態様は所謂オンライン形式の算定態様(すなわち、分離行列の算定と音の再生とを並列に行う態様)である。具体的には、N(Nは1以上の整数)番目の単位区間の音の再生と並列に、その単位区間のオーディオ信号を用いて(N+1)番目の単位区間における分離行列W(fk)を算定し、(N+1)番目の単位区間の音の再生の際にはこの分離行列W(fk)を用いてアップミキシング処理を行うのである。なお、このオンライン形式の算定態様では、先頭の単位区間(すなわち、N=1の単位区間)についての分離行列を生成することができないため、この単位区間については従来技術(例えば、主成分分析を用いた技術など)によりアップミキシング処理を行っても良く、また、上述したバッチ形式で予め分離行列を算定しておいても良い。また、f1〜fKの全ての周波数fkについて分離行列W(fk)を算出しても良く、これらK種類のうちから選択される1つ或いは複数の周波数fkについてのみ分離行列W(fk)を算定し、他の周波数については当該分離行列を流用するようにしても良い。
独立成分抽出手段50は、記憶手段10に記憶されている分離行列W(fk)と強度ベクトルX(t,fk)を読み出し、分離行列W(fk)と強度ベクトルX(t,fk)から統計的に独立な2つの信号IC1およびIC2を生成してサラウンド信号生成手段60に出力する。より詳細に説明すると、独立成分抽出手段50は、記憶手段10から読み出した分離行列W(fk)と強度ベクトルX(t,fk)とを用いて数6に示す演算を行い、強度ベクトルY(t,fk)を算出する。なお、分離行列生成手段40により生成された強度ベクトルY(t,fk)が記憶手段10に格納されている場合には、この強度ベクトルT(t,fk)を読み出して以降の処理に用いても良い。次いで、独立成分抽出手段50は、強度ベクトルY(t,fk)の第1成分に対して逆FFTを施して時間領域の信号IC1を生成するとともに、同第2成分に対して逆FFTを施して時間領域の信号IC2を生成する。例えば、分離行列W(fk)のi行j列成分をwij(fk)とすると、強度ベクトルY(t,fk)の第1成分をy1(t,fk)、および同第2成分をy2(t,fk)は、以下の数7のように算出される。このようにして算出されるy1(t,f1)・・・y1(t,fK)に逆FFTを施すことでt番目のフレームにおける信号IC1が得られ、y2(t,f1)・・・y2(t,fK)に逆FFTを施すことで同フレームにおける信号IC2が得られるのである。
Figure 0005552764
サラウンド信号生成手段60は、図1に示すように左チャネルオーディオ信号SL1と右チャネルオーディオ信号SR1、信号IC1とIC2、を受け取り、以下の数8に示す要領で、左チャネルオーディオ信号SL、右チャネルオーディオ信号SR、左サラウンド信号SLS、および右サラウンド信号SRSを生成して出力する。なお、数8のβ1、β2、γ1およびγ2についても、数2のαと同様に任意のパラメータであり、アップミキシング処理の対象となる入力オーディオ信号の表す楽曲(或いは音声)の種類等との兼ね合いで実験により適宜好適な値を定めれば良い。本実施形態ではβ1=β2=0.439、γ1=γ2=0.35である。
Figure 0005552764
以上が信号処理装置1の構成である。
(B:動作)
次いで、図4を参照しつつ信号処理装置1の動作例を説明する。
本動作例では、ボーカル、ギターおよびドラムの各々の音の混合音を表す左右各1チャネルの入力オーディオ信号に対してアップミキシング処理を施し、5チャネルオーディオ信号を生成する場合を例にとって信号処理装置1の動作を説明する。本動作例において、入力オーディオ信号は所謂ダミーヘッド録音により得られたものであり、図4に示すように、ダミーヘッドの正面にはボーカルが、同正面やや右側にはギターが、同左後方にはドラムが各々位置している。
図4のダミーヘッドから出力されるオーディオ信号が信号処理装置1に入力されると、まず、センタチャネル信号生成手段20によってセンタチャネルオーディオ信号SCが生成される。前述したように、入力オーディオ信号についてのM/S比率が所定の閾値を上回っていれば、センタチャネルオーディオ信号SCとして前掲数2に示すように左チャネルオーディオ信号SL0と右チャネルオーディオ信号SR0を1対1の比率で加算した信号(すなわち、Mid成分に相当する信号)が生成される。図4における各音源の配置位置と収音位置(すなわち、ダミーヘッドの位置)の位置関係の対称性から明らかように、上記のようにして算出されるセンタチャネルオーディオ信号SCは、収音位置から見て真正面に位置するボーカルの歌唱音を表す信号成分でその大半が占められることとなる。
一方、数2にしたがって算出される左チャネルオーディオ信号SL1は、左チャネルオーディオ信号SL0からセンタチャネルオーディオ信号SCを減算して得られるものである。左チャネルオーディオ信号SL0には、ボーカルの歌唱音、ギターの演奏音およびドラムの演奏音の各々を表す信号成分が含まれており、センタチャネルオーディオ信号SCの大半はボーカルの歌唱音の信号成分であるから、上記のようにして算出される左チャネルオーディオ信号SL1はギターの演奏音とドラムの演奏音の各々を表す信号成分でその大半が占められることとなる。同様に、右チャネルオーディオ信号SR1も、その大半はギターの演奏音とドラムの演奏音の各々を表す信号成分で占められることとなる。
次いで、本実施形態では、左チャネルオーディオ信号SL1および右チャネルオーディオ信号SR1に対して周波数分析手段30、分離行列生成手段40および独立成分抽出手段50による処理を施すことで、ギターの演奏音を表す信号成分とドラムの演奏音を表す信号成分とが各々信号IC1およびIC2として抽出されることとなる。これは、ギターの演奏とドラムの演奏とは各々別個の演奏者によって各々独立に行われているため、互いに統計的に独立な信号成分であると考えられるからである。ここで注目すべき点は、本動作例では、ギターの演奏音を表わす信号成分が信号IC1として抽出される一方、ドラムの演奏音を表わす信号成分が信号IC2として抽出される、という点である。その理由は、以下の通りである。
FDICAの枠組みでは、ギターの演奏音を表す信号成分とドラムの演奏音を表す信号成分の何れが信号IC1として抽出されるのかについては一意には定まらない。これは、分離行列の1行目と2行目を入れ替えて得られる行列も分離行列の役割を果たすからである。これに対して、本実施形態では、初期分離行列W(fk)として数4に示すものを用いることでこの不具合を回避しているのである。より詳細に説明すると、数4に示す初期分離行列W(fk)の1行目により算出される信号成分は、前述したMid成分に相当する信号成分、すなわち、センタよりの音源の音を表わすものとなり、同初期分離行列W(fk)の2行目により算出される信号成分は、前述したSide成分に相当する信号成分、すなわち、センタから外れた音源の音を表わすものである。このような初期分離行列W(fk)を出発点として数5に示す逐次演算を行うことにより求まる分離行列W(fk)についても同様に、その一行目によって抽出される信号成分(すなわち、信号IC1)はセンタよりの音源の音を表わすものとなり、同2行目によって抽出される信号成分(すなわち、信号IC2)はセンタから外れた音源の音を表わすものとなる。図4に示すように、本動作例では、ギターはダミーヘッドから見て正面やや右よりに位置しており、ドラムはダミーヘッドの左後方に位置している。つまり、本動作例では、ギターはドラムに比較してセンタよりに位置している。このため、本動作例では、ギターの演奏音を表わす信号成分が信号IC1として抽出され、ドラムの演奏音を表わす信号成分が信号IC2として抽出されるのである。このように本実施形態では、初期分離行列W(fk)を工夫することで、ギターの演奏音が信号IC1として抽出され、ドラムの演奏音が信号IC2として抽出されるようにしたのであるが、ギターの演奏音とドラムの演奏音の各々についてリサージュ図形(図6参照)を描画してどちらの信号成分の位相が進んでいるのかを予め求めておき、その位相差を再現するように信号IC1と信号IC2の割り当てを行うようにしても良く、また、音の到来方向の推定により信号IC1と信号IC2の割り当てを行っても良い。
このように本実施形態では、信号IC1としてギターの演奏音を表す信号成分が抽出され、信号IC2としてドラムの演奏音を示す信号成分が抽出されるので、サラウンド信号生成手段60により生成される左チャネルオーディオ信号SLおよび右チャネルオーディオ信号SRでは、ギターの演奏音を表す信号成分でその大半が占められることとなる。その理由は以下の通りである。左チャネルオーディオ信号SL1と右チャネルオーディオ信号SR1は、共に、ギターの演奏音を表わす信号成分とドラムの演奏音を表す信号成分でその大半が占められている。左チャネルオーディオ信号SLは、左チャネルオーディオ信号SL1から信号IC2(すなわち、ドラムの演奏音を示す信号成分)を減算して得られものであるから、その大半はギターの演奏音を表わす信号成分で占められることとなる。右チャネルオーディオ信号SRも同様である。加えて、上記のようにして得られる左チャネルオーディオ信号SLおよび右チャネルオーディオ信号SRにおいてはセンタから外れた音源の音を表す信号IC2に相当する信号成分が除外されているため、これらオーディオ信号に応じて左フロントスピーカLおよび右フロントスピーカRを駆動することによってフロント側にまとまり感のある音が得られることとなる。一方、左サラウンド信号SLSおよび右サラウンド信号SRSについても同様の理由により、その大半がドラムの演奏音を示す信号成分で占められることとなる。これら左サラウンド信号SLSおよび右サラウンド信号SRSにおいてはセンタよりの音源の音を表す信号IC1に相当する信号成分が除外されているため、これらオーディオ信号に応じて左サラウンドスピーカLSおよび右サラウンドスピーカRSを駆動することによってリア側に広がり感のある音が得られることとなる。
以上のようにして生成されたセンタチャネルオーディオ信号SC、左チャネルオーディオ信号SL、右チャネルオーディオ信号SR、左サラウンド信号SLSおよび右サラウンド信号SRSの各々は、D/A変換(図示略)を経て前掲図5のセンタチャネルスピーカC、左フロントスピーカL、右フロントスピーカR、左サラウンドスピーカLSおよび右サラウンドスピーカRSに与えられる。したがって、図5のセンタチャネルスピーカCからは図4のボーカルの歌唱音が、図5の左フロントスピーカLおよび右フロントスピーカRからは図4のギターの演奏音が、図5の左サラウンドスピーカLSおよび右サラウンドスピーカRSからは図4のドラムの演奏音が各々放射されることとなる。その結果、図5に示す聴者に対しては、真正面方向からボーカルの歌唱音が、正面やや右側方向からギターの演奏音が、左後方からドラムの演奏音が各々到来することとなり、あたかも、図4のダミーヘッドの位置にて音を聴いているかのような聴感が与えられる。
以上説明したように、本実施形態によれば、左右各1チャネルの入力オーディオ信号から5チャネルオーディオ信号を生成し、それら各オーディオ信号によって前掲図5の各スピーカを駆動することによって臨場感に富んだ音響再生を行うことが可能になる。また、本実施形態では、信号成分の直交性とは異なる信号成分の統計的な独立性という尺度で信号成分の分離が行われる。一般に複数のパートからなる楽曲の各パートの演奏音など互いに異なる音源から放射される音を表す信号成分は互いに統計的に独立であると考えられる。このため、本実施形態によれば、分離対象の信号成分の直交性が高いか否かに関わらずそれら信号成分を分離することができるのである。また、本実施形態によれば、聴者の正面左側(或いは正面右側)から聴こえてくるべき音は左右各フロントスピーカに、聴者の側方(或いは後方)から聴こえてくるべき音は左右各サラウンドスピーカに割り当てるといった具合に、各信号成分を適切なチャネルに割り当てることができるのである。
(C:変形)
以上、本発明の一実施形態について説明したが、かかる実施形態に以下に述べる変形を加えても勿論良い。
(1)上述した実施形態では、左右各1チャネルのオーディ信号から5チャネルオーディオ信号を生成した。しかし、5チャネルオーディオ信号の左サラウンド信号LSおよび右サラウンド信号RSの各々に、各々異なる2つの音源の音が含まれている場合には、これら2つのサラウンド信号に対してFDICAによる音源分離を施し、7チャネルサラウンドシステムにおける各サラウンドスピーカに与えるオーディオ信号を生成しても良い。同様に、7チャネルオーディオ信号を9チャネルオーディオ信号にアップミキシングすることも可能である。また、左右各1チャネルのオーディオ信号に各々異なるN(2以上の整数)種類の音源の音を表す信号成分(第1信号成分、第2信号成分・・・第N信号成分)が含まれている場合には、各信号成分を表すN組のオーディオ信号を以下の要領で生成することができる。すなわち、左右各1チャネルのオーディオ信号についてのM/S比率(数1参照)が所定の閾値を上回っている場合には、まず、数2にしたがってセンタチャネルオーディオ信号SCを生成する。このセンタチャネルオーディオ信号SCにより表される信号成分が第N信号成分であるとすると、上記左右各1チャネルのオーディオ信号の各々からセンタチャネルオーディオ信号SCを減算して得られる左チャネルオーディオ信号および右チャネルオーディオ信号にFDICA(1回目)を施すことにより、第1信号成分のみを含むオーディオ信号と、その他の(N−2)種類(すなわち、第2信号成分〜第N−1信号成分のN−2種類)の信号成分を含むオーディオ信号とが生成される。次いで、その他の(N−2)種類の信号成分を含むオーディオ信号にFDICA(2回目)を施すことにより、第2信号成分のみを含むオーディオ信号と、その他の(N−3)種類の信号成分を含むオーディオ信号とが生成される。以降、この操作を順次繰り返して合計N−2回のFDICAを行うことで、各々第k(k=1〜N−1)信号成分のみを含むk組のオーディオ信号が得られるのである。つまり、前述したセンタチャネルオーディオ信号SCを含めれば合計N組のオーディオ信号が得られるのである。これに対して、M/S比率が所定の閾値以下である場合には、N−1回のFDICAを行うことで合計N組のオーディオ信号が得られる。具体的には、各々異なるN(2以上の整数)種類の音源の音を表す信号成分を含む左右各1チャネルのオーディオ信号にFDICA(1回目)を施すことで、第1信号成分のみを含むオーディオ信号と、その他の(N−1)種類(すなわち、第2信号成分〜第N信号成分のN−1種類)の信号成分を含むオーディオ信号とが生成される。次いで、その他の(N−1)種類の信号成分を含むオーディオ信号にFDICA(2回目)を施すことで、第2信号成分のみを含むオーディオ信号と、その他の(N−2)種類の信号成分を含むオーディオ信号とが生成される。以降、この操作を順次繰り返して合計N−1回のFDICAを行うことで、各々第k(k=1〜N)信号成分のみを含むk組のオーディオ信号が得られるのである。
(2)上述した実施形態では、本発明の特徴を顕著に示すアップミキシング処理を実現する信号処理プログラムが信号処理装置1に予めインストールされていた。しかし、この信号処理プログラムを、例えばCD−ROMなどのコンピュータ読み取り可能な記録媒体に書き込んで配布しても良く、また、インターネットなどの電気通信回線経由のダウンロードにより配布しても良い。これらの態様で配布される信号処理プログラムをパーソナルコンピュータなどの一般的なコンピュータにインストールしその信号処理プログラムを実行させることで、そのコンピュータに本実施形態の信号処理装置1と同一の機能を実現させることが可能となるからである。
1…信号処理装置、10…記憶手段、20…センタチャネル信号生成手段、30…周波数分析手段、40…分離行列生成手段、50…独立成分抽出手段、60…サラウンド信号生成手段。SL0、SL1、SL…左チャネルオーディオ信号、SR0,SR1,SR…右チャネルオーディオ信号、SC…センタチャネルオーディオ信号、SLS…左サラウンド信号、SRS…右サラウンド信号、C…センタチャネルスピーカ、L…左フロントスピーカ、R…右フロントスピーカ、LS…左サラウンドスピーカ、RS…右サラウンドスピーカ。

Claims (4)

  1. マルチチャネルサラウンドスピーカシステムにて聴者の正面に配置されるセンタチャネルスピーカに与えるセンタチャネルオーディオ信号を、少なくとも2つの音源の各々から放射された音の混合音を各々表す左右各1チャネルの入力オーディオ信号にて前記聴者の正面の音像定位に寄与する信号成分に応じて生成するセンタチャネル信号生成手段と、
    前記左右各1チャネルの入力オーディオ信号を取得し、周波数領域独立成分分析を施し、前記各音源のうち1の音源の音を示す第1の信号成分と、その他の音源の音を示す第2の信号成分とを抽出する抽出手段と、
    前記各入力オーディオ信号から前記抽出手段により抽出される前記第2の信号成分を除去して左右各1チャネルの第1の出力オーディオ信号を生成して出力するとともに、前記各入力オーディオ信号から前記抽出手段により抽出される前記第1の信号成分を除去して左右各1チャネルの第2の出力オーディオ信号を生成して出力する信号生成手段と、を有し、
    前記センタチャネル信号生成手段は、前記入力オーディオ信号にて前記聴者の正面の音像定位に寄与する信号成分が占める比率が所定の閾値を超えているか否かを判定し、超えていると判定される場合に、その信号成分に応じてセンタチャネルオーディオ信号を生成することを特徴とする信号処理装置。
  2. 前記抽出手段は、
    前記左右各1チャネルの入力オーディオ信号の各々から前記センタチャネルオーディオ信号を減算して得られる左右各1チャネルのオーディオ信号に、周波数領域独立成分分析を施し、前記各音源のうちの1の音源の音を示す第3の信号成分と、その他の音源の音を示す第4の信号成分とを抽出し、
    前記信号生成手段は、
    前記各入力オーディオ信号から前記センタチャネルオーディオ信号と前記抽出手段により抽出される前記第4の信号成分とを除去して左右各1チャネルの第3の出力オーディオ信号を生成して出力するとともに、前記各入力オーディオ信号から前記センタチャネルオーディオ信号と前記抽出手段により抽出される前記第3の信号成分とを除去して左右各1チャネルの第4の出力オーディオ信号を生成する
    ことを特徴とする請求項1に記載の信号処理装置。
  3. 前記信号生成手段は、
    前記聴者を取り囲むように配置される5つのスピーカを含むマルチチャネルサラウンドスピーカシステムにおいて、前記聴者の正面左側および正面右側に配置される1組のスピーカに前記第3の出力オーディオ信号と前記第4の出力オーディオ信号の一方を与え、前記聴者の左後方および右後方に配置される1組のスピーカに他方の出力オーディオ信号を与える
    ことを特徴とする請求項2に記載の信号処理装置。
  4. コンピュータを、
    マルチチャネルサラウンドスピーカシステムにて聴者の正面に配置されるセンタチャネルスピーカに与えるセンタチャネルオーディオ信号を、少なくとも2つの音源の各々から放射された音の混合音を各々表す左右各1チャネルの入力オーディオ信号にて前記聴者の正面の音像定位に寄与する信号成分に応じて生成するセンタチャネル信号生成手段であって、前記入力オーディオ信号にて前記聴者の正面の音像定位に寄与する信号成分が占める比率が所定の閾値を超えているか否かを判定し、超えていると判定される場合に、その信号成分に応じてセンタチャネルオーディオ信号を生成するセンタチャネル信号生成手段と、
    前記左右各1チャネルの入力オーディオ信号を取得し、周波数領域独立成分分析を施し、前記各音源のうち1の音源の音を示す第1の信号成分と、その他の音源の音を示す第2の信号成分とを抽出する抽出手段と、
    前記各入力オーディオ信号から前記抽出手段により抽出される前記第2の信号成分を除去して左右各1チャネルの第1の出力オーディオ信号を生成して出力するとともに、前記各入力オーディオ信号から前記抽出手段により抽出される前記第1の信号成分を除去して左右各1チャネルの第2の出力オーディオ信号を生成して出力する信号生成手段
    として機能させるためのプログラム。
JP2009165545A 2009-07-14 2009-07-14 信号処理装置、およびプログラム Expired - Fee Related JP5552764B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009165545A JP5552764B2 (ja) 2009-07-14 2009-07-14 信号処理装置、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009165545A JP5552764B2 (ja) 2009-07-14 2009-07-14 信号処理装置、およびプログラム

Publications (2)

Publication Number Publication Date
JP2011023862A JP2011023862A (ja) 2011-02-03
JP5552764B2 true JP5552764B2 (ja) 2014-07-16

Family

ID=43633569

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009165545A Expired - Fee Related JP5552764B2 (ja) 2009-07-14 2009-07-14 信号処理装置、およびプログラム

Country Status (1)

Country Link
JP (1) JP5552764B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101803293B1 (ko) 2011-09-09 2017-12-01 삼성전자주식회사 입체 음향 효과를 제공하는 신호 처리 장치 및 신호 처리 방법
JP7176194B2 (ja) * 2018-02-09 2022-11-22 ヤマハ株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08263058A (ja) * 1995-03-17 1996-10-11 Kawai Musical Instr Mfg Co Ltd 電子楽器
WO2008072566A1 (ja) * 2006-12-12 2008-06-19 Nec Corporation 信号分離再生装置および信号分離再生方法

Also Published As

Publication number Publication date
JP2011023862A (ja) 2011-02-03

Similar Documents

Publication Publication Date Title
CN112205006B (zh) 音频内容的自适应再混合
US9154895B2 (en) Apparatus of generating multi-channel sound signal
JP5149968B2 (ja) スピーチ信号処理を含むマルチチャンネル信号を生成するための装置および方法
JP6620235B2 (ja) サウンドステージ拡張のための機器及び方法
JP5496235B2 (ja) 多重オーディオチャンネル群の再現の向上
JP6485711B2 (ja) 音場再現装置および方法、並びにプログラム
JP6284480B2 (ja) 音声信号再生装置、方法、プログラム、及び記録媒体
JPWO2012144227A1 (ja) 音声信号再生装置、音声信号再生方法
CN114067827A (zh) 一种音频处理方法、装置及存储介质
RU2595541C2 (ru) Устройство, способ и компьютерная программа для генерирования выходного стереосигнала для обеспечения дополнительных выходных каналов
WO2022014326A1 (ja) 信号処理装置および方法、並びにプログラム
CN104303523B (zh) 将多声道音频信号转换为双声道音频信号的方法和设备
JP5552764B2 (ja) 信号処理装置、およびプログラム
JP5324663B2 (ja) 音響信号処理装置および音響信号処理方法
Nowak et al. On the perception of apparent source width and listener envelopment in wave field synthesis
JP2012060301A (ja) 音声信号変換装置、方法、プログラム、及び記録媒体
KR100849030B1 (ko) 복수 채널 스피커 환경에서 가상 스피커 기술을 사용한입체음향 재생 장치
Choisel et al. Relating auditory attributes of multichannel reproduced sound to preference and to physical parameters
CN113348508B (zh) 电子设备、方法和计算机程序
KR20210124943A (ko) 사용자 및 스피커의 위치를 이용한 오디오 신호 변환 장치 및 그 방법
JP6161962B2 (ja) 音声信号再生装置及び方法
JP6463955B2 (ja) 三次元音響再生装置及びプログラム
WO2024216494A1 (en) Method for multichannel audio reconstruction and speaker system using the method
EP3747206B1 (en) Audio signal processor, system and methods distributing an ambient signal to a plurality of ambient signal channels
JP6630599B2 (ja) アップミックス装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120521

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131008

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140430

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140513

R150 Certificate of patent or registration of utility model

Ref document number: 5552764

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees