JP6017352B2

JP6017352B2 - 音声信号変換装置及び方法

Info

Publication number: JP6017352B2
Application number: JP2013044983A
Authority: JP
Inventors: 純生佐藤; 健明末永; 永雄服部
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2013-03-07
Filing date: 2013-03-07
Publication date: 2016-10-26
Anticipated expiration: 2033-03-07
Also published as: JP2014175743A

Description

本発明は、マルチチャネル再生方式用の音声信号を変換するための音声信号変換装置及び方法に関する。

従来から提案されている音響再生方式には、ステレオ（２ｃｈ）方式、５.１ｃｈサラウンド方式（ＩＴＵ−ＲＢＳ.７７５−１）などがあり広く民生用として普及している。２ｃｈ方式とは、図１で模式的に図示したように、左スピーカ１１Ｌと右スピーカ１１Ｒから異なる音声データを発生させる方式である。５.１ｃｈサラウンド方式とは、図２で模式的に図示したように、左フロントスピーカ２１Ｌ、右フロントスピーカ２１Ｒ、それらの間に配置するセンタースピーカ２１Ｃ、左サラウンドスピーカ２１ＬＳ、右サラウンドスピーカ２１ＲＳ、及び低音域（一般的に２０Ｈｚ〜１００Ｈｚ）専用のサブウーファー２２ＬＦＥに対し、それぞれ異なる音声データを入力して出力する方式である。

また、２ｃｈ方式や５.１ｃｈサラウンド方式の他にも、７.１ｃｈ、９.１ｃｈ、２２.２ｃｈなどさまざまな音響再生方式が提案されている。上述した方式はいずれも、聴取者（受聴者）を中心とする円周上または球面上に各スピーカを配置し、理想的には各スピーカから等距離にある聴取位置（受聴位置）、いわゆるスイートスポットで聴くことが好ましいとされている。例えば２ｃｈ方式ではスイートスポット１２で、５.１ｃｈサラウンド方式ではスイートスポット２３で聴くことが好ましい。スイートスポットで聴くと、音圧のバランスによる合成音像が製作者の意図するところに定位する。逆に、スイートスポット以外の位置で聴くと、一般的に、音像・音質が劣化する。以下、これらの方式を総称してマルチチャネル再生方式と呼ぶ。

一方、マルチチャネル再生方式とは別に、音源オブジェクト指向再生方式もある。この方式は、全ての音が、いずれかの音源オブジェクトが発する音であるとする方式であり、各音源オブジェクト（以下、「仮想音源」と呼ぶ。）が自身の位置情報と音声信号とを含んでいる。音楽コンテンツを例にとると、各仮想音源は、それぞれの楽器の音と楽器が配置されている位置情報とを含む。

そして、音源オブジェクト指向再生方式は、通常、直線状あるいは面状に並べたスピーカ群によって音の波面を合成する再生方式（すなわち波面合成再生方式）により再生される。このような波面合成再生方式のうち、非特許文献１に記載のWave Field Synthesis（ＷＦＳ）方式は、直線状あるいは曲線上に並べたスピーカ群（以下、スピーカアレイという）を用いる現実的な実装方法の１つとして近年盛んに研究されている。

このような波面合成再生方式は、上述のマルチチャネル再生方式とは異なり、図３で模式的に図示したように、並べられたスピーカ群３１の前のどの位置で聴いている受聴者に対しても、良好な音像と音質を両方同時に提示することができるという特長を持つ。つまり、波面合成再生方式でのスイートスポット３２は図示するように幅広くなっている。

また、ＷＦＳ方式によって提供される音響空間内においてスピーカアレイと対面して音を聴いている受聴者は、実際にはスピーカアレイから放射される音が、スピーカアレイの後方仮想音源から放射されているかのような感覚を受ける。

この波面合成再生方式では、仮想音源を表す入力信号を必要とする。そして、一般的に、１つの仮想音源には１チャネル分の音声信号とその仮想音源の位置情報が含まれることを必要とする。上述の音楽コンテンツを例にとると、例えば楽器毎に録音された音声信号とその楽器の位置情報ということになる。ただし、仮想音源それぞれの音声信号は必ずしも楽器毎である必要はないが、コンテンツ製作者が意図するそれぞれの音の到来方向と大きさが、仮想音源という概念を用いて表現されている必要がある。

そして、前述のマルチチャネル再生方式の中で、通常、映画コンテンツなどに使用されているのは５.１ｃｈである。したがって、既存の映画コンテンツを波面合成再生方式によって再生するためには、５.１ｃｈの音声信号を変換し仮想音源で表現する必要がある。

特許文献１には、５.１ｃｈの音声信号を複数のチャネルの音声信号に変換して波面合成再生方式で再生する再生方法が提案されている。具体的には、左フロントチャネル信号、右フロントチャネル信号、センターチャネル信号、左リアチャネル信号、右リアチャネル信号、サブウーファーチャネル信号のうち、左フロントチャネル信号と右フロントチャネル信号とに着目して相関信号成分と無相関信号成分とに分離し、相関信号成分を複数の仮想音源に割り当てた上で、中心の仮想音源にセンターチャネル信号を重畳することにより、５.１ｃｈの音声信号を波面合成再生方式で再生している。

特許第４８１０６２１号公報

A. J. Berkhout, D. de Vries, and P. Vogel, "Acoustic control by wave field synthesis", J. Acoust. Soc. Am. Volume 93(5), アメリカ合衆国, Acoustical Society of America, May 1993, pp. 2764-2778

通常、センターチャネルは映画コンテンツなどの台詞用として使用されることが多いが、コンテンツによっては、センターチャネル信号と左フロントチャネル信号との間、あるいは、センターチャネル信号と右フロントチャネル信号との間で、音圧パニングを行い、音像を、それぞれ、センタースピーカの位置と左フロントの位置との間、あるいは、センタースピーカの位置と右フロントの位置との間に定位させることもよく行われる。この場合、それぞれ、センターチャネル信号と左フロントチャネル信号との間、あるいは、センターチャネル信号と右フロントチャネル信号との間に、相関信号成分が存在することになる。

しかしながら、特許文献１に記載の技術では、センターチャネル信号と、左フロントチャネル信号あるいは右フロントチャネル信号との相関成分は無いものとしてセンターチャネル信号を扱っているため、上述のような、センターチャネルスピーカと、左フロントチャネルスピーカあるいは右フロントチャネルスピーカとの間に定位する音像を、正確な位置で再生することができない。また、特許文献１に記載の技術では、左リアチャネル信号及び右リアチャネル信号についても、それぞれ他のチャネルとの相関信号成分を無視しているため、左フロントチャネルスピーカと左リアチャネルスピーカ、左リアチャネルスピーカと右リアチャネルスピーカ、あるいは、右リアチャネルスピーカと右フロントチャネルスピーカとの間の音像を、正確な位置で再生することができない。

本発明は、上述のような実情に鑑みてなされたものであり、その目的は、マルチチャネル再生方式の５つ以上のチャネルの入力音声信号を、スピーカ群を用いて再生する際に適切な音像を提供できる音声信号に変換することが可能な音声信号変換装置及び方法を提供することにある。

上記の課題を解決するために、本発明の第１の技術手段は、マルチチャネル再生方式の５つ以上のチャネルの入力音声信号を、スピーカ群により再生させるために変換する音声信号変換装置であって、前記５つ以上のチャネルのうち１つの特定チャネルを、該１つの特定チャネルに隣合う２つのチャネルにダウンミックスするダウンミックス部と、前記特定チャネルを除いた、ダウンミックス後の前記２つのチャネルと残りのチャネルに対し、離散フーリエ変換を施す変換部と、周波数毎または周波数領域毎に、前記変換部で変換された４つ以上のチャネルにおける隣合う２つのチャネルの組み合わせのうち着目した組み合わせについて、周波数についての相関信号と無相関信号を分離、抽出する分離抽出部と、該分離抽出部で抽出された前記着目した組み合わせについての相関信号または該相関信号及び無相関信号に対して、もしくは前記相関信号から生成された音声信号に対して、もしくは前記相関信号及び前記無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施すとともに、前記着目した組み合わせ以外のチャネルについて前記変換部で変換された音声信号に対して、離散フーリエ逆変換を施す逆変換部と、を備え、前記分離抽出部は、周波数毎または周波数領域毎に、前記隣合う２つのチャネルの組み合わせのうちどの組み合わせに着目するかを、各チャネルの電力の大きさに基づいて判定することを特徴としたものである。

本発明の第２の技術手段は、第１の技術手段において、前記分離抽出部は、周波数毎または周波数領域毎に、前記隣合う２つのチャネルの組み合わせのうちどの組み合わせに着目するかを、前記隣合う２つのチャネルの組み合わせについての電力の大きさと相関係数との乗算結果に基づいて判定することを特徴としたものである。

本発明の第３の技術手段は、第１または第２の技術手段において、前記５つ以上のチャネルの入力音声信号は、５.１ｃｈあるいは６.１ｃｈあるいは７.１ｃｈのサラウンド音響信号であり、前記ダウンミックス部で前記ダウンミックスする１つのチャネルは前方中央のチャネルの入力音声信号であることを特徴としたものである。

本発明の第４の技術手段は、第１〜第３のいずれか１項の技術手段において、前記音声信号変換装置は、前記５つ以上のチャネルの入力音声信号を、仮想的に存在する音源である仮想音源に対する音像として前記スピーカ群により再生させるために変換し、該スピーカ群は、少なくとも一部で一直線上に並ばないように配列されており、前記仮想音源と前記スピーカそれぞれと中心点とを結んだ直線がなす角度によって、出力対象とするスピーカを決定することを特徴としたものである。

本発明の第５の技術手段は、マルチチャネル再生方式の５つ以上のチャネルの入力音声信号を、スピーカ群により再生させるために変換する音声信号変換方法であって、ダウンミックス部が、前記５つ以上のチャネルのうち１つの特定チャネルを、該１つの特定チャネルに隣合う２つのチャネルにダウンミックスするダウンミックスステップと、変換部が、前記特定チャネルを除いた、ダウンミックス後の前記２つのチャネルと残りのチャネルに対し、離散フーリエ変換を施す変換ステップと、分離抽出部が、周波数毎または周波数領域毎に、前記変換ステップで変換された４つ以上のチャネルにおける隣合う２つのチャネルの組み合わせのうち着目した組み合わせについて、周波数についての相関信号と無相関信号を分離、抽出する分離抽出ステップと、逆変換部が、前記分離抽出ステップで抽出された前記着目した組み合わせについての相関信号または該相関信号及び無相関信号に対して、もしくは前記相関信号から生成された音声信号に対して、もしくは前記相関信号及び前記無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施すとともに、前記着目した組み合わせ以外のチャネルについて前記変換ステップで変換された音声信号に対して、離散フーリエ逆変換を施す逆変換ステップと、を含み、前記分離抽出ステップは、周波数毎または周波数領域毎に、前記隣合う２つのチャネルの組み合わせのうちどの組み合わせに着目するかを、各チャネルの電力の大きさに基づいて判定することを特徴としたものである。

本発明によれば、マルチチャネル再生方式の５つ以上のチャネルの入力音声信号を、スピーカ群を用いて波面合成再生方式などの再生方式で再生する際に適切な音像を提供できる音声信号に変換することが可能になる。

２ｃｈ方式を説明するための模式図である。５.１ｃｈサラウンド方式を説明するための模式図である。波面合成再生方式を説明するための模式図である。本発明に係る音声信号変換装置を備えた音声データ再生装置の一構成例を示すブロック図である。図４の音声データ再生装置における音声信号処理部（本発明に係る音声信号変換装置）の一構成例を示すブロック図である。図５の音声信号処理部における分離抽出部での分離抽出処理の一例を説明するためのフロー図である。５.１ｃｈサラウンドシステムのスピーカ群のうち、ＬＦＥを除いた５つのスピーカの配置例である。図７の配置例におけるダウンミックス後の出力対象スピーカの配置例を示す図である。図６の分離抽出処理における着目ペア判定処理の一例を説明するためのフロー図である。受聴者と左右のスピーカと合成音像との位置関係の一例を説明するための模式図である。波面合成再生方式で使用するスピーカ群と仮想音源との位置関係の一例を説明するための模式図である。図１１の仮想音源と受聴者及び合成音像との位置関係の一例を説明するための模式図である。受聴者と左右のスピーカと仮想音源との位置関係の他の例を説明するための模式図である。受聴者と左右のスピーカ及び左右のサラウンドスピーカと仮想音源との位置関係の一例を説明するための模式図である。受聴者と左右のスピーカ及び左右のサラウンドスピーカと仮想音源との位置関係の他の例を説明するための模式図である。受聴者と左右のスピーカ及び左右のサラウンドスピーカと仮想音源との位置関係の他の例を説明するための模式図である。受聴者と左右のスピーカ及び左右のサラウンドスピーカと仮想音源との位置関係の他の例を説明するための模式図である。左右のスピーカ及び左右のサラウンドスピーカと全ての仮想音源との位置関係の一例を説明するための模式図である。左右のスピーカ及び左右のサラウンドスピーカと全ての仮想音源との位置関係の他の例を説明するための模式図である。６.１ｃｈサラウンドシステムのスピーカ群において、ＬＦＥを除いた６つのスピーカのうち、ダウンミックス後の出力対象スピーカの配置例を示す図である。７.１ｃｈサラウンドシステムのスピーカ群において、ＬＦＥを除いた７つのスピーカのうち、ダウンミックス後の出力対象スピーカの配置例を示す図である。非特許文献１に記載の技術において、１つの直線上に並べたスピーカ群の背後に仮想音源を設けた場合に、各仮想音源に対応する音を出力するスピーカについて説明するための模式図である。図４の音声データ再生装置におけるスピーカ群の配置例を説明するための模式図である。図４の音声データ再生装置におけるスピーカ群の他の配置例を説明するための模式図である。図４の音声データ再生装置におけるスピーカ群の他の配置例を説明するための模式図である。図４の音声データ再生装置を備えた映像表示システムの構成例を示す図である。図４の音声データ再生装置を備えた自動車の構成例を示す図である。

本発明に係る音声信号変換装置は、５チャネル以上のマルチチャネル再生方式用の音声信号を、波面合成再生方式などの再生方式でスピーカ群から適切な音像を提供できるような音声信号に変換する装置である。このような変換により、５つ以上のチャネルの入力音声信号が、上記スピーカ群により再生させるための音声信号になる。

以下、５つ以上のチャネルの入力音声信号を、仮想的に存在する音源である仮想音源に対する音像としてスピーカ群（複数のスピーカ）により再生させるための音声信号に変換する場合を例に挙げて説明する。しかし、例えば仮想音源の数と同数の出力スピーカを用意して、各仮想音源から出力すべき音声信号を、一対一で対応する出力スピーカから再生するような場合にも、同様に適用できる。すなわち、本発明では、５つのチャネルの入力音声信号が、仮想ではない実在する音源（複数のスピーカ）に対する音像として各スピーカにより再生させるための音声信号になるような変換も採用可能である。

以下、図面を参照しながら、本発明に係る音声信号変換装置の構成例及び処理例について説明する。また、以下の説明では、本発明に係る音声信号変換装置が、５.１ｃｈサラウンド音響信号を変換し、波面合成再生方式用の音声信号を生成する例を挙げる。以下では、図２の各スピーカ２１Ｌ、２１Ｒ、２１Ｃ、２２ＬＦＥ、２１ＬＳ、２１ＲＳに対応する音声信号をそれぞれ、Ｌ、Ｒ、Ｃ、ＬＦＥ、ＬＳ、ＲＳと表す。

図４は、本発明に係る音声信号変換装置を備えた音声データ再生装置の一構成例を示すブロック図で、図５は、図４の音声データ再生装置における音声信号処理部（本発明に係る音声信号変換装置）の一構成例を示すブロック図である。

図４で例示する音声データ再生装置４０は、デコーダ４１、音声信号抽出部４２、音声信号処理部４３を備えるとともに、Ｄ／Ａコンバータ４４、増幅器群４５、及びスピーカ群４６を備える。さらに、音声データ再生装置４０は、ＬＦＥ音声信号用の遅延処理部４７、ＬＦＥ音声信号用の増幅器４８、及びサブウーファー（サブウーファースピーカ）４９を備える。

デコーダ４１は、音声のみあるいは音声付き映像のコンテンツを復号化し、信号処理可能な形式に変換し音声信号抽出部４２に出力する。そのコンテンツは、放送局から送信されたデジタル放送のコンテンツや、ネットワークを介してディジタルコンテンツを配信するサーバからインターネットからダウンロードしたり、あるいは外部記憶装置等の記録媒体から読み込んだりすることによって取得する。このように、図４では図示しないが、音声データ再生装置４０は、マルチチャネルの入力音声信号を含むディジタルコンテンツを入力するディジタルコンテンツ入力部を備える。デコーダ４１は、ここで入力されたディジタルコンテンツを復号化することになる。

音声信号抽出部４２では、得られた信号から音声信号を分離、抽出する。ここでは得られた信号は５.１ｃｈとし、そのうちのＬ、Ｒ、Ｃ、ＬＳ、ＲＳの５つのチャネルの音声信号を音声信号処理部４３に出力する。残りのＬＦＥのチャネルの音声信号は、遅延処理部４７で前述の信号Ｌ、Ｒ、Ｃ、ＬＳ、ＲＳを音声信号処理部４３で処理するのに要する時間分遅延させ、Ｄ／Ａコンバータ４４に出力する。

音声信号処理部４３は、マルチチャネル再生方式の５つ以上のチャネルの入力音声信号を、スピーカ群により再生させるために変換する音声信号変換装置の一例である。ここでスピーカ群４６は、より適切な音像を表現できるようにするため、その入力音声信号のチャネル数以上の数のスピーカでなることが好ましい。この場合、スピーカ群４６は、例えば５.１ｃｈのうちの５ｃｈを入力音声信号とした場合には、そのチャネル数が後述のダウンミックス処理により１つ少なくなり、その少なくなったチャネル数より多い数（換言すれば入力音声信号のチャネルの数と同じかそれより多い数）のスピーカでなる。

具体的に説明すると、音声信号処理部４３では、得られた５チャネル信号から、入力音声信号とは異なるマルチチャネルの音声信号を生成する。つまり、音声信号処理部４３では、入力音声信号を別のマルチチャネルの音声信号に変換する。入力音声信号のチャネル数以上のスピーカから出力させるためには、変換後のマルチチャネルのチャネル数は、入力されたチャネル数（この例では５つ）以上とすることが好ましい。ただし、仮想音源用のチャネルとすることで入力されたチャネル数より小さくてもスピーカ群４６への割り当てはできる。以下の例では、仮想音源の数分の信号を生成するものとして説明する。

音声信号処理部４３は、その音声信号をＤ／Ａコンバータ４４に出力する。仮想音源の数は、ある一定以上の数があれば予め決めておいても性能上差し支えはないが、仮想音源数が多くなるほど演算量も多くなる。そのため実装する装置の性能を考慮してその数を決定することが望ましい。ここで説明する例では、その数を１６として、後述の図１８のように円周上に仮想音源を配置する場合について説明するが、この例に限ったものではない。

Ｄ／Ａコンバータ４４では得られた信号をアナログ信号に変換し、それぞれの信号を増幅器４５及び増幅器４８に出力する。各増幅器４５では入力されたアナログ信号を拡声し各スピーカ４６に伝送し、この拡声されたアナログ信号が各スピーカ４６から空間中に音として出力される。増幅器４８では入力されたＬＦＥ用のアナログ信号を拡声しサブウーファー４９に伝送し、この拡声されたアナログ信号がサブウーファー４９から空間中に音として出力される。

図４における音声信号処理部４３の詳細な構成例を、図５を参照しながら説明する。音声信号処理部４３は、Ｃ信号ダウンミックス部５１、変換部５２、分離抽出部５３、逆変換部５４、及び音声出力信号生成部５５を備える。

Ｃ信号ダウンミックス部５１は、入力音声信号である５つ以上のチャネルのうち１つの特定チャネルを、その１つの特定チャネルに隣合う２つのチャネルにダウンミックスするダウンミックス部の一例であり、特定チャネルとしてＣチャネルの信号を採用した例である。Ｃ信号ダウンミックス部５１は、Ｃの信号のゲインにダウンミックス係数をかけたものを、ＲとＬの２チャネルの信号それぞれに加算し、それを変換部５２に出力する。ダウンミックス係数は時間的に変化しない、０より大きい実数であり、例えば１／２や１／√２などの値をとる。

変換部５２は、Ｃ信号ダウンミックス部５１より入力された２つのチャネルと、ＬＳ、ＲＳとを合わせた４つの入力信号それぞれを、１セグメントの１／４の長さの音声データ分読み出す。ここで、音声データとは、例えば４８ｋＨｚなどの標本化周波数で標本化された離散音声信号波形を指すものとする。そして、セグメントとは、ある一定の長さの標本点群からなる音声データ区間であり、ここでは後ほど離散フーリエ変換の対象となる区間長を指すものとし、処理セグメントとも呼ぶ。その値は例えば１０２４とする。この例では、１セグメントの１／４の長さである２５６点の音声データが読み出し対象となる。

読み出した２５６点の音声データはバッファに蓄えられる。このバッファは、直前の１セグメント分の音声信号波形を保持しておけるようになっており、それより過去のセグメントは捨てていく。直前の３／４セグメント分のデータ（７６８点）と最新の１／４セグメント分のデータ（２５６点）を繋げて１セグメント分の音声データを作成し、窓関数を乗算する。すなわち、全ての標本データは窓関数演算に４回読み込まれることになる。

ここで、窓関数の乗算とは、従来提案されている次のＨａｎｎ窓を１セグメント分の音声データに乗算する窓関数演算処理を実行する。

ここで、ｍは自然数、Ｍは１セグメント長で偶数とする。変換部５２への入力信号をそれぞれｘ_Ｌ（ｍ）、ｘ_Ｒ（ｍ）、ｘ_ＬS（ｍ）、ｘ_ＲS（ｍ）とすると、窓関数乗算後の音声信号ｘ′_Ｌ（ｍ）、ｘ′_Ｒ（ｍ）、ｘ′_ＬS（ｍ）、ｘ′_ＲS（ｍ）は、
ｘ′_Ｌ（ｍ）＝ｗ（ｍ）ｘ_Ｌ（ｍ）、
ｘ′_Ｒ（ｍ）＝ｗ（ｍ）ｘ_Ｒ（ｍ）、
ｘ′_ＬＳ（ｍ）＝ｗ（ｍ）ｘ_ＬＳ（ｍ）、
ｘ′_ＲＳ（ｍ）＝ｗ（ｍ）ｘ_ＲＳ（ｍ） (2)
と計算される。

変換部５２は、そうして得られた音声データを、次の数式(3)のように離散フーリエ変換し、周波数領域の音声データを得る。つまり、変換部５２は、上記特定チャネルを除いた、ダウンミックス後の２つのチャネルと残りのチャネル（の音声データ）に対し、離散フーリエ変換を施す。ここで、ＤＦＴは離散フーリエ変換を表し、ｋは自然数で、０＜ｋ≦Ｍ／２である。Ｘ_Ｌ（ｋ）、Ｘ_Ｒ（ｋ）、Ｘ_ＬＳ（ｋ）、Ｘ_ＲＳ（ｋ）は複素数となる。
Ｘ_Ｌ（ｋ）＝ＤＦＴ（ｘ′_Ｌ（ｍ））、
Ｘ_Ｒ（ｋ）＝ＤＦＴ（ｘ′_Ｒ（ｍ））、
Ｘ_ＬＳ（ｋ）＝ＤＦＴ（ｘ′_ＬＳ（ｍ））、
Ｘ_ＲＳ（ｋ）＝ＤＦＴ（ｘ′_ＲＳ（ｍ）） (3)

分離抽出部５３は、線スペクトル毎に、変換部５２で変換された４つ以上のチャネルにおける隣合う２つのチャネルの組み合わせのうち着目した組み合わせについて、相関信号と無相関信号を分離、抽出する。ここで相関信号とは、周波数について相関する信号を指し、無相関信号とは周波数について相関しない信号を指す。

本発明の主たる特徴として、分離抽出部５３は、線スペクトル毎に（つまり周波数毎に）、上記隣合う２つのチャネルの組み合わせのうち、どの組み合わせに着目するかを、各チャネルの電力の大きさに基づいて判定する。分離抽出部５３においては、線スペクトル毎でなくても周波数領域（小帯域）毎に分離、抽出してもよく、その場合には判定も小帯域毎に行う。つまり、ここでは線スペクトル毎に相関係数を取得するなどの処理を行う例を挙げて説明するが、特許文献１に記載のように、Equivalent Rectangular Band（ＥＲＢ）を用いて分割した帯域（周波数領域であり、小帯域とも呼ぶ）毎に相関係数を取得するなどの処理を実行してもよい。

分離抽出部５３における分離抽出処理の具体的な内容を、図６を用いて説明する。ここで説明する５.１ｃｈの例では、離散フーリエ変換が数式(3)のように４つのチャネルに対して施されている。よって、分離抽出部５３は、変換部５２で離散フーリエ変換後の４つのチャネルの音声信号について、各線スペクトル毎にステップＳ６２〜Ｓ６５の処理を実行する（ステップＳ６１ａ，Ｓ６１ｂ）。具体的に個々の処理について説明する。

ステップＳ６２では、元のマルチチャンネル再生方式で再生を想定しているスピーカ群のうち、スピーカ配置が隣合う２つの入力信号のいずれに着目するかを判定する処理（着目ペア判定処理）を実行する。

ここで、隣合うスピーカ配置の定義について、図７及び図８を参照して説明する。図７は、５.１ｃｈサラウンドシステムのスピーカ群のうちＬＦＥを除いた５つのスピーカの配置例を示す図で、図８は、図７の配置例におけるダウンミックス後の出力対象スピーカの配置例を示す図である。

図７で示すように、５.１ｃｈサラウンドシステムでは、ＬＦＥ用のスピーカを除き、左フロントスピーカ７１、右フロントスピーカ７２、センタースピーカ７３、左サラウンドスピーカ７４、右サラウンドスピーカ７５が存在する。上述の、スピーカ配置が隣合うか否かを判定する際、上述のＣ信号ダウンミックス部５１でＬとＲそれぞれに加算されたＣの信号は、対象から外す。すなわち、Ｃ信号ダウンミックス部５１で他の信号に加算される対象となったＣ信号に係るセンタースピーカ７３を除き、図８に示す４つのスピーカ（左フロントスピーカ７１、右フロントスピーカ７２、左サラウンドスピーカ７４、右サラウンドスピーカ７５）の配置を考える。

図８に示すように、左フロントスピーカ７１と隣合うのは右フロントスピーカ７２と左サラウンドスピーカ７４となる。同様に、左サラウンドスピーカ７４と隣合うのは左フロントスピーカ７１と右サラウンドスピーカ７５、右フロントスピーカ７２と隣合うのは左フロントスピーカ７１と右サラウンドスピーカ７５、右サラウンドスピーカ７５と隣合うのは右フロントスピーカ７２と左サラウンドスピーカ７４、となる。したがって、この場合、図８中に両矢印で示したように組合せ（ペア）が４つ存在する。

ステップＳ６２では、これらの各ペアのうち、どのペアに着目するかの判定を図９で例示するように行う。図９は、図６の分離抽出処理における着目ペア判定処理の一例を説明するためのフロー図である。

まず、各ペアについて、線スペクトル毎に、次の数式(4)のように電力の和Ｐ_１〜Ｐ_４を算出する（ステップＳ９１）。ここで、対象となる線スペクトルの音声信号Ｘのゲイン（振幅）をＧとすると、Ｐ（Ｘ）は、音声信号Ｘの電力（音圧に相当）を表し、ゲインＧの二乗値で表現できる。
Ｐ_１（ｋ）＝Ｐ（Ｘ_Ｌ（ｋ））＋Ｐ（Ｘ_Ｒ（ｋ））、
Ｐ_２（ｋ）＝Ｐ（Ｘ_ＬＳ（ｋ））＋Ｐ（Ｘ_Ｌ（ｋ））、
Ｐ_３（ｋ）＝Ｐ（Ｘ_ＲＳ（ｋ））＋Ｐ（Ｘ_ＬＳ（ｋ））、
Ｐ_４（ｋ）＝Ｐ（Ｘ_Ｒ（ｋ））＋Ｐ（Ｘ_ＲＳ（ｋ）） (4)

次に、各ペアの線スペクトルに対し、両方のチャネル間の正規化相関係数を次の数式(5)で求めることで、相関係数を取得する（ステップＳ９２）。なお、Ｒｅ｛ＢＢ｝、Ｉｍ｛ＣＣ｝はそれぞれ「ＢＢ」の実部、「ＣＣ」の虚部を表す。

この正規化相関係数ｄ^（ｋ） _１〜ｄ^（ｋ） _４は両方のチャネルの音声信号にどれだけ相関があるかを表すものであり、０から１の間の実数の値をとる。全く同じ信号同士であれば１、そして全く無相関の信号同士であれば０となる。ここで、両方のチャネルの音声信号の電力が０である場合、その線スペクトルに関して相関信号と無相関信号の抽出は不可能とし、処理を行わず次の線スペクトルの処理に移ることとする。また、いずれか片方の電力が０である場合、数式(5)では演算不可能であるが、正規化相関係数ｄ^（ｋ） _ｒ＝０とし、その線スペクトルの処理を続行する。ただし、ｒ＝１〜４である。

次に、各ペアに対し、数式(4)と数式(5)で求めた値を乗算したσ_ｒ（ｋ）を、次のように計算する。
σ_１（ｋ）＝Ｐ_１（ｋ）×ｄ^（ｋ） _１、
σ_２（ｋ）＝Ｐ_２（ｋ）×ｄ^（ｋ） _２、
σ_３（ｋ）＝Ｐ_３（ｋ）×ｄ^（ｋ） _３、
σ_４（ｋ）＝Ｐ_４（ｋ）×ｄ^（ｋ） _４ (6)

そして、σ_ｒ（ｋ）が最大値となる場合のｒであるｒ_ｍａｘを求め、着目すべきペアを決定する（ステップＳ９３）。例えば、ｒ_ｍａｘ＝１の場合、図８における左フロントスピーカ７１と右フロントスピーカ７２が着目すべきペアとなる。以下では、ステップＳ９３の判定の結果（すなわち図６におけるステップＳ６２の結果）が、左フロントスピーカ７１と右フロントスピーカ７２が着目すべきペアであった場合を例に挙げて説明するが、他のペアが着目すべきペアであっても同様である。

このように、分離抽出部５３は、線スペクトル毎に、隣合う２つのチャネルの組み合わせのうち、どの組み合わせに着目するかを、隣合う２つのチャネルの組み合わせについての電力の大きさと相関係数との乗算結果に基づいて判定することが好ましい。無論、分離、抽出を小帯域毎に行う場合にはこの判定も小帯域毎に行うことになる。

また、数式(6)において、σ_ｒ（ｋ）の計算の際、ｄ^（ｋ） _ｒ＝１として、相関係数の計算を省略することもできる。ｄ^（ｋ） _ｒ＝１として相関係数の計算を省略することは、隣合う２つのチャネルの電力の大きさの和に基づいて、その和が大きいものを着目すべきペアに決定することを意味する。このように分離抽出部５３では、相関係数を用いなくても、線スペクトル毎に、隣合う２つのチャネルの電力の大きさに基づいて判定を行えばよい。但し、相関係数も併せて判定に用いることにより、判定の精度を上げることができる。

その他の判定の例を挙げる。最終的にσ_ｒ（ｋ）の最大値を求めることができればよいため、ｄ^（ｋ） _ｒ＝１との省略を行う場合もその省略を行わない場合にも、Ｐ_ｒ（ｋ）として、隣合う２つのチャネルの電力の積を採用することができる。さらに別の例として、一番大きな電力をもつチャネルと、それに隣合う２つのチャネルのうち大きい電力をもつチャネルとで構成されるペアに着目するように判定することもできる。

ステップＳ６２の結果、電力が最大となり、なおかつ相関係数が大きいペアについてのみ、つまり着目ペアについてのみ、後述するように相関信号・無相関信号に分離した上での仮想音源への割り当てを行う（ステップ６３〜Ｓ６５）。この処理は、同じ線スペクトルあるいは小帯域に属する音像は１つである、という仮定を置くことを意味しており、その仮定において、ステップＳ６３〜Ｓ６５は正確な音像位置を再現するための変換処理であると言える。なお、上記の判定を電力の大きさのみ実行した場合にも同様に、着目ペアについてのみステップ６３〜Ｓ６５の処理を行えばよい。

まず、上述の正規化相関係数ｄ^（ｋ） _１を用いて、両方のチャネルの音声信号から相関信号と無相関信号をそれぞれ分離抽出するための変換係数を求め（ステップＳ６３）、ステップＳ６３で取得したそれぞれの変換係数を用いて、両方のチャネルの音声信号から相関信号と無相関信号を分離抽出する（ステップＳ６４）。相関信号及び無相関信号は、いずれも推定した音声信号として抽出すればよい。以下では簡単のため、ｄ^（ｋ） _１をｄ^（ｋ）とおき説明する。

ステップＳ６３，Ｓ６４の処理例を説明する。ここで、特許文献１に記載の技術と同様、両方のチャネルそれぞれの信号は、無相関信号と相関信号から構成され、相関信号については、両方のチャネルからゲインのみ異なる信号波形（つまり同じ周波数成分からなる信号波形）が出力されるものとするモデルを採用する。ここで、ゲインは、信号波形の振幅に相当し、音圧に関連する値である。そして、このモデルでは、両方のチャネル信号から出力される相関信号によって合成される音像は、その相関信号の両方それぞれの音圧のバランスによって方向が決定されるものとする。

そのモデルに従うと、Ｃ信号ダウンミックス部５１から変換部５２への入力信号でもある分離抽出部５３への入力信号ｘ_Ｌ（ｍ）、ｘ_Ｒ（ｍ）は、
ｘ_Ｌ（ｍ）＝ｓ（ｍ）＋ｎ_Ｌ（ｍ）、
ｘ_Ｒ（ｍ）＝αｓ（ｍ）＋ｎ_Ｒ（ｍ） (7)
と表される。ここで、ｓ（ｍ）は両方の相関信号、ｎ_Ｌ（ｍ）は左チャネルの音声信号から相関信号ｓ（ｍ）を減算したものであって（左チャネルの）無相関信号として定義できるもの、ｎ_Ｒ（ｍ）は右チャネルの音声信号から相関信号ｓ（ｍ）にαを乗算したものを減算したものであって（右チャネルの）無相関信号として定義できるものである。また、αは相関信号の両方の音圧バランスの程度を表す正の実数である。

数式(7)により、数式(2)で前述した窓関数乗算後の音声信号ｘ′_Ｌ（ｍ）、ｘ′_Ｒ（ｍ）は、次の数式(8)で表される。ただし、ｓ′（ｍ）、ｎ′_Ｌ（ｍ）、ｎ′_Ｒ（ｍ）はそれぞれｓ（ｍ）、ｎ_Ｌ（ｍ）、ｎ_Ｒ（ｍ）に窓関数を乗算したものである。
ｘ′_Ｌ（ｍ）＝ｗ（ｍ）｛ｓ（ｍ）＋ｎ_Ｌ（ｍ）｝＝ｓ′（ｍ）＋ｎ′_Ｌ（ｍ）、
ｘ′_Ｒ（ｍ）＝ｗ（ｍ）｛αｓ（ｍ）＋ｎ_Ｒ（ｍ）｝＝αｓ′（ｍ）＋ｎ′_Ｒ（ｍ）
(8)

数式(8)を離散フーリエ変換することによって、次の数式(9)を得る。ただし、Ｓ（ｋ）、Ｎ_Ｌ（ｋ）、Ｎ_Ｒ（ｋ）はそれぞれｓ′（ｍ）、ｎ′_Ｌ（ｍ）、ｎ′_Ｒ（ｍ）を離散フーリエ変換したものである。
Ｘ_Ｌ（ｋ）＝Ｓ（ｋ）＋Ｎ_Ｌ（ｋ）、
Ｘ_Ｒ（ｋ）＝αＳ（ｋ）＋Ｎ_Ｒ（ｋ） (9)

したがって、ｋ番目の線スペクトルにおける音声信号Ｘ_Ｌ（ｋ）、Ｘ_Ｒ（ｋ）は、
Ｘ_Ｌ（ｋ）＝Ｓ（ｋ）＋Ｎ_Ｌ（ｋ）、
Ｘ_Ｒ（ｋ）＝α^（ｋ）Ｓ（ｋ）＋Ｎ_Ｒ（ｋ） (10)
と表現される。ここで、α^（ｋ）はｋ番目の線スペクトルにおけるαを表す。

数式(4)の音圧Ｐ（Ｘ_Ｌ（ｋ））とＰ（Ｘ_Ｒ（ｋ））をそれぞれＰ_Ｌ ^（ｋ）、Ｐ_Ｒ ^（ｋ）とおくと、数式(10)から、Ｐ_Ｌ ^（ｋ）、Ｐ_Ｒ ^（ｋ）は、
Ｐ_Ｌ ^（ｋ）＝Ｐ_Ｓ ^（ｋ）＋Ｐ_Ｎ ^（ｋ）、
Ｐ_Ｒ ^（ｋ）＝［α^（ｋ）］^２Ｐ_Ｓ ^（ｋ）＋Ｐ_Ｎ ^（ｋ） (11)
と表される。ここで、Ｐ_Ｓ ^（ｋ）、Ｐ_Ｎ ^（ｋ）はｋ番目の線スペクトルにおけるそれぞれ相関信号、無相関信号の電力であり、

と表される。ここで、両方のチャネル間の無相関信号の音圧は等しいと仮定している。

また、数式(5)と数式(10)より、ｄ^（ｋ）は、次の数式(13)で表すことができる。ただし、この算出においてはＳ（ｋ）、Ｎ_Ｌ（ｋ）、Ｎ_Ｒ（ｋ）が互いに直交し、かけ合わされたときの電力は０と仮定している。

数式(11)と数式(13)を解くことにより、次の式が得られる。

これらの値を用いて、各線スペクトルにおける相関信号と無相関信号を推定する。ｋ番目の線スペクトルにおける相関信号Ｓ（ｋ）の推定値ｅｓｔ（Ｓ（ｋ））を、媒介変数μ_１、μ_２を用いて、
ｅｓｔ（Ｓ（ｋ））＝μ_１Ｘ_Ｌ（ｋ）＋μ_２Ｘ_Ｒ（ｋ） (16)
とおくと、推定誤差εは、
ε＝ｅｓｔ（Ｓ（ｋ））−Ｓ（ｋ） (17)
と表される。ここで、ｅｓｔ（Ａ）はＡの推定値を表すものとする。そして二乗誤差ε^２が最少になるとき、εとＸ_Ｌ（ｋ）、Ｘ_Ｒ（ｋ）はそれぞれ直交するという性質を利用すると、
Ｅ［ε・Ｘ_Ｌ（ｋ）］＝０、Ｅ［ε・Ｘ_Ｒ（ｋ）］＝０ (18)
という関係が成り立つ。数式(10)、(12)、(14)〜(17)を利用すると、数式(18)から次の連立方程式が導出できる。
（１−μ_１−μ_２α^（ｋ））Ｐ_Ｓ ^（ｋ）−μ_１Ｐ_Ｎ ^（ｋ）＝０
α^（ｋ）（１−μ_１−μ_２α^（ｋ））Ｐ_Ｓ ^（ｋ）−μ_２Ｐ_Ｎ ^（ｋ）＝０
(19)

この数式(19)を解くことによって、各媒介変数が次のように求まる。

ここで、このようにして求まる推定値ｅｓｔ（Ｓ（ｋ））の電力Ｐ_{ｅｓｔ（Ｓ）} ^（ｋ）が、数式(16)の両辺を二乗して求まる次の式
Ｐ_{ｅｓｔ（Ｓ）} ^（ｋ）＝（μ_１＋α^（ｋ）μ_２）^２Ｐ_Ｓ ^（ｋ）＋（μ_１ ^２＋μ_２ ^２）Ｐ_Ｎ ^（ｋ） (21)
を満たす必要があるため、この式から推定値を次式のようにスケーリングする。なお、ｅｓｔ′（Ａ）はＡの推定値をスケーリングしたものを表す。

そして、ｋ番目の線スペクトルにおける両方のチャネルの無相関信号Ｎ_Ｌ（ｋ）、Ｎ_Ｒ（ｋ）に対する推定値ｅｓｔ（Ｎ_Ｌ（ｋ））、ｅｓｔ（Ｎ_Ｒ（ｋ））はそれぞれ、
ｅｓｔ（Ｎ_Ｌ（ｋ））＝μ_３Ｘ_Ｌ（ｋ）＋μ_４Ｘ_Ｒ（ｋ） (23)
ｅｓｔ（Ｎ_Ｒ（ｋ））＝μ_５Ｘ_Ｌ（ｋ）＋μ_６Ｘ_Ｒ（ｋ） (24)
とおくことにより、上述の求め方と同様にして、媒介変数μ_３〜μ_６は、

と求めることができる。このようにして求めた推定値ｅｓｔ（Ｎ_Ｌ（ｋ））、ｅｓｔ（Ｎ_Ｒ（ｋ））も上述と同様に、次の式によってそれぞれスケーリングする。

数式(20)、(25)、(26)で示した各媒介変数μ_１〜μ_６及び数式(22)、(27)、(28)で示したスケーリングの係数が、ステップＳ６３で求める変換係数に該当する。そして、ステップＳ６４では、これらの変換係数を用いた演算（数式(16)、(23)、(24)）により推定することで、相関信号と無相関信号（右チャネルの無相関信号、左チャネルの無相関信号）とを分離抽出する。

次に、仮想音源への割り当て処理を行う（ステップＳ６５）。まず、この割り当て処理では前処理として、線スペクトル毎に推定した相関信号によって生成される合成音像の方向を推定する。この推定処理について、図１０〜図１２に基づき説明する。図１０は、受聴者と左右のスピーカと合成音像との位置関係の一例を説明するための模式図、図１１は、波面合成再生方式で使用するスピーカ群と仮想音源との位置関係の一例を説明するための模式図、図１２は、図１１の仮想音源と受聴者及び合成音像との位置関係の一例を説明するための模式図である。

いま、図１０に示す位置関係１００のように、受聴者から左右のスピーカ１０１Ｌ、１０１Ｒの中点にひいた線と、同じく受聴者１０３からいずれかのスピーカ１０１Ｌ／１０１Ｒの中心までひいた線がなす見開き角をθ_０、受聴者１０３から推定合成音像１０２の位置までひいた線がなす見開き角をθとする。ここで、左右のスピーカ１０１Ｌ、１０１Ｒから同じ音声信号を、音圧バランスを変えて出力した場合、その出力音声によって生じる合成音像１０２の方向は、音圧バランスを表す前述のパラメータαを用いて次の式で近似できることが一般的に知られている（以下、立体音響におけるサインの法則と呼ぶ）。

ここで、２ｃｈステレオの音声信号を波面合成再生方式で再生できるようにするために、図５に示す分離抽出部５３が２ｃｈの信号を複数チャネルの信号に変換する。例えば変換後のチャネル数を５つとした場合、それを図１１で示す位置関係１１０のように、波面合成再生方式における仮想音源１１２ａ〜１１２ｅと見做し、スピーカ群（スピーカアレイ）１１１の後方に配置する。なお、仮想音源１１２ａ〜１１２ｅにおける隣合う仮想音源との間隔は均等とする。したがって、ここでの変換は、２ｃｈの音声信号を仮想音源数の音声信号に変換することになる。既に説明したように、分離抽出部５３は、まず２ｃｈの音声信号を、線スペクトル毎に１つの相関信号と２つの無相関信号に分離する。分離抽出部５３では、さらにそれらの信号をどのように仮想音源数の仮想音源（ここでは５つの仮想音源）に割り当てるかを事前に決めておかなければならない。なお、割り当ての方法については複数の方法の中からユーザ設定可能にしておいてもよいし、仮想音源数に応じて選択可能な方法を変えてユーザに提示するようにしてもよい。

割り当て方法の１つの例として、次のような方法を採る。それは、まず、左右の無相関信号については、５つの仮想音源の両端（仮想音源１１２ａ、１１２ｅ）にそれぞれ割り当てる。次に、相関信号によって生じる合成音像については、５つのうちの隣接する２つの仮想音源に割り当てる。隣接するどの２つの仮想音源に割り当てるかについては、まず、前提として、相関信号によって生じる合成音像が５つの仮想音源の両端（仮想音源１１２ａ、１１２ｅ）より内側になるものとし、すなわち、２ｃｈステレオ再生時の２つのスピーカによってなす見開き角内におさまるように５つの仮想音源１１２ａ〜１１２ｅを配置するものとする。そして、合成音像の推定方向から、その合成音像を挟むような隣接する２つの仮想音源を決定し、その２つの仮想音源への音圧バランスの割り当てを調整して、その２つの仮想音源によって合成音像を生じさせるように再生する、という割り当て方法を採る。

そこで、図１２で示す位置関係１２０のように、受聴者１２３から両端の仮想音源１１２ａ、１１２ｅの中点にひいた線と端の仮想音源１１２ｅにひいた線とがなす見開き角をθ_０′、上記中点にひいた線と受聴者１２３から合成音像１２１にひいた線とがなす見開き角をθ′とする。さらに、受聴者１２３から合成音像１２１を挟む２つの仮想音源１１２ｃ、１１２ｄの中点にひいた線と、受聴者１２３から仮想音源１１２ｄとがなす見開き角をφ_０、受聴者１１３から合成音像１１１にひいた線とがなす見開き角をφとする。ここで、φ_０は正の実数である。数式(29)で説明したようにして方向を推定した図１０の合成音像１０２（図１２における合成音像１２１に対応）を、これらの変数を用いて仮想音源に割り当てる方法について説明する。

まず、ｋ番目の合成音像の方向θ^（ｋ）が数式(29)によって推定され、例えばθ^（ｋ）＝π／１５［ｒａｄ］であったとする。そして、仮想音源が５つの場合、図１２に示すように合成音像１２１は左から数えて３番目の仮想音源１１２ｃと４番目の仮想音源１１２ｄの間に位置することになる。また、仮想音源が５つである場合、３番目の仮想音源１１２ｃと４番目の仮想音源１１２ｄの間について、三角関数を用いた単純な幾何的計算により、φ_０≒０.１２１［ｒａｄ］となり、ｋ番目の線スペクトルにおけるφをφ^（ｋ）とすると、φ^（ｋ）＝θ^（ｋ）−φ_０≒０.０８８［ｒａｄ］となる。このようにして、各線スペクトルにおける相関信号によって生じる合成音像の方向を、それを挟む２つの仮想音源の方向からの相対的な角度で表す。そして上述したように、その２つの仮想音源１１２ｃ、１１２ｄでその合成音像を生じさせることを考える。そのためには、２つの仮想音源１１２ｃ、１１２ｄからの出力音声信号の音圧バランスを調整すればよく、その調整方法については、再び数式(29)として利用した立体音響におけるサインの法則を用いる。

ここで、ｋ番目の線スペクトルにおける相関信号によって生じる合成音像を挟む２つの仮想音源１１２ｃ、１１２ｄのうち、３番目の仮想音源１１２ｃに対するスケーリング係数をｇ_１、４番目の仮想音源１１２ｄに対するスケーリング係数をｇ_２とすると、３番目の仮想音源１１２ｃからはｇ_１・ｅｓｔ′（Ｓ（ｋ））、４番目の仮想音源１１２ｄからはｇ_２・ｅｓｔ′（Ｓ（ｋ））の音声信号を出力することになる。そして、ｇ_１、ｇ_２は立体音響におけるサインの法則により、

を満たせばよい。

一方、３番目の仮想音源１１２ｃと４番目の仮想音源１１２ｄからの電力の合計が、元の２ｃｈステレオの相関信号の電力と等しくなるようにｇ_１、ｇ_２を正規化すると、
ｇ_１ ^２＋ｇ_２ ^２＝１＋［α^（ｋ）］^２ (31)
となる。

これらを連立させることで、数式(32)が求められる。

この数式(32)に上述のφ^（ｋ）、φ_０を代入することによって、ｇ_１、ｇ_２を算出する。このようにして算出したスケーリング係数に基づき、上述したように３番目の仮想音源１１２ｃにはｇ_１・ｅｓｔ′（Ｓ（ｋ））の音声信号を、４番目の仮想音源１１２ｄからはｇ_２・ｅｓｔ′（Ｓ（ｋ））の音声信号を割り当てる。そして、これも上述したように、無相関信号は両端の仮想音源１１２ａ、１１２ｅに割り当てられる。すなわち、１番目の仮想音源１１２ａにはｅｓｔ′（Ｎ_Ｌ（ｋ））を、５番目の仮想音源１１２ｅにはｅｓｔ′（Ｎ_Ｒ（ｋ））を割り当てる。

この例とは異なり、もし合成音像の推定方向が１番目と２番目の仮想音源の間であった場合には、１番目の仮想音源にはｇ_１・ｅｓｔ′（Ｓ（ｋ））とｅｓｔ′（Ｎ_Ｌ（ｋ））の両方が割り当てられることになる。また、もし合成音像の推定方向が４番目と５番目の仮想音源の間であった場合には、５番目の仮想音源にはｇ_２・ｅｓｔ′（Ｓ（ｋ））とｅｓｔ′（Ｎ_Ｒ（ｋ））の両方が割り当てられることになる。

なお、ここでは、仮想音源が図１１のように直線上に並んでいる場合について説明したが、図１３で受聴者と左右のスピーカと仮想音源との位置関係の他の例を示すように、仮想音源１３１ａ〜１３１ｅを、図７におけるスピーカ配置の円（図１３注の破線で示す円）と同心円の円弧上に並べた場合についても、例えばその中心点に受聴者１３２を配置することによって、上述した場合と同様に、仮想音源への信号割り当てが可能である。

以上、図６のステップＳ６２における判定処理で図８における左フロントスピーカ７１と右フロントスピーカ７２のペアに着目した場合について、説明してきた。この仮想音源割り当てにより、左フロントスピーカ７１と右フロントスピーカ７２の音声信号のｋ番目の線スペクトルについては図１１の仮想音源１１２ａ〜１１２ｅ、あるいは、図１３の仮想音源１３１ａ〜１３１ｅに割り当てられたが、図８における左サラウンドスピーカ７４と右サラウンドスピーカ７５の音声信号それぞれのｋ番目の線スペクトルについては、まだ割り当てが行われていない。

それらの割り当てについて図１４を参照して説明する。図１４は、受聴者と左右のスピーカ及び左右のサラウンドスピーカと仮想音源との位置関係の例を説明するための模式図である。それらの割り当ては、図１４に示すように、左サラウンドスピーカ７４の音声信号のｋ番目の線スペクトルは、受聴者１４２から見たときの左サラウンドスピーカ７４と同じ方向の仮想音源１４１ａに割り当てる。同様に、右サラウンドスピーカ７５の音声信号のｋ番目の線スペクトルは、受聴者１４２から見たときの右サラウンドスピーカ７５と同じ方向の仮想音源１４１ｂに割り当てる。

以上のようにして、ステップＳ６５における、ｋ番目の線スペクトルについて、４つのチャネルの、仮想音源への割り当てが行われる。ここでは、図６におけるステップＳ６２の判定処理の結果、図８における左フロントスピーカ７１と右フロントスピーカ７２に着目して相関信号と無相関信号の分離処理を行ったが、ステップＳ６２の判定処理の結果、着目する対象が異なることもある。そのような場合について、図１５〜図１７を参照して説明する。図１５〜図１７は、受聴者と左右のスピーカ及び左右のサラウンドスピーカと仮想音源との位置関係の他の例を説明するための模式図である。

ステップＳ６２の判定処理の結果、例えば左フロントスピーカ７１と左サラウンドスピーカ７４に着目するという結果になった場合は、図１５に示すように、左フロントスピーカ７１と左サラウンドスピーカ７４についてのｋ番目の線スペクトルの相関信号と無相関信号が仮想音源１５１ａ〜１５１ｅに割り当てられ、右フロントスピーカ７２のｋ番目の線スペクトルが仮想音源１５１ｆに、右サラウンドスピーカ７５のｋ番目の線スペクトルが仮想音源１５１ｇに、それぞれ割り当てられる。

着目するペアが他のペアとなった場合にも同様である。左サラウンドスピーカ７４と右サラウンドスピーカ７５に着目するという結果になった場合、図１６に示すように、左サラウンドスピーカ７４と右サラウンドスピーカ７５についてのｋ番目の線スペクトルの相関信号と無相関信号が仮想音源１６１ａ〜１６１ｅに割り当てられ、左フロントスピーカ７１のｋ番目の線スペクトルが仮想音源１６１ｆに、右サラウンドスピーカ７５のｋ番目の線スペクトルが仮想音源１６１ｇに、それぞれ割り当てられる。また、右サラウンドスピーカ７５と右フロントスピーカ７２に着目するという結果になった場合、図１７に示すように、右サラウンドスピーカ７５と右フロントスピーカ７２についてのｋ番目の線スペクトルの相関信号と無相関信号が仮想音源１７１ａ〜１７１ｅに割り当てられ、左サラウンドスピーカ７４のｋ番目の線スペクトルが仮想音源１６１ｆに、左フロントスピーカ７１のｋ番目の線スペクトルが仮想音源１６１ｇに、それぞれ割り当てられる。

上述のような処理を、ステップＳ６１ａ，Ｓ６１ｂのループにより全ての線スペクトルについて行う。例えば、２５６点の離散フーリエ変換を行った場合は１〜１２７番目の線スペクトルまで、５１２点の離散フーリエ変換を行った場合は１〜２５５番目の線スペクトルまで、セグメントの全点（１０２４点）について離散フーリエ変換を行った場合は１〜５１１番目の線スペクトルまで、となる。

その結果、図１８に示すような仮想音源１８１の数をＪ（この例ではＪ＝１６）とすると、各仮想音源（出力チャネル）に対する周波数領域の出力音声信号Ｙ_１（ｋ）、・・・、Ｙ_Ｊ（ｋ）が求まる。これら出力が、図５における分離抽出部５３の出力結果となる。

ここで、図１８は、左右のスピーカ及び左右のサラウンドスピーカと全ての仮想音源との位置関係の例を説明するための模式図で、図１９は図１８とは異なる例を説明するための模式図である。図１８の例では、１６個の仮想音源１８１を図７における各スピーカ７１〜７５を結ぶ円と同心円周上に配置したが、図１９の例のように、１６個の仮想音源１９１を四角形（この例では台形）上に並ぶように配置してもよい。図１９の例は、４つの辺のそれぞれにおいて仮想音源１９１が直線上に並ぶような配置例であり、図１１における仮想音源配置の場合を各辺毎に組み合わせたものである。

また、ここでは例として５.１ｃｈサラウンドシステムの信号の変換処理について説明したが、６.１ｃｈや７.１ｃｈサラウンドシステムでも、同様に変換処理が可能である。この点について図２０及び図２１を参照して説明する。図２０は、６.１ｃｈサラウンドシステムのスピーカ群において、ＬＦＥを除いた６つのスピーカのうち、ダウンミックス後の出力対象スピーカの配置例を示す図である。図２１は、７.１ｃｈサラウンドシステムのスピーカ群において、ＬＦＥを除いた７つのスピーカのうち、ダウンミックス後の出力対象スピーカの配置例を示す図である。

６.１ｃｈシステムにおいても、センター（Ｃ）チャネルをＬチャネルとＲチャネルにダウンミックスし、Ｌ／Ｒ／ＬＳ／ＲＳ／ＣＢの５ｃｈのうち、図２０において矢印で示すような各チャネルのペアを考慮して、前述と同様の処理を行えばよい。７.１ｃｈシステムにおいても、センター（Ｃ）チャネルをＬチャネルとＲチャネルにダウンミックスし、Ｌ／Ｒ／ＬＳ／ＲＳ／ＬＢ／ＲＢの６ｃｈのうち、図２１において矢印で示すような各チャネルのペアを考慮して、前述と同様の処理を行えばよい。

このように、入力音声信号は、５.１ｃｈあるいは６.１ｃｈあるいは７.１ｃｈサラウンド音響信号であり、ダウンミックスする１つのチャネルは前方中央のチャネルの入力音声信号であることが好ましい。これは、前方中央のチャネルは上述したように左右のフロントチャネルとの間で音圧パニングを行っており、本発明の効果が顕著に得られるためである。なお、サブウーファーの音声信号は通常、別に処理されるため、図５等で説明したように入力音声信号はそれらのいずれかのサラウンド音響信号からサブウーファーのチャネルを除いた音響信号と捉えることもできる。そして、このようなサラウンド音声信号を、センターチャネルをダウンミックスした上で、線スペクトル毎または小帯域毎に、隣合うチャネルのペアのうち、着目するペアを判定し、着目するペアについてのみ相関信号／無相関信号分離を行うことにより、左右のフロントチャネルとの間で音圧パニングを行っていたとしても、サラウンド音響信号を、波面合成再生方式で適切な音像として再生することができる。また、これらのサラウンド音響信号に限らず、９.１ｃｈなどのサラウンド音響信号を入力音声信号として適用することもできる。

以上のようにして図５における分離抽出部５３の処理がなされる。
次に、逆変換部５４の処理がなされる。逆変換部５４は、分離抽出部５３で抽出された上記着目した組み合わせについての相関信号（またはその相関信号及び無相関信号）に対して、もしくはその相関信号から生成された音声信号に対して、もしくはその相関信号及びその無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施す。また、逆変換部５４は、上記着目した組み合わせ以外のチャネルについて変換部５２で変換された音声信号に対しても、離散フーリエ逆変換を施す。

具体的には、逆変換部５４では、分離抽出部５３から出力された各出力チャネルを離散フーリエ逆変換することによって、時間領域の出力音声信号ｙ′_Ｊ（ｍ）を求める。ここで、ＤＦＴ^−１は離散フーリエ逆変換を表す。なお、ここでは、上記着目した組み合わせについての相関信号及び無相関信号に対して離散フーリエ逆変換を施すとともに、上記着目した組み合わせ以外のチャネルについて変換部５２で変換された音声信号に対して離散フーリエ逆変換を施す例を挙げているが、他の場合も同様である。

ｙ′_Ｊ（ｍ）＝ＤＦＴ^−１（Ｙ_Ｊ（ｋ））（１≦ｊ≦Ｊ） (33)
ここで、数式(2)、(3)で説明したように、離散フーリエ変換した信号は、窓関数乗算後の信号であったため、逆変換して得られた信号ｙ′_Ｊ（ｍ）も窓関数が乗算された状態になっている。したがって、そうして得られた信号に、数式(1)に示す窓関数を再度乗算し、１つ前に処理したセグメントの先頭から１／４セグメント長ずつずらしながら出力バッファに加算していくことにより変換後のデータを得る。

次に、図２２〜図２５を参照して各スピーカに対する音声信号の生成について説明する。図２２は、非特許文献１に記載の技術において、１つの直線上に並べたスピーカ群の背後に仮想音源を設けた場合に、各仮想音源に対応する音を出力するスピーカについて説明するための模式図である。図２３〜図２５は、図４の音声データ再生装置におけるスピーカ群の配置例を説明するための模式図である。

図５における音声出力信号生成部５５では、逆変換部５４で生成した各仮想音源の音声信号を、上述の非特許文献１に記載の技術に則って、各スピーカに対する音声信号を生成する。ただし、非特許文献１に記載の技術では、図２２に示すように、１つの直線上に並べたスピーカ群（スピーカアレイ）２２１の背後に仮想音源２２２ａ〜２２２ｅがある場合に、「どのスピーカが、どの仮想音源に対応する音を出力するか」を判定するために、仮想音源（仮想音源２２２ｂについて図示）からスピーカアレイ２２１の配列方向を示す直線に下ろした垂線と、仮想音源２２２ｂとスピーカを結んだ線とがなす角度ψが、ある一定値より小さい場合に、そのスピーカはその仮想音源２２２ｂの音を出力する、という方法が採用されている。

しかし、図１３〜図１７で適用した仮想音源の配置例や図１８や図１９で説明した仮想音源の配置例では、少なくとも一部で一直線上に並ばないように配列させたスピーカ群が必要であり、例えば図２３で例示するような各仮想音源２３２と各スピーカ２３１の配置が必要となる。そのため、非特許文献１に記載の方法では、ある仮想音源（例えば仮想音源２３２ａ）の音が、それと対面するスピーカ群２３１ｂからも出力されてしまい、音像定位に悪影響を及ぼす。

したがって、例えば図２３の仮想音源２３２ａの音を、スピーカ群２３１のうちどのスピーカが出力するかどうかの判定には、各仮想音源２３２を配置した円の中心点２３４と仮想音源２３２ａとを結んだ直線と、判定するスピーカ（例えば図２３のスピーカ２３１ａ）と中心点２３４とを結んだ直線とがなす角度ψａが、ある一定値より小さい場合に、スピーカ２３１ａは、仮想音源２３２ａの音を出力すると判定する。これを全てのスピーカと全ての仮想音源の組み合わせに対して行うことによって、図２３のような配置をする場合でも各スピーカの出力する音声信号を決定することが可能となる。

このようにして、音声信号処理部４３は、マルチチャネル再生方式の５つ以上のチャネルの入力音声信号を、仮想的に存在する音源である仮想音源に対する音像としてスピーカ群により再生させるために変換することができる。ここで、図２３で例示し後述の図２４、図２５で例示するように、スピーカ群は、少なくとも一部で一直線上に並ばないように配列されており、仮想音源とスピーカそれぞれと中心点とを結んだ直線がなす角度によって、出力対象とするスピーカを決定する。

また、図２４で例示するように、スピーカ群２４１を円周上に並べた場合についても、同じ方法を用いることによって、各仮想音源２４２に対する音声信号を決定することが可能となる。

また、例えば図８における左サラウンドスピーカ７４と右サラウンドスピーカ７５のペアには着目しないという制約をつけた上で、前述の処理を行うと、音声信号が割り当てられる仮想音源は、図２５に示すような仮想音源２５２（この例では１３個の仮想音源２５２）に限定され、それらの仮想音源２５２を、全周囲ではなく図２５に示すように三方のみを囲う配置のスピーカ群２５１で出力することも可能である。

以上、説明したように、音声信号処理部４３でなした処理は、着目ペアについてのみ相関信号・無相関信号に分離した上で仮想音源（または実在のスピーカ）への割り当てを行う処理であり、この処理は、同じ線スペクトルあるいは小帯域に属する音像は１つであるといった仮定を置くことを意味している。そして、その仮定では正確な音像位置を再現するための変換処理が可能となる。よって、このような変換処理により、マルチチャネル再生方式の５つ以上のチャネルの入力音声信号を、スピーカ群を用いて再生する際に適切な音像を提供できる音声信号に変換することができる。

特に、本発明では着目ペアの判定を、電力の大きさを用いて、もしくは電力の大きさ及び相関係数（つまり相関係数の大きさ）を用いて行っている。そのため、ダウンミックス元のチャネルの信号（この例ではＣ信号）に含まれる周波数成分については、ダウンミックス先のペアの電力が他のペアの電力に比べて大きくなり、ダウンミックス先のペアが着目ペアに決定される。したがって、センターチャネル信号と左フロントチャネル信号との間、あるいは、センターチャネル信号と右フロントチャネル信号との間で、音圧パニングを行っている場合にも、適切な音像に変換することができる。無論、他の周波数成分（この例では、Ｃ信号に含まれない周波数成分であって、元のＬ、Ｒ、ＬＳ、ＲＳの信号に含まれる周波数成分）については、他のペアが選択された結果、同様に適切な音像に変換することができる。

次に、本発明の実装について簡単に説明する。本発明は、例えばホームシアターシステムやミニシアターシステムなど、映像の伴う装置に利用できる。図２６は、図４の音声データ再生装置を備えた映像表示システムの構成例を示す図である。図２６で示す部屋２６０のように、本発明に係る音声データ再生装置は、部屋の壁の三方（あるいは四方）にスピーカ群２６１〜２６３を並べて取り付けたスピーカシステムに適用することができる。そして、図２６で例示するように、テレビ装置等の映像表示装置２６４にこのスピーカシステムを接続し、映像表示装置２６４で表示させた映像に対応する音声をスピーカ群２６１〜２６３から出力することもできる。

さらに、本発明に係る音声信号変換装置やそれを備えた音声データ再生装置は、カーオーディオに適用することもできる。図２７は、図４の音声データ再生装置を備えた自動車の構成例を示す図である。図２７で示す自動車２７０のように、車内のダッシュボード２７３や側方２７４、あるいは図示しないが後方に、スピーカを曲線状に並べたスピーカ群２７１やスピーカ群２７２を埋め込むこともできる。

また、本発明で適用可能な波面合成再生方式としては、上述したようにスピーカアレイ（複数のスピーカ）を備えて仮想音源に対する音像としてそれらのスピーカから出力するようにする方式であればよく、非特許文献１に記載のＷＦＳ方式の他、人間の音像知覚に関する現象としての先行音効果（ハース効果）を利用した方式など様々な方式が挙げられる。ここで、先行音効果とは、同一の音声を複数の音源から再生し、音源それぞれから聴取者に到達する各音声に小さな時間差がある場合、先行して到達した音声の音源方向に音像が定位する効果を指し示したものである。この効果を利用すれば、仮想音源位置に音像を知覚させることが可能となる。ただし、その効果だけで音像を明確に知覚させることは難しい。ここで、人間は音圧を最も高く感じる方向に音像を知覚するという性質も持ち合わせている。したがって、音声データ再生装置において、上述の先行音効果と、この最大音圧方向知覚の効果とを組み合わせ、これにより、少ない数のスピーカでも仮想音源の方向に音像を知覚させることが可能になる。

以上、本発明に係る音声信号変換装置について、主にマルチチャネル再生方式用の音声信号に対して波面合成再生方式で再生させるための音声信号に変換することを前提にして説明したが、本発明は、最初に記述したのように、仮想ではない実在する音源（複数のスピーカ）に対する音像として各スピーカにより再生させるための音声信号に変換する場合などにも同様に適用できる。

また、例えば図５で例示した音声信号処理部４３における各構成要素など、本発明に係る音声信号変換装置の各構成要素やその装置を備えた音声データ再生装置の各構成要素は、例えばマイクロプロセッサ（またはＤＳＰ：Digital Signal Processor）、メモリ、バス、インターフェイス、周辺装置などのハードウェアと、これらのハードウェア上にて実行可能なソフトウェアとにより実現できる。上記ハードウェアの一部または全部は集積回路／ＩＣ（Integrated Circuit）チップセットとして搭載することができ、その場合、上記ソフトウェアは上記メモリに記憶しておければよい。また、本発明の各構成要素の全てをハードウェアで構成してもよく、その場合についても同様に、そのハードウェアの一部または全部を集積回路／ＩＣチップセットとして搭載することも可能である。

また、上述した様々な構成例における機能を実現するためのソフトウェアのプログラムコードを記録した記録媒体を、音声信号変換装置となる汎用コンピュータ等の装置に供給し、その装置内のマイクロプロセッサまたはＤＳＰによりプログラムコードが実行されることによっても、本発明の目的が達成される。この場合、ソフトウェアのプログラムコード自体が上述した様々な構成例の機能を実現することになり、このプログラムコード自体や、プログラムコードを記録した記録媒体（外部記録媒体や内部記憶装置）であっても、そのコードを制御側が読み出して実行することで、本発明を構成することができる。外部記録媒体としては、例えばＣＤ−ＲＯＭまたはＤＶＤ−ＲＯＭなどの光ディスクやメモリカード等の不揮発性の半導体メモリなど、様々なものが挙げられる。内部記憶装置としては、ハードディスクや半導体メモリなど様々なものが挙げられる。また、プログラムコードはインターネットからダウンロードして実行することや、放送波から受信して実行することもできる。

以上、本発明に係る音声信号変換装置について説明したが、処理の流れをフロー図で例示したように、本発明は、マルチチャネル再生方式の５つ以上のチャネルの入力音声信号を、スピーカ群により再生させるために変換する音声信号変換方法としての形態も採り得る。

この音声信号変換方法は、次のダウンミックスステップ、変換ステップ、分離抽出ステップ、及び逆変換ステップを有する。ダウンミックスステップは、ダウンミックス部が、上記５つ以上のチャネルのうち１つの特定チャネルを、その１つの特定チャネルに隣合う２つのチャネルにダウンミックスするステップである。変換ステップは、変換部が、上記特定チャネルを除いた、ダウンミックス後の２つのチャネルと残りのチャネルに対し、離散フーリエ変換を施すステップである。分離抽出ステップは、分離抽出部が、周波数毎または周波数領域毎に、変換ステップで変換された４つ以上のチャネルにおける隣合う２つのチャネルの組み合わせのうち着目した組み合わせについて、周波数についての相関信号と無相関信号を分離、抽出するステップである。逆変換ステップは、逆変換部が、分離抽出ステップで抽出された上記着目した組み合わせについての相関信号またはその相関信号及び無相関信号に対して、もしくはその相関信号から生成された音声信号に対して、もしくはその相関信号及びその無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施すとともに、上記着目した組み合わせ以外のチャネルについて変換ステップで変換された音声信号に対して、離散フーリエ逆変換を施すステップである。そして、分離抽出ステップは、周波数毎または周波数領域毎に、隣合う２つのチャネルの組み合わせのうちどの組み合わせに着目するかを、各チャネルの電力の大きさに基づいて判定する。その他の応用例については、音声信号変換装置について説明した通りであり、その説明を省略する。

なお、上記プログラムコード自体は、換言すると、この音声信号変換方法をコンピュータに実行させるためのプログラムである。すなわち、このプログラムは、コンピュータに、上記５つ以上のチャネルのうち１つの特定チャネルを、その１つの特定チャネルに隣合う２つのチャネルにダウンミックスするダウンミックスステップと、上記特定チャネルを除いた、ダウンミックス後の２つのチャネルと残りのチャネルに対し、離散フーリエ変換を施す変換ステップと、周波数毎または周波数領域毎に、変換ステップで変換された４つ以上のチャネルにおける隣合う２つのチャネルの組み合わせのうち着目した組み合わせについて、周波数についての相関信号と無相関信号を分離、抽出する分離抽出ステップと、分離抽出ステップで抽出された上記着目した組み合わせについての相関信号またはその相関信号及び無相関信号に対して、もしくはその相関信号から生成された音声信号に対して、もしくはその相関信号及びその無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施すとともに、上記着目した組み合わせ以外のチャネルについて変換ステップで変換された音声信号に対して、離散フーリエ逆変換を施す逆変換ステップと、を実行させるためのプログラムである。ここで、分離抽出ステップは、周波数毎または周波数領域毎に、隣合う２つのチャネルの組み合わせのうちどの組み合わせに着目するかを、各チャネルの電力の大きさに基づいて判定する。その他の応用例については、音声信号変換装置について説明した通りであり、その説明を省略する。

以上説明したように、本発明に係る音声信号変換装置は、マルチチャネル再生方式の５つ以上のチャネルの入力音声信号を、スピーカ群により再生させるために変換する音声信号変換装置であって、前記５つ以上のチャネルのうち１つの特定チャネルを、該１つの特定チャネルに隣合う２つのチャネルにダウンミックスするダウンミックス部と、前記特定チャネルを除いた、ダウンミックス後の前記２つのチャネルと残りのチャネルに対し、離散フーリエ変換を施す変換部と、周波数毎または周波数領域毎に、前記変換部で変換された４つ以上のチャネルにおける隣合う２つのチャネルの組み合わせのうち着目した組み合わせについて、周波数についての相関信号と無相関信号を分離、抽出する分離抽出部と、該分離抽出部で抽出された前記着目した組み合わせについての相関信号または該相関信号及び無相関信号に対して、もしくは前記相関信号から生成された音声信号に対して、もしくは前記相関信号及び前記無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施すとともに、前記着目した組み合わせ以外のチャネルについて前記変換部で変換された音声信号に対して、離散フーリエ逆変換を施す逆変換部と、を備え、前記分離抽出部は、周波数毎または周波数領域毎に、前記隣合う２つのチャネルの組み合わせのうちどの組み合わせに着目するかを、各チャネルの電力の大きさに基づいて判定することを特徴としたものである。これにより、マルチチャネル再生方式の５つ以上のチャネルの入力音声信号を、スピーカ群を用いて波面合成再生方式などの再生方式で再生する際に適切な音像を提供できる音声信号に変換することができる。

前記分離抽出部は、周波数毎または周波数領域毎に、前記隣合う２つのチャネルの組み合わせのうちどの組み合わせに着目するかを、各チャネルの電力の大きさの和または積に基づいて、和または積が大きい組み合わせに着目するように判定するようにしてもよい。電力の大きさの和に基づいて判定すればよく、もしくは電力の大きさの積に基づいて判定してもよい。これにより、電力の大きさに基づく判定が可能になる。
前記分離抽出部は、周波数毎または周波数領域毎に、前記隣合う２つのチャネルの組み合わせのうちどの組み合わせに着目するかを、一番大きな電力をもつチャネルと、該チャネルに隣合う２つのチャネルのうち大きい電力をもつチャネルとの組み合わせに着目するように判定するようにしてもよい。これにより、電力の基づく判定が可能になる。

前記分離抽出部は、周波数毎または周波数領域毎に、前記隣合う２つのチャネルの組み合わせのうちどの組み合わせに着目するかを、前記隣合う２つのチャネルの組み合わせについての電力の大きさと相関係数との乗算結果に基づいて判定するようにしてもよい。このように相関係数も併せて判定に用いることにより、判定の精度を上げることができる。

前記５つ以上のチャネルの入力音声信号は、５.１ｃｈあるいは６.１ｃｈあるいは７.１ｃｈのサラウンド音響信号であり、前記ダウンミックス部で前記ダウンミックスする１つのチャネルは前方中央のチャネルの入力音声信号であってもよい。これにより、左右のフロントチャネルとの間で音圧パニングを行っていたとしても、サラウンド音響信号を、波面合成再生方式で適切な音像として再生することができる。

本発明の第４の技術手段は、第１〜第３のいずれか１項の技術手段において、前記音声信号変換装置は、前記５つ以上のチャネルの入力音声信号を、仮想的に存在する音源である仮想音源に対する音像として前記スピーカ群により再生させるために変換し、該スピーカ群は、少なくとも一部で一直線上に並ばないように配列されており、前記仮想音源と前記スピーカそれぞれと中心点とを結んだ直線がなす角度によって、出力対象とするスピーカを決定するようにしてもよい。これにより、マルチチャネル再生方式の５つ以上のチャネルの入力音声信号を、スピーカ群を用いて波面合成再生方式で再生する際に適切な音像を提供できる音声信号に変換することができる。

本発明に係る音声信号変換方法は、マルチチャネル再生方式の５つ以上のチャネルの入力音声信号を、スピーカ群により再生させるために変換する音声信号変換方法であって、ダウンミックス部が、前記５つ以上のチャネルのうち１つの特定チャネルを、該１つの特定チャネルに隣合う２つのチャネルにダウンミックスするダウンミックスステップと、変換部が、前記特定チャネルを除いた、ダウンミックス後の前記２つのチャネルと残りのチャネルに対し、離散フーリエ変換を施す変換ステップと、分離抽出部が、周波数毎または周波数領域毎に、前記変換ステップで変換された４つ以上のチャネルにおける隣合う２つのチャネルの組み合わせのうち着目した組み合わせについて、周波数についての相関信号と無相関信号を分離、抽出する分離抽出ステップと、逆変換部が、前記分離抽出ステップで抽出された前記着目した組み合わせについての相関信号または該相関信号及び無相関信号に対して、もしくは前記相関信号から生成された音声信号に対して、もしくは前記相関信号及び前記無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施すとともに、前記着目した組み合わせ以外のチャネルについて前記変換ステップで変換された音声信号に対して、離散フーリエ逆変換を施す逆変換ステップと、を含み、前記分離抽出ステップは、周波数毎または周波数領域毎に、前記隣合う２つのチャネルの組み合わせのうちどの組み合わせに着目するかを、各チャネルの電力の大きさに基づいて判定することを特徴としたものである。これにより、マルチチャネル再生方式の５つ以上のチャネルの入力音声信号を、スピーカ群を用いて波面合成再生方式などの再生方式で再生する際に適切な音像を提供できる音声信号に変換することができる。

本発明に係るプログラムは、マルチチャネル再生方式の５つ以上のチャネルの入力音声信号を、スピーカ群により再生させるために変換するプログラムであって、該プログラムは、コンピュータに、前記５つ以上のチャネルのうち１つの特定チャネルを、該１つの特定チャネルに隣合う２つのチャネルにダウンミックスするダウンミックスステップと、前記特定チャネルを除いた、ダウンミックス後の前記２つのチャネルと残りのチャネルに対し、離散フーリエ変換を施す変換ステップと、周波数毎または周波数領域毎に、前記変換ステップで変換された４つ以上のチャネルにおける隣合う２つのチャネルの組み合わせのうち着目した組み合わせについて、周波数についての相関信号と無相関信号を分離、抽出する分離抽出ステップと、該分離抽出ステップで抽出された前記着目した組み合わせについての相関信号または該相関信号及び無相関信号に対して、もしくは前記相関信号から生成された音声信号に対して、もしくは前記相関信号及び前記無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施すとともに、前記着目した組み合わせ以外のチャネルについて前記変換ステップで変換された音声信号に対して、離散フーリエ逆変換を施す逆変換ステップと、を実行させるためのプログラムであり、前記分離抽出ステップは、周波数毎または周波数領域毎に、前記隣合う２つのチャネルの組み合わせのうちどの組み合わせに着目するかを、各チャネルの電力の大きさに基づいて判定することを特徴とする。これにより、本発明の機能をプログラムとして提供することができる。

本発明に係る記録媒体は、上記のプログラムを記録したコンピュータ読み取り可能な記録媒体である。これにより、上記プログラムを記録媒体で流通させることができる。

４０…音声データ再生装置、４１…デコーダ、４２…音声信号抽出部、４３…音声信号処理部、４４…Ｄ／Ａコンバータ、４５…増幅器群、４６…スピーカ群、４７…遅延処理部、４８…増幅器、４９…サブウーファー、５１…Ｃ信号ダウンミックス部、５２…変換部、５３…分離抽出部、５４…逆変換部、５５…音声出力信号生成部。

Claims

マルチチャネル再生方式の５つ以上のチャネルの入力音声信号を、スピーカ群により再生させるために変換する音声信号変換装置であって、
前記５つ以上のチャネルのうち１つの特定チャネルを、該１つの特定チャネルに隣合う２つのチャネルにダウンミックスするダウンミックス部と、
前記特定チャネルを除いた、ダウンミックス後の前記２つのチャネルと残りのチャネルに対し、離散フーリエ変換を施す変換部と、
周波数毎または周波数領域毎に、前記変換部で変換された４つ以上のチャネルにおける隣合う２つのチャネルの組み合わせのうち着目した組み合わせについて、周波数についての相関信号と無相関信号を分離、抽出する分離抽出部と、
該分離抽出部で抽出された前記着目した組み合わせについての相関信号または該相関信号及び無相関信号に対して、もしくは前記相関信号から生成された音声信号に対して、もしくは前記相関信号及び前記無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施すとともに、前記着目した組み合わせ以外のチャネルについて前記変換部で変換された音声信号に対して、離散フーリエ逆変換を施す逆変換部と、を備え、
前記分離抽出部は、周波数毎または周波数領域毎に、前記隣合う２つのチャネルの組み合わせのうちどの組み合わせに着目するかを、各チャネルの電力の大きさに基づいて判定することを特徴とする音声信号変換装置。
前記分離抽出部は、周波数毎または周波数領域毎に、前記隣合う２つのチャネルの組み合わせのうちどの組み合わせに着目するかを、前記隣合う２つのチャネルの組み合わせについての電力の大きさと相関係数との乗算結果に基づいて判定することを特徴とする請求項１に記載の音声信号変換装置。
前記５つ以上のチャネルの入力音声信号は、５.１ｃｈあるいは６.１ｃｈあるいは７.１ｃｈのサラウンド音響信号であり、
前記ダウンミックス部で前記ダウンミックスする１つのチャネルは前方中央のチャネルであることを特徴とする請求項１または２に記載の音声信号変換装置。
前記音声信号変換装置は、前記５つ以上のチャネルの入力音声信号を、仮想的に存在する音源である仮想音源に対する音像として前記スピーカ群により再生させるために変換し、
該スピーカ群は、少なくとも一部で一直線上に並ばないように配列されており、
前記仮想音源と前記スピーカそれぞれと中心点とを結んだ直線がなす角度によって、出力対象とするスピーカを決定することを特徴とする請求項１〜３のいずれか１項に記載の音声信号変換装置。
マルチチャネル再生方式の５つ以上のチャネルの入力音声信号を、スピーカ群により再生させるために変換する音声信号変換方法であって、
ダウンミックス部が、前記５つ以上のチャネルのうち１つの特定チャネルを、該１つの特定チャネルに隣合う２つのチャネルにダウンミックスするダウンミックスステップと、
変換部が、前記特定チャネルを除いた、ダウンミックス後の前記２つのチャネルと残りのチャネルに対し、離散フーリエ変換を施す変換ステップと、
分離抽出部が、周波数毎または周波数領域毎に、前記変換ステップで変換された４つ以上のチャネルにおける隣合う２つのチャネルの組み合わせのうち着目した組み合わせについて、周波数についての相関信号と無相関信号を分離、抽出する分離抽出ステップと、
逆変換部が、前記分離抽出ステップで抽出された前記着目した組み合わせについての相関信号または該相関信号及び無相関信号に対して、もしくは前記相関信号から生成された音声信号に対して、もしくは前記相関信号及び前記無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施すとともに、前記着目した組み合わせ以外のチャネルについて前記変換ステップで変換された音声信号に対して、離散フーリエ逆変換を施す逆変換ステップと、を含み、
前記分離抽出ステップは、周波数毎または周波数領域毎に、前記隣合う２つのチャネルの組み合わせのうちどの組み合わせに着目するかを、各チャネルの電力の大きさに基づいて判定することを特徴とする音声信号変換方法。