JP4810621B1

JP4810621B1 - 音声信号変換装置、方法、プログラム、及び記録媒体

Info

Publication number: JP4810621B1
Application number: JP2010199907A
Authority: JP
Inventors: 純生佐藤
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2010-09-07
Filing date: 2010-09-07
Publication date: 2011-11-09
Anticipated expiration: 2030-09-07
Also published as: WO2012032845A1; JP2012060301A

Abstract

【課題】３つのチャネルの入力音声信号を、スピーカ群を用いて波面合成再生方式などの再生方式で再生する際に、適切な音像を提供できる音声信号に変換する。
【解決手段】音声信号変換装置（音声信号処理部６３で例示）は、３つのうち２つのチャネルの入力音声信号について、離散フーリエ変換を施した後に、相関信号を抽出する相関信号抽出部７２ｂと、抽出された相関信号または相関信号及び無相関信号、もしくは相関信号から生成された音声信号、もしくは相関信号及び無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施す逆変換部７２ｃと、離散フーリエ逆変換後の音声信号に残り１つのチャネルの入力音声信号を加算する加算部７４ａと、を備える。相関信号抽出部７２ｂは、２つのチャネルの音声信号の相関係数を算出する際に、２つのチャネルの音声信号と残り１つのチャネルの入力音声信号との相関関係に応じて相関係数を変化させる。
【選択図】図７

Description

本発明は、マルチチャネル再生方式用の音声信号を変換するための音声信号変換装置、方法、プログラム、及び記録媒体に関する。

従来から提案されている音響再生方式には、ステレオ（２ｃｈ）方式、５.１ｃｈサラウンド方式（ＩＴＵ−ＲＢＳ.７７５−１）などがあり広く民生用として普及している。２ｃｈ方式とは、図１で模式的に図示したように、左スピーカ１１Ｌと右スピーカ１１Ｒから異なる音声データを発生させる方式である。５.１ｃｈサラウンド方式とは、図２で模式的に図示したように、左フロントスピーカ２１Ｌ、右フロントスピーカ２１Ｒ、それらの間に配置するセンタースピーカ２２Ｃ、左リアスピーカ２３Ｌ、右リアスピーカ２３Ｒ、及び低音域（一般的に２０Ｈｚ〜１００Ｈｚ）専用のサブウーファー２２Ｂに対し、それぞれ異なる音声データを入力して出力する方式である。

また、２ｃｈ方式や５.１ｃｈサラウンド方式の他にも、７.１ｃｈ、９.１ｃｈ、２２.２ｃｈなどさまざまな音響再生方式が提案されている。上述した方式はいずれも、聴取者（受聴者）を中心とする円周上または球面上に各スピーカを配置し、理想的には各スピーカから等距離にある聴取位置（受聴位置）、いわゆるスイートスポットで聴くことが好ましいとされている。例えば２ｃｈ方式ではスイートスポット１２で、５.１ｃｈサラウンド方式ではスイートスポット２４で聴くことが好ましい。スイートスポットで聴くと、音圧のバランスによる合成音像が製作者の意図するところに定位する。逆に、スイートスポット以外の位置で聴くと、一般的に、音像・音質が劣化する。以下、これらの方式を総称してマルチチャネル再生方式と呼ぶ。

一方、マルチチャネル再生方式とは別に、音源オブジェクト指向再生方式もある。この方式は、全ての音が、いずれかの音源オブジェクトが発する音であるとする方式であり、各音源オブジェクト（以下、「仮想音源」と呼ぶ。）が自身の位置情報と音声信号とを含んでいる。音楽コンテンツを例にとると、各仮想音源は、それぞれの楽器の音と楽器が配置されている位置情報とを含む。
そして、音源オブジェクト指向再生方式は、通常、直線状あるいは面状に並べたスピーカ群によって音の波面を合成する再生方式（すなわち波面合成再生方式）により再生される。このような波面合成再生方式のうち、非特許文献１に記載のＷａｖｅＦｉｅｌｄＳｙｎｔｈｅｓｉｓ（ＷＦＳ）方式は、直線状に並べたスピーカ群（以下、スピーカアレイという）を用いる現実的な実装方法の１つとして近年盛んに研究されている。

このような波面合成再生方式は、上述のマルチチャネル再生方式とは異なり、図３で模式的に図示したように、並べられたスピーカ群３１の前のどの位置で聴いている受聴者に対しても、良好な音像と音質を両方同時に提示することができるという特長を持つ。つまり、波面合成再生方式でのスイートスポット３２は図示するように幅広くなっている。
また、ＷＦＳ方式によって提供される音響空間内においてスピーカアレイと対面して音を聴いている受聴者は、実際にはスピーカアレイから放射される音が、スピーカアレイの後方仮想音源から放射されているかのような感覚を受ける。

この波面合成再生方式では、仮想音源を表す入力信号を必要とする。そして、一般的に、１つの仮想音源には１チャネル分の音声信号とその仮想音源の位置情報が含まれることを必要とする。上述の音楽コンテンツを例にとると、例えば楽器毎に録音された音声信号とその楽器の位置情報ということになる。ただし、仮想音源それぞれの音声信号は必ずしも楽器毎である必要はないが、コンテンツ製作者が意図するそれぞれの音の到来方向と大きさが、仮想音源という概念を用いて表現されている必要がある。

特許文献１には、２ｃｈ音声信号を複数のチャネルの音声信号に変換して波面合成再生方式で再生する際の例として、図４で示すような再生方法が提案されている。ここで、図４は、２ｃｈの音声信号を波面合成再生方式で再生する際に、使用するスピーカ群と仮想音源との位置関係の例を説明するための模式図で、図中、４０はこの位置関係を示している。
この再生方法は、位置関係４０で示すように、左右のスピーカ４２ａ，４２ｃへの入力音声信号（つまり左右２ｃｈのステレオ信号）を、一旦、複数個の仮想音源（ここでは５つの仮想音源４３ａ〜４３ｅ）に変換し、それを波面合成再生方式でスピーカアレイ４１により再生するというものである。

欧州特許出願公開第１７６１１１０号明細書

A. J. Berkhout, D. de Vries, and P. Vogel, "Acoustic control by wave field synthesis", J. Acoust. Soc. Am. Volume 93(5), アメリカ合衆国、Acoustical Society of America, May 1993, pp. 2764-2778

一方、前述のマルチチャネル方式の中で、通常、映画コンテンツなどに使用されているのは５.１ｃｈである。したがって、既存の映画コンテンツを波面合成再生方式によって再生するためには、５.１ｃｈの音声信号を変換し仮想音源で表現する必要がある。

しかしながら、特許文献１には５.１ｃｈの音声信号の変換方法については記載されておらず、特許文献１に記載の技術では、５.１ｃｈの音声信号を波面合成再生方式で適切に再生できない。また、特許文献１をはじめとする従来の変換方法では、５.１ｃｈに限らず、７.１ｃｈなど少なくとも３つのチャネルを含むマルチチャネルの音声信号についても、波面合成再生方式で適切に再生できるように変換できない。

また、このことは波面合成再生方式での再生に限ったものではない。つまり、従来の技術では、３つのチャネルの入力音声信号を、複数の仮想音源に対する音像として適切に提供できるような音声信号に変換すること、もしくは実在の音源であるスピーカに対する音像として適切に提供できるような音声信号に変換することができない。

本発明は、上述のような実状に鑑みてなされたものであり、その目的は、３つのチャネルの入力音声信号を、スピーカ群を用いて波面合成再生方式などの再生方式で再生する際に、適切な音像を提供できる音声信号に変換することが可能な音声信号変換装置、方法、プログラム、及び記録媒体を提供することにある。

上述したような課題を解決するために、本発明の第１の技術手段は、３つのチャネルの入力音声信号を、スピーカ群により再生させるために変換する音声信号変換装置であって、前記３つのチャネルのうち２つのチャネルの入力音声信号に離散フーリエ変換を施す変換部と、該変換部で離散フーリエ変換後の２つのチャネルの音声信号について、相関信号を抽出する相関信号抽出部と、該相関信号抽出部で抽出された相関信号または該相関信号及び無相関信号に対して、もしくは前記相関信号から生成された音声信号に対して、もしくは前記相関信号及び前記無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施す逆変換部と、該逆変換部で離散フーリエ逆変換後の音声信号に残り１つのチャネルの入力音声信号を加算する加算部と、を備え、前記相関信号抽出部は、前記２つのチャネルの音声信号の相関係数を算出する際に、該２つのチャネルの音声信号と前記残り１つのチャネルの入力音声信号との相関関係に応じて、相関係数を変化させることを特徴としたものである。

第２の技術手段は、第１の技術手段において、前記２つのチャネルの音声信号と前記残り１つのチャネルの音声信号との前記相関関係は、前記２つのチャネルの音声信号それぞれに対する前記残り１つのチャネルの音声信号との相関係数の値が所定の閾値以上であるか否か、で判断される相関関係であることを特徴としたものである。

第３の技術手段は、第１または第２の技術手段において、前記３つのチャネルの入力音声信号は、５.１ｃｈサラウンド音響信号のうち、前方の左、右、中央の３つのチャネルの入力音声信号であり、前記２つのチャネルの入力音声信号は、前方左右のチャネルの入力音声信号であり、前記残り１つのチャネルの入力音声信号は、前方中央のチャネルの入力音声信号であることを特徴としたものである。

第４の技術手段は、３つのチャネルの入力音声信号を、スピーカ群により再生させるために変換する音声信号変換方法であって、変換部が、前記３つのチャネルのうち２つのチャネルの入力音声信号に離散フーリエ変換を施す変換ステップと、相関信号抽出部が、前記変換ステップで離散フーリエ変換後の２つのチャネルの音声信号について、相関信号を抽出する抽出ステップと、逆変換部が、前記抽出ステップで抽出された相関信号または該相関信号及び無相関信号に対して、もしくは前記相関信号から生成された音声信号に対して、もしくは前記相関信号及び前記無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施す逆変換ステップと、加算部が、前記逆変換ステップで離散フーリエ逆変換後の音声信号に残り１つのチャネルの入力音声信号を加算する加算ステップと、を有し、前記抽出ステップは、前記２つのチャネルの音声信号の相関係数を算出する際に、該２つのチャネルの音声信号と前記残り１つのチャネルの入力音声信号との相関関係に応じて、相関係数を変化させることを特徴としたものである。

第５の技術手段は、３つのチャネルの入力音声信号を、スピーカ群により再生させるために変換するプログラムであって、該プログラムは、コンピュータに、３つのチャネルのうち２つのチャネルの入力音声信号に離散フーリエ変換を施す変換ステップと、該変換ステップで離散フーリエ変換後の２つのチャネルの音声信号について、相関信号を抽出する抽出ステップと、該抽出ステップで抽出された相関信号または該相関信号及び無相関信号に対して、もしくは前記相関信号から生成された音声信号に対して、もしくは前記相関信号及び前記無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施す逆変換ステップと、該逆変換ステップで離散フーリエ逆変換後の音声信号に残り１つのチャネルの入力音声信号を加算する加算ステップと、を実行させるためのプログラムであり、前記抽出ステップは、前記２つのチャネルの音声信号の相関係数を算出する際に、該２つのチャネルの音声信号と前記残り１つのチャネルの入力音声信号との相関関係に応じて、相関係数を変化させることを特徴としたものである。
第６の技術手段は、第５の技術手段におけるプログラムを記録したコンピュータ読み取り可能な記録媒体である。

本発明によれば、３つのチャネルの入力音声信号を、スピーカ群を用いて波面合成再生方式などの再生方式で再生する際に、適切な音像を提供できる音声信号に変換することが可能になる。

２ｃｈ方式を説明するための模式図である。５.１ｃｈサラウンド方式を説明するための模式図である。波面合成再生方式を説明するための模式図である。２ｃｈの音声信号を波面合成再生方式で再生する際に、使用するスピーカ群と仮想音源との位置関係の例を説明するための模式図である。本発明に係る音声信号変換装置で変換された音声信号を波面合成再生方式で再生するためのスピーカ群の配置例を示す図である。本発明に係る音声信号変換装置を備えた音声データ再生装置の一構成例を示すブロック図である。図６の音声データ再生装置における音声信号処理部（本発明に係る音声信号変換装置）の一構成例を示すブロック図である。図７の音声信号処理部での音声信号処理の一例を説明するためのフロー図である。図７の音声信号処理部において音声データをバッファに蓄える様子を示す図である。受聴者と左右のスピーカと合成音像との位置関係の例を説明するための模式図である。波面合成再生方式で使用するスピーカ群と仮想音源との位置関係の例を説明するための模式図である。図１１の仮想音源と受聴者及び合成音像との位置関係の例を説明するための模式図である。左右チャネルの音声信号を離散フーリエ変換し左右チャネルの直流成分を無視した場合に、離散フーリエ逆変換後のセグメント境界に生じる波形の不連続点を説明するための模式図である。本発明に適用できる不連続点除去処理の一例を説明するための模式図である。図８におけるＦＣ信号加算処理の他の例を説明するためのフロー図である。５.１ｃｈの音声信号を波面合成再生方式で再生する際に、使用するスピーカ群と仮想音源との位置関係の例を説明するための模式図である。図６の音声データ再生装置を備えたテレビ装置の構成例を示す図である。図６の音声データ再生装置を備えたテレビ装置の他の構成例を示す図である。図６の音声データ再生装置を備えたテレビ装置の他の構成例を示す図である。図６の音声データ再生装置を備えたテレビ装置の他の構成例を示す図である。図６の音声データ再生装置を備えたテレビボードとテレビ装置とでなるシステムの構成例を示す図である。

本発明に係る音声信号変換装置は、３チャネル以上のマルチチャネル再生方式用の音声信号のうちの３つのチャネルの音声信号を、波面合成再生方式などの再生方式でスピーカ群から適切な音像を提供できるような音声信号に、変換する装置である。この変換により、３つのチャネルの入力音声信号が、スピーカ群により再生させるための音声信号になる。以下、３つのチャネルの入力音声信号が、仮想的に存在する音源である仮想音源に対する音像として複数のスピーカにより再生させるための音声信号になる場合を例に挙げて説明する。しかし、例えば仮想音源の数と同数の出力スピーカを用意して、各仮想音源から出力すべき音声信号を、一対一で対応する出力スピーカから再生するような場合にも、同様に適用できる。すなわち、本発明では、３つのチャネルの入力音声信号が、仮想ではない実在する音源（複数のスピーカ）に対する音像として各スピーカにより再生させるための音声信号になるような変換も採用可能である。

この音声信号変換装置は、音声信号処理装置、音声データ変換装置などとも呼べ、音声データ再生装置に組み込むことができる。なお、音声信号とは、当然、いわゆる音声を記録した信号に限ったものではなく、音響信号とも呼べる。また、波面合成再生方式とは、上述したように直線状または面状に並べたスピーカ群によって音の波面を合成する再生方式である。

以下、図面を参照しながら、本発明に係る音声信号変換装置の構成例及び処理例について説明する。また、以下の説明では、本発明に係る音声信号変換装置が、５.１ｃｈサラウンド音響信号を変換し、波面合成再生方式用の音声信号を生成する例を挙げる。

５.１ｃｈの音声信号を波面合成再生方式で再生するために、まず図５を参照しながらアレイスピーカの配置方法の決定に関して述べ、その後、信号処理方法について述べる。図５は、本発明に係る音声信号変換装置で変換された音声信号を波面合成再生方式で再生するためのスピーカ群の配置例を示す図である。

アレイスピーカの配置について、さまざまな方法が考えられるが、５.１ｃｈのスピーカ配置方法では後方からも音が到来することを考えると、円状のアレイスピーカあるいは４本の線状のアレイスピーカにより視聴者を取り囲むという配置方法がまず考えられる。しかし、一般家庭の部屋において、視聴位置をアレイスピーカで囲うような配置方法は現実的ではない。また、５.１ｃｈのスピーカ配置方法では、視聴者は前方のセンターチャネル（以下、ＦＣ）の方向を向いていることが前提となっており、ＦＣ、前方左チャネル（以下、ＦＬ）、前方右チャネル（以下、ＦＲ）の３つのチャネルによって合成される音像の定位精度については敏感である一方、後方の音像についてはそれほど精度が求められない。そのほか、後方と前方のスピーカによる合成音像を視聴者の側方に定位させることは聴覚心理学上困難であることもよく知られている。つまり、５.１ｃｈでは側方に合成音像を知覚し得ない。

これらの理由から、例えば図５に示す配置関係５０のように、前方のみアレイスピーカ５１を用い、後方の左スピーカ（以下、ＢＬ）５３Ｌ、後方の右スピーカ（以下、ＢＲ）５３Ｒ、及びサブウーハー（Low Frequency Effect［ＬＦＥ］チャネル出力用スピーカ）５２はマルチチャネル方式のものをそのまま流用するような設置方法が、現実的であると言える。

このようにして設置したスピーカ群に対し、５.１ｃｈの音声信号を変換処理して出力する方法について、主に図６及び図７を参照しながら説明する。
図６は、本発明に係る音声信号変換装置を備えた音声データ再生装置の一構成例を示すブロック図で、図７は、図６の音声データ再生装置における音声信号処理部（本発明に係る音声信号変換装置）の一構成例を示すブロック図である。

図６で例示する音声データ再生装置６０は、デコーダ６１、音声信号抽出部６２、音声信号処理部６３を備えるとともに、前方からの音声用としてＤ／Ａコンバータ６４、増幅器群６５、及びスピーカ群６６を備える。さらに、音声データ再生装置６０は、後方左右及びサブウーハーからの音声のために、Ｄ／Ａコンバータ６７、増幅器６８Ｌ，６８Ｒ，６８Ｂ、及びスピーカ６９Ｌ，６９Ｒ，６９Ｂを備える。

デコーダ６１は、音声のみあるいは音声付き映像のコンテンツを復号化し、信号処理可能な形式に変換し音声信号抽出部６２に出力する。そのコンテンツは、放送局から送信されたデジタル放送のコンテンツや、ネットワークを介してディジタルコンテンツを配信するサーバからインターネットからダウンロードしたり、あるいは外部記憶装置等の記録媒体から読み込んだりすることによって取得する。このように、図６では図示しないが、音声データ再生装置６０は、マルチチャネルの入力音声信号を含むディジタルコンテンツを入力するディジタルコンテンツ入力部を備える。デコーダ６１は、ここで入力されたディジタルコンテンツを復号化することになる。音声信号抽出部６２では、得られた信号から音声信号を分離、抽出する。ここでは得られた信号は５.１ｃｈとし、そのうちのＦＣ、ＦＬ、ＦＲの３つチャネルの音声信号を音声信号処理部６３に出力するとともに、残りのＢＬ、ＢＲ、ＬＦＥはＤ／Ａコンバータ６７に出力する。

音声信号処理部６３では、得られた３チャネル信号から、入力音声信号とは異なるマルチチャネル（好ましくは３チャネル以上）の音声信号を生成する。つまり入力音声信号を別のマルチチャネルの音声信号に変換する。以下の例では、仮想音源数分の信号を生成するものとして説明する。音声信号処理部６３は、その音声信号をＤ／Ａコンバータ６４に出力する。仮想音源の数は、ある一定以上の数があれば予め決めておいても性能上差し支えはないが、仮想音源数が多くなるほど演算量も多くなる。そのため実装する装置の性能を考慮してその数を決定することが望ましい。ここの例ではその数を５として説明する。

Ｄ／Ａコンバータ６４では得られた信号をアナログ信号に変換し、それぞれの信号を増幅器６５に出力する。各増幅器６５では入力されたアナログ信号を拡声し各スピーカ６６に伝送し、各スピーカ６６から空間中に音として出力される。

Ｄ／Ａコンバータ６７では、ＢＬ，ＢＲ及びＬＦＥの入力音声信号をアナログ信号に変換し、それぞれの信号を増幅器６８Ｌ，６８Ｒ及び増幅器６８Ｂに出力する。各増幅器６８Ｌ，６８Ｒ，６８Ｂでは入力されたアナログ信号を拡声し、それぞれ後方左スピーカ６９Ｌ、後方右スピーカ６９Ｒ、サブウーハー６９Ｂに伝送し、各スピーカから空間中に音として出力される。

この図における音声信号処理部６３の詳細な構成を図７に示す。音声信号処理部６３は、音声信号分析部７１、音声信号分離抽出部７２、雑音除去部７３、そして、音声出力信号生成部７４から構成される。音声信号分離抽出部７２は本発明に係る変換部７２ａ、相関信号抽出部７２ｂ、及び逆変換部７２ｃを有する。また、後述するが、音声出力信号生成部７４は本発明の主たる特徴としての加算部７４ａを有する。

音声信号分離抽出部７２はＦＲとＦＬの２チャネルの信号から各仮想音源に対応する音声信号を生成し、それを雑音除去部７３に出力する。５.１ｃｈの音声信号は多くの場合、ＦＣが人物などの音声を担い、ＦＲとＦＬが音声以外の背景音や左右の音圧パンによる効果音を担うため、ＦＣの音声信号はＦＲあるいはＦＬの音声信号とは相関が弱いことが殆どである。このため、ＦＲとＦＬの２チャネルを波面合成再生方式用の音声信号に変換し、それにＦＣの音声信号を加算することが最適な手法であると言える。ただし、図１５を参照しながら後述するように、その際、音声信号分析部７１が音声信号分離抽出部７２に入力されたＦＲとＦＬの信号を参照してＦＣの信号を分析し、結果的に、音声出力信号生成部７４がその分析結果に基づいたＦＣ信号加算処理を行うことが好ましい。

ここで、変換部７２ａは、３つのチャネルのうち２つのチャネルの入力音声信号に離散フーリエ変換を施す。相関信号抽出部７２ｂは、上述したように、変換部７２ａで離散フーリエ変換後の２つのチャネルの音声信号について相関信号を抽出するが、このとき、直流成分を無視して相関信号を抽出することが好ましい。つまり、相関信号抽出部７２ｂは、２つのチャネルの入力音声信号の相関信号を抽出する。逆変換部７２ｃは、（ａ１）相関信号抽出部７２ｂで抽出された相関信号に対して、または（ａ２）その相関信号及び無相関信号（その相関信号を除く信号）に対して、もしくは（ｂ１）その相関信号から生成された音声信号、または（ｂ２）その相関信号及びその無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施す。

雑音除去部７３では、得られた音声信号波形から知覚上ノイズとなる部分を除去し、ノイズ除去後の音声信号を音声出力信号生成部７４に出力する。音声出力信号生成部７４では、雑音除去部７３で得られた音声信号から各スピーカ６６に対応するそれぞれの出力音声信号波形を生成する。音声出力信号生成部７４では、波面合成再生処理などの処理が施され、例えば、得られた各仮想音源用の音声信号を各スピーカ６６に割り当て、スピーカ６６毎の音声信号を生成する。波面合成再生処理の一部は音声信号分離抽出部７２で担ってもよい。

次に、図８に従って、音声信号処理部６３での音声信号処理例を説明する。図８は、図７の音声信号処理部での音声信号処理の一例を説明するためのフロー図で、図９は、図７の音声信号処理部において音声データをバッファに蓄える様子を示す図である。なお、音声信号分離抽出部７２の処理として、変換部７２ａ、相関信号抽出部７２ｂ、及び逆変換部７２ｃのいずれで処理するかの記載を省略するが、各部７２ａ〜７２ｃの処理は上述した通りである。

まず、音声信号分離抽出部７２は、１セグメントの半分の長さの音声データであってＦＬ，ＦＲの音声データを、図６における音声信号抽出部６２での抽出結果から読み出す（ステップＳ８１）。ここで、音声データとは、例えば４８ｋＨｚなどの標本化周波数で標本化された離散音声信号波形を指すものとする。そして、セグメントとは、ある一定の長さの標本点群からなる音声データ区間であり、ここでは後ほど離散フーリエ変換の対象となる区間長を指すものとする。その値は例えば１０２４とする。この例では、１セグメントの半分の長さである５１２点の音声データが読み出し対象となる。

読み出した５１２点の音声データは図９で例示するようなバッファ９０に蓄えられる。このバッファは、直前の１セグメント分の音声信号波形を保持しておけるようになっており、それより過去のセグメントは捨てていく。直前の半セグメント分のデータと最新の半セグメント分のデータを繋げて１セグメント分の音声データを作成し、窓関数演算（ステップＳ８２）に進む。すなわち、全ての標本データは窓関数演算に２回読み込まれることになる。

ステップＳ８２における窓関数演算では、従来提案されている次のＨａｎｎ窓を１セグメント分の音声データに乗算する。

ここで、ｍは自然数、Ｍは１セグメント長で偶数とする。ステレオの入力信号をそれぞれｘ_Ｌ（ｍ）、ｘ_Ｒ（ｍ）とすると、窓関数乗算後の音声信号ｘ′_Ｌ（ｍ）、ｘ′_Ｒ（ｍ）は、

ｘ′_Ｌ（ｍ）＝ｗ（ｍ）ｘ_Ｌ（ｍ）、
ｘ′_Ｒ（ｍ）＝ｗ（ｍ）ｘ_Ｒ（ｍ） (2)
と計算される。このＨａｎｎ窓を用いると、例えば標本点ｍ_０（ただし、Ｍ／２≦ｍ_０＜Ｍ）の入力信号ｘ_Ｌ（ｍ_０）にはｓｉｎ^２（（ｍ_０／Ｍ）π）が乗算される。そして、その次の回の読み込みではその同じ標本点がｍ_０−Ｍ／２として読み込まれるので、

が乗算される。ここで、ｓｉｎ^２（（ｍ_０／Ｍ）π）＋ｃｏｓ^２（（ｍ_０／Ｍ）π）＝１であるから、もし、何も修正を加えずに読み込んだ信号を半セグメントずつずらして加算すれば、元の信号が完全に復元されることになる。

そうして得られた音声データを、次の数式(3)のように離散フーリエ変換し、周波数領域の音声データを得る（ステップＳ８３）。ここで、ＤＦＴは離散フーリエ変換を表し、ｋは自然数で、０≦ｋ＜Ｍである。Ｘ_Ｌ（ｋ）、Ｘ_Ｒ（ｋ）は複素数となる。
Ｘ_Ｌ（ｋ）＝ＤＦＴ（ｘ′_Ｌ（ｎ））、
Ｘ_Ｒ（ｋ）＝ＤＦＴ（ｘ′_Ｒ（ｎ）） (3)

次に、音声信号分離抽出部７２は、得られた周波数領域の音声データを小さい帯域に分割し、分割した各帯域についてステップＳ８５〜Ｓ８８の処理を実行する（ステップＳ８４ａ，Ｓ８４ｂ）。具体的に個々の処理について説明する。

まず、分割方法についてはEquivalent Rectangular Band（ＥＲＢ）を用い、ＥＲＢの帯域幅で０Ｈｚから標本化周波数の１／２の周波数までの間を分割する。ここで、ＥＲＢにより、与えられた周波数の上限ｆ_ｍａｘ［Ｈｚ］までをいくつに分割するか、すなわちＥＲＢで分割した各帯域の索引の最大値Ｉは次式によって与えられる。
Ｉ＝ｆｌｏｏｒ（２１.４ｌｏｇ_１０（０.００４３７ｆ_ｍａｘ＋１）） (4)
ただし、ｆｌｏｏｒ（ａ）はフロア関数で、実数ａを越えない整数の最大値を表す。

そして、それぞれのＥＲＢ幅の帯域（以下、小帯域）の中心周波数Ｆ_ｃ ^（ｉ）（１≦ｉ≦Ｉ）［Ｈｚ］は次式によって与えられる。

また、その時のＥＲＢの帯域幅ｂ^（ｉ）［Ｈｚ］は次式によって求められる。
ｂ^（ｉ）＝２４.７（０.００４３７Ｆ_ｃ ^（ｉ）＋１） (6)
よって、その中心周波数から低域側と高域側にそれぞれＥＲＢ／２の周波数幅だけシフトすることによりｉ番目の小帯域の両側の境界周波数Ｆ_Ｌ ^（ｉ）、Ｆ_Ｕ ^（ｉ）を求めることができる。したがって、ｉ番目の小帯域には、Ｋ_Ｌ ^（ｉ）番目の線スペクトルからＫ_Ｕ ^（ｉ）番目の線スペクトルが含まれる。ここで、Ｋ_Ｌ ^（ｉ）、Ｋ_Ｕ ^（ｉ）はそれぞれ次の数式(7)、(8)で表される。
Ｋ_Ｌ ^（ｉ）＝ｃｅｉｌ（２１.４ｌｏｇ_１０（０.００４３７Ｆ_Ｌ ^（ｉ）＋１）） (7)
Ｋ_Ｕ ^（ｉ）＝ｆｌｏｏｒ（２１.４ｌｏｇ_１０（０.００４３７Ｆ_Ｕ ^（ｉ）＋１）） (8)
ただし、ｃｅｉｌ（ａ）は天井関数で、実数ａより小さくならない整数の最小値を表す。また、離散フーリエ変換した後の線スペクトルは、直流成分すなわち例えばＸ_Ｌ（０）を除いて、Ｍ／２（ただし、Ｍは偶数）を境に対称となっている。すなわち、Ｘ_Ｌ（ｋ）とＸ_Ｌ（Ｍ−ｋ）は０＜ｋ＜Ｍ／２の範囲で複素共役の関係になる。したがって、以下ではＫ_Ｕ ^（ｉ）≦Ｍ／２の範囲を分析の対象として考え、ｋ＞Ｍ／２の範囲については複素共役の関係にある対称の線スペクトルと同じ扱いとする。

これらの具体例を示す。例えば、標本化周波数が４８０００Ｈｚの場合、Ｉ＝４９となり、４９の小帯域に分割することとなる。ただし、直流成分は分割の対象とせず、どの小帯域にも含まないこととする。なぜならば、以下の方式では左右チャネルの正規化相関係数を求めるが、直流成分は複素数の実部しか持たないために正規化相関係数が１となるため、左右チャネルの直流成分が全て相関係数に割り当てられるという不適当な処理になってしまうからである。また、最も高い小帯域区間よりもさらに上の周波数に相当する線スペクトル成分も存在するが、それらは聴感上の影響も殆ど無く、さらに通常は値が微小であるため、それらは最も高い小帯域区間に含めることとして差し支えない。

次に、このようにして決定される各小帯域において、左チャネルと右チャネルの正規化相関係数を次式で求めることで、相関係数を取得する（ステップＳ８５）。

この正規化相関係数ｄ^（ｉ）は左右のチャネルの音声信号にどれだけ相関があるかを表すものであり、０から１の間の実数の値をとる。全く同じ信号同士であれば１、そして全く無相関の信号同士であれば０となる。ここで、左右のチャネルの音声信号の電力Ｐ_Ｌ ^（ｉ）とＰ_Ｒ ^（ｉ）の両方が０である場合、その小帯域に関して相関信号と無相関信号の抽出は不可能とし、処理を行わず次の小帯域の処理に移ることとする。また、Ｐ_Ｌ ^（ｉ）とＰ_Ｒ ^（ｉ）のいずれか片方が０である場合、数式(9)では演算不可能であるが、正規化相関係数ｄ^（ｉ）＝０とし、その小帯域の処理を続行する。

次に、この正規化相関係数ｄ^（ｉ）を用いて、左右チャネルの音声信号から相関信号と無相関信号をそれぞれ分離抽出するための変換係数を求め（ステップＳ８６）、ステップＳ８６で取得したそれぞれの変換係数を用いて、左右チャネルの音声信号から相関信号と無相関信号を分離抽出する（ステップＳ８７）。相関信号及び無相関信号は、いずれも推定した音声信号として抽出すればよい。

ステップＳ８６，Ｓ８７の処理例を説明する。ここで、特許文献１と同様、左右チャネルそれぞれの信号は、無相関信号と相関信号から構成され、相関信号については左右から同じ信号が出力されるものとするモデルを採用する。そして、左右から出力される相関信号によって合成される音像は、その相関信号の左右それぞれの音圧のバランスによって方向が決定されるものとする。そのモデルに従うと、入力信号ｘ_Ｌ（ｎ）、ｘ_Ｒ（ｎ）は、
ｘ_Ｌ（ｍ）＝ｓ（ｍ）＋ｎ_Ｌ（ｍ）、
ｘ_Ｒ（ｍ）＝αｓ（ｍ）＋ｎ_Ｒ（ｍ） (13)
と表される。ここで、ｓ（ｍ）は左右の相関信号、ｎ_Ｌ（ｍ）は左チャネルの音声信号から相関信号ｓ（ｍ）を減算したものであって（左チャネルの）無相関信号として定義できるもの、ｎ_Ｒ（ｍ）は右チャネルの音声信号から相関信号ｓ（ｍ）を減算したものであって（右チャネルの）無相関信号として定義できるものである。また、αは相関信号の左右音圧バランスの程度を表す正の実数である。

数式(13)により、数式(2)で前述した窓関数乗算後の音声信号ｘ′_Ｌ（ｍ）、ｘ′_Ｒ（ｍ）は、次の数式(14)で表される。ただし、ｓ′（ｍ）、ｎ′_Ｌ（ｍ）、ｎ′_Ｒ（ｍ）はそれぞれｓ（ｍ）、ｎ_Ｌ（ｍ）、ｎ_Ｒ（ｍ）に窓関数を乗算したものである。
ｘ′_Ｌ（ｍ）＝ｗ（ｍ）｛ｓ（ｍ）＋ｎ_Ｌ（ｍ）｝＝ｓ′（ｍ）＋ｎ′_Ｌ（ｍ）、
ｘ′_Ｒ（ｍ）＝ｗ（ｍ）｛αｓ（ｍ）＋ｎ_Ｒ（ｍ）｝＝αｓ′（ｍ）＋ｎ′_Ｒ（ｍ）
(14)

数式(14)を離散フーリエ変換することによって、次の数式(15)を得る。ただし、Ｓ（ｋ）、Ｎ_Ｌ（ｋ）、Ｎ_Ｒ（ｋ）はそれぞれｓ′（ｍ）、ｎ′_Ｌ（ｍ）、ｎ′_Ｒ（ｍ）を離散フーリエ変換したものである。
Ｘ_Ｌ（ｋ）＝Ｓ（ｋ）＋Ｎ_Ｌ（ｋ）、
Ｘ_Ｒ（ｋ）＝αＳ（ｋ）＋Ｎ_Ｒ（ｋ） (15)

したがって、ｉ番目の小帯域における音声信号Ｘ_Ｌ ^（ｉ）（ｋ）、Ｘ_Ｒ ^（ｉ）（ｋ）は、
Ｘ_Ｌ ^（ｉ）（ｋ）＝Ｓ^（ｉ）（ｋ）＋Ｎ_Ｌ ^（ｉ）（ｋ）、
Ｘ_Ｒ ^（ｉ）（ｋ）＝α^（ｉ）Ｓ^（ｉ）（ｋ）＋Ｎ_Ｒ ^（ｉ）（ｋ）
ただし、Ｋ_Ｌ ^（ｉ）≦ｋ≦Ｋ_Ｕ ^（ｉ） (16)
と表現される。ここで、α^（ｉ）はｉ番目の小帯域におけるαを表す。以後、ｉ番目の小帯域における相関信号Ｓ^（ｉ）（ｋ）、無相関信号Ｎ_Ｌ ^（ｉ）（ｋ）、Ｎ_Ｒ ^（ｉ）（ｋ）をそれぞれ、
Ｓ^（ｉ）（ｋ）＝Ｓ（ｋ）、
Ｎ_Ｌ ^（ｉ）（ｋ）＝Ｎ_Ｌ（ｋ）、
Ｎ_Ｒ ^（ｉ）（ｋ）＝Ｎ_Ｒ（ｋ）
ただし、Ｋ_Ｌ ^（ｉ）≦ｋ≦Ｋ_Ｕ ^（ｉ） (17)
とおくこととする。

数式(16)から、数式(12)の音圧Ｐ_Ｌ ^（ｉ）とＰ_Ｒ ^（ｉ）は、
Ｐ_Ｌ ^（ｉ）＝Ｐ_Ｓ ^（ｉ）＋Ｐ_Ｎ ^（ｉ）、
Ｐ_Ｒ ^（ｉ）＝［α^（ｉ）］^２Ｐ_Ｓ ^（ｉ）＋Ｐ_Ｎ ^（ｉ） (18)
と表される。ここで、Ｐ_Ｓ ^（ｉ）、Ｐ_Ｎ ^（ｉ）はｉ番目の小帯域におけるそれぞれ相関信号、無相関信号の電力であり、

と表される。ここで、左右の無相関信号の音圧は等しいと仮定している。

また、数式(10)〜(12)より、数式(9)は、

と表すことができる。ただし、この算出においてはＳ（ｋ）、Ｎ_Ｌ（ｋ）、Ｎ_Ｒ（ｋ）が互いに直交し、かけ合わされたときの電力は０と仮定している。

数式(18)と数式(20)を解くことにより、次の式が得られる。

これらの値を用いて、各小帯域における相関信号と無相関信号を推定する。ｉ番目の小帯域における相関信号Ｓ^（ｉ）（ｋ）の推定値est（Ｓ^（ｉ）（ｋ））を、媒介変数μ_１、μ_２を用いて、
est（Ｓ^（ｉ）（ｋ））＝μ_１Ｘ_Ｌ ^（ｉ）（ｋ）＋μ_２Ｘ_Ｒ ^（ｉ）（ｋ） (23)
とおくと、推定誤差εは、
ε＝est（Ｓ^（ｉ）（ｋ））−Ｓ^（ｉ）（ｋ） (24)
と表される。ここで、est（Ａ）はＡの推定値を表すものとする。そして二乗誤差ε^２が最少になるとき、εとＸ_Ｌ ^（ｉ）（ｋ）、Ｘ_Ｒ ^（ｉ）（ｋ）はそれぞれ直交するという性質を利用すると、
Ｅ［ε・Ｘ_Ｌ ^（ｉ）（ｋ）］＝０、Ｅ［ε・Ｘ_Ｒ ^（ｉ）（ｋ）］＝０ (25)
という関係が成り立つ。数式(16)、(19)、(21)〜(24)を利用すると、数式(25)から次の連立方程式が導出できる。
（１−μ_１−μ_２α^（ｉ））Ｐ_Ｓ ^（ｉ）−μ_１Ｐ_Ｎ ^（ｉ）＝０
α^（ｉ）（１−μ_１−μ_２α^（ｉ））Ｐ_Ｓ ^（ｉ）−μ_２Ｐ_Ｎ ^（ｉ）＝０
(26)

この数式(26)を解くことによって、各媒介変数が次のように求まる。

ここで、このようにして求まる推定値est（Ｓ^（ｉ）（ｋ））の電力Ｐ_est（Ｓ） ^（ｉ）が、数式(23）の両辺を二乗して求まる次の式
Ｐ_est（Ｓ） ^（ｉ）＝（μ_１＋α^（ｉ）μ_２）^２Ｐ_Ｓ ^（ｉ）＋（μ_１ ^２＋μ_２ ^２）Ｐ_Ｎ ^（ｉ） (28)
を満たす必要があるため、この式から推定値を次式のようにスケーリングする。なお、est′（Ａ）はＡの推定値をスケーリングしたものを表す。

そして、ｉ番目の小帯域における左右チャネルの無相関信号Ｎ_Ｌ ^（ｉ）（ｋ）、Ｎ_Ｒ ^（ｉ）（ｋ）に対する推定値est（Ｎ_Ｌ ^（ｉ）（ｋ））、est（Ｎ_Ｒ ^（ｉ）（ｋ））はそれぞれ、
est（Ｎ_Ｌ ^（ｉ）（ｋ））＝μ_３Ｘ_Ｌ ^（ｉ）（ｋ）＋μ_４Ｘ_Ｒ ^（ｉ）（ｋ） (30)
est（Ｎ_Ｒ ^（ｉ）（ｋ））＝μ_５Ｘ_Ｌ ^（ｉ）（ｋ）＋μ_６Ｘ_Ｒ ^（ｉ）（ｋ） (31)
とおくことにより、上述の求め方と同様にして、媒介変数μ_３〜μ_６は、

と求めることができる。このようにして求めた推定値est（Ｎ_Ｌ ^（ｉ）（ｋ））、est（Ｎ_Ｒ ^（ｉ）（ｋ））も上述と同様に、次の式によってそれぞれスケーリングする。

数式(27)、(32)、(33)で示した各媒介変数μ_１〜μ_６及び数式(29)、(34)、(35)で示したスケーリングの係数が、ステップＳ８６で求める変換係数に該当する。そして、ステップＳ８７では、これらの変換係数を用いた演算（数式(23)、(30)、(31)）により推定することで、相関信号と無相関信号（右チャネルの無相関信号、左チャネルの無相関信号）とを分離抽出する。

以上のように、図７における音声信号分離抽出部７２は、このようにして分離された信号を出力することになるが、次に説明するように、仮想音源への割り当て処理が施された信号を出力することになる。そのため、音声信号分離抽出部７２は、図示しないが、左右のチャネル用のゲイン調整部と相関信号処理部とを有する。音声信号分離抽出部７２は、左チャネルより分離された無相関信号est'（Ｎ_Ｌ ^（ｉ）（ｋ））を左チャネル用のゲイン調整部に出力し、右チャネルより分離された無相関信号est'（Ｎ_Ｒ ^（ｉ）（ｋ））を右チャネル用のゲイン調整部に出力し、両チャネルより分離された相関信号est'（Ｓ^（ｉ）（ｋ））を相関信号処理部に出力する。

この相関信号処理部では、仮想音源への割り当て処理を行う（ステップＳ８８）。割り当て処理では、相関信号からある特定の音像を抽出するためのゲインを決定するが、その前処理として、小帯域毎に推定した相関信号によって生成される合成音像の方向を推定する。この推定処理について、図１０〜図１２に基づき説明する。図１０は、受聴者と左右のスピーカと合成音像との位置関係の例を説明するための模式図、図１１は、波面合成再生方式で使用するスピーカ群と仮想音源との位置関係の例を説明するための模式図、図１２は、図１１の仮想音源と受聴者及び合成音像との位置関係の例を説明するための模式図である。

いま、図１０に示す位置関係１００のように、受聴者から左右のスピーカ１０１Ｌ，１０１Ｒの中点にひいた線と、同じく受聴者１０３からいずれかのスピーカ１０１Ｌ／１０１Ｒの中心までひいた線がなす見開き角をθ_０、受聴者１０３から推定合成音像１０２の位置までひいた線がなす見開き角をθとする。ここで、左右のスピーカ１０１Ｌ，１０１Ｒから同じ音声信号を、音圧バランスを変えて出力した場合、その出力音声によって生じる合成音像１０２の方向は、音圧バランスを表す前述のパラメータαを用いて次の式で近似できることが一般的に知られている（以下、立体音響におけるサインの法則と呼ぶ）。

よって、ｉ番目の小帯域における相関信号の合成音像の方向θ^（ｉ）は次式によって求められる。ここで、θ_０は予め決定しておく値で、例えばθ_０＝π／６［ｒａｄ］などとしてよい。

ここで、ＦＬとＦＲの２ｃｈステレオの音声信号を波面合成再生方式で再生できるように変換する方法として、図７に示す音声信号分離抽出部７２が２ｃｈの信号を複数チャネルの信号に変換する。例えば変換後のチャネル数を５つとした場合、それを図１１で示す位置関係１１０のように、波面合成再生方式における仮想音源１１２ａ〜１１２ｅと見做し、スピーカ群（スピーカアレイ）１１１の後方に配置する。なお、仮想音源１１２ａ〜１１２ｅにおける隣り合う仮想音源との間隔は均等とする。したがって、ここでの変換は、２ｃｈの音声信号を仮想音源数の音声信号に変換することになる。既に説明したように、音声信号分離抽出部７２は、まず２ｃｈの音声信号を、小帯域毎に１つの相関信号と２つの無相関信号に分離する。音声信号分離抽出部７２では、さらにそれらの信号をどのように仮想音源数の仮想音源（ここでは５つの仮想音源）に割り当てるかを事前に決めておかなければならない。なお、割り当ての方法については複数の方法の中からユーザ設定可能にしておいてもよいし、仮想音源数に応じて選択可能な方法を変えてユーザに提示するようにしてもよい。

割り当て方法の１つの例として、次のような方法を採る。それは、まず、左右の無相関信号については、５つの仮想音源の両端（仮想音源１１２ａ，１１２ｅ）にそれぞれ割り当てる。次に、相関信号によって生じる合成音像については、５つのうちの隣接する２つの仮想音源に割り当てる。隣接するどの２つの仮想音源に割り当てるかについては、まず、前提として、相関信号によって生じる合成音像が５つの仮想音源の両端（仮想音源１１２ａ，１１２ｅ）より内側になるものとし、すなわち、２ｃｈステレオ再生時の２つのスピーカによってなす見開き角内におさまるように５つの仮想音源１１２ａ〜１１２ｅを配置するものとする。そして、合成音像の推定方向から、その合成音像を挟むような隣接する２つの仮想音源を決定し、その２つの仮想音源への音圧バランスの割り当てを調整して、その２つの仮想音源によって合成音像を生じさせるように再生する、という割り当て方法を採る。

そこで、図１２で示す位置関係１２０のように、受聴者１２３から両端の仮想音源１１２ａ，１１２ｅの中点にひいた線と、端の仮想音源１１２ｅにひいた線とがなす見開き角をθ′_０、受聴者１２３から合成音像１２１にひいた線とがなす見開き角をθ′とする。さらに、受聴者１２３から合成音像１２１を挟む２つの仮想音源１１２ｃ，１１２ｄの中点にひいた線と、受聴者１２３から両端の仮想音源１１２ａ，１１２ｅの中点にひいた線（受聴者１２３から仮想音源１１２ｃにひいた線）とがなす見開き角をφ_０、受聴者１２３から合成音像１２１にひいた線とがなす見開き角をφとする。ここで、φ_０は正の実数である。数式(36)で説明したようにして方向を推定した図１０の合成音像１０２（図１２における合成音像１２１に対応）を、これらの変数を用いて仮想音源に割り当てる方法について説明する。

まず、見開き角の差によるスケーリングを次の式のように行う。
θ′＝（θ′_０／θ_０）θ (38)
これにより、仮想音源の配置による見開き角の差異が考慮されることになる。ただし、θ′_０とθ_０の値は、音声データ再生装置のシステム実装時に調整すればよく、またθ′_０とθ_０の値を等しくしなくても特に問題は生じないため、この例では、θ_０＝π／６［ｒａｄ］、θ′_０＝π／４［ｒａｄ］として説明する。

次に、ｉ番目の合成音像の方向θ^（ｉ）が数式(37)によって推定され、例えばθ^（ｉ）＝π／１５［ｒａｄ］であったとすると、数式(38)よりθ′^（ｉ）＝π／１０［ｒａｄ］となる。そして、仮想音源が５つの場合、図１２に示すように合成音像１２１は左から数えて３番目の仮想音源１１２ｃと４番目の仮想音源１１２ｄの間に位置することになる。また、仮想音源が５つである場合、３番目の仮想音源１１２ｃと４番目の仮想音源１１２ｄの間について、θ′_０＝π／４［ｒａｄ］より、φ_０≒０.０７８［ｒａｄ］となり、ｉ番目の小帯域におけるφをφ^（ｉ）とすると、φ^（ｉ）＝θ′^（ｉ）−φ_０≒０.０２２π［ｒａｄ］となる。このようにして、各小帯域における相関信号によって生じる合成音像の方向を、それを挟む２つの仮想音源の方向からの相対的な角度で表す。そして上述したように、その２つの仮想音源１１２ｃ，１１２ｄでその合成音像を生じさせることを考える。そのためには、２つの仮想音源１１２ｃ，１１２ｄからの出力音声信号の音圧バランスを調整すればよく、その調整方法については、再び数式(36)として利用した立体音響におけるサインの法則を用いる。

ここで、ｉ番目の小帯域における相関信号によって生じる合成音像を挟む２つの仮想音源１１２ｃ，１１２ｄのうち、３番目の仮想音源１１２ｃに対するスケーリング係数をｇ_１、４番目の仮想音源１１２ｄに対するスケーリング係数をｇ_２とすると、３番目の仮想音源１１２ｃからはｇ_１・est′（Ｓ^（ｉ）（ｋ））、４番目の仮想音源１１２ｄからはｇ_２・est′（Ｓ^（ｉ）（ｋ））の音声信号を出力することになる。そして、ｇ_１、ｇ_２は立体音響におけるサインの法則により、

を満たせばよい。

一方、３番目の仮想音源１１２ｃと４番目の仮想音源１１２ｄからの電力の合計が、元の２ｃｈステレオの相関信号の電力と等しくなるようにｇ_１、ｇ_２を正規化すると、
ｇ_１ ^２＋ｇ_２ ^２＝１＋［α^（ｉ）］^２ (40)
となる。

これらを連立させることで、

と求められる。この数式(41)に上述のφ^（ｉ）、φ_０を代入することによって、ｇ_１、ｇ_２を算出する。このようにして算出したスケーリング係数に基づき、上述したように３番目の仮想音源１１２ｃにはｇ_１・est′（Ｓ^（ｉ）（ｋ））の音声信号を、４番目の仮想音源１１２ｄからはｇ_２・est′（Ｓ^（ｉ）（ｋ））の音声信号を割り当てる。そして、これも上述したように、無相関信号は両端の仮想音源１１２ａ，１１２ｅに割り当てられる。すなわち、１番目の仮想音源１１２ａにはest′（Ｎ_Ｌ ^（ｉ）（ｋ））を、５番目の仮想音源１１２ｅにはest′（Ｎ_Ｒ ^（ｉ）（ｋ））を割り当てる。

この例とは異なり、もし合成音像の推定方向が１番目と２番目の仮想音源の間であった場合には、１番目の仮想音源にはｇ_１・est′（Ｓ^（ｉ）（ｋ））とest′（Ｎ_Ｌ ^（ｉ）（ｋ））の両方が割り当てられることになる。また、もし合成音像の推定方向が４番目と５番目の仮想音源の間であった場合には、５番目の仮想音源にはｇ_２・est′（Ｓ^（ｉ）（ｋ））とest′（Ｎ_Ｒ ^（ｉ）（ｋ））の両方が割り当てられることになる。

以上のようにして、ステップＳ８８における、ｉ番目の小帯域についての左右チャネルの相関信号と無相関信号の割り当てが行われる。これをステップＳ８４ａ，Ｓ８４ｂのループにより全ての小帯域について行う。その結果、仮想音源の数をＪとすると、各仮想音源（出力チャネル）に対する周波数領域の出力音声信号Ｙ_１（ｋ），・・・，Ｙ_Ｊ（ｋ）が求まる。

そして、得られた各出力チャネルについて、ステップＳ９０〜Ｓ９３の処理を実行する（ステップＳ８９ａ，Ｓ８９ｂ）。以下、ステップＳ９０〜Ｓ９３の処理について説明する。

まず、各出力チャネルを離散フーリエ逆変換することによって、時間領域の出力音声信号ｙ′_ｊ（ｍ）を求める（ステップＳ９０）。ここで、ＤＦＴ^−１は離散フーリエ逆変換を表す。
ｙ′_ｊ（ｍ）＝ＤＦＴ^−１（Ｙ_ｊ（ｋ））（１≦ｊ≦Ｊ） (42)
ここで、数式(3)で説明したように、離散フーリエ変換した信号は、窓関数乗算後の信号であったため、逆変換して得られた信号ｙ′_ｊ（ｍ）も窓関数が乗算された状態となっている。窓関数は数式(1)に示すような関数であり、読み込みは半セグメント長ずつずらしながら行ったため、前述した通り、１つ前に処理したセグメントの先頭から半セグメント長ずつずらしながら出力バッファに加算していくことにより変換後のデータを得る。

しかし、このような処理を行ったままでは、不連続点が変換後のデータに多数含まれてしまい、それらが再生時にノイズとなって知覚される。このような不連続点は、元の音声信号の分析の際、離散フーリエ変換後の左右チャネルの直流成分の線スペクトルを考慮しない（無視する）ことによるものである。つまり、この直流成分を無視するため、フーリエ逆変換後のセグメント間の波形の連続性が保証されず、セグメントの境界では波形が不連続となる。低い帯域の信号が多く含まれるコンテンツでは特に、生成した音声信号波形には不連続点が多く含まれ、それらはノイズとして知覚されてしまう。

図１３はそれを模式的に示した波形のグラフである。より詳細には、図１３は、左右チャネルの音声信号を離散フーリエ変換し左右チャネルの直流成分を無視した場合に、離散フーリエ逆変換後のセグメント境界に生じる波形の不連続点を説明するための模式図である。図１３に示すグラフ１３０において、横軸は時間を表しており、例えば（Ｍ−２）^（ｌ）という記号は、ｌ番目のセグメントのＭ−２番目の標本点であることを示している。グラフ１３０の縦軸は、それらの標本点に対する出力信号の値である。このグラフ１３０から分かるように、ｌ番目のセグメントの最後から（ｌ＋１）番目のセグメントの最初にかけての部分で不連続点が生じてしまう。

図１３で説明したような問題を解決するために、本発明に係る音声信号変換装置は、次に説明する除去部を備えることが好ましい。除去部は、逆変換部７２ｃで離散フーリエ逆変換後の音声信号から波形の不連続点を除去する（ステップＳ９１）。つまり、除去部では、相関信号またはそれから生成された音声信号について、離散フーリエ逆変換した後の信号から波形の不連続点を除去する。図７における音声信号処理部６３の例では、上述の除去部は雑音除去部７３で例示できる。なお、ここでの例では、逆変換部７２ｃが上記（ｂ２）の音声信号の例である、波面合成再生方式用の仮想音源への割り当て後の音声信号に対して、不連続点を除去した例を挙げているが、これに限らない。例えば、上記（ａ１）または（ａ２）の例である仮想音源への割り当て前の音声信号に対して、すなわち抽出された相関信号または抽出された相関信号及び無相関信号に対して、不連続点を除去し、その後、割り当てを行うようにしてもよい。

図１４を参照して、図１３で説明したような問題を解決するためのこのような処理について具体的に説明する。図１４は、本発明で適用できる不連続点除去処理の一例を説明するための模式図で、左右チャネルの音声信号を離散フーリエ変換し左右チャネルの直流成分を無視した場合に、離散フーリエ逆変換後のセグメント境界に生じる波形の不連続点を除去する方法を説明するための模式図である。

この不連続点除去処理では、図１４のグラフ１４０で図１３のグラフ１３０に対する除去例を示すように、ｌ番目のセグメントの最後の波形の微分値と（ｌ＋１）番目のセグメントの先頭の微分値が一致するようにする。具体的には雑音除去部７３が、ｌ番目のセグメントの最後の２点による傾きが維持されるような（ｌ＋１）番目のセグメントの先頭の値となるよう、（ｌ＋１）番目のセグメントの波形に直流成分（バイアス）を加える。その結果、処理後の出力音声信号ｙ″_ｊ（ｍ）は、
ｙ″_ｊ（ｍ）＝ｙ′_ｊ（ｍ）＋Ｂ (43)
となる。Ｂはバイアスを表す定数であり、１回前の出力音声信号と今回の処理の出力音声信号が出力バッファで加算された後、図１４のグラフ１４０のように波形が連続するように決定される。

このように、雑音除去部７３は、処理セグメントの境界において波形の微分値を維持させるように離散フーリエ逆変換後の音声信号（相関信号またはそれから生成された音声信号）に直流成分を加算することで、不連続点を除去することが好ましい。なお、この例ではマイナスのバイアスをかけているが、当然、上記微分値を一致させるためにはプラスのバイアスをかける場合もある。

このようなノイズ除去処理により、５.１ｃｈ等のマルチチャネル方式用の音声信号を、不連続点に起因するノイズを発生させることなく、波面合成再生方式で再生させるための音声信号に変換することが可能になる。そして、それにより、波面合成再生方式の特長である、どの位置の受聴者に対してもコンテンツ製作者の意図通りの音像定位を提供するという効果を享受できる。

また、雑音除去部７３で処理対象となる離散フーリエ逆変換後の音声信号は、各数式で例示したように、相関信号または相関信号及び無相関信号に対して、時間領域あるいは周波数領域においてスケーリング処理を行い、そのスケーリング処理後の音声信号としてもよい。つまり、相関信号や無相関信号に対しスケーリング処理を施し、スケーリング処理後の相関信号や無相関信号に対し、不連続点の除去を行うようにしてもよい。

ただし、図１４で説明した不連続点除去処理のみでは、バイアス成分が蓄積してしまい、波形の振幅がオーバフローしてしまうことがある。したがって、さらにオーバーフローを防ぐために、次式のように、加算するバイアス成分（直流成分）の振幅の大きさを時間的に減少させることにより収束させることが好ましい。なお、「時間的に減少させる」とは、加算時点からの経過時間、例えば処理セグメント毎の開始点や不連続点の開始点からの経過時間に比例して減少させることを意味する。
ｙ″_ｊ（ｍ）＝ｙ′_ｊ（ｍ）＋Ｂ×（（Ｍ−ｍσ）／Ｍ） (44)
ただし、σはその減少の程度を調整するパラメータであり、例えば０.５などとする。なお、減少のためにはＢ，σはいずれも正とする。さらに、加算用に求めたバイアスの値の絶対値がある一定以上となった場合には、その値に応じてσを動的に増減させるなどしてもよい。増減させるタイミングは次の処理セグメントでよい。これに限らず、減少させるための比例定数に相当するσを、バイアス値の絶対値（直流成分の振幅の大きさ）に応じて変更する（変化させる）ようにしておけば、フィードバック機能が働き、同様の効果が得られる。ただ、これらの方法では音声波形の振幅がオーバフローしないことを保障するものではない。

よって、例えばバイアス値がある一定（所定値）以上の値になった場合には、数式(44)の第二項のバイアス項を加算しないようにする処理を安全弁の機能として加えてもよい。つまり、雑音除去部７３は、加算するために求めた直流成分の振幅が所定値未満である場合のみ、直流成分の加算を実行する（不連続点の除去を実行する）ことが好ましい。この方法を採用することにより、バイアス成分が蓄積しないようになる。

ここで、例えば音声の子音部分など、音声信号がホワイトノイズに近いような場合、音声信号波形の変化が激しく元の波形が既に不連続に近いような状態になっている。そのような音声信号波形の変化が激しい音楽コンテンツに対し、上述した方法はそのような元々不連続の状態に近い波形を無理矢理連続にしようとするため、逆に波形を歪ませてしまう可能性がある。この問題を解消するため、次の方法を用いる。

それは、音声の子音部分など信号がホワイトノイズに近いような場合、入力音声信号の波形が所定時間内（例えば処理セグメント内やその半分内）で０を交差する回数が、その他の部分に比べて極端に増加することを利用する。なお、０をどこに採るようにするかは任意に決めておけば済む。よって、出力音声信号（少なくとも離散フーリエ逆変換後の音声信号）が半セグメント長の中で０を交差する回数をカウントし、それが一定の値（所定回数）以上である場合には、その次のセグメントを所定回数以上存在する箇所とみなし、その次のセグメント処理において、数式(43)や数式(44)における右辺第二項のバイアス項を加算しないこととする。つまり、それ以外の箇所でのみ不連続点除去処理を実行する。このような方法を採用することで歪みがなくなりノイズが発生しない。なお、カウントは、セグメント境界とは関係なく一定時間の音声波形について実行してもよいし、複数のセグメント処理分の音声波形について実行してもよく、いずれの場合にもそのカウント結果から次のセグメント処理でバイアス項を加算するか否かを決めればよい。

そして、本発明に係る音声信号変換装置は、上述したように加算部７４ａを備える。加算部７４ａは、逆変換部で離散フーリエ逆変換後の音声信号に残り１つのチャネルの入力音声信号を加算する。

上述の例では、ＦＬとＦＲの２つのチャネルの音声信号を、５つの仮想音源の信号に変換する。加算部７４ａは、その次に、ＦＣの音声信号を、５つのうちの真ん中の仮想音源に加算する（ステップＳ９２）。加算により得た出力音声信号はバッファに加算され（ステップＳ９３）、順次出力される。

出力に際しては、各出力チャネル分について得たそれらの仮想音源の信号を、波面合成再生方式によって再生する。これにより、ＦＬ、ＦＲ、ＦＣの音声信号をマルチチャネル方式で再生したときにスイートスポットで受聴できる音像を、スイートスポット以外の視聴位置からでも受聴することが可能となる。このように、本発明によれば、３つのチャネルの入力音声信号を、スピーカ群を用いて波面合成再生方式などの再生方式で再生する際に、適切な音像を提供できる音声信号に変換することが可能になる。

ここで、数式(9)により正規化相関係数を算出するにあたって、図８の処理例ではＦＣの音声信号を参照しなかった。しかし、その方法では次に述べるような問題が存在する。その問題とは、例えば映画などにおいてしばしば、ＦＲ及びＦＬの音声信号がＦＣの音声信号と殆ど同一となる場合が見られる。より具体的には、教会のような場所で合唱団が歌う場面において、その歌声が、フロント３チャネルから同じように出力されている場合や、着陸する旅客機が画面に大写しになっている場面において、その音がフロント３チャネルから同じように出力されている場合などが挙げられる。

そのような音場の作成のされ方がなされている場合、前述した殆どの小帯域において、その正規化相関係数は１または１に近い値となり、それぞれの音圧はほぼ等しくなる。このような場合、ＦＲ及びＦＬの音声信号を、後述する方法によって波面合成再生方式用の音声信号に変換すると、数式(9)の上述の５つの仮想音源のうち中央の仮想音源のみに相関信号が割り当てられ、結果的に、ＦＲとＦＬの相関信号及びＦＣの音声信号の全てが中央より聞こえてくることとなるため、元々あった音の拡がり感が損なわれてしまう。

この問題を以下に述べる方法によって解決する。その概略をまず説明する。５．１ｃｈの前方左右チャネルの音声信号から複数の仮想音源を生成し、その中央の仮想音源に前方中央チャネルの音声信号を加算する。そのままではそれら３つのチャネルの信号が殆ど同じ場合に、音場の拡がり感が損なわれるため、３つのチャネルの類似性が非常に高い場合に、左右チャネルの相関がないものと見做すことによって解決し、５．１ｃｈのサラウンド音響信号を波面合成再生方式で再生することができる。このような手法により、例えば合唱の音声など前方からの音の拡がりを表現することができる。

図１５を参照しながら、このような処理の流れを説明する。図１５は、図８におけるＦＣ信号加算処理の他の例を説明するためのフロー図である。まず、数式(9)を計算した後、音声信号分析部７１がＦＣの音声信号を読み出し（ステップＳ１５１）、ＦＲやＦＬと同様に窓関数乗算（ステップＳ１５２）、離散フーリエ変換（ステップＳ１５３）を施す。次に、音声信号分析部７１が、音声信号分離抽出部７２でのＦＲとＦＬの信号を参照して、ＦＬ−ＦＣの相関係数、ＦＲ−ＦＣの相関係数を計算することにより、信号の分析を行う（ステップＳ１５４）。より具体的に説明すると、ステップＳ１５４では、まず音声信号分析部７１が数式(45)のｄ_ＬＣ ^（ｉ）とｄ_ＲＣ ^（ｉ）を計算する。

ただし、ｄ_ＬＣ ^（ｉ）とｄ_ＲＣ ^（ｉ）はそれぞれ、ＦＬとＦＣとの正規化相関係数、ＦＲとＦＣとの正規化相関係数である。また、Ｘ_Ｃ（ｋ）はＦＣの音声信号波形について、ＦＲやＦＬと同様にして、同時刻のセグメントに対し、数式(3)と同様に離散フーリエ変換を行った後の、周波数領域の信号である。

そして、音声信号分離抽出部７２における相関信号抽出部７２ｂが、その分析の結果に基づき、ＦＬ，ＦＲ，ＦＣ間の相関が高いか否かの判定処理を実行する（ステップＳ１５５）。ステップＳ１５５では、相関信号抽出部７２ｂは、ｄ^（ｉ）＞ρかつｄ_ＬＣ ^（ｉ）・ｄ_ＲＣ ^（ｉ）＞σ（ただし、ρ、σは１に近い定数）の条件を満たすか否かを判定する。ステップＳ１５５でＹＥＳの場合、すなわち、ＦＬ、ＦＲ、ＦＣの３つの音声信号の相関が非常に高い場合には、ＦＬとＦＲの相関係数に０を代入、つまりｄ^（ｉ）＝０とし（ステップＳ１５６）、それ以降の処理を実行する。ステップＳ１５５でＮＯの場合にはそのまま以降の処理を実行する。

こうすることによって、上述のようにＦＲ及びＦＬの音声信号がＦＣの音声信号と殆ど同一となる場合には、ＦＲ及びＦＬの相関が無いと見做し、上述の例ではＦＲ及びＦＬの音声信号はそれぞれ両端の仮想音源から出力されるため、編集者の意図した音の拡がりを損ねることなく音声を再生することが可能となる。

ｄ^（ｉ）＞ρのみにｄ^（ｉ）＝０とするのは、ＦＬ，ＦＣ，ＦＲの３つの信号が似通っている部分を抽出したいためである。したがって、ｄ^（ｉ）とｄ_ＬＣ ^（ｉ）とｄ_ＲＣ ^（ｉ）との３つの相関係数の積を取り、ｄ^（ｉ）＞ρかつｄ_ＬＣ ^（ｉ）＞σかつｄ_ＲＣ ^（ｉ）＞σという判断を行ってもよい。

なお、頻度は非常に少ないものの、もし、５.１ｃｈの音声信号自体がｄ_ＬＣ ^（ｉ）とｄ_ＲＣ ^（ｉ）とが大幅に異なるような信号であった場合でも、同様にｄ^（ｉ）＝０としても問題ない。ｄ^（ｉ）＝０とすることによって，ＦＬチャネルは左端の仮想音源から，ＦＣチャネルは中央の仮想音源から，ＦＲチャネルは右端の仮想音源からそれぞれ出力されることになり、５.１ｃｈの出力と同じとなり、５.１ｃｈの出力より悪くなることはない。瞬間的にそのような音像が作られる場面においては、その継続時間の短さ故に、大きな問題とはならない。もし、連続的にそのような音像が作られる場面が存在したとしても、連続であるが故に閾値判断による切り替えは頻繁に行われないため、違和感は感じずに済む。

このように、上述した音声信号分離抽出部７２における相関信号抽出部７２ｂは、２つのチャネルの音声信号の相関係数を算出する際に、２つのチャネルの音声信号と残り１つのチャネルの入力音声信号との相関関係に応じて、相関係数を変化させる。これにより、どのような３つのチャネルの入力音声信号に対しても、スピーカ群を用いて波面合成再生方式などの再生方式で再生する際に、適切な音像を提供できる音声信号に変換することが可能になる。

特に、上記相関関係は、２つのチャネルの音声信号それぞれに対する残り１つのチャネルの音声信号との相関係数の値が所定の閾値以上であるか否か、で判断される関係であることが好ましい。つまり、両者の積がσより大きいか否か、もしくは双方がσより大きいか否かで例示したように、相関信号抽出部７２ｂは、２つのチャネルそれぞれに対する残り１つのチャネルとの相関係数の値が所定の閾値以上であるか否かに応じて、相関係数を変化させることが好ましい。なお、相関関係だけでなく、場合によっては、２つのチャネルの音声信号と残り１つのチャネルの入力音声信号とに関する、コンテンツの部分的な中身を示す情報に応じて、相関係数を変化させてもよい。

このように、音声信号分析部７１が音声信号分離抽出部７２に入力されたＦＲとＦＬの信号を参照してＦＣの信号を分析し、音声信号分離抽出部７２がその分析の結果に基づく判定処理を伴うような処理を施すことで、結果的に、音声出力信号生成部７４が上記分析の結果に基づいた最適なＦＣ信号加算処理を行うことができる。

次に、本発明の実装について簡単に説明する。以上、本発明に係る音声信号変換処理について、入力音声信号が５.１ｃｈの音声信号である例を挙げて説明した。これは、上述したように、映画コンテンツなどに使用されているのは５.１ｃｈであるためである。

図１６は、５.１ｃｈの音声信号を波面合成再生方式で再生する際に、使用するスピーカ群と仮想音源との位置関係の例を説明するための模式図である。５.１ｃｈのスピーカの配置方法については一般的に図２のように配置されることが多く、受聴者の前方には３つのスピーカ２１Ｌ，２２Ｃ，２１Ｒが並び、サブウーハー２２Ｂも配置されている。そして、映画などのコンテンツでは特に、前方中央のいわゆるセンターチャネルは人の台詞音声などの用途で使用されることが多い。つまり、センターチャネルと左チャネル、あるいはセンターチャネルと右チャネルの間で合成音像を生じさせるような音圧制御がされている箇所はあまり多くない。

この性質を利用して、図１６で示す位置関係１６０のように、５.１ｃｈの前方左右のスピーカ１６２ａ，１６２ｃへの入力音声信号を音声信号分離抽出部７２等によって変換し、例えば５つの仮想音源１６３ａ〜１６３ｅ（図１１の仮想音源１１２ａ〜１１２ｅに該当）に割り当てた後、真ん中の仮想音源１６３ｃにセンターチャネル（センタースピーカ用のチャネル）の音声信号を加算する。そのようにして、出力音声信号を仮想音源に対する音像として波面合成再生方式でスピーカアレイ１６１により再生する。そして図６で説明したように、ＢＬ，ＢＲ及びＬＦＥの入力音声信号については、５.１ｃｈと同じくスピーカ１６２ｄ，１６２ｅ及びサブウーハー１６４を設置し、そこから何も手を加えずに出力するなどすればよい。このように、図６及び図７の音声信号処理部６３での処理対象となる３つのチャネルの入力音声信号は、５.１ｃｈサラウンド音響信号のうち、前方の左、右、中央の３つのチャネルの入力音声信号であることが好ましい。ここで、２つのチャネルの入力音声信号は、前方左右のチャネルの入力音声信号とし、残り１つのチャネルの入力音声信号は、前方中央のチャネルの入力音声信号とする。

ただし、本発明は、５.１ｃｈに限らず、３チャネル以上の入力音声信号であれば適用できる。７．１ｃｈでの処理の一例を説明すると、ＬＦＥとＢＲ，ＢＬの音声信号はそのまま各スピーカから出力し、ＦＲ，ＦＣ，ＦＬの音声信号は５．１ｃｈと同様に処理し、左右のサイドのスピーカ用の音声信号もそのまま左右のサイドのスピーカからそのまま出力すればよい。

本発明は、例えばテレビなど映像の伴う装置に利用できる。本発明を適用可能な装置の様々な例について、図１７〜図２１を参照しながら説明する。図１７〜図２０は、それぞれ図６の音声データ再生装置を備えたテレビ装置の構成例を示す図で、図２１は、図６の音声データ再生装置を備えたテレビボードとテレビ装置とでなるシステムの構成例を示す図である。なお、図１７〜図２１のいずれにおいても、スピーカアレイとしてＬＳＰ１〜ＬＳＰ８で示す８個のスピーカを配列した例を挙げているが、スピーカの数は複数であればよい。

本発明に係る音声信号変換装置やそれを備えた音声データ再生装置はテレビ装置に利用できる。テレビ装置におけるこれらの装置の配置は自由に決めればよい。図１７で示すテレビ装置１７０のように、テレビ画面１７１の下方に、音声データ再生装置におけるスピーカＬＳＰ１〜ＬＳＰ８を直線状に並べたスピーカ群（スピーカアレイ）１７２を設けてもよい。図１８で示すテレビ装置１８０のように、テレビ画面１８１の上方に、音声データ再生装置におけるスピーカＬＳＰ１〜ＬＳＰ８を直線状に並べたスピーカアレイ１８２を設けてもよい。図１９で示すテレビ装置１９０のように、テレビ画面１９１に、音声データ再生装置における透明のフィルム型スピーカＬＳＰ１〜ＬＳＰ８を水平方向に直線状に並べたスピーカアレイ１９２を埋め込んでもよい。フィルム型スピーカは、画面に貼るタイプの圧電素子などにより実現できる。スピーカアレイ１９２の代わりに、図２０で示すテレビ装置２００のように、テレビ画面２０１の全面に透明のフィルム型スピーカＬＳＰ１〜ＬＳＰ８を水平方向に直線状に並べたスピーカアレイ２０２を埋め込んでもよい。

また、本発明に係る音声信号変換装置やそれを備えた音声データ再生装置は、図示しないが映像投影システムに利用できる。映像投影システムに利用する場合、映像投射装置で映像を投射する投射用スクリーンにスピーカアレイを埋め込んでもよいし、音透過型のスクリーンの後ろにスピーカアレイを配置してもよい。そのほか、本発明に係る音声信号変換装置やそれを備えた音声データ再生装置は、テレビ台（テレビボード）に埋め込むこともできる。図２１で示すシステム（ホームシアターシステム）２１０のように、テレビ装置２１１を搭載するためのテレビ台２１２ａにスピーカＬＳＰ１〜ＬＳＰ８を並べたスピーカアレイ２１２ｂを埋め込むようにしてもよい。さらに、本発明に係る音声信号変換装置やそれを備えた音声データ再生装置は、車内のダッシュボードにスピーカアレイを曲線状に並べるように配置するなどして、カーオーディオに適用することもできる。

いずれのスピーカアレイを採用する場合にも、サブウーハーも別途配置すればよいが、スピーカアレイと離間した位置に設置してもよいし、例えばＬＰＳ４とＬＰＳ５との間などスピーカアレイと同列に設置するなどしてもよい。

また、図１７〜図２１を参照して説明したような装置などに本発明に係る音声信号変換処理を適用した際、受聴者は本発明に係る変換処理を行うか行わないかについて、装置本体に備えられたボタン操作やあるいはリモートコントローラ操作などでなされたユーザ操作により切り替える切替部を設けることもできる。この変換処理を行わない場合、左右２つのチャネルについてはアレイスピーカの両端のスピーカのみを用いて再生し、センターチャネルについては真ん中の１つか２つのスピーカのみを用いて再生するなどすればよい。

また、本発明で適用可能な波面合成再生方式としては、上述したようにスピーカアレイ（複数のスピーカ）を備えて仮想音源に対する音像としてそれらのスピーカから出力するようにする方式であればよく、非特許文献１に記載のＷＦＳ方式の他、人間の音像知覚に関する現象としての先行音効果（ハース効果）を利用した方式など様々な方式が挙げられる。ここで、先行音効果とは、同一の音声を複数の音源から再生し、音源それぞれから聴取者に到達する各音声に小さな時間差がある場合、先行して到達した音声の音源方向に音像が定位する効果を指し示したものである。この効果を利用すれば、仮想音源位置に音像を知覚させることが可能となる。ただし、その効果だけで音像を明確に知覚させることは難しい。ここで、人間は音圧を最も高く感じる方向に音像を知覚するという性質も持ち合わせている。したがって、音声データ再生装置において、上述の先行音効果と、この最大音圧方向知覚の効果とを組み合わせ、これにより、少ない数のスピーカでも仮想音源の方向に音像を知覚させることが可能になる。

以上、本発明に係る音声信号変換装置が、３チャネル以上のマルチチャネル方式用の音声信号に対して波面合成再生方式で再生させるための音声信号に変換することを前提にして説明したが、本発明は、他の再生方式用の音声信号（チャネル数が３チャネルより多い音声信号）に変換する場合などにも同様に適用できる。変換後の音声信号としては、配置は問わないが、本発明の主な変換処理の対象となる３つのチャネルの音声信号から適切な音像を提供するために、好ましくは４つ以上の仮想音源の音像としてスピーカ群により再生させるための音声信号となる。このように変換された音声信号の再生方法としては、例えば１つ１つの仮想音源用に抽出した信号に対し、それぞれ１つずつスピーカを対応させて波面合成再生方式ではなく普通に出力再生させることも考えられる。

これにより、波面合成再生方式でなくても、左右のスピーカ用の入力音声信号が適切に割り振られかつセンタースピーカ用の入力音声信号が適切に処理でき、適切な音像を提供することができる。また、このような変換の場合にも上述のような離散フーリエ変換・逆変換を施し且つ相関信号を得るために直流成分を無視することがあるため、上述したようなノイズ処理を施せばよい。

また、例えば図７で例示した音声信号処理部６３における各構成要素など、本発明に係る音声信号変換装置の各構成要素やその装置を備えた音声データ再生装置の各構成要素は、例えばマイクロプロセッサ（またはＤＳＰ：Digital Signal Processor）、メモリ、バス、インターフェイス、周辺装置などのハードウェアと、これらのハードウェア上にて実行可能なソフトウェアとにより実現できる。上記ハードウェアの一部または全部は集積回路／ＩＣ（Integrated Circuit）チップセットとして搭載することができ、その場合、上記ソフトウェアは上記メモリに記憶しておければよい。また、本発明の各構成要素の全てをハードウェアで構成してもよく、その場合についても同様に、そのハードウェアの一部または全部を集積回路／ＩＣチップセットとして搭載することも可能である。

また、上述した様々な構成例における機能を実現するためのソフトウェアのプログラムコードを記録した記録媒体を、音声信号変換装置となる汎用コンピュータ等の装置に供給し、その装置内のマイクロプロセッサまたはＤＳＰによりプログラムコードが実行されることによっても、本発明の目的が達成される。この場合、ソフトウェアのプログラムコード自体が上述した様々な構成例の機能を実現することになり、このプログラムコード自体や、プログラムコードを記録した記録媒体（外部記録媒体や内部記憶装置）であっても、そのコードを制御側が読み出して実行することで、本発明を構成することができる。外部記録媒体としては、例えばＣＤ−ＲＯＭまたはＤＶＤ−ＲＯＭなどの光ディスクやメモリカード等の不揮発性の半導体メモリなど、様々なものが挙げられる。内部記憶装置としては、ハードディスクや半導体メモリなど様々なものが挙げられる。また、プログラムコードはインターネットからダウンロードして実行することや、放送波から受信して実行することもできる。

以上、本発明に係る音声信号変換装置について説明したが、処理の流れをフロー図で例示したように、本発明は、３つのチャネルの入力音声信号を、スピーカ群によって再生させるための音声信号に変換する音声信号変換方法としての形態も採り得る。

この音声信号変換方法は、次の変換ステップ、抽出ステップ、逆変換ステップ、及び加算ステップを有する。変換ステップは、変換部が、３つのチャネルのうち２つのチャネルの入力音声信号に離散フーリエ変換を施すステップである。抽出ステップは、相関信号抽出部が、変換ステップで離散フーリエ変換後の２つのチャネルの音声信号について、相関信号を抽出するステップである。ここで、抽出ステップは、上記２つのチャネルの音声信号の相関係数を算出する際に、上記２つのチャネルの音声信号と残り１つのチャネルの入力音声信号との相関関係に応じて、相関係数を変化させる。逆変換ステップは、逆変換部が、抽出ステップで抽出された相関信号または相関信号及び無相関信号に対して、もしくは相関信号から生成された音声信号に対して、もしくは相関信号及び無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施すステップである。加算ステップは、加算部が、逆変換ステップで離散フーリエ逆変換後の音声信号に残り１つのチャネルの入力音声信号を加算するステップである。その他の応用例については、音声信号変換装置について説明した通りであり、その説明を省略する。

なお、上記プログラムコード自体は、換言すると、この音声信号変換方法をコンピュータに実行させるためのプログラムである。すなわち、このプログラムは、コンピュータに、３つのチャネルのうち２つのチャネルの入力音声信号に離散フーリエ変換を施す変換ステップと、変換ステップで離散フーリエ変換後の２つのチャネルの音声信号について、相関信号を抽出する抽出ステップと、抽出ステップで抽出された相関信号または相関信号及び無相関信号に対して、もしくは相関信号から生成された音声信号に対して、もしくは相関信号及び無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施す逆変換ステップと、逆変換ステップで離散フーリエ逆変換後の音声信号に残り１つのチャネルの入力音声信号を加算する加算ステップと、を実行させるためのプログラムである。ここでも、抽出ステップは、上記２つのチャネルの音声信号の相関係数を算出する際に、上記２つのチャネルの音声信号と残り１つのチャネルの入力音声信号との相関関係に応じて、相関係数を変化させる。

６０…音声データ再生装置、６１…デコーダ、６２…音声信号抽出部、６３…音声信号処理部、６４，６７…Ｄ／Ａコンバータ、６５，６８Ｌ，６８Ｒ，６８Ｂ…増幅器、６６，６９Ｌ，６９Ｒ，６９Ｂ…スピーカ、７１…音声信号分析部、７２…音声信号分離抽出部、７２ａ…変換部、７２ｂ…相関信号抽出部、７２ｃ…逆変換部、７３…雑音除去部、７４…音声出力信号生成部、７４ａ…加算部。

Claims

３つのチャネルの入力音声信号を、スピーカ群により再生させるために変換する音声信号変換装置であって、
前記３つのチャネルのうち２つのチャネルの入力音声信号に離散フーリエ変換を施す変換部と、
該変換部で離散フーリエ変換後の２つのチャネルの音声信号について、相関信号を抽出する相関信号抽出部と、
該相関信号抽出部で抽出された相関信号または該相関信号及び無相関信号に対して、もしくは前記相関信号から生成された音声信号に対して、もしくは前記相関信号及び前記無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施す逆変換部と、
該逆変換部で離散フーリエ逆変換後の音声信号に残り１つのチャネルの入力音声信号を加算する加算部と、
を備え、
前記相関信号抽出部は、前記２つのチャネルの音声信号の相関係数を算出する際に、該２つのチャネルの音声信号と前記残り１つのチャネルの入力音声信号との相関関係に応じて、相関係数を変化させることを特徴とする音声信号変換装置。
前記２つのチャネルの音声信号と前記残り１つのチャネルの音声信号との前記相関関係は、前記２つのチャネルの音声信号それぞれに対する前記残り１つのチャネルの音声信号との相関係数の値が所定の閾値以上であるか否か、で判断される相関関係であることを特徴とする請求項１に記載の音声信号変換装置。
前記３つのチャネルの入力音声信号は、５.１ｃｈサラウンド音響信号のうち、前方の左、右、中央の３つのチャネルの入力音声信号であり、
前記２つのチャネルの入力音声信号は、前方左右のチャネルの入力音声信号であり、
前記残り１つのチャネルの入力音声信号は、前方中央のチャネルの入力音声信号であることを特徴とする請求項１または２に記載の音声信号変換装置。
３つのチャネルの入力音声信号を、スピーカ群により再生させるために変換する音声信号変換方法であって、
変換部が、前記３つのチャネルのうち２つのチャネルの入力音声信号に離散フーリエ変換を施す変換ステップと、
相関信号抽出部が、前記変換ステップで離散フーリエ変換後の２つのチャネルの音声信号について、相関信号を抽出する抽出ステップと、
逆変換部が、前記抽出ステップで抽出された相関信号または該相関信号及び無相関信号に対して、もしくは前記相関信号から生成された音声信号に対して、もしくは前記相関信号及び前記無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施す逆変換ステップと、
加算部が、前記逆変換ステップで離散フーリエ逆変換後の音声信号に残り１つのチャネルの入力音声信号を加算する加算ステップと、
を有し、
前記抽出ステップは、前記２つのチャネルの音声信号の相関係数を算出する際に、該２つのチャネルの音声信号と前記残り１つのチャネルの入力音声信号との相関関係に応じて、相関係数を変化させることを特徴とする音声信号変換方法。
３つのチャネルの入力音声信号を、スピーカ群により再生させるために変換するプログラムであって、
該プログラムは、コンピュータに、
３つのチャネルのうち２つのチャネルの入力音声信号に離散フーリエ変換を施す変換ステップと、
該変換ステップで離散フーリエ変換後の２つのチャネルの音声信号について、相関信号を抽出する抽出ステップと、
該抽出ステップで抽出された相関信号または該相関信号及び無相関信号に対して、もしくは前記相関信号から生成された音声信号に対して、もしくは前記相関信号及び前記無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施す逆変換ステップと、
該逆変換ステップで離散フーリエ逆変換後の音声信号に残り１つのチャネルの入力音声信号を加算する加算ステップと、
を実行させるためのプログラムであり、
前記抽出ステップは、前記２つのチャネルの音声信号の相関係数を算出する際に、該２つのチャネルの音声信号と前記残り１つのチャネルの入力音声信号との相関関係に応じて、相関係数を変化させることを特徴とするプログラム。
請求項５に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。