JP2013055439A

JP2013055439A - 音声信号変換装置、方法、プログラム、及び記録媒体

Info

Publication number: JP2013055439A
Application number: JP2011191263A
Authority: JP
Inventors: Sumio Sato; 純生佐藤
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2011-09-02
Filing date: 2011-09-02
Publication date: 2013-03-21

Abstract

【課題】マルチチャネル方式用の音声信号を、不連続点に起因するノイズを発生させることなく変換することが可能な音声信号変換装置を提供する。
【解決手段】音声信号変換装置（音声信号処理部１１３で例示）は、２つのチャネルの入力音声信号に離散フーリエ変換を施す変換部と、変換部で離散フーリエ変換後の２つのチャネルの音声信号について、直流成分を無視して相関信号を抽出する相関信号抽出部と、相関信号抽出部で抽出された相関信号またはその相関信号及び無相関信号に対して、もしくはその相関信号またはその相関信号及びその無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施す逆変換部と、離散フーリエ逆変換後の音声信号における処理セグメント内の１点の値または複数点の値の平均値を、該処理セグメント内の各値から減算することで、離散フーリエ逆変換後の音声信号から波形の不連続点を除去する雑音除去部１２２とを備える。
【選択図】図１２

Description

本発明は、マルチチャネル再生方式用の音声信号を変換するための音声信号変換装置、方法、プログラム、及び記録媒体に関する。

従来から提案されている音響再生方式には、ステレオ（２ｃｈ）方式、５.１ｃｈサラウンド方式（ＩＴＵ−ＲＢＳ.７７５−１）などがあり広く民生用として普及している。２ｃｈ方式とは、図１で模式的に図示したように、左スピーカ１１Ｌと右スピーカ１１Ｒから異なる音声データを発生させる方式である。５.１ｃｈサラウンド方式とは、図２で模式的に図示したように、左フロントスピーカ２１Ｌ、右フロントスピーカ２１Ｒ、それらの間に配置するセンタースピーカ２２Ｃ、左リアスピーカ２３Ｌ、右リアスピーカ２３Ｒ、及び図示しない低音域（一般的に２０Ｈｚ〜１００Ｈｚ）専用のサブウーファーに対し、それぞれ異なる音声データを入力して出力する方式である。

また、２ｃｈ方式や５.１ｃｈサラウンド方式の他にも、７.１ｃｈ、９.１ｃｈ、２２.２ｃｈなどさまざまな音響再生方式が提案されている。上述した方式はいずれも、聴取者（受聴者）を中心とする円周上または球面上に各スピーカを配置し、理想的には各スピーカから等距離にある聴取位置（受聴位置）、いわゆるスイートスポットで聴くことが好ましいとされている。例えば２ｃｈ方式ではスイートスポット１２で、５.１ｃｈサラウンド方式ではスイートスポット２４で聴くことが好ましい。スイートスポットで聴くと、音圧のバランスによる合成音像が製作者の意図するところに定位する。逆に、スイートスポット以外の位置で聴くと、一般的に、音像・音質が劣化する。以下、これらの方式を総称してマルチチャネル再生方式と呼ぶ。

一方、マルチチャネル再生方式とは別に、音源オブジェクト指向再生方式もある。この方式は、全ての音が、いずれかの音源オブジェクトが発する音であるとする方式であり、各音源オブジェクト（以下、「仮想音源」と呼ぶ。）が自身の位置情報と音声信号とを含んでいる。音楽コンテンツを例にとると、各仮想音源は、それぞれの楽器の音と楽器が配置されている位置情報とを含む。
そして、音源オブジェクト指向再生方式は、通常、直線状あるいは面状に並べたスピーカ群によって音の波面を合成する再生方式（すなわち波面合成再生方式）により再生される。このような波面合成再生方式のうち、非特許文献１に記載のＷａｖｅＦｉｅｌｄＳｙｎｔｈｅｓｉｓ（ＷＦＳ）方式は、直線状に並べたスピーカ群（以下、スピーカアレイという）を用いる現実的な実装方法の１つとして近年盛んに研究されている。

このような波面合成再生方式は、上述のマルチチャネル再生方式とは異なり、図３で模式的に図示したように、並べられたスピーカ群３１の前のどの位置で聴いている受聴者に対しても、良好な音像と音質を両方同時に提示することができるという特長を持つ。つまり、波面合成再生方式でのスイートスポット３２は図示するように幅広くなっている。
また、ＷＦＳ方式によって提供される音響空間内においてスピーカアレイと対面して音を聴いている受聴者は、実際にはスピーカアレイから放射される音が、スピーカアレイの後方に仮想的に存在する音源（仮想音源）から放射されているかのような感覚を受ける。

この波面合成再生方式では、仮想音源を表す入力信号を必要とする。そして、一般的に、１つの仮想音源には１チャネル分の音声信号とその仮想音源の位置情報が含まれることを必要とする。上述の音楽コンテンツを例にとると、例えば楽器毎に録音された音声信号とその楽器の位置情報ということになる。ただし、仮想音源それぞれの音声信号は必ずしも楽器毎である必要はないが、コンテンツ製作者が意図するそれぞれの音の到来方向と大きさが、仮想音源という概念を用いて表現されている必要がある。

ここで、前述のマルチチャンネル方式の中でも最も広く普及している方式はステレオ（２ｃｈ）方式であるため、ステレオ方式の音楽コンテンツについて考察する。図４に示すように２つのスピーカ４１Ｌ，４１Ｒを用いて、ステレオ方式の音楽コンテンツにおけるＬ（左）チャネルとＲ（右）チャネルの音声信号を、それぞれ左に設置したスピーカ４１Ｌ、右に設置したスピーカ４１Ｒで再生する。このような再生を行うと、図４に示すように、各スピーカ４１Ｌ，４１Ｒから等距離の地点、すなわちスイートスポット４３で聴く場合にのみ、ボーカルの声とベースの音が真ん中の位置４２ｂから聞こえ、ピアノの音が左側の位置４２ａ、ドラムの音が右側の位置４２ｃなど、製作者が意図したように音像が定位して聞こえる。
このようなコンテンツを波面合成再生方式で再生し、波面合成再生方式の特長である、どの位置の受聴者に対してもコンテンツ製作者の意図通りの音像定位を提供することを考える。そのためには、図５で示すスイートスポット５３のように、どの視聴位置からでも図４のスイートスポット４３内で聴いたときの音像が知覚できなければならない。つまり、直線状あるいは面状に並べられたスピーカ群５１によって、広いスイートスポット５３で、ボーカルの声とベースの音が真ん中の位置５２ｂから聞こえ、ピアノの音が左側の位置５２ａ、ドラムの音が右側の位置５２ｃなど、製作者が意図したように音像が定位して聞こえなければならない。

その課題に対し、例えば、図６のようにＬチャネルの音、Ｒチャネルの音をそれぞれ仮想音源６２ａ，６２ｂとして配置した場合を考える。この場合、Ｌ／Ｒチャネルそれぞれが単体で１つの音源を表すのではなく２つのチャンネルによって合成音像を生成するものであるから、それを波面合成再生方式で再生したとしても、やはりスイートスポット６３が生成されてしまい、スイートスポット６３の位置でしか、図４のような音像定位はしない。つまり、そのような音像定位を実現するには、２ｃｈのステレオデータから、何らかの手段によって音像毎の音声に分離し、各音声から仮想音源データを生成することが必要となる。

この課題に対し、特許文献１に記載の方法では、２ｃｈステレオデータを周波数帯域毎に信号のパワーの相関係数を基に相関信号と無相関信号とに分離し、相関信号については合成音像方向を推定し、それらの結果から仮想音源を生成している。

欧州特許出願公開第１７６１１１０号明細書

A. J. Berkhout, D. de Vries, and P. Vogel, "Acoustic control by wave field synthesis", J. Acoust. Soc. Am. Volume 93(5), アメリカ合衆国、Acoustical Society of America, May 1993, pp. 2764-2778

しかしながら、特許文献１に記載の方法では、元の音声信号の分析の際、離散フーリエ変換後の左右チャネルの直流成分を無視している。図７は、音声信号を離散フーリエ変換したときの結果の一例を示す模式図である。図７において、鉛直方向の軸は実部、手前方向の軸は虚部を表しており、符号７１は直流成分を示している。特許文献１に記載の方法では、この直流成分７１を無視するため、フーリエ逆変換後のセグメント間の波形の連続性が保証されず、セグメントの境界では波形が不連続となる。低い帯域の信号が多く含まれるコンテンツでは特に、生成した音声信号波形には不連続点が多く含まれ、それらはノイズとして知覚されてしまう。

図８に示す音楽コンテンツ８０の例で、このノイズについて説明する。音楽コンテンツ８０における左チャネルの音声信号８１及び右チャネルの音声信号８２を、特許文献１に記載の方法を用いて例えば５つのチャネルに変換すると、図９に示す音楽コンテンツ９０のような結果になる。音楽コンテンツ９０は、５つのチャネルの音声信号９１〜９５を有することになる。そして、図１０は、図９の上から３番目のチャネルの音声信号９３における９秒付近を拡大したものであるが、図１０に示す音声信号１００では、中央付近１０１にあるように不連続点が生じている。このような不連続点が多数含まれてしまうため、耳障りなノイズとして知覚されてしまう。

このような問題は、マルチチャネル方式用の音声信号に対して、波面合成再生方式で再生させるための音声信号に変換する場合に限ったものではなく、同じくマルチチャネル方式用（チャネル数は同じでも異なってもよい）の音声信号に変換する場合にも生じ得る。それは、このような変換の場合にも上述のような離散フーリエ変換・逆変換を施し且つ左右チャネルの直流成分を無視することがあるためである。

本発明は、上述のような実状に鑑みてなされたものであり、その目的は、２ｃｈや５.１ｃｈ等のマルチチャネル方式用の音声信号を、不連続点に起因するノイズを発生させることなく変換することが可能な音声信号変換装置、方法、プログラム、及び記録媒体を提供することにある。

上述したような課題を解決するために、本発明の第１の技術手段は、マルチチャネルの入力音声信号を、スピーカ群によって再生させるための音声信号に変換する音声信号変換装置であって、２つのチャネルの入力音声信号に離散フーリエ変換を施す変換部と、該変換部で離散フーリエ変換後の２つのチャネルの音声信号について、直流成分を無視して相関信号を抽出する相関信号抽出部と、該相関信号抽出部で抽出された相関信号または該相関信号及び無相関信号に対して、もしくは前記相関信号から生成された音声信号に対して、もしくは前記相関信号及び前記無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施す逆変換部と、該逆変換部で離散フーリエ逆変換後の音声信号における処理セグメント内の１点の値または複数点の値の平均値を、該処理セグメント内の各値から減算することで、前記離散フーリエ逆変換後の音声信号から波形の不連続点を除去する除去部と、を備えたことを特徴としたものである。

第２の技術手段は、第１の技術手段において、前記平均値は、前記処理セグメントの少なくとも両端点の値を平均した値であることを特徴としたものである。

第３の技術手段は、第１または第２の技術手段において、前記マルチチャネルの入力音声信号は３つ以上のチャネルの入力音声信号とし、前記マルチチャネルの入力音声信号のうちいずれか２つの入力音声信号に対して、前記変換部、前記相関信号抽出部、前記逆変換部、及び前記除去部により前記不連続点の除去を行って、前記スピーカ群によって再生させるための音声信号を生成し、前記音声信号変換装置は、生成された音声信号に残りのチャネルの入力音声信号を加算する加算部をさらに備えたことを特徴としたものである。

第４の技術手段は、第１〜第３のいずれか１の技術手段において、前記マルチチャネルの入力音声信号を含むディジタルコンテンツを入力するディジタルコンテンツ入力部と、ディジタルコンテンツを復号化するデコーダ部と、該デコーダ部で復号化したディジタルコンテンツから音声信号を分離する音声信号抽出部と、該音声信号抽出部で抽出した音声信号から、３チャネル以上で且つ前記入力音声信号とは異なるマルチチャネルの音声信号に変換する音声信号処理部とをさらに備え、該音声信号処理部は、前記変換部、前記相関信号抽出部、前記逆変換部、及び前記除去部を備えることを特徴としたものである。

第５の技術手段は、第４の技術手段において、前記ディジタルコンテンツ入力部は、ディジタルコンテンツを格納する記録媒体、ネットワークを介してディジタルコンテンツを配信するサーバまたはディジタルコンテンツを放送する放送局からディジタルコンテンツを入力することを特徴としたものである。

第６の技術手段は、第１〜第５のいずれか１の技術手段において、前記変換部、前記相関信号抽出部、前記逆変換部、及び前記除去部を備えた音声信号処理部における処理を実行するか否かを、ユーザ操作に応じて切り替える切替部をさらに備えたことを特徴としたものである。

第７の技術手段は、マルチチャネルの入力音声信号を、スピーカ群によって再生させるための音声信号に変換する音声信号変換方法であって、変換部が、２つのチャネルの入力音声信号に離散フーリエ変換を施す変換ステップと、相関信号抽出部が、前記変換ステップで離散フーリエ変換後の２つのチャネルの音声信号について、直流成分を無視して相関信号を抽出する抽出ステップと、逆変換部が、前記抽出ステップで抽出された相関信号または該相関信号及び無相関信号に対して、もしくは前記相関信号から生成された音声信号に対して、もしくは前記相関信号及び前記無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施す逆変換ステップと、除去部が、前記逆変換ステップで離散フーリエ逆変換後の音声信号における処理セグメント内の１点の値または複数点の値の平均値を、該処理セグメント内の各値から減算することで、前記離散フーリエ逆変換後の音声信号から波形の不連続点を除去する除去ステップと、を有することを特徴としたものである。

第８の技術手段は、コンピュータに、２つのチャネルの入力音声信号に離散フーリエ変換を施す変換ステップと、該変換ステップで離散フーリエ変換後の２つのチャネルの音声信号について、直流成分を無視して相関信号を抽出する抽出ステップと、該抽出ステップで抽出された相関信号または該相関信号及び無相関信号に対して、もしくは前記相関信号から生成された音声信号に対して、もしくは前記相関信号及び前記無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施す逆変換ステップと、該逆変換ステップで離散フーリエ逆変換後の音声信号における処理セグメント内の１点の値または複数点の値の平均値を、該処理セグメント内の各値から減算することで、前記離散フーリエ逆変換後の音声信号から波形の不連続点を除去する除去ステップと、を実行させるためのプログラムである。
第９の技術手段は、第８の技術手段におけるプログラムを記録したコンピュータ読み取り可能な記録媒体である。

本発明によれば、２ｃｈや５.１ｃｈ等のマルチチャネル方式用の音声信号を、不連続点に起因するノイズを発生させることなく変換することが可能になる。

２ｃｈ方式を説明するための模式図である。５.１ｃｈサラウンド方式を説明するための模式図である。波面合成再生方式を説明するための模式図である。ボーカル、ベース、ピアノ、及びドラムの音がステレオ方式で記録された音楽コンテンツを、左右２つのスピーカを用いて再生する様子を示す模式図である。図４の音楽コンテンツを波面合成再生方式で再生した際の、理想的なスイートスポットの様子を示す模式図である。図４の音楽コンテンツにおける左／右チャネルの音声信号をそれぞれ左／右スピーカの位置に仮想音源を設定して波面合成再生方式で再生した際の、実際のスイートスポットの様子を示す模式図である。音声信号を離散フーリエ変換したときの結果の一例を示す模式図である。左チャネル及び右チャネルの音声信号でなる音楽コンテンツの波形の一例を示す図である。従来の方法を用いて、図８の音楽コンテンツを５つのチャネルに変換した結果の波形を示す図である。図９の音楽コンテンツのうち１つのチャネルの音声信号の一部を拡大した図である。本発明に係る音声信号変換装置を備えた音声データ再生装置の一構成例を示すブロック図である。図１１の音声データ再生装置における音声信号処理部（本発明に係る音声信号変換装置）の一構成例を示すブロック図である。図１２の音声信号処理部における音声信号分離抽出部及び雑音除去部での音声信号処理の一例を説明するためのフロー図である。図１２の音声信号処理部において音声データをバッファに蓄える様子を示す図である。受聴者と左右のスピーカと合成音像との位置関係の例を説明するための模式図である。波面合成再生方式で使用するスピーカ群と仮想音源との位置関係の例を説明するための模式図である。図１６の仮想音源と受聴者及び合成音像との位置関係の例を説明するための模式図である。左右チャネルの音声信号を離散フーリエ変換し左右チャネルの直流成分を無視した場合に、離散フーリエ逆変換後のセグメント境界に生じる波形の不連続点を説明するための模式図である。本発明に係る不連続点除去処理を施す離散フーリエ逆変換後のセグメントを示す図である。本発明に係る不連続点除去処理の一例を説明するための模式図である。図９の音楽コンテンツ（変換後）のうち１つのチャネルの音声信号の一部を拡大した図で、図１０の音声信号に本発明に係る不連続点除去処理を施した例を説明するための図である。５.１ｃｈの音声信号を波面合成再生方式で再生する際に、使用するスピーカ群と仮想音源との位置関係の例を説明するための模式図である。図１１の音声データ再生装置を備えたテレビ装置の構成例を示す図である。図１１の音声データ再生装置を備えたテレビ装置の他の構成例を示す図である。図１１の音声データ再生装置を備えたテレビ装置の他の構成例を示す図である。図１１の音声データ再生装置を備えた映像投影システムの構成例を示す図図１１の音声データ再生装置を備えた映像投影システムの他の構成例を示す図である。図１１の音声データ再生装置を備えたテレビボードとテレビ装置とでなるシステムの構成例を示す図図１１の音声データ再生装置を備えた自動車の例を示す図である。図１１の音声データ再生装置における再生対象のスピーカの例を示す図である。

本発明に係る音声信号変換装置は、マルチチャネル再生方式用の音声信号を、チャネル数の同じまたは異なるスピーカ群で再生するための音声信号や波面合成再生方式用の音声信号などに変換する装置であって、音声信号処理装置、音声データ変換装置などとも呼べ、音声データ再生装置に組み込むことができる。なお、音声信号とは、当然、いわゆる音声を記録した信号に限ったものではなく、音響信号とも呼べる。また、波面合成再生方式とは、上述したように直線状または面状に並べたスピーカ群によって音の波面を合成する再生方式である。

以下、図面を参照しながら、本発明に係る音声信号変換装置の構成例及び処理例について説明する。また、以下の説明では、まず、本発明に係る音声信号変換装置が、変換により波面合成再生方式用の音声信号を生成する例を挙げる。
図１１は、本発明に係る音声信号変換装置を備えた音声データ再生装置の一構成例を示すブロック図で、図１２は、図１１の音声データ再生装置における音声信号処理部（本発明に係る音声信号変換装置）の一構成例を示すブロック図である。

図１１で例示する音声データ再生装置１１０は、デコーダ１１１、音声信号抽出部１１２、音声信号処理部１１３、Ｄ／Ａコンバータ１１４、増幅器群１１５、そしてスピーカ群１１６から構成される。デコーダ１１１は、音声のみあるいは音声付き映像のコンテンツを復号化し、信号処理可能な形式に変換し音声信号抽出部１１２に出力する。そのコンテンツは、放送局から送信されたデジタル放送のコンテンツや、ネットワークを介してディジタルコンテンツを配信するサーバからインターネットからダウンロードしたり、あるいは外部記憶装置等の記録媒体から読み込んだりすることによって取得する。このように、図１１では図示しないが、音声データ再生装置１１０は、マルチチャネルの入力音声信号を含むディジタルコンテンツを入力するディジタルコンテンツ入力部を備える。デコーダ１１１は、ここで入力されたディジタルコンテンツを復号化することになる。音声信号抽出部１１２では、得られた信号から音声信号を分離、抽出する。ここではそれは２ｃｈステレオ信号とする。その２チャネル分の信号を音声信号処理部１１３に出力する。

音声信号処理部１１３では、得られた２チャネル信号から、３チャネル以上で且つ入力音声信号とは異なるマルチチャネルの音声信号（以下の例では、仮想音源数分の信号として説明する）を生成する。つまり入力音声信号を別のマルチチャネルの音声信号に変換する。音声信号処理部１１３は、その音声信号をＤ／Ａコンバータ１１４に出力する。仮想音源の数は、ある一定以上の数があれば予め決めておいても性能上差し支えはないが、仮想音源数が多くなるほど演算量も多くなる。そのため実装する装置の性能を考慮してその数を決定することが望ましい。ここの例では、その数を５として説明する。

Ｄ／Ａコンバータ１１４では得られた信号をアナログ信号に変換し、それぞれの信号を増幅器１１５に出力する。各増幅器１１５では入力されたアナログ信号を拡声し各スピーカ１１６に伝送し、各スピーカ１１６から空間中に音として出力される。

この図における音声信号処理部の詳細な構成を図１２に示す。音声信号処理部１１３は、音声信号分離抽出部１２１、雑音除去部１２２、そして、音声出力信号生成部１２３から構成される。

音声信号分離抽出部１２１は２チャネルの信号から各仮想音源に対応する音声信号を生成し、それを雑音除去部１２２に出力する。雑音除去部１２２では、得られた音声信号波形から知覚上ノイズとなる部分を除去し、ノイズ除去後の音声信号を音声出力信号生成部１２３に出力する。音声出力信号生成部１２３では、得られた音声信号から各スピーカに対応するそれぞれの出力音声信号波形を生成する。音声出力信号生成部１２３では、波面合成再生処理などの処理が施され、例えば、得られた各仮想音源用の音声信号を各スピーカに割り当て、スピーカ毎の音声信号を生成する。波面合成再生処理の一部は音声信号分離抽出部１２１で担ってもよい。

次に、図１３に従って、音声信号分離抽出部１２１及び雑音除去部１２２での音声信号処理例を説明する。図１３は、図１２の音声信号処理部における音声信号分離抽出部及び雑音除去部での音声信号処理の一例を説明するためのフロー図で、図１４は、図１２の音声信号処理部において音声データをバッファに蓄える様子を示す図である。

まず、音声信号分離抽出部１２１は、１セグメントの半分の長さの音声データを、図１１における音声信号抽出部１１２での抽出結果から読み出す（ステップＳ１３１）。ここで、音声データとは、例えば４８ｋＨｚなどの標本化周波数で標本化された離散音声信号波形を指すものとする。そして、セグメントとは、ある一定の長さの標本点群からなる音声データ区間であり、ここでは後ほど離散フーリエ変換の対象となる区間長を指すものとし、処理セグメントとも呼ぶ。その値は例えば１０２４とする。この例では、１セグメントの半分の長さである５１２点の音声データが読み出し対象となる。

読み出した５１２点の音声データは図１４で例示するようなバッファ１４０に蓄えられる。このバッファは、直前の１セグメント分の音声信号波形を保持しておけるようになっており、それより過去のセグメントは捨てていく。直前の半セグメント分のデータと最新の半セグメント分のデータを繋げて１セグメント分の音声データを作成し、窓関数演算（ステップＳ１３２）に進む。すなわち、全ての標本データは窓関数演算に２回読み込まれることになる。

ステップＳ１３２における窓関数演算では、従来提案されている次のＨａｎｎ窓を１セグメント分の音声データに乗算する。
ここで、ｍは自然数、Ｍは１セグメント長で偶数とする。ステレオの入力信号をそれぞれｘ_Ｌ（ｍ）、ｘ_Ｒ（ｍ）とすると、窓関数乗算後の音声信号ｘ′_Ｌ（ｍ）、ｘ′_Ｒ（ｍ）は、

ｘ′_Ｌ（ｍ）＝ｗ（ｍ）ｘ_Ｌ（ｍ）、
ｘ′_Ｒ（ｍ）＝ｗ（ｍ）ｘ_Ｒ（ｍ） (2)
と計算される。このＨａｎｎ窓を用いると、例えば標本点ｍ_０（ただし、Ｍ／２≦ｍ_０＜Ｍ）の入力信号ｘ_Ｌ（ｍ_０）にはｓｉｎ^２（（ｍ_０／Ｍ）π）が乗算される。そして、その次の回の読み込みではその同じ標本点がｍ_０−Ｍ／２として読み込まれるので、

が乗算される。ここで、ｓｉｎ^２（（ｍ_０／Ｍ）π）＋ｃｏｓ^２（（ｍ_０／Ｍ）π）＝１であるから、もし、何も修正を加えずに読み込んだ信号を半セグメントずつずらして加算すれば、元の信号が完全に復元されることになる。

そうして得られた音声データを、次の数式(3)のように離散フーリエ変換し、周波数領域の音声データを得る（ステップＳ１３３）。ここで、ＤＦＴは離散フーリエ変換を表し、ｋは自然数で、０≦ｋ＜Ｍである。Ｘ_Ｌ（ｋ）、Ｘ_Ｒ（ｋ）は複素数となる。
Ｘ_Ｌ（ｋ）＝ＤＦＴ（ｘ′_Ｌ（ｎ））、
Ｘ_Ｒ（ｋ）＝ＤＦＴ（ｘ′_Ｒ（ｎ）） (3)

次に、得られた周波数領域の音声データを小さい帯域に分割し、分割した各帯域についてステップＳ１３５〜Ｓ１３８の処理を実行する（ステップＳ１３４ａ，Ｓ１３４ｂ）。具体的に個々の処理について説明する。

まず、分割方法についてはEquivalent Rectangular Band（ＥＲＢ）を用い、ＥＲＢの帯域幅で０Ｈｚから標本化周波数の１／２の周波数までの間を分割する。ここで、ＥＲＢにより、与えられた周波数の上限ｆ_ｍａｘ［Ｈｚ］までをいくつに分割するか、すなわちＥＲＢで分割した各帯域の索引の最大値Ｉは次式によって与えられる。
Ｉ＝ｆｌｏｏｒ（２１.４ｌｏｇ_１０（０.００４３７ｆ_ｍａｘ＋１）） (4)
ただし、ｆｌｏｏｒ（ａ）はフロア関数で、実数ａを越えない整数の最大値を表す。

そして、それぞれのＥＲＢ幅の帯域（以下、小帯域）の中心周波数Ｆ_ｃ ^（ｉ）（１≦ｉ≦Ｉ）［Ｈｚ］は次式によって与えられる。

また、その時のＥＲＢの帯域幅ｂ^（ｉ）［Ｈｚ］は次式によって求められる。
ｂ^（ｉ）＝２４.７（０.００４３７Ｆ_ｃ ^（ｉ）＋１） (6)
よって、その中心周波数から低域側と高域側にそれぞれＥＲＢ／２の周波数幅だけシフトすることによりｉ番目の小帯域の両側の境界周波数Ｆ_Ｌ ^（ｉ）、Ｆ_Ｕ ^（ｉ）を求めることができる。したがって、ｉ番目の小帯域には、Ｋ_Ｌ ^（ｉ）番目の線スペクトルからＫ_Ｕ ^（ｉ）番目の線スペクトルが含まれる。ここで、Ｋ_Ｌ ^（ｉ）、Ｋ_Ｕ ^（ｉ）はそれぞれ次の数式(7)、(8)で表される。
Ｋ_Ｌ ^（ｉ）＝ｃｅｉｌ（２１.４ｌｏｇ_１０（０.００４３７Ｆ_Ｌ ^（ｉ）＋１）） (7)
Ｋ_Ｕ ^（ｉ）＝ｆｌｏｏｒ（２１.４ｌｏｇ_１０（０.００４３７Ｆ_Ｕ ^（ｉ）＋１）） (8)
ただし、ｃｅｉｌ（ａ）は天井関数で、実数ａより小さくならない整数の最小値を表す。また、離散フーリエ変換した後の線スペクトルは、直流成分すなわち例えばＸ_Ｌ（０）を除いて、Ｍ／２（ただし、Ｍは偶数）を境に対称となっている。すなわち、Ｘ_Ｌ（ｋ）とＸ_Ｌ（Ｍ−ｋ）は０＜ｋ＜Ｍ／２の範囲で複素共役の関係になる。したがって、以下ではＫ_Ｕ ^（ｉ）≦Ｍ／２の範囲を分析の対象として考え、ｋ＞Ｍ／２の範囲については複素共役の関係にある対称の線スペクトルと同じ扱いとする。

これらの具体例を示す。例えば、標本化周波数が４８０００Ｈｚの場合、Ｉ＝４４となり、４４の小帯域に分割することとなる。ただし、最も高い小帯域区間よりもさらに上の周波数に相当する線スペクトル成分も存在するが、それらは聴感上の影響も殆ど無く、さらに通常は値が微小であるため、それらは最も高い小帯域区間に含めることとして差し支えない。

次に、このようにして決定される各小帯域において、左チャネルと右チャネルの正規化相関係数を次式で求めることで、相関係数を取得する（ステップＳ１３５）。

この正規化相関係数ｄ^（ｉ）は左右のチャネルの音声信号にどれだけ相関があるかを表すものであり、０から１の間の実数の値をとる。全く同じ信号同士であれば１、そして全く無相関の信号同士であれば０となる。ここで、左右のチャネルの音声信号の電力Ｐ_Ｌ ^（ｉ）とＰ_Ｒ ^（ｉ）の両方が０である場合、その小帯域に関して相関信号と無相関信号の抽出は不可能とし、処理を行わず次の小帯域の処理に移ることとする。また、Ｐ_Ｌ ^（ｉ）とＰ_Ｒ ^（ｉ）のいずれか片方が０である場合、数式(9)では演算不可能であるが、正規化相関係数ｄ^（ｉ）＝０とし、その小帯域の処理を続行する。

次に、この正規化相関係数ｄ^（ｉ）を用いて、左右チャネルの音声信号から相関信号と無相関信号をそれぞれ分離抽出するための変換係数を求め（ステップＳ１３６）、ステップＳ１３６で取得したそれぞれの変換係数を用いて、左右チャネルの音声信号から相関信号と無相関信号を分離抽出する（ステップＳ１３７）。相関信号及び無相関信号は、いずれも推定した音声信号として抽出すればよい。

ステップＳ１３６，Ｓ１３７の処理例を説明する。ここで、特許文献１と同様、左右チャネルそれぞれの信号は、無相関信号と相関信号から構成され、相関信号については左右から同じ信号が出力されるものとするモデルを採用する。そして、左右から出力される相関信号によって合成される音像は、その相関信号の左右それぞれの音圧のバランスによって方向が決定されるものとする。そのモデルに従うと、入力信号ｘ_Ｌ（ｎ）、ｘ_Ｒ（ｎ）は、
ｘ_Ｌ（ｍ）＝ｓ（ｍ）＋ｎ_Ｌ（ｍ）、
ｘ_Ｒ（ｍ）＝αｓ（ｍ）＋ｎ_Ｒ（ｍ） (13)
と表される。ここで、ｓ（ｍ）は左右の相関信号、ｎ_Ｌ（ｍ）は左チャネルの音声信号から相関信号ｓ（ｍ）を減算したものであって（左チャネルの）無相関信号として定義できるもの、ｎ_Ｒ（ｍ）は右チャネルの音声信号から相関信号ｓ（ｍ）にαを乗算したものを減算したものであって（右チャネルの）無相関信号として定義できるものである。また、αは相関信号の左右音圧バランスの程度を表す正の実数である。

数式(13)により、数式(2)で前述した窓関数乗算後の音声信号ｘ′_Ｌ（ｍ）、ｘ′_Ｒ（ｍ）は、次の数式(14)で表される。ただし、ｓ′（ｍ）、ｎ′_Ｌ（ｍ）、ｎ′_Ｒ（ｍ）はそれぞれｓ（ｍ）、ｎ_Ｌ（ｍ）、ｎ_Ｒ（ｍ）に窓関数を乗算したものである。
ｘ′_Ｌ（ｍ）＝ｗ（ｍ）｛ｓ（ｍ）＋ｎ_Ｌ（ｍ）｝＝ｓ′（ｍ）＋ｎ′_Ｌ（ｍ）、
ｘ′_Ｒ（ｍ）＝ｗ（ｍ）｛αｓ（ｍ）＋ｎ_Ｒ（ｍ）｝＝αｓ′（ｍ）＋ｎ′_Ｒ（ｍ）
(14)

数式(14)を離散フーリエ変換することによって、次の数式(15)を得る。ただし、Ｓ（ｋ）、Ｎ_Ｌ（ｋ）、Ｎ_Ｒ（ｋ）はそれぞれｓ′（ｍ）、ｎ′_Ｌ（ｍ）、ｎ′_Ｒ（ｍ）を離散フーリエ変換したものである。
Ｘ_Ｌ（ｋ）＝Ｓ（ｋ）＋Ｎ_Ｌ（ｋ）、
Ｘ_Ｒ（ｋ）＝αＳ（ｋ）＋Ｎ_Ｒ（ｋ） (15)

したがって、ｉ番目の小帯域における音声信号Ｘ_Ｌ ^（ｉ）（ｋ）、Ｘ_Ｒ ^（ｉ）（ｋ）は、
Ｘ_Ｌ ^（ｉ）（ｋ）＝Ｓ^（ｉ）（ｋ）＋Ｎ_Ｌ ^（ｉ）（ｋ）、
Ｘ_Ｒ ^（ｉ）（ｋ）＝α^（ｉ）Ｓ^（ｉ）（ｋ）＋Ｎ_Ｒ ^（ｉ）（ｋ）
ただし、Ｋ_Ｌ ^（ｉ）≦ｋ≦Ｋ_Ｕ ^（ｉ） (16)
と表現される。ここで、α^（ｉ）はｉ番目の小帯域におけるαを表す。以後、ｉ番目の小帯域における相関信号Ｓ^（ｉ）（ｋ）、無相関信号Ｎ_Ｌ ^（ｉ）（ｋ）、Ｎ_Ｒ ^（ｉ）（ｋ）をそれぞれ、
Ｓ^（ｉ）（ｋ）＝Ｓ（ｋ）、
Ｎ_Ｌ ^（ｉ）（ｋ）＝Ｎ_Ｌ（ｋ）、
Ｎ_Ｒ ^（ｉ）（ｋ）＝Ｎ_Ｒ（ｋ）
ただし、Ｋ_Ｌ ^（ｉ）≦ｋ≦Ｋ_Ｕ ^（ｉ） (17)
とおくこととする。

数式(16)から、数式(12)の音圧Ｐ_Ｌ ^（ｉ）とＰ_Ｒ ^（ｉ）は、
Ｐ_Ｌ ^（ｉ）＝Ｐ_Ｓ ^（ｉ）＋Ｐ_Ｎ ^（ｉ）、
Ｐ_Ｒ ^（ｉ）＝［α^（ｉ）］^２Ｐ_Ｓ ^（ｉ）＋Ｐ_Ｎ ^（ｉ） (18)
と表される。ここで、Ｐ_Ｓ ^（ｉ）、Ｐ_Ｎ ^（ｉ）はｉ番目の小帯域におけるそれぞれ相関信号、無相関信号の電力であり、
と表される。ここで、左右の無相関信号の音圧は等しいと仮定している。

また、数式(10)〜(12)より、数式(9)は、
と表すことができる。ただし、この算出においてはＳ（ｋ）、Ｎ_Ｌ（ｋ）、Ｎ_Ｒ（ｋ）が互いに直交し、かけ合わされたときの電力は０と仮定している。

数式(18)と数式(20)を解くことにより、次の式が得られる。

これらの値を用いて、各小帯域における相関信号と無相関信号を推定する。ｉ番目の小帯域における相関信号Ｓ^（ｉ）（ｋ）の推定値est（Ｓ^（ｉ）（ｋ））を、媒介変数μ_１、μ_２を用いて、
est（Ｓ^（ｉ）（ｋ））＝μ_１Ｘ_Ｌ ^（ｉ）（ｋ）＋μ_２Ｘ_Ｒ ^（ｉ）（ｋ） (23)
とおくと、推定誤差εは、
ε＝est（Ｓ^（ｉ）（ｋ））−Ｓ^（ｉ）（ｋ） (24)
と表される。ここで、est（Ａ）はＡの推定値を表すものとする。そして二乗誤差ε^２が最少になるとき、εとＸ_Ｌ ^（ｉ）（ｋ）、Ｘ_Ｒ ^（ｉ）（ｋ）はそれぞれ直交するという性質を利用すると、
Ｅ［ε・Ｘ_Ｌ ^（ｉ）（ｋ）］＝０、Ｅ［ε・Ｘ_Ｒ ^（ｉ）（ｋ）］＝０ (25)
という関係が成り立つ。数式(16)、(19)、(21)〜(24)を利用すると、数式(25)から次の連立方程式が導出できる。
（１−μ_１−μ_２α^（ｉ））Ｐ_Ｓ ^（ｉ）−μ_１Ｐ_Ｎ ^（ｉ）＝０
α^（ｉ）（１−μ_１−μ_２α^（ｉ））Ｐ_Ｓ ^（ｉ）−μ_２Ｐ_Ｎ ^（ｉ）＝０
(26)

この数式(26)を解くことによって、各媒介変数が次のように求まる。
ここで、このようにして求まる推定値est（Ｓ^（ｉ）（ｋ））の電力Ｐ_est（Ｓ） ^（ｉ）が、数式(23）の両辺を二乗して求まる次の式
Ｐ_est（Ｓ） ^（ｉ）＝（μ_１＋α^（ｉ）μ_２）^２Ｐ_Ｓ ^（ｉ）＋（μ_１ ^２＋μ_２ ^２）Ｐ_Ｎ ^（ｉ） (28)
を満たす必要があるため、この式から推定値を次式のようにスケーリングする。なお、est′（Ａ）はＡの推定値をスケーリングしたものを表す。

そして、ｉ番目の小帯域における左右チャネルの無相関信号Ｎ_Ｌ ^（ｉ）（ｋ）、Ｎ_Ｒ ^（ｉ）（ｋ）に対する推定値est（Ｎ_Ｌ ^（ｉ）（ｋ））、est（Ｎ_Ｒ ^（ｉ）（ｋ））はそれぞれ、
est（Ｎ_Ｌ ^（ｉ）（ｋ））＝μ_３Ｘ_Ｌ ^（ｉ）（ｋ）＋μ_４Ｘ_Ｒ ^（ｉ）（ｋ） (30)
est（Ｎ_Ｒ ^（ｉ）（ｋ））＝μ_５Ｘ_Ｌ ^（ｉ）（ｋ）＋μ_６Ｘ_Ｒ ^（ｉ）（ｋ） (31)
とおくことにより、上述の求め方と同様にして、媒介変数μ_３〜μ_６は、

と求めることができる。このようにして求めた推定値est（Ｎ_Ｌ ^（ｉ）（ｋ））、est（Ｎ_Ｒ ^（ｉ）（ｋ））も上述と同様に、次の式によってそれぞれスケーリングする。

数式(27)、(32)、(33)で示した各媒介変数μ_１〜μ_６及び数式(29)、(34)、(35)で示したスケーリングの係数が、ステップＳ１３６で求める変換係数に該当する。そして、ステップＳ１３７では、これらの変換係数を用いた演算（数式(23)、(30)、(31)）により推定することで、相関信号と無相関信号（右チャネルの無相関信号、左チャネルの無相関信号）とを分離抽出する。

次に、仮想音源への割り当て処理を行う（ステップＳ１３８）。まず、この割り当て処理では前処理として、小帯域毎に推定した相関信号によって生成される合成音像の方向を推定する。この推定処理について、図１５〜図１７に基づき説明する。図１５は、受聴者と左右のスピーカと合成音像との位置関係の例を説明するための模式図、図１６は、波面合成再生方式で使用するスピーカ群と仮想音源との位置関係の例を説明するための模式図、図１７は、図１６の仮想音源と受聴者及び合成音像との位置関係の例を説明するための模式図である。

いま、図１５に示す位置関係１５０のように、受聴者から左右のスピーカ１５１Ｌ，１５１Ｒの中点にひいた線と、同じく受聴者１５３からいずれかのスピーカ１５１Ｌ／１５１Ｒの中心までひいた線がなす見開き角をθ_０、受聴者１５３から推定合成音像１５２の位置までひいた線がなす見開き角をθとする。ここで、左右のスピーカ１５１Ｌ，１５１Ｒから同じ音声信号を、音圧バランスを変えて出力した場合、その出力音声によって生じる合成音像１５２の方向は、音圧バランスを表す前述のパラメータαを用いて次の式で近似できることが一般的に知られている（以下、立体音響におけるサインの法則と呼ぶ）。

ここで、２ｃｈステレオの音声信号を波面合成再生方式で再生できるようにするために、図１２に示す音声信号分離抽出部１２１が２ｃｈの信号を複数チャネルの信号に変換する。例えば変換後のチャネル数を５つとした場合、それを図１６で示す位置関係１６０のように、波面合成再生方式における仮想音源１６２ａ〜１６２ｅと見做し、スピーカ群（スピーカアレイ）１６１の後方に配置する。なお、仮想音源１６２ａ〜１６２ｅにおける隣り合う仮想音源との間隔は均等とする。したがって、ここでの変換は、２ｃｈの音声信号を仮想音源数の音声信号に変換することになる。既に説明したように、音声信号分離抽出部１２１は、まず２ｃｈの音声信号を、小帯域毎に１つの相関信号と２つの無相関信号に分離する。音声信号分離抽出部１２１では、さらにそれらの信号をどのように仮想音源数の仮想音源（ここでは５つの仮想音源）に割り当てるかを事前に決めておかなければならない。なお、割り当ての方法については複数の方法の中からユーザ設定可能にしておいてもよいし、仮想音源数に応じて選択可能な方法を変えてユーザに提示するようにしてもよい。

割り当て方法の１つの例として、次のような方法を採る。それは、まず、左右の無相関信号については、５つの仮想音源の両端（仮想音源１６２ａ，１６２ｅ）にそれぞれ割り当てる。次に、相関信号によって生じる合成音像については、５つのうちの隣接する２つの仮想音源に割り当てる。隣接するどの２つの仮想音源に割り当てるかについては、まず、前提として、相関信号によって生じる合成音像が５つの仮想音源の両端（仮想音源１６２ａ，１６２ｅ）より内側になるものとし、すなわち、２ｃｈステレオ再生時の２つのスピーカによってなす見開き角内におさまるように５つの仮想音源１６２ａ〜１６２ｅを配置するものとする。そして、合成音像の推定方向から、その合成音像を挟むような隣接する２つの仮想音源を決定し、その２つの仮想音源への音圧バランスの割り当てを調整して、その２つの仮想音源によって合成音像を生じさせるように再生する、という割り当て方法を採る。

そこで、図１７で示す位置関係１７０のように、受聴者１７３から両端の仮想音源１６２ａ，１６２ｅの中点にひいた線と、端の仮想音源１６２ｅにひいた線とがなす見開き角をθ′_０、受聴者１７３から合成音像１７１にひいた線とがなす見開き角をθ′とする。さらに、受聴者１７３から合成音像１７１を挟む２つの仮想音源１６２ｃ，１６２ｄの中点にひいた線と、受聴者１７３から両端の仮想音源１６２ａ，１６２ｅの中点にひいた線（受聴者１７３から仮想音源１６２ｃにひいた線）とがなす見開き角をφ_０、受聴者１７３から合成音像１７１にひいた線とがなす見開き角をφとする。ここで、φ_０は正の実数である。数式(36)で説明したようにして方向を推定した図１５の合成音像１５２（図１７における合成音像１７１に対応）を、これらの変数を用いて仮想音源に割り当てる方法について説明する。

まず、見開き角の差によるスケーリングを次の式のように行う。
θ′＝（θ′_０／θ_０）θ (37)
これにより、仮想音源の配置による見開き角の差異が考慮されることになる。ただし、θ′_０とθ_０の値は、音声データ再生装置のシステム実装時に調整すればよく、またθ′_０とθ_０の値を等しくしなくても特に問題は生じないため、この例では、θ_０＝π／６［ｒａｄ］、θ′_０＝π／４［ｒａｄ］として説明する。

次に、ｉ番目の合成音像の方向θ^（ｉ）が数式(36)によって推定され、例えばθ^（ｉ）＝π／１５［ｒａｄ］であったとすると、数式(37)よりθ′^（ｉ）＝π／１０［ｒａｄ］となる。そして、仮想音源が５つの場合、図１７に示すように合成音像１７１は左から数えて３番目の仮想音源１６２ｃと４番目の仮想音源１６２ｄの間に位置することになる。また、仮想音源が５つである場合、３番目の仮想音源１６２ｃと４番目の仮想音源１６２ｄの間について、θ′_０＝π／４［ｒａｄ］より、φ_０≒０.０７８［ｒａｄ］となり、ｉ番目の小帯域におけるφをφ^（ｉ）とすると、φ^（ｉ）＝θ′^（ｉ）−φ_０≒０.０２２π［ｒａｄ］となる。このようにして、各小帯域における相関信号によって生じる合成音像の方向を、それを挟む２つの仮想音源の方向からの相対的な角度で表す。そして上述したように、その２つの仮想音源１６２ｃ，１６２ｄでその合成音像を生じさせることを考える。そのためには、２つの仮想音源１６２ｃ，１６２ｄからの出力音声信号の音圧バランスを調整すればよく、その調整方法については、再び数式(36)として利用した立体音響におけるサインの法則を用いる。

ここで、ｉ番目の小帯域における相関信号によって生じる合成音像を挟む２つの仮想音源１６２ｃ，１６２ｄのうち、３番目の仮想音源１６２ｃに対するスケーリング係数をｇ_１、４番目の仮想音源１６２ｄに対するスケーリング係数をｇ_２とすると、３番目の仮想音源１６２ｃからはｇ_１・est′（Ｓ^（ｉ）（ｋ））、４番目の仮想音源１６２ｄからはｇ_２・est′（Ｓ^（ｉ）（ｋ））の音声信号を出力することになる。そして、ｇ_１、ｇ_２は立体音響におけるサインの法則により、
を満たせばよい。

一方、３番目の仮想音源１６２ｃと４番目の仮想音源１６２ｄからの電力の合計が、元の２ｃｈステレオの相関信号の電力と等しくなるようにｇ_１、ｇ_２を正規化すると、
ｇ_１ ^２＋ｇ_２ ^２＝１＋［α^（ｉ）］^２ (39)
となる。

これらを連立させることで、
と求められる。この数式(40)に上述のφ^（ｉ）、φ_０を代入することによって、ｇ_１、ｇ_２を算出する。このようにして算出したスケーリング係数に基づき、上述したように３番目の仮想音源１６２ｃにはｇ_１・est′（Ｓ^（ｉ）（ｋ））の音声信号を、４番目の仮想音源１６２ｄからはｇ_２・est′（Ｓ^（ｉ）（ｋ））の音声信号を割り当てる。そして、これも上述したように、無相関信号は両端の仮想音源１６２ａ，１６２ｅに割り当てられる。すなわち、１番目の仮想音源１６２ａにはest′（Ｎ_Ｌ ^（ｉ）（ｋ））を、５番目の仮想音源１６２ｅにはest′（Ｎ_Ｒ ^（ｉ）（ｋ））を割り当てる。

この例とは異なり、もし合成音像の推定方向が１番目と２番目の仮想音源の間であった場合には、１番目の仮想音源にはｇ_１・est′（Ｓ^（ｉ）（ｋ））とest′（Ｎ_Ｌ ^（ｉ）（ｋ））の両方が割り当てられることになる。また、もし合成音像の推定方向が４番目と５番目の仮想音源の間であった場合には、５番目の仮想音源にはｇ_２・est′（Ｓ^（ｉ）（ｋ））とest′（Ｎ_Ｒ ^（ｉ）（ｋ））の両方が割り当てられることになる。

以上のようにして、ステップＳ１３８における、ｉ番目の小帯域についての左右チャネルの相関信号と無相関信号の割り当てが行われる。これをステップＳ１３４ａ，Ｓ１３４ｂのループにより全ての小帯域について行う。その結果、仮想音源の数をＪとすると、各仮想音源（出力チャネル）に対する周波数領域の出力音声信号Ｙ_１（ｋ），・・・，Ｙ_Ｊ（ｋ）が求まる。

そして、得られた各出力チャネルについて、ステップＳ１４０〜Ｓ１４２の処理を実行する（ステップＳ１３９ａ，Ｓ１３９ｂ）。以下、ステップＳ１４０〜Ｓ１４２の処理について説明する。

まず、各出力チャネルを離散フーリエ逆変換することによって、時間領域の出力音声信号ｙ′_ｊ（ｍ）を求める（ステップＳ１４０）。ここで、ＤＦＴ^−１は離散フーリエ逆変換を表す。
ｙ′_ｊ（ｍ）＝ＤＦＴ^−１（Ｙ_ｊ（ｋ））（１≦ｊ≦Ｊ） (41)
ここで、数式(3)で説明したように、離散フーリエ変換した信号は、窓関数乗算後の信号であったため、逆変換して得られた信号ｙ′_ｊ（ｍ）も窓関数が乗算された状態となっている。窓関数は数式(1)に示すような関数であり、読み込みは半セグメント長ずつずらしながら行ったため、前述した通り、１つ前に処理したセグメントの先頭から半セグメント長ずつずらしながら出力バッファに加算していくことにより変換後のデータを得る。

しかし、このままでは、従来技術として上述した通り、図１０の中央付近１０１で示すような不連続点が変換後のデータに多数含まれてしまい、それらが再生時にノイズとなって知覚される。このような不連続点は、直流成分の線スペクトルを考慮しないことによるものであることは前述した通りである。図１８はそれを模式的に示した波形のグラフである。より詳細には、図１８は、左右チャネルの音声信号を離散フーリエ変換し左右チャネルの直流成分を無視した場合に、離散フーリエ逆変換後のセグメント境界に生じる波形の不連続点を説明するための模式図である。図１８に示すグラフ１８０において、横軸は時間を表しており、例えば（０）^（ｌ）という記号は、ｌ番目のセグメントの１番目の標本点であることを示し、（Ｍ−１）^（ｌ）という記号は、ｌ番目のセグメントのＭ番目の標本点であることを示している。グラフ１８０の縦軸は、それらの標本点に対する出力信号の値である。このグラフ１８０から分かるように、（ｌ−１）番目のセグメントの最後からｌ番目のセグメントの最初にかけての部分で不連続点が生じてしまう。

図１８で説明したような問題を解決するために、本発明に係る音声信号変換装置は、次のように構成する。すなわち、本発明に係る音声信号変換装置は、変換部、相関信号抽出部、逆変換部、及び除去部を備える。変換部は、２つのチャネルの入力音声信号に離散フーリエ変換を施す。相関信号抽出部は、変換部で離散フーリエ変換後の２つのチャネルの音声信号について、直流成分を無視して相関信号を抽出する。つまり、抽出部は、２つのチャネルの入力音声信号の相関信号を抽出する。逆変換部は、（ａ１）相関信号抽出部で抽出された相関信号に対して、または（ａ２）その相関信号及び無相関信号（その相関信号を除く信号）に対して、もしくは（ｂ１）その相関信号から生成された音声信号、または（ｂ２）その相関信号及びその無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施す。なお、ここでの例では、逆変換部が上記（ｂ２）の音声信号の例である、波面合成再生方式用の仮想音源への割り当て後の音声信号に対して、不連続点を除去した例を挙げているが、これに限らない。例えば、上記（ａ１）または（ａ２）の例である仮想音源への割り当て前の音声信号に対して、すなわち抽出された相関信号または抽出された相関信号及び無相関信号に対して、不連続点を除去し、その後、割り当てを行うようにしてもよい。

そして、除去部は、逆変換部で離散フーリエ逆変換後の音声信号から波形の不連続点を除去する。つまり、除去部では、相関信号またはそれから生成された音声信号について、離散フーリエ逆変換した後の信号から波形の不連続点を除去する。
図１２における音声信号処理部１１３の例では、上述の変換部、相関信号抽出部、及び逆変換部は音声信号分離抽出部１２１に含まれることになり、上述の除去部は雑音除去部１２２で例示できる。

図１９及び図２０を併せて参照し、図１８で説明したような問題を解決するための、このような不連続点除去処理について具体的に説明する。図１９は、本発明に係る不連続点除去処理を施す離散フーリエ逆変換後のセグメントを示す図である。また、図２０は、本発明に係る不連続点除去処理の一例を説明するための模式図で、左右チャネルの音声信号を離散フーリエ変換し左右チャネルの直流成分を無視した場合に、離散フーリエ逆変換後のセグメント境界に生じる波形の不連続点を除去する方法を説明するための模式図である。

本発明における不連続点除去処理では、離散フーリエ逆変換後のセグメント（処理セグメント）の波形の最初の値と、波形の最後の値との平均値を、波形の各値から減算する。これは、前述した通り、離散フーリエ変換を行う前にＨａｎｎ窓を演算していることに起因している。すなわち、Ｈａｎｎ窓の両端点の値は０であるため、もし離散フーリエ変換後、どのスペクトル成分も値を変更せず、再び離散フーリエ逆変換を行えば、そのセグメントの両端点は０となり、セグメント間の不連続点は発生しない。しかし実際は、離散フーリエ変換後の周波数領域において、上述したように各スペクトル成分を変更するため、離散フーリエ逆変換後のセグメントの両端点は０とならず、セグメント間の不連続点が発生する。

したがって、その両端点を０に近づけるため、それら両端点の値の平均値を直流成分（バイアス成分）として、セグメント内の全ての値から減算することにより、不連続点の発生を抑制する。図２０で示す出力音声信号ｙ′_ｊ（０），・・・，ｙ′_ｊ（Ｍ−１）でなるセグメント２００で説明すると、両端点は出力音声信号ｙ′_ｊ（０），ｙ′_ｊ（Ｍ−１）であるため、そのような減算の結果、処理後の出力音声信号ｙ″ｊ（ｍ）は、下の数式(42)のようになる。
ｙ″_ｊ（ｍ）＝ｙ′_ｊ（ｍ）−（ｙ′_ｊ（０）＋ｙ′_ｊ（Ｍ−１））／２ (42)

このような処理を行うことにより、不連続点に伴うノイズが発生しないようになり、高品質な音声再生が可能となる。図１８のグラフ１８０に対する除去例で説明すると、グラフ１８０におけるｌ番目のセグメントについて、両端点の平均値は｛ｏ_ｌ（０）＋ｏ_ｌ（Ｍ−１）｝／２であり、数式(42)に基づきこの平均値だけｌ番目のセグメントの各値から減算すると、グラフ２００で示すようになる。グラフ２００では、（Ｍ−１）^{（ｌ−１）}と（０）^（ｌ）との境界のノイズが除去されている（傾き［微分値］が一致するようになる）のが分かる。

なお、グラフ１８０，２００では、ｌ番目のセグメントについて説明したような処理が（ｌ−１）番目のセグメントについても既に施された結果を示している。また、図示しない（ｌ＋１）番目のセグメントについても同様の不連続点除去処理を施す。このように、本発明に係る不連続点除去処理では、全てのセグメントに対して、セグメント毎に、セグメントから算出した平均値をセグメントの各値から減算する。

また、数式(42)では、バイアスを両端点の平均値としたが、数式(43)のようにバイアスを両端ｎ点ずつの平均値としてもよい。
ｙ″_ｊ（ｍ）＝ｙ′_ｊ（ｍ）−（Σ_ｎｙ′_ｊ（ｎ）＋Σ_ｎｙ′_ｊ（Ｍ−ｎ））／２ｎ
(43)
あるいは、セグメント内の任意の複数点の平均値でもよい。あるいは、セグメント内の任意の１点の値そのものでもよい。なお、その１点は右端点から何番目の点であるなどと予め決めておけばよい。さらには、全点の値の平均値を採用することもできる。また、いずれの応用例についても、図１８のグラフ１８０に対しては図２０のグラフ２００と類似したノイズ除去結果が得られる。

このように、本発明に係る不連続点除去処理では、離散フーリエ逆変換後の音声信号における処理セグメント内の１点の値または複数点の値の平均値を、その処理セグメント内の各値から減算することで、離散フーリエ逆変換後の音声信号から波形の不連続点を除去する。そのため、本発明によれば、２ｃｈや５.１ｃｈ等のマルチチャネル方式用の音声信号を、不連続点に起因するノイズを発生させることなく、波面合成再生方式で再生させるための音声信号に変換することが可能になる。そして、それにより、波面合成再生方式の特長である、どの位置の受聴者に対してもコンテンツ製作者の意図通りの音像定位を提供するという効果を享受できる。

また、雑音除去部１２２で処理対象となる離散フーリエ逆変換後の音声信号は、各数式で例示したように、相関信号または相関信号及び無相関信号に対して、時間領域あるいは周波数領域においてスケーリング処理を行い、そのスケーリング処理後の音声信号としてもよい。つまり、相関信号や無相関信号に対しスケーリング処理を施し、スケーリング処理後の相関信号や無相関信号に対し、不連続点の除去を行うようにしてもよい。

数式(42)で説明した不連続点除去処理の効果について図９と比較しながら説明する。図２１は、図９の音楽コンテンツ（変換後）のうち１つのチャネルの音声信号の一部を拡大した図で、図１０の音声信号に本発明に係る不連続点除去処理を施した例を説明するための図である。

図８に示す音楽コンテンツ８０が入力音声信号である場合、数式(42)で示す不連続点除去処理（ノイズ除去処理）により、図１０のチャネルの音声信号の不連続点の箇所（中央付近１０１）は、図２１の音声信号２１０で示すように、不連続点が解消され連続になる。本発明の不連続点除去処理を施すことで、このようにして、不連続点を無くしノイズを除去することができる。無論、他のチャネルについても不連続点の箇所を同様に処理できる。なお、図２１は数式(42)で説明した好ましい不連続点除去処理を適用した場合の結果として説明したが、数式(43)のような処理や他の例として説明した処理も、多少の違いはあるものの同様に音声信号２１０で示すように連続な音声信号になる。

以上、本発明に係る音声信号変換処理について、入力音声信号が２ｃｈの音声信号である例を挙げて説明したが、次に他のマルチチャネルの音声信号であっても適用可能であることを説明する。ここでは、図２２を参照しながら５.１ｃｈの入力音声信号を例に挙げるが、他のマルチチャネルの入力音声信号についても同様に適用できる。

図２２は、５.１ｃｈの音声信号を波面合成再生方式で再生する際に、使用するスピーカ群と仮想音源との位置関係の例を説明するための模式図である。５.１ｃｈの入力音声に本発明に係る音声信号変換処理を適用することを考える。５.１ｃｈのスピーカの配置方法については一般的に図２のように配置されることが多く、受聴者の前方には３つのスピーカ２１Ｌ、２２Ｃ，２１Ｒが並んでいる。そして、映画などのコンテンツでは特に、前方中央のいわゆるセンターチャネルは人の台詞音声などの用途で使用されることが多い。つまり、センターチャネルと左チャネル、あるいはセンターチャネルと右チャネルの間で合成音像を生じさせるような音圧制御がされている箇所はあまり多くない。

この性質を利用して、図２２で示す位置関係２２０のように、５.１ｃｈの前方左右のスピーカ２２２ａ，２２２ｃへの入力音声信号を本方式（本発明に係る音声信号変換処理）によって変換し、例えば５つの仮想音源２２３ａ〜２２３ｅに割り当てた後、真ん中の仮想音源２２３ｃにセンターチャネル（センタースピーカ用のチャネル）の音声信号を加算する。そのようにして、出力音声信号を仮想音源に対する音像として波面合成再生方式でスピーカアレイ２２１により再生する。そして後方左右のチャネル用の入力音声信号については、後方に５.１ｃｈと同じくスピーカ２２２ｄ，２２２ｅを設置し、そこから何も手を加えずに出力するなどすればよい。

このように、マルチチャネルの入力音声信号が３つ以上のチャネルの入力音声信号であることを前提とし、マルチチャネルの入力音声信号のうちいずれか２つの入力音声信号に対して、本発明に係る上述のような音声信号変換処理を行って、波面合成再生方式で再生させるための音声信号を生成し、生成された音声信号に残りのチャネルの入力音声信号を加算して出力するようにしてもよい。この加算は、例えば音声出力信号生成部１２３において加算部を設けておけば済む。

次に、本発明の実装について簡単に説明する。本発明は、例えばテレビなど映像の伴う装置に利用できる。本発明を適用可能な装置の様々な例について、図２３〜図２９を参照しながら説明する。図２３〜図２５は、それぞれ図１１の音声データ再生装置を備えたテレビ装置の構成例を示す図で、図２６及び図２７は、それぞれ図１１の音声データ再生装置を備えた映像投影システムの構成例を示す図、図２８は、図１１の音声データ再生装置を備えたテレビボードとテレビ装置とでなるシステムの構成例を示す図、図２９は、図１１の音声データ再生装置を備えた自動車の例を示す図である。なお、図２３〜図２９のいずれにおいても、スピーカアレイとしてＬＳＰ１〜ＬＳＰ８で示す８個のスピーカを配列した例を挙げているが、スピーカの数は複数であればよい。

本発明に係る音声信号変換装置やそれを備えた音声データ再生装置はテレビ装置に利用できる。テレビ装置におけるこれらの装置の配置は自由に決めればよい。図２３で示すテレビ装置２３０のように、テレビ画面２３１の下方に、音声データ再生装置におけるスピーカＬＳＰ１〜ＬＳＰ８を直線状に並べたスピーカ群２３２を設けてもよい。図２４で示すテレビ装置２４０のように、テレビ画面２４１の上方に、音声データ再生装置におけるスピーカＬＳＰ１〜ＬＳＰ８を直線状に並べたスピーカ群２４２を設けてもよい。図２５で示すテレビ装置２５０のように、テレビ画面２５１に、音声データ再生装置における透明のフィルム型スピーカＬＳＰ１〜ＬＳＰ８を直線状に並べたスピーカ群２５２を埋め込んでもよい。

また、本発明に係る音声信号変換装置やそれを備えた音声データ再生装置は、映像投影システムに利用できる。図２６で示す映像投影システム２６０のように、映像投射装置２６１ａで映像を投射する投射用スクリーン２６１ｂに、スピーカＬＳＰ１〜ＬＳＰ８のスピーカ群２６２を埋め込むようにしてもよい。図２７で示す映像投影システム２７０のように、映像投射装置２７１ａで映像を投射する音透過型のスクリーン２７１ｂの後ろに、スピーカＬＳＰ１〜ＬＳＰ８を並べたスピーカ群２７２を配置してもよい。そのほか、本発明に係る音声信号変換装置やそれを備えた音声データ再生装置は、テレビ台（テレビボード）に埋め込むこともできる。図２８で示すシステム（ホームシアターシステム）２８０のように、テレビ装置２８１を搭載するためのテレビ台２８２ａにスピーカＬＳＰ１〜ＬＳＰ８を並べたスピーカ群２８２ｂを埋め込むようにしてもよい。さらに、本発明に係る音声信号変換装置やそれを備えた音声データ再生装置は、カーオーディオに適用することもできる。図２９で示す自動車２９０のように、車内のダッシュボードにスピーカＬＳＰ１〜ＬＳＰ８を曲線状に並べたスピーカ群２９２を埋め込むようにしてもよい。

また、図２３〜図２９を参照して説明したような装置などに本発明に係る音声信号変換処理を適用した際、受聴者はこの変換処理（図１１や図１２の音声信号処理部１１３における処理）を行うか行わないかについて、装置本体に備えられたボタン操作やあるいはリモートコントローラ操作などでなされたユーザ操作により切り替える切替部を設けることもできる。この変換処理を行わない場合、２ｃｈ音声データの再生には、図６に示したように仮想音源を配置して波面合成再生方式で再生してもよい。あるいは図３０に示す位置関係３００のように、アレイスピーカ３０１の両端のスピーカ３０１Ｌ，３０１Ｒのみを用いて再生してもよい。５.１ｃｈ音声データについても同様に、３つの仮想音源に割り当ててもよいし、あるいは両端と真ん中の１つか２つのスピーカのみを用いて再生してもよい。

また、本発明で適用可能な波面合成再生方式としては、上述したようにスピーカアレイ（複数のスピーカ）を備えて仮想音源に対する音像としてそれらのスピーカから出力するようにする方式であればよく、非特許文献１に記載のＷＦＳ方式の他、人間の音像知覚に関する現象としての先行音効果（ハース効果）を利用した方式など様々な方式が挙げられる。ここで、先行音効果とは、同一の音声を複数の音源から再生し、音源それぞれから聴取者に到達する各音声に小さな時間差がある場合、先行して到達した音声の音源方向に音像が定位する効果を指し示したものである。この効果を利用すれば、仮想音源位置に音像を知覚させることが可能となる。ただし、その効果だけで音像を明確に知覚させることは難しい。ここで、人間は音圧を最も高く感じる方向に音像を知覚するという性質も持ち合わせている。したがって、音声データ再生装置において、上述の先行音効果と、この最大音圧方向知覚の効果とを組み合わせ、これにより、少ない数のスピーカでも仮想音源の方向に音像を知覚させることが可能になる。

以上、本発明に係る音声信号変換装置が、マルチチャネル方式用の音声信号に対して波面合成再生方式で再生させるための音声信号に変換することを前提にして説明したが、本発明は、同じくマルチチャネル方式用（チャネル数は同じでも異なってもよい）の音声信号に変換する場合などにも同様に適用できる。変換後の音声信号としては、配置は問わないが少なくとも複数のスピーカからなるスピーカ群によって再生させるための音声信号であればよい。それは、このような変換の場合にも上述のような離散フーリエ変換・逆変換を施し且つ相関信号を得るために直流成分を無視することがあるためである。このように変換された音声信号の再生方法としては、例えば１つ１つの仮想音源用に抽出した信号に対し、それぞれ１つずつスピーカを対応させて波面合成再生方式ではなく普通に出力再生させることが考えられる。さらに、両側の無相関信号はそれぞれ別の、側方や後方に設置するスピーカに割り当てるような再生方法など、様々な再生方法が考えられる。

また、例えば図１２で例示した音声信号処理部１１３における各構成要素など、本発明に係る音声信号変換装置の各構成要素やその装置を備えた音声データ再生装置の各構成要素は、例えばマイクロプロセッサ（またはＤＳＰ：Digital Signal Processor）、メモリ、バス、インターフェイス、周辺装置などのハードウェアと、これらのハードウェア上にて実行可能なソフトウェアとにより実現できる。上記ハードウェアの一部または全部は集積回路／ＩＣ（Integrated Circuit）チップセットとして搭載することができ、その場合、上記ソフトウェアは上記メモリに記憶しておければよい。また、本発明の各構成要素の全てをハードウェアで構成してもよく、その場合についても同様に、そのハードウェアの一部または全部を集積回路／ＩＣチップセットとして搭載することも可能である。

また、上述した様々な構成例における機能を実現するためのソフトウェアのプログラムコードを記録した記録媒体を、音声信号変換装置となる汎用コンピュータ等の装置に供給し、その装置内のマイクロプロセッサまたはＤＳＰによりプログラムコードが実行されることによっても、本発明の目的が達成される。この場合、ソフトウェアのプログラムコード自体が上述した様々な構成例の機能を実現することになり、このプログラムコード自体や、プログラムコードを記録した記録媒体（外部記録媒体や内部記憶装置）であっても、そのコードを制御側が読み出して実行することで、本発明を構成することができる。外部記録媒体としては、例えばＣＤ−ＲＯＭまたはＤＶＤ−ＲＯＭなどの光ディスクやメモリカード等の不揮発性の半導体メモリなど、様々なものがが挙げられる。内部記憶装置としては、ハードディスクや半導体メモリなど様々なものが挙げられる。また、プログラムコードはインターネットからダウンロードして実行することや、放送波から受信して実行することもできる。

以上、本発明に係る音声信号変換装置について説明したが、処理の流れをフロー図で例示したように、本発明は、マルチチャネルの入力音声信号をスピーカ群によって再生させるための音声信号に変換する音声信号変換方法としての形態も採り得る。

この音声信号変換方法は、次の変換ステップ、抽出ステップ、逆変換ステップ、及び除去ステップを有する。変換ステップは、変換部が、２つのチャネルの入力音声信号に離散フーリエ変換を施すステップである。抽出ステップは、相関信号抽出部が、変換ステップで離散フーリエ変換後の２つのチャネルの音声信号について、直流成分を無視して相関信号を抽出するステップである。逆変換ステップは、逆変換部が、抽出ステップで抽出された相関信号または相関信号及び無相関信号に対して、もしくは相関信号から生成された音声信号に対して、もしくは相関信号及び無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施すステップである。除去ステップは、除去部が、逆変換ステップで離散フーリエ逆変換後の音声信号における処理セグメント内の１点の値または複数点の値の平均値を、その処理セグメント内の各値から減算することで、離散フーリエ逆変換後の音声信号から波形の不連続点を除去するステップである。その他の応用例については、音声信号変換装置について説明した通りであり、その説明を省略する。

なお、上記プログラムコード自体は、換言すると、この音声信号変換方法をコンピュータに実行させるためのプログラムである。すなわち、このプログラムは、コンピュータに、２つのチャネルの入力音声信号に離散フーリエ変換を施す変換ステップと、変換ステップで離散フーリエ変換後の２つのチャネルの音声信号について、直流成分を無視して相関信号を抽出する抽出ステップと、抽出ステップで抽出された相関信号または相関信号及び無相関信号に対して、もしくは相関信号から生成された音声信号に対して、もしくは相関信号及び無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施す逆変換ステップと、逆変換ステップで離散フーリエ逆変換後の音声信号における処理セグメント内の１点の値または複数点の値の平均値を、その処理セグメント内の各値から減算することで、離散フーリエ逆変換後の音声信号から波形の不連続点を除去する除去ステップと、を実行させるためのプログラムである。

１１０…音声データ再生装置、１１１…デコーダ、１１２…音声信号抽出部、１１３…音声信号処理部、１１４…Ｄ／Ａコンバータ、１１５…増幅器、１１６…スピーカ、１２１…音声信号分離抽出部、１２２…雑音除去部、１２３…音声出力信号生成部。

Claims

マルチチャネルの入力音声信号を、スピーカ群によって再生させるための音声信号に変換する音声信号変換装置であって、
２つのチャネルの入力音声信号に離散フーリエ変換を施す変換部と、
該変換部で離散フーリエ変換後の２つのチャネルの音声信号について、直流成分を無視して相関信号を抽出する相関信号抽出部と、
該相関信号抽出部で抽出された相関信号または該相関信号及び無相関信号に対して、もしくは前記相関信号から生成された音声信号に対して、もしくは前記相関信号及び前記無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施す逆変換部と、
該逆変換部で離散フーリエ逆変換後の音声信号における処理セグメント内の１点の値または複数点の値の平均値を、該処理セグメント内の各値から減算することで、前記離散フーリエ逆変換後の音声信号から波形の不連続点を除去する除去部と、
を備えたことを特徴とする音声信号変換装置。
前記平均値は、前記処理セグメントの少なくとも両端点の値を平均した値であることを特徴とする請求項１に記載の音声信号変換装置。
前記マルチチャネルの入力音声信号は３つ以上のチャネルの入力音声信号とし、前記マルチチャネルの入力音声信号のうちいずれか２つの入力音声信号に対して、前記変換部、前記相関信号抽出部、前記逆変換部、及び前記除去部により前記不連続点の除去を行って、前記スピーカ群によって再生させるための音声信号を生成し、
前記音声信号変換装置は、生成された音声信号に残りのチャネルの入力音声信号を加算する加算部をさらに備えたことを特徴とする請求項１または２に記載の音声信号変換装置。
前記マルチチャネルの入力音声信号を含むディジタルコンテンツを入力するディジタルコンテンツ入力部と、ディジタルコンテンツを復号化するデコーダ部と、該デコーダ部で復号化したディジタルコンテンツから音声信号を分離する音声信号抽出部と、該音声信号抽出部で抽出した音声信号から、３チャネル以上で且つ前記入力音声信号とは異なるマルチチャネルの音声信号に変換する音声信号処理部とをさらに備え、該音声信号処理部は、前記変換部、前記相関信号抽出部、前記逆変換部、及び前記除去部を備えることを特徴とする請求項１〜３のいずれか１項に記載の音声信号変換装置。
前記ディジタルコンテンツ入力部は、ディジタルコンテンツを格納する記録媒体、ネットワークを介してディジタルコンテンツを配信するサーバまたはディジタルコンテンツを放送する放送局からディジタルコンテンツを入力することを特徴とする請求項４に記載の音声信号変換装置。
前記変換部、前記相関信号抽出部、前記逆変換部、及び前記除去部を備えた音声信号処理部における処理を実行するか否かを、ユーザ操作に応じて切り替える切替部をさらに備えたことを特徴とする請求項１〜５のいずれか１項に記載の音声信号変換装置。
マルチチャネルの入力音声信号を、スピーカ群によって再生させるための音声信号に変換する音声信号変換方法であって、
変換部が、２つのチャネルの入力音声信号に離散フーリエ変換を施す変換ステップと、
相関信号抽出部が、前記変換ステップで離散フーリエ変換後の２つのチャネルの音声信号について、直流成分を無視して相関信号を抽出する抽出ステップと、
逆変換部が、前記抽出ステップで抽出された相関信号または該相関信号及び無相関信号に対して、もしくは前記相関信号から生成された音声信号に対して、もしくは前記相関信号及び前記無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施す逆変換ステップと、
除去部が、前記逆変換ステップで離散フーリエ逆変換後の音声信号における処理セグメント内の１点の値または複数点の値の平均値を、該処理セグメント内の各値から減算することで、前記離散フーリエ逆変換後の音声信号から波形の不連続点を除去する除去ステップと、
を有することを特徴とする音声信号変換方法。
コンピュータに、
２つのチャネルの入力音声信号に離散フーリエ変換を施す変換ステップと、
該変換ステップで離散フーリエ変換後の２つのチャネルの音声信号について、直流成分を無視して相関信号を抽出する抽出ステップと、
該抽出ステップで抽出された相関信号または該相関信号及び無相関信号に対して、もしくは前記相関信号から生成された音声信号に対して、もしくは前記相関信号及び前記無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施す逆変換ステップと、
該逆変換ステップで離散フーリエ逆変換後の音声信号における処理セグメント内の１点の値または複数点の値の平均値を、該処理セグメント内の各値から減算することで、前記離散フーリエ逆変換後の音声信号から波形の不連続点を除去する除去ステップと、を実行させるためのプログラム。
請求項８に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。