JP4810621B1 - 音声信号変換装置、方法、プログラム、及び記録媒体 - Google Patents
音声信号変換装置、方法、プログラム、及び記録媒体 Download PDFInfo
- Publication number
- JP4810621B1 JP4810621B1 JP2010199907A JP2010199907A JP4810621B1 JP 4810621 B1 JP4810621 B1 JP 4810621B1 JP 2010199907 A JP2010199907 A JP 2010199907A JP 2010199907 A JP2010199907 A JP 2010199907A JP 4810621 B1 JP4810621 B1 JP 4810621B1
- Authority
- JP
- Japan
- Prior art keywords
- signal
- correlation
- channels
- audio signal
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/40—Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
- H04R2201/403—Linear arrays of transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/13—Application of wave-field synthesis in stereophonic audio systems
Abstract
【課題】3つのチャネルの入力音声信号を、スピーカ群を用いて波面合成再生方式などの再生方式で再生する際に、適切な音像を提供できる音声信号に変換する。
【解決手段】音声信号変換装置(音声信号処理部63で例示)は、3つのうち2つのチャネルの入力音声信号について、離散フーリエ変換を施した後に、相関信号を抽出する相関信号抽出部72bと、抽出された相関信号または相関信号及び無相関信号、もしくは相関信号から生成された音声信号、もしくは相関信号及び無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施す逆変換部72cと、離散フーリエ逆変換後の音声信号に残り1つのチャネルの入力音声信号を加算する加算部74aと、を備える。相関信号抽出部72bは、2つのチャネルの音声信号の相関係数を算出する際に、2つのチャネルの音声信号と残り1つのチャネルの入力音声信号との相関関係に応じて相関係数を変化させる。
【選択図】図7
【解決手段】音声信号変換装置(音声信号処理部63で例示)は、3つのうち2つのチャネルの入力音声信号について、離散フーリエ変換を施した後に、相関信号を抽出する相関信号抽出部72bと、抽出された相関信号または相関信号及び無相関信号、もしくは相関信号から生成された音声信号、もしくは相関信号及び無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施す逆変換部72cと、離散フーリエ逆変換後の音声信号に残り1つのチャネルの入力音声信号を加算する加算部74aと、を備える。相関信号抽出部72bは、2つのチャネルの音声信号の相関係数を算出する際に、2つのチャネルの音声信号と残り1つのチャネルの入力音声信号との相関関係に応じて相関係数を変化させる。
【選択図】図7
Description
本発明は、マルチチャネル再生方式用の音声信号を変換するための音声信号変換装置、方法、プログラム、及び記録媒体に関する。
従来から提案されている音響再生方式には、ステレオ(2ch)方式、5.1chサラウンド方式(ITU−R BS.775−1)などがあり広く民生用として普及している。2ch方式とは、図1で模式的に図示したように、左スピーカ11Lと右スピーカ11Rから異なる音声データを発生させる方式である。5.1chサラウンド方式とは、図2で模式的に図示したように、左フロントスピーカ21L、右フロントスピーカ21R、それらの間に配置するセンタースピーカ22C、左リアスピーカ23L、右リアスピーカ23R、及び低音域(一般的に20Hz〜100Hz)専用のサブウーファー22Bに対し、それぞれ異なる音声データを入力して出力する方式である。
また、2ch方式や5.1chサラウンド方式の他にも、7.1ch、9.1ch、22.2chなどさまざまな音響再生方式が提案されている。上述した方式はいずれも、聴取者(受聴者)を中心とする円周上または球面上に各スピーカを配置し、理想的には各スピーカから等距離にある聴取位置(受聴位置)、いわゆるスイートスポットで聴くことが好ましいとされている。例えば2ch方式ではスイートスポット12で、5.1chサラウンド方式ではスイートスポット24で聴くことが好ましい。スイートスポットで聴くと、音圧のバランスによる合成音像が製作者の意図するところに定位する。逆に、スイートスポット以外の位置で聴くと、一般的に、音像・音質が劣化する。以下、これらの方式を総称してマルチチャネル再生方式と呼ぶ。
一方、マルチチャネル再生方式とは別に、音源オブジェクト指向再生方式もある。この方式は、全ての音が、いずれかの音源オブジェクトが発する音であるとする方式であり、各音源オブジェクト(以下、「仮想音源」と呼ぶ。)が自身の位置情報と音声信号とを含んでいる。音楽コンテンツを例にとると、各仮想音源は、それぞれの楽器の音と楽器が配置されている位置情報とを含む。
そして、音源オブジェクト指向再生方式は、通常、直線状あるいは面状に並べたスピーカ群によって音の波面を合成する再生方式(すなわち波面合成再生方式)により再生される。このような波面合成再生方式のうち、非特許文献1に記載のWave Field Synthesis(WFS)方式は、直線状に並べたスピーカ群(以下、スピーカアレイという)を用いる現実的な実装方法の1つとして近年盛んに研究されている。
そして、音源オブジェクト指向再生方式は、通常、直線状あるいは面状に並べたスピーカ群によって音の波面を合成する再生方式(すなわち波面合成再生方式)により再生される。このような波面合成再生方式のうち、非特許文献1に記載のWave Field Synthesis(WFS)方式は、直線状に並べたスピーカ群(以下、スピーカアレイという)を用いる現実的な実装方法の1つとして近年盛んに研究されている。
このような波面合成再生方式は、上述のマルチチャネル再生方式とは異なり、図3で模式的に図示したように、並べられたスピーカ群31の前のどの位置で聴いている受聴者に対しても、良好な音像と音質を両方同時に提示することができるという特長を持つ。つまり、波面合成再生方式でのスイートスポット32は図示するように幅広くなっている。
また、WFS方式によって提供される音響空間内においてスピーカアレイと対面して音を聴いている受聴者は、実際にはスピーカアレイから放射される音が、スピーカアレイの後方仮想音源から放射されているかのような感覚を受ける。
また、WFS方式によって提供される音響空間内においてスピーカアレイと対面して音を聴いている受聴者は、実際にはスピーカアレイから放射される音が、スピーカアレイの後方仮想音源から放射されているかのような感覚を受ける。
この波面合成再生方式では、仮想音源を表す入力信号を必要とする。そして、一般的に、1つの仮想音源には1チャネル分の音声信号とその仮想音源の位置情報が含まれることを必要とする。上述の音楽コンテンツを例にとると、例えば楽器毎に録音された音声信号とその楽器の位置情報ということになる。ただし、仮想音源それぞれの音声信号は必ずしも楽器毎である必要はないが、コンテンツ製作者が意図するそれぞれの音の到来方向と大きさが、仮想音源という概念を用いて表現されている必要がある。
特許文献1には、2ch音声信号を複数のチャネルの音声信号に変換して波面合成再生方式で再生する際の例として、図4で示すような再生方法が提案されている。ここで、図4は、2chの音声信号を波面合成再生方式で再生する際に、使用するスピーカ群と仮想音源との位置関係の例を説明するための模式図で、図中、40はこの位置関係を示している。
この再生方法は、位置関係40で示すように、左右のスピーカ42a,42cへの入力音声信号(つまり左右2chのステレオ信号)を、一旦、複数個の仮想音源(ここでは5つの仮想音源43a〜43e)に変換し、それを波面合成再生方式でスピーカアレイ41により再生するというものである。
この再生方法は、位置関係40で示すように、左右のスピーカ42a,42cへの入力音声信号(つまり左右2chのステレオ信号)を、一旦、複数個の仮想音源(ここでは5つの仮想音源43a〜43e)に変換し、それを波面合成再生方式でスピーカアレイ41により再生するというものである。
A. J. Berkhout, D. de Vries, and P. Vogel, "Acoustic control by wave field synthesis", J. Acoust. Soc. Am. Volume 93(5), アメリカ合衆国、Acoustical Society of America, May 1993, pp. 2764-2778
一方、前述のマルチチャネル方式の中で、通常、映画コンテンツなどに使用されているのは5.1chである。したがって、既存の映画コンテンツを波面合成再生方式によって再生するためには、5.1chの音声信号を変換し仮想音源で表現する必要がある。
しかしながら、特許文献1には5.1chの音声信号の変換方法については記載されておらず、特許文献1に記載の技術では、5.1chの音声信号を波面合成再生方式で適切に再生できない。また、特許文献1をはじめとする従来の変換方法では、5.1chに限らず、7.1chなど少なくとも3つのチャネルを含むマルチチャネルの音声信号についても、波面合成再生方式で適切に再生できるように変換できない。
また、このことは波面合成再生方式での再生に限ったものではない。つまり、従来の技術では、3つのチャネルの入力音声信号を、複数の仮想音源に対する音像として適切に提供できるような音声信号に変換すること、もしくは実在の音源であるスピーカに対する音像として適切に提供できるような音声信号に変換することができない。
本発明は、上述のような実状に鑑みてなされたものであり、その目的は、3つのチャネルの入力音声信号を、スピーカ群を用いて波面合成再生方式などの再生方式で再生する際に、適切な音像を提供できる音声信号に変換することが可能な音声信号変換装置、方法、プログラム、及び記録媒体を提供することにある。
上述したような課題を解決するために、本発明の第1の技術手段は、3つのチャネルの入力音声信号を、スピーカ群により再生させるために変換する音声信号変換装置であって、前記3つのチャネルのうち2つのチャネルの入力音声信号に離散フーリエ変換を施す変換部と、該変換部で離散フーリエ変換後の2つのチャネルの音声信号について、相関信号を抽出する相関信号抽出部と、該相関信号抽出部で抽出された相関信号または該相関信号及び無相関信号に対して、もしくは前記相関信号から生成された音声信号に対して、もしくは前記相関信号及び前記無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施す逆変換部と、該逆変換部で離散フーリエ逆変換後の音声信号に残り1つのチャネルの入力音声信号を加算する加算部と、を備え、前記相関信号抽出部は、前記2つのチャネルの音声信号の相関係数を算出する際に、該2つのチャネルの音声信号と前記残り1つのチャネルの入力音声信号との相関関係に応じて、相関係数を変化させることを特徴としたものである。
第2の技術手段は、第1の技術手段において、前記2つのチャネルの音声信号と前記残り1つのチャネルの音声信号との前記相関関係は、前記2つのチャネルの音声信号それぞれに対する前記残り1つのチャネルの音声信号との相関係数の値が所定の閾値以上であるか否か、で判断される相関関係であることを特徴としたものである。
第3の技術手段は、第1または第2の技術手段において、前記3つのチャネルの入力音声信号は、5.1chサラウンド音響信号のうち、前方の左、右、中央の3つのチャネルの入力音声信号であり、前記2つのチャネルの入力音声信号は、前方左右のチャネルの入力音声信号であり、前記残り1つのチャネルの入力音声信号は、前方中央のチャネルの入力音声信号であることを特徴としたものである。
第4の技術手段は、3つのチャネルの入力音声信号を、スピーカ群により再生させるために変換する音声信号変換方法であって、変換部が、前記3つのチャネルのうち2つのチャネルの入力音声信号に離散フーリエ変換を施す変換ステップと、相関信号抽出部が、前記変換ステップで離散フーリエ変換後の2つのチャネルの音声信号について、相関信号を抽出する抽出ステップと、逆変換部が、前記抽出ステップで抽出された相関信号または該相関信号及び無相関信号に対して、もしくは前記相関信号から生成された音声信号に対して、もしくは前記相関信号及び前記無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施す逆変換ステップと、加算部が、前記逆変換ステップで離散フーリエ逆変換後の音声信号に残り1つのチャネルの入力音声信号を加算する加算ステップと、を有し、前記抽出ステップは、前記2つのチャネルの音声信号の相関係数を算出する際に、該2つのチャネルの音声信号と前記残り1つのチャネルの入力音声信号との相関関係に応じて、相関係数を変化させることを特徴としたものである。
第5の技術手段は、3つのチャネルの入力音声信号を、スピーカ群により再生させるために変換するプログラムであって、該プログラムは、コンピュータに、3つのチャネルのうち2つのチャネルの入力音声信号に離散フーリエ変換を施す変換ステップと、該変換ステップで離散フーリエ変換後の2つのチャネルの音声信号について、相関信号を抽出する抽出ステップと、該抽出ステップで抽出された相関信号または該相関信号及び無相関信号に対して、もしくは前記相関信号から生成された音声信号に対して、もしくは前記相関信号及び前記無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施す逆変換ステップと、該逆変換ステップで離散フーリエ逆変換後の音声信号に残り1つのチャネルの入力音声信号を加算する加算ステップと、を実行させるためのプログラムであり、前記抽出ステップは、前記2つのチャネルの音声信号の相関係数を算出する際に、該2つのチャネルの音声信号と前記残り1つのチャネルの入力音声信号との相関関係に応じて、相関係数を変化させることを特徴としたものである。
第6の技術手段は、第5の技術手段におけるプログラムを記録したコンピュータ読み取り可能な記録媒体である。
第6の技術手段は、第5の技術手段におけるプログラムを記録したコンピュータ読み取り可能な記録媒体である。
本発明によれば、3つのチャネルの入力音声信号を、スピーカ群を用いて波面合成再生方式などの再生方式で再生する際に、適切な音像を提供できる音声信号に変換することが可能になる。
本発明に係る音声信号変換装置は、3チャネル以上のマルチチャネル再生方式用の音声信号のうちの3つのチャネルの音声信号を、波面合成再生方式などの再生方式でスピーカ群から適切な音像を提供できるような音声信号に、変換する装置である。この変換により、3つのチャネルの入力音声信号が、スピーカ群により再生させるための音声信号になる。以下、3つのチャネルの入力音声信号が、仮想的に存在する音源である仮想音源に対する音像として複数のスピーカにより再生させるための音声信号になる場合を例に挙げて説明する。しかし、例えば仮想音源の数と同数の出力スピーカを用意して、各仮想音源から出力すべき音声信号を、一対一で対応する出力スピーカから再生するような場合にも、同様に適用できる。すなわち、本発明では、3つのチャネルの入力音声信号が、仮想ではない実在する音源(複数のスピーカ)に対する音像として各スピーカにより再生させるための音声信号になるような変換も採用可能である。
この音声信号変換装置は、音声信号処理装置、音声データ変換装置などとも呼べ、音声データ再生装置に組み込むことができる。なお、音声信号とは、当然、いわゆる音声を記録した信号に限ったものではなく、音響信号とも呼べる。また、波面合成再生方式とは、上述したように直線状または面状に並べたスピーカ群によって音の波面を合成する再生方式である。
以下、図面を参照しながら、本発明に係る音声信号変換装置の構成例及び処理例について説明する。また、以下の説明では、本発明に係る音声信号変換装置が、5.1chサラウンド音響信号を変換し、波面合成再生方式用の音声信号を生成する例を挙げる。
5.1chの音声信号を波面合成再生方式で再生するために、まず図5を参照しながらアレイスピーカの配置方法の決定に関して述べ、その後、信号処理方法について述べる。図5は、本発明に係る音声信号変換装置で変換された音声信号を波面合成再生方式で再生するためのスピーカ群の配置例を示す図である。
アレイスピーカの配置について、さまざまな方法が考えられるが、5.1chのスピーカ配置方法では後方からも音が到来することを考えると、円状のアレイスピーカあるいは4本の線状のアレイスピーカにより視聴者を取り囲むという配置方法がまず考えられる。しかし、一般家庭の部屋において、視聴位置をアレイスピーカで囲うような配置方法は現実的ではない。また、5.1chのスピーカ配置方法では、視聴者は前方のセンターチャネル(以下、FC)の方向を向いていることが前提となっており、FC、前方左チャネル(以下、FL)、前方右チャネル(以下、FR)の3つのチャネルによって合成される音像の定位精度については敏感である一方、後方の音像についてはそれほど精度が求められない。そのほか、後方と前方のスピーカによる合成音像を視聴者の側方に定位させることは聴覚心理学上困難であることもよく知られている。つまり、5.1chでは側方に合成音像を知覚し得ない。
これらの理由から、例えば図5に示す配置関係50のように、前方のみアレイスピーカ51を用い、後方の左スピーカ(以下、BL)53L、後方の右スピーカ(以下、BR)53R、及びサブウーハー(Low Frequency Effect[LFE]チャネル出力用スピーカ)52はマルチチャネル方式のものをそのまま流用するような設置方法が、現実的であると言える。
このようにして設置したスピーカ群に対し、5.1chの音声信号を変換処理して出力する方法について、主に図6及び図7を参照しながら説明する。
図6は、本発明に係る音声信号変換装置を備えた音声データ再生装置の一構成例を示すブロック図で、図7は、図6の音声データ再生装置における音声信号処理部(本発明に係る音声信号変換装置)の一構成例を示すブロック図である。
図6は、本発明に係る音声信号変換装置を備えた音声データ再生装置の一構成例を示すブロック図で、図7は、図6の音声データ再生装置における音声信号処理部(本発明に係る音声信号変換装置)の一構成例を示すブロック図である。
図6で例示する音声データ再生装置60は、デコーダ61、音声信号抽出部62、音声信号処理部63を備えるとともに、前方からの音声用としてD/Aコンバータ64、増幅器群65、及びスピーカ群66を備える。さらに、音声データ再生装置60は、後方左右及びサブウーハーからの音声のために、D/Aコンバータ67、増幅器68L,68R,68B、及びスピーカ69L,69R,69Bを備える。
デコーダ61は、音声のみあるいは音声付き映像のコンテンツを復号化し、信号処理可能な形式に変換し音声信号抽出部62に出力する。そのコンテンツは、放送局から送信されたデジタル放送のコンテンツや、ネットワークを介してディジタルコンテンツを配信するサーバからインターネットからダウンロードしたり、あるいは外部記憶装置等の記録媒体から読み込んだりすることによって取得する。このように、図6では図示しないが、音声データ再生装置60は、マルチチャネルの入力音声信号を含むディジタルコンテンツを入力するディジタルコンテンツ入力部を備える。デコーダ61は、ここで入力されたディジタルコンテンツを復号化することになる。音声信号抽出部62では、得られた信号から音声信号を分離、抽出する。ここでは得られた信号は5.1chとし、そのうちのFC、FL、FRの3つチャネルの音声信号を音声信号処理部63に出力するとともに、残りのBL、BR、LFEはD/Aコンバータ67に出力する。
音声信号処理部63では、得られた3チャネル信号から、入力音声信号とは異なるマルチチャネル(好ましくは3チャネル以上)の音声信号を生成する。つまり入力音声信号を別のマルチチャネルの音声信号に変換する。以下の例では、仮想音源数分の信号を生成するものとして説明する。音声信号処理部63は、その音声信号をD/Aコンバータ64に出力する。仮想音源の数は、ある一定以上の数があれば予め決めておいても性能上差し支えはないが、仮想音源数が多くなるほど演算量も多くなる。そのため実装する装置の性能を考慮してその数を決定することが望ましい。ここの例ではその数を5として説明する。
D/Aコンバータ64では得られた信号をアナログ信号に変換し、それぞれの信号を増幅器65に出力する。各増幅器65では入力されたアナログ信号を拡声し各スピーカ66に伝送し、各スピーカ66から空間中に音として出力される。
D/Aコンバータ67では、BL,BR及びLFEの入力音声信号をアナログ信号に変換し、それぞれの信号を増幅器68L,68R及び増幅器68Bに出力する。各増幅器68L,68R,68Bでは入力されたアナログ信号を拡声し、それぞれ後方左スピーカ69L、後方右スピーカ69R、サブウーハー69Bに伝送し、各スピーカから空間中に音として出力される。
この図における音声信号処理部63の詳細な構成を図7に示す。音声信号処理部63は、音声信号分析部71、音声信号分離抽出部72、雑音除去部73、そして、音声出力信号生成部74から構成される。音声信号分離抽出部72は本発明に係る変換部72a、相関信号抽出部72b、及び逆変換部72cを有する。また、後述するが、音声出力信号生成部74は本発明の主たる特徴としての加算部74aを有する。
音声信号分離抽出部72はFRとFLの2チャネルの信号から各仮想音源に対応する音声信号を生成し、それを雑音除去部73に出力する。5.1chの音声信号は多くの場合、FCが人物などの音声を担い、FRとFLが音声以外の背景音や左右の音圧パンによる効果音を担うため、FCの音声信号はFRあるいはFLの音声信号とは相関が弱いことが殆どである。このため、FRとFLの2チャネルを波面合成再生方式用の音声信号に変換し、それにFCの音声信号を加算することが最適な手法であると言える。ただし、図15を参照しながら後述するように、その際、音声信号分析部71が音声信号分離抽出部72に入力されたFRとFLの信号を参照してFCの信号を分析し、結果的に、音声出力信号生成部74がその分析結果に基づいたFC信号加算処理を行うことが好ましい。
ここで、変換部72aは、3つのチャネルのうち2つのチャネルの入力音声信号に離散フーリエ変換を施す。相関信号抽出部72bは、上述したように、変換部72aで離散フーリエ変換後の2つのチャネルの音声信号について相関信号を抽出するが、このとき、直流成分を無視して相関信号を抽出することが好ましい。つまり、相関信号抽出部72bは、2つのチャネルの入力音声信号の相関信号を抽出する。逆変換部72cは、(a1)相関信号抽出部72bで抽出された相関信号に対して、または(a2)その相関信号及び無相関信号(その相関信号を除く信号)に対して、もしくは(b1)その相関信号から生成された音声信号、または(b2)その相関信号及びその無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施す。
雑音除去部73では、得られた音声信号波形から知覚上ノイズとなる部分を除去し、ノイズ除去後の音声信号を音声出力信号生成部74に出力する。音声出力信号生成部74では、雑音除去部73で得られた音声信号から各スピーカ66に対応するそれぞれの出力音声信号波形を生成する。音声出力信号生成部74では、波面合成再生処理などの処理が施され、例えば、得られた各仮想音源用の音声信号を各スピーカ66に割り当て、スピーカ66毎の音声信号を生成する。波面合成再生処理の一部は音声信号分離抽出部72で担ってもよい。
次に、図8に従って、音声信号処理部63での音声信号処理例を説明する。図8は、図7の音声信号処理部での音声信号処理の一例を説明するためのフロー図で、図9は、図7の音声信号処理部において音声データをバッファに蓄える様子を示す図である。なお、音声信号分離抽出部72の処理として、変換部72a、相関信号抽出部72b、及び逆変換部72cのいずれで処理するかの記載を省略するが、各部72a〜72cの処理は上述した通りである。
まず、音声信号分離抽出部72は、1セグメントの半分の長さの音声データであってFL,FRの音声データを、図6における音声信号抽出部62での抽出結果から読み出す(ステップS81)。ここで、音声データとは、例えば48kHzなどの標本化周波数で標本化された離散音声信号波形を指すものとする。そして、セグメントとは、ある一定の長さの標本点群からなる音声データ区間であり、ここでは後ほど離散フーリエ変換の対象となる区間長を指すものとする。その値は例えば1024とする。この例では、1セグメントの半分の長さである512点の音声データが読み出し対象となる。
読み出した512点の音声データは図9で例示するようなバッファ90に蓄えられる。このバッファは、直前の1セグメント分の音声信号波形を保持しておけるようになっており、それより過去のセグメントは捨てていく。直前の半セグメント分のデータと最新の半セグメント分のデータを繋げて1セグメント分の音声データを作成し、窓関数演算(ステップS82)に進む。すなわち、全ての標本データは窓関数演算に2回読み込まれることになる。
ステップS82における窓関数演算では、従来提案されている次のHann窓を1セグメント分の音声データに乗算する。
ここで、mは自然数、Mは1セグメント長で偶数とする。ステレオの入力信号をそれぞれxL(m)、xR(m)とすると、窓関数乗算後の音声信号x′L(m)、x′R(m)は、
x′L(m)=w(m)xL(m) 、
x′R(m)=w(m)xR(m) (2)
と計算される。このHann窓を用いると、例えば標本点m0(ただし、M/2≦m0<M)の入力信号xL(m0)にはsin2((m0/M)π)が乗算される。そして、その次の回の読み込みではその同じ標本点がm0−M/2として読み込まれるので、
x′R(m)=w(m)xR(m) (2)
と計算される。このHann窓を用いると、例えば標本点m0(ただし、M/2≦m0<M)の入力信号xL(m0)にはsin2((m0/M)π)が乗算される。そして、その次の回の読み込みではその同じ標本点がm0−M/2として読み込まれるので、
そうして得られた音声データを、次の数式(3)のように離散フーリエ変換し、周波数領域の音声データを得る(ステップS83)。ここで、DFTは離散フーリエ変換を表し、kは自然数で、0≦k<Mである。XL(k)、XR(k)は複素数となる。
XL(k)=DFT(x′L(n)) 、
XR(k)=DFT(x′R(n)) (3)
XL(k)=DFT(x′L(n)) 、
XR(k)=DFT(x′R(n)) (3)
次に、音声信号分離抽出部72は、得られた周波数領域の音声データを小さい帯域に分割し、分割した各帯域についてステップS85〜S88の処理を実行する(ステップS84a,S84b)。具体的に個々の処理について説明する。
まず、分割方法についてはEquivalent Rectangular Band(ERB)を用い、ERBの帯域幅で0Hzから標本化周波数の1/2の周波数までの間を分割する。ここで、ERBにより、与えられた周波数の上限fmax[Hz]までをいくつに分割するか、すなわちERBで分割した各帯域の索引の最大値Iは次式によって与えられる。
I=floor(21.4log10(0.00437fmax+1)) (4)
ただし、floor(a)はフロア関数で、実数aを越えない整数の最大値を表す。
I=floor(21.4log10(0.00437fmax+1)) (4)
ただし、floor(a)はフロア関数で、実数aを越えない整数の最大値を表す。
また、その時のERBの帯域幅b(i)[Hz]は次式によって求められる。
b(i)=24.7(0.00437Fc (i)+1) (6)
よって、その中心周波数から低域側と高域側にそれぞれERB/2の周波数幅だけシフトすることによりi番目の小帯域の両側の境界周波数FL (i)、FU (i)を求めることができる。したがって、i番目の小帯域には、KL (i)番目の線スペクトルからKU (i)番目の線スペクトルが含まれる。ここで、KL (i)、KU (i)はそれぞれ次の数式(7)、(8)で表される。
KL (i)=ceil(21.4log10(0.00437FL (i)+1)) (7)
KU (i)=floor(21.4log10(0.00437FU (i)+1)) (8)
ただし、ceil(a)は天井関数で、実数aより小さくならない整数の最小値を表す。また、離散フーリエ変換した後の線スペクトルは、直流成分すなわち例えばXL(0)を除いて、M/2(ただし、Mは偶数)を境に対称となっている。すなわち、XL(k)とXL(M−k)は0<k<M/2の範囲で複素共役の関係になる。したがって、以下ではKU (i)≦M/2の範囲を分析の対象として考え、k>M/2の範囲については複素共役の関係にある対称の線スペクトルと同じ扱いとする。
b(i)=24.7(0.00437Fc (i)+1) (6)
よって、その中心周波数から低域側と高域側にそれぞれERB/2の周波数幅だけシフトすることによりi番目の小帯域の両側の境界周波数FL (i)、FU (i)を求めることができる。したがって、i番目の小帯域には、KL (i)番目の線スペクトルからKU (i)番目の線スペクトルが含まれる。ここで、KL (i)、KU (i)はそれぞれ次の数式(7)、(8)で表される。
KL (i)=ceil(21.4log10(0.00437FL (i)+1)) (7)
KU (i)=floor(21.4log10(0.00437FU (i)+1)) (8)
ただし、ceil(a)は天井関数で、実数aより小さくならない整数の最小値を表す。また、離散フーリエ変換した後の線スペクトルは、直流成分すなわち例えばXL(0)を除いて、M/2(ただし、Mは偶数)を境に対称となっている。すなわち、XL(k)とXL(M−k)は0<k<M/2の範囲で複素共役の関係になる。したがって、以下ではKU (i)≦M/2の範囲を分析の対象として考え、k>M/2の範囲については複素共役の関係にある対称の線スペクトルと同じ扱いとする。
これらの具体例を示す。例えば、標本化周波数が48000Hzの場合、I=49となり、49の小帯域に分割することとなる。ただし、直流成分は分割の対象とせず、どの小帯域にも含まないこととする。なぜならば、以下の方式では左右チャネルの正規化相関係数を求めるが、直流成分は複素数の実部しか持たないために正規化相関係数が1となるため、左右チャネルの直流成分が全て相関係数に割り当てられるという不適当な処理になってしまうからである。また、最も高い小帯域区間よりもさらに上の周波数に相当する線スペクトル成分も存在するが、それらは聴感上の影響も殆ど無く、さらに通常は値が微小であるため、それらは最も高い小帯域区間に含めることとして差し支えない。
この正規化相関係数d(i)は左右のチャネルの音声信号にどれだけ相関があるかを表すものであり、0から1の間の実数の値をとる。全く同じ信号同士であれば1、そして全く無相関の信号同士であれば0となる。ここで、左右のチャネルの音声信号の電力PL (i)とPR (i)の両方が0である場合、その小帯域に関して相関信号と無相関信号の抽出は不可能とし、処理を行わず次の小帯域の処理に移ることとする。また、PL (i)とPR (i)のいずれか片方が0である場合、数式(9)では演算不可能であるが、正規化相関係数d(i)=0とし、その小帯域の処理を続行する。
次に、この正規化相関係数d(i)を用いて、左右チャネルの音声信号から相関信号と無相関信号をそれぞれ分離抽出するための変換係数を求め(ステップS86)、ステップS86で取得したそれぞれの変換係数を用いて、左右チャネルの音声信号から相関信号と無相関信号を分離抽出する(ステップS87)。相関信号及び無相関信号は、いずれも推定した音声信号として抽出すればよい。
ステップS86,S87の処理例を説明する。ここで、特許文献1と同様、左右チャネルそれぞれの信号は、無相関信号と相関信号から構成され、相関信号については左右から同じ信号が出力されるものとするモデルを採用する。そして、左右から出力される相関信号によって合成される音像は、その相関信号の左右それぞれの音圧のバランスによって方向が決定されるものとする。そのモデルに従うと、入力信号xL(n)、xR(n)は、
xL(m)= s(m)+nL(m)、
xR(m)=αs(m)+nR(m) (13)
と表される。ここで、s(m)は左右の相関信号、nL(m)は左チャネルの音声信号から相関信号s(m)を減算したものであって(左チャネルの)無相関信号として定義できるもの、nR(m)は右チャネルの音声信号から相関信号s(m)を減算したものであって(右チャネルの)無相関信号として定義できるものである。また、αは相関信号の左右音圧バランスの程度を表す正の実数である。
xL(m)= s(m)+nL(m)、
xR(m)=αs(m)+nR(m) (13)
と表される。ここで、s(m)は左右の相関信号、nL(m)は左チャネルの音声信号から相関信号s(m)を減算したものであって(左チャネルの)無相関信号として定義できるもの、nR(m)は右チャネルの音声信号から相関信号s(m)を減算したものであって(右チャネルの)無相関信号として定義できるものである。また、αは相関信号の左右音圧バランスの程度を表す正の実数である。
数式(13)により、数式(2)で前述した窓関数乗算後の音声信号x′L(m)、x′R(m)は、次の数式(14)で表される。ただし、s′(m)、n′L(m)、n′R(m)はそれぞれs(m)、nL(m)、nR(m)に窓関数を乗算したものである。
x′L(m)=w(m){ s(m)+nL(m)}= s′(m)+n′L(m)、
x′R(m)=w(m){αs(m)+nR(m)}=αs′(m)+n′R(m)
(14)
x′L(m)=w(m){ s(m)+nL(m)}= s′(m)+n′L(m)、
x′R(m)=w(m){αs(m)+nR(m)}=αs′(m)+n′R(m)
(14)
数式(14)を離散フーリエ変換することによって、次の数式(15)を得る。ただし、S(k)、NL(k)、NR(k)はそれぞれs′(m)、n′L(m)、n′R(m)を離散フーリエ変換したものである。
XL(k)= S(k)+NL(k)、
XR(k)=αS(k)+NR(k) (15)
XL(k)= S(k)+NL(k)、
XR(k)=αS(k)+NR(k) (15)
したがって、i番目の小帯域における音声信号XL (i)(k)、XR (i)(k)は、
XL (i)(k)= S(i)(k)+NL (i)(k)、
XR (i)(k)=α(i)S(i)(k)+NR (i)(k)
ただし、KL (i)≦k≦KU (i) (16)
と表現される。ここで、α(i)はi番目の小帯域におけるαを表す。以後、i番目の小帯域における相関信号S(i)(k)、無相関信号NL (i)(k)、NR (i)(k)をそれぞれ、
S(i)(k)=S(k)、
NL (i)(k)=NL(k)、
NR (i)(k)=NR(k)
ただし、KL (i)≦k≦KU (i) (17)
とおくこととする。
XL (i)(k)= S(i)(k)+NL (i)(k)、
XR (i)(k)=α(i)S(i)(k)+NR (i)(k)
ただし、KL (i)≦k≦KU (i) (16)
と表現される。ここで、α(i)はi番目の小帯域におけるαを表す。以後、i番目の小帯域における相関信号S(i)(k)、無相関信号NL (i)(k)、NR (i)(k)をそれぞれ、
S(i)(k)=S(k)、
NL (i)(k)=NL(k)、
NR (i)(k)=NR(k)
ただし、KL (i)≦k≦KU (i) (17)
とおくこととする。
数式(16)から、数式(12)の音圧PL (i)とPR (i)は、
PL (i)=PS (i)+PN (i)、
PR (i)=[α(i)]2PS (i)+PN (i) (18)
と表される。ここで、PS (i)、PN (i)はi番目の小帯域におけるそれぞれ相関信号、無相関信号の電力であり、
と表される。ここで、左右の無相関信号の音圧は等しいと仮定している。
PL (i)=PS (i)+PN (i)、
PR (i)=[α(i)]2PS (i)+PN (i) (18)
と表される。ここで、PS (i)、PN (i)はi番目の小帯域におけるそれぞれ相関信号、無相関信号の電力であり、
これらの値を用いて、各小帯域における相関信号と無相関信号を推定する。i番目の小帯域における相関信号S(i)(k)の推定値est(S(i)(k))を、媒介変数μ1、μ2を用いて、
est(S(i)(k))=μ1XL (i)(k)+μ2XR (i)(k) (23)
とおくと、推定誤差εは、
ε=est(S(i)(k))−S(i)(k) (24)
と表される。ここで、est(A)はAの推定値を表すものとする。そして二乗誤差ε2が最少になるとき、εとXL (i)(k)、XR (i)(k)はそれぞれ直交するという性質を利用すると、
E[ε・XL (i)(k)]=0 、 E[ε・XR (i)(k)]=0 (25)
という関係が成り立つ。数式(16)、(19)、(21)〜(24)を利用すると、数式(25)から次の連立方程式が導出できる。
(1−μ1−μ2α(i))PS (i)−μ1PN (i)=0
α(i)(1−μ1−μ2α(i))PS (i)−μ2PN (i)=0
(26)
est(S(i)(k))=μ1XL (i)(k)+μ2XR (i)(k) (23)
とおくと、推定誤差εは、
ε=est(S(i)(k))−S(i)(k) (24)
と表される。ここで、est(A)はAの推定値を表すものとする。そして二乗誤差ε2が最少になるとき、εとXL (i)(k)、XR (i)(k)はそれぞれ直交するという性質を利用すると、
E[ε・XL (i)(k)]=0 、 E[ε・XR (i)(k)]=0 (25)
という関係が成り立つ。数式(16)、(19)、(21)〜(24)を利用すると、数式(25)から次の連立方程式が導出できる。
(1−μ1−μ2α(i))PS (i)−μ1PN (i)=0
α(i)(1−μ1−μ2α(i))PS (i)−μ2PN (i)=0
(26)
この数式(26)を解くことによって、各媒介変数が次のように求まる。
ここで、このようにして求まる推定値est(S(i)(k))の電力Pest(S) (i)が、数式(23)の両辺を二乗して求まる次の式
Pest(S) (i)=(μ1+α(i)μ2)2PS (i)+(μ1 2+μ2 2)PN (i) (28)
を満たす必要があるため、この式から推定値を次式のようにスケーリングする。なお、est′(A)はAの推定値をスケーリングしたものを表す。
Pest(S) (i)=(μ1+α(i)μ2)2PS (i)+(μ1 2+μ2 2)PN (i) (28)
を満たす必要があるため、この式から推定値を次式のようにスケーリングする。なお、est′(A)はAの推定値をスケーリングしたものを表す。
そして、i番目の小帯域における左右チャネルの無相関信号NL (i)(k)、NR (i)(k)に対する推定値est(NL (i)(k))、est(NR (i)(k))はそれぞれ、
est(NL (i)(k))=μ3XL (i)(k)+μ4XR (i)(k) (30)
est(NR (i)(k))=μ5XL (i)(k)+μ6XR (i)(k) (31)
とおくことにより、上述の求め方と同様にして、媒介変数μ3〜μ6は、
est(NL (i)(k))=μ3XL (i)(k)+μ4XR (i)(k) (30)
est(NR (i)(k))=μ5XL (i)(k)+μ6XR (i)(k) (31)
とおくことにより、上述の求め方と同様にして、媒介変数μ3〜μ6は、
数式(27)、(32)、(33)で示した各媒介変数μ1〜μ6及び数式(29)、(34)、(35)で示したスケーリングの係数が、ステップS86で求める変換係数に該当する。そして、ステップS87では、これらの変換係数を用いた演算(数式(23)、(30)、(31))により推定することで、相関信号と無相関信号(右チャネルの無相関信号、左チャネルの無相関信号)とを分離抽出する。
以上のように、図7における音声信号分離抽出部72は、このようにして分離された信号を出力することになるが、次に説明するように、仮想音源への割り当て処理が施された信号を出力することになる。そのため、音声信号分離抽出部72は、図示しないが、左右のチャネル用のゲイン調整部と相関信号処理部とを有する。音声信号分離抽出部72は、左チャネルより分離された無相関信号est'(NL (i)(k))を左チャネル用のゲイン調整部に出力し、右チャネルより分離された無相関信号est'(NR (i)(k))を右チャネル用のゲイン調整部に出力し、両チャネルより分離された相関信号est'(S(i)(k))を相関信号処理部に出力する。
この相関信号処理部では、仮想音源への割り当て処理を行う(ステップS88)。割り当て処理では、相関信号からある特定の音像を抽出するためのゲインを決定するが、その前処理として、小帯域毎に推定した相関信号によって生成される合成音像の方向を推定する。この推定処理について、図10〜図12に基づき説明する。図10は、受聴者と左右のスピーカと合成音像との位置関係の例を説明するための模式図、図11は、波面合成再生方式で使用するスピーカ群と仮想音源との位置関係の例を説明するための模式図、図12は、図11の仮想音源と受聴者及び合成音像との位置関係の例を説明するための模式図である。
いま、図10に示す位置関係100のように、受聴者から左右のスピーカ101L,101Rの中点にひいた線と、同じく受聴者103からいずれかのスピーカ101L/101Rの中心までひいた線がなす見開き角をθ0、受聴者103から推定合成音像102の位置までひいた線がなす見開き角をθとする。ここで、左右のスピーカ101L,101Rから同じ音声信号を、音圧バランスを変えて出力した場合、その出力音声によって生じる合成音像102の方向は、音圧バランスを表す前述のパラメータαを用いて次の式で近似できることが一般的に知られている(以下、立体音響におけるサインの法則と呼ぶ)。
よって、i番目の小帯域における相関信号の合成音像の方向θ(i)は次式によって求められる。ここで、θ0は予め決定しておく値で、例えばθ0=π/6[rad]などとしてよい。
ここで、FLとFRの2chステレオの音声信号を波面合成再生方式で再生できるように変換する方法として、図7に示す音声信号分離抽出部72が2chの信号を複数チャネルの信号に変換する。例えば変換後のチャネル数を5つとした場合、それを図11で示す位置関係110のように、波面合成再生方式における仮想音源112a〜112eと見做し、スピーカ群(スピーカアレイ)111の後方に配置する。なお、仮想音源112a〜112eにおける隣り合う仮想音源との間隔は均等とする。したがって、ここでの変換は、2chの音声信号を仮想音源数の音声信号に変換することになる。既に説明したように、音声信号分離抽出部72は、まず2chの音声信号を、小帯域毎に1つの相関信号と2つの無相関信号に分離する。音声信号分離抽出部72では、さらにそれらの信号をどのように仮想音源数の仮想音源(ここでは5つの仮想音源)に割り当てるかを事前に決めておかなければならない。なお、割り当ての方法については複数の方法の中からユーザ設定可能にしておいてもよいし、仮想音源数に応じて選択可能な方法を変えてユーザに提示するようにしてもよい。
割り当て方法の1つの例として、次のような方法を採る。それは、まず、左右の無相関信号については、5つの仮想音源の両端(仮想音源112a,112e)にそれぞれ割り当てる。次に、相関信号によって生じる合成音像については、5つのうちの隣接する2つの仮想音源に割り当てる。隣接するどの2つの仮想音源に割り当てるかについては、まず、前提として、相関信号によって生じる合成音像が5つの仮想音源の両端(仮想音源112a,112e)より内側になるものとし、すなわち、2chステレオ再生時の2つのスピーカによってなす見開き角内におさまるように5つの仮想音源112a〜112eを配置するものとする。そして、合成音像の推定方向から、その合成音像を挟むような隣接する2つの仮想音源を決定し、その2つの仮想音源への音圧バランスの割り当てを調整して、その2つの仮想音源によって合成音像を生じさせるように再生する、という割り当て方法を採る。
そこで、図12で示す位置関係120のように、受聴者123から両端の仮想音源112a,112eの中点にひいた線と、端の仮想音源112eにひいた線とがなす見開き角をθ′0、受聴者123から合成音像121にひいた線とがなす見開き角をθ′とする。さらに、受聴者123から合成音像121を挟む2つの仮想音源112c,112dの中点にひいた線と、受聴者123から両端の仮想音源112a,112eの中点にひいた線(受聴者123から仮想音源112cにひいた線)とがなす見開き角をφ0、受聴者123から合成音像121にひいた線とがなす見開き角をφとする。ここで、φ0は正の実数である。数式(36)で説明したようにして方向を推定した図10の合成音像102(図12における合成音像121に対応)を、これらの変数を用いて仮想音源に割り当てる方法について説明する。
まず、見開き角の差によるスケーリングを次の式のように行う。
θ′=(θ′0/θ0)θ (38)
これにより、仮想音源の配置による見開き角の差異が考慮されることになる。ただし、θ′0とθ0の値は、音声データ再生装置のシステム実装時に調整すればよく、またθ′0とθ0の値を等しくしなくても特に問題は生じないため、この例では、θ0=π/6[rad]、θ′0=π/4[rad]として説明する。
θ′=(θ′0/θ0)θ (38)
これにより、仮想音源の配置による見開き角の差異が考慮されることになる。ただし、θ′0とθ0の値は、音声データ再生装置のシステム実装時に調整すればよく、またθ′0とθ0の値を等しくしなくても特に問題は生じないため、この例では、θ0=π/6[rad]、θ′0=π/4[rad]として説明する。
次に、i番目の合成音像の方向θ(i)が数式(37)によって推定され、例えばθ(i)=π/15[rad]であったとすると、数式(38)よりθ′(i)=π/10[rad]となる。そして、仮想音源が5つの場合、図12に示すように合成音像121は左から数えて3番目の仮想音源112cと4番目の仮想音源112dの間に位置することになる。また、仮想音源が5つである場合、3番目の仮想音源112cと4番目の仮想音源112dの間について、θ′0=π/4[rad]より、φ0≒0.078[rad]となり、i番目の小帯域におけるφをφ(i)とすると、φ(i)=θ′(i)−φ0≒0.022π[rad]となる。このようにして、各小帯域における相関信号によって生じる合成音像の方向を、それを挟む2つの仮想音源の方向からの相対的な角度で表す。そして上述したように、その2つの仮想音源112c,112dでその合成音像を生じさせることを考える。そのためには、2つの仮想音源112c,112dからの出力音声信号の音圧バランスを調整すればよく、その調整方法については、再び数式(36)として利用した立体音響におけるサインの法則を用いる。
ここで、i番目の小帯域における相関信号によって生じる合成音像を挟む2つの仮想音源112c,112dのうち、3番目の仮想音源112cに対するスケーリング係数をg1、4番目の仮想音源112dに対するスケーリング係数をg2とすると、3番目の仮想音源112cからはg1・est′(S(i)(k))、4番目の仮想音源112dからはg2・est′(S(i)(k))の音声信号を出力することになる。そして、g1、g2は立体音響におけるサインの法則により、
を満たせばよい。
一方、3番目の仮想音源112cと4番目の仮想音源112dからの電力の合計が、元の2chステレオの相関信号の電力と等しくなるようにg1、g2を正規化すると、
g1 2+g2 2=1+[α(i)]2 (40)
となる。
g1 2+g2 2=1+[α(i)]2 (40)
となる。
これらを連立させることで、
と求められる。この数式(41)に上述のφ(i)、φ0を代入することによって、g1、g2を算出する。このようにして算出したスケーリング係数に基づき、上述したように3番目の仮想音源112cにはg1・est′(S(i)(k))の音声信号を、4番目の仮想音源112dからはg2・est′(S(i)(k))の音声信号を割り当てる。そして、これも上述したように、無相関信号は両端の仮想音源112a,112eに割り当てられる。すなわち、1番目の仮想音源112aにはest′(NL (i)(k))を、5番目の仮想音源112eにはest′(NR (i)(k))を割り当てる。
この例とは異なり、もし合成音像の推定方向が1番目と2番目の仮想音源の間であった場合には、1番目の仮想音源にはg1・est′(S(i)(k))とest′(NL (i)(k))の両方が割り当てられることになる。また、もし合成音像の推定方向が4番目と5番目の仮想音源の間であった場合には、5番目の仮想音源にはg2・est′(S(i)(k))とest′(NR (i)(k))の両方が割り当てられることになる。
以上のようにして、ステップS88における、i番目の小帯域についての左右チャネルの相関信号と無相関信号の割り当てが行われる。これをステップS84a,S84bのループにより全ての小帯域について行う。その結果、仮想音源の数をJとすると、各仮想音源(出力チャネル)に対する周波数領域の出力音声信号Y1(k),・・・,YJ(k)が求まる。
そして、得られた各出力チャネルについて、ステップS90〜S93の処理を実行する(ステップS89a,S89b)。以下、ステップS90〜S93の処理について説明する。
まず、各出力チャネルを離散フーリエ逆変換することによって、時間領域の出力音声信号y′j(m)を求める(ステップS90)。ここで、DFT−1は離散フーリエ逆変換を表す。
y′j(m)=DFT−1(Yj(k)) (1≦j≦J) (42)
ここで、数式(3)で説明したように、離散フーリエ変換した信号は、窓関数乗算後の信号であったため、逆変換して得られた信号y′j(m)も窓関数が乗算された状態となっている。窓関数は数式(1)に示すような関数であり、読み込みは半セグメント長ずつずらしながら行ったため、前述した通り、1つ前に処理したセグメントの先頭から半セグメント長ずつずらしながら出力バッファに加算していくことにより変換後のデータを得る。
y′j(m)=DFT−1(Yj(k)) (1≦j≦J) (42)
ここで、数式(3)で説明したように、離散フーリエ変換した信号は、窓関数乗算後の信号であったため、逆変換して得られた信号y′j(m)も窓関数が乗算された状態となっている。窓関数は数式(1)に示すような関数であり、読み込みは半セグメント長ずつずらしながら行ったため、前述した通り、1つ前に処理したセグメントの先頭から半セグメント長ずつずらしながら出力バッファに加算していくことにより変換後のデータを得る。
しかし、このような処理を行ったままでは、不連続点が変換後のデータに多数含まれてしまい、それらが再生時にノイズとなって知覚される。このような不連続点は、元の音声信号の分析の際、離散フーリエ変換後の左右チャネルの直流成分の線スペクトルを考慮しない(無視する)ことによるものである。つまり、この直流成分を無視するため、フーリエ逆変換後のセグメント間の波形の連続性が保証されず、セグメントの境界では波形が不連続となる。低い帯域の信号が多く含まれるコンテンツでは特に、生成した音声信号波形には不連続点が多く含まれ、それらはノイズとして知覚されてしまう。
図13はそれを模式的に示した波形のグラフである。より詳細には、図13は、左右チャネルの音声信号を離散フーリエ変換し左右チャネルの直流成分を無視した場合に、離散フーリエ逆変換後のセグメント境界に生じる波形の不連続点を説明するための模式図である。図13に示すグラフ130において、横軸は時間を表しており、例えば(M−2)(l)という記号は、l番目のセグメントのM−2番目の標本点であることを示している。グラフ130の縦軸は、それらの標本点に対する出力信号の値である。このグラフ130から分かるように、l番目のセグメントの最後から(l+1)番目のセグメントの最初にかけての部分で不連続点が生じてしまう。
図13で説明したような問題を解決するために、本発明に係る音声信号変換装置は、次に説明する除去部を備えることが好ましい。除去部は、逆変換部72cで離散フーリエ逆変換後の音声信号から波形の不連続点を除去する(ステップS91)。つまり、除去部では、相関信号またはそれから生成された音声信号について、離散フーリエ逆変換した後の信号から波形の不連続点を除去する。図7における音声信号処理部63の例では、上述の除去部は雑音除去部73で例示できる。なお、ここでの例では、逆変換部72cが上記(b2)の音声信号の例である、波面合成再生方式用の仮想音源への割り当て後の音声信号に対して、不連続点を除去した例を挙げているが、これに限らない。例えば、上記(a1)または(a2)の例である仮想音源への割り当て前の音声信号に対して、すなわち抽出された相関信号または抽出された相関信号及び無相関信号に対して、不連続点を除去し、その後、割り当てを行うようにしてもよい。
図14を参照して、図13で説明したような問題を解決するためのこのような処理について具体的に説明する。図14は、本発明で適用できる不連続点除去処理の一例を説明するための模式図で、左右チャネルの音声信号を離散フーリエ変換し左右チャネルの直流成分を無視した場合に、離散フーリエ逆変換後のセグメント境界に生じる波形の不連続点を除去する方法を説明するための模式図である。
この不連続点除去処理では、図14のグラフ140で図13のグラフ130に対する除去例を示すように、l番目のセグメントの最後の波形の微分値と(l+1)番目のセグメントの先頭の微分値が一致するようにする。具体的には雑音除去部73が、l番目のセグメントの最後の2点による傾きが維持されるような(l+1)番目のセグメントの先頭の値となるよう、(l+1)番目のセグメントの波形に直流成分(バイアス)を加える。その結果、処理後の出力音声信号y″j(m)は、
y″j(m)=y′j(m)+B (43)
となる。Bはバイアスを表す定数であり、1回前の出力音声信号と今回の処理の出力音声信号が出力バッファで加算された後、図14のグラフ140のように波形が連続するように決定される。
y″j(m)=y′j(m)+B (43)
となる。Bはバイアスを表す定数であり、1回前の出力音声信号と今回の処理の出力音声信号が出力バッファで加算された後、図14のグラフ140のように波形が連続するように決定される。
このように、雑音除去部73は、処理セグメントの境界において波形の微分値を維持させるように離散フーリエ逆変換後の音声信号(相関信号またはそれから生成された音声信号)に直流成分を加算することで、不連続点を除去することが好ましい。なお、この例ではマイナスのバイアスをかけているが、当然、上記微分値を一致させるためにはプラスのバイアスをかける場合もある。
このようなノイズ除去処理により、5.1ch等のマルチチャネル方式用の音声信号を、不連続点に起因するノイズを発生させることなく、波面合成再生方式で再生させるための音声信号に変換することが可能になる。そして、それにより、波面合成再生方式の特長である、どの位置の受聴者に対してもコンテンツ製作者の意図通りの音像定位を提供するという効果を享受できる。
また、雑音除去部73で処理対象となる離散フーリエ逆変換後の音声信号は、各数式で例示したように、相関信号または相関信号及び無相関信号に対して、時間領域あるいは周波数領域においてスケーリング処理を行い、そのスケーリング処理後の音声信号としてもよい。つまり、相関信号や無相関信号に対しスケーリング処理を施し、スケーリング処理後の相関信号や無相関信号に対し、不連続点の除去を行うようにしてもよい。
ただし、図14で説明した不連続点除去処理のみでは、バイアス成分が蓄積してしまい、波形の振幅がオーバフローしてしまうことがある。したがって、さらにオーバーフローを防ぐために、次式のように、加算するバイアス成分(直流成分)の振幅の大きさを時間的に減少させることにより収束させることが好ましい。なお、「時間的に減少させる」とは、加算時点からの経過時間、例えば処理セグメント毎の開始点や不連続点の開始点からの経過時間に比例して減少させることを意味する。
y″j(m)=y′j(m)+B×((M−mσ)/M) (44)
ただし、σはその減少の程度を調整するパラメータであり、例えば0.5などとする。なお、減少のためにはB,σはいずれも正とする。さらに、加算用に求めたバイアスの値の絶対値がある一定以上となった場合には、その値に応じてσを動的に増減させるなどしてもよい。増減させるタイミングは次の処理セグメントでよい。これに限らず、減少させるための比例定数に相当するσを、バイアス値の絶対値(直流成分の振幅の大きさ)に応じて変更する(変化させる)ようにしておけば、フィードバック機能が働き、同様の効果が得られる。ただ、これらの方法では音声波形の振幅がオーバフローしないことを保障するものではない。
y″j(m)=y′j(m)+B×((M−mσ)/M) (44)
ただし、σはその減少の程度を調整するパラメータであり、例えば0.5などとする。なお、減少のためにはB,σはいずれも正とする。さらに、加算用に求めたバイアスの値の絶対値がある一定以上となった場合には、その値に応じてσを動的に増減させるなどしてもよい。増減させるタイミングは次の処理セグメントでよい。これに限らず、減少させるための比例定数に相当するσを、バイアス値の絶対値(直流成分の振幅の大きさ)に応じて変更する(変化させる)ようにしておけば、フィードバック機能が働き、同様の効果が得られる。ただ、これらの方法では音声波形の振幅がオーバフローしないことを保障するものではない。
よって、例えばバイアス値がある一定(所定値)以上の値になった場合には、数式(44)の第二項のバイアス項を加算しないようにする処理を安全弁の機能として加えてもよい。つまり、雑音除去部73は、加算するために求めた直流成分の振幅が所定値未満である場合のみ、直流成分の加算を実行する(不連続点の除去を実行する)ことが好ましい。この方法を採用することにより、バイアス成分が蓄積しないようになる。
ここで、例えば音声の子音部分など、音声信号がホワイトノイズに近いような場合、音声信号波形の変化が激しく元の波形が既に不連続に近いような状態になっている。そのような音声信号波形の変化が激しい音楽コンテンツに対し、上述した方法はそのような元々不連続の状態に近い波形を無理矢理連続にしようとするため、逆に波形を歪ませてしまう可能性がある。この問題を解消するため、次の方法を用いる。
それは、音声の子音部分など信号がホワイトノイズに近いような場合、入力音声信号の波形が所定時間内(例えば処理セグメント内やその半分内)で0を交差する回数が、その他の部分に比べて極端に増加することを利用する。なお、0をどこに採るようにするかは任意に決めておけば済む。よって、出力音声信号(少なくとも離散フーリエ逆変換後の音声信号)が半セグメント長の中で0を交差する回数をカウントし、それが一定の値(所定回数)以上である場合には、その次のセグメントを所定回数以上存在する箇所とみなし、その次のセグメント処理において、数式(43)や数式(44)における右辺第二項のバイアス項を加算しないこととする。つまり、それ以外の箇所でのみ不連続点除去処理を実行する。このような方法を採用することで歪みがなくなりノイズが発生しない。なお、カウントは、セグメント境界とは関係なく一定時間の音声波形について実行してもよいし、複数のセグメント処理分の音声波形について実行してもよく、いずれの場合にもそのカウント結果から次のセグメント処理でバイアス項を加算するか否かを決めればよい。
そして、本発明に係る音声信号変換装置は、上述したように加算部74aを備える。加算部74aは、逆変換部で離散フーリエ逆変換後の音声信号に残り1つのチャネルの入力音声信号を加算する。
上述の例では、FLとFRの2つのチャネルの音声信号を、5つの仮想音源の信号に変換する。加算部74aは、その次に、FCの音声信号を、5つのうちの真ん中の仮想音源に加算する(ステップS92)。加算により得た出力音声信号はバッファに加算され(ステップS93)、順次出力される。
出力に際しては、各出力チャネル分について得たそれらの仮想音源の信号を、波面合成再生方式によって再生する。これにより、FL、FR、FCの音声信号をマルチチャネル方式で再生したときにスイートスポットで受聴できる音像を、スイートスポット以外の視聴位置からでも受聴することが可能となる。このように、本発明によれば、3つのチャネルの入力音声信号を、スピーカ群を用いて波面合成再生方式などの再生方式で再生する際に、適切な音像を提供できる音声信号に変換することが可能になる。
ここで、数式(9)により正規化相関係数を算出するにあたって、図8の処理例ではFCの音声信号を参照しなかった。しかし、その方法では次に述べるような問題が存在する。その問題とは、例えば映画などにおいてしばしば、FR及びFLの音声信号がFCの音声信号と殆ど同一となる場合が見られる。より具体的には、教会のような場所で合唱団が歌う場面において、その歌声が、フロント3チャネルから同じように出力されている場合や、着陸する旅客機が画面に大写しになっている場面において、その音がフロント3チャネルから同じように出力されている場合などが挙げられる。
そのような音場の作成のされ方がなされている場合、前述した殆どの小帯域において、その正規化相関係数は1または1に近い値となり、それぞれの音圧はほぼ等しくなる。このような場合、FR及びFLの音声信号を、後述する方法によって波面合成再生方式用の音声信号に変換すると、数式(9)の上述の5つの仮想音源のうち中央の仮想音源のみに相関信号が割り当てられ、結果的に、FRとFLの相関信号及びFCの音声信号の全てが中央より聞こえてくることとなるため、元々あった音の拡がり感が損なわれてしまう。
この問題を以下に述べる方法によって解決する。その概略をまず説明する。5.1chの前方左右チャネルの音声信号から複数の仮想音源を生成し、その中央の仮想音源に前方中央チャネルの音声信号を加算する。そのままではそれら3つのチャネルの信号が殆ど同じ場合に、音場の拡がり感が損なわれるため、3つのチャネルの類似性が非常に高い場合に、左右チャネルの相関がないものと見做すことによって解決し、5.1chのサラウンド音響信号を波面合成再生方式で再生することができる。このような手法により、例えば合唱の音声など前方からの音の拡がりを表現することができる。
図15を参照しながら、このような処理の流れを説明する。図15は、図8におけるFC信号加算処理の他の例を説明するためのフロー図である。まず、数式(9)を計算した後、音声信号分析部71がFCの音声信号を読み出し(ステップS151)、FRやFLと同様に窓関数乗算(ステップS152)、離散フーリエ変換(ステップS153)を施す。次に、音声信号分析部71が、音声信号分離抽出部72でのFRとFLの信号を参照して、FL−FCの相関係数、FR−FCの相関係数を計算することにより、信号の分析を行う(ステップS154)。より具体的に説明すると、ステップS154では、まず音声信号分析部71が数式(45)のdLC (i)とdRC (i)を計算する。
ただし、dLC (i)とdRC (i)はそれぞれ、FLとFCとの正規化相関係数、FRとFCとの正規化相関係数である。また、XC(k)はFCの音声信号波形について、FRやFLと同様にして、同時刻のセグメントに対し、数式(3)と同様に離散フーリエ変換を行った後の、周波数領域の信号である。
そして、音声信号分離抽出部72における相関信号抽出部72bが、その分析の結果に基づき、FL,FR,FC間の相関が高いか否かの判定処理を実行する(ステップS155)。ステップS155では、相関信号抽出部72bは、d(i)>ρかつdLC (i)・dRC (i)>σ(ただし、ρ、σは1に近い定数)の条件を満たすか否かを判定する。ステップS155でYESの場合、すなわち、FL、FR、FCの3つの音声信号の相関が非常に高い場合には、FLとFRの相関係数に0を代入、つまりd(i)=0とし(ステップS156)、それ以降の処理を実行する。ステップS155でNOの場合にはそのまま以降の処理を実行する。
こうすることによって、上述のようにFR及びFLの音声信号がFCの音声信号と殆ど同一となる場合には、FR及びFLの相関が無いと見做し、上述の例ではFR及びFLの音声信号はそれぞれ両端の仮想音源から出力されるため、編集者の意図した音の拡がりを損ねることなく音声を再生することが可能となる。
d(i)>ρのみにd(i)=0とするのは、FL,FC,FRの3つの信号が似通っている部分を抽出したいためである。したがって、d(i)とdLC (i)とdRC (i)との3つの相関係数の積を取り、d(i)>ρかつdLC (i)>σかつdRC (i)>σという判断を行ってもよい。
なお、頻度は非常に少ないものの、もし、5.1chの音声信号自体がdLC (i)とdRC (i)とが大幅に異なるような信号であった場合でも、同様にd(i)=0としても問題ない。d(i)=0とすることによって,FLチャネルは左端の仮想音源から,FCチャネルは中央の仮想音源から,FRチャネルは右端の仮想音源からそれぞれ出力されることになり、5.1chの出力と同じとなり、5.1chの出力より悪くなることはない。瞬間的にそのような音像が作られる場面においては、その継続時間の短さ故に、大きな問題とはならない。もし、連続的にそのような音像が作られる場面が存在したとしても、連続であるが故に閾値判断による切り替えは頻繁に行われないため、違和感は感じずに済む。
このように、上述した音声信号分離抽出部72における相関信号抽出部72bは、2つのチャネルの音声信号の相関係数を算出する際に、2つのチャネルの音声信号と残り1つのチャネルの入力音声信号との相関関係に応じて、相関係数を変化させる。これにより、どのような3つのチャネルの入力音声信号に対しても、スピーカ群を用いて波面合成再生方式などの再生方式で再生する際に、適切な音像を提供できる音声信号に変換することが可能になる。
特に、上記相関関係は、2つのチャネルの音声信号それぞれに対する残り1つのチャネルの音声信号との相関係数の値が所定の閾値以上であるか否か、で判断される関係であることが好ましい。つまり、両者の積がσより大きいか否か、もしくは双方がσより大きいか否かで例示したように、相関信号抽出部72bは、2つのチャネルそれぞれに対する残り1つのチャネルとの相関係数の値が所定の閾値以上であるか否かに応じて、相関係数を変化させることが好ましい。なお、相関関係だけでなく、場合によっては、2つのチャネルの音声信号と残り1つのチャネルの入力音声信号とに関する、コンテンツの部分的な中身を示す情報に応じて、相関係数を変化させてもよい。
このように、音声信号分析部71が音声信号分離抽出部72に入力されたFRとFLの信号を参照してFCの信号を分析し、音声信号分離抽出部72がその分析の結果に基づく判定処理を伴うような処理を施すことで、結果的に、音声出力信号生成部74が上記分析の結果に基づいた最適なFC信号加算処理を行うことができる。
次に、本発明の実装について簡単に説明する。以上、本発明に係る音声信号変換処理について、入力音声信号が5.1chの音声信号である例を挙げて説明した。これは、上述したように、映画コンテンツなどに使用されているのは5.1chであるためである。
図16は、5.1chの音声信号を波面合成再生方式で再生する際に、使用するスピーカ群と仮想音源との位置関係の例を説明するための模式図である。5.1chのスピーカの配置方法については一般的に図2のように配置されることが多く、受聴者の前方には3つのスピーカ21L,22C,21Rが並び、サブウーハー22Bも配置されている。そして、映画などのコンテンツでは特に、前方中央のいわゆるセンターチャネルは人の台詞音声などの用途で使用されることが多い。つまり、センターチャネルと左チャネル、あるいはセンターチャネルと右チャネルの間で合成音像を生じさせるような音圧制御がされている箇所はあまり多くない。
この性質を利用して、図16で示す位置関係160のように、5.1chの前方左右のスピーカ162a,162cへの入力音声信号を音声信号分離抽出部72等によって変換し、例えば5つの仮想音源163a〜163e(図11の仮想音源112a〜112eに該当)に割り当てた後、真ん中の仮想音源163cにセンターチャネル(センタースピーカ用のチャネル)の音声信号を加算する。そのようにして、出力音声信号を仮想音源に対する音像として波面合成再生方式でスピーカアレイ161により再生する。そして図6で説明したように、BL,BR及びLFEの入力音声信号については、5.1chと同じくスピーカ162d,162e及びサブウーハー164を設置し、そこから何も手を加えずに出力するなどすればよい。このように、図6及び図7の音声信号処理部63での処理対象となる3つのチャネルの入力音声信号は、5.1chサラウンド音響信号のうち、前方の左、右、中央の3つのチャネルの入力音声信号であることが好ましい。ここで、2つのチャネルの入力音声信号は、前方左右のチャネルの入力音声信号とし、残り1つのチャネルの入力音声信号は、前方中央のチャネルの入力音声信号とする。
ただし、本発明は、5.1chに限らず、3チャネル以上の入力音声信号であれば適用できる。7.1chでの処理の一例を説明すると、LFEとBR,BLの音声信号はそのまま各スピーカから出力し、FR,FC,FLの音声信号は5.1chと同様に処理し、左右のサイドのスピーカ用の音声信号もそのまま左右のサイドのスピーカからそのまま出力すればよい。
本発明は、例えばテレビなど映像の伴う装置に利用できる。本発明を適用可能な装置の様々な例について、図17〜図21を参照しながら説明する。図17〜図20は、それぞれ図6の音声データ再生装置を備えたテレビ装置の構成例を示す図で、図21は、図6の音声データ再生装置を備えたテレビボードとテレビ装置とでなるシステムの構成例を示す図である。なお、図17〜図21のいずれにおいても、スピーカアレイとしてLSP1〜LSP8で示す8個のスピーカを配列した例を挙げているが、スピーカの数は複数であればよい。
本発明に係る音声信号変換装置やそれを備えた音声データ再生装置はテレビ装置に利用できる。テレビ装置におけるこれらの装置の配置は自由に決めればよい。図17で示すテレビ装置170のように、テレビ画面171の下方に、音声データ再生装置におけるスピーカLSP1〜LSP8を直線状に並べたスピーカ群(スピーカアレイ)172を設けてもよい。図18で示すテレビ装置180のように、テレビ画面181の上方に、音声データ再生装置におけるスピーカLSP1〜LSP8を直線状に並べたスピーカアレイ182を設けてもよい。図19で示すテレビ装置190のように、テレビ画面191に、音声データ再生装置における透明のフィルム型スピーカLSP1〜LSP8を水平方向に直線状に並べたスピーカアレイ192を埋め込んでもよい。フィルム型スピーカは、画面に貼るタイプの圧電素子などにより実現できる。スピーカアレイ192の代わりに、図20で示すテレビ装置200のように、テレビ画面201の全面に透明のフィルム型スピーカLSP1〜LSP8を水平方向に直線状に並べたスピーカアレイ202を埋め込んでもよい。
また、本発明に係る音声信号変換装置やそれを備えた音声データ再生装置は、図示しないが映像投影システムに利用できる。映像投影システムに利用する場合、映像投射装置で映像を投射する投射用スクリーンにスピーカアレイを埋め込んでもよいし、音透過型のスクリーンの後ろにスピーカアレイを配置してもよい。そのほか、本発明に係る音声信号変換装置やそれを備えた音声データ再生装置は、テレビ台(テレビボード)に埋め込むこともできる。図21で示すシステム(ホームシアターシステム)210のように、テレビ装置211を搭載するためのテレビ台212aにスピーカLSP1〜LSP8を並べたスピーカアレイ212bを埋め込むようにしてもよい。さらに、本発明に係る音声信号変換装置やそれを備えた音声データ再生装置は、車内のダッシュボードにスピーカアレイを曲線状に並べるように配置するなどして、カーオーディオに適用することもできる。
いずれのスピーカアレイを採用する場合にも、サブウーハーも別途配置すればよいが、スピーカアレイと離間した位置に設置してもよいし、例えばLPS4とLPS5との間などスピーカアレイと同列に設置するなどしてもよい。
また、図17〜図21を参照して説明したような装置などに本発明に係る音声信号変換処理を適用した際、受聴者は本発明に係る変換処理を行うか行わないかについて、装置本体に備えられたボタン操作やあるいはリモートコントローラ操作などでなされたユーザ操作により切り替える切替部を設けることもできる。この変換処理を行わない場合、左右2つのチャネルについてはアレイスピーカの両端のスピーカのみを用いて再生し、センターチャネルについては真ん中の1つか2つのスピーカのみを用いて再生するなどすればよい。
また、本発明で適用可能な波面合成再生方式としては、上述したようにスピーカアレイ(複数のスピーカ)を備えて仮想音源に対する音像としてそれらのスピーカから出力するようにする方式であればよく、非特許文献1に記載のWFS方式の他、人間の音像知覚に関する現象としての先行音効果(ハース効果)を利用した方式など様々な方式が挙げられる。ここで、先行音効果とは、同一の音声を複数の音源から再生し、音源それぞれから聴取者に到達する各音声に小さな時間差がある場合、先行して到達した音声の音源方向に音像が定位する効果を指し示したものである。この効果を利用すれば、仮想音源位置に音像を知覚させることが可能となる。ただし、その効果だけで音像を明確に知覚させることは難しい。ここで、人間は音圧を最も高く感じる方向に音像を知覚するという性質も持ち合わせている。したがって、音声データ再生装置において、上述の先行音効果と、この最大音圧方向知覚の効果とを組み合わせ、これにより、少ない数のスピーカでも仮想音源の方向に音像を知覚させることが可能になる。
以上、本発明に係る音声信号変換装置が、3チャネル以上のマルチチャネル方式用の音声信号に対して波面合成再生方式で再生させるための音声信号に変換することを前提にして説明したが、本発明は、他の再生方式用の音声信号(チャネル数が3チャネルより多い音声信号)に変換する場合などにも同様に適用できる。変換後の音声信号としては、配置は問わないが、本発明の主な変換処理の対象となる3つのチャネルの音声信号から適切な音像を提供するために、好ましくは4つ以上の仮想音源の音像としてスピーカ群により再生させるための音声信号となる。このように変換された音声信号の再生方法としては、例えば1つ1つの仮想音源用に抽出した信号に対し、それぞれ1つずつスピーカを対応させて波面合成再生方式ではなく普通に出力再生させることも考えられる。
これにより、波面合成再生方式でなくても、左右のスピーカ用の入力音声信号が適切に割り振られかつセンタースピーカ用の入力音声信号が適切に処理でき、適切な音像を提供することができる。また、このような変換の場合にも上述のような離散フーリエ変換・逆変換を施し且つ相関信号を得るために直流成分を無視することがあるため、上述したようなノイズ処理を施せばよい。
また、例えば図7で例示した音声信号処理部63における各構成要素など、本発明に係る音声信号変換装置の各構成要素やその装置を備えた音声データ再生装置の各構成要素は、例えばマイクロプロセッサ(またはDSP:Digital Signal Processor)、メモリ、バス、インターフェイス、周辺装置などのハードウェアと、これらのハードウェア上にて実行可能なソフトウェアとにより実現できる。上記ハードウェアの一部または全部は集積回路/IC(Integrated Circuit)チップセットとして搭載することができ、その場合、上記ソフトウェアは上記メモリに記憶しておければよい。また、本発明の各構成要素の全てをハードウェアで構成してもよく、その場合についても同様に、そのハードウェアの一部または全部を集積回路/ICチップセットとして搭載することも可能である。
また、上述した様々な構成例における機能を実現するためのソフトウェアのプログラムコードを記録した記録媒体を、音声信号変換装置となる汎用コンピュータ等の装置に供給し、その装置内のマイクロプロセッサまたはDSPによりプログラムコードが実行されることによっても、本発明の目的が達成される。この場合、ソフトウェアのプログラムコード自体が上述した様々な構成例の機能を実現することになり、このプログラムコード自体や、プログラムコードを記録した記録媒体(外部記録媒体や内部記憶装置)であっても、そのコードを制御側が読み出して実行することで、本発明を構成することができる。外部記録媒体としては、例えばCD−ROMまたはDVD−ROMなどの光ディスクやメモリカード等の不揮発性の半導体メモリなど、様々なものが挙げられる。内部記憶装置としては、ハードディスクや半導体メモリなど様々なものが挙げられる。また、プログラムコードはインターネットからダウンロードして実行することや、放送波から受信して実行することもできる。
以上、本発明に係る音声信号変換装置について説明したが、処理の流れをフロー図で例示したように、本発明は、3つのチャネルの入力音声信号を、スピーカ群によって再生させるための音声信号に変換する音声信号変換方法としての形態も採り得る。
この音声信号変換方法は、次の変換ステップ、抽出ステップ、逆変換ステップ、及び加算ステップを有する。変換ステップは、変換部が、3つのチャネルのうち2つのチャネルの入力音声信号に離散フーリエ変換を施すステップである。抽出ステップは、相関信号抽出部が、変換ステップで離散フーリエ変換後の2つのチャネルの音声信号について、相関信号を抽出するステップである。ここで、抽出ステップは、上記2つのチャネルの音声信号の相関係数を算出する際に、上記2つのチャネルの音声信号と残り1つのチャネルの入力音声信号との相関関係に応じて、相関係数を変化させる。逆変換ステップは、逆変換部が、抽出ステップで抽出された相関信号または相関信号及び無相関信号に対して、もしくは相関信号から生成された音声信号に対して、もしくは相関信号及び無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施すステップである。加算ステップは、加算部が、逆変換ステップで離散フーリエ逆変換後の音声信号に残り1つのチャネルの入力音声信号を加算するステップである。その他の応用例については、音声信号変換装置について説明した通りであり、その説明を省略する。
なお、上記プログラムコード自体は、換言すると、この音声信号変換方法をコンピュータに実行させるためのプログラムである。すなわち、このプログラムは、コンピュータに、3つのチャネルのうち2つのチャネルの入力音声信号に離散フーリエ変換を施す変換ステップと、変換ステップで離散フーリエ変換後の2つのチャネルの音声信号について、相関信号を抽出する抽出ステップと、抽出ステップで抽出された相関信号または相関信号及び無相関信号に対して、もしくは相関信号から生成された音声信号に対して、もしくは相関信号及び無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施す逆変換ステップと、逆変換ステップで離散フーリエ逆変換後の音声信号に残り1つのチャネルの入力音声信号を加算する加算ステップと、を実行させるためのプログラムである。ここでも、抽出ステップは、上記2つのチャネルの音声信号の相関係数を算出する際に、上記2つのチャネルの音声信号と残り1つのチャネルの入力音声信号との相関関係に応じて、相関係数を変化させる。
60…音声データ再生装置、61…デコーダ、62…音声信号抽出部、63…音声信号処理部、64,67…D/Aコンバータ、65,68L,68R,68B…増幅器、66,69L,69R,69B…スピーカ、71…音声信号分析部、72…音声信号分離抽出部、72a…変換部、72b…相関信号抽出部、72c…逆変換部、73…雑音除去部、74…音声出力信号生成部、74a…加算部。
Claims (6)
- 3つのチャネルの入力音声信号を、スピーカ群により再生させるために変換する音声信号変換装置であって、
前記3つのチャネルのうち2つのチャネルの入力音声信号に離散フーリエ変換を施す変換部と、
該変換部で離散フーリエ変換後の2つのチャネルの音声信号について、相関信号を抽出する相関信号抽出部と、
該相関信号抽出部で抽出された相関信号または該相関信号及び無相関信号に対して、もしくは前記相関信号から生成された音声信号に対して、もしくは前記相関信号及び前記無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施す逆変換部と、
該逆変換部で離散フーリエ逆変換後の音声信号に残り1つのチャネルの入力音声信号を加算する加算部と、
を備え、
前記相関信号抽出部は、前記2つのチャネルの音声信号の相関係数を算出する際に、該2つのチャネルの音声信号と前記残り1つのチャネルの入力音声信号との相関関係に応じて、相関係数を変化させることを特徴とする音声信号変換装置。 - 前記2つのチャネルの音声信号と前記残り1つのチャネルの音声信号との前記相関関係は、前記2つのチャネルの音声信号それぞれに対する前記残り1つのチャネルの音声信号との相関係数の値が所定の閾値以上であるか否か、で判断される相関関係であることを特徴とする請求項1に記載の音声信号変換装置。
- 前記3つのチャネルの入力音声信号は、5.1chサラウンド音響信号のうち、前方の左、右、中央の3つのチャネルの入力音声信号であり、
前記2つのチャネルの入力音声信号は、前方左右のチャネルの入力音声信号であり、
前記残り1つのチャネルの入力音声信号は、前方中央のチャネルの入力音声信号であることを特徴とする請求項1または2に記載の音声信号変換装置。 - 3つのチャネルの入力音声信号を、スピーカ群により再生させるために変換する音声信号変換方法であって、
変換部が、前記3つのチャネルのうち2つのチャネルの入力音声信号に離散フーリエ変換を施す変換ステップと、
相関信号抽出部が、前記変換ステップで離散フーリエ変換後の2つのチャネルの音声信号について、相関信号を抽出する抽出ステップと、
逆変換部が、前記抽出ステップで抽出された相関信号または該相関信号及び無相関信号に対して、もしくは前記相関信号から生成された音声信号に対して、もしくは前記相関信号及び前記無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施す逆変換ステップと、
加算部が、前記逆変換ステップで離散フーリエ逆変換後の音声信号に残り1つのチャネルの入力音声信号を加算する加算ステップと、
を有し、
前記抽出ステップは、前記2つのチャネルの音声信号の相関係数を算出する際に、該2つのチャネルの音声信号と前記残り1つのチャネルの入力音声信号との相関関係に応じて、相関係数を変化させることを特徴とする音声信号変換方法。 - 3つのチャネルの入力音声信号を、スピーカ群により再生させるために変換するプログラムであって、
該プログラムは、コンピュータに、
3つのチャネルのうち2つのチャネルの入力音声信号に離散フーリエ変換を施す変換ステップと、
該変換ステップで離散フーリエ変換後の2つのチャネルの音声信号について、相関信号を抽出する抽出ステップと、
該抽出ステップで抽出された相関信号または該相関信号及び無相関信号に対して、もしくは前記相関信号から生成された音声信号に対して、もしくは前記相関信号及び前記無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施す逆変換ステップと、
該逆変換ステップで離散フーリエ逆変換後の音声信号に残り1つのチャネルの入力音声信号を加算する加算ステップと、
を実行させるためのプログラムであり、
前記抽出ステップは、前記2つのチャネルの音声信号の相関係数を算出する際に、該2つのチャネルの音声信号と前記残り1つのチャネルの入力音声信号との相関関係に応じて、相関係数を変化させることを特徴とするプログラム。 - 請求項5に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010199907A JP4810621B1 (ja) | 2010-09-07 | 2010-09-07 | 音声信号変換装置、方法、プログラム、及び記録媒体 |
PCT/JP2011/065698 WO2012032845A1 (ja) | 2010-09-07 | 2011-07-08 | 音声信号変換装置、方法、プログラム、及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010199907A JP4810621B1 (ja) | 2010-09-07 | 2010-09-07 | 音声信号変換装置、方法、プログラム、及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP4810621B1 true JP4810621B1 (ja) | 2011-11-09 |
JP2012060301A JP2012060301A (ja) | 2012-03-22 |
Family
ID=45044171
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010199907A Expired - Fee Related JP4810621B1 (ja) | 2010-09-07 | 2010-09-07 | 音声信号変換装置、方法、プログラム、及び記録媒体 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP4810621B1 (ja) |
WO (1) | WO2012032845A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9661436B2 (en) | 2012-08-29 | 2017-05-23 | Sharp Kabushiki Kaisha | Audio signal playback device, method, and recording medium |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6017352B2 (ja) * | 2013-03-07 | 2016-10-26 | シャープ株式会社 | 音声信号変換装置及び方法 |
JP6161962B2 (ja) * | 2013-06-06 | 2017-07-12 | シャープ株式会社 | 音声信号再生装置及び方法 |
KR20150025852A (ko) * | 2013-08-30 | 2015-03-11 | 한국전자통신연구원 | 멀티채널 오디오 분리 장치 및 방법 |
CN112470490B (zh) * | 2018-07-30 | 2023-04-11 | 索尼公司 | 信息处理设备、信息处理系统、信息处理方法和程序 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4625671B2 (ja) * | 2004-10-12 | 2011-02-02 | ソニー株式会社 | オーディオ信号の再生方法およびその再生装置 |
EP2005420B1 (fr) * | 2006-03-15 | 2011-10-26 | France Telecom | Dispositif et procede de codage par analyse en composante principale d'un signal audio multi-canal |
JP4922211B2 (ja) * | 2008-03-07 | 2012-04-25 | 日本放送協会 | 音響信号変換装置、その方法及びそのプログラム |
-
2010
- 2010-09-07 JP JP2010199907A patent/JP4810621B1/ja not_active Expired - Fee Related
-
2011
- 2011-07-08 WO PCT/JP2011/065698 patent/WO2012032845A1/ja active Application Filing
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9661436B2 (en) | 2012-08-29 | 2017-05-23 | Sharp Kabushiki Kaisha | Audio signal playback device, method, and recording medium |
Also Published As
Publication number | Publication date |
---|---|
WO2012032845A1 (ja) | 2012-03-15 |
JP2012060301A (ja) | 2012-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101341523B1 (ko) | 스테레오 신호들로부터 멀티 채널 오디오 신호들을생성하는 방법 | |
JP5149968B2 (ja) | スピーチ信号処理を含むマルチチャンネル信号を生成するための装置および方法 | |
US7257231B1 (en) | Stream segregation for stereo signals | |
KR101325402B1 (ko) | 오브젝트 기반 메타데이터를 이용한 오디오 출력 신호를 생성하는 장치 및 방법 | |
TWI489887B (zh) | 用於喇叭或耳機播放之虛擬音訊處理技術 | |
US7567845B1 (en) | Ambience generation for stereo signals | |
JP6377249B2 (ja) | オーディオ信号の強化のための装置と方法及び音響強化システム | |
JP6284480B2 (ja) | 音声信号再生装置、方法、プログラム、及び記録媒体 | |
US20040212320A1 (en) | Systems and methods of generating control signals | |
TW200837718A (en) | Apparatus and method for generating an ambient signal from an audio signal, apparatus and method for deriving a multi-channel audio signal from an audio signal and computer program | |
JP4810621B1 (ja) | 音声信号変換装置、方法、プログラム、及び記録媒体 | |
EP2484127B1 (en) | Method, computer program and apparatus for processing audio signals | |
US9071215B2 (en) | Audio signal processing device, method, program, and recording medium for processing audio signal to be reproduced by plurality of speakers | |
JP5338053B2 (ja) | 波面合成信号変換装置および波面合成信号変換方法 | |
JP2011244197A (ja) | 音声信号処理装置、方法、プログラム、及び記録媒体 | |
JP2011244196A (ja) | 音声信号処理装置、方法、プログラム、及び記録媒体 | |
JP2013055439A (ja) | 音声信号変換装置、方法、プログラム、及び記録媒体 | |
JP2011239036A (ja) | 音声信号変換装置、方法、プログラム、及び記録媒体 | |
JP5202021B2 (ja) | 音声信号変換装置、音声信号変換方法、制御プログラム、および、コンピュータ読み取り可能な記録媒体 | |
JP6161962B2 (ja) | 音声信号再生装置及び方法 | |
WO2013176073A1 (ja) | 音声信号変換装置、方法、プログラム、及び記録媒体 | |
JP6017352B2 (ja) | 音声信号変換装置及び方法 | |
JP5743003B2 (ja) | 波面合成信号変換装置および波面合成信号変換方法 | |
KR102380232B1 (ko) | 입체 음향 재생 방법 및 장치 | |
JP5590169B2 (ja) | 波面合成信号変換装置および波面合成信号変換方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110822 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140826 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4810621 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |