JP2007202021A - 音声信号処理装置、音声信号処理システム、プログラム - Google Patents

音声信号処理装置、音声信号処理システム、プログラム Download PDF

Info

Publication number
JP2007202021A
JP2007202021A JP2006020653A JP2006020653A JP2007202021A JP 2007202021 A JP2007202021 A JP 2007202021A JP 2006020653 A JP2006020653 A JP 2006020653A JP 2006020653 A JP2006020653 A JP 2006020653A JP 2007202021 A JP2007202021 A JP 2007202021A
Authority
JP
Japan
Prior art keywords
channel
audio signal
signal
encoding
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006020653A
Other languages
English (en)
Other versions
JP4951985B2 (ja
Inventor
Yuji Yamada
裕司 山田
Etsu Okimoto
越 沖本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2006020653A priority Critical patent/JP4951985B2/ja
Publication of JP2007202021A publication Critical patent/JP2007202021A/ja
Application granted granted Critical
Publication of JP4951985B2 publication Critical patent/JP4951985B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】を提供する。
【解決手段】エンコードされた音声ソースとして、所定のチャンネル構成による音声信号を他のチャンネル構成の音声信号に変換したもので、エンコード前のチャンネル構成における各チャンネルの音源の位置に応じた伝達関数が与えられたものを用意する。デコード装置は、エンコード後の音声信号を入力して、エンコード前と同じチャンネル構成の音声信号に変換する。このために、入力したエンコード後の各チャンネルの音声信号から、各デコードチャンネルに対応する音声信号成分を分離して出力させる。この音声信号成分の分離は、エンコード時においてチャンネルごとに与えた伝達特性の逆フィルタをかけることで、先ず、チャンネルごとに応じた信号成分の位相、レベルのみを原信号と同じくし、次いで比較処理により、この原信号の成分を抽出するように構成する。
【選択図】図6

Description

本発明は、音声信号を対象として信号処理を実行する音声信号処理装置に関する。また、このような音声信号処理装置の機能を与えようとする情報処理装置が実行するプログラムに関する。
例えば5.1chサラウンドや7.1chサラウンドなどの、いわゆるマルチチャンネルといわれるチャンネル構成により音響再生を行うことが知られ、また、普及してきている。
一方で、例えばLch,Rchによる2チャンネルステレオに代表されるように、マルチチャンネルシステムよりも前から普及定着している再生システムも依然として広く使用されている。このために、マルチチャンネルの音声ソースを、上記2チャンネルステレオなどの、よりチャンネル数の少ない再生システムにより再生しなければならない状況は避け難い。
しかしながら、マルチチャンネルの音声ソースとしては、本来は、マルチチャンネルを全体で視聴したときにしかるべき音響効果が得られるようにして形成された個々のチャンネルごとに応じた音声信号からなるものとされる。5.1chサラウンドであれば、L(左)ch、C(センター)ch、R(右)ch、LS(左サラウンド)ch、RS(右サラウンド)ch、SW(サブウーファ)chごとに応じた6つの音声信号から成るということである。このために、マルチチャンネルのソースをL,Rステレオチャンネルにより再生させる場合において、例えば単純に、マルチチャンネルのLch、Rchの音声を再生出力させたとすると、残るCch、LSch、RSchにより再生させるべき音源の要素が完全に欠落し、聴くことのできない音ができてしまうという不都合を生じる。
そこで、マルチチャンネルを形成する各チャンネルの音声信号を適切に分配するようにして、例えばLch,Rchによる2チャンネルステレオのチャンネル構成の音声ソースに変換するエンコード技術が知られている。例えばこのようにしてエンコードされた2チャンネルステレオの音声ソースを再生すれば、その再生音場としては、左右方向においてのみ音像が定位する一般的な2チャンネルステレオによるものとはなるが、全てのチャンネルの音声の成分が含まれているので、欠落して聴けなくなる音はなくなる。
そして、上記したようなエンコードの技術としては、次のようなものが知られている。なお、ここでのエンコード技術の説明にあたっては、エンコード対象となるマルチチャンネルは、Lch、Cch、Rch、S(サラウンド)chの4チャンネルであることとし、エンコードによってLch,Rchの2チャンネルステレオに変換される場合を例に挙げる。
ここで、上記したマルチチャンネルを形成するLch、Cch、Rch、Schチャンネルごとの音声信号を、それぞれSl、Sc、Sr、Ssとし、エンコード後の2チャンネルによるLch、Rchの信号を、S1、S2とする。そして、エンコード処理としては、例えば信号Sl、Sc、Sr、Ssを利用して、それぞれ下記の式(1)、(2)に示す演算を実行することで、これら信号S1、S2を得るようにされる。
S1=L+0.7C+0.7S・・・式(1)
S2=R+0.7C−0.7S・・・式(2)
このようにして、信号S1は、Lchの信号に対して、所定の係数(0.7)により乗算したCch、Schの信号を加算して得られる。また、信号S2は、Rchの信号に対して、所定の係数(0.7)により乗算したCchを加算し、Schの信号を減算したものとなっている。そして、このようにして得られた信号S1、S2による音声ソースを、2チャンネルステレオによる再生システムにより再生すれば、通常のLch,Rchによる2チャンネルステレオの音像定位ではあるが、元の音声ソースの音は欠落することなく、全て聴こえるようにして再生されることになる。
また、上記したエンコード技術に対応した技術として、エンコードされた2チャンネルステレオなどの音声ソースを、元のマルチチャンネルの音声ソースに変換するデコード技術も存在する。このようなデコード技術について、図22を参照して説明する。
図22においては、デコード元の信号として、上記したエンコードの処理によって得られた信号S1、S2が入力される。
信号S1、S2は、それぞれ、方向性強調回路501、504に対して直接入力される。また、これとともに、信号S1、S2は加算器511により加算されることで信号S3として方向性強調回路502に入力される。さらに、信号S1、S2は加算器512により減算され、信号S4として方向性強調回路503に入力されるようになっている。つまり、信号S1、S2を入力して、信号S3、S4を生成する部位は、マトリクス回路としての構成を採る。
このマトリクス回路の動作に基づき、信号S3、S4は、それぞれ、下記の式(3)(4)により表される。
S3=1.4C+L+R・・・(式3)
S4=1.4S+L−R・・・(式4)
なお、図22において示される信号S1、S2としては、それぞれ、先に示した式(1)(2)により表される。
上記のようにして得られる信号S1、S2、S3、S4のそれぞれの特徴として、先ず、信号S1
は、デコード後のLch信号成分が他のチャンネルの信号成分よりも3dB高くなっている。また、信号S2は、デコード後のRch信号成分が他のチャンネルの信号成分よりも3dB高くなっている。また、信号S3は、デコード後のCch信号成分が他のチャンネルの信号成分よりも3dB高く、信号S4は、デコード後のCch信号成分が他のチャンネルの信号成分よりも3dB高くなっている。つまり、信号S1、S2、S3、S4は、自身に含まれる各チャンネルの信号成分の間で、特定の1つのチャンネルの信号成分のみが他のチャンネルの信号成分よりも高いという性質を持つことで、それぞれ、Lch、Cch、Rch、Schチャンネルの信号としての適正を得ている。
ただし、マトリクス回路により生成されたままの段階の信号S1、S2、S3、S4の状態では、音像の分離が不十分になる。そこで、方向性強調回路501、502、503、504を設け、これらの回路に対して、それぞれ、信号S1、S2、S3、S4を通過させ、実際のLch、Cch、Rch、Schチャンネルごとの再生用信号を得るようにされている。方向性強調回路は、信号S1、S2、S3、S4のレベル差に応じてその出力レベルを変化させるように構成されている。例えば、Lchの信号S1が、他のチャンネルの信号S2、S3、S4よりもレベルが大きくなったとすると、これに適応して信号S1のレベルを動的に増強させ、Lchの音声を他のチャンネルの音声よりも際だたせるようにする。このような動作によって、4チャンネルの音声の間での音像の分離がより良好になる。
なお、上記したエンコード、デコードの技術は、例えばドルビープロロジックなどに採用されている。
特開2003−274493号公報
しかしながら、上記したエンコード、デコード技術は、下記のような点で万全ではなく、改良される余地が残っているということがいえる。
例えばデコード処理にあっては、図22により説明したように、マトリクス回路により復元したマルチチャンネルごとの音声信号(S1、S2、S3、S4)について方向性強調のための処理を施している。しかし、この処理は、他のチャンネル音声よりも大きなレベルのチャンネル音声を増強させるというものである。このことは、チャンネル間の音像の分離をよりはっきりさせるという効果がある反面、チャンネルごとの出力音声のレベルが動的に変動することになり、聴感的に不自然な音量の変化を感じやすいという問題を抱える。また、全てのチャンネルの音声信号がほぼ同等レベルであるような場合には、レベル差を増強する処理が行われないことになり、例えばチャンネル間の音声の音量的分離は、3dB程度を確保できるにとどまって、音像の分離が良好でなくなる。また、音声の内容によっては、配置が隣り合うスピーカ同士の間で、一方のスピーカから出力されている音が、他方のスピーカ側に引きつけられるようにして、不用意に定位が変化することもある。つまり、図22に対応する技術では、エンコードされた音声信号をデコードし、マルチチャンネルにより再現したときの音響に関して、より高品位とする余地が残っている。
そこで本発明は上記した課題を考慮して、音声信号処理装置として次のように構成する。
つまり、本願発明の音声信号処理装置は、所定のチャンネル構成を成すデコードチャンネルに対応する音声信号成分のそれぞれに対して、対応のデコードチャンネルとしての音源の位置に基づいて求められた空間伝達関数により表される伝達特性を与え、これらの音声信号成分をエンコードチャンネルのチャンネル構成に応じて振り分けて生成した、エンコードチャンネルの音声信号を入力して、上記デコードチャンネルにおける特定の1つのチャンネルに対応する音声信号成分を生成する音声信号生成手段を、上記デコードチャンネルごとに対応して備えるものとされる。
そして、上記音声信号生成手段の各々は、入力されたエンコードチャンネルの音声信号の各々について、その音声信号生成手段が対応するデコードチャンネルの音声信号成分に与えられた伝達特性についての補正を行う補正手段と、この補正手段により補正された信号の間での所定の近似性を検出する近似性検出手段と、この近似性検出手段の検出結果に基づいて、信号補正手段から出力されるエンコードチャンネルごとの信号から、相互に近似しているとされる信号成分を分離して出力する分離手段と、この分離手段により分離された信号成分を合成して、対応するデコードチャンネルの音声信号として出力するチャンネル音声信号出力手段とを備えることとした。
また、音声信号処理システムとして次のように構成することとした。
つまり、本願発明の音声信号処理システムは、所定のチャンネル構成を成す原チャンネルの音声信号の組を、この原チャンネル以外の所定のチャンネル構成を成すエンコードチャンネルの音声信号の組に変換して出力するエンコード装置と、所定のチャンネル構成を成すエンコードチャンネルの音声信号の組を入力して、所定のチャンネル構成を成すデコードチャンネルの音声信号の組に変換するデコード装置とから成る。
そして、上記エンコード装置は、1原チャンネルにつきエンコードチャンネルごとに対応したものが設けられ、入力される音声信号が対応する原チャンネルとしての音源の位置に基づいて設定される空間伝達関数により表される伝達特性を、入力される音声信号に付与する伝達特性付与手段と、エンコードチャンネルごとに対応して設けられ、伝達特性付与手段の各々によって処理が施された信号を入力して加算し、この加算した出力を、対応するエンコードチャンネルの音声信号として出力する加算手段とを備えることとした。
また、上記デコード装置は、デコードチャンネルにおける特定の1つのチャンネルに対応する音声信号成分を分離する音声信号分離手段を、デコードチャンネルごとに対応して有させることとして、これら音声信号生成手段の各々は、入力されたエンコードチャンネルごとの音声信号について、対応するデコードチャンネルの音声信号成分に与えられた伝達特性についての補正を行う補正手段と、この補正手段による補正後のエンコードチャンネルごとの信号についての所定の近似性を検出する近似性検出手段と、この近似性検出手段の検出結果に基づいて、信号補正手段から出力されるエンコードチャンネルごとの信号から、相互に近似しているとされる信号成分を分離して出力する分離手段と、この分離手段により分離された信号成分を合成して、対応するデコードチャンネルの音声信号として出力するチャンネル音声信号出力手段とを備えることとした。
なお、ここでのチャンネル構成とは、1つの音響システムを形成するためのオーディオチャンネルの数と、オーディオチャンネルに応じた音源の間での位置関係などにより決まる構成内容をいうものである。
上記各構成によると、エンコードされた音声ソースは、所定のチャンネル構成によるものを、他のチャンネル構成に変換したものとされる。そのときに、エンコード後のチャンネルごとの音声信号には、エンコード前のチャンネル構成における各チャンネルの音源の位置に応じてしかるべき空間伝達関数に応じた伝達特性が与えられている。このようにしてエンコードされた音声ソースは、エンコードチャンネルのチャンネル構成に応じた再生システムにより再生することで、エンコード前の音声ソースを再生した場合と同等の音像定位を実現することが可能である。
そして、本願発明の音声信号処理装置(デコード装置)は、上記したエンコードチャンネル構成の音声信号を入力して、エンコード前と同じチャンネル構成、若しくは別のチャンネル構成による音声信号群からなる音声ソースに変換する。このためには、入力したエンコード後の各チャンネルの音声信号から、各デコードチャンネルとしての音声信号成分を分離して出力するようにされる。
1デコードチャンネルに対応する、上記音声信号成分の分離のための構成としては、エンコードチャンネルごとの音声信号のそれぞれに含まれる音声信号成分のうちから、エンコードのための伝達特性を与えられたことにより変化した、そのデコードチャンネルの音声信号成分の所定要素(例えば位相、レベル、伝搬時間差など)を補正するようにされる。そして、エンコードチャンネルの音声信号の間で、これらの要素が近似しているとされる信号成分を分離するようにされる。このようにして分離された信号成分が、対応するデコードチャンネルの音声信号として出力される。このような信号分離の処理を、デコードチャンネルごとに実行する。この場合、各デコードチャンネルの音声信号としての出力は、そのデコードチャンネルにより再生出力させるべき音声信号成分のみから成るもので、他のチャンネルの音声信号成分は含んでいないものとしてみてよい。
このことから本発明としての音声信号処理装置は、デコードチャンネルの構成に応じた再生システムによりデコード後の音声ソースを再生するのにあたり、方向性強調などの処理を施さなくとも、適正な音像定位を再現できるものであり、このことが、例えば再生音の品質向上につながる。
以下、本願発明を実施するための最良の形態(以下、実施の形態という)について説明していくこととする。
図1、図2は、本実施の形態のエンコード装置とデコード装置のそれぞれについての、入出力のチャンネル構成を示している。
先ず、本実施の形態のエンコード装置1としては、図1に示すようにして、マルチチャンネルといわれるチャンネル構成の1つであるL(左)ch、C(中央)ch、R(右)ch、LS(左サラウンド)ch、RSch(右サラウンド)による5チャンネル分の音声信号の組による音声ソースを入力し、Lch,Rchの2チャンネルステレオに対応するチャンネル構成による音声信号の組の音声ソースに変換して出力するものとして構成される。なお、上記したLch、Cch、Rch、LSch、RSchのチャンネル構成は、例えば5.1chサラウンドのチャンネル構成から、サブウーファのチャンネルを省略したものとしてみることができる。
また、本実施の形態のデコード装置2としては、図2に示すようにして、2チャンネルステレオに対応したチャンネル構成による音声ソースの音声信号の組を入力する。このようにして入力される音声信号は、上記エンコード装置1にてエンコードされた音声ソースのものとされる。そして、これらの入力音声信号についてデコード処理を行った結果として、エンコード装置1によりエンコードされる前と同様の5チャンネル構成の組による音声信号を出力するものとされる。
図3は、図1に示したエンコード装置1によりエンコードされるべき音声ソースのチャンネル構成についてのモデルを示している。
この図には、Lch、Cch、Rch、LSch、RSchのそれぞれに応じた音源として、スピーカSP−L、SP−C、SP−R、SP−LS、SP−RSが示され、これらのスピーカから出力されて左耳と右耳のそれぞれ到達する音声をリスナ(聴取者)Mが聴き取る、というモデルが示されている。
ちなみに、このようなチャンネル構成では、図示もしているように、リスナMの位置に対する左前方にスピーカSP−Lを配置し、中央前方にスピーカSP−Cを配置し、右前方にスピーカSP−Rを配置し、左後方にスピーカSP−LSを配置し、右後方にスピーカSP−RSを配置するのが通常である。また、このようなマルチチャンネルのスピーカの配置位置については、ITU−Rなどによって理想的とされる所定の配置角度、高さなどが推奨されている。
そして、図3に示されるチャンネル構成の下での、各スピーカからリスナMの右耳、左耳に到達する音の経路については、下記の伝達関数(空間伝達関数)により表すものとする。
Hll:スピーカSP−Lから左耳に到達する経路の伝達関数
Hlr:スピーカSP−Lから右耳に到達する経路の伝達関数
Hcl:スピーカSP−Cから左耳に到達する経路の伝達関数
Hcr:スピーカSP−Cから右耳に到達する経路の伝達関数
Hrl:スピーカSP−Rから左耳に到達する経路の伝達関数
Hrr:スピーカSP−Rから右耳に到達する経路の伝達関数
Hlsl:スピーカSP−LSから左耳に到達する経路の伝達関数
Hlsr:スピーカSP−LSから右耳に到達する経路の伝達関数
Hrsl:スピーカSP−RSから左耳に到達する経路の伝達関数
Hrsr:スピーカSP−RSから右耳に到達する経路の伝達関数

なお、スピーカ(音源)から発せられる音の到達目標位置が、リスナの左耳、右耳ということになると、音源から、これら左耳、右耳に対して音声が到達するための経路についての空間伝達関数は、特に頭部伝達関数として扱われるものとなる。
図4は、図1に示したエンコード装置1の内部構成例を示している。
エンコード装置1の入力としては、図1と同様にして、Lch、Cch、Rch、LSch、RSchのチャンネル構成を形成する各チャンネル(原チャンネル)ごとの音声信号が入力される。
先ず、Lchに対応した入力音声信号についてみると、この原チャンネルのLch(原チャンネル(L))としての入力音声信号は、フィルタ11a、11bに分岐して入力される。フィルタ11aでは、原チャンネル(L)の入力音声信号に対して伝達関数Hllにより表される伝達特性を与えるための処理を実行する。このためには、例えば伝達関数Hllを時間軸上に変換したインパルス応答を得て、このインパルス応答を原チャンネル(Lch)の入力音声信号に対して畳み込むためのフィルタリング処理を実行すればよい。また、フィルタ11bでは、原チャンネル(L)の入力音声信号に対して、上記と同様のフィルタリング処理により、伝達関数Hlrにより表される伝達特性を与えるための処理を実行する。
そして、残る原チャンネル(C)、(R)、(LS)、(RS)の各原チャンネルの入力音声信号についても同様にして、対応の伝達関数に応じた伝達特性を与えるための処理を施すようにされる。
つまり、原チャンネル(C)の入力音声信号については、フィルタ12aが伝達関数Hclにより表される伝達特性を与えるとともに、フィルタ12bが伝達関数Hcrにより表される伝達特性を与えるようにされる。
原チャンネル(R)の入力音声信号については、フィルタ13aが伝達関数Hrlにより表される伝達特性を与えるとともに、フィルタ13bが伝達関数Hrrにより表される伝達特性を与えるようにされる。
原チャンネル(LS)の入力音声信号については、フィルタ14aにより伝達関数Hlslにより表される伝達特性を与えるとともに、フィルタ14bにより伝達関数Hlsrにより表される伝達特性を与えるようにされる。
原チャンネル(RS)の入力音声信号については、フィルタ15aにより伝達関数Hrslにより表される伝達特性を与えるとともに、フィルタ15bにより伝達関数Hrsrにより表される伝達特性を与えるようにされる。
ここで、上記フィルタ11a,11b〜15a、15bは、それぞれ、図5に示される所定次数のFIR(Finite Impulse Response)型のデジタルフィルタによって構成することができる。FIRフィルタとしては、例えば構成すべき次数(N次)に応じた数の遅延器21(1)〜21(N)と、乗算器22(1)〜22(n)と加算器23(1)〜23(M)を図のようにして接続したものとして形成される。遅延器21(1)〜21(N)は、それぞれ1サンプルのタイミング信号を遅延させ、乗算器22(1)〜22(n)に対しては、畳み込むべきインパルス応答に応じた係数が設定される。このような構成により、入力端子20から入力されたデジタル音声信号は、インパルス応答が畳み込まれて出力端子24から出力される。つまり、インパルス応答に応じた伝達特性を持った音声信号に変換されて出力される。
また、これらフィルタ11a,11b〜15a、15bにより畳み込むインパルス応答、あるいはその基となる伝達関数は、所定の環境をつくったうえで実際に測定して求めるようにしてもよいし、あるいは、一定の環境を想定したうえで演算などにより求めることができる。また、このときに実際的にあるいは仮想的に設定する原チャンネルの音源(スピーカ)の位置は、先に説明したITU−Rの推奨に従ったものを採用することができる。また、ITU−Rの推奨以外の位置を設定してもよい。
説明を図4に戻す。
フィルタ11a,11b〜15a、15bによりしかるべき伝達特性が与えられて出力される信号のうち、フィルタ11a、12a、13a、14a、15aから出力される信号は、加算器16aにより加算され、エンコード後のステレオチャンネル(2チャンネル)におけるLチャンネルの信号として出力される。
また、フィルタ11b、12b、13b、14b、15bから出力される信号は、加算器16bにより加算され、エンコード後のステレオチャンネルにおけるRチャンネルの信号として出力される。
ここで、エンコード後のLチャンネルの信号は、原チャンネル(L)(C)(R)(LS)(RS)の各音声信号に対して、図3のリスナMの左耳に到達する経路の伝達特性を与えたものを加算(合成)したものとなっている。また、エンコード後のRチャンネルの信号は、同じ原チャンネル(L)(C)(R)(LS)(RS)の各音声信号に対して、リスナMの右耳に到達する経路の伝達特性を与えたものを加算(合成)したものとなっている。
例えば、このようにしてエンコードされた2チャンネルの音声ソースを、通常の2チャンネルステレオに対応した音声再生装置により再生出力させ、この再生音をヘッドフォンにより聴いたとする。
このときにヘッドフォンを装着したリスナの左右の耳で聴き取る音は、図3のスピーカSP−L、SP−C、SP−R、SP−LS、SP−RSからリスナMの左耳と右耳とにそれぞれ到達する経路の伝達特性を持っている。従って、実際にヘッドフォンを装着したリスナが知覚する音としては、通常の2チャンネルステレオのようにして頭内において定位するものではなく、例えば図3のようにして、リスナMの位置にて、スピーカSP−L、SP−C、SP−R、SP−LS、SP−RSが仮想的に在るとされる位置にて原チャンネルの各音が発せられているときの定位を知覚することになる。
なお、ここでは図3との対応を分かりやすいものとするために、本実施の形態のエンコード装置1によりエンコードした音声ソースをヘッドフォンにより再生した場合について述べているが、2チャンネルステレオ再生システムとしてL,Rの各チャンネルに対応した2つのスピーカから音声を再生出力させたときにも、例えば図3と同様の仮想音源の定位とすることは可能である。この場合には、図3に示す原チャンネルのスピーカごとに対応した伝達関数に加えて、上記L,Rの各チャンネルに対応した2つのスピーカからリスナの両耳に到達する音の経路の伝達関数を加味して、図4のフィルタ11a,11b〜15a,15bにおいて畳み込むべきインパルス応答の伝達関数を求めるようにすればよい。
例えば従来例として説明したエンコード技術により2チャンネルステレオのチャンネル構成にエンコードされた音声ソースを通常の2チャンネルステレオに対応する再生装置により再生させたときには、通常の2チャンネルステレオとしての音像定位になる。これに対して本実施の形態のエンコード装置1であれば、上記のようにして、エンコード前の原チャンネルによる仮想の音像定位が得られるものである。これにより、例えばエンコードされた音声ソースを含んだコンテンツ情報などとしては、その付加価値が高まることになる。
続いては、図6により、本実施の形態のデコード装置2の内部構成例について説明する。
この図に示すようにして、デコード装置2に対しては、例えばエンコード装置1によりエンコードされた後の2チャンネルステレオによるLch、Rchの音声信号が入力される。なお、ここでは、このデコード装置2に入力されるエンコード後のチャンネル構成に対応したL,Rの各チャンネルについて、エンコードチャンネル(L)、エンコードチャンネル(R)ともいう。
この図に示すエンコーダ2は、高速フーリエ変換部(FFT部)31a、31b、チャンネル信号分離ブロック32−L、32−C、32−R、32−C、32−LS、32−RS、逆高速フーリエ変換部(IFFT部)33−L、33−C、33−R、33−LS、33−RSから成る。
エンコードチャンネル(L)の入力音声信号と、エンコードチャンネル(R)の入力信号のうち、エンコードチャンネル(L)の入力音声信号は、高速フーリエ変換部31aに入力される。フーリエ変換部31aでは、高速フーリエ変換処理を実行することで、入力された音声信号を周波数領域の信号Sglに変換する。この信号Sglは、分岐して、チャンネル信号分離ブロック32−L、32−C、32−R、32−LS、32−RS内に設けられる補正処理部41aに対してそれぞれ入力される。
また、一方のエンコードチャンネル(R)の入力音声信号は、高速フーリエ変換部31bに入力される。フーリエ変換部31bにおいても、入力音声信号について高速フーリエ変換処理を実行して、周波数領域の信号Sgrに変換し、チャンネル信号分離ブロック32−L、32−C、32−R、32−LS、32−RS内に設けられる補正処理部41bに対してそれぞれ入力させる。
チャンネル信号分離ブロック32−L、32−C、32−R、32−LS、32−RSは、以降の説明からも理解されるように、デコード後のチャンネル構成である、Lch、Cch、Rch、LSch、RSchの5つのチャンネル(デコードチャンネル)に対応して、5つ設けられているものであり、それぞれ、図示するようにして、補正処理部41a、41b、及び分離処理部42を備えてなる。
図7、図8は、チャンネル信号分離ブロック32の構成として、分離処理部42の内部をより詳細に示した構成例を示している。なお、これら図7、図8においては、5つあるチャンネル信号分離ブロックのうち、チャンネル信号分離ブロック32−Lを例に挙げている。
図7は、チャンネル信号分離ブロック32−Lにおいて実行される信号処理動作の概念に基づいて、その内部構成を示している。
エンコードチャンネル(L)の入力音声信号を高速フーリエ変換部31aにより周波数領域に変換して得られた信号Sglは、チャンネル信号分離ブロック32−Lにおける補正処理部41aに対して入力される。この補正処理部41aにおいては、伝達関数Hllに応じたインパルス応答畳み込み処理のフィルタ特性に対して逆となるフィルタ特性によるフィルタリング処理を実行する。
この伝達関数Hllに応じたインパルス応答畳み込み処理のフィルタ特性の逆特性については、ここでは[1/Hll]のようにして伝達関数Hllの逆数により表している。
例えば伝達関数Hllに応じた伝達特性を持つとされる音声信号成分の周波数応答特性が図9(a)に示すものであるとした場合、その逆特性[1/Hll]の周波数応答特性は、図9(b)に示すようにして、図9(a)の特性を反転させたようなものとなる。
そして、上記伝達関数Hllは、図3に示した原チャンネル(L)のスピーカSP−LからリスナMの左耳に到達する経路の伝達関数であり、図4に示したエンコード装置1におけるフィルタ11aに設定されるフィルタ特性に対応する。つまり、図7の補正フィルタ41aでは、[1/Hll]として示される逆フィルタをかけているものであり、これにより、信号Sglに含まれているとされるフィルタ11a〜フィルタ15aの信号成分のうちで、フィルタ11aの出力信号成分に与えられていた伝達関数Hllによる伝達特性はキャンセルされる。このために、信号Sglに含まれるフィルタ11aの出力信号成分は、フィルタ11aに入力される前段階の原チャンネル(L)の音声信号、つまり、エンコード前の音声ソースの信号に限りなく近くなり、同等とみてよい特性にまで補正されることとなる。なお、留意すべきことは、補正フィルタ41aにより原チャンネルの音声信号と同等の特性となるようにして補正される信号成分は、原チャンネル(L)に対応したもののみであり、他の原チャンネルに対応する信号成分については、かかる補正はかけられていないままである。
また、一方のエンコードチャンネル(r)の入力音声信号を高速フーリエ変換部31aにより周波数領域に変換して得られた信号Sgrについても、チャンネル信号分離ブロック32−Lにおける補正処理部41aにより、伝達関数Hlrに応じたインパルス応答畳み込み処理のフィルタ特性(図4のフィルタ11bのフィルタ特性)に対する逆特性[1/Hlr]によるフィルタリングの処理がかけられる。これにより、補正処理部41aの出力としては、信号Sgrに含まれる信号成分のうちで原チャンネル(L)の音声信号の成分のみが、フィルタ11bの入力前と同等特性となるようにして補正されることになる。
なお、補正処理部41a、41bについても、例えば図5に示したようなFIR型のフィルタを形成し、例えば逆フィルタ特性に応じた係数を乗算器に設定して構成することができる。
上記のようにして、チャンネル信号分離ブロック32−Lの補正処理部41aによっては、エンコードチャンネル(L)に対応する信号Sglについて、これに含まれる原チャンネル(L)の信号成分についてのみ、エンコード前と同等の特性に補正するようにされ、補正処理部41bによっては、エンコードチャンネル(R)に対応する信号Sgrについて、これに含まれる原チャンネル(L)の信号成分についてのみ、エンコード前と同等の特性に補正する。つまり、信号Sglと、信号Sgrとについて、ともに、原チャンネル(L)の信号成分のみをエンコード前と同等に補正した信号Sgla、Sgraが得られることになる。これら信号Sgla、Sgraの関係としては、共通に補正された原チャンネル(L)の信号成分については、その位相とレベルが相互に一致していることになる。つまり、補正処理部41a,41bによる補正処理は、エンコード時において原チャンネル(L)の信号成分に対して伝達特性(Hll、Hlr)を与えたことにより生じた、信号Sgl,Sgr間における原チャンネル(L)の信号成分の位相差、レベル差を補正しているものであるともみることができる。なお、信号Sgla、Sgraにおいて、原チャンネル(L)以外の信号成分については、エンコード時においてフィルタ12a、12b〜15a、15bにより与えられた伝達特性を有したままであることで、相互が一致しない状態であるということになる。
このような性質を有する信号Sgla、Sgraは、分離処理部12におけるレベル/位相比較処理ブロック51に入力される。また、後述する乗算器53、54に対してそれぞれ入力される。
レベル/位相比較処理ブロック51は、入力された信号Sgla、Sgraとについて、レベルの比較と位相の比較を行い、比較結果として、信号Sgla、Sgraについての周波数領域におけるレベルと位相についての近似率の値を示すとされる信号を、音源分離関数演算ブロック52に出力するようにされる。
音源分離関数演算ブロック52は、レベル/位相比較処理ブロック51から入力される検出信号としての近似値に基づいて、所定の音源分離関数についての演算を行うことで、乗算器53、54の係数を求め、この求められた係数を乗算器53、54に対して設定する。乗算器53,54は、それぞれ、入力された信号Sgla、Sgraに対して、設定された係数を乗算して出力する。なお、この係数の求め方のより具体的な例については後述する。このようにして係数が設定されることで、乗算器53からは、信号Sglaにおいて、他方の信号Sgraとレベル、位相が一定以上近似しているとされる成分が出力される。同様に、乗算器54からは、信号Sgraにおいて、信号Sglaとレベル、位相が一定以上近似しているとされる成分が出力される。この結果、乗算器53、54の出力は、信号Sglaに含まれる信号成分と、信号Sgraに含まれる信号成分とで、ほぼ同レベル、同位相とされる同一とみてよい信号成分であることになる。先にも説明したように、信号Sglaと信号Sgraとの間で同レベルとなる信号は、補正フィルタ41a、41bにより補正された原チャンネル(L)の信号成分である、従って、乗算器53、54の出力としては、信号Sgla、Sgraの各々から、この補正された原チャンネル(L)の信号成分を分離抽出したものである、ということがいえる。そして、これら乗算器53、54の出力を加算器55により加算して出力する。この加算器55の出力が、チャンネル信号分離処理ブロック32−Lの出力信号となるものであり、この出力信号としては、エンコード前の原チャンネル(L)の音声信号と同等の信号成分であることになる。つまり、チャンネル信号分離処理ブロック32−Lでは、周波数領域に変換したエンコードチャンネル(L)(R)の音声信号を入力して、エンコード前の原チャンネル(L)の音声信号と同等の成分の信号を分離抽出して出力する。
図8には、上記図7により説明した処理概念に基づいて実際に構成されるチャンネル信号分離ブロック32−Lを示している。なお、この図において、図7と同一部分には同一符号を付して説明を省略する。
この図8においては、分離処理部42についてのより実際的な内部構成例が示されているので、この点について説明する。図8に示される分離処理部42としては、レベル比較部61、係数発生部62、位相比較部63、係数発生部64、乗算器65,66,67,68、及び加算器55から成るものとされる。
信号Sgla、Sgraは、分離処理部42に入力されると、先ず、レベル比較部61に対して入力される。レベル比較部61は、入力された信号Sgla、Sgraについてのレベルを例えば周波数のサンプルごとに求め、その求めた両者のレベルにより、例えば信号Sglaに対する信号Sgra(あるいは信号Sgraに対する信号Sgla)のレベル比mを算出して係数発生部62に出力するようにされる。ちなみにレベル比mは0≦m≦1の範囲をとるもので、m=1であれば、相互のレベルは完全に同じであることを示す。また、レベル比mの値が小さいほど、相互のレベル差が大きくなって近似性は低くなる。
係数発生部62では、入力されたレベル比mの値に基づいて、乗算器65,66に対して設定する係数rを求める。この係数rの範囲は、0≦r≦1となる。そして、この係数rを決定するためには、所定の音源分離関数を用いた演算を行う。この音源分離関数としては、レベル比mが1に近づくのに応じて、係数rも1に近づいていくようにされた所定の関係を与えるものとされる。この係数発生部62が利用する音源分離関数の例を、図10(a)(b)(c)に示す。
図10(a)(b)(c)は、音源分離関数を、レベル比mと係数rとの関係により示しているもので、横軸がレベル比mで、縦軸が係数rとされている。これらの図に示される音源分離関数は、例えばレベル比m=1のときには係数r=1を設定する点では共通しているが、レベル比mが1より小さいときの係数rの設定のしかたが異なっている。また、これら図10(a)(b)(c)に示す以外の関数も考えられるもので、この中には、レベル比m=1のときにも1未満の係数rの値を設定する可能性も含まれる。
説明を図8に戻す。
例えば上記のようにして係数発生部62が求めた係数rは、乗算器65、66のそれぞれに対して設定される。乗算器65、66は、入力された信号Sgla、Sgraに対して設定された係数rを乗算して出力する。このようにして乗算器65、66から出力される信号は、先の図7における分離処理部42における、レベル/位相比較処理ブロック51、及び音源分離関数演算ブロック52についての説明に基づいて理解されるように、それぞれ、信号Sglaから信号Sgraとレベルが一定以上近似しているとされるスペクトル成分を分離抽出したものであり、信号Sgraにおいて信号Sglaとレベルが一定以上近似しているとされるスペクトル成分を分離抽出したものであることになる。そして、このことは、乗算器65、66の出力は、それぞれ、レベル的には、補正フィルタ41a、41bにより補正された原チャンネル(L)の音声信号と同じとされる信号成分であることになる。
ただし、上記乗算器65、66の出力は、レベル比較結果のみに基づいて信号Sgla、Sgraから分離抽出された信号である。従って、例えばある時系列において原チャンネル(L)の音声信号とたまたまレベルが同じであった、原チャンネル(L)以外の原チャンネルの音声信号成分が相応に含まれている可能性がある。
そこで、乗算器65、66の出力は、さらに位相比較部63に入力されて、ここで位相比較が行われる。そして、その比較結果として乗算器65の出力信号に対する乗算器66(あるいは乗算器66の出力信号に対する乗算器65)の出力信号の位相差pを求めて、係数発生部64に出力するようにされる。位相差pは、例えば0≦p≦πの範囲をとるもので、p=0であれば、完全に同位相であることを示す。また、位相差pの値が大きくなって位相差が拡大するほど、位相についての信号の近似性が低くなる。
係数発生部64では、入力された位相差pの値に基づいて、乗算器67、68に対して設定する係数rpを求める。この係数rpの範囲は、0≦r≦1となる。そして、この係数rを決定するためには、所定の音源分離関数を用いた演算を行う。この音源分離関数としては、位相差pが0近づくのに応じて、係数rpは1に近づいていくような関係を与えるものとされる。この係数発生部62が利用する音源分離関数の例を、図11(a)(b)(c)に示す。
図10(a)(b)(c)は、位相差に応じた音源分離関数を、位相差pと係数rpとの関係により示しているもので、横軸が位相差pで、縦軸が係数rpとされている。これらの図に示される音源分離関数も、例えば位相差p=0のときには係数rp=1を設定する点では共通しているが、位相差pが1より小さいときの係数rpの設定のしかたが異なっている。また、この場合にも、図11(a)(b)(c)に示す以外の音源分離関数も考えられ、このような関数には、例えば位相差p=0のときにも1未満の係数rpの値を設定する可能性が含まれる。
そして、例えば上記のようにして係数発生部62が求めた係数rは、図8に示されるように、乗算器67、68のそれぞれに対して設定される。乗算器67、68は、それぞれ、乗算器65、66の出力信号を入力して、設定された係数rpを乗算して出力する。
そして、このようにして乗算器67、68から出力される信号は、乗算器65、66の出力信号から、位相差が一定以内にある(一定以上の位相の近似性がある)とされるスペクトル成分を分離抽出したものとなる。このことから乗算器67、68から出力された信号は、レベルに関して補正フィルタ41a、41bにより補正された原チャンネル(L)の音声信号と同じとされる信号成分から、さらに、位相が同じとされる信号成分を分離したものということになる。つまり、図7の乗算器53,54から出力される信号に相当するもので、レベルと位相の両者に関して、補正フィルタ41a、41bにより補正された原チャンネル(L)の音声信号と同じとされる信号であり、従って、エンコード前の原チャンネル(L)の音声信号と同等の信号となる。
そして、このようにして得られた乗算器67、68の出力を、図7と同様にして、加算器55により加算し、この加算された信号をチャンネル信号分離処理ブロック32−Lの出力とする。
図7と図8を比較してみると、図8の構成では、図7に示されていたレベル/位相比較処理ブロック51と音源分離関数演算ブロック52としての機能を、レベル比較結果のみを行って同じレベルの信号成分を分離抽出する部位(レベル対応分離処理系:レベル比較部61、係数発生部62、乗算器65,66)と、位相比較のみを行って同じ位相の信号成分を分離抽出する部位(位相対応分離処理系:位相比較部63、係数発生部64、乗算器67,68)とを、前段と後段とで分割するようにして設けている構成になっていることがわかる。
なお、図8における分離処理部42の他の構成として、前段に位相対応分離処理系(位相比較部63、係数発生部64、乗算器67,68)をおき、後段に、レベル対応分離処理系(レベル比較部61、係数発生部62、乗算器65,66)をおく構成とすることも考えられる。
また、分離処理部42として、例えばデコード装置に求められる再生音の品質などについてそれほど高品位なものを必要としないような場合には、レベル対応分離処理系と位相対応分離処理系の何れか一方のみを備えるような構成とすることも考えられる。レベル対応分離処理系と位相対応分離処理系の何れか一方の処理のみが行われても、レベルあるいは位相の何れか一方に基づいて原チャンネル(L)のエンコード前と同じとされる信号成分が抽出できるので、例えば従来のマトリクス回路及び方向性強調回路によるエンコード出力に比較すれば、相応に良好なデコード出力音声の品位を保てる。
説明を図6に戻す。
例えば上記図7及び図8に示した構成により、チャンネル信号分離ブロック32−Lでは、エンコード前の原チャンネル(L)と同じとされる周波数成分による信号を分離して出力するようにされる。
そして、残る4つのチャンネル信号分離ブロック32−C、32−R、32−LS、32−RSとしても、ブロック構成的には、図7あるいは図8に示した構成を採る。そのうえで、チャンネル信号分離ブロック32−Cの補正処理部41a,41bは、それぞれ、伝達関数Hcl、Hcrの逆特性[1/Hcl][1/Hcr]による逆フィルタをかけるようにされる。これにより、チャンネル信号分離ブロック32−Cでは、エンコード前の原チャンネル(C)と同じとされる周波数成分による信号を分離して出力する。
また、チャンネル信号分離ブロック32−Rの補正処理部41a,41bの逆フィルタ特性は、それぞれ、伝達関数Hrl、Hrrの逆特性[1/Hrl][1/Hrr]を設定する。これにより、チャンネル信号分離ブロック32−Rの出力は、エンコード前の原チャンネル(R)と同じとされる周波数成分による信号となる。
また、チャンネル信号分離ブロック32−LSの補正処理部41a,41bの逆フィルタ特性は、それぞれ、伝達関数Hlsl、Hlsrの逆特性[1/Hlsl][1/Hlsr]を設定する。これにより、チャンネル信号分離ブロック32−LSの出力は、エンコード前の原チャンネル(LS)と同じとされる周波数成分による信号となる。
また、チャンネル信号分離ブロック32−RSの補正処理部41a,41bの逆フィルタ特性は、それぞれ、伝達関数Hrsl、Hrsrの逆特性[1/Hrsl][1/Hrsr]を設定する。これにより、チャンネル信号分離ブロック32−LSの出力は、エンコード前の原チャンネル(RS)と同じとされる周波数成分による信号となる。
そして、これらのチャンネル信号分離ブロック32−L、32−C、32−R、32−LS、32−RSから出力される各信号は、それぞれ、IFFT部33−L、33−C、33−R、33−LS、33−RSにより、周波数領域の信号から、時間領域の音声信号に変換されて出力されることになる。このようにして出力される音声信号は、それぞれ、エンコード前の原チャンネル(L)(C)(R)(LS)(LR)と同じとされる音声信号となる。つまり、デコード装置2によりデコードされた出力となるものである。
上記構成による本実施の形態のデコード装置2により得られる音声信号は、エンコードされた音声ソースとしての音声信号(エンコードチャンネル(L)(R)の音声信号)から、信号の位相とレベルとに基づいた近似性の検出結果に応じて、原チャンネルの音声信号成分を分離抽出したものとされている。このことは、例えば従来として説明したエンコード/デコード技術によるデコード出力のようにして、デコード後の音声信号において、他のチャンネルの音声信号が一定比率で含まれているようなものではなく、デコード後の各チャンネルの音声信号は、ほぼエンコード前の各原チャンネルの音声信号と同一とみて良いものであることを意味する。
これにより、本実施の形態のデコード装置2の出力である音声信号を、各チャンネルに応じて適切に配置されたスピーカなどにより再生出力させた場合には、原チャンネルの音声信号を再生出力させた場合とほぼ同等の品質の音響効果を得ることができるものである。換言すれば、従来のようにして、音量や定位の変化を生じず、良好なチャンネルセパレーションの再生音声を聴くことができる。
ところで、デコード装置2におけるチャンネル信号分離ブロック32−L、32−C、32−R、32−C、32−LS、32−RSに備えられる補正処理部41a、41bには、先に説明したように、図4に示したエンコード装置1の各フィルタ11a,11b〜15a,15bに与えたインパルス応答の伝達関数に対して逆特性となるものである。そして、このような逆特性に対応するインパルス応答は、エンコードに用いる側の伝達関数に応じたインパルス応答が複雑で長い応答である場合に収束しにくくなるという傾向にある。
例えば、図12(a)には、残響のある環境を想定して測定したとされるインパルス応答波形の一例を示している。周知のようにして、インパルス応答としては、時間進行に従って、先ず、直接音に応答する直接音部分と、これに続く直接音が到達した後の反射音(間接音)に応答する間接音部分とがある。図12(a)では、区間Aで示す時間幅の応答部分が間接音部分であり、これに続く応答部分が例えば反射音部分となる。
一般に、直接音部分と反射音部分の応答時間を比較すると、反射音部分のほうが相当に長くなる。また、測定環境、条件などに応じた応答時間の変化が大きいのも反射音部である。そして、例えばこの反射音部分の応答時間が長いと、その逆特性を持つフィルタが収束しにくくなってくる、ということである。
そこで、本実施の形態としては、逆フィルタが収束しにくくなる原因が、主としては、逆特性の元となる伝達関数のインパルス応答の長さによるもので、さらにインパルス応答の長さは主に反射音部分の長さに依存することに着目し、次のようにして、逆特性を設定するようにされる。
つまり、図12(b)に示すようにして、図12(a)のインパルス応答波形の全体から、例えば区間Aとして示される直接音部分に対応する応答分のみを抜き出したインパルス応答を利用する。例えば、図12(a)のインパルス応答波形が伝達関数Hllに対応するものであるとすると、チャンネル信号分離ブロック32−Lの補正処理部41aには、図12(b)に示すようにして、本来の伝達関数Hllから反射音部分を省略したものに応じたインパルス応答により、逆フィルタ特性[1/Hll]を求め、補正処理部41aに設定するようにされる。残る補正処理部41a,41bについても同様にして、対応するエンコード時の伝達関数から反射音部分を省略したもののインパルス応答により求めた逆フィルタ特性を設定するようにされる。
このようにして逆フィルタ特性を設定した場合、デコード時における逆フィルタ処理にあっては、反射音成分についての補正は行われないことから、反射音部分に対応する信号成分についての適正な分離はできないことになる。しかしながら、周知のようにして、インパルス応答においては直接音のほうが支配的であり、従って、デコード出力される音声についての品位の低下などは特に問題にはならない。
また、例えばリスナのフロント側に位置するなどして、他のチャンネルよりも音の再現性が重視されるようなデコード出力チャンネルについては、反射音部分を含めた逆フィルタ特性を設定し、他のデコードチャンネルについては、反射音部分を除去した逆フィルタ特性を設定するようにして、チャンネルごとに使い分けるようにしてもよい。
また、インパルス応答の直接音部分を使用するほかに、無響室などの残響が全く無い環境で測定した伝達特性、あるいは残響が全く無い環境を想定したうえで演算により求めた伝達特性を元に、逆特性を設定するという手法を考えることもできる。残響が全く無い環境の伝達特性は、残響部分の応答を持たないことから、例えば、図12により説明したような、インパルス応答から直接音部分を抜き出すことをしなくとも、そのまま反射音部の省略されたものと同等のインパルス応答を得ることができる。ただし、残響のある環境では、インパルス応答の直接音部分にも残響成分が含まれていることから、前者の例のようにして、残響を持つ環境により得たインパルス応答の直接音部分を利用したほうが、再現される音場は豊かなものになる。
図13は、本実施の形態のデコード装置2についての他の例を示している。なお、この図において図6と同一部分については同一符号を付して説明を省略する。
この図においては、チャンネル信号分離ブロック32−L、32−C、32−R、32−C、32−LS、32−RSの各構成が、図6の場合と異なっている。つまり、チャンネル信号分離ブロック32−L、32−R、32−C、32−LS、32−RSについては、補正処理部41a,41bが省略され、代わりに、1つの補正処理部41Aが備えられる。この場合の補正処理部41Aは、信号Sgl側においてのみ設けられ、信号Sgrは、そのまま分離処理部42に入力されている。
また、チャンネル信号分離ブロック32−Cについては、補正処理部41Aは設けられず、信号Sgl、Sgrがそのまま分離処理部42に入力されるようになっている。このように、チャンネル信号分離ブロック32−Cにおいてのみ、補正処理部41Aが設けられない理由は、次の説明から理解されるように、対応する原チャンネルの音源であるスピーカSP−Cについて、図5にも示されているように、リスナの正中面に位置させることとした場合には、このスピーカSP−Cからリスナの左耳、右耳に到達する音の伝搬時間差、及びレベル差は生じないものとして扱うことができるからである。
例えば、1つの音源から聴こえる音をリスナMが聴いて、その音源の定位を知覚するときの重要な要素の1つとしては、各スピーカからリスナMの左耳と右耳に到達(伝搬)する音の時間差(伝搬時間差)を第1に挙げることができる。このような伝搬時間差は、例えば図14(a)(b)のようにして、インパルス応答の立ち上がり時間差として現れる。この図では、スピーカSP−Lの音がリスナの左耳に到達する経路(伝達関数Hll)のインパルス応答と、右耳に到達する経路(伝達関数Hlr)のインパルス応答との関係を例として示している。例えばこのようにして、図14(a)に示される伝達関数Hllのインパルス応答の立ち上がり時点に対して、図14(b)に示される伝達関数Hlrのインパルス応答の立ち上がり時点は、時間Td分遅れている。この時間Tdは、例えば点音源として考えるスピーカSP−LがリスナMの左前方に偏って位置していることで、リスナMの左耳に到達するまでの距離と、右耳に到達するまでの距離とに違いが生じ、これに応じて伝搬時間も異なってくることにより生じる。
そして、エンコード時において、伝達関数Hll、Hlrのそれぞれに応じたインパルス応答の畳み込み処理がフィルタ11a、11bにより行われることで、エンコードチャンネル(L)(R)の各音声信号に含まれる原チャンネル(L)の信号成分の間には、には、上記図14(a)(b)に示すようにインパルス応答の立ち上がり時間差(Td)が生じているものである。
そこで、音声信号Sglそのものを上記時間差Tdだけ遅延させることで、音声信号Sglに含まれる原チャンネル(L)の音声信号成分と、音声信号Sgrに含まれる同じ原チャンネル(L)の音声信号成分とは、時間差Tdがキャンセルされ、インパルス応答としてみた場合には、その立ち上がり時間が一致するようにされる。
補正処理部41Aは、このようにして、音声信号Sglを時間差Tdだけ遅延させるためのフィルタ処理を実行するために設けられる。
このようにして補正処理部41Aによる信号の遅延が行われることで、上記もしているように、音声信号Sgl、Sgrに含まれる原チャンネル(L)の音声信号成分の間における立ち上がり時間が同じとなるように調整される。つまり、音声信号Sgl、Sgrに含まれる特定の1つの原チャンネルの音声信号成分の時間のずれが補正される。
また、本実施の形態にあっては、この補正処理部41Aにより、音声信号Sgl、Sgrに含まれる特定の1つの共通な原チャンネルの音声信号成分の間でのレベル差についても補正することとしている。
例えば図3におけるスピーカSP−LとリスナMとの関係についてみれば、スピーカSP−LがリスナMの左前方に偏って位置していることで、リスナMの左耳と右耳とでの到達距離差や、音の到達方向の違いなどから、スピーカSP−Lから左耳と右耳のそれぞれに到達して聴こえる音には、その伝搬時間差の他に、レベル差も生じる。
例えば図14(c)(d)には、それぞれ、伝達関数Hll、Hlrに応じたインパルス応答の周波数特性が示されている。これら図14(a)(b)を比較して分かるように、両者の基本的な周波数分布の特性は似通っているが、両者のレベル差Lvとして示すように、そのレベル差が比較的に顕著となっている。そして、このようなレベル差もまた、信号Sgl、Sgrに含まれる伝達関数Hll、Hlrの各特性が与えられた原チャンネル(L)の信号成分の間にて生じているものであり、遅延時間(伝搬時間差)とともに、音源の定位感を決定する要素となる。
チャンネル信号分離ブロック32−Lの補正処理部41Aでは、信号Sglについて、先に説明したように遅延時間Td分により遅延させるとともに、上記レベル差Lvの分によるレベル低減処理も実行するようにされる。
このようにして補正処理部41Aによる信号の遅延が行われることで、上記もしているように、音声信号Sgl、Sgrに含まれる原チャンネル(L)の音声信号成分の間におけるレベルが同じとなるように調整される。つまり、音声信号Sgl、Sgrに含まれる特定の1つの原チャンネルの音声信号成分についてのレベル差が補正される。
分離処理部42としては、先に図8に示したのと同様の構成、処理を実行して、最終的には、原チャンネル(L)の信号を分離して出力する。但し、この場合においては、位相比較比較部63によっては信号の時間差を検出するようにされる。これに伴い、係数発生部62においては、検出された時間差に応じて係数rpが求まるような音源分離関数演算を行うことになる。
この図13の例において備えられる補正処理部41Aは、例えば信号遅延と、レベル変更とが可能なように構成すればよいことから、先の実施の形態において図7,図8に示したようにして備えられる補正処理部41a,41bよりも、簡易に構成できる。その分、デコード後の出力音声信号についての分離性は、図7,図8に示した構成のほうが良好ではあるが、図13の例にあっても、チャンネル信号分離ブロック32の構成は、できるだけ他のチャンネルの信号成分を除去して必要なチャンネルの音声信号成分のみを抜き出そうとするものであり、従って、例えば従来のマトリクス回路と方向性強調回路とを組み合わせた技術と比較しても、十分に良好な再現性を維持しているものである。
図15は、本実施の形態のエンコード装置を適用した記録システムの構成例を示している。
この図に示す記録システムは、エンコードユニット100とメディア記録ユニット101とから成る。
エンコードユニット100は、記録システムにおいて本実施の形態のエンコード装置1と同様の構成を持つユニット部位である。このエンコードユニット100には、例えば音声ソースのコンテンツとして制作されたLch、Cch、Rch、LSch、RSchのマルチチャンネル構成による音声信号を入力し、例えば図4に示した信号処理構成により、L,R2チャンネルステレオの音声信号に変換して出力する。
このようにしてエンコードにより得られたLch、Rchの音声信号は、メディア記録ユニット101に入力される。メディア記録ユニット101は、所定の記憶媒体(メディア)102に対して、入力されたLch、Rchの音声信号を記録する。このようにして、エンコードされた音声信号が、例えばコンテンツの情報としてメディア102に記憶されることになる。
このような記録システムは、例えばコンテンツの制作者などが利用し、音声情報を記憶させたメディア102を、パッケージメディアとして提供するようにされる。また、エンコードユニット100により得られたLch,Rchによる2チャンネルステレオの音声信号としてのコンテンツを、ネットワーク経由で配布できるようにしてもよい。
図16は、本実施の形態のデコード装置2を適用した再生システムの構成例を示す。
この図に示す再生システムは、メディア再生ユニット201、デコードユニット200とを備える。メディア再生ユニット201は、メディア102を装填して、このメディアのフォーマットに対応した再生処理を実行することで、エンコード後の音声ソースである、Lch,Rchの音声信号を出力する。
メディア再生ユニット201により再生されたLch,Rchの音声信号は、例えば先ず、ヘッドフォンにより音声再生させることができる。前述したように、このときにヘッドフォン6を装着しているリスナにとっては、例えば図3に示されるようにして、あたかも、周囲に設置された5つのスピーカSP−L、SP−C、SP−R、SP−LS、SP−RSから音が聴こえてくるような音場を知覚できることになる。
また、メディア再生ユニット201により再生されたLch,Rchの音声信号は、デコードユニット200に入力されるようにもなっている。デコードユニット200は、例えば図6〜図8あるいは図13に示した構成による本実施の形態のデコード装置2と同じ構成を備えており、先の説明のようにしてデコード処理を実行して、エンコード前の原チャンネルの音声信号に変換するようにされる。このようにして得られた原チャンネル(L)(C)(R)(LS)(RS)の音声信号は、例えば増幅されて、実際に設置されたスピーカSP−L、SP−C、SP−R、SP−LS、SP−RSを駆動する。このようして駆動されるスピーカから出力される音を、しかるべき聴取位置にて聴いた場合には、原チャンネルとしての音声ソースとしての理想的な音像定位が再現されることになる。また、前述のようにして、従来のエンコード、デコード技術によりデコードした音声信号をスピーカから出力させる場合と比較して、より高い品位の再現性が得られる。
また、上記のような記録システムと再生システムとを考えた場合、再生システム側で最良のデコード結果を得るためには、記録システム側でエンコードしたときのインパルス応答畳み込み処理に利用したのと同じ伝達関数(伝達特性)に基づいて、チャンネル信号分離ブロック32における補正処理部41a、41bによる逆フィルタ処理、あるいは補正処理部41Aによる遅延、レベル補正処理が実行されることが必要である。
このためには、先ず、記録システム側でエンコードするときに使用する伝達特性群を1つのみと決めておき、再生システムでは、この決められた伝達特性群に応じて逆フィルタ特性、あるいは遅延時間、レベル補正量などを組み込んだ補正処理部41を構成するものである。
しかしながら、上記の場合には、音声ソースの内容に応じて原チャンネルとして想定するスピーカの位置や、周囲の環境などの音響環境を1つのものに決めることになるので、エンコード元の音声ソースのコンテンツを作成するにあたっての自由度がなくなってしまうなどの不都合が生じる。
そこで、コンテンツの作成にあたっては、任意に音響環境をつくる、あるいは、あらかじめ規定された複数の音響環境のうちから選択できるようにして、音響環境のバリエーションが与えられるようにしておく。そして、記録システムによってエンコードした音声ソースをメディア102に記録するときには、所定のフォーマットなどに従って、エンコード前の原音源に設定した音響環境を示す識別信号、あるいは音響環境設定に応じて決まるエンコード時に使用する伝達関数群を示す識別信号をともに記録するようにされる。再生システム側では、メディア102を再生するときに、この識別信号の読み出しも行って、例えばデコードユニット200に出力するようにされる。デコードユニット200は、入力された識別信号に基づいて、チャンネル信号処理ブロック32における補正処理部41などの所要の信号処理部に対するパラメータ設定を変更するようにされる。このための構成例を図17に示す。
図17においては、図8と同じ構成のチャンネル信号分離ブロック32−Lと、パラメータ設定部400が示される。パラメータ部400によるパラメータの設定は、チャンネル信号処理ブロック32−Lだけではなく、残りのチャンネル信号処理ブロックに対しても行われるが、ここでは、図示及び説明を簡便にすることの都合上、チャンネル信号処理ブロック32−Lとパラメータ設定部400との関係のみが示されている。
パラメータ設定部400は、デコードユニット200に入力された識別信号を読み込む。そして、この読み込んだ識別信号に基づいて、パラメータとして、例えば補正処理部41a、41bに設定すべき逆フィルタ特性を決定するようにされる。
また、この場合のパラメータ設定部400は、係数発生部62、64の音源分離関数も決定するようにされる。例えばエンコード時に設定した音響環境などの相違に応じては、係数発生部62,63にて係数を発生させるときに利用する音源分離関数も変更する必要がある、あるいは変更したほうがより最適なデコード結果が得られて好ましいような場合のあることも考えられるからである。
また、チャンネル信号分離ブロック32の構成が、図13に示すものであった場合には、補正処理部41a、41bの逆フィルタ特性に代えて、補正処理部41Aの遅延時間、補正レベル量をパラメータとして決定する。
ここで、パラメータ設定部400による上記各パラメータの決定(取得)の仕方としては、次のようなものを考えることができる。
先ず、識別信号(識別情報)の構造内に対して設定すべきパラメータが格納されている場合には、読み込んだ識別信号からパラメータの情報を取得すればよい。
また、識別信号が、例えばエンコード時の音響環境などに応じたエンコードタイプを特定するようなものである場合には、パラメータ設定部400においてエンコードタイプに応じてパラメータを記述したテーブル情報などを用意しておき、識別信号の内容により識別したエンコードタイプと対応つけられているパラメータをテーブル情報から検索して取得するように構成することが考えられる。あるいは、識別情報により識別したエンコードタイプに応じて所定の演算式、関数に基づいた演算を実行し、その演算結果をパラメータとして出力させる構成とすることも考えられる。
また、パラメータ設定部400の実際の構成としては、CPUなどを備えたコンピュータなどが、パラメータ設定のためのプログラムを実行することで実現されるものとされればよい。
上記のようにしてパラメータ設定部400により決定されたパラメータとしての逆フィルタ特性、及び音源分離関数は、補正処理部41a、41b、係数発生部62,64に対してそれぞれ設定される。なお、例えば逆フィルタ特性の設定については、補正処理部41a、41bを形成するデジタルフィルタにおける乗算器の係数を変更することにより行うことができる。
そして、上記したようなパラメータ設定部400によるチャンネル分離処理ブロック32−Lに対するパラメータ設定は、残るチャンネル分離処理ブロック32−C、32−R、32−C、32−LS、32−RSについても同様にして行われるものである。
このようにして識別信号に応じたパラメータ設定が行われたチャンネル分離処理ブロック32−L、32−C、32−R、32−C、32−LS、32−RSにおける補正処理部41a、41b及び係数発生部62,64が処理を実行することで、例えばエンコード時の条件に応じて最適とされるパラメータによる信号分離の処理が行われることになるものであり、この結果、例えばデコード出力される信号については、エンコード前の原チャンネルの音声信号に非常に近い、最良とされるものが得られることになる。
また、補足として、本実施の形態のエンコード装置2によりエンコードされた音声ソースを再生出力する再生システムの他の例を図18に示す。
この図に示す再生システムは、メディア再生ユニット201、及びスピーカ駆動ユニット202を備えて構成される。メディア再生ユニット201は、先に図16に示したものと同様にして、メディア102から、エンコード後の音声ソースであるLch,Rchの音声信号を再生して出力する。
この場合においても、メディア再生ユニット201により再生されたLch,Rchの音声信号は、ヘッドフォンにより音声として再生出力させることができるようになっている。
そして、メディア再生ユニット201により再生されたLch,Rchの音声信号は、スピーカ駆動ユニット202に対しても入力されるようになっている。
スピーカ駆動ユニット202は、入力されたLch,Rchの音声信号について所要の信号処理を施した上で増幅を行い、L、Rチャンネルに対応する2つのスピーカSP−L、SP−Rを駆動する。つまり、この再生システムでは、エンコード後の音声ソースであるLch,Rchの音声信号を、本実施の形態のデコード装置2の構成によりデコードして5チャンネル構成のスピーカシステムにより再生出力するのではなく、同じ2チャンネル構成のスピーカシステムにより再生出力するようにされる。
本実施の形態のエンコード装置2によりエンコードされた音声ソースであるL、Rチャンネルの音声信号は、先に説明したとおり、通常のL,Rステレオに対応した再生システムにより再生しても、エンコード前のチャンネル構成に応じたスピーカシステムで聴いているのと同等の音像定位が得られる。ただし、エンコード時に想定した音響環境に忠実な音像定位を聴くためには、ヘッドフォンによる再生が適している。ヘッドフォンのドライバ部分から出力される音声は、リスナの耳に直接的に到達するので、左右のチャンネルの音のクロストークはほとんど無いからである。しかしながら、スピーカにより再生する場合に、例えば左チャンネルのスピーカから出力される音は、それぞれ、リスナの左耳だけではなく、右耳にも到達して聴こえるものであり、同様に、右チャンネルのスピーカから出力される音は、それぞれ、リスナの右耳だけではなく、左にも到達して聴こえる。つまり、左右のチャンネルのスピーカと、リスナの左右の耳との間でクロストークが発生する。このことが、適正な音像定位による再生を妨げる主たる要因である。
そこで、図18に示す再生システムのスピーカ駆動ユニット202では、以降説明するようにして、上記したクロストークがキャンセルされるようにするための信号処理機能を備える。
先ず、図19には、L(左),R(右)のチャンネルごとに応じた2つのスピーカSP−L,SP−Rが配置され、このスピーカSP−L,SP−Rの正中面となる位置にリスナMが位置して、スピーカSP−L,SP−Rから到達する音を聴き取るというモデルが示されている。
このモデルにおいては、スピーカSP−Lから左耳に到達する経路の伝達関数をHsll、スピーカSP−Lから右耳に到達する経路の伝達関数をHslr、スピーカSP−Rから左耳に到達する経路の伝達関数をHsrl、スピーカSP−Rから右耳に到達する経路の伝達関数をHsrrとして示している。
上記した伝達関数に応じた経路のうちで、クロストークに対応するのは、スピーカSP−Lから右耳に至る経路と、スピーカSP−Rから左耳に至る経路である。図13に示したモデルから、この2つの経路を除けば、リスナMには、スピーカSP−Lから左耳に至る経路と、スピーカSP−Rから右耳に至る経路とによる音のみが到達しているのと同じことになる。つまり、ヘッドフォンによる再生音を聴いているのと同じく、クロストークを聴かない状態で聴くことになる。
このことから、図18のスピーカ駆動ユニット202としては、入力されるL,Rチャンネルの音声信号から、クロストークに対応する経路の伝達関数Hslr、Hsrlに応じた伝達特性を除去するための信号処理を実行するようにすればよい、ということになる。これにより、実際のスピーカSP−L、SP−Rと、リスナの左右の耳との間でのクロストークはなくなり、リスナにとっては、例えばヘッドフォンによる再生音声を聴いているときと等価の、エンコード時に想定した音響環境に非常に忠実な音像定位を知覚できる。
続いて、スピーカ駆動ユニット202におけるクロストークキャンセルのための構成につて説明する。
ここで、図19に示されるスピーカSP−L、SP−RがリスナMの正中面に対して対称に配置されていることとして、スピーカがリスナMにまで到達する音の経路のうちで、クロストークではないとされる、スピーカSP−LからリスナMの左耳に至る経路と、スピーカSP−RからリスナMの右耳に至る経路とに対応した伝達関数Hsll、Hsrrについて、
Hsll=Hsrr=S
とする。また、クロストークとされる、スピーカSP−LからリスナMの右耳に至る経路と、スピーカSP−RからリスナMの左耳に至る経路とに対応した伝達関数Hsll、Hsrrについて、
Hslr=Hsrl=A
とする。そして下記の式により表される伝達関数Cを定義する。
C=−A/S
上記のようにして求められる伝達関数Cを利用して、スピーカ駆動ユニット202におけるクロストークキャンセルのための信号処理系を、例えば図20のようにして構成できる。
図20に示すクロストークキャンセルのための信号処理系の構成としては、図示するようにして、加算器211,213、フィルタ212,214,215,216を備える。
入力されるLch,Rchの音声信号のうち、Lchの音声信号は加算器211に対して入力されるとともに、分岐してフィルタ212に対して入力される。フィルタ212は、Lchの音声信号に対して伝達関数Cの伝達特性を与えて加算器213に出力する。
また、Rchの音声信号は加算器213に対して入力されるとともに、分岐してフィルタ214に対して入力される。フィルタ214は、Rchの音声信号に対して伝達関数Cの伝達特性を与えて加算器211に出力する。
加算器211によっては、Lchの音声信号と、伝達関数Cの伝達特性が与えられたRchの音声信号が加算、合成されて出力される。この加算器211から出力される信号は、元のLchの音声信号より、図19におけるスピーカSP−LからリスナMの右耳にクロストークして到達する伝達特性に応じた成分をあらかじめ取り除いたものとなる。
また、加算器213によっては、Rchの音声信号と、伝達関数Cの伝達特性が与えられたLchの音声信号が加算、合成されて出力される。この加算器211から出力される信号は、元のRchの音声信号より、スピーカSP−RからリスナMの左耳にクロストークして到達する伝達特性に応じた成分をあらかじめ取り除いたものとなる。
加算器211の出力は、フィルタ215を通過して、Lchの再生用音声信号として出力され、加算器213の出力は、フィルタ216を通過して、Rchの再生用音声信号として出力され、る。フィルタ215、216は、例えばフィルタ特性Fにより、周波数特性を平坦化するようにして補正するために設けられる。
このようにして出力されるLchの再生用音声信号とRchの再生用音声信号によりスピーカSP−L、SP−Rを駆動すると、スピーカSP−L、SP−Lから発せられる音を実際に聴くリスナMとしては、図19のスピーカSP−LからリスナMの左耳に到達する経路による音と、スピーカSP−Rからリスナの右耳に到達する経路による音のみを聴くのと等価の状態が得られることになる。つまり、クロストークがキャンセルされ、ヘッドフォンで聴く場合と同様に、エンコード時に想定した音響環境に対応した音像定位を知覚できることになる。
また、図21に、スピーカ駆動ユニット202におけるクロストークキャンセルのための信号処理系についての他の構成例を示す。
この図に示す構成においては、Lchの信号を、フィルタ221とフィルタ222に対して入力させる。フィルタ221はフィルタ特性F1によるフィルタリング処理を実行し、フィルタ221はフィルタ特性F2によるフィルタリング処理を実行する。
また、Rchの信号は、フィルタ特性F3を持つフィルタ223によるフィルタリング処理と、フィルタ特性F4を持つフィルタ224によるフィルタリング処理を実行する。
そして、フィルタ221とフィルタ223を加算器211により加算した出力がLchの再生用音声信号となり、フィルタ222とフィルタ224を加算器213により加算した出力がRchの再生用音声信号となる。
フィルタ221,222,223,224の各フィルタ特性F1,F2,F3,F4は、図19の伝達関数との関係では、次のようにして表される。
F1=Hsrr/(Hsll×Hsrr−Hslr×Hsrl)
F2=−Hslr/(Hsll×Hsrr−Hslr×Hsrl)
F3=−Hsrl/(Hsll×Hsrr−Hslr×Hsrl)
F4=Hsll/(Hsll×Hsrr−Hslr×Hsrl)
この図21の構成によっても、加算器211、213から出力される信号の各々は、図20の加算器211、213から出力される信号の組成と同じものとなる。従って、この図21の構成による処理を経て出力されるLch、Rchの再生用音声信号をスピーカSP−L、SP−Rにより駆動させた場合にも、ヘッドフォンで聴く場合と同等の音像定位を知覚できることになる。
ところで、これまでの説明にあっては、エンコード装置1は、原チャンネルとしてLch、Cch、Rch、LSch、RSchのチャンネル構成の組に対応し、エンコードチャンネルとしてLch,Rchの2チャンネル構成の組に対応することとしている。しかし、このチャンネル構成はあくまでも一例であって、原チャンネル側とエンコードチャンネル側とでそれぞれ変更されて良いものである。また、エンコード前と後とでは、例えば同じコンテンツについて、チャンネル構成が異なれば良いものとされ、この点で、エンコード前と後とで構成チャンネル数が同じとなる場合もあるものとされる。構成チャンネル数が同じであっても、例えばチャンネル間での音源位置などに違いがあれば、チャンネル構成としては異なるからである。
また、さらに実施の形態としてのデコード装置2は、エンコード装置1によりエンコードされた音声ソースを入力して、デコードチャンネルとして原チャンネルと同じチャンネル構成にデコードすることとしているが、デコードにより得られるデコードチャンネルとしてのチャンネル構成は、必ずしも、エンコード装置1が対応する原チャンネルのチャンネル構成と同じである必要は無く、他のチャンネル構成とされてもよい。このようなデコード装置は、デコード後のチャンネル構成のモデルに従った伝達関数を加味して、補正処理部41に与える特性を設定することで実現可能である。
さらに、これまでの説明にあっては、本実施の形態のエンコード装置1とデコード装置2は、それぞれ、記録システム、再生システムにおいて個別に備えられるものとしているが、本実施の形態のエンコード装置1とデコード装置2の構成を共に備えた記録再生装置、記録再生システムを構築することもできるものである。
また、これまでに説明した本実施の形態としてのエンコード装置1、デコード装置2としての構成は、例えば音声の記録、再生機能を有するオーディオ機器として物理的に構成することができる。また、その信号処理系の構成をプログラムとして構成することもできる。本実施の形態のエンコード装置、デコード装置の機能をプログラムにより構成した場合、エンコード、デコードとしての信号処理は、CPUなどがプログラムに従って実行することで実現される。そして、このようなプログラムは、音声再生装置としての機能を実現する機器が備えるROMなどに対して、製造時などに書き込んで記憶させることができる。また、プログラムは、例えばリムーバブルの記憶媒体(磁気ディスク、光ディスク、半導体メモリなど)に記憶させておいたうえで、パーソナルコンピュータをはじめとする各種機器がこの記憶媒体から読み出して実行させることができる。あるいは、記憶媒体に記憶されたプログラムを機器にインストールし、その後に、機器がインストールされたプログラムを実行できるように構成することもできる。また、ネットワーク上のサーバなどにおける記憶装置に記憶させておき、各種の機器がネットワーク経由で一時取得したうえで実行したり、あるいは、機器がネットワーク経由でインストールを行い、その後にインストールされたプログラムを実行できるように構成したりすることも考えられる。
また、本願発明としては、これまでに説明した実施の形態としての例に限定されるものではない、適宜変更が可能とされる。例えば、本実施の形態では、音の空間伝達関数は、音源からリスナの耳に到達する経路のものとされていることから、頭部伝達関数と同義とみてよいのであるが、音源の到達目標となる位置をリスナの耳ではない、何らかの他のものに対応させる場合もあると考えられる。この場合には、音源から到達目標の位置までの経路を表す伝達特性として、本来の意味での空間伝達関数を用いることになる。
本願発明の実施の形態としてのエンコード装置が対応する入出力のチャンネル構成例を示す図である。 本願発明の実施の形態としてのデコード装置が対応する入出力のチャンネル構成例を示す図である。 本実施の形態のエンコード装置によりエンコードされる音声ソースのチャンネル構成を音源とする場合のモデルを示す図である。 実施の形態のエンコード装置の構成例を示す図である。 実施の形態のエンコード装置内のフィルタの構成例を示す図である。 実施の形態のデコード装置の構成例を示す図である。 実施の形態のデコード装置におけるチャンネル信号分離ブロックの構成例を概念的に示す図である。 実施の形態のデコード装置におけるチャンネル信号分離ブロックの構成例を示す図である。 伝達関数Hllと、この伝達関数Hllに対する逆特性とを、周波数特性により比較して示す図である。 係数発生部がレベル比に応じて乗算器の係数を設定するための関数例を示す図である。 係数発生部が位相差に応じて乗算器の係数を設定するための関数例を示す図である。 有響環境でのインパルス応答波形と、このインパルス応答波形から直接音部分のみを取り出した応答波形とを示す図である。 実施の形態のデコード装置についての他の構成例を示す図である。 同一音源の音声に与えられる伝達関数に応じて生じるとされる伝搬時間差とレベル差の例を示す図である。 実施の形態のエンコード装置を備える記録システムの構成例を示す図である 実施の形態のデコード装置を備える再生システムの構成例を示す図である 識別信号に応じてチャンネル信号分離ブロックにおけるパラメータを変更設定するための構成例を示す図である。 実施の形態のエンコード装置によりエンコードされた音声ソースを再生する再生システムの構成例を示す図である。 音源が2チャンネルの場合の音響のモデルを示す図である。 図18のスピーカ駆動ユニットに備えられるクロストークキャンセルのための構成例を示す図である。 図18のスピーカ駆動ユニットに備えられるクロストークキャンセルのための構成例を示す図である。 従来としてのエンコード技術の構成例を示す図である。
符号の説明
1 エンコード装置、2 デコード装置、6 ヘッドフォン、11a〜15a・11b〜15b フィルタ、16a・16b 31a・31b 高速フーリエ変換部、32−L・32−C・32−R・32−LS・32−LR チャンネル信号分離ブロック、逆フーリエ変換部 33−L・33−C・33−R・33−LS・33−LR、41a・41b・41A 補正処理部、42 分離処理部、51 レベル/位相比較処理ブロック、52 音源分離関数演算ブロック、53・54・65・66・67・68 係数器、55 加算器、61 レベル比較部、62・64 係数発生部、63 位相比較部、100 エンコードユニット、101 メディア記録ユニット、102 メディア、200 デコードユニット、201 メディア再生ユニット、400 パラメータ設定部

Claims (11)

  1. 所定のチャンネル構成を成すデコードチャンネルに対応する音声信号成分のそれぞれに対して、対応のデコードチャンネルとしての音源の位置に基づいて求められた空間伝達関数により表される伝達特性を与え、これらの音声信号成分をエンコードチャンネルのチャンネル構成に応じて振り分けて生成した、エンコードチャンネルの音声信号を入力して、上記デコードチャンネルにおける特定の1つのチャンネルに対応する音声信号成分を生成する音声信号生成手段を、上記デコードチャンネルごとに対応して備え、
    上記音声信号生成手段の各々は、
    入力されたエンコードチャンネルの音声信号の各々について、その音声信号生成手段が対応するデコードチャンネルの音声信号成分に与えられた伝達特性についての補正を行う補正手段と、
    上記補正手段により補正された信号の間での所定の近似性を検出する近似性検出手段と、
    上記近似性検出手段の検出結果に基づいて、上記信号補正手段から出力されるエンコードチャンネルごとの信号から、相互に近似しているとされる信号成分を分離して出力する分離手段と、
    上記分離手段により分離された信号成分を合成して、対応するデコードチャンネルの音声信号として出力するチャンネル音声信号出力手段とを備える、
    ことを特徴とする音声信号処理装置。
  2. 上記補正手段は、
    入力されたエンコードチャンネルの音声信号の各々に対して、その音声信号生成手段が対応するデコードチャンネルの音声信号に付与された伝達特性に基づいた逆特性を与えるフィルタ処理を実行するように構成される、
    ことを特徴とする請求項1に記載の音声信号処理装置。
  3. 上記補正手段は、
    その音声信号生成手段が対応するデコードチャンネルの音声信号に付与された伝達特性のインパルス応答における直接音部分の逆特性を与えるフィルタ処理を実行するようにされる、
    ことを特徴とする請求項2に記載の音声信号処理装置。
  4. 上記補正手段は、
    その音声信号生成手段が対応するデコードチャンネルの音声信号に付与された、無響環境による伝達特性の逆特性を与えるフィルタ処理を実行するようにされる、
    ことを特徴とする請求項2に記載の音声信号処理装置。
  5. 上記近似性検出手段は、
    上記補正手段による補正後のエンコードチャンネルごとの信号についての、位相についての近似性を検出する、
    ことを特徴とする請求項2に記載の音声信号処理装置。
  6. 上記近似性検出手段は、
    上記補正手段による補正後のエンコードチャンネルごとの信号についての、レベルについての近似性を検出する、
    ことを特徴とする請求項2に記載の音声信号処理装置。
  7. 上記補正手段は、
    入力されたエンコードチャンネルごとの音声信号の間での、付与されている伝達特性により生じる、対応するデコードチャンネルの音声信号成分に関する伝搬時間差を補正するための処理を実行し、
    上記近似性検出手段は、
    上記補正手段による補正後のエンコードチャンネルごとの信号についての伝搬時間差を近似性として検出する、
    ことを特徴とする請求項1に記載の音声信号処理装置。
  8. 上記補正手段は、
    さらに、入力されたエンコードチャンネルごとの音声信号の間での、付与されている伝達特性により生じる、対応するデコードチャンネルの音声信号成分に関するレベル差を補正するための処理を実行し、
    上記近似性検出手段は、
    さらに、上記補正手段による補正後のエンコードチャンネルごとの信号についてのレベル差を補正するための処理を実行するようにされる、
    ことを特徴とする請求項7に記載の音声信号処理装置
  9. 所定のチャンネル構成を成す原チャンネルの音声信号の組を、この原チャンネル以外の所定のチャンネル構成を成すエンコードチャンネルの音声信号の組に変換して出力するエンコード装置と、
    所定のチャンネル構成を成すエンコードチャンネルの音声信号の組を入力して、所定のチャンネル構成を成すデコードチャンネルの音声信号の組に変換するデコード装置とから成り、
    上記エンコード装置は、
    1原チャンネルにつきエンコードチャンネルごとに対応したものが設けられ、入力される音声信号が対応する原チャンネルとしての音源の位置に基づいて設定される空間伝達関数により表される伝達特性を、上記入力される音声信号に付与する伝達特性付与手段と、
    エンコードチャンネルごとに対応して設けられ、上記伝達特性付与手段の各々によって処理が施された信号を入力して加算し、この加算した出力を、対応するエンコードチャンネルの音声信号として出力する加算手段とを備え、
    上記デコード装置は、
    上記デコードチャンネルにおける特定の1つのチャンネルに対応する音声信号成分を分離する音声信号分離手段を、上記デコードチャンネルごとに対応して有し、
    上記音声信号生成手段の各々は、
    入力されたエンコードチャンネルごとの音声信号について、対応するデコードチャンネルの音声信号成分に与えられた伝達特性についての補正を行う補正手段と、
    上記補正手段による補正後のエンコードチャンネルごとの信号についての所定の近似性を検出する近似性検出手段と、
    上記近似性検出手段の検出結果に基づいて、上記信号補正手段から出力されるエンコードチャンネルごとの信号から、相互に近似しているとされる信号成分を分離して出力する分離手段と、
    上記分離手段により分離された信号成分を合成して、対応するデコードチャンネルの音声信号として出力するチャンネル音声信号出力手段とを備える、
    ことを特徴とする音声信号処理システム。
  10. 所定のチャンネル構成を成すデコードチャンネルに対応する音声信号成分のそれぞれに対して、対応のデコードチャンネルとしての音源の位置に基づいて求められた空間伝達関数により表される伝達特性を与え、これらの音声信号成分をエンコードチャンネルのチャンネル構成に応じて振り分けて生成した、エンコードチャンネルの音声信号を入力して、上記デコードチャンネルにおける特定の1つのチャンネルに対応する音声信号成分を生成する音声信号生成手順を、上記デコードチャンネルごとに対応して実行させるもので、
    上記デコードチャンネルごとに対応した音声信号生成手順として、
    入力されたエンコードチャンネルの音声信号の各々について、その音声信号生成手順が対応するデコードチャンネルの音声信号成分に与えられた伝達特性についての補正を行う補正手順と、
    上記補正手順により補正された信号の間での所定の近似性を検出する近似性検出手順と、
    上記近似性検出手順の検出結果に基づいて、上記信号補正手順により得られるエンコードチャンネルごとの信号から、相互に近似しているとされる信号成分を分離して出力する分離手順と、
    上記分離手順により分離された信号成分を合成して、対応するデコードチャンネルの音声信号として出力するチャンネル音声信号出力手順と、
    を情報処理装置に実行させるプログラム。
  11. 所定のチャンネル構成を成す原チャンネルの音声信号の組を、この原チャンネル以外の所定のチャンネル構成を成すエンコードチャンネルの音声信号の組に変換して出力するエンコード処理と、
    所定のチャンネル構成を成すエンコードチャンネルの音声信号の組を入力して、所定のチャンネル構成を成すデコードチャンネルの音声信号の組に変換するデコード処理とを情報処理装置に実行させるものであって、
    上記エンコード処理は、
    1原チャンネルにつきエンコードチャンネルごとに対応して実行すべき手順とされて、入力される音声信号が対応する原チャンネルとしての音源の位置に基づいて設定される空間伝達関数により表される伝達特性を、上記入力される音声信号に付与する伝達特性付与手順と、
    エンコードチャンネルごとに対応して設けられ、上記伝達特性付与手順の各々によって処理が施された信号を入力して加算し、この加算した出力を、対応するエンコードチャンネルの音声信号として出力する加算手順とを情報処理装置に実行させるもので、
    上記デコード処理は、
    上記デコードチャンネルにおける特定の1つのチャンネルに対応する音声信号成分を分離する音声信号分離手順を、上記デコードチャンネルごとに対応して実行するものとされ、
    上記音声信号生成手順の各々は、
    入力されたエンコードチャンネルごとの音声信号について、対応するデコードチャンネルの音声信号成分に与えられた伝達特性についての補正を行う補正手順と、
    上記補正手順による補正後のエンコードチャンネルごとの信号についての所定の近似性を検出する近似性検出手順と、
    上記近似性検出手順の検出結果に基づいて、上記信号補正手順により得られるエンコードチャンネルごとの信号から、相互に近似しているとされる信号成分を分離して出力する分離手順と、
    上記分離手順により分離された信号成分を合成して、対応するデコードチャンネルの音声信号として出力するチャンネル音声信号出力手順とを情報処理装置に実行させるものである、
    ことを特徴とするプログラム。
JP2006020653A 2006-01-30 2006-01-30 音声信号処理装置、音声信号処理システム、プログラム Expired - Fee Related JP4951985B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006020653A JP4951985B2 (ja) 2006-01-30 2006-01-30 音声信号処理装置、音声信号処理システム、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006020653A JP4951985B2 (ja) 2006-01-30 2006-01-30 音声信号処理装置、音声信号処理システム、プログラム

Publications (2)

Publication Number Publication Date
JP2007202021A true JP2007202021A (ja) 2007-08-09
JP4951985B2 JP4951985B2 (ja) 2012-06-13

Family

ID=38456117

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006020653A Expired - Fee Related JP4951985B2 (ja) 2006-01-30 2006-01-30 音声信号処理装置、音声信号処理システム、プログラム

Country Status (1)

Country Link
JP (1) JP4951985B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011009842A (ja) * 2009-06-23 2011-01-13 Sony Corp 音声信号処理装置および音声信号処理方法
JP2014093707A (ja) * 2012-11-06 2014-05-19 Nippon Telegr & Teleph Corp <Ntt> 再生信号生成方法、収音再生方法、再生信号生成装置、収音再生システム及びそのプログラム
US8831231B2 (en) 2010-05-20 2014-09-09 Sony Corporation Audio signal processing device and audio signal processing method
US9232336B2 (en) 2010-06-14 2016-01-05 Sony Corporation Head related transfer function generation apparatus, head related transfer function generation method, and sound signal processing apparatus
US9432793B2 (en) 2008-02-27 2016-08-30 Sony Corporation Head-related transfer function convolution method and head-related transfer function convolution device

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04137900A (ja) * 1990-09-27 1992-05-12 Pioneer Electron Corp 信号処理装置及び音響再生装置
JPH04296200A (ja) * 1991-03-26 1992-10-20 Mazda Motor Corp 音響装置
JP2002078100A (ja) * 2000-09-05 2002-03-15 Nippon Telegr & Teleph Corp <Ntt> ステレオ音響信号処理方法及び装置並びにステレオ音響信号処理プログラムを記録した記録媒体
JP2002191099A (ja) * 2000-09-26 2002-07-05 Matsushita Electric Ind Co Ltd 信号処理装置
JP2005184837A (ja) * 2003-12-17 2005-07-07 Samsung Electronics Co Ltd 仮想音響再生方法及びその装置
JP2005223935A (ja) * 1996-07-19 2005-08-18 Harman Internatl Industries Inc 最大側方分離法による多チャネルの能動マトリックス音再生
WO2005086139A1 (en) * 2004-03-01 2005-09-15 Dolby Laboratories Licensing Corporation Multichannel audio coding
JP2005318061A (ja) * 2004-04-27 2005-11-10 Sony Corp 信号処理装置およびバイノーラル再生方法
JP2005352396A (ja) * 2004-06-14 2005-12-22 Matsushita Electric Ind Co Ltd 音響信号符号化装置および音響信号復号装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04137900A (ja) * 1990-09-27 1992-05-12 Pioneer Electron Corp 信号処理装置及び音響再生装置
JPH04296200A (ja) * 1991-03-26 1992-10-20 Mazda Motor Corp 音響装置
JP2005223935A (ja) * 1996-07-19 2005-08-18 Harman Internatl Industries Inc 最大側方分離法による多チャネルの能動マトリックス音再生
JP2002078100A (ja) * 2000-09-05 2002-03-15 Nippon Telegr & Teleph Corp <Ntt> ステレオ音響信号処理方法及び装置並びにステレオ音響信号処理プログラムを記録した記録媒体
JP2002191099A (ja) * 2000-09-26 2002-07-05 Matsushita Electric Ind Co Ltd 信号処理装置
JP2005184837A (ja) * 2003-12-17 2005-07-07 Samsung Electronics Co Ltd 仮想音響再生方法及びその装置
WO2005086139A1 (en) * 2004-03-01 2005-09-15 Dolby Laboratories Licensing Corporation Multichannel audio coding
JP2005318061A (ja) * 2004-04-27 2005-11-10 Sony Corp 信号処理装置およびバイノーラル再生方法
JP2005352396A (ja) * 2004-06-14 2005-12-22 Matsushita Electric Ind Co Ltd 音響信号符号化装置および音響信号復号装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9432793B2 (en) 2008-02-27 2016-08-30 Sony Corporation Head-related transfer function convolution method and head-related transfer function convolution device
JP2011009842A (ja) * 2009-06-23 2011-01-13 Sony Corp 音声信号処理装置および音声信号処理方法
US8873761B2 (en) 2009-06-23 2014-10-28 Sony Corporation Audio signal processing device and audio signal processing method
US8831231B2 (en) 2010-05-20 2014-09-09 Sony Corporation Audio signal processing device and audio signal processing method
US9232336B2 (en) 2010-06-14 2016-01-05 Sony Corporation Head related transfer function generation apparatus, head related transfer function generation method, and sound signal processing apparatus
JP2014093707A (ja) * 2012-11-06 2014-05-19 Nippon Telegr & Teleph Corp <Ntt> 再生信号生成方法、収音再生方法、再生信号生成装置、収音再生システム及びそのプログラム

Also Published As

Publication number Publication date
JP4951985B2 (ja) 2012-06-13

Similar Documents

Publication Publication Date Title
KR100644617B1 (ko) 7.1 채널 오디오 재생 방법 및 장치
KR101567461B1 (ko) 다채널 사운드 신호 생성 장치
KR100608025B1 (ko) 2채널 헤드폰용 입체 음향 생성 방법 및 장치
KR101368859B1 (ko) 개인 청각 특성을 고려한 2채널 입체 음향 재생 방법 및장치
KR100739776B1 (ko) 입체 음향 생성 방법 및 장치
KR101512995B1 (ko) 공간 디코더 유닛, 공간 디코더 장치, 오디오 시스템, 한 쌍의 바이노럴 출력 채널들을 생성하는 방법
KR100608024B1 (ko) 다중 채널 오디오 입력 신호를 2채널 출력으로 재생하기위한 장치 및 방법과 이를 수행하기 위한 프로그램이기록된 기록매체
KR100717066B1 (ko) 심리 음향 모델을 이용한 프론트 서라운드 사운드 재생시스템 및 그 방법
KR100677629B1 (ko) 다채널 음향 신호에 대한 2채널 입체 음향 생성 방법 및장치
JP6007474B2 (ja) 音声信号処理装置、音声信号処理方法、プログラムおよび記録媒体
JP2007028624A (ja) ワイドモノサウンドの再生方法及びシステム
JP5118267B2 (ja) 音声信号再生装置、音声信号再生方法
JP2005223713A (ja) 音響再生装置、音響再生方法
JP4297077B2 (ja) 仮想音像定位処理装置、仮想音像定位処理方法およびプログラム並びに音響信号再生方式
EP2229012B1 (en) Device, method, program, and system for canceling crosstalk when reproducing sound through plurality of speakers arranged around listener
JP4951985B2 (ja) 音声信号処理装置、音声信号処理システム、プログラム
JP5038145B2 (ja) 定位制御装置、定位制御方法、定位制御プログラムおよびコンピュータに読み取り可能な記録媒体
JP2005223714A (ja) 音響収音装置、音響収音方法、記録媒体
JP6463955B2 (ja) 三次元音響再生装置及びプログラム
JP2011160179A (ja) 音声処理装置
JP2007202020A (ja) 音声信号処理装置、音声信号処理方法、プログラム
JP7332745B2 (ja) 音声処理方法及び音声処理装置
JP2945232B2 (ja) 音像定位制御装置
KR20000026251A (ko) 5채널 오디오 데이터를 2채널로 변환하여 헤드폰으로 재생하는장치 및 방법
US20230370797A1 (en) Sound reproduction with multiple order hrtf between left and right ears

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110322

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110524

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110715

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120214

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120227

R151 Written notification of patent or utility model registration

Ref document number: 4951985

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150323

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees