JP2011049862A

JP2011049862A - 音声信号処理装置および音声信号処理方法

Info

Publication number: JP2011049862A
Application number: JP2009197000A
Authority: JP
Inventors: Kenji Nakano; 健司中野
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-08-27
Filing date: 2009-08-27
Publication date: 2011-03-10
Anticipated expiration: 2029-08-27
Also published as: CN102006545A; US8929556B2; US20110051936A1; JP5682103B2; CN102006545B; EP2293602A2

Abstract

【課題】音響的な奥行き感に富む音声を提供可能な、音声信号処理装置および音声信号処理方法を提供する。
【解決手段】音声信号に含まれる少なくとも高域成分を特徴成分Ｓｃとして抽出する特徴成分抽出部３２ｌ、３２ｒを備え、抽出された特徴成分の音像が音声信号の音像よりも聴取者に近接して定位するように、音声信号および抽出された特徴成分を音声出力部ＳＰｌｓ、ＳＰｌｒに供給する。音声信号処理装置は、音声信号を出力するとともに、オンマイク収録された音声に特徴的な高域・低域の音声に相当する音声信号の特徴成分を抽出し、特徴成分の音像が音声信号の音像よりも聴取者Ｌに近接して定位するように音声出力部に供給する。
【選択図】図３

Description

本発明は、音声信号処理装置および音声信号処理方法に関する。

視者の両眼に異なる画像を提示して立体視させる３次元ディスプレイ装置の実用化に伴い、立体映像コンテンツが家庭用コンテンツとして普及する可能性が高まっている。３次元ディスプレイ装置は、視者に対する映像の近接、離隔等、奥行き感に富む映像を視者に提供する。

しかし、立体映像コンテンツに付随する音声は、２ｃｈ、５．１ｃｈ等の従来フォーマットで提供されており、映像の奥行き感に対応する音響効果を十分にもたらすものではない。また、立体映像コンテンツに限らず、従来の音声でも音響的な奥行き感に乏しいものが多く、より奥行き感に富む音声の提供が望まれる場合がある。

そこで、本発明は、音響的な奥行き感に富む音声を提供可能な、音声信号処理装置および音声信号処理方法を提供しようとするものである。

本発明のある実施形態によれば、音声信号を処理して音声出力部に供給する音声信号処理装置であって、音声信号に含まれる少なくとも高域成分を特徴成分として抽出する特徴成分抽出部を備え、抽出された特徴成分の音像が音声信号の音像よりも聴取者に近接して定位するように、音声信号および抽出された特徴成分を音声出力部に供給する音声信号処理装置が提供される。

かかる構成によれば、音声信号を出力するとともに、オンマイク収録された音声に特徴的な高域・低域の音声に相当する音声信号の特徴成分を抽出し、特徴成分の音像が音声信号の音像よりも聴取者に近接して定位するように出力することで、音響的な奥行き感に富む音声を提供することができる。

また、上記音声信号処理装置は、抽出された特徴成分を処理し、抽出された特徴成分の音像を音声信号の音像よりも聴取者に近接して定位させる近接定位処理部をさらに備え、抽出された特徴成分の代わりに近接定位処理された特徴成分を音声出力部に供給してもよい。

また、上記音声信号処理装置は、音声信号に含まれる特徴成分を減衰させる特徴成分減衰部をさらに備え、抽出された特徴成分の音像が音声信号の音像よりも聴取者に近接して定位し、減衰された音声信号の音像が音声信号の音像よりも聴取者から離隔して定位するように、減衰された音声信号および抽出された特徴成分を音声出力部に供給してもよい。

また、上記音声信号処理装置は、減衰された音声信号を処理し、減衰された音声信号の音像を音声信号の音像よりも聴取者から離隔して定位させる離隔定位処理部をさらに備え、減衰された音声信号の代わりに離隔定位処理された音声信号を音声出力部に供給してもよい。ここで、上記離隔定位処理部は、減衰された音声信号を音声信号に対して所定の遅延量で遅延させてもよい。

また、上記特徴成分抽出部では、聴取者の操作指示に応じて、特徴成分の抽出条件が可変制御されてもよい。上記近接定位処理部では、聴取者の操作指示に応じて、特徴成分の近接定位処理の条件が可変制御されてもよい。上記特徴成分減衰部では、聴取者の操作指示に応じて、音声信号の減衰条件が可変制御されてもよい。上記離隔定位処理部では、聴取者の操作指示に応じて、音声信号の離隔定位処理の条件が可変制御されてもよい。

また、音声信号が多チャンネルの信号として入力され、聴取者により指定されたチャンネルの信号を特徴成分抽出部に入力するように、音声信号の入力が制御されてもよい。

また、本発明の別の実施形態によれば、音声信号に含まれる少なくとも高域成分を特徴成分として抽出し、抽出された特徴成分の音像が音声信号の音像よりも聴取者に近接して定位するように、音声信号および抽出された特徴成分を音声出力部に供給する音声信号処理方法が提供される。

以上説明したように本発明によれば、音響的な奥行き感に富む音声を提供可能な、音声信号処理装置および音声信号処理方法を提供することができる。

映像コンテンツに付随する音声の収録状況を示す図である。映像コンテンツに付随する音声の再生状況を示す図である。本発明の一実施形態に係る再生装置の主要な構成を示すブロック図である。本発明の第１の実施形態に係る音声信号処理装置を示すブロック図である。本発明の第２の実施形態に係る音声信号処理装置を示すブロック図である。本発明の第３の実施形態に係る音声信号処理装置を示すブロック図である。本発明の第４の実施形態に係る音声信号処理装置を示すブロック図である。本発明の第５の実施形態に係る音声信号処理装置を示すブロック図である。

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

図１Ａおよび１Ｂは、映像コンテンツに付随する音声の収録状況および再生状況を示す図である。図１Ａに示すように、通常、映像コンテンツの製作では、映像Ｖの手前側にある発音体ＳＳｆからの音声Ｓｆ（人物のセリフ等）がマイクＭＩＣに近接してオンマイクで収録され、映像Ｖの奥行き側にある発音体ＳＳｒからの音声Ｓｒ（環境音等）ほどオフマイクで収録される。

手前側の音声Ｓｆは、全帯域でレベルが高くなる傾向にあり、特に近接マイクの場合は低域レベルが高く収録される
(近接効果)傾向にある。奥行き側の音声Ｓｒは、全帯域でレベルが低く、特に高域レベルの音声が落ちる傾向にある。ここで、手前側の音声Ｓｆに多く含まれる高域・低域の音声に相当する信号成分は、音声信号の特徴成分Ｓｃとみなすことができる。

収録された音声Ｓｆ、Ｓｒは、合成された音声Ｓｍとして記録されて再生される。なお、音声Ｓｍが２ｃｈ、５．１ｃｈ等の信号である場合、各ｃｈに対応する音声Ｓｍ１、Ｓｍ２、…として記録される。そして、立体映像コンテンツを再生すると、図１Ｂに示すように、手前側および奥行き側の音声Ｓｆ、Ｓｒが合成された音声Ｓｍの音像がスピーカＳＰの前面に定位するのみで、音響的な奥行き感に乏しい音声が再生されてしまう。

このため、本発明は、音声信号を出力するとともに、オンマイク収録された音声に特徴的な高域・低域の音声に相当する音声信号の特徴成分Ｓｃを抽出し、特徴成分Ｓｃの音像が音声信号の音像よりも聴取者Ｌに近接して定位するように出力することで、近接音をより近接定位化して強調し、音響的な奥行き感に富む音声を提供することを主たる目的とする。

以下、図面を参照しながら本発明の一実施形態について説明する。一実施形態では、立体映像に付随する音声を再生可能な光ディスク再生装置１に本発明を適用した例を用いて説明する。しかし、本発明は、光ディスク再生装置１に限らず、立体映像に付随する音声を再生可能なテレビジョン受信装置、パーソナルコンピュータ等のマルチメディア機器にも適用することができる。また、本発明は、立体映像に付随する音声の再生に限らず、通常映像に付随する音声の再生、または映像に付随しない音声の再生にも適用することができる。

［１．再生装置１の構成］
図１は、本発明の一実施形態に係る再生装置１の主要な構成を示すブロック図である。

再生装置１は、光ディスク読出部１１、逆多重化部１２、映像データ復号部１３、映像信号処理部１４、映像信号インターフェイス１５、音声データ復号部１６、音声信号処理部１７（音声信号処理装置）、音声信号インターフェイス１８、システムコントローラ１９、操作信号処理部２０を含む。再生装置１は、映像信号インターフェイス１５および音声信号インターフェイス１８を介して、３次元ディスプレイ２１およびスピーカ２２に接続される。また、再生装置１は、リモートコントローラ２３を介して遠隔操作される。

光ディスク読出部１１は、光ディスクＤの装填部、回転駆動部、光ピックアップ部、スレッドモータ、サーボ回路等を含む。ディスク読出部１１は、装填された光ディスクＤにレーザービームを照射して反射光を受光することで、光ディスクＤに記録されている多重化データ（映像データ、音声データ等）を読出し、所定の処理を施して逆多重化部１２に供給する。

ここで、映像データは、立体映像を再生するためのデータであり、所定の符号化方式で圧縮されている。音声データは、２ｃｈ、５．１ｃｈ等のデータであるが、以下では、音声データが所定の符号化方式で圧縮されている２ｃｈのデータである場合を想定する。

逆多重化部１２は、供給された多重化データを、映像データ、音声データ（例えば２ｃｈの音声データ）に分離する。逆多重化部１２は、映像データを映像データ復号部１３に供給し、音声データを音声データ復号部１６に供給する。

映像データ復号部１３は、供給された映像データを解凍して元の映像データを復号し、映像信号処理部１４に供給する。映像信号処理部１４は、供給された映像データをアナログ変換して所定の信号処理を施し、立体映像を表示するための映像信号を生成し、映像信号インターフェイス１５を介して３次元ディスプレイ２１に出力する。

３次元ディスプレイ２１は、出力された映像信号に応じた映像を表示画面に出力する。３次元ディスプレイ２１は、視者に対する映像の近接、離隔等、奥行き感に富む映像を提供する。なお、３次元ディスプレイ２１は、視者の両眼に異なる画像を提示して立体視させる表示装置であり、特殊な光学特性の眼鏡を併用するタイプ、または眼鏡を併用しないタイプのいずれでもよい。

音声データ復号部１６は、供給された音声データを解凍して元の音声データを復号し、音声信号処理部１７に供給する。音声信号処理部１７は、供給された音声データをアナログ変換して所定の信号処理を施し、音声信号インターフェイス１８を介してスピーカ２２に出力する。スピーカ２２は、供給された音声信号に応じた音声を出力する。

システムコントローラ１９は、例えばマイクロプロセッサにより構成され、再生装置１の各部を制御する。システムコントローラ１９は、特に、音声信号処理部１７に所定の制御信号を送出することで、音声信号処理部１７を制御する。なお、図１中では、表記上、システムコントローラ１９と音声信号処理部１７の接続のみが示されているが、システムコントローラ１９は、他の各部にも接続されている。

操作信号処理部２０は、リモートコントローラ２３から送出された操作信号を受信し、操作信号を復調してシステムコントローラ１９に供給する。リモートコントローラ２３には、ボタン、キー、タッチパネル等の入力手段が配設される。

ここで、詳細は後述するが、音声信号処理部１７は、音声信号に含まれる少なくとも高域成分を特徴成分Ｓｃとして抽出し、抽出された特徴成分Ｓｃの音像が音声信号の音像よりも聴取者Ｌに近接して定位するように、音声信号および抽出された特徴成分Ｓｃをスピーカ２２に供給する。これにより、再生装置１は、立体映像の奥行き感に対応して、音響的な奥行き感を伴う音声を提供することができる。

［２．音声信号処理装置の構成］
以下では、図３〜図７を参照しながら、本発明の第１〜第５の実施形態に係る音声信号処理装置について説明する。なお、異なる実施形態の間で重複する事項については、説明を省略する。

［２−１．第１の実施形態］
図３は、本発明の第１の実施形態に係る音声信号処理装置３０を示すブロック図である。図３には、音声信号処理装置３０（図２に示した音声信号処理部１７に相当する。）の周辺構成が示されている。

音声信号処理装置３０は、音声データ復号部１６とスピーカ２２の間に配置される。スピーカ２２は、左右のメインスピーカＳＰｌ、ＳＰｒ、および左右のメインスピーカＳＰｌ、ＳＰｒよりも聴取者Ｌに近接して配置された左右のサブスピーカＳＰｌｓ、ＳＰｒｓからなる。

音声信号処理装置３０は、前処理部３１、左スピーカＳＰｌ用の音声信号を処理する左信号処理系、および右スピーカＳＰｒ用の音声信号を処理する右信号処理系を含む。左信号処理系および右信号処理系は、特徴成分抽出部３２ｌ、３２ｒを各々に含む。

前処理部１７は、音声データ復号部１６から供給された音声データから、左チャンネルおよび右チャンネルの音声信号を生成し、左信号処理系および右信号処理系に供給する。左信号処理系および右信号処理系では、同様の処理が行われるので、以下では、特に左信号処理系について説明する。

前処理部３１は、左チャンネルの音声信号を左信号処理系の特徴成分抽出部３２ｌおよび左メインスピーカＳＰｌに供給する。特徴成分抽出部３２ｌは、特定の帯域の音声信号を通過させるフィルタ等により構成され、供給された音声信号に含まれる特徴成分Ｓｃを抽出し、左サブスピーカＳＰｌに供給する。

ここで、音声信号に含まれる特徴成分Ｓｃとは、オンマイクで収録された映像Ｖの手前側の音声Ｓｆに多く含まれる高域・低域の音声、特に高域の音声に相当する信号成分である。音声信号は、４ｋＨｚを基準としてＱ＝１．５〜２．０の範囲を中域成分として、中域成分よりも低域の低域成分、および中域成分よりも高域の高域成分に区分される。

これにより、音声信号がメインスピーカＳＰｌ、ＳＰｒから出力され、特徴成分ＳｃがメインスピーカＳＰｌ、ＳＰｒよりも聴取者Ｌに近接して配置されたサブスピーカＳＰｌｓ、ＳＰｒｓから出力されることで、特徴成分Ｓｃの音像が音声信号の音像よりも聴取者Ｌに近接して定位する。

本実施形態によれば、音声信号をメインスピーカＳＰｌ、ＳＰｒから出力するとともに、オンマイク収録された音声Ｓｆに特徴的な高域・低域の音声に相当する音声信号の特徴成分Ｓｃを抽出し、特徴成分Ｓｃの音像が音声信号の音像よりも聴取者Ｌに近接して定位するようにサブスピーカＳＰｌｓ、ＳＰｒｓから出力することで、音響的な奥行き感に富む音声を提供することができる。

［２−２．第２の実施形態］
図４は、本発明の第２の実施形態に係る音声信号処理装置４０を示すブロック図である。

本実施形態では、スピーカ２２は、仮想スピーカＳＰｌｖ、ＳＰｒｖとしても機能する左右のスピーカＳＰｌ、ＳＰｒからなる。また、音声信号処理装置４０は、前処理部４１、特徴成分抽出部４２ｌ、４２ｒの他に、近接定位処理部４３ｌ、４３ｒおよび合成処理部４ｌ、４４ｒをさらに含む。以下では、特に左信号処理系について説明する。

前処理部４１は、左チャンネルの音声信号を左信号処理系の特徴成分抽出部４２ｌおよび合成処理部４４ｌに供給する。特徴成分抽出部４２ｌは、供給された音声信号に含まれる特徴成分Ｓｃを抽出し、近接定位処理部４３ｌに供給する。

近接定位処理部４３ｌは、例えばイコライザ等により構成され、供給された特徴成分Ｓｃの周波数特性および／または音量を変化させて、特徴成分Ｓｃに近接定位処理を施す。そして、近接定位処理部４３ｌは、処理後の特徴成分Ｓｃを両信号処理系の合成処理部４４ｌ、４４ｒに供給する。

近接定位処理では、頭部音響伝達関数等に基づく音像定位制御処理により、特徴成分Ｓｃの音像を音声信号の音像よりも聴取者Ｌに近接して定位させることができる。

合成処理部４４ｌは、例えばミキサ等により構成され、前処理部４１および両信号処理系の近接定位処理部４３ｌ、４３ｒから供給された音声信号を合成処理し、左スピーカＳＰｌに供給する。

近接定位処理された特徴成分Ｓｃの重み付けを調整することで、特徴成分Ｓｃの音像を音声信号の音像よりも聴取者Ｌに近接して所定の位置に定位させることができる。

これにより、音声信号がスピーカＳＰｌ、ＳＰｒから出力され、特徴成分Ｓｃが近接定位処理を施されて仮想スピーカＳＰｌｖ、ＳＰｒｖから出力されることで、特徴成分Ｓｃの音像が音声信号の音像よりも聴取者Ｌに近接して定位する。

本実施形態によれば、音声信号をスピーカＳＰｌ、ＳＰｒから出力するとともに、オンマイク収録された音声Ｓｆに特徴的な高域・低域の音声に相当する音声信号の特徴成分Ｓｃを抽出し、近接定位処理を施して仮想スピーカＳＰｌｖ、ＳＰｒｖから出力することで、サブスピーカを配置せずに、音響的な奥行き感に富む音声を提供することができる。

［２−３．第３の実施形態］
図５は、本発明の第３の実施形態に係る音声信号処理装置５０を示すブロック図である。

本実施形態では、音声信号処理装置５０は、前処理部５１、特徴成分抽出部５２ｌ、５２ｒ、近接定位処理部５３ｌ、５３ｒ、合成処理部５４ｌ、５４ｒの他に、特徴成分減衰部５５ｌ、５５ｒをさらに含む。以下では、特に左信号処理系について説明する。

前処理部５１は、左チャンネルの音声信号を左信号処理系の特徴成分抽出部５２ｌおよび特徴成分減衰部５５ｌに供給する。なお、特徴成分抽出部５２ｌおよび近接定位処理部５３ｌの構成および動作については、第２の実施形態に係る特徴成分抽出部４２ｌおよび近接定位処理部４３ｌと同様であるので、説明を省略する。

特徴成分減衰部５５ｌは、特定の帯域の音声信号を減衰させるフィルタ等により構成され、供給された音声信号に含まれる特徴成分Ｓｃを減衰させ、減衰された音声信号を合成処理部５４ｌに供給する。ここで、音声信号に含まれる特徴成分Ｓｃとは、オンマイクで収録された映像Ｖの手前側の音声Ｓｆに多く含まれる高域・低域の音声、特に高域の音声に相当する信号成分である。

合成処理部５４ｌは、特徴成分減衰部５５ｌおよび両信号処理系の近接定位処理部５２ｌ、５２ｒから供給された音声信号を合成処理し、左スピーカＳＰｌに供給する。左スピーカＳＰｌは、減衰された音声信号に応じた音声を出力するとともに、近接定位処理後の特徴成分Ｓｃに応じた音声を出力する。

これにより、特徴成分Ｓｃを減衰された音声信号がスピーカＳＰｌ、ＳＰｒから出力され、特徴成分Ｓｃが近接定位処理を施されて仮想スピーカＳＰｌｖ、ＳＰｒｖから出力されることで、特徴成分Ｓｃの音像が音声信号の音像よりも聴取者Ｌに近接して定位し、かつ特徴成分Ｓｃを減衰された音声信号の音像が音声信号の音像よりも聴取者Ｌから離隔して定位する（なお、音声信号の音像は、減衰された音声信号の音像として定位する。）。つまり、特徴成分Ｓｃを減衰させることで、近接定位処理された特徴成分Ｓｃの音像と特徴成分Ｓｃを減衰された音声信号の音像の間の奥行き感をさらに拡げることができる。

本実施形態によれば、特徴成分Ｓｃを減衰された音声信号をスピーカＳＰｌ、ＳＰｒから出力するとともに、オンマイク収録された音声Ｓｆに特徴的な高域・低域の音声に相当する音声信号の特徴成分Ｓｃを抽出し、近接定位処理を施して仮想スピーカＳＰｌｖ、ＳＰｒｖから出力することで、サブスピーカを配置せずに、音響的な奥行き感にさらに富む音声を提供することができる。

［２−４．第４の実施形態］
図６は、本発明の第４の実施形態に係る音声信号処理装置６０を示すブロック図である。

本実施形態では、音声信号処理装置６０は、前処理部６１、特徴成分抽出部６２ｌ、６２ｒ、近接定位処理部６３ｌ、６３ｒ、合成処理部６４ｌ、６４ｒ、特徴成分減衰部６５ｌ、６５ｒの他に、離隔定位処理部６６ｌ、６６ｒをさらに含む。以下では、特に左信号処理系について説明する。

前処理部６１は、左チャンネルの音声信号を左信号処理系の特徴成分抽出部６２ｌおよび特徴成分減衰部６５ｌに供給する。なお、特徴成分抽出部６２ｌおよび近接定位処理部６３ｌの構成および動作については、第２の実施形態に係る特徴成分抽出部４２ｌおよび近接定位処理部４３ｌと同様であるので、説明を省略する。特徴成分減衰部６５ｌは、供給された音声信号に含まれる特徴成分Ｓｃを減衰させ、離隔定位処理部６６ｌに供給する。

離隔定位処理部６６ｌは、減衰されて供給された音声信号の周波数特性、音量、および／または供給タイミングを変化させて、減衰された音声信号に離隔定位処理を施す。そして、離隔定位処理部６６ｌは、処理後の音声信号を両信号処理系の合成処理部６４ｌ、６４ｒに供給する。

離隔定位処理では、頭部音響伝達関数等に基づく音像定位制御処理を減衰された音声信号に施し、特徴成分Ｓｃの音量を小さくし、および／または減衰された音声信号を合成処理部６４ｌ、６４ｒに供給するタイミングを遅延させることで、減衰された音声信号の音像を音声信号の音像よりも聴取者Ｌから離隔して定位させることができる。特に、減衰された音声信号の出力を特徴成分Ｓｃの出力に対して遅延させることで、聴取者Ｌは、ハース効果により減衰された音声信号の音像よりも特徴成分Ｓｃの音像が聴取者Ｌに近接して定位しているように、音声信号に応じた音声を聴取する。

合成処理部６４ｌは、両信号処理系の特徴成分減衰部６５ｌ、６５ｒおよび近接定位処理部６３ｌ、６３ｒから供給された音声信号を合成処理し、左スピーカＳＰｌに供給する。左スピーカＳＰｌは、離隔定位処理後の音声信号に応じた音声を出力するとともに、近接定位処理後の特徴成分Ｓｃに応じた音声を出力する。

これにより、特徴成分Ｓｃを減衰された音声信号が離隔定位処理を施されて第１仮想スピーカＳＰｌｖ１から出力され、特徴成分Ｓｃが近接定位処理を施されて第２仮想スピーカＳＰｌｖ２から出力されることで、特徴成分Ｓｃの音像が音声信号の音像よりも聴取者Ｌに近接して定位し、かつ減衰された音声信号の音像が音声信号の音像よりも聴取者Ｌから離隔して定位する（なお、音声信号の音像は、減衰された音声信号の音像として定位する。）。つまり、特徴成分Ｓｃを減衰された音声信号を離隔定位処理することで、近接定位処理された特徴成分Ｓｃの音像と離隔定位処理された音声信号の音像の間の奥行き感をさらに拡げることができる。

本実施形態によれば、特徴成分Ｓｃを減衰された音声信号を離隔定位処理を施して仮想の第１スピーカＳＰｌｖ１、ＳＰｒｖ１から出力するとともに、オンマイク収録された音声Ｓｆに特徴的な高域・低域の音声に相当する音声信号の特徴成分Ｓｃを抽出し、近接定位処理を施して仮想の第２スピーカＳＰｌｖ２、ＳＰｒｖ２から出力することで、サブスピーカを配置せずに、音響的な奥行き感にさらに富む音声を提供することができる。

［２−５．第５の実施形態］
図７は、本発明の第５の実施形態に係る音声信号処理装置７０を示すブロック図である。本実施形態では、音声データが５．１ｃｈのデータであり、スピーカ２２が左前、中央前、右前、左後、右後およびウーハのスピーカＳＰｆｌ、ＳＰｆｃ、ＳＰｆｒ、ＳＰｒｌ、ＳＰｒｒ、ＳＰｗからなる。

本実施形態では、聴取者Ｌがリモートコントローラ２３を操作して各種の設定を指示すると、システムコントローラ１９から供給される制御信号によって、音声信号処理部１７の各部の処理が制御される。なお、操作信号の入力は、例えば、リモートコントローラ２３、３次元ディスプレイ２１等に表示されるオンスクリーンメニューを介して行われる。

前処理部７１は、音声データ復号部１６から供給された音声データから、左前、中央前、右前、左後、右後およびウーハの各チャンネルの音声信号を生成し、各信号処理系に供給する。前処理部７１は、制御信号に応じて、スイッチ素子等を調整し、左信号処理系および右信号処理系に供給するデータを変更する。

前処理部７１は、抽出処理、減衰処理、および定位処理の実行が設定されていなければ、左前、中央前、右前、左後、右後、およびウーハの各チャンネルのデータを対応するスピーカＳＰｆｌ、ＳＰｆｃ、ＳＰｆｒ、ＳＰｒｌ、ＳＰｒｒ、ＳＰｗに供給する。

一方、前処理部７１は、抽出処理、減衰処理、または定位処理の実行が設定されていると、中央前、左後、右後、およびウーハの各チャンネルのデータを対応するスピーカＳＰｆｃ、ＳＰｒｌ、ＳＰｒｒ、ＳＰｗに供給し、左前および右前チャンネルのデータを左信号処理系および右信号処理系の特徴成分抽出部７２ｌ、７２ｒおよび離隔定位処理部７６ｌ、７６ｒに各々に供給する。

なお、前処理部７１は、中央前のチャンネルのデータを中央前のスピーカＳＰｆｃに供給する代わりに、左前および右前のチャンネルに分割して、左前および右前のチャンネルと合わせて左信号処理系および右信号処理系の特徴成分抽出部７２ｌ、７２ｒに供給してもよい。

これは、左後、右後、ウーハのチャンネルの音声データが主に音響的な空間の拡がり感に寄与するが、左前、中央前、右前のチャンネルの音声データは、音響的に平坦となり易く、音響的な奥行き感を拡げるために定位処理等を施すことが好ましいためである。

特徴成分抽出部７２ｌ、７２ｒは、抽出処理の設定を指示する制御信号を供給されると、制御信号に応じて、フィルタのパラメータを調整し、特徴成分Ｓｃとして抽出する音声信号の特定の帯域を設定する。制御信号には、例えば、高域および／または低域成分の抽出処理の要否、または特定の帯域自体を指定する情報が含まれる。

近接定位処理部７３ｌ、７３ｒは、近接定位処理の設定を指示する制御信号を供給されると、制御信号に応じて、イコライザのパラメータを調整し、特徴成分Ｓｃの周波数特性および／または音量を設定する。制御信号には、例えば、周波数特性および／または音量の変更の要否、または周波数特性および／または音量の変更条件を指定する情報が含まれる。

特徴成分減衰部７５ｌ、７５ｒは、減衰処理の設定を変更する制御信号を供給されると、制御信号に応じて、フィルタのパラメータを調整し、特徴成分Ｓｃとして減衰させる音声信号の特定の帯域を設定する。制御信号には、例えば、高域および／または低域成分の減衰処理の要否、または特定の帯域自体を指定する情報が含まれる。

離隔定位処理部７６ｌ、７６ｒは、離隔定位処理の設定を指示する制御信号を供給されると、制御信号に応じて、イコライザのパラメータを調整し、特徴成分Ｓｃの周波数特性、音量および／または遅延量を変更する。制御信号には、例えば、周波数特性、音量および／または遅延量の変更の要否、または周波数特性、音量および／または遅延量の変更条件を指定する情報が含まれる。

合成処理部７４ｌ、７４ｒは、合成処理の設定を指示する制御信号を供給されると、制御信号に応じて、ミキサのパラメータを調整し、各信号処理系で近接定位および／または離隔定位された信号成分の合成条件、抽出処理および／または減衰処理された信号成分の合成条件を変更する。制御信号には、例えば、各成分の合成の要否、または各成分の重み付け等の合成条件を指定する情報が含まれる。

本実施形態によれば、聴取者Ｌにより指定される特徴成分抽出処理、近接定位処理、特徴成分減衰処理、離隔定位処理、および合成処理の設定状況に応じて、音響的な奥行き感が所望に調整された音声を提供することができる。

以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

例えば、上記実施形態では、２ｃｈの音声データを２ｃｈのスピーカＳＰｌ、ＳＰｒに出力する場合について説明した。しかし、例えば、５．１ｃｈ、７．１ｃｈ、モノラルの音声データを２ｃｈ、５．１ｃｈ、７．１ｃｈ等のスピーカに出力してもよい。

例えば、５．１ｃｈ、７．１ｃｈの音声データを２ｃｈのスピーカに出力する場合、５．１ｃｈ、７．１ｃｈのデータのうち前側の３チャンネルを左右のチャンネルに分割して、左右の信号処理系で特徴成分Ｓｃの抽出処理、近接定位処理、音声信号の減衰処理、離隔定位処理等を施し、２ｃｈのスピーカから出力してもよい。また、モノラルの音声データを２ｃｈのスピーカに出力する場合、モノラルのデータを左右のチャンネルに分割して、同様に出力してもよい。

また、上記第２〜第５の実施形態では、特徴成分抽出部４２、５２、６２、７２と近接定位処理部４３、５３、６３、７３が別々の構成からなる場合について説明した。しかし、特徴成分抽出部４２、５２、６２、７２と近接定位処理部４３、５３、６３、７３は、例えばフィルタ機能を有するイコライザ等の同一の構成からなるようにしてもよい。また、第４および第５の実施形態で説明した特徴成分減衰部６５、７５と離隔定位処理部６６、７６についても同様である。

また、第２〜第５の実施形態では、合成処理部４４、５４、６４、７４が左右の信号処理系で独立した構成からなる場合について説明したが、合成処理部４４、５４、６４、７４は、左右の信号処理系で共通する構成からなるようにしてもよい。

また、上記第５の実施形態では、第４の実施形態において音声信号処理装置６０の各部の処理が制御される場合について説明したが、第１〜第３の実施形態において音声信号処理装置３０、４０、５０の各部の処理が制御されるようにしてもよい。

１光ディスク再生装置
３０、４０、５０、６０、７０音声信号処理装置
３１、４１、５１、６１、７１前処理部
３２、４２、５２、６２、７２特徴成分抽出部
４３、５３、６３、７３近接定位処理部
４４、５４、６４、７４合成処理部
５５、６５、７５特徴成分減衰部
６６、７６離隔定位処理部
ＳＰｌ、ＳＰｒ、ＳＰｌｓ、ＳＰｌｒ、ＳＰｆｌ、ＳＰｆｃ、ＳＰｆｒ、ＳＰｒｌ、ＳＰｒｒ、ＳＰｗスピーカ
ＳＰｌｖ、ＳＰｌｒ仮想スピーカ
Ｓｃ特徴成分
Ｌ聴取者

Claims

音声信号を処理して音声出力部に供給する音声信号処理装置であって、
前記音声信号に含まれる少なくとも高域成分を特徴成分として抽出する特徴成分抽出部を備え、
前記抽出された特徴成分の音像が前記音声信号の音像よりも聴取者に近接して定位するように、前記音声信号および前記抽出された特徴成分を前記音声出力部に供給する音声信号処理装置。
前記抽出された特徴成分を処理し、前記抽出された特徴成分の音像を前記音声信号の音像よりも前記聴取者に近接して定位させる近接定位処理部をさらに備え、
前記抽出された特徴成分の代わりに前記近接定位処理された特徴成分を前記音声出力部に供給する、請求項１に記載の音声信号処理装置。
前記音声信号に含まれる特徴成分を減衰させる特徴成分減衰部をさらに備え、
前記抽出された特徴成分の音像が前記音声信号の音像よりも前記聴取者に近接して定位し、前記減衰された音声信号の音像が前記音声信号の音像よりも前記聴取者から離隔して定位するように、前記減衰された音声信号および前記抽出された特徴成分を前記音声出力部に供給する、請求項１に記載の音声信号処理装置。
前記減衰された音声信号を処理し、前記減衰された音声信号の音像を前記音声信号の音像よりも前記聴取者から離隔して定位させる離隔定位処理部をさらに備え、
前記減衰された音声信号の代わりに前記離隔定位処理された音声信号を前記音声出力部に供給する、請求項３に記載の音声信号処理装置。
前記離隔定位処理部は、前記減衰された音声信号を前記音声信号に対して所定の遅延量で遅延させる、請求項４に記載の音声信号処理装置。
前記特徴成分抽出部では、前記聴取者の操作指示に応じて、前記特徴成分の抽出条件が可変制御される、請求項１に記載の音声信号処理装置。
前記近接定位処理部では、前記聴取者の操作指示に応じて、前記特徴成分の近接定位処理の条件が可変制御される、請求項２に記載の音声信号処理装置。
前記特徴成分減衰部では、前記聴取者の操作指示に応じて、前記音声信号の減衰条件が可変制御される、請求項３に記載の音声信号処理装置。
前記離隔定位処理部では、前記聴取者の操作指示に応じて、前記音声信号の離隔定位処理の条件が可変制御される、請求項４に記載の音声信号処理装置。
前記音声信号が多チャンネルの信号として入力され、
前記聴取者により指定されたチャンネルの信号を前記特徴成分抽出部に入力するように、前記音声信号の入力が可変制御される、請求項１に記載の音声信号処理装置。
前記特徴成分は、前記音声信号に含まれる高域成分および低域成分である、請求項１に記載の音声信号処理装置。
前記音声信号は、４ｋＨｚを基準としてＱ＝１．５〜２．０の範囲を中域成分とし、中域成分よりも低域の低域成分、および中域成分よりも高域の高域成分に区分される、請求項１に記載の音声信号処理装置。
音声信号に含まれる少なくとも高域成分を特徴成分として抽出するステップと、
前記抽出された特徴成分の音像が前記音声信号の音像よりも聴取者に近接して定位するように、前記音声信号および前記抽出された特徴成分を音声出力部に供給するステップと、
を含む音声信号処理方法。