JP4415775B2

JP4415775B2 - 音声信号処理装置およびその方法、音声信号記録再生装置ならびにプログラム

Info

Publication number: JP4415775B2
Application number: JP2004199522A
Authority: JP
Inventors: 一彦小沢
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2004-07-06
Filing date: 2004-07-06
Publication date: 2010-02-17
Anticipated expiration: 2024-07-06
Also published as: JP2006025034A

Description

本発明は、サラウンド音の収録、または再生に用いられるマルチチャンネル音声信号を処理する音声信号処理装置とその方法、マルチチャンネル音声信号の記録・再生を行う音声信号記録再生装置、ならびに、マルチチャンネル音声を処理するためのコンピュータプログラムに関するものである。

本出願人は、特許文献１において、音場空間の全周囲方向から入力する音声を複数のマイクロフォンで収音し、映像と共にマルチチャンネルで記録再生するビデオカメラを提案している。マルチチャンネルで記録された音声信号を複数のスピーカで再生すると、映画館のような迫力のあるサラウンド効果を実現できる。近年、マルチチャンネル音声信号が記録されているＤＶＤ（Digital Versatile Disc）等のメディアに対応した機器が急速に普及しており、サラウンド音の再生を容易に行えるようになってきたため、ユーザが容易にマルチチャンネル記録再生を行えるこのようなビデオカメラへの要求が高まっている。

特開２０００−２９９８４２号公報特開２００２−３４５０９７号公報特開２００３−２８４１９６号公報

しかしながら、一般に、映画館やＤＶＤなどで再生されるサラウンド効果は、製作される映像に合わせて効果的に編集されており、ほとんどの場合、撮影現場における実際の音響ではない。したがって、このようなサラウンド効果に慣れているユーザにとって、マルチチャンネル記録された音声信号を単純に複数のスピーカで再生したのでは迫力に欠ける場合がある。

また、一般に、サラウンド対応の複数のスピーカで音声を再生すると、サラウンド効果が最も良好に得られるリスニングポジション（聴取位置）が狭い範囲に限られてしまうことから、音像がリスナーの頭内に定位して、違和感を生じさせる場合がある。

更に、多くの場合、映像は前方のスクリーンもしくはＴＶのディスプレイのみで表示されるため、ユーザの全周囲で常に音声が発せられると、ユーザに違和感を与える場合がある。
すなわち、前方のスクリーンでは見えない横方向や後方で常に音が発生していると、ユーザはそれを映像で確認できないため雑音に聞こえてしまい、スクリーン上の映像に対する集中を妨げる要因になる場合がある。例えば、ビデオカメラで再生された映像を撮影者以外の第三者が視聴する場合、撮影時の状況を知らない第三者にとってスクリーン上の映像と関係のない周囲の音は意味のない雑音に聞こえてしまい、違和感を覚えてしまうことがある。

本発明はかかる事情に鑑みてなされたものであり、その第１の目的は、映像とともに収録、または再生されるマルチチャンネルの音声信号のサラウンド効果を映像に合わせて適切に強調することができる音声信号処理装置とその方法、その音声信号処理用プログラムを提供することにある。
また、第２の目的は、映像とともに収録、または再生されるマルチチャンネルの音声信号のサラウンド効果を映像に合わせて適切に強調して、その記録や再生を行うことができる音声信号記録再生装置を提供することにある。

上記の目的を達成する第１の発明は、映像とともに収録、または再生されるサラウンド音の複数の音声信号を処理する音声信号処理装置であって、上記サラウンド音の聴取位置から見た上記映像の方向を基準とする所定の複数の方向のうち、上記映像に最も近い方向を含む少なくとも１つの第１の方向における第１の音声信号と、上記第１の方向に比べて上記映像と離れた少なくとも１つの第２の方向からの第２の音声信号とを和と差の演算を行い、当該和を第１のレベルと比較し、上記差を第２のレベルと該第２のレベルより大きい第３のレベルと比較し、比較結果から規定される区間に存在する頻度を検出する検出手段と、上記検出手段の検出結果に応じて、当該検出の対象となった少なくとも１つの音声信号のレベルを制御するレベル制御手段とを有する。

また、上記の目的を達成する第２の発明は、映像とともに収録、または再生されるサラウンド音の複数の音声信号を処理する音声信号処理装置であって、上記複数の音声信号の少なくとも一部を、複数の帯域の音声信号に分割する帯域分割手段と、上記帯域分割手段において分割された帯域ごとに、帯域内の音声信号に対して、上記サラウンド音の聴取位置から見た上記映像の方向を基準とする所定の複数の方向のうち、少なくとも１組の方向における音声信号の相関を検出する、および／または、上記複数の方向のうち、少なくとも１つの方向からの音声信号のレベルが所定のレベルを超える頻度を検出する検出手段と、上記検出手段の検出結果に応じて、当該検出の対象となった少なくとも１つのレベル制御された音声信号を、帯域ごとに合成する合成手段とを有する。

また、上記検出手段は、上記第１の音声信号および上記第２の音声信号の信号レベルの和と差を演算し、上記和が第１のレベルより大きくなり、かつ、上記差が第２のレベルより小さくなる第１の頻度を検出しても良く、上記レベル制御手段は、上記第１の頻度が高くなる場合に、少なくとも上記第２の音声信号のレベルを大きくしても良い。
上記第１および上記第２の音声信号の相関が高くなるほど、上記和は大きくなり、上記差は小さくなる。そのため、上記第１の頻度に応じたレベル制御によれば、上記映像との関連性の強い上記第１の音声信号と同一成分が、上記関連性の弱い上記第２の音声信号に多く含まれる場合に、上記第２の音声信号のレベルが大きくされる。

また、上記検出手段は、上記第１の音声信号および上記第２の音声信号の信号レベルの和と差を演算し、上記和が第１のレベルより大きくなり、かつ、上記差が前記第２のレベルより大きく設定される第３のレベルより大きくなる第２の頻度を検出し、上記レベル制御手段は、上記第２の頻度が高くなる場合に、少なくとも上記第２の音声信号のレベルを大きくしても良い。
上記第１および上記第２の音声信号の全体レベルが大きくなるほど、上記和と差は大きくなる。そのため、上記第２の頻度に応じたレベル制御によれば、上記第１および上記第２の音声信号の全体レベルが大きくなる場合、上記第２の音声信号のレベルが大きくされる。

また、上記検出手段は、上記第１の音声信号および上記第２の音声信号の信号レベルの和と差を演算し、上記和が第１のレベルより小さくなり、かつ、上記差が第２のレベルより小さくなる第３の頻度を検出しても良く、上記レベル制御手段は、上記第３の頻度が高くなる場合に、少なくとも上記第２の音声信号のレベルを大きくても良い。
上記第１および上記第２の音声信号の全体レベルが小さくなるほど、上記和と差は小さくなる。そのため、上記第３の頻度に応じたレベル制御によれば、上記第１および上記第２の音声信号の全体レベルが小さい場合に、上記第２の音声信号のレベルが大きくされる。

また、上記目的を達成する第３の発明は、映像とともに収録、または再生されるサラウンド音の複数の音声信号を処理する音声信号処理装置であって、上記サラウンド音の聴取位置から見た上記映像の方向を基準とする所定の複数の方向のうち、少なくとも１組の方向における音声信号の相関を検出する、および／または、上記複数の方向のうち、少なくとも１つの方向からの音声信号のレベルが所定のレベルを超える頻度を検出する検出手段と、上記検出手段の検出結果に応じて、当該検出の対象となった少なくとも１つの音声信号のレベルを制御するレベル制御手段と、を有し、上記検出手段は、上記相関の検出対象の音声信号に所定の遅延時間差を与えてから、上記相関の検出を行う。

また、上記目的を達成する第４の発明は、映像とともに収録、または再生されるサラウンド音の複数の音声信号の記録と再生を行う音声信号記録再生装置であって、上記複数の音声信号の少なくとも一部を、複数の帯域の音声信号に分割する帯域分割手段と、上記帯域分割手段において分割された帯域ごとに、帯域内の音声信号に対して、上記サラウンド音の聴取位置から見た上記映像の方向を基準とする所定の複数の方向のうち、少なくとも１組の方向における音声信号の相関を検出する、および／または、上記複数の方向のうち、少なくとも１つの方向からの音声信号のレベルが所定のレベルを超える頻度を検出する検出手段と、上記検出手段の検出結果に応じて、当該検出の対象となった少なくとも１つの音声信号のレベルを制御するレベル制御手段と、上記レベル制御手段においてレベル制御された音声信号を、帯域ごとに合成する合成手段を有し、上記合成手段において合成された少なくとも１つの音声信号を記録する、および／または再生する。

また、上記目的を達成する第５の発明は、映像とともに収録、または再生されるサラウンド音の複数の音声信号を処理する音声信号処理方法であって、上記サラウンド音の聴取位置から見た上記映像の方向を基準とする所定の複数の方向のうち、上記映像に最も近い方向を含む少なくとも１つの第１の方向における第１の音声信号と、上記第１の方向に比べて上記映像と離れた少なくとも１つの第２の方向からの第２の音声信号とを和と差の演算を行い、当該和を第１のレベルと比較し、上記差を第２のレベルと該第２のレベルより大きい第３のレベルと比較し、比較結果から規定される区間に存在する頻度を検出する第１の工程と、上記第１の工程の検出結果に応じて、当該検出の対象となった少なくとも１つの音声信号のレベルを制御する第２の工程と、を有する。

また、上記目的を達成する第６の発明は、映像とともに収録、または再生されるサラウンド音の複数の音声信号を処理する音声信号処理方法であって、上記複数の音声信号の少なくとも一部を、複数の帯域の音声信号に分割する第１の工程と、上記分割された帯域ごとに、帯域内の音声信号に対して、上記サラウンド音の聴取位置から見た上記映像の方向を基準とする所定の複数の方向のうち、少なくとも１組の方向における音声信号の相関を検出する、および／または、上記複数の方向のうち、少なくとも１つの方向からの音声信号のレベルが所定のレベルを超える頻度を検出する第２の工程と、上記頻度の検出結果に応じて、当該検出の対象となった少なくとも１つの音声信号のレベルを制御する第３の工程と、上記レベル制御された音声信号を、帯域ごとに合成する第４の工程とを有する。

また、上記目的を達成する第７の発明は、映像とともに収録、または再生されるサラウンド音の複数の音声信号をコンピュータに処理させるプログラムであって、上記サラウンド音の聴取位置から見た上記映像の方向を基準とする所定の複数の方向のうち、上記映像に最も近い方向を含む少なくとも１つの第１の方向における第１の音声信号と、上記第１の方向に比べて上記映像と離れた少なくとも１つの第２の方向からの第２の音声信号とを和と差の演算を行い、当該和を第１のレベルと比較し、上記差を第２のレベルと該第２のレベルより大きい第３のレベルと比較し、比較結果から規定される区間に存在する頻度を検出する第１の手順と、上記第１の工程の検出結果に応じて、当該検出の対象となった少なくとも１つの音声信号のレベルを制御する第２の手順と、を有する。

また、上記目的を達成する第８の発明は、映像とともに収録、または再生されるサラウンド音の複数の音声信号をコンピュータに処理させるプログラムであって、上記サラウンド音の聴取位置から見た上記映像の方向を基準とする所定の複数の方向のうち、複数の音声信号の少なくとも一部を、複数の帯域の音声信号に分割する第１の手順と、上記分割された帯域ごとに、帯域内の音声信号に対して、上記サラウンド音の聴取位置から見た上記映像の方向を基準とする所定の複数の方向のうち、少なくとも１組の方向における音声信号の相関を検出する、および／または、上記複数の方向のうち、少なくとも１つの方向からの音声信号のレベルが所定のレベルを超える頻度を検出する第２の手順と、上記頻度の検出結果に応じて、当該検出の対象となった少なくとも１つの音声信号のレベルを制御する第３の手順と、上記レベルが制御された音声信号を、帯域ごとに合成する第４の手順と
を有する。

本発明によれば、第１に、映像とともに収録、または再生されるマルチチャンネルの音声信号のサラウンド効果を映像に合わせて適切に強調できる。
また、第２に、映像とともに収録、または再生されるマルチチャンネルの音声信号のサラウンド効果を映像に合わせて適切に強調して、その記録や再生を行うことができる。

以下、本発明を、６つの実施形態について図面を参照して説明する。

＜第１の実施形態＞
図１は、本発明の実施形態に係る音声信号記録再生装置の構成の一例を示す図である。

この音声信号記録再生装置は、例えばビデオカメラ等の撮影装置に搭載されており、撮影を行う際に、周囲の各方向の音を取り込んで音声信号に変換し、これを撮影映像とともにＤＶＤやハードディスク等の記憶デバイスに格納する。また、記憶デバイスに格納された音声信号を再生する処理も行う。

図１に示す音声信号記録再生装置は、マイクロフォン１，…，４と、増幅回路５，…，８と、音声信号処理装置９および１４と、エンコーダ１０と、記録再生切り替え部１１と、記録再生装置１２と、デコーダ１３とを有する。

マイクロフォン１，…，４は、それぞれ指向性を有しており、サラウンド音として再生される複数の方向からの音声を収音して、その音声信号を出力する。
図２の（Ａ），…，（Ｄ）は、それぞれ、マイクロフォン１，…，４の指向性パターンの一例を示す。撮影対象の映像の方向を前方とした場合に、マイクロフォン１は右前方、マイクロフォン２は左前方、マイクロフォン３は左後方、マイクロフォン４は右後方の音をそれぞれ収音する。

増幅回路５，…，８は、それぞれ、マイクロフォン１，…，４から出力される音声信号を増幅し、音声信号ＦＲ＿ｉｎ，ＦＬ＿ｉｎ，ＲＬ＿ｉｎ，ＲＲ＿ｉｎとして出力する。

音声信号処理装置９は、前方の音声信号（ＦＲ＿ｉｎ，ＦＬ＿ｉｎ）と後方の音声信号（ＲＲ＿ｉｎ，ＲＬ＿ｉｎ）との相関を検出し、その検出結果に応じて、後方の音声信号（ＲＲ＿ｉｎ，ＲＬ＿ｉｎ）のレベルを制御する。詳細については、後ほど図３〜５を参照して説明する。

エンコーダ１０は、音声信号ＦＲ＿ｉｎ，ＦＬ＿ｉｎ，ＲＲ＿ｉｎ，ＲＬ＿ｉｎに対応する音声信号処理装置９の処理結果の音声信号ＦＲ＿ｏｕｔ，ＦＬ＿ｏｕｔ，ＲＲ＿ｏｕｔ，ＲＬ＿ｏｕｔを入力し、これに例えば特許文献１に示されるような多重化エンコード処理を施す。

記録再生切り替え部１１は、記録動作時において、エンコーダ１０のエンコード結果の音声信号と図示しない映像信号とを含んだ所定フォーマットの記録ストリーム信号を記録再生装置１２に出力する。また、再生動作時には、記録再生装置１２から所定フォーマットの再生ストリーム信号を取り込み、そのうちの音声信号をデコーダ１３へ入力する。

記録再生装置１２は、例えばＤＶＤやハードディスク等の記憶デバイスに音声や映像等のデータを格納する。また、記憶デバイスに格納されるこれらのデータを再生して出力する。すなわち、記録動作時には、記録再生切り替え部１１から入力される記録ストリーム信号を記録し、再生動作時には、記憶デバイスに格納されるデータから再生した再生ストリーム信号を記録再生切り替え部１１に出力する。

デコーダ１３は、記録再生装置１２から記録再生切り替え部１１を介して入力される再生ストリーム信号中の音声信号に所定のデコード処理を施して、４チャンネルの音声信号ＦＲ＿ｉｎ，ＦＬ＿ｉｎ，ＲＲ＿ｉｎ，ＲＬ＿ｉｎに分離する。

音声信号処理装置１４は、デコーダ１３から入力した音声信号ＦＲ＿ｉｎ，ＦＬ＿ｉｎ，ＲＲ＿ｉｎ，ＲＬ＿ｉｎに音声信号処理装置９と同様な処理を施して、音声信号ＦＲ＿ｏｕｔ，ＦＬ＿ｏｕｔ，ＲＲ＿ｏｕｔ，ＲＬ＿ｏｕｔを出力する。

上記の構成によると、記録動作を行う場合、図示しない撮像部による撮影と並行して、マイクロフォン１，…，４で各方向の音声信号が収音され、増幅回路５，…，８において増幅され、それぞれ音声信号ＦＲ＿ｉｎ，ＦＬ＿ｉｎ，ＲＲ＿ｉｎ，ＲＬ＿ｉｎとして音声信号処理装置９に入力される。これらの音声信号は、音声信号処理装置９において、後述する処理により信号レベルを調節された後、音声信号ＦＲ＿ｏｕｔ，ＦＬ＿ｏｕｔ，ＲＲ＿ｏｕｔ，ＲＬ＿ｏｕｔとしてエンコーダ１０に出力される。そして、エンコーダ１０において所定のエンコード処理を施され、図示しない映像信号とともに記録ストリーム信号として記録再生装置１２に入力されて、ＤＶＤ等の記憶デバイスに格納される。
また、再生動作を行う場合、記録再生装置１２から再生ストリーム信号が出力され、そのうちの音声信号がデコーダ１３においてデコード処理を施され、４チャンネルの音声信号ＦＲ＿ｉｎ，ＦＬ＿ｉｎ，ＲＲ＿ｉｎ，ＲＬ＿ｉｎに分離される。分離された音声信号は、音声信号処理装置１４において後述の音声信号処理を施された後、オーディオ装置等に４チャンネルの音声信号ＦＲ＿ｏｕｔ，ＦＬ＿ｏｕｔ，ＲＲ＿ｏｕｔ，ＲＬ＿ｏｕｔとして出力され、サラウンド音として映像ととも再生される。

なお、音声信号処理装置９および１４は、図１に示すように記録動作用と再生動作用に独立に設けても良いし、何れか一方のみでも良い。また、各動作を行う際に１つの音声処理部を共用しても良い。
また、音声信号処理装置９および１４の処理は、ユーザの設定によって任意に一方を省略できるようにしても良い。例えば、記録動作時に音声信号処理装置９の処理を施した音声信号については、再生動作時に音声処理装置１４の処理を省略できるようにしても良い。また、再生動作時に音声処理装置１４の処理を行う予定の音声信号については、記録動作時に音声信号処理装置９の処理を省略できるようにしても良い。
なお、多くのサラウンド対応機器において５．１チャンネル方式が採用されているが、上記４チャンネルの音声信号ＦＲ＿ｉｎ，ＦＬ＿ｉｎ，ＲＲ＿ｉｎ，ＲＬ＿ｉｎから、これらの５．１チャンネル対応の音声信号が容易に生成できる。一例では、映像方向のＣ（センター）チャンネル音声信号は、前方方向のＦＲ＿ｉｎ，ＦＬ＿ｉｎ信号からモノラル合成可能であり、また低域帯域のＳＷ（ＳｕｂＷｏｏｆｅｒ）チャンネル音声信号は、前記４チャンネルの音声信号からフィルター等により低域成分を抽出することにより合成可能である。したがって音声信号処理装置９および１４の出力にこのような合成回路を設けることにより、５．１チャンネル化が可能である。

次に、音声信号処理装置９および１４の詳細な構成について、図３〜５を参照しながら説明する。

図３は、本発明の第１の実施形態に係る音声信号処理装置の構成の一例を示す図である。
図３に示す音声処理部は、相関検出部２０と、レベル制御部４０および５０とを有する。
相関検出部２０は、本発明の検出手段の一実施形態である。
レベル制御部４０および５０は、本発明のレベル制御手段の一実施形態である。

相関検出部２０は、前方の２つの音声信号（ＦＲ＿ｉｎ，ＦＬ＿ｉｎ）と後方の２つの音声信号（ＲＲ＿ｉｎ，ＲＬ＿ｉｎ）との相関をそれぞれ検出する。すなわち、（ＦＬ＿ｉｎ，ＲＬ＿ｉｎ）、（ＦＲ＿ｉｎ，ＲＬ＿ｉｎ）、（ＦＬ＿ｉｎ，ＲＲ＿ｉｎ）、（ＦＲ＿ｉｎ，ＲＲ＿ｉｎ）の４通りの相関を検出し、この検出結果を４つの相関係数Ｃ１，Ｃ２，Ｃ３，Ｃ４として出力する。

図４は、相関検出部２０の構成の一例を示す図である。
相関検出部２０は、例えば図４に示すように、選択部２０１，２０２，２０７と、低入力検出部２０３と、特異点処理部２０４と、相関係数算出部２０５と、絶対値処理部２０６と、フィルタ部２０８，…，２１１とを有する。

選択部２０１は、前方の２つの音声信号ＦＲ＿ｉｎおよびＦＬ＿ｉｎの一方を選択して、低入力検出部２０３および相関係数算出部２０５に入力する。
選択部２０２は、後方の２つの音声信号ＲＲ＿ｉｎおよびＲＬ＿ｉｎの一方を選択して、低入力検出部２０３および相関係数算出部２０５に入力する。

相関係数算出部２０５は、選択部２０１において選択される前方の音声信号の一方と、選択部２０２において選択される後方の音声信号の一方とを入力し、相関係数ρを算出する。ここで、選択部２０１から入力されるｎサンプル目の音声信号を‘Ａ［ｎ］’、選択部２０２から入力されるｎサンプル目の音声信号を‘Ｂ［ｎ］’とした場合、相関係数算出部２０５は、例えば次式の関係に基づいて相関係数ρを算出する。

ただし、‘Ｎ’は相関係数の算出に用いる総サンプル数を示し、‘ＭＡ’は音声信号Ａ［ｎ］のＮサンプル全体の平均値を示し、‘ＭＢ’は音声信号Ｂ［ｎ］のＮサンプル全体の平均値を示す。
式（１）において、分母は分子がとり得る最大の値であるため、相関係数ρの値は‘−１’〜‘１’の範囲内に収まる。

低入力検出部２０３は、相関係数算出部２０５に入力される音声信号が所定レベルより小さくなっているか否かを検出する。

特異点処理部２０４は、低入力検出部２０３において所定レベルより小さい音声信号の入力が検出された場合に、その音声信号をゼロに置き換えて相関係数算出部２０５に入力する。また、このゼロへの置き換えが所定サンプル数（例えばＮ’）以上続いた場合、相関係数算出部２０５の算出結果を所定値（例えば‘０’や‘１’）に置き換える。

絶対値処理部２０６は、相関係数算出部２０５の算出結果（もしくは特異点処理部２０４によって置き換えられた値）の絶対値を求める。

選択部２０７は、絶対値処理部２０６によって絶対値化された相関係数を、フィルタ部２０８〜２１１の何れかに入力する。すなわち、音声信号ＦＬ＿ｉｎおよびＲＬ＿ｉｎの相関係数をフィルタ部２０８、音声信号ＦＲ＿ｉｎおよびＲＬ＿ｉｎの相関係数をフィルタ部２０９、音声信号ＦＬ＿ｉｎおよびＲＲ＿ｉｎの相関係数をフィルタ部２１０、音声信号ＦＲ＿ｉｎおよびＲＲ＿ｉｎの相関係数をフィルタ部２１１にそれぞれ入力する。

フィルタ部２０８，…，２１１は、選択部２０７から入力される各サンプルの相関係数の算出結果にローパスフィルタ処理を施して高域成分を減衰させ、その処理結果をそれぞれ相関係数Ｃ１，…，Ｃ４として出力する。

上記の構成を有する相関検出部２０によると、選択部２０１および２０２によって４通りの組み合わせの音声信号（ＦＬ＿ｉｎとＲＬ＿ｉｎ、ＦＲ＿ｉｎとＲＬ＿ｉｎ、ＦＬ＿ｉｎとＲＲ＿ｉｎ、ＦＲ＿ｉｎとＲＲ＿ｉｎ）が選択されて、相関係数算出部２０５に入力される。相関係数算出部２０５では、この各組み合わせについての相関係数が算出される。

相関係数算出部２０５において算出される相関係数は、‘−１’から‘１’までの値を有している。この相関係数は、２つの信号間の相関が低いほどゼロに近づき、２つの信号の相関が高いほど‘１’に近づく。また、相関係数が‘−１’に近づく場合、２つの信号は互いに逆相に変化しながらその波形が等しくなるため、この場合も相関が高くなる。そのため、絶対値処理部２０６から出力される絶対値化された相関係数は、２つの信号の相関が高いほど‘１’に近づく。

絶対値処理部２０６によって絶対値化された相関係数は、選択部２０７によって上記４通りの組み合わせのそれぞれに対応するフィルタ部（２０８〜２１１）に入力され、ローパスフィルタ処理により高域成分を除去された後、相関係数Ｃ１，…，Ｃ４として後述のレベル制御部４０または５０に出力される。

ところで、総サンプル数Ｎを越える期間にわたってゼロもしくはそれに近い値の入力信号が相関係数算出部２０５に入力され続けると、式（１）における分母や分子がゼロになる可能性があり、その場合、ある値をゼロで割ったり、あるいは、ゼロをある値で割ったりするような演算が発生し、有限語長を扱うディジタル信号処理では、演算規模が大きくなったり、また演算による誤差が大きくなり相関係数が‘−１’〜‘１’の範囲を逸脱する可能性がある。
そこで、特異点処理部２０４は、相関係数算出部２０５に入力される所定レベルより小さい音声信号をゼロに置き換える。また、このゼロへの置き換えが例えばＮサンプル以上続いた場合に相関係数算出部２０５の算出結果を‘０’や‘１’などの定数に置き換える。こうした処理によって、演算を早めに終了することで演算規模を抑え、また‘−１’〜‘１’の範囲を逸脱するような不適切な相関係数を除去することができる。
以上が、相関検出部２０の説明である。

レベル制御部４０は、相関検出部２０から検出結果として出力される音声信号ＦＬ＿ｉｎおよびＲＬ＿ｉｎの相関係数Ｃ１と、音声信号ＦＲ＿ｉｎおよびＲＬ＿ｉｎの相関係数Ｃ２とに応じて、音声信号ＲＬ＿ｉｎのレベルを制御する。
レベル制御部５０は、相関検出部２０から検出結果として出力される音声信号ＦＬ＿ｉｎおよびＲＲ＿ｉｎの相関係数Ｃ３と、音声信号ＦＲ＿ｉｎおよびＲＲ＿ｉｎの相関係数Ｃ４とに応じて、音声信号ＲＲ＿ｉｎのレベルを制御する。

図５は、レベル制御部４０および５０の構成の一例を示す図である。
レベル制御部４０は、例えば図５に示すように、ラッチ部４０１および４０２と、選択部４０３と、レベル可変部４０４とを有する。
また、レベル制御部５０は、例えば図５に示すように、ラッチ部５０１および５０２と、選択部５０３と、レベル可変部５０４とを有する。

ラッチ部４０１および４０２は、それぞれ、相関係数Ｃ１およびＣ２を保持する。
選択部４０３は、ラッチ部４０１および４０２に保持される相関係数Ｃ１およびＣ２のうち、何れか大きい方を選択する。
レベル可変部４０４は、選択部４０３において選択される相関係数に応じて、左後方の音声信号ＲＬ＿ｉｎのレベルを可変し、音声信号ＲＬ＿ｏｕｔとして出力する。例えば、選択された相関係数と音声信号ＲＬ＿ｉｎとを乗算することにより、この相関係数が大きいほど音声信号ＲＬ＿ｏｕｔのレベルを大きくする。

ラッチ部５０１および５０２は、それぞれ、相関係数Ｃ３およびＣ４を保持する。
選択部５０３は、ラッチ部５０１および５０２に保持される相関係数Ｃ３およびＣ４のうち、何れか大きい方を選択する。
レベル可変部５０４は、選択部５０３において選択される相関係数に応じて、右後方の音声信号ＲＲ＿ｉｎのレベルを可変し、音声信号ＲＲ＿ｏｕｔとして出力する。例えば、選択された相関係数と音声信号ＲＲ＿ｉｎとを乗算することにより、この相関係数が大きいほど音声信号ＲＲ＿ｏｕｔのレベルを大きくする。なお、前方の音声信号ＦＲ＿ｉｎおよびＦＬ＿ｉｎは、そのまま音声信号ＦＲ＿ｏｕｔおよびＦＬ＿ｏｕｔとして音声信号処理部から出力される。

ここで、上述した構成を有する図３に示す音声信号処理装置の動作を説明する。

入力される４方向の音声信号のうち、前方の２つの音声信号（ＦＲ＿ｉｎ，ＦＬ＿ｉｎ）と後方の２つの音声信号（ＲＲ＿ｉｎ，ＲＬ＿ｉｎ）との相関がそれぞれ相関検出部２０において検出され、４通りの組み合わせに対応する４つの相関係数Ｃ１〜Ｃ４が得られる。
得られた４つの相関係数のうち、左後方の音声信号ＲＬ＿ｉｎと前方２つの音声信号との組み合わせで得られる２つの相関係数Ｃ１およびＣ２は、レベル制御部４０に入力される。レベル制御部４０では、この２つの相関係数Ｃ１およびＣ２のうち、値の大きい方の係数に応じて左後方の音声信号ＲＬ＿ｉｎのレベルが調節され、音声信号ＲＬ＿ｏｕｔが生成される。
また、上記４つの相関係数のうち、右後方の音声信号ＲＲ＿ｉｎと前方２つの音声信号との組み合わせで得られる２つの相関係数Ｃ３およびＣ４は、レベル制御部５０に入力される。レベル制御部５０では、この２つの相関係数Ｃ３およびＣ４のうち、値の大きい方の係数に応じて右後方の音声信号ＲＲ＿ｉｎのレベルが調節され、音声信号ＲＲ＿ｏｕｔが生成される。

以上説明したように、本実施形態によれば、サラウンド音の聴取位置から見た映像の方向を前方とする４つ方向（左前方、右前方、左後方、右後方）のうち、４組の方向（左前方と左後方、右前方と左後方、左前方と右後方、右前方と右後方）において出力される音声信号同士の相関が相関検出部２０によってそれぞれ検出される。レベル制御部４０では、左後方音声についての２つの相関検出結果（左前方と左後方、右前方と左後方）に応じて、この左後方音声の信号レベルが制御される。また、レベル制御部５０においては、右後方音声についての２つの相関検出結果（左前方と右後方、右前方と右後方）に応じて、この右後方音声の信号レベルが制御される。
通常、音声信号同士の相関が高いほど、これらの音声信号に同一の成分が多く含まれることから、相関検出部２０の検出結果に基づいて、映像の方向を基準とした幾つかの方向の音声に同一の成分が含まれる度合いを把握することができる。したがって、この相関検出結果に応じて音声信号レベルの制御を行うことにより、映像の方向を基準とした幾つかの方向の音声に同一成分が多く含まれる場合とそうでない場合とで、これらの音声に強弱の変化を与えることが可能になる。すなわち、映像に対して特定の複数の方向から同一成分の音が大きく聞こえる場合とそうでない場合とで、その音声に強弱の変化を与えることができる。これにより、映像に合わせて適切にサラウンド音を強調することができる。

例えば、本実施形態では、相関検出部２０において、所定の４つの方向のうち、収録時、または再生時の映像に最も近い左前方および右前方において出力される音声信号と、これらに比べて映像と離れた左後方および右後方の音声信号との相関が検出されており、これらの相関が高くなる場合に、後方の音声信号のレベルが大きくなるようレベル制御が行われる。
一般に、サラウンド音として再生される複数チャンネルの音声信号は、収録、または再生された映像方向に近い方向で出力されるものほど、リスナーによって映像との関連性を強く認識され、映像から離れて出力されるものほど、映像との関連性を弱く認識される。
したがって、上述のように、映像との関連性が強い前方の音声信号と同一の成分が後方の音声信号に多く含まれる場合に後方の音を強めることによって、リスナーには、映像と関連性のある音が背後からも強調されて聞こえるため、サラウンド音をより迫力のあるものにすることができる。
また、逆に、映像との関連性が強い前方の音声信号と同一の成分が後方の音声信号にあまり含まれていない場合に後方の音を弱めることによって、映像と関連性のない音が小さくなり、映像への集中の妨げになり難くなるので、ユーザはより快適に映像と音を楽しむことができる。

また、一般的なサラウンド音の再生装置においては、サラウンド効果が最も良好に得られる聴取位置が各方向の音声レベルがバランスする中央の位置に限られており、いわゆるスイートスポットが狭いという問題がある。本実施形態によれば、各方向からの音声レベルのバランスを変化させることによって、サラウンド効果を高めつつ、スイートスポットを広くすることができる。また、これにより、音像がリスナーの頭内に定位する上述した頭内定位の問題を生じ難くできるため、リスナーの違和感を軽減することができる。

＜第２の実施形態＞
次に、本発明の第２の実施形態について説明する。

図６は、本発明の第２の実施形態に係る音声信号処理装置の構成の一例を示す図である。
図６に示す音声信号処理装置は、レベル検出部３０と、レベル制御部４０および５０とを有する。
なお、レベル検出部３０は、本発明の検出手段の一実施形態である。
また、音声信号処理装置を含む音声信号記録再生装置の全体構成については、図１と同様である。

レベル検出部３０は、前方の音声信号（ＦＲ＿ｉｎ，ＦＬ＿ｉｎ）と後方の音声信号（ＲＲ＿ｉｎ，ＲＬ＿ｉｎ）との４つの組み合わせ（ＦＬ＿ｉｎ，ＲＬ＿ｉｎ）、（ＦＲ＿ｉｎ，ＲＬ＿ｉｎ）、（ＦＬ＿ｉｎ，ＲＲ＿ｉｎ）、（ＦＲ＿ｉｎ，ＲＲ＿ｉｎ）について、それぞれ音声信号の和と差を演算し、その演算結果が次の条件の何れかに該当しているかどうかを判定する。

条件（１）：
和が所定レベル（ＳＬ１）より大きくなり、かつ、差が所定レベル（ＳＬ２）より小さくなる。

条件（２）：
和が所定レベル（ＳＬ１）より大きくなり、かつ、差が所定レベル（ＳＬ３）より大きくなる。（ただしＳＬ３＞ＳＬ２）

条件（３）：
和が所定レベル（ＳＬ１）より小さくなり、かつ、差が所定レベル（ＳＬ２）より小さくなる。

レベル検出部３０は、２つの音声信号の和と差の演算結果が条件（１）〜（３）の何れかに該当すると判定される頻度を、上記の組み合わせごとに検出する。そして、検出した頻度を、４つの組み合わせに対応する４つのレベル係数Ｌ１〜Ｌ４として出力する。

図７は、レベル検出部３０の構成の一例を示す図である。
レベル検出部３０は、例えば図７に示すように、選択部３０１，３０２，３１２と、加算部３０３と、減算部３０７と、絶対値処理部３０４，３０８と、レベル検波部３０５，３０９と、比較部３０６，３１０と、判定部３１１と、アップ／ダウンカウンタ３１３，…，３１６とを有する。

選択部３０１は、前方の２つの音声信号ＦＲ＿ｉｎおよびＦＬ＿ｉｎの一方を選択して、加算部３０３および減算部３０７に入力する。
選択部３０２は、後方の２つの音声信号ＲＲ＿ｉｎおよびＲＬ＿ｉｎの一方を選択して、加算部３０３および減算部３０７に入力する。

加算部３０３は、選択部３０１および３０２において選択された音声信号の和を演算する。
減算部３０７は、選択部３０１および３０２において選択された音声信号の差を演算する。

絶対値処理部３０４は、加算部３０３において演算された和の絶対値を求める。
絶対値処理部３０８は、減算部３０７において演算された差の絶対値を求める。

レベル検波部３０５は、絶対値処理部３０４で求められた和の絶対値のレベルを求める。
レベル検波部３０９は、絶対値処理部３０８で求められた差の絶対値のレベルを求める。
レベル検波部３０５および３０９は、例えば、ピーク値検波や平均値検波などによって時間的に平均化されたレベルを求める。

比較部３０６は、レベル検波部３０５で求められた和の絶対値のレベルと基準レベルＳＬ１とを比較する。比較結果として、例えば、和の絶対値のレベルが基準レベルＳＬ１より大きい場合に‘１’、そうでない場合に‘０’を出力する。
比較部３１０は、レベル検波部３０９で求められた差の絶対値のレベルとまず基準レベルＳＬ２とを比較する。比較結果として、例えば、差の絶対値のレベルが基準レベルＳＬ２より大きい場合に‘０１’、そうでない場合に‘００’を出力する。さらに基準レベルＳＬ３（ただしＳＬ３＞ＳＬ２）と比較し、比較結果として、例えば、差の絶対値のレベルが基準レベルＳＬ３より大きい場合に‘１１’、そうでない場合に‘１０’を出力する。

判定部３１１は、比較部３０６および３１０の比較結果が上述した条件（１）〜（３）の何れかを満たすか否か判定する。判定結果として、例えば、条件（１）〜（３）の何れかを満たす場合に‘１’、そうでない場合に‘０’を出力する。図８は、比較部３０６および３１０の出力値に応じた判定部３１１の出力値の一例を示す図である。

選択部３１２は、判定部３１１の判定結果をアップ／ダウンカウンタ３１３〜３１６の何れかに入力する。すなわち、音声信号ＦＬ＿ｉｎおよびＲＬ＿ｉｎの判定結果をアップ／ダウンカウンタ３１３、音声信号ＦＲ＿ｉｎおよびＲＬ＿ｉｎの判定結果をアップ／ダウンカウンタ３１４、音声信号ＦＬ＿ｉｎおよびＲＲ＿ｉｎの判定結果をアップ／ダウンカウンタ３１５、音声信号ＦＲ＿ｉｎおよびＲＲ＿ｉｎの判定結果をアップ／ダウンカウンタ３１６にそれぞれ入力する。

アップ／ダウンカウンタ３１３〜３１６は、選択部３１２を介して判定部３１１から‘１’の判定結果を入力した場合に計数値を‘１’ずつ増やし、‘０’の判定結果を入力した場合に計数値を‘１’ずつ減らす。
アップ／ダウンカウンタ３１３〜３１６の計数値が、それぞれ上述したレベル係数Ｌ１〜Ｌ４になる。

上記の構成を有するレベル検出部３０によると、選択部３０１および３０２によって４通りの組み合わせの音声信号（ＦＬ＿ｉｎ，ＲＬ＿ｉｎ）、（ＦＲ＿ｉｎ，ＲＬ＿ｉｎ）、（ＦＬ＿ｉｎ，ＲＲ＿ｉｎ）、（ＦＲ＿ｉｎ，ＲＲ＿ｉｎ）が選択されて、加算部３０３および減算部３０７に入力される。これにより、各組み合わせにおける音声信号同士の和と差が算出される。

加算部３０３で算出された和の演算結果は、絶対値処理部３０４において絶対値化された後、レベル検波部３０５においてそのレベルが検出され、当該レベルが比較部３０６において基準レベルＳＬ１と比較される。
また、減算部３０７で算出された差の演算結果は、絶対値処理部３０８において絶対値化された後、レベル検波部３０９においてそのレベルが検出され、当該レベルが比較部３１０において基準レベルＳＬ２と比較される。

判定部３１１では、比較部３０６および３１０の比較結果に基づいて、音声信号の和と差のレベルが上述した条件（１）〜（３）の何れかを満たしているか判定される。この判定結果は、選択部３１２を通じて、上記４つの組み合わせごとに設けられたアップ／ダウンカウンタに入力され、その計数値を増加もしくは減少させる。これにより、アップ／ダウンカウンタ３１３〜３１６の計数値は、各組み合わせにおける音声信号の和と差が条件（１）〜（３）を満たす頻度に応じた値となる。これらは、レベル係数Ｌ１〜Ｌ４として、後述するレベル制御部４０または５０に出力される。
以上が、レベル検出部３０の説明である。

レベル制御部４０は、レベル検出部３０から検出結果として出力される音声信号ＦＬ＿ｉｎおよびＲＬ＿ｉｎのレベル係数Ｌ１と、音声信号ＦＲ＿ｉｎおよびＲＬ＿ｉｎのレベル係数Ｌ２とに応じて、音声信号ＲＬ＿ｉｎのレベルを制御する。
レベル制御部５０は、レベル検出部３０から検出結果として出力される音声信号ＦＬ＿ｉｎおよびＲＲ＿ｉｎのレベル係数Ｌ３と、音声信号ＦＲ＿ｉｎおよびＲＲ＿ｉｎのレベル係数Ｌ４とに応じて、音声信号ＲＲ＿ｉｎのレベルを制御する。

なお、レベル制御部４０および５０は、例えば、図５に示す同一符号のレベル制御部と同様な構成を有している。ただし、この場合、相関係数Ｃ１〜Ｃ４の代わりにレベル係数Ｌ１〜Ｌ４が入力される。
また、前方の２つの音声信号ＦＲ＿ｉｎおよびＦＬ＿ｉｎは、そのまま音声信号ＦＲ＿ｏｕｔおよびＦＬ＿ｏｕｔとして音声信号処理部から出力される。

ここで、上述した構成を有する図６に示す音声信号処理部の動作を説明する。

入力される４方向の音声信号のうち、前方の２つの音声信号（ＦＲ＿ｉｎ，ＦＬ＿ｉｎ）と後方の２つの音声信号（ＲＲ＿ｉｎ，ＲＬ＿ｉｎ）との和および差が、４通りの組み合わせ（ＦＬ＿ｉｎ，ＲＬ＿ｉｎ）、（ＦＲ＿ｉｎ，ＲＬ＿ｉｎ）、（ＦＬ＿ｉｎ，ＲＲ＿ｉｎ）、（ＦＲ＿ｉｎ，ＲＲ＿ｉｎ）についてそれぞれ演算される。そして、この組み合わせごとに、和と差の演算結果が条件（１）〜（３）の何れかを満たす頻度が検出されて、レベル係数Ｌ１〜Ｌ４が得られる。

条件（１）〜（３）には、それぞれ次のような意味がある。

条件（１）は、２つの音声信号の相関が比較的高い場合に成立する条件である。
すなわち、２つの音声信号の相関が高い場合、両者の和は大きくなり、差は小さくなる。したがって、和が所定レベル（ＳＬ１）より大きく、かつ、差が所定レベル（ＳＬ２）より小さくなる条件（１）の頻度が多くなるほど、２つの音声信号の相関は高くなる。

条件（２）は、２つの音声信号の全体的なレベルが比較的大きい場合に成立する条件である。
すなわち、２つの音声信号の全体的なレベルが大きくなると、相関とは別に、両者の和と差はともに大きくなる。したがって、和が所定レベル（ＳＬ１）より大きく、かつ、差が所定レベル（ＳＬ３、ただしＳＬ３＞ＳＬ２）より大きくなる条件（２）の頻度が多くなるほど、２つの音声信号の全体的なレベルは大きくなる。

条件（３）は、２つの音声信号の全体的なレベルが比較的小さい場合に成立する条件である。
すなわち、２つの音声信号の全体的なレベルが小さくなると、相関とは別に、両者の和と差はともに小さくなる。したがって、和が所定レベル（ＳＬ１）より小さく、かつ、差が所定レベル（ＳＬ２）より小さくなる条件（３）の頻度が多くなるほど、２つの音声信号の全体的なレベルは小さくなる。

そのため、レベル係数Ｌ１〜Ｌ４は、１）前方と後方の音声信号の相関が比較的高い場合、２）前方と後方の全体の音声信号レベルが大きい場合、３）前方と後方の全体の音声信号レベルが小さい場合に、その値が大きくなる。

このような性質を持つ４つのレベル係数Ｌ１〜Ｌ４は、レベル制御部４０および５０に入力される。
レベル制御部４０では、左後方の音声信号ＲＬ＿ｉｎとの前方２つの音声信号との組み合わせで得られる２つのレベル係数Ｌ１およびＬ２のうち、値の大きい方の係数を用いて左後方の音声信号ＲＬ＿ｉｎのレベルが調節され、音声信号ＲＬ＿ｏｕｔとして出力される。
レベル制御部５０では、右後方の音声信号ＲＲ＿ｉｎとの前方２つの音声信号との組み合わせで得られる２つのレベル係数Ｌ３およびＬ４のうち、値の大きい方の係数を用いて右後方の音声信号ＲＲ＿ｉｎのレベルが調節され、音声信号ＲＲ＿ｏｕｔとして出力される。

以上説明したように、本実施形態によれば、映像に近い前方の音声信号と映像から離れた後方の音声信号との和および差が演算される。そして、和の絶対値のレベルが基準レベルＳＬ１より大きくなり、かつ、差の絶対値のレベルが基準レベルＳＬ２より小さくなる条件（１）、和の絶対値のレベルが基準レベルＳＬ１より大きくなり、かつ、差の絶対値のレベルが基準レベルＳＬ３（ただしＳＬ３＞ＳＬ２）より大きくなる条件（２）、または、和の絶対値のレベルが基準レベルＳＬ１より小さくなり、かつ、差の絶対値のレベルが基準レベルＳＬ２より小さくなる条件（３）の何れかの成立頻度が高くなる場合、後方の音声信号のレベルが大きくなるように制御される。
条件（１）の成立頻度に応じて後方の音声信号のレベルを制御すると、映像との関連性が強い前方の音声信号と同一の成分が後方の音声信号に多く含まれる場合に後方の音が強調されるため、映像に合わせて効果的にサラウンド音を強調することができる。また、このレベル制御によって、映像との関連性が強い前方の音声信号と同一の成分が後方の音声信号にあまり含まれていない場合に後方の音が弱められるため、後方の音が映像への集中の妨げにならないようにすることができる。
条件（２）の成立頻度に応じて後方の音声信号のレベルを制御すると、前方および後方で全体の音声レベルが大きくなる場合に後方の音が強調されるため、サラウンド音の迫力感を一層高揚させることができる。
条件（３）の成立頻度に応じて後方の音声信号のレベルを制御すると、前方および後方で全体の音声レベルが小さくなる場合に後方の音が強調されるため、比較的レベルが小さく、映像と関連性が強い前方の音声信号の妨げにならないような環境音については常に後方から聞こえるようにできる。これにより、全体の音声レベルが小さい場合でもサラウンド効果を保つことができる。

また、本実施形態によれば、各方向からの音声レベルのバランスを変化させることによってスイートスポットを広くできる点や、頭内定位の問題を生じ難くすることができる点で、第１の実施形態と同様な効果を奏することができる。

＜第３の実施形態＞
次に、本発明の第３の実施形態について説明する。

図９は、本発明の第３の実施形態に係る音声信号処理装置の構成の一例を示す図である。
図９に示す音声信号処理装置は、相関検出部２０と、レベル検出部３０と、レベル制御部６０および７０とを有する。
なお、相関検出部２０およびレベル検出部３０は、図３および図６における同一符号と同一の構成要素である。
また、音声信号処理装置を含む音声信号記録再生装置の全体構成については、図１と同様である。

ただし、レベル検出部３０において出力されるレベル係数Ｌ１〜Ｌ４は、相関係数Ｃ１〜Ｃ４と同じ数値範囲、すなわち‘０’〜‘１’の範囲を有するものとする。

レベル制御部６０は、相関検出部２０から出力される相関係数Ｃ１およびＣ２と、レベル検出部３０から出力されるレベル係数Ｌ１およびＬ２とに応じて、音声信号ＲＬ＿ｉｎのレベルを制御する。
レベル制御部７０は、相関検出部２０から出力される相関係数Ｃ３およびＣ４と、レベル検出部３０から出力されるレベル係数Ｌ３およびＬ４とに応じて、音声信号ＲＲ＿ｉｎのレベルを制御する。

図１０は、レベル制御部６０および７０の構成の一例を示す図である。
図１０に示すレベル制御部６０は、ラッチ部６０１〜６０４と、選択部６０５と、レベル可変部６０６とを有する。
図１０に示すレベル制御部７０は、ラッチ部７０１〜７０４と、選択部７０５と、レベル可変部７０６とを有する。

ラッチ部６０１は相関係数Ｃ１、ラッチ部６０２は相関係数Ｃ２、ラッチ部６０３はレベル係数Ｌ１、ラッチ部６０４はレベル係数Ｌ２をそれぞれ保持する。
選択部６０５は、ラッチ部６０１〜６０４に保持される係数のうち、最大の値を持つ係数を選択してレベル可変部６０６に出力する。
レベル可変部６０６は、選択部６０５において選択される係数に応じて、左後方の音声信号ＲＬ＿ｉｎのレベルを可変し、音声信号ＲＬ＿ｏｕｔとして出力する。例えば、選択された相関係数もしくはレベル係数と音声信号ＲＬ＿ｉｎとを乗算することにより、この相関係数もしくはレベル係数が大きいほど音声信号ＲＬ＿ｏｕｔのレベルを大きくする。

ラッチ部７０１は相関係数Ｃ３、ラッチ部７０２は相関係数Ｃ４、ラッチ部７０３はレベル係数Ｌ３、ラッチ部７０４はレベル係数Ｌ４をそれぞれ保持する。
選択部７０５は、ラッチ部７０１〜７０４に保持される係数のうち、最大の値を持つ係数を選択してレベル可変部７０６に出力する。
レベル可変部７０６は、選択部７０５において選択される係数に応じて、右後方の音声信号ＲＲ＿ｉｎのレベルを可変し、音声信号ＲＲ＿ｏｕｔとして出力する。例えば、選択された相関係数もしくはレベル係数と音声信号ＲＲ＿ｉｎとを乗算することにより、この相関係数もしくはレベル係数が大きいほど音声信号ＲＲ＿ｏｕｔのレベルを大きくする。

上述した構成を有する図９に示す音声信号処理装置によると、左後方の音声信号ＲＬ＿ｏｕｔは、２つの相関係数Ｃ１およびＣ２と、２つのレベル係数Ｌ１およびＬ２の中で、最も大きい係数に合わせてレベル制御される。また、右後方の音声信号ＲＲ＿ｏｕｔは、２つの相関係数Ｃ３およびＣ４と、２つのレベル係数Ｌ３およびＬ４の中で、最も大きい係数に合わせてレベル制御される。
これにより、相関検出部２０の検出結果に応じたレベル制御と、レベル検出部３０の検出結果に応じたレベル制御とが並行して実施されるため、上述した２つの実施形態と同様な効果を奏することができる。

また、相関検出部２０では、音声信号の絶対レベルに依存しない波形自体の相関を検出可能であり、レベル検出部３０による条件（１）の成立頻度に応じたレベル係数に比べて、より忠実な相関検出結果が得られる。一方、レベル検出部３０では、条件（２）や（３）の成立頻度に応じたレベル制御が可能であり、相関検出部２０のみでは得られないサラウンド効果をもたらすことができる。
このような点で、相関検出部２０およびレベル検出部３０の検出結果が補完し合うため、より映像に適応した迫力のあるサラウンド音を得ること可能になる。

＜第４の実施形態＞
次に、本発明の第４の実施形態を説明する。

図１１は、本発明の第４の実施形態に係る音声信号処理装置の構成の一例を示す図である。
図１１に示す音声信号処理装置は、帯域分割部１００−１，１１０−１，１２０−１，１３０−１，１００−２，１１０−２，１２０−２，１３０−２と、相関検出部２０−１，２０−２と、レベル検出部３０−１，３０−２と、レベル制御部６０−１，７０−１，６０−２，７０−２と、加算部１４０，１５０，１６０，１７０とを有する。
なお、帯域分割部１００−１，１１０−１，１２０−１，１３０−１，１００−２，１１０−２，１２０−２，１３０−２は、本発明の帯域分割手段の一実施形態である。
加算部１４０，１５０，１６０，１７０は、本発明の合成手段の一実施形態である。
また、音声信号処理装置を含む音声信号記録再生装置の全体構成については、図１と同様である。

帯域分割部１００−１は、右前方の音声信号ＦＲ＿ｉｎから、所定の帯域、例えば４００〜４ｋＨｚ程度の範囲に存在する人間の声の帯域の信号を抽出して出力する。
また、帯域分割部１００−２は、右前方の音声信号ＦＲ＿ｉｎから、上述した声の帯域を除くオーディオ帯域（２０Ｈｚ〜２０ｋＨｚ）の信号を抽出して出力する。
すなわち、帯域分割部１００−１および１１０−１によって、右前方の音声信号ＦＲ＿ｉｎの帯域が、人間の声の帯域とそれ以外の帯域とに２分割される。

同様に、帯域分割部１１０−１および１１０−２は音声信号ＦＬ＿ｉｎ、帯域分割部１２０−１および１２０−２は音声信号ＲＬ＿ｉｎ、帯域分割部１３０−１および１３０−２は音声信号ＲＲ＿ｉｎを、それぞれ上述の２つの帯域に分割する。

相関検出部２０−１、レベル検出部３０−１、レベル制御部６０−１および７０−１は、図９における相関検出部２０、レベル検出部３０、レベル制御部６０および７０とそれぞれ同一の機能を有しており、１つの音声信号処理装置を構成している。この音声信号処理装置は、図９における音声信号ＦＲ＿ｉｎ，ＦＬ＿ｉｎ，ＲＲ＿ｉｎ，ＲＬ＿ｉｎの代わりに、帯域分割部１００−１，１１０−１，１２０−１，１３０−１から出力される人間の声の帯域の音声信号を入力し、後方の２つの音声信号のレベルを制御する。

相関検出部２０−２、レベル検出部３０−２、レベル制御部６０−２および７０−２も上記と同じように、図９における相関検出部２０、レベル検出部３０、レベル制御部６０および７０とそれぞれ同一の機能を有しており、１つの音声信号処理装置を構成している。この音声信号処理装置は、図９における音声信号ＦＲ＿ｉｎ，ＦＬ＿ｉｎ，ＲＲ＿ｉｎ，ＲＬ＿ｉｎの代わりに、帯域分割部１００−２，１１０−２，１２０−２，１３０−２から出力される人間の声以外の帯域の音声信号を入力し、後方の２つの音声信号のレベルを制御する。

加算部１４０は、帯域分割部１００−１および１００−２において分割された２つの帯域の音声信号を合成し、音声信号ＦＲ＿ｏｕｔとして出力する。
加算部１５０は、帯域分割部１１０−１および１１０−２において分割された２つの帯域の音声信号を合成し、音声信号ＦＬ＿ｏｕｔとして出力する。
加算部１６０は、レベル制御部６０−１および６０−２においてレベル制御された音声信号を合成し、音声信号ＲＬ＿ｏｕｔとして出力する。
加算部１７０は、レベル制御部７０−１および７０−２においてレベル制御された音声信号を合成し、音声信号ＲＲ＿ｏｕｔとして出力する。

上述した構成を有する図１１に示す音声信号処理装置によれば、４方向の音声信号がそれぞれ人の声の帯域の信号とそれ以外の帯域の信号とに分割され、分割された帯域ごとに、その帯域内の音声信号に対して図９に示す音声信号処理装置と同様な処理が施されて、後方の音声信号のレベルが制御される。そして、その処理結果の信号が、再び帯域ごとに合成され、４方向の音声信号として出力される。
このように、例えば人の声の帯域とそれ以外の帯域など、性質の異なる信号が存在する帯域を分離して個別に処理することにより、それぞれに適切なレベル制御を行うことが可能になる。例えば、映像との関連性が強い人の声を環境音に比べてより強調する等の制御が可能になる。これにより、映像に適合してより効果的にサラウンド音を強調することが可能になる。

なお、図１１に示す音声信号装置では帯域を２分割しているが、この分割数は任意であり、更に分割数を増やしても良い。

＜第５の実施形態＞
次に、本発明の第５の実施形態を説明する。

図１２は、本発明の第５の実施形態の構成の一例を示す図である。
図１２に示す音声信号処理装置は、図９に示す音声信号処理装置と同様の構成を有するとともに、レベル制御部８０および９０を有する。
音声信号処理装置を含む音声信号記録再生装置の全体構成については、図１と同様である。

レベル制御部８０は、左前方の音声信号ＦＬ＿ｉｎのレベル制御を行うブロックであり、レベル制御部６０と同様の制御を行う。すなわち、相関検出部２０から出力される相関係数Ｃ１およびＣ２と、レベル検出部３０から出力されるレベル係数Ｌ１およびＬ２とに応じて、音声信号ＦＬ＿ｉｎのレベルを制御する。
レベル制御部８０は、例えば図１０に示すレベル制御部６０と同様の構成を有するが、レベル可変部６０６を、乗算器で構成するのではなく、可変増幅器により構成するところが相違している。つまり選択部６０５により選択された相関係数、もしくはレベル係数が０の時には、一例で前記増幅器のゲインを０ｄＢ、１の時には、所定ゲインを有するように可変すれば、前記係数変化にともなって音声信号ＦＬ＿ｉｎのレベルを制御することができる。

レベル制御部９０は、右前方の音声信号ＦＲ＿ｉｎのレベル制御を行うブロックであり、レベル制御部７０と同様の制御を行う。すなわち、相関検出部２０から出力される相関係数Ｃ３およびＣ４と、レベル検出部３０から出力されるレベル係数Ｌ３およびＬ４とに応じて、音声信号ＦＲ＿ｉｎのレベルを制御する。
レベル制御部９０は、例えば図１０に示すレベル制御部７０と同様の構成を有するが、レベル可変部７０６を、乗算器で構成するのではなく、可変増幅器により構成するところが相違している。つまり選択部７０５により選択された相関係数、もしくはレベル係数が０の時には、一例で前記増幅器のゲインを０ｄＢ、１の時には、所定ゲインを有するように可変すれば、前記係数変化にともなって音声信号ＦＲ＿ｉｎのレベルを制御することができる。

上記の構成によれば、後方の音声信号のレベル制御と同様な条件によって前方の信号レベルの制御が行われる。これにより、後方音声とともに前方音声のレベルも増大されるために、よりサラウンド音場の迫力感を更に増すことができる。

＜第６の実施形態＞
次に、本発明の第６の実施形態を説明する。

本実施形態に係る音声信号処理装置は、先に述べた各実施形態の相関検出部において、相関の検出対象となる前方と後方の音声信号に所定の遅延時間差を与えてから相関の検出を行うものである。図１３は、その相関検出部の構成の一例を示す図である。

図１３に示す相関検出部は、図４に示す相関検出部と同様の構成を有するとともに、遅延部２１２および２１３を有する。
遅延部２１２は、選択部２０１から相関係数算出部２０５および低入力検出部２０３へ入力される音声信号に、所定の遅延を与える。
遅延部２１３は、選択部２０２から相関係数算出部２０５および低入力検出部２０３に入力される音声信号に、遅延部２１２とは異なる所定の遅延を与える。

上記の構成によると、遅延部２１２および２１３の遅延差によって、相関検出の対象となる前方と後方の音声信号に所定の遅延差が生じる。これにより、前後方向に移動する物体の音について相関検出を行うことが可能になる。例えば、前後方向に走行する車や、上空を移動する飛行機などの移動音について、前方もしくは後方に音源があるときから相関検出を行えるようになるため、結果としてレベル制御のタイミングを前方側もしくは後方側に移動させることができ、サラウンド音の迫力感を映像に合わせて一層高揚させることができる。

以上、本発明の幾つかの実施形態について説明したが、本発明はこれらの形態のみに限定されるものではなく、種々のバリエーションを含んでいる。

本発明は、例えば図１に示すように記録再生装置の再生動作時や記録動作時に音声信号処理を行う装置として実現しても良いし、あるいは、音声ファイルの変換時、ＤＶＤの書き込み時などに音声信号処理を行うコンピュータプログラムとして実現しても良い。

図１４は、プログラムに基づいて処理を実行するコンピュータの一例を示し、図１５は、上述の実施形態と同様な音声信号処理を実行するコンピュータプログラムのフローチャートの一例を示す図である。

図１４に示すコンピュータは、マイクロプロセッサ１８１と、ハードディスク等の不揮発性の記憶装置１８２と、ＲＡＭ１８３と、入出力装置１８４とを有する。
音声信号処理プログラムとその処理対象の音声信号のデータは、入出力装置１８４を介してコンピュータに入力され、記憶装置１８２に書き込まれる。図示しないユーザインターフェース装置を介してユーザの実行指示が入力されると、記憶装置１８２に格納されるプログラムがＲＡＭ１８３にロードされ、マイクロプロセッサ１８１によって実行される。

まず、記憶装置１８２に格納された音声信号が時間順に読み出され（ステップＳＴ１）、これに上述した実施形態において説明した相関性検出部やレベル検出部と同様の処理が施されて、相関係数やレベル係数が求められる（ステップＳＴ２）。そして、この得られた係数に基づいて音声信号のレベルが新たに算出されて（ステップＳＴ３）、記憶装置１８２に書き込まれる。こうした処理が反復されることにより、元の音声信号に上述した実施形態と同様な信号処理を施すことが可能である。

また、上述した実施形態では右前方、左前方、右後方、左後方の４チャンネルの音声信号を処理する例を挙げているが、これに限らず、更にチャンネル数を増やしても同様な処理は実施可能である。特に映像方向に一致する、前方正面方向からの音声信号がある場合には、右前方及び左前方からの音声信号の代わりにこれを演算に使用することもできる。

上述した実施形態では、前方と後方の音声信号の相関や、前方と後方の全体的音声レベルなどに応じて音声信号のレベル制御を行っているが、本発明はこうした例に限られるものではない。すなわち、上述した相関検出部やレベル検出部を用いて、更に別の条件によりレベル制御を行うことも可能である。
例えば、意図的に映像とは無関係な（前方音と相関性のない）後方音だけを強調することで、意外性を演出するようにしても良い。また、レベル検出部を用いる場合には、上述した条件（１）〜（３）の幾つかを省略しても良いし、これに別の条件を付加しても良い。

第２の実施形態では、異なる方向の音声信号の和と差が所定のレベルを超える頻度に応じて、その信号レベルを制御する例を示しているが、本発明はこれに限定されない。例えば、上述した和と差の演算を行わずに、特定の方向において出力される音声信号のレベルがそれ自体で所定のレベルを超える頻度に応じて、その音声信号のレベルを制御するようにしても良い。
これにより、映像の方向を基準とした幾つかの所定の方向から出力される音声が一定レベルを頻繁に超える場合とそうでない場合とで、その音声に強弱の変化を与えることが可能になるため、映像に合わせた適切なサラウンド音の強調を実現することが可能になる。
また、音声信号の和と差を両方演算するのではなく、和または差の一方のみを演算して、その演算結果が所定のレベルを超える頻度に応じてレベル制御を行っても良い。

本発明の実施形態に係る音声信号記録再生装置の構成の一例を示す図である。マイクロフォンの指向性の一例を示す図である。第１の実施形態に係る音声信号処理装置の構成の一例を示す図である。図３に示す音声信号処理装置における、相関検出部の構成の一例を示す図である。図３に示す音声信号処理装置における、レベル制御部の構成の一例を示す図である。第２の実施形態に係る音声信号処理装置の構成の一例を示す図である。図６に示す音声信号処理装置における、レベル検出部の構成の一例を示す図である。比較部の出力値に応じた判定部の出力値の一例を示す図である。第３の実施形態に係る音声信号処理装置の構成の一例を示す図である。図９に示す音声信号処理装置における、レベル制御部の構成の一例を示す図である。第４の実施形態に係る音声信号処理装置の構成の一例を示す図である。第５の実施形態に係る音声信号処理装置の構成の一例を示す図である。第６の実施形態に係る音声信号処理装置における、相関検出部の構成の一例を示す図である。本発明の実施形態に係るプログラムを実行するコンピュータの構成の一例を示す図である。本発明の実施形態に係るプログラムのフローチャートの一例を示す図である。

符号の説明

１〜４…マイクロフォン、５〜８…増幅回路、９，１４…音声信号処理装置、１０…エンコーダ、１１…記録再生切り替え部、１２…記録再生装置、１３…デコーダ、２０，２０−１，２０−２…相関検出部、３０，３０−１，３０−２…レベル検出部、４０，５０，６０，６０−１，６０−２，７０，７０−１，７０−２，８０，９０…レベル制御部、２０１，２０２，２０７，３０１，３０２，３１２，４０３，５０３，６０５，７０５…選択部、２０３…低入力検出部、２０４…特異点処理部、２０５…相関係数算出部、２０６…絶対値処理部、２０８〜２１１…フィルタ部、２１２，２１３…遅延部、３０３，１４０，１５０，１６０，１７０…加算部、３０７…減算部、３０４，３０８…絶対値処理部、３０５，３０９…レベル検波部、３０６，３１０…比較部、３１１…判定部、３１３〜３１６…アップ／ダウンカウンタ、４０１，４０２，５０１，５０２，６０１〜６０４，７０１〜７０４…ラッチ部、４０４，５０４，６０６，７０６…レベル可変部、１００−１，１１０−１，１２０−１，１３０−１，１００−２，１１０−２，１２０−２，１３０−２…帯域分割部、１８１…マイクロプロセッサ、１８２…記憶装置、１８３…ＲＡＭ、１８４…入出力装置

Claims

映像とともに収録、または再生されるサラウンド音の複数の音声信号を処理する音声信号処理装置であって、
上記サラウンド音の聴取位置から見た上記映像の方向を基準とする所定の複数の方向のうち、上記映像に最も近い方向を含む少なくとも１つの第１の方向における第１の音声信号と、上記第１の方向に比べて上記映像と離れた少なくとも１つの第２の方向からの第２の音声信号とを和と差の演算を行い、当該和を第１のレベルと比較し、上記差を第２のレベルと該第２のレベルより大きい第３のレベルと比較し、比較結果から規定される区間に存在する頻度を検出する検出手段と、
上記検出手段の検出結果に応じて、当該検出の対象となった少なくとも１つの音声信号のレベルを制御するレベル制御手段と、
を有する音声信号処理装置。
上記検出手段は、上記第１の音声信号および上記第２の音声信号の信号レベルの和と差を演算し、上記和が上記第１のレベルより大きくなり、かつ、上記差が上記第２のレベルより小さくなる第１の頻度を検出し、
上記レベル制御手段は、上記第１の頻度が高くなる場合に、少なくとも上記第２の音声信号のレベルを大きくする、
請求項１に記載の音声信号処理装置。
上記検出手段は、上記第１の音声信号および上記第２の音声信号の信号レベルの和と差を演算し、上記和が上記第１のレベルより大きくなり、かつ、上記差が上記第２のレベルより大きく設定される上記第３のレベルより大きくなる第２の頻度を検出し、
上記レベル制御手段は、上記第２の頻度が高くなる場合に、少なくとも上記第２の音声信号のレベルを大きくする、
請求項１に記載の音声信号処理装置。
上記検出手段は、上記第１の音声信号および上記第２の音声信号の信号レベルの和と差を演算し、上記和が上記第１のレベルより小さくなり、かつ、上記差が上記第２のレベルより小さくなる第３の頻度を検出し、
上記レベル制御手段は、上記第３の頻度が高くなる場合に、少なくとも上記第２の音声信号のレベルを大きくする、
請求項１に記載の音声信号処理装置。
映像とともに収録、または再生されるサラウンド音の複数の音声信号を処理する音声信号処理装置であって、
上記複数の音声信号の少なくとも一部を、複数の帯域の音声信号に分割する帯域分割手段と、
上記帯域分割手段において分割された帯域ごとに、帯域内の音声信号に対して、上記サラウンド音の聴取位置から見た上記映像の方向を基準とする所定の複数の方向のうち、少なくとも１組の方向における音声信号の相関を検出する、および／または、上記複数の方向のうち、少なくとも１つの方向からの音声信号のレベルが所定のレベルを超える頻度を検出する検出手段と、
上記検出手段の検出結果に応じて、当該検出の対象となった少なくとも１つのレベル制御された音声信号を、帯域ごとに合成する合成手段と
を有する音声信号処理装置。
映像とともに収録、または再生されるサラウンド音の複数の音声信号を処理する音声信号処理装置であって、
上記サラウンド音の聴取位置から見た上記映像の方向を基準とする所定の複数の方向のうち、少なくとも１組の方向における音声信号の相関を検出する、および／または、上記複数の方向のうち、少なくとも１つの方向からの音声信号のレベルが所定のレベルを超える頻度を検出する検出手段と、
上記検出手段の検出結果に応じて、当該検出の対象となった少なくとも１つの音声信号のレベルを制御するレベル制御手段と、
を有し、
上記検出手段は、上記相関の検出対象の音声信号に所定の遅延時間差を与えてから、上記相関の検出を行う、
音声信号処理装置。
映像とともに収録、または再生されるサラウンド音の複数の音声信号の記録と再生を行う音声信号記録再生装置であって、
上記複数の音声信号の少なくとも一部を、複数の帯域の音声信号に分割する帯域分割手段と、
上記帯域分割手段において分割された帯域ごとに、帯域内の音声信号に対して、上記サラウンド音の聴取位置から見た上記映像の方向を基準とする所定の複数の方向のうち、少なくとも１組の方向における音声信号の相関を検出する、および／または、上記複数の方向のうち、少なくとも１つの方向からの音声信号のレベルが所定のレベルを超える頻度を検出する検出手段と、
上記検出手段の検出結果に応じて、当該検出の対象となった少なくとも１つの音声信号のレベルを制御するレベル制御手段と、
上記レベル制御手段においてレベル制御された音声信号を、帯域ごとに合成する合成手段を有し、
上記合成手段において合成された少なくとも１つの音声信号を記録する、および／または再生する、
音声信号記録再生装置。
映像とともに収録、または再生されるサラウンド音の複数の音声信号を処理する音声信号処理方法であって、
上記サラウンド音の聴取位置から見た上記映像の方向を基準とする所定の複数の方向のうち、上記映像に最も近い方向を含む少なくとも１つの第１の方向における第１の音声信号と、上記第１の方向に比べて上記映像と離れた少なくとも１つの第２の方向からの第２の音声信号とを和と差の演算を行い、当該和を第１のレベルと比較し、上記差を第２のレベルと該第２のレベルより大きい第３のレベルと比較し、比較結果から規定される区間に存在する頻度を検出する第１の工程と、
上記第１の工程の検出結果に応じて、当該検出の対象となった少なくとも１つの音声信号のレベルを制御する第２の工程と、
を有する音声信号処理方法。
映像とともに収録、または再生されるサラウンド音の複数の音声信号を処理する音声信号処理方法であって、
上記複数の音声信号の少なくとも一部を、複数の帯域の音声信号に分割する第１の工程と、
上記分割された帯域ごとに、帯域内の音声信号に対して、上記サラウンド音の聴取位置から見た上記映像の方向を基準とする所定の複数の方向のうち、少なくとも１組の方向における音声信号の相関を検出する、および／または、上記複数の方向のうち、少なくとも１つの方向からの音声信号のレベルが所定のレベルを超える頻度を検出する第２の工程と、
上記頻度の検出結果に応じて、当該検出の対象となった少なくとも１つの音声信号のレベルを制御する第３の工程と、
上記レベル制御された音声信号を、帯域ごとに合成する第４の工程と
を有する音声信号処理方法。
映像とともに収録、または再生されるサラウンド音の複数の音声信号をコンピュータに処理させるプログラムであって、
上記サラウンド音の聴取位置から見た上記映像の方向を基準とする所定の複数の方向のうち、上記映像に最も近い方向を含む少なくとも１つの第１の方向における第１の音声信号と、上記第１の方向に比べて上記映像と離れた少なくとも１つの第２の方向からの第２の音声信号とを和と差の演算を行い、当該和を第１のレベルと比較し、上記差を第２のレベルと該第２のレベルより大きい第３のレベルと比較し、比較結果から規定される区間に存在する頻度を検出する第１の手順と、
上記第１の工程の検出結果に応じて、当該検出の対象となった少なくとも１つの音声信号のレベルを制御する第２の手順と、
を有するプログラム。
映像とともに収録、または再生されるサラウンド音の複数の音声信号をコンピュータに処理させるプログラムであって、
上記サラウンド音の聴取位置から見た上記映像の方向を基準とする所定の複数の方向のうち、複数の音声信号の少なくとも一部を、複数の帯域の音声信号に分割する第１の手順と、
上記分割された帯域ごとに、帯域内の音声信号に対して、上記サラウンド音の聴取位置から見た上記映像の方向を基準とする所定の複数の方向のうち、少なくとも１組の方向における音声信号の相関を検出する、および／または、上記複数の方向のうち、少なくとも１つの方向からの音声信号のレベルが所定のレベルを超える頻度を検出する第２の手順と、
上記頻度の検出結果に応じて、当該検出の対象となった少なくとも１つの音声信号のレベルを制御する第３の手順と、
上記レベルが制御された音声信号を、帯域ごとに合成する第４の手順と
を有するプログラム。