JP2009193031A

JP2009193031A - 音声信号変換装置、音声信号変換方法、制御プログラム、および、コンピュータ読み取り可能な記録媒体

Info

Publication number: JP2009193031A
Application number: JP2008036589A
Authority: JP
Inventors: Osamu Fujii; 修藤井
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2008-02-18
Filing date: 2008-02-18
Publication date: 2009-08-27
Anticipated expiration: 2028-02-18
Also published as: JP5202021B2

Abstract

【課題】人の声を聴き取り易くすることや臨場感を高めることを可能とする音声信号変換装置を実現する。
【解決手段】本発明に係る音声信号変換装置１は、右チャンネルに対応する右側音声信号および左チャンネルに対応する左側音声信号を、中央チャンネルに対応する中央定位音声出力信号、上記右チャンネルに対応する右側音声出力信号、および上記左チャンネルに対応する左側音声出力信号に変換する。共通成分抽出部３は、上記右側音声信号および上記左側音声信号に共通に含まれる共通成分を抽出し、逆変換部５は、共通成分から上記中央音声出力信号を生成する。また、乗算部４は、上記右側音声信号および左側音声信号から上記共通成分をそれぞれ減算して算出された成分を低減し、また、逆変換部５は、上記右側音声出力信号および上記左側音声出力信号の時間信号を生成する。
【選択図】図１

Description

本発明は、テレビ受信装置などに設けられ、放送中の番組などの音声を強調する音声信号変換装置、音声信号変換方法、制御プログラム、および、コンピュータ読み取り可能な記録媒体に関するものである。

オーディオ再生技術の進歩に伴い、専用のリスニングルームにおけるＨｉＦｉ（High Fidelity:高忠実度）オーディオによる大音量での音楽再生や、マルチチャンネルのホームシアターシステムによるサラウンド再生などにより、ユーザは、自宅に居ながらにして、コンサートホールや映画館と同様の自然な残響音や臨場感を楽しむことができる。

これに対し、通常、テレビ放送などのコンテンツを視聴する場合、視聴者はリビングや台所などにおいて、小さい音量で視聴することが多い。そして、このような小さい音量でテレビを視聴する場合などにおいても、台詞など人の声が正確に認識できることや、高い臨場感が要求される。

しかしながら、聴覚の衰えた高齢者などと一緒にテレビ放送を視聴する場合には、通常よりも大きな音量で視聴することになるが、人の声以外の騒音や効果音まで大きくなるため、通常の聴覚を持つ人にとっては、人の声が聴き取り難くなり、煩わしく感じることがある。したがって、リビングなどにおいて通常よりも大きな音量で視聴する場合、音声（人の声）を聞き取り易くするため、騒音や効果音については強調されないことが望ましい。

そのため、放送中、または、再生中のコンテンツについて、状況に応じて、音声（人の声）を強調して、騒音や音楽などを抑制したり、あるいは、反対に、臨場感を向上させるために音楽や効果音などを強調したりする必要がある。

特許文献１には、ＶＴＲやテープレコーダーなどの音声再生装置に適用され、人の声を聴き易くすることができる音声強調回路が開示されている。特許文献１に記載の音声強調回路は、左及び右音声信号Ｌ、Ｒの和音声信号Ｌ＋Ｒの中域成分を増幅する中域抜き出し増幅器と、左及び右音声信号Ｌ、Ｒに中域抜き出し増幅器の出力を加算する左及び右加算器とを有している。

特許文献１に記載の音声強調回路によれば、左及び右音声信号Ｌ、Ｒに、その和音声信号Ｌ＋Ｒの中域成分の増幅されたものが加算されるので、左及び右音声を再生して聴取した場合、中央の人の声が聴き易くなる。

また、特許文献２には、オーディオ信号再生装置のボーカル音帯域強調回路が開示されている。特許文献２に記載のボーカル音帯域強調回路は、左右チャンネル信号から同相成分を取り出す同相成分抽出回路と、同相成分からボーカル音帯域を抽出するバンドパスフィルタと、ボーカル音帯域から所定の周波数成分を吸収減衰させるノッチフィルタと、ノッチフィルタからの出力信号を増幅する自動レベルコントロール回路と、その増幅レベルを制御するマイクロコンピュータと、自動レベルコントロール回路からの増幅された出力信号と左右チャンネル信号とを合成して、ボーカル音帯域強調左右チャンネル信号として出力する第１、第２の合成回路とを備えている。

特許文献２に記載のオーディオ信号再生装置のボーカル音帯域強調回路は、同相成分抽出回路において左右チャンネル信号を加算している。そして、加算された信号をバンドパスフィルタによりボーカル音帯域を抽出し、ノッチフィルタにより所定（約１ｋＨｚ）の周波数成分を吸収減衰した後、さらに自動レベルコントロールで増幅し、左右チャンネル信号と合成する構成である。

特許文献１に記載の音声強調回路と特許文献２に記載のボーカル音帯域強調回路は、いずれも、右チャンネルと左チャンネルとの２チャンネルの入力信号を加算した信号のボーカル音帯域成分（中域成分）を抽出して増幅し、左右チャンネルの入力信号に加算することによって、人の声を強調するものである。

ところで、２チャンネルのオーディオ信号に対し、所定の処理を施してサラウンドスピーカを含む複数のスピーカから再生する場合に、音質を変えずに音像を広げることができるようにしたオーディオ装置が特許文献３に開示されている。特許文献３に記載されているオーディオ装置は、左右チャンネルのスペクトル分析を行って左右共通スペクトル成分を抽出し、共通スペクトル成分を基にフロントチャンネルとサラウンドチャンネルの波形を生成することにより広がり感のある音響空間を得る。

より具体的には、特許文献３に記載のオーディオ装置は、左右チャンネルに共通して含まれるスペクトル成分（共通成分）を算出し、共通成分を用いて２チャンネルの入力信号を４チャンネル（フロントチャンネルとサラウンドチャンネル）の信号に分離するための分離係数を算出する。そして、入力信号のスペクトルを、分離係数を用いてフロントスペクトルとサラウンドスペクトルに分離し、それらを逆フーリエ変換することによって、フロントチャンネルとサラウンドチャンネルの波形を求める。
特開平５−１１５１００（１９９３年５月７日公開）特開２００５−８６４６２（２００５年３月３１日公開）特開平１１−１１３０９７（１９９９年４月２３日公開）

しかしながら、特許文献１、２に記載の構成、すなわち、右チャンネルと左チャンネルとの２チャンネルの入力信号を加算した信号のボーカル音帯域成分（中域成分）を抽出して増幅し、左右チャンネルの入力信号に加算する構成では、中域の周波数帯域に含まれる全ての音が強調されるため、人の声以外の雑音や音楽なども強調されることになる。

より詳細に説明すれば、次のとおりである。右チャンネルの信号のスペクトルＲと左チャンネルの信号のスペクトルＬとの共通成分をＣとすると、Ｒ＝Ｃ＋Ｒ’、Ｌ＝Ｃ＋Ｌ’と表される。また、Ｒ’はＲとＣとの差であり、Ｌ’はＬとＣとの差である。ここで、共通成分Ｃは、主として、中央に定位するボーカルやセリフなどの人の声に対応する成分である。また、Ｒ’およびＬ’は、人の声以外の周囲の音（雑音や背景音楽、効果音など）に対応する成分である。

特許文献１、２に記載の構成では、右チャンネルの信号と左チャンネルの信号とが加算された信号の中域成分が増幅される。ここで、加算された信号のスペクトル成分はＬ＋Ｒ（＝２Ｃ＋Ｌ’＋Ｒ’）と表され、その中域では増幅によって値が増大する。この場合、共通成分Ｃだけではなく、Ｒ’およびＬ’についても増大することになる。つまり、人の声に対応する共通成分Ｃのみならず、周囲の音に対応するＲ’とＬ’との両方が増大するため、人の声を強調したい場合において、周囲の音も強調されてしまい、必ずしも人の声を聴き取り易くすることはできないという問題がある。

本発明は、上記の問題点に鑑みてなされたものであり、その第１の目的は、放送中や再生中の番組などにおいて、周囲の音、すなわち、人の声以外の音を抑制できるようにして、人の声を聴き取り易くすることができる３ｃｈの音声出力を実現するための音声信号変換装置、音声信号変換方法、制御プログラム、および、コンピュータ読み取り可能な記録媒体を提供することにある。また、本発明の第２の目的は、放送中や再生中の番組などにおいて、人の声を抑制できるようにして、効果音や背景音楽などを強調し、臨場感を向上させることができる３ｃｈの音声出力を実現するための音声信号変換装置、音声信号変換方法、制御プログラム、および、コンピュータ読み取り可能な記録媒体を提供することにある。

本発明に係る音声信号変換装置は、上記の課題を解決するために、右チャンネルに対応する右側音声信号および左チャンネルに対応する左側音声信号を、中央チャンネルに対応する中央音声出力信号、上記右チャンネルに対応する右側音声出力信号、および上記左チャンネルに対応する左側音声出力信号に変換する音声信号変換装置であって、上記右側音声信号および上記左側音声信号に共通に含まれる共通成分を抽出する共通成分抽出手段と、上記共通成分から上記中央音声出力信号を生成する中央音声出力信号生成手段と、上記右側音声信号および左側音声信号から上記共通成分をそれぞれ減算することによって、上記右側音声出力信号および上記左側音声出力信号を生成する左右音声出力信号生成手段とを備えていることを特徴としている。

上記の構成によれば、本発明に係る音声信号変換装置は、右チャンネルに対応する右側音声信号および左チャンネルに対応する左側音声信号を、中央チャンネルに対応する中央音声出力信号、上記右チャンネルに対応する右側音声出力信号、および上記左チャンネルに対応する左側音声出力信号に変換する。つまり、本発明に係る音声信号変換装置は、２チャンネルの音声入力信号を、３チャンネルの音声出力信号に変換する。２チャンネルの音声入力信号としては、例えば、テレビ放送におけるステレオ音声信号などがある。

また、上記の構成によれば、共通成分抽出手段が、上記右側音声信号および上記左側音声信号に共通に含まれる共通成分を抽出する。共通成分とは、右側音声信号のスペクトルと左側音声信号のスペクトルとに共通して含まれるスペクトル成分である。つまり、共通成分とは、全ての周波数帯域において、右側音声信号のスペクトルと左側音声信号のスペクトルのうち、絶対値が小さい方のスペクトル成分を抽出したものである。

また、上記の構成によれば、中央音声出力信号生成手段が、上記共通成分から上記中央音声出力信号を生成する。中央音声出力信号生成手段は、例えば、高速フーリエ変換（ＦＦＴ；Fast Fourier Transform）によって周波数領域におけるスペクトル情報である共通成分を、時間領域の信号波形である中央音声出力信号に変換することができる。なお、中央音声出力信号生成手段は、離散フーリエ変換（ＤＦＴ；Discrete Fourier Transform）や修正離散コサイン変換（ＭＤＣＴ；Modified Discrete Cosine Transform）などによって中央音声出力信号を生成する構成であってもよく、特に限定はされない。

また、上記の構成によれば、左右音声出力信号生成手段が、上記右側音声信号および左側音声信号から上記共通成分をそれぞれ減算することによって、上記右側音声出力信号および上記左側音声出力信号を生成する。左右音声出力信号生成手段は、例えば、右側音声信号のスペクトルから共通成分を減算して得られるスペクトルに対してＦＦＴなどを施すことにより、上記右側音声出力信号を生成できる。同様にして、左右音声出力信号生成手段は、左側音声信号から共通成分を減算することによって左側音声出力信号を生成できる。

これにより、本発明に係る音声信号変換装置によれば、人の声と周囲の音とがミックスされた２チャンネルの音声信号から、主に人の声を表す音声信号（共通成分に対応）の１つのチャンネルと、周囲の音を表す音声信号（左右のスペクトル成分から共通成分を減算した成分に対応）の２つのチャンネルとの３チャンネルの音声信号を生成できる。つまり、人の声の音声信号と周囲の音の音声信号とを分離できる。ここで周囲の音とは、ドラマでの効果音や、スポーツ中継の歓声、背景音楽、家庭及び自然騒音等、人の声以外の音を指す。

したがって、人の声を表す音声信号と、周囲の音を表す音声信号とを独立して調整することが可能となる。つまり、人の声を表す音声信号と周囲の音を表す音声信号とのレベルバランスを調整できるようになる。

本発明に係る音声信号変換方法は、右チャンネルに対応する右側音声信号および左チャンネルに対応する左側音声信号を、中央チャンネルに対応する中央音声出力信号、上記右チャンネルに対応する右側音声出力信号、および上記左チャンネルに対応する左側音声出力信号に変換する音声信号変換方法であって、上記右側音声信号および上記左側音声信号に共通に含まれる共通成分を抽出する共通成分抽出ステップと、上記共通成分から上記中央音声出力信号を生成する中央音声出力信号生成ステップと、上記右側音声信号および左側音声信号から上記共通成分をそれぞれ減算することによって、上記右側音声出力信号および上記左側音声出力信号を生成する左右音声出力信号生成ステップとを含んでいることを特徴としている。

上記の構成によれば、本発明に係る音声信号変換装置と同様の作用効果を奏する。

本発明に係る音声信号変換装置では、上記右側音声出力信号および上記左側音声出力信号の全成分の値をそれぞれ低減させる左右成分低減手段をさらに備えていることが好ましい。

上記の構成によれば、左右成分低減手段は、右側音声出力信号および左側音声出力信号の全成分の値を低減させる。すなわち、左右成分低減手段は、上記減算後の右側音声信号および左側音声信号を低減して出力する。ここで、左右成分低減手段は、例えば、上記減算後の右側音声信号および左側音声信号のスペクトル成分に１未満の乗数を乗じたものに、逆ＦＦＴなどを施す構成であってもよいし、上記減算後の右側音声信号および左側音声信号のスペクトル成分に逆ＦＦＴなどを施して時間波形を表す音声信号に変換した後、減衰器によって減衰させる構成であってもよく、特に限定はされない。

これにより、３チャンネルの出力信号のうち、中央音声出力信号は、全成分の値が低減されることなくセンターチャンネルに出力され、右側音声出力信号、および、左側音声出力信号は、全成分の値が低減されて、右チャンネル、および、左チャンネルに出力される。

したがって、右側音声出力信号、および、左側音声出力信号によって表される周囲の音が低減されて、中央音声出力信号によって表される人の声が強調されるため、特に小さい音量で番組を視聴する場合において、人の声の聴き取り易さを向上させることができる。

本発明に係る音声信号変換装置では、上記左右成分低減手段は、上記右側音声出力信号および上記左側音声出力信号の全成分の値をゼロにすることが好ましい。

上記の構成によれば、左右成分低減手段は、右側音声出力信号の全成分の値をゼロにする。左右成分低減手段は、例えば、右側音声信号のスペクトルから共通成分を減算して求められた全成分に対して、乗数として０を乗じることによって、右側音声出力信号を０にする。また、左右成分低減手段は、同様にして、右側音声出力信号の全成分の値を０にする。

これにより、３チャンネルの出力信号のうち、中央音声出力信号は、全成分の値が低減されることなくセンターチャンネルに出力され、右側音声出力信号、および、左側音声出力信号は、全成分の値がゼロとなって出力される。つまり、右チャンネル、および、左チャンネルに出力される音声出力信号の大きさは０となる。

したがって、主に人の声が含まれる共通成分から生成された音声信号のみに基づいて音声が出力され、周囲の音（雑音など人の声以外の音）は出力されない。そのため、例えば聴覚の衰えた高齢者がボリュームを上げた場合などであっても、雑音などの周囲の音は大きくならずに人の声のみが強調されるため、通常の聴覚をもつ人は、煩わしさをあまり感じなくなる。

本発明に係る音声信号変換装置では、上記中央音声出力信号の全成分の値を増幅する中央音声出力信号増幅手段をさらに備えていることが好ましい。

上記の構成によれば、中央音声出力信号増幅手段は、中央音声出力信号の全成分の値を増幅する。中央音声出力信号増幅手段は、中央音声出力信号を、周波数領域においてスペクトルデータを乗算して増幅する構成であってもよいし、時間領域において時間波形を直接増幅する構成であってもよく、特に限定はされない。

これにより、中央音声出力信号によって表される人の声を強調できるため、人の声の聴き取り易さを向上させることができる。しかも、全成分の値を増幅できるため、容易に人の声の聴き取り易さを向上させることができる。

本発明に係る音声信号変換装置では、上記中央音声出力信号の値を調整する中央レベル調整手段をさらに備えていることが好ましい。

中央レベル調整手段は、例えば、パラメトリックイコライザとして構成される。あるいは、中央レベル調整手段は、パラメトリックイコライザだけでなく、中心周波数やＱやゲインを調整できないフィルタと増幅器で構成されてもよい。中央レベル調整手段によれば、中央音声出力信号に含まれる特定の周波数帯域の成分のみを増幅することができる。

これにより、中央音声出力信号によって表される人の声を強調できるため、人の声の聴き取り易さを向上させることができる。しかも、中央音声出力信号の値を直接調整できるため、より細かな調整が可能となる。

本発明に係る音声信号変換装置では、上記中央レベル調整手段は、略２ｋＨｚにおいて、上記中央音声出力信号のゲインが最大となるように上記値を調整することが好ましい。これにより、人の声をより強調することが可能となる。

本発明に係る音声信号変換装置では、上記中央音声出力信号の全成分の値を低減させる中央音声出力信号低減手段をさらに備えていることが好ましい。

上記の構成によれば、中央音声出力信号低減手段は、中央音声出力信号の全成分の値を低減させる。すなわち、中央音声出力信号低減手段は、中央音声出力信号を低減して出力する。ここで、中央音声出力信号低減手段は、例えば、共通成分のスペクトル成分に１未満の乗数を乗じたものに、逆ＦＦＴなどを施す構成であってよい。あるいは、スペクトル成分に逆ＦＦＴなどを施して時間波形を表す音声信号に変換した後、減衰器によって減衰させる構成であってもよく、特に限定はされない。

これにより、３チャンネルの出力信号のうち、中央音声出力信号は、全成分の値が低減されてセンターチャンネルに出力され、右側音声出力信号、および、左側音声出力信号は、全成分の値が低減されることなく、右チャンネル、および、左チャンネルに出力される。

したがって、中央音声出力信号によって表される人の声が低減されるため、右側音声出力信号、および、左側音声出力信号によって表される周囲の音が強調されて、特に小さい音量で番組を視聴する場合において、臨場感を向上させることができる。

本発明に係る音声信号変換装置では、上記中央音声出力信号低減手段は、上記中央音声出力信号の全成分の値をゼロにすることが好ましい。

上記の構成によれば、中央音声出力信号低減手段は、中央音声出力信号の全成分の値をゼロにする。中央音声出力信号低減手段は、例えば、共通成分に０を乗じることによって、共通成分の全成分の値を０にする。

これにより、３チャンネルの出力信号のうち、中央音声出力信号は、全成分の値がゼロになってセンターチャンネルに出力され、右側音声出力信号、および、左側音声出力信号は、全成分の値が低減されることなく出力される。つまり、センターチャンネルに出力される音声出力信号の大きさは０となる。

したがって、周囲の音（雑音など人の声以外の音）のみが出力され、主に人の声が含まれる共通成分から生成された音声信号に基づいた音声は出力されず、臨場感をさらに強調させることが可能となる。

本発明に係る音声信号変換装置では、上記右側音声出力信号および上記左側音声出力信号の全成分の値をそれぞれ増幅する左右成分増幅手段をさらに備えていることが好ましい。

上記の構成によれば、左右成分増幅手段は、上記右側音声出力信号および上記左側音声出力信号の全成分の値をそれぞれ増幅する。左右成分増幅手段は、上記右側音声出力信号および上記左側音声出力信号を、周波数領域においてスペクトルデータを乗算して増幅する構成であってもよいし、時間領域において時間波形を直接増幅する構成であってもよく、特に限定はされない。
左音声出力信号または右音声出力信号によって表される周囲の音を強調できるため、臨場感を向上させることができる。しかも、全成分の値を増幅できるため、容易に臨場感を向上させることが可能となる。

本発明に係る音声信号変換装置では、上記右側音声出力信号および上記左側音声出力信号のうち、少なくとも一方の信号の値を調整するレベル調整手段をさらに備えていることが好ましい。

左右レベル調整手段は、例えば、パラメトリックイコライザとして構成される。あるいは、左右レベル調整装手段は、パラメトリックイコライザだけでなく、中心周波数やＱやゲインを調整できないフィルタと増幅器によって構成されてもよく、特に限定はされない。左右レベル調整手段によれば、右側音声出力信号および左側音声出力信号に含まれる特定の周波数帯域の成分のみを増幅することができる。

これにより、左音声出力信号または右音声出力信号によって表される周囲の音を強調できるため、臨場感を向上させることができる。しかも、左音声出力信号または右音声出力信号の値を直接調整できるため、より細かな調整が可能となる。

本発明に係る音声信号変換装置では、上記左右レベル調整手段は、略４ｋＨｚにおいて、上記右側音声出力信号と上記左側音声出力信号との少なくとも一方のゲインが最小となるように上記値を調整することが好ましい。

これにより、臨場感をより向上させることが可能となる。

本発明に係る音声信号変換装置は、右チャンネルに対応する右側音声信号および左チャンネルに対応する左側音声信号を、中央チャンネルに対応する中央音声出力信号、上記右チャンネルに対応する右側音声出力信号、および上記左チャンネルに対応する左側音声出力信号に変換する音声信号変換装置であって、上記右側音声信号の高域成分の右側音声高域信号および上記左側音声信号の高域成分の左側音声高域信号を生成する高域信号生成手段と、上記右側音声信号の低域成分の右側音声低域信号および上記左側音声信号の低域成分の左側音声低域信号を生成する低域信号生成手段と、上記右側音声高域信号および上記左側音声高域信号に共通に含まれる高域共通成分を抽出する共通成分抽出手段と、上記高域共通成分から上記中央音声出力信号を生成する共通信号生成手段と、上記右側音声高域信号および上記左側音声高域信号から上記高域共通成分をそれぞれ減算し、該減算後の上記右側音声高域信号に上記右側音声低域信号を加算し、該減算後の上記左側音声高域信号に上記左側音声低域信号を加算することによって、上記右側音声出力信号および上記左側音声出力信号を生成する音声出力信号生成手段とを備えていることを特徴としている。

上記の構成によれば、音声信号変換装置は、２チャンネルの音声入力信号を、３チャンネルの音声出力信号に変換する。そして、高域信号生成手段は、上記右側音声信号の高域成分である右側音声高域信号および上記左側音声信号の高域成分である左側音声高域信号を生成する。また、低域信号生成手段は、上記右側音声信号の低域成分である右側音声低域信号および上記左側音声信号の低域成分である左側音声低域信号を生成する。高域信号生成手段および低域信号生成手段は、それぞれが高域信号および低域信号を抽出可能なフィルタの構成であってもよいし、高域信号生成手段と低域信号生成手段のいずれか一方がフィルタであって、他方は原信号から前記フィルタによって出力される信号を減算する構成であってもよく、特に限定はされない。

また、上記の構成によれば、共通成分抽出手段は、上記右側音声高域信号および上記左側音声高域信号に共通に含まれる高域共通成分を抽出する。ここで、高域音声信号には低域の音声が含まれておらず、人の声以外の音声は除かれているため、高域共通成分としては、より厳密に人の声に対応した成分のみが抽出される。なお、高域信号生成手段および低域信号生成手段における遮断周波数は、要求される正確さに応じて設定されればよく、特に限定はされない。そして、共通信号生成手段は、例えばＦＦＴなどによって、人の声に対応した上記高域共通成分から上記中央音声出力信号を生成する。

また、上記の構成によれば、音声出力信号生成手段は、上記右側音声高域信号および上記左側音声高域信号から上記高域共通成分をそれぞれ減算する。つまり、右側音声高域信号および左側音声高域信号のうち、人の声以外、すなわち、周囲の音に対応する成分が算出される。そして、該減算後の上記右側音声高域信号に上記右側音声低域信号を加算し、該減算後の上記左側音声高域信号に上記左側音声低域信号を加算することによって、より厳密に周囲の音に対応した上記右側音声出力信号および上記左側音声出力信号を生成する。

これにより、本発明に係る音声信号変換装置によれば、人の声を表す成分と人の声以外の成分とを、より厳密に分離することが可能となる。したがって、より正確に人の声に対応する音声出力信号と周囲の音に対応する音声出力信号とが生成される。これにより、より厳密に人の声に対応する音声出力信号と周囲の音に対応する音声出力信号とのレベルバランスを変化させることができる。即ち、正確に人の声を強調したり、または、人の声以外（臨場感）を強調した再生が可能となる。

本発明に係る音声信号変換方法は、右チャンネルに対応する右側音声信号および左チャンネルに対応する左側音声信号を、中央チャンネルに対応する中央音声出力信号、上記右チャンネルに対応する右側音声出力信号、および上記左チャンネルに対応する左側音声出力信号に変換する音声信号変換方法であって、上記右側音声信号の高域成分の右側音声高域信号および上記左側音声信号の高域成分の左側音声高域信号を生成する高域信号生成ステップと、上記右側音声信号の低域成分の右側音声低域信号および上記左側音声信号の低域成分の左側音声低域信号を生成する低域信号生成ステップと、上記右側音声高域信号および上記左側音声高域信号に共通に含まれる高域共通成分を抽出する共通成分抽出ステップと、上記高域共通成分から上記中央音声出力信号を生成する共通信号生成ステップと、上記右側音声高域信号および上記左側音声高域信号から上記高域共通成分をそれぞれ減算し、該減算後の上記右側音声高域信号に上記右側音声低域信号を加算し、該減算後の上記左側音声高域信号に上記左側音声低域信号を加算することによって、上記右側音声出力信号および上記左側音声出力信号を生成する音声出力信号生成ステップとを含んでいることを特徴としている。

また、本発明に係る音声信号変換装置では、上記低域信号生成手段は、上記右側音声信号および上記左側音声信号を低域濾波して、上記右側音声低域信号および上記左側音声低域信号を生成し、上記高域信号生成手段は、上記右側音声信号および上記左側音声信号に上記低域信号生成手段と同一の遅延量を持たせ、遅延した上記右側音声信号から上記右側音声低域信号を減算し、遅延した上記左側音声信号から上記左側音声低域信号を減算して、上記右側音声高域信号および上記左側音声高域信号を生成することが好ましい。

上記の構成によれば、上記低域信号生成手段は、上記右側音声信号および上記左側音声信号を低域濾波する。一方、上記高域信号生成手段は、上記右側音声信号および上記左側音声信号を、上記低域信号生成手段の遅延時間と同じだけ遅延させる。つまり、入力された音声信号と低域信号生成手段を通過した音声信号との位相を合わせる。そして、遅延した上記右側音声信号から上記右側音声低域信号を減算し、遅延した上記左側音声信号から上記左側音声低域信号を減算して、上記右側音声高域信号および上記左側音声高域信号を生成する。

これにより、高域信号生成手段は高域濾波の機能を備えることなく高域信号を生成するため、簡素な部品を用いて、消費電力の少ない音声信号変換装置を構成することができる。

また、本発明に係る音声信号変換装置では、上記低域信号生成手段における低域濾波の遮断周波数は、略１００Ｈｚであることが好ましい。

これにより、高域共通成分として、より厳密に人の声に対応した成分を抽出することが可能となるため、より正確に人の声を強調することができるようになる。

本発明に係る音声信号変換装置では、上記高域信号生成手段は、上記右側音声信号および上記左側音声信号を高域濾波して、上記右側音声高域信号および上記左側音声高域信号を生成し、上記低域信号生成手段は、上記右側音声信号および上記左側音声信号に上記高域信号生成手段と同一の遅延量を持たせ、遅延した上記右側音声信号から上記右側音声高域信号を減算し、遅延した上記左側音声信号から上記左側音声高域信号を減算して、上記右側音声低域信号および上記左側音声低域信号を生成することが好ましい。

上記の構成によれば、上記高域信号生成手段は、上記右側音声信号および上記左側音声信号を高域濾波する。一方、上記低域信号生成手段は、上記右側音声信号および上記左側音声信号を、上記低域信号生成手段の遅延時間と同じだけ遅延させる。つまり、入力された音声信号と高域信号生成手段を通過した音声信号との位相を合わせる。そして、遅延した上記右側音声信号から上記右側音声高域信号を減算し、遅延した上記左側音声信号から上記左側音声高域信号を減算して、上記右側音声低域信号および上記左側音声低域信号を生成する。

これにより、低域信号生成手段は低域濾波の機能を備えることなく低域信号を生成するため、簡素な部品を用いて、消費電力の少ない音声信号変換装置を構成することができる。

本発明に係る音声信号変換装置では、上記高域信号生成手段における高域濾波の遮断周波数は、略１００Ｈｚであることが好ましい。

これにより、低域共通成分として、より厳密に人の声に対応した成分を抽出することが可能となるため、より正確に人の声を強調することができるようになる。

また、本発明に係る音声信号変換装置では、上記低域信号生成手段は、上記右側音声信号および上記左側音声信号を低域濾波して、上記右側音声低域信号および上記左側音声低域信号を生成し、上記高域信号生成手段は、上記右側音声信号および上記左側音声信号を高域濾波して、上記右側音声高域信号および上記左側音声高域信号を生成することが好ましい。

これにより、高域信号生成手段は高域濾波の機能を有し、低域信号生成手段は低域濾波の機能を有しているため、遅延器を有さず、少ない部品の数によって音声信号変換装置を構成することができる。

また、本発明に係る音声信号変換装置では、上記低域信号生成手段における低域濾波の遮断周波数、および、上記高域信号生成手段における高域濾波の遮断周波数は、共に略１００Ｈｚであることが好ましい。

また、本発明に係る音声信号変換装置では、上記低域信号生成手段の遅延量と上記高域信号生成手段の遅延量とは等しいことが好ましい。すなわち、入力された音声信号と低域信号生成手段を通過した音声信号との位相を合わせることが好ましい。

なお、音声信号変換装置は、コンピュータによって実現してもよい。この場合、コンピュータを上記各手段として動作させることにより上記音声信号変換装置をコンピュータにおいて実現する制御プログラム、およびその制御プログラムを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

本発明に係る音声信号変換装置は、右チャンネルに対応する右側音声信号および左チャンネルに対応する左側音声信号を、中央チャンネルに対応する中央音声出力信号、上記右チャンネルに対応する右側音声出力信号、および上記左チャンネルに対応する左側音声出力信号に変換する音声信号変換装置であって、上記右側音声信号および上記左側音声信号に共通に含まれる共通成分を抽出する共通成分抽出手段と、上記共通成分から上記中央音声出力信号を生成する中央音声出力信号生成手段と、上記右側音声信号および左側音声信号から上記共通成分をそれぞれ減算することによって、上記右側音声出力信号および上記左側音声出力信号を生成する左右音声出力信号生成手段とを備えている。

それゆえ、本発明に係る音声信号変換装置は、人の声を表す音声信号と、周囲の音を表す音声信号とを独立して調整でき、人の声を表す音声信号と周囲の音を表す音声信号とのレベルバランスを調整できるため、人の声を強調して、聴き取り易くすることができる。

また、本発明に係る音声信号変換装置は、右チャンネルに対応する右側音声信号および左チャンネルに対応する左側音声信号を、中央チャンネルに対応する中央音声出力信号、上記右チャンネルに対応する右側音声出力信号、および上記左チャンネルに対応する左側音声出力信号に変換する音声信号変換装置であって、上記右側音声信号の高域成分の右側音声高域信号および上記左側音声信号の高域成分の左側音声高域信号を生成する高域信号生成手段と、上記右側音声信号の低域成分の右側音声低域信号および上記左側音声信号の低域成分の左側音声低域信号を生成する低域信号生成手段と、上記右側音声高域信号および上記左側音声高域信号に共通に含まれる高域共通成分を抽出する共通成分抽出手段と、上記高域共通成分から上記中央音声出力信号を生成する共通信号生成手段と、上記右側音声高域信号および上記左側音声高域信号から上記高域共通成分をそれぞれ減算し、該減算後の上記右側音声高域信号に上記右側音声低域信号を加算し、該減算後の上記左側音声高域信号に上記左側音声低域信号を加算することによって、上記右側音声出力信号および上記左側音声出力信号を生成する音声出力信号生成手段とを備えている。

それゆえ、本発明に係る音声信号変換装置によれば、人の声を表す成分と人の声以外の成分とを、より厳密に分離することが可能となり、より正確に人の声に対応する音声出力信号と周囲の音に対応する音声出力信号とのレベルバランスを変化させることができるため、人の声を強調する場合において、または、人の声以外（臨場感）を強調する場合において確度を高めることができるようになる。

〔実施の形態１〕
（音声信号変換装置１）
図１は、本発明に係る音声信号変換装置１の構成を示すブロック図である。本発明に係る音声信号変換装置１は、スペクトル変換部２と共通成分抽出部３（共通成分抽出手段）と乗算部４と逆変換部５とパラメトリックイコライザ（ＰＥＱ；Parametric Equalizer）部６と減算器７、８と入力端子１２と出力端子１３とを備えている。

スペクトル変換部２は、スペクトル変換部２ａ、および２ｂを含んで構成される。乗算部４は、乗算部４ａ（左右成分低減手段、左右成分増幅手段）、乗算部４ｂ（中央音声出力信号増幅手段、中央音声出力信号低減手段）、および乗算部４ｃ（左右成分低減手段、左右成分増幅手段）を含んで構成される。逆変換部５は、逆変換部５ａ（左右音声出力信号生成手段）、逆変換部５ｂ（中央音声出力信号生成手段）、および逆変換部５ｃ（左右音声出力信号生成手段）を含んで構成される。ＰＥＱ部６は、ＰＥＱ部６ａ（左右レベル調整手段）、ＰＥＱ部６ｂ（中央レベル調整手段）、およびＰＥＱ部６ｃ（左右レベル調整手段）を含んで構成される。入力端子１２は、入力端子１２ａ、および１２ｂを含んで構成される。出力端子１３は、出力端子１３ａ、１３ｂ、および１３ｃを含んで構成される。

音声信号変換装置１は、テレビ受信装置などに実装され、放送中の番組の音声を強調する装置である。ここで、音声とは、台詞やボーカルなどの人の声を指し、人の声以外の音（例えば、周囲の雑音やＢＧＭや効果音など）と区別する。つまり、音声信号変換装置１は、放送番組中の人の声を強調する装置である。なお、音声信号と表現した場合、番組中の音声と音声以外の音も含めた全ての音を表す信号を指す。

本実施の形態では、音声信号変換装置１には、ＰＣＭ（Pulse Code Modulation）によってデジタル符号化された２チャンネルの音声信号が入力される。通常、ステレオ放送などでは、入力された２チャンネルの音声信号に基づいて、テレビに備えられている左右のスピーカに異なる音声信号が供給され、左右のスピーカからは異なる音声が出力される。

以下では、通常のステレオ放送において左右のスピーカに供給される音声信号を、それぞれ、左側音声信号（左チャンネルに対応する左側音声信号）、および右側音声信号（右チャンネルに対応する右側音声信号）と呼ぶ。右側音声信号、および、左側音声信号は、それぞれ、入力端子１２ａ、および、入力端子１２ｂを介して音声信号変換装置１に入力される。

また、本実施の形態では、音声信号変換装置１は、上記の右側音声信号と左側音声信号との２チャンネルの音声信号に基づいて、左右、および、中央の３つのスピーカを介して音声を出力する。つまり、音声信号変換装置１は、入力された２チャンネルの音声信号を、左チャンネル、右チャンネル、および、中央チャンネルの３チャンネルの音声出力信号に変換し、各スピーカに供給する構成である。

以下に、図１に示す音声信号変換装置１における音声強調の処理について説明する。

スペクトル変換部２は、各チャンネルの音声信号のスペクトルを算出するための各種の処理を行う。スペクトル変換部２について詳細に説明すれば次のとおりである。

まず、スペクトル変換部２ａは、入力端子１２ａを介して入力された右側音声信号を、１フレームあたり１０２４サンプルに分割する。音声信号のサンプリング周波数が４４．１ｋＨｚの場合、１フレームあたりの時間は、２３ｍｓ（＝（１÷４４１００）×１０２４）となる。

次に、スペクトル変換部２ａは、フレーム分割された音声信号に対し、ハニング窓などの窓関数を掛ける。窓関数を適用することにより、フレーム分割された音声信号についての周波数解析の誤差を低減できる。本実施の形態では、窓関数としてハニング窓を用いているが、ハニング窓以外の窓関数であってもよく、特に限定はされない。

次に、スペクトル変換部２ａは、フレームごとに、窓関数が適用された音声信号に対して高速フーリエ変換（ＦＦＴ：Fast Fourier Transform）を行い、時間領域の音声信号を周波数領域のデータ、すなわち、スペクトル（以下では、右側音声信号スペクトルと呼ぶ）に変換して、共通成分抽出部３と減算器７とに出力する。

ここで、右側音声信号をｘｒ（ｎ）、右側音声信号スペクトルをＸＲ（ｋ）、窓関数ｗ（ｎ）とすると、スペクトル変換部２ａは、次式によって右側音声信号スペクトルＸＲ（ｋ）を算出する。なお、ｎはサンプリング番号である。本実施の形態においては、上述したとおり、１フレームに１０２４サンプルが含まれており、スペクトル変換部２ａは１０２４ポイントのＦＦＴを行う。

本実施の形態では、音声信号から周波数スペクトルを算出するためにＦＦＴを行っているが、修正離散コサイン変換（ＭＤＣＴ：Modified Discrete Cosine Transform）によって周波数スペクトルを算出する構成であってもよく、特に限定はされない。

また、スペクトル変換部２ｂは、スペクトル変換部２ａと同様の処理により、入力端子１２ｂを介して入力された左側音声信号のスペクトル（以下では、左側音声信号スペクトルと呼ぶ）を算出し、共通成分抽出部３と減算器８とに出力する。ここで、左側音声信号をｘｌ（ｎ）、左側音声信号スペクトルをＸＬ（ｋ）、窓関数ｗ（ｎ）とすると、スペクトル変換部２ａは、次式によって左側音声信号スペクトルＸＬ（ｋ）を算出する。

共通成分抽出部３は、右側音声信号スペクトルと左側音声信号スペクトルとの共通成分を抽出する。図２は、共通成分を説明するための図であり、（ａ）は右側音声信号スペクトル（Ｒチャンネル）と左側音声信号スペクトル（Ｌチャンネル）との共通成分を示す図であり、（ｂ）は共通成分のみを示す図である。

共通成分抽出部３は、共通成分スペクトルＣ（ｋ）をＣ（ｋ）＝ＭＩＮ（ＸＬ（ｋ），ＸＲ（ｋ））によって算出し、減算器７、８、および乗算部４ｂに出力する。つまり、共通成分抽出部３は、ＸＲ（ｋ）とＸＬ（ｋ）との小さいほうのスペクトルを共通成分として抽出する。

上述したとおり、本発明の音声信号変換装置１には、ステレオ放送の番組などにおける２チャンネルの入力信号が入力される。一般的なステレオ放送の番組では、音声は音声収録用の１チャンネルマイクによって収録され、ボーカルを除くＢＧＭや効果音等は、予め左右の２つのマイク（ステレオ）で収録されている。これら３つのマイクによって録音された番組を２チャンネルでステレオ放送する場合、３チャンネルの信号を２チャンネルにダウンミックスすることになる。すなわち、音声収録用の１チャンネルマイクによって録音された人の声の音声信号は、左右の２つのマイクによって録音された周囲の音の信号とミックスされて、２チャンネルの音声信号が送出されることになる。このとき、人の声の信号と周囲の音の信号とをミックスする比率は、放送局において設定される。この場合、上記の右側音声信号は右マイク、および、音声収録用の１チャンネルマイクによって録音された音声をミックスした音声信号である。また、上記の左側音声信号は、左マイク、および、音声収録用の１チャンネルマイクによって録音された音声をミックスした音声信号である。そのため、この場合にも、人の声を表す音声信号は、左側音声信号、および、右側音声信号に共通して含まれる。なお、ボーカルを含む音楽は、同様にボーカルが、音声収録用の１チャンネルマイクによって収録され、楽器音は左右の２つのマイク（ステレオ）で収録されたのち、レコーディングエンジニアによって２チャンネルにダウンミックスされている。前述のような背景を利用してダウンミックスされた２チャンネルの音声信号を、元のダウンミックス前の３チャンネルにおおよそ復元する。ここで、おおよそとは、予め左右の２つのマイク（ステレオ）で収録された信号にも共通成分があり、完全に復元するものではないことを意味する。

つまり、共通成分抽出部３は、右側音声信号、および、左側音声信号に共通して含まれている主として人の声を表す音声信号の成分を、共通成分として抽出する。

減算器７は、スペクトル変換部２ａから出力された右側音声信号スペクトルＸＲ（ｋ）から、共通成分抽出部３から出力された共通成分スペクトルＣ（ｋ）を減算して、右成分スペクトルＸＲ’（ｋ）を算出し、乗算部４ａに出力する。つまり、減算器７は、ＸＲ’（ｋ）＝ＸＲ（ｋ）−Ｃ（ｋ）の演算を行う。

減算器８は、スペクトル変換部２ｂから出力された左側音声信号スペクトルＸＬ（ｋ）から、共通成分抽出部３から出力された共通成分スペクトルＣ（ｋ）を減算して、左成分スペクトルＸＬ’（ｋ）を算出し、乗算部４ｃに出力する。つまり、減算器８は、ＸＬ’（ｋ）＝ＸＬ（ｋ）−Ｃ（ｋ）の演算を行う。

図３は、右側音声信号スペクトル（Ｒチャンネル）、および、左側音声信号スペクトル（Ｌチャンネル）から共通成分スペクトルを除いた残りの成分を示す図であり、（ａ）は左成分スペクトルＸＬ’（ｋ）を示す図であり、（ｂ）は右成分スペクトルＸＲ’（ｋ）を示す図である。

ここで、左成分スペクトルＸＬ’（ｋ）、および、右成分スペクトルＸＲ’（ｋ）は、主として人の声以外の音（ＢＧＭや効果音や雑音などの周囲の音）を表す成分である。

乗算部４ａは、減算器７から出力されたＸＲ’（ｋ）に乗数Ｍ１（０≦Ｍ１≦１）を乗じてＸＲ”（ｋ）（＝Ｍ１×ＸＲ’（ｋ））を算出し、逆変換部５ａに出力する。また、乗算部４ｂは、共通成分抽出部３から出力されたＣ（ｋ）に乗数Ｍ２（０≦Ｍ２≦１）を乗じてＣ”（ｋ）（＝Ｍ２×Ｃ（ｋ））を算出し、逆変換部５ｂに出力する。さらに、乗算部４ｃは、減算器８から出力されたＸＬ’（ｋ）に乗数Ｍ１を乗じてＸＬ”（ｋ）（＝Ｍ１×ＸＬ’（ｋ））を算出し、逆変換部５ｃに出力する。

以下では、ＸＲ”（ｋ）、Ｃ”（ｋ）、および、ＸＬ”（ｋ）を、それぞれ、右成分出力スペクトル、共通成分出力スペクトル、および、左成分出力スペクトルと称する。

図４は、右成分出力スペクトルＸＲ”（ｋ）、および、左成分出力スペクトルＸＬ”（ｋ)を示す図であり、（ａ）は図３（ａ）に示す右成分スペクトルに乗数Ｍ１を乗じて算出された右成分出力スペクトルＸＲ”（ｋ）を示す図であり、（ｂ）は図３（ｂ）に示す左成分スペクトルに乗数Ｍ１を乗じて算出された左成分出力スペクトルＸＬ”（ｋ）を示す図である。

左成分出力スペクトルＸＬ”（ｋ）、および、右成分出力スペクトルＸＲ”（ｋ）は、周囲の音（人の声以外の音）を表す音声信号の成分である。

逆変換部５ａは、周波数領域の情報である右成分出力スペクトルＸＲ”（ｋ）を逆ＦＦＴによって時間領域の信号波形に変換して右のスピーカに出力する音声出力信号（右チャンネルに対応する右側音声出力信号）を生成し、ＰＥＱ部６ａに出力する。また、逆変換部５ｂは、逆変換部５ａと同様の処理を行い、周波数領域の情報である共通成分出力スペクトルＣ”（ｋ）を逆ＦＦＴによって時間領域の信号波形に変換して中央のスピーカに出力する音声出力信号（中央チャンネルに対応する中央音声出力信号）を生成し、ＰＥＱ部６ｂに出力する。逆変換部５ｃは、逆変換部５ｃと同様の処理を行い、周波数領域の情報である左成分出力スペクトルＸＬ”（ｋ）を逆ＦＦＴによって時間領域の信号波形に変換して左のスピーカに出力する音声出力信号（左チャンネルに対応する左側音声出力信号）を生成し、ＰＥＱ部６ｃに出力する。

なお、時間波形をＦＦＴして周波数領域に変換し、上記共通成分抽出等を行った後、逆ＦＦＴにより再度時間軸の信号波形に戻す場合、フレームのつなぎ目で発生する歪み（高調波成分）を軽減するため、ＦＦＴ処理前の時間波形の切り出しの始めと終わりの部分を、滑らかに０に近づける窓関数をかける。本実施の形態では、フレームの切り出し時間をｔとすると、切り出し時間を１／２ｔだけずらして、切り出した夫々の波形にハニング窓関数を掛け、逆ＦＦＴ後のデータに前後１／２ｔのオーバーラップを行って加算し、連続する時間波形に戻す。本実施の形態では、ハニング窓の形状にあわせて、１／２ｔのオーバーラップを行っているが、窓の形状に応じたオーバーラップ長を設定すればよく、特に限定はされない。

臨場感を高めたい場合、すなわち、周囲の音を強調したい場合、ＰＥＱ部６ａは、逆変換部５ａから出力される右チャンネルの音声出力信号に対し、等ラウドネス曲線の特性のパラメトリックイコライザを施し、出力端子１３ａを介して右チャンネルのスピーカに出力する。あるいは、乗算部４ａにおいて、減算された右側音声信号に対し、１より大きい乗数を乗じることによっても臨場感を高めることができる。

図５は、略２ｋＨｚをピークとした人の声の帯域を強調するパラメトリックイコライザの周波数特性例を示す図であり、図６は、等ラウドネス曲線に基づいて作成した略４ｋＨｚを最小値とするパラメトリックイコライザの周波数特性例を示す図である。また、図７はロビンソンらが測定した等ラウドネス曲線を示す図である。

人の声を聞こえ易くしたい場合、すなわち、人の声を強調したい場合、ＰＥＱ部６ｂは、逆変換部５ｂから出力される中央チャンネルの音声出力信号に対し、図５の如く、２ｋＨｚをピークとした音声帯域を強調するパラメトリックイコライザを施し、出力端子１３ｂを介して中央チャンネルのスピーカに出力する。あるいは、乗算部４ｂにおいて、抽出された共通成分に対し、１より大きい乗数を乗じることによっても人の声を聞こえ易くできる。

また、ＰＥＱ部６ｃは、ＰＥＱ部６ａと同様、臨場感を高めたい場合、すなわち、周囲の音を強調したい場合、逆変換部５ｃから出力される左チャンネルの音声出力信号に対し、図６の如く、等ラウドネス曲線の特性のパラメトリックイコライザを施し、出力端子１３ｃを介して左チャンネルのスピーカに出力する。あるいは、乗算部４ｃにおいて、減算された左側音声信号に対し、１より大きい乗数を乗じることによっても臨場感を高めることができる。

ここで、ラウドネスとは、人間の音の感じ方を感覚量として表した数値である。ラウドネスは、音の強度を表す物理量である音圧とは区別される。一般的に人間の聴覚は４ｋＨｚ付近（赤ちゃんの鳴き声など）において最も感度がよく、そこから低周波または高周波になるにつれ、感度が悪くなる。そのため、同じ音の大きさに聞こえた場合であっても、実際の物理的な音圧レベルは異なる。また、音圧が２倍になったとしても、人は音の大きさが２倍大きくなったと感じるわけではない。そして、等ラウドネス曲線とは、１ｋＨｚの基準音と等しいラウドネスに聞こえた他の周波数の音圧をプロットしたものであり、図７の如く、４ｋＨｚ付近において最小値をとる略Ｖ字の曲線となる。また、等ラウドネス曲線は、音圧が高くなるにつれて特性が平坦に近づくため、図６で示すパラメトリックイコライザの特性も入力音声信号の入力レベルに応じて変更することが好ましい。

また、パラメトリックイコライザは、オーディオ周波数帯域を数分割することによって、それぞれの帯域ごとに通過レベルのゲイン（１以下を含む）等を調整できるイコライザであり、「中心周波数」、「ゲイン」、「Ｑ（Quality factor）」という３つのパラメータにより、通過帯域の中心周波数や周波数帯域幅を独立に変更調節することができる。ここでＱ値とは、中心周波数のレベルから３dＢ減衰した、または増幅された周波数帯域幅（Δω）と中心周波数ω０の比Ｑ＝ω０/Δωで表される。

つまり、上述したＰＥＱ部６ａ、および、ＰＥＱ部６ｃでは、等ラウドネス曲線の特性、すなわち、４ｋＨｚにおいて通過レベルが最小となる略Ｖ字の特性を示すように「中心周波数」と「ゲイン」と「Ｑ（Quality factor）」とが設定されたイコライザが施される。

なお、本実施の形態では、２ｋＨｚをピークとした音声帯域を強調する手段として、ＰＥＱ部６ｂを使用したが、ＰＥＱ以外のフィルタと増幅器の組み合わせを用いて実現されてもよい。また、ＦＦＴ後のスペクトルに対して、乗算部４ｂを用い、２ｋＨｚをピークとする重み付けを直接行っても良い。また、周囲の音を強調する手段として、ＰＥＱ部６ａとＰＥＱ部６ｃを使用したが、ＰＥＱ以外のフィルタと増幅器の組み合わせを用いて実現されてもよい。また、ＦＦＴ後のスペクトルに対して、乗算部４ａと乗算部４ｃを用いて、等ラウドネス曲線の特性の重み付けを行っても良く、特に限定されない。

本発明に係る音声信号変換装置１では、左成分スペクトルＸＬ’（ｋ）と右成分スペクトルＸＲ’（ｋ）とに乗じる乗数Ｍ１を小さくすれば音声を強調することができる。例えば、共通成分スペクトルに乗じる乗数を１として共通成分スペクトルを生成し、右成分スペクトルと左成分スペクトルとに１未満の乗数を乗じて、左成分出力スペクトル、および右成分出力スペクトルを小さくした場合、人の声に対応する音声出力信号の大きさは変化せず、周囲の音に対応する音声出力信号のみが小さくなるため、共通成分出力スペクトル、左成分出力スペクトル、および右成分出力スペクトルから生成された各音声出力信号に基づいてスピーカから出力される音声は、人の声が強調される。また、右成分スペクトルと左成分スペクトルとに乗数として０を乗じれば、より人の声を強調できる。

一方、共通成分スペクトルの大きさを変化させることなく、左成分スペクトルＸＬ’（ｋ）と右成分スペクトルＸＲ’（ｋ）とに乗じる乗数Ｍ１を大きくすれば、周囲の音に対応する音声出力信号が大きくなり、スピーカから出力される周囲の音が大きくなるため、臨場感を高めることができる。

また、右成分スペクトルと左成分スペクトルの大きさを変化させることなく、共通成分スペクトルＣ（ｋ）に乗じる乗数を大きくすれば音声を強調することができる。一方、共通成分スペクトルＣ（ｋ）に乗じる乗数を小さくすれば臨場感を高めることができる。さらに、共通成分スペクトルに乗数として０を乗じれば、より臨場感を高めることができる。

本実施の形態では、右成分出力スペクトルＸＲ”（ｋ）、共通成分出力スペクトルＣ”（ｋ）、および、左成分出力スペクトルＸＬ”（ｋ）を算出する場合、右成分スペクトルＸＲ’（ｋ）、共通成分スペクトルＣ（ｋ）、および、左成分スペクトルＸＬ’（ｋ）に、乗数Ｍ１、Ｍ２として０〜１の間の数値を乗じる構成だが、１以上の乗数を乗じる構成であってもよく、特に限定はされない。また、左成分スペクトルＸＬ’（ｋ）と右成分スペクトルＸＲ’（ｋ）とに、それぞれ、異なる乗数を乗じる構成であってもよく、特に限定はされない。

なお、本実施の形態では、左成分スペクトルＸＬ’（ｋ）、右成分スペクトルＸＲ’（ｋ）、および共通成分スペクトルＣ（ｋ）にＭ１（０〜１の乗数）を乗じることによって、最終的に左チャンネル、右チャンネル、および中央チャネルに出力される音声出力信号のレベルバランスを変化させる構成であるが、左成分スペクトルＸＬ’（ｋ）、右成分スペクトルＸＲ’（ｋ）、および共通成分スペクトルＣ（ｋ）に乗数を乗じることなく逆ＦＦＴを施して時間波形に変換し、変換により得られた左チャンネル、右チャンネル、および中央チャネルに対応する音声出力信号を乗数Ｍ１、Ｍ２と同じ入出力特性となる増幅、減衰器によってそれぞれ増幅、減衰して、各音声出力信号のレベルバランスを変化させる構成であってもよく、特に限定はされない。

すなわち、乗算部４は、スペクトル成分に乗数を乗じる構成のほか、スペクトル成分に逆ＦＦＴなどを施して時間波形を表す音声信号に変換した後、減衰器によって減衰させる構成、あるいは、増幅器によって増幅させる構成によって実現されてもよく、特に限定はされない。

また、この音声出力信号のレベルバランスを変化させる処理は、ＰＥＱ部６において実現されてもよいし、ＰＥＱ部６以外のフィルタと増幅器の組み合わせを用いて実現されてもよく、特に限定はされない。例えば、ＰＥＱ部６ｂにおいて主に人の声に対応する音声信号を増幅すれば、人の声を強調する構成を実現できる。また、ＰＥＱ部６ａまたは６ｃにおいて周囲の音に対応する音声信号を増幅すれば、臨場感を高める構成を実現できる。

〔実施の形態２〕
以下では、図８〜９を参照して、人の声をより強調することが可能な音声信号変換装置１ａ、１ｂについて説明する。

音声信号変換装置１ａ、１ｂは、音声信号変換装置１と同様、テレビ受信装置などに実装され、放送中の番組の音声を強調する装置である。ここで、音声とは、台詞やボーカルなどの人の声を指し、人の声以外の音（例えば、周囲の雑音やＢＧＭや効果音など）と区別する。つまり、音声信号変換装置１ａは、放送番組中の人の声を強調する装置である。なお、音声信号と表現した場合、番組中の音声と音声以外の音も含めた全ての音を表す信号を指す。

本実施の形態では、音声信号変換装置１ａ、１ｂには、ＰＣＭ（Pulse Code Modulation）によってデジタル符号化された２チャンネルの音声信号が入力される。通常、ステレオ放送などでは、入力された２チャンネルの音声信号に基づいて、テレビに備えられている左右のスピーカに異なる音声信号が供給され、左右のスピーカからは異なる音声が出力される。

以下では、通常のステレオ放送において左右のスピーカに供給される音声信号を、それぞれ、左側音声信号（左チャンネルに対応する左側音声信号）、および右側音声信号（右チャンネルに対応する右側音声信号）と呼ぶ。右側音声信号、および、左側音声信号は、それぞれ、入力端子１２ａ、および、入力端子１２ｂを介して音声信号変換装置１ａ、１ｂに入力される。

本実施の形態に係る音声信号変換装置１ａ、１ｂは、いずれも、入力される右側音声信号および左側音声信号について、高域成分の音声信号と低域成分の音声信号とに分けて、右側音声信号の高域成分（以下では、右側音声高域信号と称す）と左側音声信号の高域成分（以下では、左側音声高域信号と称する）について、共通成分を抽出する構成である。ここで、共通成分は、主としてボーカルや台詞などの人の声に対応しているが、厳密には、楽器の低音や騒音等も含んでいる。そこで、共通成分を、例えば、人の声に相当する１００Ｈｚ以上の高域成分について抽出すれば、共通成分から人の声以外の成分をより厳密に除去することができる。これにより、人の声をより正確に強調することが可能となる。以下に、音声信号変換装置１ａ、１ｂにおける音声強調の処理について、より詳細に説明する。

（音声信号変換装置１ａ）
本発明に係る音声信号変換装置１ａについて、図８を参照して説明すれば、以下のとおりである。音声信号変換装置１ａは、上記の右側音声信号と左側音声信号との２チャンネルの音声信号に基づいて、左右、および、中央の３つのスピーカを介して音声を出力する。つまり、音声信号変換装置１ａは、入力された２チャンネルの音声信号を、左チャンネル、右チャンネル、および、中央チャンネルの３チャンネルの音声出力信号に変換し、各スピーカに供給する構成である。

図８は、本発明に係る音声信号変換装置１ａの構成を示すブロック図である。音声信号変換装置１ａは、スペクトル変換部２と共通成分抽出部（共通成分抽出手段）３と乗算部４と逆変換部（共通信号生成手段、音声出力信号生成手段）５とパラメトリックイコライザ（ＰＥＱ；Parametric Equalizer）部６と減算器７、８と入力端子１２と出力端子１３と、遅延部（高域信号生成手段）２１、２３と減算器（高域信号生成手段）２７、２８と低域通過フィルタ部（低域信号生成手段）２２、２４と加算器（音声出力信号生成手段）２５、２６とを備えている。

右側音声信号、および、左側音声信号は、それぞれ、入力端子１２ａ、および、入力端子１２ｂを介して音声信号変換装置１ａに入力される。そして、入力端子１２ａに入力された右側音声信号は、遅延部２１と低域通過フィルタ部２２（例えばローパスフィルタ）とに入力される。また、入力端子１２ｂに入力された左側音声信号は、遅延部２３と低域通過フィルタ部２４とに入力される。

低域通過フィルタ部２２は、入力された右側音声信号を低域濾波して、加算器２５と減算器２７とに出力する。すなわち、右側音声信号の低域成分（以下では、右側音声低域信号と称する）のみを通過させる。本実施の形態においては、上記低域濾波の遮断周波数は略１００Ｈｚである。しかしながら、遮断周波数は、要求される精度に応じて１００Ｈｚ以外の遮断周波数であってもよく、特に限定はされない。

遅延部２１は、入力された右側音声信号を遅延させて、減算器２７に出力する。ここで、遅延部２１における遅延量は、低域通過フィルタ部２２における遅延量（すなわち、入力された右側音声信号が低域濾波されて右側音声低域信号として出力されるまでに要する時間）と同じであることが好ましい。これにより、遅延部２１からの遅延した右側音声信号と低域通過フィルタ部２２からの右側音声低域信号の位相を合わせることができる。

減算器２７は、遅延部２１からの遅延した右側音声信号から、低域通過フィルタ部２２からの右側音声低域信号を減算して、スペクトル変換部２ａに出力する。上述のとおり、遅延部２１からの遅延した右側音声信号と低域通過フィルタ部２２からの右側音声低域信号の位相は同期しているため、減算器２７からは、右側音声信号の高域成分（以下では、右側音声高域信号と称する）が出力される。

なお、本実施の形態においては、低域通過フィルタ部２２と遅延部２１および減算部２７との組み合わせによって低域信号および高域信号を出力する構成であるが、高域通過フィルタ部と遅延部および減算部との組み合わせによって高域信号および低域信号を出力する構成であってもよく特に限定はされない。

スペクトル変換部２ａは、ＦＦＴなどによって、右側音声高域信号から周波数スペクトル（以下では、右側音声高域信号スペクトルＸＲ（ｋ）と呼ぶ）を算出し、共通成分抽出部３と減算器７とに出力する。なお、スペクトル変換部２の処理は、音声信号変換装置１における処理と同じであるため、詳細な説明は省略する。

また、入力端子１２ｂに入力された左側音声信号は、入力端子１２ａに入力された右側音声信号と同様に、遅延部２３と低域通過フィルタ部２４とに入力され、それぞれ、遅延した左側音声信号と左側音声信号の低域成分（以下では、左側音声低域信号と称する）とを減算器２８に出力する。ここで、遅延部２３における遅延量は、低域通過フィルタ部２４における遅延量と同じであることが好ましい。なお、低域通過フィルタ部２４は、左側音声低域信号を加算器２６にも出力する。そして、減算器２８は、遅延部２３からの遅延した左側音声信号から、低域通過フィルタ部２４からの左側音声低域信号を減算して、左側音声信号の高域成分（以下では、左側音声高域信号と称する）をスペクトル変換部２ｂに出力する。そして、スペクトル変換部２ｂは、ＦＦＴなどによって、左側音声高域信号から周波数スペクトル（以下では、左側音声高域信号スペクトルＸＬ（ｋ）と呼ぶ）を算出し、共通成分抽出部３と減算器８とに出力する。なお、スペクトル変換部２の処理は、音声信号変換装置１における処理と同じであるため、詳細な説明は省略する。

共通成分抽出部３は右側音声高域信号スペクトルＸＲ（ｋ）と左側音声高域信号スペクトルＸＬ（ｋ）との小さいほうのスペクトルを共通成分として抽出する。つまり、共通成分抽出部３は、右側音声高域信号、および、左側音声高域音声信号に共通して含まれている主として人の声を表す音声信号の成分を、高域共通成分Ｃ（ｋ）として抽出する。なお、共通成分抽出部３の処理は、音声信号変換装置１における処理と同じであるため、詳細な説明は省略する。

減算器７は、スペクトル変換部２ａから出力された右音声高域信号スペクトルＸＲ（ｋ）から、共通成分抽出部３から出力された高域共通成分スペクトルＣ（ｋ）を減算して、右高域成分スペクトルＸＲ’（ｋ）を算出し、乗算部４ａに出力する。つまり、減算器７は、ＸＲ’（ｋ）＝ＸＲ（ｋ）−Ｃ（ｋ）の演算を行う。

減算器８は、スペクトル変換部２ｂから出力された左側音声高域信号スペクトルＸＬ（ｋ）から、共通成分抽出部３から出力された高域共通成分スペクトルＣ（ｋ）を減算して、左高域成分スペクトルＸＬ’（ｋ）を算出し、乗算部４ｃに出力する。つまり、減算器８は、ＸＬ’（ｋ）＝ＸＬ（ｋ）−Ｃ（ｋ）の演算を行う。

ここで、左高域成分スペクトルＸＬ’（ｋ）、および、右高域成分スペクトルＸＲ’（ｋ）は、主として人の声以外の音（ＢＧＭや効果音や雑音などの周囲の音）を表す成分である。

以下では、ＸＲ”（ｋ）、Ｃ”（ｋ）、および、ＸＬ”（ｋ）を、それぞれ、右高域成分出力スペクトル、高域共通成分出力スペクトル、および、左高域成分出力スペクトルと称する。

左高域成分出力スペクトルＸＬ”（ｋ）、および、右高域成分出力スペクトルＸＲ”（ｋ）は、周囲の音（人の声以外の音）を表す音声信号の成分である。

逆変換部５ａは、周波数領域の情報である右高域成分出力スペクトルＸＲ”（ｋ）を逆ＦＦＴによって時間領域の信号波形に変換して、加算器２５に出力する。また、逆変換部５ｂは、逆変換部５ａと同様の処理を行い、周波数領域の情報である共通成分出力スペクトルＣ”（ｋ）を逆ＦＦＴによって時間領域の信号波形に変換して、中央のスピーカに出力する音声出力信号（中央チャンネルに対応する中央音声出力信号）を生成し、ＰＥＱ部６ｂに出力する。逆変換部５ｃは、逆変換部５ｃと同様の処理を行い、周波数領域の情報である左高域成分出力スペクトルＸＬ”（ｋ）を逆ＦＦＴによって時間領域の信号波形に変換して、加算器２６に出力する。

また、上述のとおり、加算器２５には、低域通過フィルタ部２２から左側音声低域信号が入力されており、加算器２６には、低域通過フィルタ部２４から右側音声低域信号が入力されている。

加算器２５は、右高域成分出力スペクトルＸＲ”（ｋ）を逆ＦＦＴして得られる信号と右側音声低域信号とを加算して、右チャンネルに対応する右側音声出力信号を生成し、ＰＥＱ部６ａに出力する。また、加算器２６は、左高域成分出力スペクトルＸＬ”（ｋ）を逆ＦＦＴして得られる信号と左側音声低域信号とを加算して、左チャンネルに対応する左側音声出力信号を生成し、ＰＥＱ部６ｃに出力する。

ＰＥＱ部６ａは、加算器２５から出力される右側音声出力信号に対し、ラウドネス曲線の特性のパラメトリックイコライザを施し、出力端子１３ａを介して右チャンネルのスピーカに出力する。また、ＰＥＱ部６ｂは、逆変換部５ｂから出力される中央チャンネルの音声出力信号に対し、２ｋＨｚをピークとした音声帯域を強調するパラメトリックイコライザを施し、出力端子１３ｂを介して中央チャンネルのスピーカに出力する。また、ＰＥＱ部６ｃは、加算器２６から出力される左側音声出力信号に対し、等ラウドネス曲線の特性のパラメトリックイコライザを施し、出力端子１３ｃを介して左チャンネルのスピーカに出力する。

以上のとおり、音声信号変換装置１ａは入力された左右の音声信号の高域成分について共通成分を抽出する構成であるため、人の声を表す成分と人の声以外の成分とを、より厳密に分離することが可能となる。したがって、より厳密に人の声に対応する音声出力信号と周囲の音に対応する音声出力信号とが生成される。これにより、より正確に人の声に対応する音声出力信号と周囲の音に対応する音声出力信号とのレベルバランスを変化させることができるため、人の声を強調する場合においても確度を高めることができるようになる。

なお、本実施の形態では、遅延部２１、２３において遅延させた入力信号から、低域通過フィルタ部２２、２４において低域濾波して得られた右側音声低域信号および左側音声低域信号を減算して、右側音声高域信号および左側音声高域信号を生成する構成であるが、高域通過フィルタ部をさらに備えている構成であってもよい。すなわち、遅延部において遅延させた入力信号から、高域通過フィルタ部において高域濾波して得られた右側音声高域信号および左側音声高域信号を減算して右側音声低域信号および左側音声低域信号を生成する構成であってもよく、特に限定はされない。

（音声信号変換装置１ｂ）
本発明に係る音声信号変換装置１ｂについて、図９を参照して説明すれば、以下のとおりである。音声信号変換装置１ｂは、上記の右側音声信号と左側音声信号との２チャンネルの音声信号に基づいて、左右、および、中央の３つのスピーカを介して音声を出力する。つまり、音声信号変換装置１ｂは、入力された２チャンネルの音声信号を、左チャンネル、右チャンネル、および、中央チャンネルの３チャンネルの音声出力信号に変換し、各スピーカに供給する構成である。

図９は、本発明に係る音声信号変換装置１ｂの構成を示すブロック図である。音声信号変換装置１ａは、スペクトル変換部２と共通成分抽出部（共通成分抽出手段）３と乗算部（成分低減手段）４と逆変換部（共通信号生成手段、音声出力信号生成手段）５とパラメトリックイコライザ（ＰＥＱ；Parametric Equalizer）部６と減算器７、８と入力端子１２と出力端子１３と、高域通過フィルタ部（高域信号生成手段）３１、３３と低域通過フィルタ部（低域信号生成手段）３２、３４と加算器（音声出力信号生成手段）３５、３６とを備えている。

音声信号変換装置１ｂは、高域通過フィルタ部３１、３３および低域通過フィルタ部３２、３４以外の各部については、音声信号変換装置１ａと同様の構成のため、以下では、音声信号変換装置１ａと異なる構成についてのみ説明する。

右側音声信号、および、左側音声信号は、それぞれ、入力端子１２ａ、および、入力端子１２ｂを介して音声信号変換装置１ａに入力される。そして、入力端子１２ａに入力された右側音声信号は、高域通過フィルタ部３１（例えばハイパスフィルタ）と低域通過フィルタ部３２とに入力される。また、入力端子１２ｂに入力された左側音声信号は、高域通過フィルタ部３３と低域通過フィルタ部３４とに入力される。

高域通過フィルタ部３１は、入力された右側音声信号を高域濾波して、スペクトル変換部２ａに出力する。すなわち、右側音声信号の高域成分（以下では、右側音声高域信号と称する）のみを通過させる。同様に、高域通過フィルタ部３３は、入力された右側音声信号を高域濾波して、スペクトル変換部２ｂに出力する。すなわち、左側音声信号の高域成分（以下では、左側音声高域信号と称する）のみを通過させる。本実施の形態においては、上記低域濾波の遮断周波数は略１００Ｈｚである。しかしながら、遮断周波数は、要求される精度に応じて１００Ｈｚ以外の遮断周波数であってもよく、特に限定はされない。

低域通過フィルタ部３２は、入力された右側音声信号を低域濾波して、加算器３５に出力する。すなわち、右側音声信号の低域成分（以下では、右側音声低域信号と称する）のみを通過させる。同様に、低域通過フィルタ部３４は、入力された左側音声信号を低域濾波して、加算器３６に出力する。すなわち、左側音声信号の低域成分（以下では、左側音声低域信号と称する）のみを通過させる。本実施の形態においては、上記低域濾波の遮断周波数は略１００Ｈｚである。しかしながら、遮断周波数は、要求される精度に応じて１００Ｈｚ以外の遮断周波数であってもよく、特に限定はされない。ここで、高域通過フィルタ部３１、３３における遅延量と低域通過フィルタ部３２、３４における遅延量とは、同じであることが好ましい。

音声信号変換装置１ａは、遅延部２１、２３と低域通過フィルタ部２２、２４とを用い、入力された音声信号の低域成分について直接抽出し、高域成分については原信号から低域成分を減算して抽出する構成であるのに対して、音声信号変換装置１ｂは、高域通過フィルタ部３１、３３と低域通過フィルタ部３２、３４とを用いることによって、入力された音声信号から、直接、高域成分と低域成分とを抽出する構成であり、この点においてのみ、音声信号変換装置１ａと異なる。音声信号変換装置１ｂを構成する他の各部の動作については、音声信号変換装置１ａと同様であり、説明は省略する。

なお、本発明を、以下のように表現することも可能である。

（第１の構成）
音声を含む２チャンネルのステレオソース信号を入力し、センター成分を含む３チャンネルで再生する再生装置において、入力ソースを時間領域から周波数領域へ変換する周波数変換手段と、前記周波数変換されたスペクトルの左右のチャンネルの共通成分を抽出する手段と、左チャンネル、右チャンネルのスペクトルから、前記抽出した共通成分を減算する手段と、共通成分をセンターチャンネルに出力する再生手段と、前記減算された左右のチャンネル成分に０から１の乗数を乗じて左右チャンネルに出力する手段を備えること特徴とする第１の構成。

（第２の構成）
最後に、音声信号変換装置１、１ａ、１ｂの各ブロックは、ハードウェアロジックによって構成してもよいし、次のようにＣＰＵを用いてソフトウェアによって実現してもよい。

すなわち、音声信号変換装置１、１ａ、１ｂは、各機能を実現する制御プログラムの命令を実行するＣＰＵ（central processing unit）、上記プログラムを格納したＲＯＭ（read only memory）、上記プログラムを展開するＲＡＭ（random access memory）、上記プログラムおよび各種データを格納するメモリ等の記憶装置（記録媒体）などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである音声信号変換装置１、１ａ、１ｂの制御プログラムのプログラムコード（実行形式プログラム、中間コードプログラム、ソースプログラム）をコンピュータで読み取り可能に記録した記録媒体を、音声信号変換装置１、１ａ、１ｂに供給し、そのコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。

上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー（登録商標）ディスク／ハードディスク等の磁気ディスクやＣＤ−ＲＯＭ／ＭＯ／ＭＤ／ＤＶＤ／ＣＤ−Ｒ等の光ディスクを含むディスク系、ＩＣカード（メモリカードを含む）／光カード等のカード系、あるいはマスクＲＯＭ／ＥＰＲＯＭ／ＥＥＰＲＯＭ／フラッシュＲＯＭ等の半導体メモリ系などを用いることができる。

また、音声信号変換装置１、１ａ、１ｂを通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、ＬＡＮ、ＩＳＤＮ、ＶＡＮ、ＣＡＴＶ通信網、仮想専用網（virtual private network）、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、ＩＥＥＥ１３９４、ＵＳＢ、電力線搬送、ケーブルＴＶ回線、電話線、ＡＤＳＬ回線等の有線でも、ＩｒＤＡやリモコンのような赤外線、Ｂｌｕｅｔｏｏｔｈ（登録商標）、８０２．１１無線、ＨＤＲ、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。

本発明に係る音声信号変換装置は、放送中や再生中のコンテンツのボーカルやセリフなどの人の声を強調することができるため、テレビ受像装置などにおいて好適に利用できる。

本発明に係る音声信号変換装置１の構成を示すブロック図である。共通成分を説明するための図であり、（ａ）は右側音声信号スペクトル（Ｒチャンネル）と左側音声信号スペクトル（Ｌチャンネル）との共通成分を示す図であり、（ｂ）は共通成分のみを示す図である。右側音声信号スペクトル（Ｒチャンネル）、および、左側音声信号スペクトル（Ｌチャンネル）から共通成分スペクトルを除いた残りの成分を示す図であり、（ａ）は左成分スペクトルＸＬ’（ｋ）を示す図であり、（ｂ）は右成分スペクトルＸＲ’（ｋ）を示す図である。右成分出力スペクトルＸＲ”（ｋ）、および、左成分出力スペクトルＸＬ”（ｋ)を示す図であり、（ａ）は図３（ａ）に示す右成分スペクトルに所定の乗数を乗じて算出された右成分出力スペクトルＸＲ”（ｋ）を示す図であり、（ｂ）は図３（ｂ）に示す左成分スペクトルに所定の乗数を乗じて算出された左成分出力スペクトルＸＬ”（ｋ）を示す図である。略２ｋＨｚをピークとした人の声の帯域を強調するパラメトリックイコライザの周波数特性例を示す図である。等ラウドネス曲線に基づいて作成した略４ｋＨｚを最小値とするパラメトリックイコライザの周波数特性例を示す図である。ロビンソンらが測定した等ラウドネス曲線を示す図である。本発明に係る音声信号変換装置１ａの構成を示すブロック図である。本発明に係る音声信号変換装置１ｂの構成を示すブロック図である。

符号の説明

１音声信号変換装置（音声信号変換装置）
２スペクトル変換部
３共通成分抽出部（共通成分抽出手段）
４乗算部
４ａ乗算部（左右成分低減手段、左右成分増幅手段、成分増幅手段）
４ｂ乗算部（中央音声出力信号増幅手段、中央音声出力信号低減手段）
４ｃ乗算部（左右成分低減手段、左右成分増幅手段、成分増幅手段）
５逆変換部
５ａ逆変換部（左右音声出力信号生成手段、音声出力信号生成手段）
５ｂ逆変換部（中央音声出力信号生成手段、音声出力信号生成手段）
５ｃ逆変換部（左右音声出力信号生成手段、音声出力信号生成手段）
６ＰＥＱ部
６ａＰＥＱ部（左右レベル調整手段）
６ｂＰＥＱ部（中央レベル調整手段）
６ｃＰＥＱ部（左右レベル調整手段）
７減算器（減算手段）
８減算器（減算手段）
９加算器（音声出力信号生成手段）
１０加算器（音声出力信号生成手段）
１２入力端子
１３出力端子
１４出力端子
２１、２３遅延部（高域信号生成手段）
２２、２４低域通過フィルタ部（低域信号生成手段）
２５、２６加算器（音声出力信号生成手段）
２７、２８減算器（高域信号生成手段）
３１、３３高域通過フィルタ部（高域信号生成手段）
３２、３４低域通過フィルタ部（低域信号生成手段）
３５、３６加算器（音声出力信号生成手段）

Claims

右チャンネルに対応する右側音声信号および左チャンネルに対応する左側音声信号を、中央チャンネルに対応する中央音声出力信号、上記右チャンネルに対応する右側音声出力信号、および上記左チャンネルに対応する左側音声出力信号に変換する音声信号変換装置であって、
上記右側音声信号および上記左側音声信号に共通に含まれる共通成分を抽出する共通成分抽出手段と、
上記共通成分から上記中央音声出力信号を生成する中央音声出力信号生成手段と、
上記右側音声信号および左側音声信号から上記共通成分をそれぞれ減算することによって、上記右側音声出力信号および上記左側音声出力信号を生成する左右音声出力信号生成手段とを備えていることを特徴とする音声信号変換装置。
上記右側音声出力信号および上記左側音声出力信号の全成分の値をそれぞれ低減させる左右成分低減手段をさらに備えていることを特徴とする請求項１に記載の音声信号変換装置。
上記左右成分低減手段は、上記右側音声出力信号および上記左側音声出力信号の全成分の値をゼロにすることを特徴とする請求項２に記載の音声信号変換装置。
上記中央音声出力信号の全成分の値を増幅する中央音声出力信号増幅手段をさらに備えていることを特徴とする請求項１〜３のいずれか１項に記載の音声信号変換装置。
上記中央音声出力信号の値を調整する中央レベル調整手段をさらに備えていることを特徴とする請求項１〜４のいずれか１項に記載の音声信号変換装置。
上記中央レベル調整手段は、略２ｋＨｚにおいて、上記中央音声出力信号のゲインが最大となるように上記値を調整することを特徴とする請求項５に記載の音声信号変換装置。
上記中央音声出力信号の全成分の値を低減させる中央音声出力信号低減手段をさらに備えていることを特徴とする請求項１に記載の音声信号変換装置。
上記中央音声出力信号低減手段は、上記中央音声出力信号の全成分の値をゼロにすることを特徴とする請求項７に記載の音声信号変換装置。
上記右側音声出力信号および上記左側音声出力信号の全成分の値をそれぞれ増幅する左右成分増幅手段をさらに備えていることを特徴とする請求項１、７または８に記載の音声信号変換装置。
上記右側音声出力信号および上記左側音声出力信号のうち、少なくとも一方の信号の値を調整する左右レベル調整手段をさらに備えていることを特徴とする請求項１、７、８、または９のいずれか１項に記載の音声信号変換装置。
上記左右レベル調整手段は、略４ｋＨｚにおいて、上記右側音声出力信号と上記左側音声出力信号との少なくとも一方のゲインが最小となるように上記値を調整することを特徴とする請求項１０に記載の音声信号変換装置。
右チャンネルに対応する右側音声信号および左チャンネルに対応する左側音声信号を、中央チャンネルに対応する中央音声出力信号、上記右チャンネルに対応する右側音声出力信号、および上記左チャンネルに対応する左側音声出力信号に変換する音声信号変換装置であって、
上記右側音声信号の高域成分の右側音声高域信号および上記左側音声信号の高域成分の左側音声高域信号を生成する高域信号生成手段と、
上記右側音声信号の低域成分の右側音声低域信号および上記左側音声信号の低域成分の左側音声低域信号を生成する低域信号生成手段と、
上記右側音声高域信号および上記左側音声高域信号に共通に含まれる高域共通成分を抽出する共通成分抽出手段と、
上記高域共通成分から上記中央音声出力信号を生成する共通信号生成手段と、
上記右側音声高域信号および上記左側音声高域信号から上記高域共通成分をそれぞれ減算し、該減算後の上記右側音声高域信号に上記右側音声低域信号を加算し、該減算後の上記左側音声高域信号に上記左側音声低域信号を加算することによって、上記右側音声出力信号および上記左側音声出力信号を生成する音声出力信号生成手段とを備えていることを特徴とする音声信号変換装置。
上記低域信号生成手段は、
上記右側音声信号および上記左側音声信号を低域濾波して、上記右側音声低域信号および上記左側音声低域信号を生成し、
上記高域信号生成手段は、
上記右側音声信号および上記左側音声信号に上記低域信号生成手段と同一の遅延量を持たせ、遅延した上記右側音声信号から上記右側音声低域信号を減算し、遅延した上記左側音声信号から上記左側音声低域信号を減算して、上記右側音声高域信号および上記左側音声高域信号を生成することを特徴とする請求項１２に記載の音声信号変換装置。
上記低域信号生成手段における低域濾波の遮断周波数は、略１００Ｈｚであることを特徴とする請求項１３に記載の音声信号変換装置。
上記高域信号生成手段は、
上記右側音声信号および上記左側音声信号を高域濾波して、上記右側音声高域信号および上記左側音声高域信号を生成し、
上記低域信号生成手段は、
上記右側音声信号および上記左側音声信号に上記高域信号生成手段と同一の遅延量を持たせ、遅延した上記右側音声信号から上記右側音声高域信号を減算し、遅延した上記左側音声信号から上記左側音声高域信号を減算して、上記右側音声低域信号および上記左側音声低域信号を生成することを特徴とする請求項１２に記載の音声信号変換装置。
上記高域信号生成手段における高域濾波の遮断周波数は、略１００Ｈｚであることを特徴とする請求項１５に記載の音声信号変換装置。
上記低域信号生成手段は、
上記右側音声信号および上記左側音声信号を低域濾波して、上記右側音声低域信号および上記左側音声低域信号を生成し、
上記高域信号生成手段は、
上記右側音声信号および上記左側音声信号を高域濾波して、上記右側音声高域信号および上記左側音声高域信号を生成することを特徴とする請求項１２に記載の音声信号変換装置。
上記低域信号生成手段における低域濾波の遮断周波数、および、上記高域信号生成手段における高域濾波の遮断周波数は、共に略１００Ｈｚであることを特徴とする請求項１７に記載の音声信号変換装置。
上記低域信号生成手段の遅延量と上記高域信号生成手段の遅延量とは等しいことを特徴とする請求項１７または１８に記載の音声信号変換装置。
右チャンネルに対応する右側音声信号および左チャンネルに対応する左側音声信号を、中央チャンネルに対応する中央音声出力信号、上記右チャンネルに対応する右側音声出力信号、および上記左チャンネルに対応する左側音声出力信号に変換する音声信号変換方法であって、
上記右側音声信号および上記左側音声信号に共通に含まれる共通成分を抽出する共通成分抽出ステップと、
上記共通成分から上記中央音声出力信号を生成する中央音声出力信号生成ステップと、
上記右側音声信号および左側音声信号から上記共通成分をそれぞれ減算することによって、上記右側音声出力信号および上記左側音声出力信号を生成する左右音声出力信号生成ステップとを含んでいることを特徴とする音声信号変換方法。
右チャンネルに対応する右側音声信号および左チャンネルに対応する左側音声信号を、中央チャンネルに対応する中央音声出力信号、上記右チャンネルに対応する右側音声出力信号、および上記左チャンネルに対応する左側音声出力信号に変換する音声信号変換方法であって、
上記右側音声信号の高域成分の右側音声高域信号および上記左側音声信号の高域成分の左側音声高域信号を生成する高域信号生成ステップと、
上記右側音声信号の低域成分の右側音声低域信号および上記左側音声信号の低域成分の左側音声低域信号を生成する低域信号生成ステップと、
上記右側音声高域信号および上記左側音声高域信号に共通に含まれる高域共通成分を抽出する共通成分抽出ステップと、
上記高域共通成分から上記中央音声出力信号を生成する共通信号生成ステップと、
上記右側音声高域信号および上記左側音声高域信号から上記高域共通成分をそれぞれ減算し、該減算後の上記右側音声高域信号に上記右側音声低域信号を加算し、該減算後の上記左側音声高域信号に上記左側音声低域信号を加算することによって、上記右側音声出力信号および上記左側音声出力信号を生成する音声出力信号生成ステップとを含んでいることを特徴とする音声信号変換方法。
請求項１から１９のいずれか１項に記載の音声信号変換装置を動作させる制御プログラムであって、コンピュータを上記の各手段として機能させるための制御プログラム。
請求項２２に記載の制御プログラムを記録しているコンピュータ読み取り可能な記録媒体。