しかしながら、特許文献1、2に記載の構成、すなわち、右チャンネルと左チャンネルとの2チャンネルの入力信号を加算した信号のボーカル音帯域成分(中域成分)を抽出して増幅し、左右チャンネルの入力信号に加算する構成では、中域の周波数帯域に含まれる全ての音が強調されるため、人の声以外の雑音や音楽なども強調されることになる。
より詳細に説明すれば、次のとおりである。右チャンネルの信号のスペクトルRと左チャンネルの信号のスペクトルLとの共通成分をCとすると、R=C+R’、L=C+L’と表される。また、R’はRとCとの差であり、L’はLとCとの差である。ここで、共通成分Cは、主として、中央に定位するボーカルやセリフなどの人の声に対応する成分である。また、R’およびL’は、人の声以外の周囲の音(雑音や背景音楽、効果音など)に対応する成分である。
特許文献1、2に記載の構成では、右チャンネルの信号と左チャンネルの信号とが加算された信号の中域成分が増幅される。ここで、加算された信号のスペクトル成分はL+R(=2C+L’+R’)と表され、その中域では増幅によって値が増大する。この場合、共通成分Cだけではなく、R’およびL’についても増大することになる。つまり、人の声に対応する共通成分Cのみならず、周囲の音に対応するR’とL’との両方が増大するため、人の声を強調したい場合において、周囲の音も強調されてしまい、必ずしも人の声を聴き取り易くすることはできないという問題がある。
本発明は、上記の問題点に鑑みてなされたものであり、その第1の目的は、放送中や再生中の番組などにおいて、周囲の音、すなわち、人の声以外の音を抑制できるようにして、人の声を聴き取り易くすることができる3chの音声出力を実現するための音声信号変換装置、音声信号変換方法、制御プログラム、および、コンピュータ読み取り可能な記録媒体を提供することにある。また、本発明の第2の目的は、放送中や再生中の番組などにおいて、人の声を抑制できるようにして、効果音や背景音楽などを強調し、臨場感を向上させることができる3chの音声出力を実現するための音声信号変換装置、音声信号変換方法、制御プログラム、および、コンピュータ読み取り可能な記録媒体を提供することにある。
本発明に係る音声信号変換装置は、上記の課題を解決するために、右チャンネルに対応する右側音声信号および左チャンネルに対応する左側音声信号を、中央チャンネルに対応する中央音声出力信号、上記右チャンネルに対応する右側音声出力信号、および上記左チャンネルに対応する左側音声出力信号に変換する音声信号変換装置であって、上記右側音声信号および上記左側音声信号に共通に含まれる共通成分を抽出する共通成分抽出手段と、上記共通成分から上記中央音声出力信号を生成する中央音声出力信号生成手段と、上記右側音声信号および左側音声信号から上記共通成分をそれぞれ減算することによって、上記右側音声出力信号および上記左側音声出力信号を生成する左右音声出力信号生成手段とを備えていることを特徴としている。
上記の構成によれば、本発明に係る音声信号変換装置は、右チャンネルに対応する右側音声信号および左チャンネルに対応する左側音声信号を、中央チャンネルに対応する中央音声出力信号、上記右チャンネルに対応する右側音声出力信号、および上記左チャンネルに対応する左側音声出力信号に変換する。つまり、本発明に係る音声信号変換装置は、2チャンネルの音声入力信号を、3チャンネルの音声出力信号に変換する。2チャンネルの音声入力信号としては、例えば、テレビ放送におけるステレオ音声信号などがある。
また、上記の構成によれば、共通成分抽出手段が、上記右側音声信号および上記左側音声信号に共通に含まれる共通成分を抽出する。共通成分とは、右側音声信号のスペクトルと左側音声信号のスペクトルとに共通して含まれるスペクトル成分である。つまり、共通成分とは、全ての周波数帯域において、右側音声信号のスペクトルと左側音声信号のスペクトルのうち、絶対値が小さい方のスペクトル成分を抽出したものである。
また、上記の構成によれば、中央音声出力信号生成手段が、上記共通成分から上記中央音声出力信号を生成する。中央音声出力信号生成手段は、例えば、高速フーリエ変換(FFT;Fast Fourier Transform)によって周波数領域におけるスペクトル情報である共通成分を、時間領域の信号波形である中央音声出力信号に変換することができる。なお、中央音声出力信号生成手段は、離散フーリエ変換(DFT;Discrete Fourier Transform)や修正離散コサイン変換(MDCT;Modified Discrete Cosine Transform)などによって中央音声出力信号を生成する構成であってもよく、特に限定はされない。
また、上記の構成によれば、左右音声出力信号生成手段が、上記右側音声信号および左側音声信号から上記共通成分をそれぞれ減算することによって、上記右側音声出力信号および上記左側音声出力信号を生成する。左右音声出力信号生成手段は、例えば、右側音声信号のスペクトルから共通成分を減算して得られるスペクトルに対してFFTなどを施すことにより、上記右側音声出力信号を生成できる。同様にして、左右音声出力信号生成手段は、左側音声信号から共通成分を減算することによって左側音声出力信号を生成できる。
これにより、本発明に係る音声信号変換装置によれば、人の声と周囲の音とがミックスされた2チャンネルの音声信号から、主に人の声を表す音声信号(共通成分に対応)の1つのチャンネルと、周囲の音を表す音声信号(左右のスペクトル成分から共通成分を減算した成分に対応)の2つのチャンネルとの3チャンネルの音声信号を生成できる。つまり、人の声の音声信号と周囲の音の音声信号とを分離できる。ここで周囲の音とは、ドラマでの効果音や、スポーツ中継の歓声、背景音楽、家庭及び自然騒音等、人の声以外の音を指す。
したがって、人の声を表す音声信号と、周囲の音を表す音声信号とを独立して調整することが可能となる。つまり、人の声を表す音声信号と周囲の音を表す音声信号とのレベルバランスを調整できるようになる。
本発明に係る音声信号変換方法は、右チャンネルに対応する右側音声信号および左チャンネルに対応する左側音声信号を、中央チャンネルに対応する中央音声出力信号、上記右チャンネルに対応する右側音声出力信号、および上記左チャンネルに対応する左側音声出力信号に変換する音声信号変換方法であって、上記右側音声信号および上記左側音声信号に共通に含まれる共通成分を抽出する共通成分抽出ステップと、上記共通成分から上記中央音声出力信号を生成する中央音声出力信号生成ステップと、上記右側音声信号および左側音声信号から上記共通成分をそれぞれ減算することによって、上記右側音声出力信号および上記左側音声出力信号を生成する左右音声出力信号生成ステップとを含んでいることを特徴としている。
上記の構成によれば、本発明に係る音声信号変換装置と同様の作用効果を奏する。
本発明に係る音声信号変換装置では、上記右側音声出力信号および上記左側音声出力信号の全成分の値をそれぞれ低減させる左右成分低減手段をさらに備えていることが好ましい。
上記の構成によれば、左右成分低減手段は、右側音声出力信号および左側音声出力信号の全成分の値を低減させる。すなわち、左右成分低減手段は、上記減算後の右側音声信号および左側音声信号を低減して出力する。ここで、左右成分低減手段は、例えば、上記減算後の右側音声信号および左側音声信号のスペクトル成分に1未満の乗数を乗じたものに、逆FFTなどを施す構成であってもよいし、上記減算後の右側音声信号および左側音声信号のスペクトル成分に逆FFTなどを施して時間波形を表す音声信号に変換した後、減衰器によって減衰させる構成であってもよく、特に限定はされない。
これにより、3チャンネルの出力信号のうち、中央音声出力信号は、全成分の値が低減されることなくセンターチャンネルに出力され、右側音声出力信号、および、左側音声出力信号は、全成分の値が低減されて、右チャンネル、および、左チャンネルに出力される。
したがって、右側音声出力信号、および、左側音声出力信号によって表される周囲の音が低減されて、中央音声出力信号によって表される人の声が強調されるため、特に小さい音量で番組を視聴する場合において、人の声の聴き取り易さを向上させることができる。
本発明に係る音声信号変換装置では、上記左右成分低減手段は、上記右側音声出力信号および上記左側音声出力信号の全成分の値をゼロにすることが好ましい。
上記の構成によれば、左右成分低減手段は、右側音声出力信号の全成分の値をゼロにする。左右成分低減手段は、例えば、右側音声信号のスペクトルから共通成分を減算して求められた全成分に対して、乗数として0を乗じることによって、右側音声出力信号を0にする。また、左右成分低減手段は、同様にして、右側音声出力信号の全成分の値を0にする。
これにより、3チャンネルの出力信号のうち、中央音声出力信号は、全成分の値が低減されることなくセンターチャンネルに出力され、右側音声出力信号、および、左側音声出力信号は、全成分の値がゼロとなって出力される。つまり、右チャンネル、および、左チャンネルに出力される音声出力信号の大きさは0となる。
したがって、主に人の声が含まれる共通成分から生成された音声信号のみに基づいて音声が出力され、周囲の音(雑音など人の声以外の音)は出力されない。そのため、例えば聴覚の衰えた高齢者がボリュームを上げた場合などであっても、雑音などの周囲の音は大きくならずに人の声のみが強調されるため、通常の聴覚をもつ人は、煩わしさをあまり感じなくなる。
本発明に係る音声信号変換装置では、上記中央音声出力信号の全成分の値を増幅する中央音声出力信号増幅手段をさらに備えていることが好ましい。
上記の構成によれば、中央音声出力信号増幅手段は、中央音声出力信号の全成分の値を増幅する。中央音声出力信号増幅手段は、中央音声出力信号を、周波数領域においてスペクトルデータを乗算して増幅する構成であってもよいし、時間領域において時間波形を直接増幅する構成であってもよく、特に限定はされない。
これにより、中央音声出力信号によって表される人の声を強調できるため、人の声の聴き取り易さを向上させることができる。しかも、全成分の値を増幅できるため、容易に人の声の聴き取り易さを向上させることができる。
本発明に係る音声信号変換装置では、上記中央音声出力信号の値を調整する中央レベル調整手段をさらに備えていることが好ましい。
中央レベル調整手段は、例えば、パラメトリックイコライザとして構成される。あるいは、中央レベル調整手段は、パラメトリックイコライザだけでなく、中心周波数やQやゲインを調整できないフィルタと増幅器で構成されてもよい。中央レベル調整手段によれば、中央音声出力信号に含まれる特定の周波数帯域の成分のみを増幅することができる。
これにより、中央音声出力信号によって表される人の声を強調できるため、人の声の聴き取り易さを向上させることができる。しかも、中央音声出力信号の値を直接調整できるため、より細かな調整が可能となる。
本発明に係る音声信号変換装置では、上記中央レベル調整手段は、略2kHzにおいて、上記中央音声出力信号のゲインが最大となるように上記値を調整することが好ましい。これにより、人の声をより強調することが可能となる。
本発明に係る音声信号変換装置では、上記中央音声出力信号の全成分の値を低減させる中央音声出力信号低減手段をさらに備えていることが好ましい。
上記の構成によれば、中央音声出力信号低減手段は、中央音声出力信号の全成分の値を低減させる。すなわち、中央音声出力信号低減手段は、中央音声出力信号を低減して出力する。ここで、中央音声出力信号低減手段は、例えば、共通成分のスペクトル成分に1未満の乗数を乗じたものに、逆FFTなどを施す構成であってよい。あるいは、スペクトル成分に逆FFTなどを施して時間波形を表す音声信号に変換した後、減衰器によって減衰させる構成であってもよく、特に限定はされない。
これにより、3チャンネルの出力信号のうち、中央音声出力信号は、全成分の値が低減されてセンターチャンネルに出力され、右側音声出力信号、および、左側音声出力信号は、全成分の値が低減されることなく、右チャンネル、および、左チャンネルに出力される。
したがって、中央音声出力信号によって表される人の声が低減されるため、右側音声出力信号、および、左側音声出力信号によって表される周囲の音が強調されて、特に小さい音量で番組を視聴する場合において、臨場感を向上させることができる。
本発明に係る音声信号変換装置では、上記中央音声出力信号低減手段は、上記中央音声出力信号の全成分の値をゼロにすることが好ましい。
上記の構成によれば、中央音声出力信号低減手段は、中央音声出力信号の全成分の値をゼロにする。中央音声出力信号低減手段は、例えば、共通成分に0を乗じることによって、共通成分の全成分の値を0にする。
これにより、3チャンネルの出力信号のうち、中央音声出力信号は、全成分の値がゼロになってセンターチャンネルに出力され、右側音声出力信号、および、左側音声出力信号は、全成分の値が低減されることなく出力される。つまり、センターチャンネルに出力される音声出力信号の大きさは0となる。
したがって、周囲の音(雑音など人の声以外の音)のみが出力され、主に人の声が含まれる共通成分から生成された音声信号に基づいた音声は出力されず、臨場感をさらに強調させることが可能となる。
本発明に係る音声信号変換装置では、上記右側音声出力信号および上記左側音声出力信号の全成分の値をそれぞれ増幅する左右成分増幅手段をさらに備えていることが好ましい。
上記の構成によれば、左右成分増幅手段は、上記右側音声出力信号および上記左側音声出力信号の全成分の値をそれぞれ増幅する。左右成分増幅手段は、上記右側音声出力信号および上記左側音声出力信号を、周波数領域においてスペクトルデータを乗算して増幅する構成であってもよいし、時間領域において時間波形を直接増幅する構成であってもよく、特に限定はされない。
左音声出力信号または右音声出力信号によって表される周囲の音を強調できるため、臨場感を向上させることができる。しかも、全成分の値を増幅できるため、容易に臨場感を向上させることが可能となる。
本発明に係る音声信号変換装置では、上記右側音声出力信号および上記左側音声出力信号のうち、少なくとも一方の信号の値を調整するレベル調整手段をさらに備えていることが好ましい。
左右レベル調整手段は、例えば、パラメトリックイコライザとして構成される。あるいは、左右レベル調整装手段は、パラメトリックイコライザだけでなく、中心周波数やQやゲインを調整できないフィルタと増幅器によって構成されてもよく、特に限定はされない。左右レベル調整手段によれば、右側音声出力信号および左側音声出力信号に含まれる特定の周波数帯域の成分のみを増幅することができる。
これにより、左音声出力信号または右音声出力信号によって表される周囲の音を強調できるため、臨場感を向上させることができる。しかも、左音声出力信号または右音声出力信号の値を直接調整できるため、より細かな調整が可能となる。
本発明に係る音声信号変換装置では、上記左右レベル調整手段は、略4kHzにおいて、上記右側音声出力信号と上記左側音声出力信号との少なくとも一方のゲインが最小となるように上記値を調整することが好ましい。
これにより、臨場感をより向上させることが可能となる。
本発明に係る音声信号変換装置は、右チャンネルに対応する右側音声信号および左チャンネルに対応する左側音声信号を、中央チャンネルに対応する中央音声出力信号、上記右チャンネルに対応する右側音声出力信号、および上記左チャンネルに対応する左側音声出力信号に変換する音声信号変換装置であって、上記右側音声信号の高域成分の右側音声高域信号および上記左側音声信号の高域成分の左側音声高域信号を生成する高域信号生成手段と、上記右側音声信号の低域成分の右側音声低域信号および上記左側音声信号の低域成分の左側音声低域信号を生成する低域信号生成手段と、上記右側音声高域信号および上記左側音声高域信号に共通に含まれる高域共通成分を抽出する共通成分抽出手段と、上記高域共通成分から上記中央音声出力信号を生成する共通信号生成手段と、上記右側音声高域信号および上記左側音声高域信号から上記高域共通成分をそれぞれ減算し、該減算後の上記右側音声高域信号に上記右側音声低域信号を加算し、該減算後の上記左側音声高域信号に上記左側音声低域信号を加算することによって、上記右側音声出力信号および上記左側音声出力信号を生成する音声出力信号生成手段とを備えていることを特徴としている。
上記の構成によれば、音声信号変換装置は、2チャンネルの音声入力信号を、3チャンネルの音声出力信号に変換する。そして、高域信号生成手段は、上記右側音声信号の高域成分である右側音声高域信号および上記左側音声信号の高域成分である左側音声高域信号を生成する。また、低域信号生成手段は、上記右側音声信号の低域成分である右側音声低域信号および上記左側音声信号の低域成分である左側音声低域信号を生成する。高域信号生成手段および低域信号生成手段は、それぞれが高域信号および低域信号を抽出可能なフィルタの構成であってもよいし、高域信号生成手段と低域信号生成手段のいずれか一方がフィルタであって、他方は原信号から前記フィルタによって出力される信号を減算する構成であってもよく、特に限定はされない。
また、上記の構成によれば、共通成分抽出手段は、上記右側音声高域信号および上記左側音声高域信号に共通に含まれる高域共通成分を抽出する。ここで、高域音声信号には低域の音声が含まれておらず、人の声以外の音声は除かれているため、高域共通成分としては、より厳密に人の声に対応した成分のみが抽出される。なお、高域信号生成手段および低域信号生成手段における遮断周波数は、要求される正確さに応じて設定されればよく、特に限定はされない。そして、共通信号生成手段は、例えばFFTなどによって、人の声に対応した上記高域共通成分から上記中央音声出力信号を生成する。
また、上記の構成によれば、音声出力信号生成手段は、上記右側音声高域信号および上記左側音声高域信号から上記高域共通成分をそれぞれ減算する。つまり、右側音声高域信号および左側音声高域信号のうち、人の声以外、すなわち、周囲の音に対応する成分が算出される。そして、該減算後の上記右側音声高域信号に上記右側音声低域信号を加算し、該減算後の上記左側音声高域信号に上記左側音声低域信号を加算することによって、より厳密に周囲の音に対応した上記右側音声出力信号および上記左側音声出力信号を生成する。
これにより、本発明に係る音声信号変換装置によれば、人の声を表す成分と人の声以外の成分とを、より厳密に分離することが可能となる。したがって、より正確に人の声に対応する音声出力信号と周囲の音に対応する音声出力信号とが生成される。これにより、より厳密に人の声に対応する音声出力信号と周囲の音に対応する音声出力信号とのレベルバランスを変化させることができる。即ち、正確に人の声を強調したり、または、人の声以外(臨場感)を強調した再生が可能となる。
本発明に係る音声信号変換方法は、右チャンネルに対応する右側音声信号および左チャンネルに対応する左側音声信号を、中央チャンネルに対応する中央音声出力信号、上記右チャンネルに対応する右側音声出力信号、および上記左チャンネルに対応する左側音声出力信号に変換する音声信号変換方法であって、上記右側音声信号の高域成分の右側音声高域信号および上記左側音声信号の高域成分の左側音声高域信号を生成する高域信号生成ステップと、上記右側音声信号の低域成分の右側音声低域信号および上記左側音声信号の低域成分の左側音声低域信号を生成する低域信号生成ステップと、上記右側音声高域信号および上記左側音声高域信号に共通に含まれる高域共通成分を抽出する共通成分抽出ステップと、上記高域共通成分から上記中央音声出力信号を生成する共通信号生成ステップと、上記右側音声高域信号および上記左側音声高域信号から上記高域共通成分をそれぞれ減算し、該減算後の上記右側音声高域信号に上記右側音声低域信号を加算し、該減算後の上記左側音声高域信号に上記左側音声低域信号を加算することによって、上記右側音声出力信号および上記左側音声出力信号を生成する音声出力信号生成ステップとを含んでいることを特徴としている。
上記の構成によれば、本発明に係る音声信号変換装置と同様の作用効果を奏する。
また、本発明に係る音声信号変換装置では、上記低域信号生成手段は、上記右側音声信号および上記左側音声信号を低域濾波して、上記右側音声低域信号および上記左側音声低域信号を生成し、上記高域信号生成手段は、上記右側音声信号および上記左側音声信号に上記低域信号生成手段と同一の遅延量を持たせ、遅延した上記右側音声信号から上記右側音声低域信号を減算し、遅延した上記左側音声信号から上記左側音声低域信号を減算して、上記右側音声高域信号および上記左側音声高域信号を生成することが好ましい。
上記の構成によれば、上記低域信号生成手段は、上記右側音声信号および上記左側音声信号を低域濾波する。一方、上記高域信号生成手段は、上記右側音声信号および上記左側音声信号を、上記低域信号生成手段の遅延時間と同じだけ遅延させる。つまり、入力された音声信号と低域信号生成手段を通過した音声信号との位相を合わせる。そして、遅延した上記右側音声信号から上記右側音声低域信号を減算し、遅延した上記左側音声信号から上記左側音声低域信号を減算して、上記右側音声高域信号および上記左側音声高域信号を生成する。
これにより、高域信号生成手段は高域濾波の機能を備えることなく高域信号を生成するため、簡素な部品を用いて、消費電力の少ない音声信号変換装置を構成することができる。
また、本発明に係る音声信号変換装置では、上記低域信号生成手段における低域濾波の遮断周波数は、略100Hzであることが好ましい。
これにより、高域共通成分として、より厳密に人の声に対応した成分を抽出することが可能となるため、より正確に人の声を強調することができるようになる。
本発明に係る音声信号変換装置では、上記高域信号生成手段は、上記右側音声信号および上記左側音声信号を高域濾波して、上記右側音声高域信号および上記左側音声高域信号を生成し、上記低域信号生成手段は、上記右側音声信号および上記左側音声信号に上記高域信号生成手段と同一の遅延量を持たせ、遅延した上記右側音声信号から上記右側音声高域信号を減算し、遅延した上記左側音声信号から上記左側音声高域信号を減算して、上記右側音声低域信号および上記左側音声低域信号を生成することが好ましい。
上記の構成によれば、上記高域信号生成手段は、上記右側音声信号および上記左側音声信号を高域濾波する。一方、上記低域信号生成手段は、上記右側音声信号および上記左側音声信号を、上記低域信号生成手段の遅延時間と同じだけ遅延させる。つまり、入力された音声信号と高域信号生成手段を通過した音声信号との位相を合わせる。そして、遅延した上記右側音声信号から上記右側音声高域信号を減算し、遅延した上記左側音声信号から上記左側音声高域信号を減算して、上記右側音声低域信号および上記左側音声低域信号を生成する。
これにより、低域信号生成手段は低域濾波の機能を備えることなく低域信号を生成するため、簡素な部品を用いて、消費電力の少ない音声信号変換装置を構成することができる。
本発明に係る音声信号変換装置では、上記高域信号生成手段における高域濾波の遮断周波数は、略100Hzであることが好ましい。
これにより、低域共通成分として、より厳密に人の声に対応した成分を抽出することが可能となるため、より正確に人の声を強調することができるようになる。
また、本発明に係る音声信号変換装置では、上記低域信号生成手段は、上記右側音声信号および上記左側音声信号を低域濾波して、上記右側音声低域信号および上記左側音声低域信号を生成し、上記高域信号生成手段は、上記右側音声信号および上記左側音声信号を高域濾波して、上記右側音声高域信号および上記左側音声高域信号を生成することが好ましい。
これにより、高域信号生成手段は高域濾波の機能を有し、低域信号生成手段は低域濾波の機能を有しているため、遅延器を有さず、少ない部品の数によって音声信号変換装置を構成することができる。
また、本発明に係る音声信号変換装置では、上記低域信号生成手段における低域濾波の遮断周波数、および、上記高域信号生成手段における高域濾波の遮断周波数は、共に略100Hzであることが好ましい。
これにより、高域共通成分として、より厳密に人の声に対応した成分を抽出することが可能となるため、より正確に人の声を強調することができるようになる。
また、本発明に係る音声信号変換装置では、上記低域信号生成手段の遅延量と上記高域信号生成手段の遅延量とは等しいことが好ましい。すなわち、入力された音声信号と低域信号生成手段を通過した音声信号との位相を合わせることが好ましい。
なお、音声信号変換装置は、コンピュータによって実現してもよい。この場合、コンピュータを上記各手段として動作させることにより上記音声信号変換装置をコンピュータにおいて実現する制御プログラム、およびその制御プログラムを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
本発明に係る音声信号変換装置は、右チャンネルに対応する右側音声信号および左チャンネルに対応する左側音声信号を、中央チャンネルに対応する中央音声出力信号、上記右チャンネルに対応する右側音声出力信号、および上記左チャンネルに対応する左側音声出力信号に変換する音声信号変換装置であって、上記右側音声信号および上記左側音声信号に共通に含まれる共通成分を抽出する共通成分抽出手段と、上記共通成分から上記中央音声出力信号を生成する中央音声出力信号生成手段と、上記右側音声信号および左側音声信号から上記共通成分をそれぞれ減算することによって、上記右側音声出力信号および上記左側音声出力信号を生成する左右音声出力信号生成手段とを備えている。
それゆえ、本発明に係る音声信号変換装置は、人の声を表す音声信号と、周囲の音を表す音声信号とを独立して調整でき、人の声を表す音声信号と周囲の音を表す音声信号とのレベルバランスを調整できるため、人の声を強調して、聴き取り易くすることができる。
また、本発明に係る音声信号変換装置は、右チャンネルに対応する右側音声信号および左チャンネルに対応する左側音声信号を、中央チャンネルに対応する中央音声出力信号、上記右チャンネルに対応する右側音声出力信号、および上記左チャンネルに対応する左側音声出力信号に変換する音声信号変換装置であって、上記右側音声信号の高域成分の右側音声高域信号および上記左側音声信号の高域成分の左側音声高域信号を生成する高域信号生成手段と、上記右側音声信号の低域成分の右側音声低域信号および上記左側音声信号の低域成分の左側音声低域信号を生成する低域信号生成手段と、上記右側音声高域信号および上記左側音声高域信号に共通に含まれる高域共通成分を抽出する共通成分抽出手段と、上記高域共通成分から上記中央音声出力信号を生成する共通信号生成手段と、上記右側音声高域信号および上記左側音声高域信号から上記高域共通成分をそれぞれ減算し、該減算後の上記右側音声高域信号に上記右側音声低域信号を加算し、該減算後の上記左側音声高域信号に上記左側音声低域信号を加算することによって、上記右側音声出力信号および上記左側音声出力信号を生成する音声出力信号生成手段とを備えている。
それゆえ、本発明に係る音声信号変換装置によれば、人の声を表す成分と人の声以外の成分とを、より厳密に分離することが可能となり、より正確に人の声に対応する音声出力信号と周囲の音に対応する音声出力信号とのレベルバランスを変化させることができるため、人の声を強調する場合において、または、人の声以外(臨場感)を強調する場合において確度を高めることができるようになる。
〔実施の形態1〕
(音声信号変換装置1)
図1は、本発明に係る音声信号変換装置1の構成を示すブロック図である。本発明に係る音声信号変換装置1は、スペクトル変換部2と共通成分抽出部3(共通成分抽出手段)と乗算部4と逆変換部5とパラメトリックイコライザ(PEQ;Parametric Equalizer)部6と減算器7、8と入力端子12と出力端子13とを備えている。
スペクトル変換部2は、スペクトル変換部2a、および2bを含んで構成される。乗算部4は、乗算部4a(左右成分低減手段、左右成分増幅手段)、乗算部4b(中央音声出力信号増幅手段、中央音声出力信号低減手段)、および乗算部4c(左右成分低減手段、左右成分増幅手段)を含んで構成される。逆変換部5は、逆変換部5a(左右音声出力信号生成手段)、逆変換部5b(中央音声出力信号生成手段)、および逆変換部5c(左右音声出力信号生成手段)を含んで構成される。PEQ部6は、PEQ部6a(左右レベル調整手段)、PEQ部6b(中央レベル調整手段)、およびPEQ部6c(左右レベル調整手段)を含んで構成される。入力端子12は、入力端子12a、および12bを含んで構成される。出力端子13は、出力端子13a、13b、および13cを含んで構成される。
音声信号変換装置1は、テレビ受信装置などに実装され、放送中の番組の音声を強調する装置である。ここで、音声とは、台詞やボーカルなどの人の声を指し、人の声以外の音(例えば、周囲の雑音やBGMや効果音など)と区別する。つまり、音声信号変換装置1は、放送番組中の人の声を強調する装置である。なお、音声信号と表現した場合、番組中の音声と音声以外の音も含めた全ての音を表す信号を指す。
本実施の形態では、音声信号変換装置1には、PCM(Pulse Code Modulation)によってデジタル符号化された2チャンネルの音声信号が入力される。通常、ステレオ放送などでは、入力された2チャンネルの音声信号に基づいて、テレビに備えられている左右のスピーカに異なる音声信号が供給され、左右のスピーカからは異なる音声が出力される。
以下では、通常のステレオ放送において左右のスピーカに供給される音声信号を、それぞれ、左側音声信号(左チャンネルに対応する左側音声信号)、および右側音声信号(右チャンネルに対応する右側音声信号)と呼ぶ。右側音声信号、および、左側音声信号は、それぞれ、入力端子12a、および、入力端子12bを介して音声信号変換装置1に入力される。
また、本実施の形態では、音声信号変換装置1は、上記の右側音声信号と左側音声信号との2チャンネルの音声信号に基づいて、左右、および、中央の3つのスピーカを介して音声を出力する。つまり、音声信号変換装置1は、入力された2チャンネルの音声信号を、左チャンネル、右チャンネル、および、中央チャンネルの3チャンネルの音声出力信号に変換し、各スピーカに供給する構成である。
以下に、図1に示す音声信号変換装置1における音声強調の処理について説明する。
スペクトル変換部2は、各チャンネルの音声信号のスペクトルを算出するための各種の処理を行う。スペクトル変換部2について詳細に説明すれば次のとおりである。
まず、スペクトル変換部2aは、入力端子12aを介して入力された右側音声信号を、1フレームあたり1024サンプルに分割する。音声信号のサンプリング周波数が44.1kHzの場合、1フレームあたりの時間は、23ms(=(1÷44100)×1024)となる。
次に、スペクトル変換部2aは、フレーム分割された音声信号に対し、ハニング窓などの窓関数を掛ける。窓関数を適用することにより、フレーム分割された音声信号についての周波数解析の誤差を低減できる。本実施の形態では、窓関数としてハニング窓を用いているが、ハニング窓以外の窓関数であってもよく、特に限定はされない。
次に、スペクトル変換部2aは、フレームごとに、窓関数が適用された音声信号に対して高速フーリエ変換(FFT:Fast Fourier Transform)を行い、時間領域の音声信号を周波数領域のデータ、すなわち、スペクトル(以下では、右側音声信号スペクトルと呼ぶ)に変換して、共通成分抽出部3と減算器7とに出力する。
ここで、右側音声信号をxr(n)、右側音声信号スペクトルをXR(k)、窓関数w(n)とすると、スペクトル変換部2aは、次式によって右側音声信号スペクトルXR(k)を算出する。なお、nはサンプリング番号である。本実施の形態においては、上述したとおり、1フレームに1024サンプルが含まれており、スペクトル変換部2aは1024ポイントのFFTを行う。
本実施の形態では、音声信号から周波数スペクトルを算出するためにFFTを行っているが、修正離散コサイン変換(MDCT:Modified Discrete Cosine Transform)によって周波数スペクトルを算出する構成であってもよく、特に限定はされない。
また、スペクトル変換部2bは、スペクトル変換部2aと同様の処理により、入力端子12bを介して入力された左側音声信号のスペクトル(以下では、左側音声信号スペクトルと呼ぶ)を算出し、共通成分抽出部3と減算器8とに出力する。ここで、左側音声信号をxl(n)、左側音声信号スペクトルをXL(k)、窓関数w(n)とすると、スペクトル変換部2aは、次式によって左側音声信号スペクトルXL(k)を算出する。
共通成分抽出部3は、右側音声信号スペクトルと左側音声信号スペクトルとの共通成分を抽出する。図2は、共通成分を説明するための図であり、(a)は右側音声信号スペクトル(Rチャンネル)と左側音声信号スペクトル(Lチャンネル)との共通成分を示す図であり、(b)は共通成分のみを示す図である。
共通成分抽出部3は、共通成分スペクトルC(k)をC(k)=MIN(XL(k),XR(k))によって算出し、減算器7、8、および乗算部4bに出力する。つまり、共通成分抽出部3は、XR(k)とXL(k)との小さいほうのスペクトルを共通成分として抽出する。
上述したとおり、本発明の音声信号変換装置1には、ステレオ放送の番組などにおける2チャンネルの入力信号が入力される。一般的なステレオ放送の番組では、音声は音声収録用の1チャンネルマイクによって収録され、ボーカルを除くBGMや効果音等は、予め左右の2つのマイク(ステレオ)で収録されている。これら3つのマイクによって録音された番組を2チャンネルでステレオ放送する場合、3チャンネルの信号を2チャンネルにダウンミックスすることになる。すなわち、音声収録用の1チャンネルマイクによって録音された人の声の音声信号は、左右の2つのマイクによって録音された周囲の音の信号とミックスされて、2チャンネルの音声信号が送出されることになる。このとき、人の声の信号と周囲の音の信号とをミックスする比率は、放送局において設定される。この場合、上記の右側音声信号は右マイク、および、音声収録用の1チャンネルマイクによって録音された音声をミックスした音声信号である。また、上記の左側音声信号は、左マイク、および、音声収録用の1チャンネルマイクによって録音された音声をミックスした音声信号である。そのため、この場合にも、人の声を表す音声信号は、左側音声信号、および、右側音声信号に共通して含まれる。なお、ボーカルを含む音楽は、同様にボーカルが、音声収録用の1チャンネルマイクによって収録され、楽器音は左右の2つのマイク(ステレオ)で収録されたのち、レコーディングエンジニアによって2チャンネルにダウンミックスされている。前述のような背景を利用してダウンミックスされた2チャンネルの音声信号を、元のダウンミックス前の3チャンネルにおおよそ復元する。ここで、おおよそとは、予め左右の2つのマイク(ステレオ)で収録された信号にも共通成分があり、完全に復元するものではないことを意味する。
つまり、共通成分抽出部3は、右側音声信号、および、左側音声信号に共通して含まれている主として人の声を表す音声信号の成分を、共通成分として抽出する。
減算器7は、スペクトル変換部2aから出力された右側音声信号スペクトルXR(k)から、共通成分抽出部3から出力された共通成分スペクトルC(k)を減算して、右成分スペクトルXR’(k)を算出し、乗算部4aに出力する。つまり、減算器7は、XR’(k)=XR(k)−C(k)の演算を行う。
減算器8は、スペクトル変換部2bから出力された左側音声信号スペクトルXL(k)から、共通成分抽出部3から出力された共通成分スペクトルC(k)を減算して、左成分スペクトルXL’(k)を算出し、乗算部4cに出力する。つまり、減算器8は、XL’(k)=XL(k)−C(k)の演算を行う。
図3は、右側音声信号スペクトル(Rチャンネル)、および、左側音声信号スペクトル(Lチャンネル)から共通成分スペクトルを除いた残りの成分を示す図であり、(a)は左成分スペクトルXL’(k)を示す図であり、(b)は右成分スペクトルXR’(k)を示す図である。
ここで、左成分スペクトルXL’(k)、および、右成分スペクトルXR’(k)は、主として人の声以外の音(BGMや効果音や雑音などの周囲の音)を表す成分である。
乗算部4aは、減算器7から出力されたXR’(k)に乗数M1(0≦M1≦1)を乗じてXR”(k)(=M1×XR’(k))を算出し、逆変換部5aに出力する。また、乗算部4bは、共通成分抽出部3から出力されたC(k)に乗数M2(0≦M2≦1)を乗じてC”(k)(=M2×C(k))を算出し、逆変換部5bに出力する。さらに、乗算部4cは、減算器8から出力されたXL’(k)に乗数M1を乗じてXL”(k)(=M1×XL’(k))を算出し、逆変換部5cに出力する。
以下では、XR”(k)、C”(k)、および、XL”(k)を、それぞれ、右成分出力スペクトル、共通成分出力スペクトル、および、左成分出力スペクトルと称する。
図4は、右成分出力スペクトルXR”(k)、および、左成分出力スペクトルXL”(k)を示す図であり、(a)は図3(a)に示す右成分スペクトルに乗数M1を乗じて算出された右成分出力スペクトルXR”(k)を示す図であり、(b)は図3(b)に示す左成分スペクトルに乗数M1を乗じて算出された左成分出力スペクトルXL”(k)を示す図である。
左成分出力スペクトルXL”(k)、および、右成分出力スペクトルXR”(k)は、周囲の音(人の声以外の音)を表す音声信号の成分である。
逆変換部5aは、周波数領域の情報である右成分出力スペクトルXR”(k)を逆FFTによって時間領域の信号波形に変換して右のスピーカに出力する音声出力信号(右チャンネルに対応する右側音声出力信号)を生成し、PEQ部6aに出力する。また、逆変換部5bは、逆変換部5aと同様の処理を行い、周波数領域の情報である共通成分出力スペクトルC”(k)を逆FFTによって時間領域の信号波形に変換して中央のスピーカに出力する音声出力信号(中央チャンネルに対応する中央音声出力信号)を生成し、PEQ部6bに出力する。逆変換部5cは、逆変換部5cと同様の処理を行い、周波数領域の情報である左成分出力スペクトルXL”(k)を逆FFTによって時間領域の信号波形に変換して左のスピーカに出力する音声出力信号(左チャンネルに対応する左側音声出力信号)を生成し、PEQ部6cに出力する。
なお、時間波形をFFTして周波数領域に変換し、上記共通成分抽出等を行った後、逆FFTにより再度時間軸の信号波形に戻す場合、フレームのつなぎ目で発生する歪み(高調波成分)を軽減するため、FFT処理前の時間波形の切り出しの始めと終わりの部分を、滑らかに0に近づける窓関数をかける。本実施の形態では、フレームの切り出し時間をtとすると、切り出し時間を1/2tだけずらして、切り出した夫々の波形にハニング窓関数を掛け、逆FFT後のデータに前後1/2tのオーバーラップを行って加算し、連続する時間波形に戻す。本実施の形態では、ハニング窓の形状にあわせて、1/2tのオーバーラップを行っているが、窓の形状に応じたオーバーラップ長を設定すればよく、特に限定はされない。
臨場感を高めたい場合、すなわち、周囲の音を強調したい場合、PEQ部6aは、逆変換部5aから出力される右チャンネルの音声出力信号に対し、等ラウドネス曲線の特性のパラメトリックイコライザを施し、出力端子13aを介して右チャンネルのスピーカに出力する。あるいは、乗算部4aにおいて、減算された右側音声信号に対し、1より大きい乗数を乗じることによっても臨場感を高めることができる。
図5は、略2kHzをピークとした人の声の帯域を強調するパラメトリックイコライザの周波数特性例を示す図であり、図6は、等ラウドネス曲線に基づいて作成した略4kHzを最小値とするパラメトリックイコライザの周波数特性例を示す図である。また、図7はロビンソンらが測定した等ラウドネス曲線を示す図である。
人の声を聞こえ易くしたい場合、すなわち、人の声を強調したい場合、PEQ部6bは、逆変換部5bから出力される中央チャンネルの音声出力信号に対し、図5の如く、2kHzをピークとした音声帯域を強調するパラメトリックイコライザを施し、出力端子13bを介して中央チャンネルのスピーカに出力する。あるいは、乗算部4bにおいて、抽出された共通成分に対し、1より大きい乗数を乗じることによっても人の声を聞こえ易くできる。
また、PEQ部6cは、PEQ部6aと同様、臨場感を高めたい場合、すなわち、周囲の音を強調したい場合、逆変換部5cから出力される左チャンネルの音声出力信号に対し、図6の如く、等ラウドネス曲線の特性のパラメトリックイコライザを施し、出力端子13cを介して左チャンネルのスピーカに出力する。あるいは、乗算部4cにおいて、減算された左側音声信号に対し、1より大きい乗数を乗じることによっても臨場感を高めることができる。
ここで、ラウドネスとは、人間の音の感じ方を感覚量として表した数値である。ラウドネスは、音の強度を表す物理量である音圧とは区別される。一般的に人間の聴覚は4kHz付近(赤ちゃんの鳴き声など)において最も感度がよく、そこから低周波または高周波になるにつれ、感度が悪くなる。そのため、同じ音の大きさに聞こえた場合であっても、実際の物理的な音圧レベルは異なる。また、音圧が2倍になったとしても、人は音の大きさが2倍大きくなったと感じるわけではない。そして、等ラウドネス曲線とは、1kHzの基準音と等しいラウドネスに聞こえた他の周波数の音圧をプロットしたものであり、図7の如く、4kHz付近において最小値をとる略V字の曲線となる。また、等ラウドネス曲線は、音圧が高くなるにつれて特性が平坦に近づくため、図6で示すパラメトリックイコライザの特性も入力音声信号の入力レベルに応じて変更することが好ましい。
また、パラメトリックイコライザは、オーディオ周波数帯域を数分割することによって、それぞれの帯域ごとに通過レベルのゲイン(1以下を含む)等を調整できるイコライザであり、「中心周波数」、「ゲイン」、「Q(Quality factor)」という3つのパラメータにより、通過帯域の中心周波数や周波数帯域幅を独立に変更調節することができる。ここでQ値とは、中心周波数のレベルから3dB減衰した、または増幅された周波数帯域幅(Δω)と中心周波数ω0の比Q=ω0/Δωで表される。
つまり、上述したPEQ部6a、および、PEQ部6cでは、等ラウドネス曲線の特性、すなわち、4kHzにおいて通過レベルが最小となる略V字の特性を示すように「中心周波数」と「ゲイン」と「Q(Quality factor)」とが設定されたイコライザが施される。
なお、本実施の形態では、2kHzをピークとした音声帯域を強調する手段として、PEQ部6bを使用したが、PEQ以外のフィルタと増幅器の組み合わせを用いて実現されてもよい。また、FFT後のスペクトルに対して、乗算部4bを用い、2kHzをピークとする重み付けを直接行っても良い。また、周囲の音を強調する手段として、PEQ部6aとPEQ部6cを使用したが、PEQ以外のフィルタと増幅器の組み合わせを用いて実現されてもよい。また、FFT後のスペクトルに対して、乗算部4aと乗算部4cを用いて、等ラウドネス曲線の特性の重み付けを行っても良く、特に限定されない。
本発明に係る音声信号変換装置1では、左成分スペクトルXL’(k)と右成分スペクトルXR’(k)とに乗じる乗数M1を小さくすれば音声を強調することができる。例えば、共通成分スペクトルに乗じる乗数を1として共通成分スペクトルを生成し、右成分スペクトルと左成分スペクトルとに1未満の乗数を乗じて、左成分出力スペクトル、および右成分出力スペクトルを小さくした場合、人の声に対応する音声出力信号の大きさは変化せず、周囲の音に対応する音声出力信号のみが小さくなるため、共通成分出力スペクトル、左成分出力スペクトル、および右成分出力スペクトルから生成された各音声出力信号に基づいてスピーカから出力される音声は、人の声が強調される。また、右成分スペクトルと左成分スペクトルとに乗数として0を乗じれば、より人の声を強調できる。
一方、共通成分スペクトルの大きさを変化させることなく、左成分スペクトルXL’(k)と右成分スペクトルXR’(k)とに乗じる乗数M1を大きくすれば、周囲の音に対応する音声出力信号が大きくなり、スピーカから出力される周囲の音が大きくなるため、臨場感を高めることができる。
また、右成分スペクトルと左成分スペクトルの大きさを変化させることなく、共通成分スペクトルC(k)に乗じる乗数を大きくすれば音声を強調することができる。一方、共通成分スペクトルC(k)に乗じる乗数を小さくすれば臨場感を高めることができる。さらに、共通成分スペクトルに乗数として0を乗じれば、より臨場感を高めることができる。
本実施の形態では、右成分出力スペクトルXR”(k)、共通成分出力スペクトルC”(k)、および、左成分出力スペクトルXL”(k)を算出する場合、右成分スペクトルXR’(k)、共通成分スペクトルC(k)、および、左成分スペクトルXL’(k)に、乗数M1、M2として0〜1の間の数値を乗じる構成だが、1以上の乗数を乗じる構成であってもよく、特に限定はされない。また、左成分スペクトルXL’(k)と右成分スペクトルXR’(k)とに、それぞれ、異なる乗数を乗じる構成であってもよく、特に限定はされない。
なお、本実施の形態では、左成分スペクトルXL’(k)、右成分スペクトルXR’(k)、および共通成分スペクトルC(k)にM1(0〜1の乗数)を乗じることによって、最終的に左チャンネル、右チャンネル、および中央チャネルに出力される音声出力信号のレベルバランスを変化させる構成であるが、左成分スペクトルXL’(k)、右成分スペクトルXR’(k)、および共通成分スペクトルC(k)に乗数を乗じることなく逆FFTを施して時間波形に変換し、変換により得られた左チャンネル、右チャンネル、および中央チャネルに対応する音声出力信号を乗数M1、M2と同じ入出力特性となる増幅、減衰器によってそれぞれ増幅、減衰して、各音声出力信号のレベルバランスを変化させる構成であってもよく、特に限定はされない。
すなわち、乗算部4は、スペクトル成分に乗数を乗じる構成のほか、スペクトル成分に逆FFTなどを施して時間波形を表す音声信号に変換した後、減衰器によって減衰させる構成、あるいは、増幅器によって増幅させる構成によって実現されてもよく、特に限定はされない。
また、この音声出力信号のレベルバランスを変化させる処理は、PEQ部6において実現されてもよいし、PEQ部6以外のフィルタと増幅器の組み合わせを用いて実現されてもよく、特に限定はされない。例えば、PEQ部6bにおいて主に人の声に対応する音声信号を増幅すれば、人の声を強調する構成を実現できる。また、PEQ部6aまたは6cにおいて周囲の音に対応する音声信号を増幅すれば、臨場感を高める構成を実現できる。
〔実施の形態2〕
以下では、図8〜9を参照して、人の声をより強調することが可能な音声信号変換装置1a、1bについて説明する。
音声信号変換装置1a、1bは、音声信号変換装置1と同様、テレビ受信装置などに実装され、放送中の番組の音声を強調する装置である。ここで、音声とは、台詞やボーカルなどの人の声を指し、人の声以外の音(例えば、周囲の雑音やBGMや効果音など)と区別する。つまり、音声信号変換装置1aは、放送番組中の人の声を強調する装置である。なお、音声信号と表現した場合、番組中の音声と音声以外の音も含めた全ての音を表す信号を指す。
本実施の形態では、音声信号変換装置1a、1bには、PCM(Pulse Code Modulation)によってデジタル符号化された2チャンネルの音声信号が入力される。通常、ステレオ放送などでは、入力された2チャンネルの音声信号に基づいて、テレビに備えられている左右のスピーカに異なる音声信号が供給され、左右のスピーカからは異なる音声が出力される。
以下では、通常のステレオ放送において左右のスピーカに供給される音声信号を、それぞれ、左側音声信号(左チャンネルに対応する左側音声信号)、および右側音声信号(右チャンネルに対応する右側音声信号)と呼ぶ。右側音声信号、および、左側音声信号は、それぞれ、入力端子12a、および、入力端子12bを介して音声信号変換装置1a、1bに入力される。
本実施の形態に係る音声信号変換装置1a、1bは、いずれも、入力される右側音声信号および左側音声信号について、高域成分の音声信号と低域成分の音声信号とに分けて、右側音声信号の高域成分(以下では、右側音声高域信号と称す)と左側音声信号の高域成分(以下では、左側音声高域信号と称する)について、共通成分を抽出する構成である。ここで、共通成分は、主としてボーカルや台詞などの人の声に対応しているが、厳密には、楽器の低音や騒音等も含んでいる。そこで、共通成分を、例えば、人の声に相当する100Hz以上の高域成分について抽出すれば、共通成分から人の声以外の成分をより厳密に除去することができる。これにより、人の声をより正確に強調することが可能となる。以下に、音声信号変換装置1a、1bにおける音声強調の処理について、より詳細に説明する。
(音声信号変換装置1a)
本発明に係る音声信号変換装置1aについて、図8を参照して説明すれば、以下のとおりである。音声信号変換装置1aは、上記の右側音声信号と左側音声信号との2チャンネルの音声信号に基づいて、左右、および、中央の3つのスピーカを介して音声を出力する。つまり、音声信号変換装置1aは、入力された2チャンネルの音声信号を、左チャンネル、右チャンネル、および、中央チャンネルの3チャンネルの音声出力信号に変換し、各スピーカに供給する構成である。
図8は、本発明に係る音声信号変換装置1aの構成を示すブロック図である。音声信号変換装置1aは、スペクトル変換部2と共通成分抽出部(共通成分抽出手段)3と乗算部4と逆変換部(共通信号生成手段、音声出力信号生成手段)5とパラメトリックイコライザ(PEQ;Parametric Equalizer)部6と減算器7、8と入力端子12と出力端子13と、遅延部(高域信号生成手段)21、23と減算器(高域信号生成手段)27、28と低域通過フィルタ部(低域信号生成手段)22、24と加算器(音声出力信号生成手段)25、26とを備えている。
右側音声信号、および、左側音声信号は、それぞれ、入力端子12a、および、入力端子12bを介して音声信号変換装置1aに入力される。そして、入力端子12aに入力された右側音声信号は、遅延部21と低域通過フィルタ部22(例えばローパスフィルタ)とに入力される。また、入力端子12bに入力された左側音声信号は、遅延部23と低域通過フィルタ部24とに入力される。
低域通過フィルタ部22は、入力された右側音声信号を低域濾波して、加算器25と減算器27とに出力する。すなわち、右側音声信号の低域成分(以下では、右側音声低域信号と称する)のみを通過させる。本実施の形態においては、上記低域濾波の遮断周波数は略100Hzである。しかしながら、遮断周波数は、要求される精度に応じて100Hz以外の遮断周波数であってもよく、特に限定はされない。
遅延部21は、入力された右側音声信号を遅延させて、減算器27に出力する。ここで、遅延部21における遅延量は、低域通過フィルタ部22における遅延量(すなわち、入力された右側音声信号が低域濾波されて右側音声低域信号として出力されるまでに要する時間)と同じであることが好ましい。これにより、遅延部21からの遅延した右側音声信号と低域通過フィルタ部22からの右側音声低域信号の位相を合わせることができる。
減算器27は、遅延部21からの遅延した右側音声信号から、低域通過フィルタ部22からの右側音声低域信号を減算して、スペクトル変換部2aに出力する。上述のとおり、遅延部21からの遅延した右側音声信号と低域通過フィルタ部22からの右側音声低域信号の位相は同期しているため、減算器27からは、右側音声信号の高域成分(以下では、右側音声高域信号と称する)が出力される。
なお、本実施の形態においては、低域通過フィルタ部22と遅延部21および減算部27との組み合わせによって低域信号および高域信号を出力する構成であるが、高域通過フィルタ部と遅延部および減算部との組み合わせによって高域信号および低域信号を出力する構成であってもよく特に限定はされない。
スペクトル変換部2aは、FFTなどによって、右側音声高域信号から周波数スペクトル(以下では、右側音声高域信号スペクトルXR(k)と呼ぶ)を算出し、共通成分抽出部3と減算器7とに出力する。なお、スペクトル変換部2の処理は、音声信号変換装置1における処理と同じであるため、詳細な説明は省略する。
また、入力端子12bに入力された左側音声信号は、入力端子12aに入力された右側音声信号と同様に、遅延部23と低域通過フィルタ部24とに入力され、それぞれ、遅延した左側音声信号と左側音声信号の低域成分(以下では、左側音声低域信号と称する)とを減算器28に出力する。ここで、遅延部23における遅延量は、低域通過フィルタ部24における遅延量と同じであることが好ましい。なお、低域通過フィルタ部24は、左側音声低域信号を加算器26にも出力する。そして、減算器28は、遅延部23からの遅延した左側音声信号から、低域通過フィルタ部24からの左側音声低域信号を減算して、左側音声信号の高域成分(以下では、左側音声高域信号と称する)をスペクトル変換部2bに出力する。そして、スペクトル変換部2bは、FFTなどによって、左側音声高域信号から周波数スペクトル(以下では、左側音声高域信号スペクトルXL(k)と呼ぶ)を算出し、共通成分抽出部3と減算器8とに出力する。なお、スペクトル変換部2の処理は、音声信号変換装置1における処理と同じであるため、詳細な説明は省略する。
共通成分抽出部3は右側音声高域信号スペクトルXR(k)と左側音声高域信号スペクトルXL(k)との小さいほうのスペクトルを共通成分として抽出する。つまり、共通成分抽出部3は、右側音声高域信号、および、左側音声高域音声信号に共通して含まれている主として人の声を表す音声信号の成分を、高域共通成分C(k)として抽出する。なお、共通成分抽出部3の処理は、音声信号変換装置1における処理と同じであるため、詳細な説明は省略する。
減算器7は、スペクトル変換部2aから出力された右音声高域信号スペクトルXR(k)から、共通成分抽出部3から出力された高域共通成分スペクトルC(k)を減算して、右高域成分スペクトルXR’(k)を算出し、乗算部4aに出力する。つまり、減算器7は、XR’(k)=XR(k)−C(k)の演算を行う。
減算器8は、スペクトル変換部2bから出力された左側音声高域信号スペクトルXL(k)から、共通成分抽出部3から出力された高域共通成分スペクトルC(k)を減算して、左高域成分スペクトルXL’(k)を算出し、乗算部4cに出力する。つまり、減算器8は、XL’(k)=XL(k)−C(k)の演算を行う。
ここで、左高域成分スペクトルXL’(k)、および、右高域成分スペクトルXR’(k)は、主として人の声以外の音(BGMや効果音や雑音などの周囲の音)を表す成分である。
乗算部4aは、減算器7から出力されたXR’(k)に乗数M1(0≦M1≦1)を乗じてXR”(k)(=M1×XR’(k))を算出し、逆変換部5aに出力する。また、乗算部4bは、共通成分抽出部3から出力されたC(k)に乗数M2(0≦M2≦1)を乗じてC”(k)(=M2×C(k))を算出し、逆変換部5bに出力する。さらに、乗算部4cは、減算器8から出力されたXL’(k)に乗数M1を乗じてXL”(k)(=M1×XL’(k))を算出し、逆変換部5cに出力する。
以下では、XR”(k)、C”(k)、および、XL”(k)を、それぞれ、右高域成分出力スペクトル、高域共通成分出力スペクトル、および、左高域成分出力スペクトルと称する。
左高域成分出力スペクトルXL”(k)、および、右高域成分出力スペクトルXR”(k)は、周囲の音(人の声以外の音)を表す音声信号の成分である。
逆変換部5aは、周波数領域の情報である右高域成分出力スペクトルXR”(k)を逆FFTによって時間領域の信号波形に変換して、加算器25に出力する。また、逆変換部5bは、逆変換部5aと同様の処理を行い、周波数領域の情報である共通成分出力スペクトルC”(k)を逆FFTによって時間領域の信号波形に変換して、中央のスピーカに出力する音声出力信号(中央チャンネルに対応する中央音声出力信号)を生成し、PEQ部6bに出力する。逆変換部5cは、逆変換部5cと同様の処理を行い、周波数領域の情報である左高域成分出力スペクトルXL”(k)を逆FFTによって時間領域の信号波形に変換して、加算器26に出力する。
また、上述のとおり、加算器25には、低域通過フィルタ部22から左側音声低域信号が入力されており、加算器26には、低域通過フィルタ部24から右側音声低域信号が入力されている。
加算器25は、右高域成分出力スペクトルXR”(k)を逆FFTして得られる信号と右側音声低域信号とを加算して、右チャンネルに対応する右側音声出力信号を生成し、PEQ部6aに出力する。また、加算器26は、左高域成分出力スペクトルXL”(k)を逆FFTして得られる信号と左側音声低域信号とを加算して、左チャンネルに対応する左側音声出力信号を生成し、PEQ部6cに出力する。
PEQ部6aは、加算器25から出力される右側音声出力信号に対し、ラウドネス曲線の特性のパラメトリックイコライザを施し、出力端子13aを介して右チャンネルのスピーカに出力する。また、PEQ部6bは、逆変換部5bから出力される中央チャンネルの音声出力信号に対し、2kHzをピークとした音声帯域を強調するパラメトリックイコライザを施し、出力端子13bを介して中央チャンネルのスピーカに出力する。また、PEQ部6cは、加算器26から出力される左側音声出力信号に対し、等ラウドネス曲線の特性のパラメトリックイコライザを施し、出力端子13cを介して左チャンネルのスピーカに出力する。
以上のとおり、音声信号変換装置1aは入力された左右の音声信号の高域成分について共通成分を抽出する構成であるため、人の声を表す成分と人の声以外の成分とを、より厳密に分離することが可能となる。したがって、より厳密に人の声に対応する音声出力信号と周囲の音に対応する音声出力信号とが生成される。これにより、より正確に人の声に対応する音声出力信号と周囲の音に対応する音声出力信号とのレベルバランスを変化させることができるため、人の声を強調する場合においても確度を高めることができるようになる。
なお、本実施の形態では、遅延部21、23において遅延させた入力信号から、低域通過フィルタ部22、24において低域濾波して得られた右側音声低域信号および左側音声低域信号を減算して、右側音声高域信号および左側音声高域信号を生成する構成であるが、高域通過フィルタ部をさらに備えている構成であってもよい。すなわち、遅延部において遅延させた入力信号から、高域通過フィルタ部において高域濾波して得られた右側音声高域信号および左側音声高域信号を減算して右側音声低域信号および左側音声低域信号を生成する構成であってもよく、特に限定はされない。
(音声信号変換装置1b)
本発明に係る音声信号変換装置1bについて、図9を参照して説明すれば、以下のとおりである。音声信号変換装置1bは、上記の右側音声信号と左側音声信号との2チャンネルの音声信号に基づいて、左右、および、中央の3つのスピーカを介して音声を出力する。つまり、音声信号変換装置1bは、入力された2チャンネルの音声信号を、左チャンネル、右チャンネル、および、中央チャンネルの3チャンネルの音声出力信号に変換し、各スピーカに供給する構成である。
図9は、本発明に係る音声信号変換装置1bの構成を示すブロック図である。音声信号変換装置1aは、スペクトル変換部2と共通成分抽出部(共通成分抽出手段)3と乗算部(成分低減手段)4と逆変換部(共通信号生成手段、音声出力信号生成手段)5とパラメトリックイコライザ(PEQ;Parametric Equalizer)部6と減算器7、8と入力端子12と出力端子13と、高域通過フィルタ部(高域信号生成手段)31、33と低域通過フィルタ部(低域信号生成手段)32、34と加算器(音声出力信号生成手段)35、36とを備えている。
音声信号変換装置1bは、高域通過フィルタ部31、33および低域通過フィルタ部32、34以外の各部については、音声信号変換装置1aと同様の構成のため、以下では、音声信号変換装置1aと異なる構成についてのみ説明する。
右側音声信号、および、左側音声信号は、それぞれ、入力端子12a、および、入力端子12bを介して音声信号変換装置1aに入力される。そして、入力端子12aに入力された右側音声信号は、高域通過フィルタ部31(例えばハイパスフィルタ)と低域通過フィルタ部32とに入力される。また、入力端子12bに入力された左側音声信号は、高域通過フィルタ部33と低域通過フィルタ部34とに入力される。
高域通過フィルタ部31は、入力された右側音声信号を高域濾波して、スペクトル変換部2aに出力する。すなわち、右側音声信号の高域成分(以下では、右側音声高域信号と称する)のみを通過させる。同様に、高域通過フィルタ部33は、入力された右側音声信号を高域濾波して、スペクトル変換部2bに出力する。すなわち、左側音声信号の高域成分(以下では、左側音声高域信号と称する)のみを通過させる。本実施の形態においては、上記低域濾波の遮断周波数は略100Hzである。しかしながら、遮断周波数は、要求される精度に応じて100Hz以外の遮断周波数であってもよく、特に限定はされない。
低域通過フィルタ部32は、入力された右側音声信号を低域濾波して、加算器35に出力する。すなわち、右側音声信号の低域成分(以下では、右側音声低域信号と称する)のみを通過させる。同様に、低域通過フィルタ部34は、入力された左側音声信号を低域濾波して、加算器36に出力する。すなわち、左側音声信号の低域成分(以下では、左側音声低域信号と称する)のみを通過させる。本実施の形態においては、上記低域濾波の遮断周波数は略100Hzである。しかしながら、遮断周波数は、要求される精度に応じて100Hz以外の遮断周波数であってもよく、特に限定はされない。ここで、高域通過フィルタ部31、33における遅延量と低域通過フィルタ部32、34における遅延量とは、同じであることが好ましい。
音声信号変換装置1aは、遅延部21、23と低域通過フィルタ部22、24とを用い、入力された音声信号の低域成分について直接抽出し、高域成分については原信号から低域成分を減算して抽出する構成であるのに対して、音声信号変換装置1bは、高域通過フィルタ部31、33と低域通過フィルタ部32、34とを用いることによって、入力された音声信号から、直接、高域成分と低域成分とを抽出する構成であり、この点においてのみ、音声信号変換装置1aと異なる。音声信号変換装置1bを構成する他の各部の動作については、音声信号変換装置1aと同様であり、説明は省略する。
なお、本発明を、以下のように表現することも可能である。
(第1の構成)
音声を含む2チャンネルのステレオソース信号を入力し、センター成分を含む3チャンネルで再生する再生装置において、入力ソースを時間領域から周波数領域へ変換する周波数変換手段と、前記周波数変換されたスペクトルの左右のチャンネルの共通成分を抽出する手段と、左チャンネル、右チャンネルのスペクトルから、前記抽出した共通成分を減算する手段と、共通成分をセンターチャンネルに出力する再生手段と、前記減算された左右のチャンネル成分に0から1の乗数を乗じて左右チャンネルに出力する手段を備えること特徴とする第1の構成。
(第2の構成)
最後に、音声信号変換装置1、1a、1bの各ブロックは、ハードウェアロジックによって構成してもよいし、次のようにCPUを用いてソフトウェアによって実現してもよい。
すなわち、音声信号変換装置1、1a、1bは、各機能を実現する制御プログラムの命令を実行するCPU(central processing unit)、上記プログラムを格納したROM(read only memory)、上記プログラムを展開するRAM(random access memory)、上記プログラムおよび各種データを格納するメモリ等の記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである音声信号変換装置1、1a、1bの制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、音声信号変換装置1、1a、1bに供給し、そのコンピュータ(またはCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。
上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD/CD−R等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROM等の半導体メモリ系などを用いることができる。
また、音声信号変換装置1、1a、1bを通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL回線等の有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。