JP2006086558A

JP2006086558A - 音声処理方法および音声処理装置

Info

Publication number: JP2006086558A
Application number: JP2004266337A
Authority: JP
Inventors: Kiyofumi Inanaga; 潔文稲永
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2004-09-14
Filing date: 2004-09-14
Publication date: 2006-03-30

Abstract

【課題】モノラル音声信号から疑似ステレオ音声信号を生成するなど、少数チャンネルの入力音声信号から、それより多いチャンネルの出力音声信号を生成する場合に、自然で明確な音像定位が得られるようにする。
【解決手段】入力音声信号Ａｘを分離処理部４０に供給して出力音声信号Ａｏ１およびＡｏ２を得る。分離処理部４０では、入力音声信号Ａｘ中の、ある周波数の基本波成分Ｓａ１と、その高調波成分Ｓｈ１を合成して、出力音声信号Ａｏ１とし、別の周波数の基本波成分Ｓａ２と、その高調波成分Ｓｈ２を合成して、出力音声信号Ａｏ２とする。入力音声信号Ａｘにおける音声のテンポまたは周波数スペクトルを解析し、その解析結果に応じて基本波成分抽出回路４３，４６および高調波成分抽出回路４４，４７を制御する。
【選択図】図４

Description

この発明は、モノラル音声信号から疑似ステレオ音声信号を生成するなど、少数チャンネルの入力音声信号から、それより多いチャンネルの出力音声信号を生成する音声処理方法および音声処理装置に関する。

モノラル音声信号（モノラル音源）から疑似ステレオ音声信号（疑似ステレオ音源）を生成することが考えられている。

例えば、特許文献１（特開平５−１９１８９６号公報）には、入力モノラル音声信号を周波数特性の異なる２つのフィルタに供給することによって、２つのフィルタから疑似ステレオ音声信号を得るとともに、入力モノラル音声信号におけるボーカル帯域の信号レベルと他の帯域の信号レベルを比較し、その比較結果に応じて各フィルタの出力音声信号におけるボーカル帯域の信号レベルを制御することによって、ボーカル音の広がりを抑え、ボーカル音源を定位させることが示されている。

また、特許文献２（特開平９−４６７９８号公報）には、主として人の会話の音声からなるモノラル音声信号を疑似ステレオ音声信号に変換する方法として、入力モノラル音声信号をバンドパスフィルタを介して、それぞれ複数のノッチフィルタが縦列接続された互いに共振周波数の異なる左右チャンネル用の櫛形波形成回路に供給することが示されている。

特許文献１，２に示されるように、モノラル音声信号から疑似ステレオ音声信号を生成するには、入力モノラル音声信号を周波数特性の異なる２つ（２種）のフィルタに供給して、図６に示すように、一方のフィルタからは、チャンネル１（左チャンネル）の出力音声信号として、同図（Ａ）に示すような、ある周波数帯域の信号Ａ１を抽出し、他方のフィルタからは、チャンネル２（右チャンネル）の出力音声信号として、同図（Ｂ）に示すような、別の周波数帯域の信号Ａ２を抽出し、または図７に示すように、一方のフィルタからは、チャンネル１の出力音声信号として、同図（Ａ）に示すような、ある周波数帯域Ｂ１が除去された信号を得、他方のフィルタからは、チャンネル２の出力音声信号として、同図（Ｂ）に示すような、別の周波数帯域Ｂ２が除去された信号を得、あるいは、入力モノラル音声信号を、図８（Ａ）（Ｂ）に示すような、櫛歯の山および谷の周波数が異なる２つ（２種）の櫛形フィルタに供給する方法が採られる。

上に挙げた先行技術文献は、以下のとおりである。
特開平５−１９１８９６号公報特開平９−４６７９８号公報

しかしながら、上述した従来の方法では、一定の広がり感は得られるが、特に音楽信号の場合、同じ楽器の基本波と高調波が左右のチャンネルに分離されて、不自然な音像定位になってしまう、明確な音像定位が得られない、櫛形フィルタによりチャンネル間で位相を変える場合には音色が変わってしまう、などの問題がある。

さらに、音楽でも、異なる曲が順次再生される場合があり、また、映画やドラマなどにおける映像に伴う音声のように、ある曲の音楽の後に、人の会話の音声が続き、その後に別の曲の音楽が続く、というように音楽と人の会話の音声とが順次再生される場合があるが、このような場合、従来の方法では、音声のテンポや周波数スペクトルが大きく変化するにもかかわらず、定められた周波数の成分が左右のチャンネルに振り分けられるため、不自然な感じとなる。

そこで、この発明は、モノラル音声信号から疑似ステレオ音声信号を生成するなど、少数チャンネルの入力音声信号から、それより多いチャンネルの出力音声信号を生成する場合に、自然で明確な音像定位が得られるようにしたものである。

この発明の音声処理方法は、入力音声信号から、互いに周波数特性の異なる複数チャンネルの出力音声信号を生成するとともに、前記入力音声信号を単位期間に分離し、その分離した単位期間ごとに、前記入力音声信号における音声のテンポまたは周波数スペクトルの解析結果に応じて前記各チャンネルの出力音声信号の周波数特性を制御することを特徴とする。

この場合、前記入力音声信号における音声のテンポまたは周波数スペクトルを解析し、その解析結果によって前記単位期間を定め、その単位期間ごとに前記解析結果に応じて前記各チャンネルの出力音声信号の周波数特性を制御し、または、前記単位期間を定められた時間の期間とし、その単位期間ごとに、前記入力音声信号における音声のテンポまたは周波数スペクトルを解析し、その解析結果に応じて前記各チャンネルの出力音声信号の周波数特性を制御する。

上記の構成の、この発明の音声処理方法では、入力音声信号が、ある曲の音楽であるときには、その曲のテンポまたは周波数スペクトルに応じて各チャンネルの出力音声信号の周波数特性が制御され、入力音声信号が、別の曲の音楽であるときには、その曲のテンポまたは周波数スペクトルに応じて各チャンネルの出力音声信号の周波数特性が制御され、入力音声信号が、人の会話の音声であるときには、その会話の音声のテンポまたは周波数スペクトルに応じて各チャンネルの出力音声信号の周波数特性が制御されるので、入力音声信号の音声が何であるかにかかわらず、自然で明確な音像定位が得られる。

以上のように、この発明によれば、モノラル音声信号から疑似ステレオ音声信号を生成するなど、少数チャンネルの入力音声信号から、それより多いチャンネルの出力音声信号を生成する場合に、自然で明確な音像定位が得られる。

［１．音声処理装置の一例：図１および図２］
図１は、この発明の音声処理装置の一例を示し、モノラル音声信号から疑似ステレオ音声信号を生成し、左右のスピーカから出力する場合である。

この例の音声処理装置では、音声入力端子１０に得られるデジタル入力音声信号Ａｉｎが、一方で、遅延用（一時記憶用）のバッファメモリ２０に書き込まれ、バッファメモリ２０から読み出されることによって、後述のような時間、遅延されるとともに、他方で、解析処理部３０に供給されて、入力音声信号Ａｉｎにおける音声のテンポまたは周波数スペクトルが解析され、音声の特徴が検出される。

バッファメモリ２０から得られた遅延後の入力音声信号Ａｘは、分離処理部４０に供給され、分離処理部４０から、チャンネル１（左チャンネル）の出力音声信号Ａｏ１とチャンネル２（右チャンネル）の出力音声信号Ａｏ２が分離されて得られる。

分離処理部４０は、チャンネル１抽出処理部４１およびチャンネル２抽出処理部４２によって構成され、それぞれから出力音声信号Ａｏ１およびＡｏ２が得られる。

チャンネル１抽出処理部４１およびチャンネル２抽出処理部４２は、異なる周波数帯域を通過または減衰させるフィルタとして構成され、解析処理部３０での解析結果（音声の特徴の検出結果）に応じて、それぞれの周波数特性、すなわち通過または減衰させる周波数帯域やレベルが制御される。フィルタは、櫛形フィルタでもよい。

デジタル出力音声信号Ａｏ１およびＡｏ２は、それぞれＤ／Ａコンバータ７１および７２でアナログ出力音声信号に変換され、その変換後の左右チャンネルのアナログ出力音声信号が、それぞれ音声増幅回路７３および７４で増幅され、音声出力端子７５および７６からスピーカ８１および８２に供給される。

例えば、映画やドラマなどにおける映像に伴う音声は、図２に示すように、映像のシーン１に対しては、曲Ａの音楽であり、映像のシーン２に対しては、人の会話であり、映像のシーン３に対しては、曲Ａとは異なる曲Ｂの音楽であり、映像のシーン４に対しては、シーン２とは異なる人の会話である、というように、期間ごとにテンポや周波数スペクトルが変化する。

図１の例の音声処理装置では、解析処理部３０において、この入力音声信号Ａｉｎにおける音声のテンポまたは周波数スペクトルが解析され、その解析結果によって、図２に「音声解析により検出された期間」として示すように、期間Ｐ１，Ｐ２，Ｐ３，Ｐ４‥‥が検出され、その検出された期間ごとに、当該の期間における解析結果に応じて、チャンネル１抽出処理部４１およびチャンネル２抽出処理部４２の周波数特性が制御され、出力音声信号Ａｏ１およびＡｏ２の周波数特性が制御される。

バッファメモリ２０での遅延時間は、各期間Ｐ１，Ｐ２，Ｐ３，Ｐ４‥‥のうちの最も短いと予測される期間の時間より短い時間Ｔｃとされる。

具体的に、期間Ｐ１の頭の時間Ｔｃの期間Ｐ１１で、入力音声信号Ａｉｎにおける音声のテンポまたは周波数スペクトルが解析され、期間Ｐ１１の終了時点で、その解析結果が得られたら、分離処理部４０のチャンネル１抽出処理部４１およびチャンネル２抽出処理部４２において、入力音声信号Ａｉｎに対して時間Ｔｃだけ遅延した入力音声信号Ａｘに対して、期間Ｐ１１での解析結果に応じた特性制御が実行され、以後、同様に時間Ｔｃの期間ごとに同様の処理が繰り返されるように構成する。

この場合、図２のように映像に伴う音声であって、かつ音声の遅れによって映像と音声の間の時間的なずれが問題となる場合には、映像についても同じ時間、遅延させるようにする。

なお、例えば、映像に伴う音声ではなく、音声単独である場合には、入力音声信号Ａｉｎがバッファメモリ２０で遅延されることなく、そのまま分離処理部４０に供給されるとともに、解析処理部３０において、図２に「設定された期間」として示すように、あらかじめ時間Ｔｃのような短い時間の期間Ｐ１１，Ｐ１２‥‥Ｐ１ｅ，Ｐ２１‥‥が定められ、その期間ごとに、当該の期間での解析結果に応じた特性制御が次の期間の音声信号に対して実行されるように構成してもよい。

この場合、例えば、図２の時点ｔａの前後では、曲Ａの期間Ｐ１の最後の期間Ｐ１ｅでの解析結果が、次の会話の期間Ｐ２の最初の期間Ｐ２１の音声信号に対して反映されることになるが、時間Ｔｃが短ければ、実質的な不具合はない。

［２．チャンネル分離処理の例：図３および図４］
図３に、図１の分離処理部４０、すなわちチャンネル１抽出処理部４１およびチャンネル２抽出処理部４２の、一例を示す。

この例では、遅延後の入力音声信号Ａｘが、基本波成分抽出回路４３に供給されて、基本波成分抽出回路４３から、基本波成分Ｓａ１および残差成分Ｓ１（入力音声信号Ａｘから基本波成分Ｓａ１を除いた成分）が抽出され、さらに、その残差成分Ｓ１が、高調波成分抽出回路４４に供給されて、高調波成分抽出回路４４から、基本波成分Ｓａ１に対する高調波成分Ｓｈ１、および残差成分Ｓ２（入力音声信号Ａｘから基本波成分Ｓａ１および高調波成分Ｓｈ１を除いた成分）が抽出され、合成回路４５で、基本波成分Ｓａ１と高調波成分Ｓｈ１が合成されて、その合成信号が、チャンネル１の出力音声信号Ａｏ１として取り出されるとともに、残差成分Ｓ２が、チャンネル２の出力音声信号Ａｏ２として取り出される。

基本波成分抽出回路４３における基本波周波数、および高調波成分抽出回路４４における高調波周波数は、上記の解析結果に応じて制御され、例えば、図２の曲Ａの期間Ｐ１、会話の期間Ｐ２、曲Ｂの期間Ｐ３、および会話の期間Ｐ４で、変えられる。

したがって、この例では、例えば、同じ楽器の基本波と高調波が左右のチャンネルに分離されて不自然な音像定位になってしまう、というようなことがなく、自然で明確な音像定位が得られる。

図４に、図１の分離処理部４０、すなわちチャンネル１抽出処理部４１およびチャンネル２抽出処理部４２の、他の例を示す。

この例では、遅延後の入力音声信号Ａｘが、基本波成分抽出回路４３に供給されて、基本波成分抽出回路４３から、基本波成分Ｓａ１および残差成分Ｓ１（入力音声信号Ａｘから基本波成分Ｓａ１を除いた成分）が抽出され、さらに、その残差成分Ｓ１が、高調波成分抽出回路４４に供給されて、高調波成分抽出回路４４から、基本波成分Ｓａ１に対する高調波成分Ｓｈ１、および残差成分Ｓ２（入力音声信号Ａｘから基本波成分Ｓａ１および高調波成分Ｓｈ１を除いた成分）が抽出され、さらに、その残差成分Ｓ２が、基本波成分抽出回路４６に供給されて、基本波成分抽出回路４６から、基本波成分Ｓａ１とは異なる周波数の基本波成分Ｓａ２、および残差成分Ｓ３（入力音声信号Ａｘから基本波成分Ｓａ１、高調波成分Ｓｈ１および基本波成分Ｓａ２を除いた成分）が抽出され、さらに、その残差成分Ｓ３が、高調波成分抽出回路４７に供給されて、高調波成分抽出回路４７から、基本波成分Ｓａ２に対する高調波成分Ｓｈ２、および残差成分Ｓ４（入力音声信号Ａｘから基本波成分Ｓａ１、高調波成分Ｓｈ１、基本波成分Ｓａ２および高調波成分Ｓｈ２を除いた成分）が抽出される。

そして、合成回路４５で、基本波成分Ｓａ１と高調波成分Ｓｈ１が合成され、加算回路５１で、その合成信号に残差成分Ｓ４が加算されて、その加算信号が、チャンネル１の出力音声信号Ａｏ１として取り出されるとともに、合成回路４８で、基本波成分Ｓａ２と高調波成分Ｓｈ２が合成され、加算回路５２で、その合成信号に残差成分Ｓ４が加算されて、その加算信号が、チャンネル２の出力音声信号Ａｏ２として取り出される。

基本波成分抽出回路４３，４６における基本波周波数、および高調波成分抽出回路４４，４７における高調波周波数は、上記の解析結果に応じて制御され、例えば、図２の曲Ａの期間Ｐ１、会話の期間Ｐ２、曲Ｂの期間Ｐ３、および会話の期間Ｐ４で、変えられる。

したがって、この例では、例えば、ある楽器の基本波および高調波が左チャンネルに振り分けられ、別のある楽器の基本波および高調波が右チャンネルに振り分けられて、自然で明確な音像定位が得られる。

［３．音像定位処理：図５］
この発明の音声処理方法は、ヘッドフォンによって音声を出力する場合にも適用することができる。

ただし、図１に示した例のデジタル出力音声信号Ａｏ１，Ａｏ２を、そのままアナログ出力音声信号に変換してヘッドフォンの左右の音響変換器に供給すると、音像がリスナーの頭の中に定位する。そこで、この場合には、音像がリスナー頭外の左右位置に定位するような処理を行うことが望ましい。

図５は、ヘッドフォンによって音声を出力する場合に、このようにリスナー頭外の左右位置に音像を定位させる例である。

この例の音声処理装置では、図１の例の分離処理部４０から得られる出力音声信号Ａｏ１およびＡｏ２が、定位処理部６０に供給される。定位処理部６０では、出力音声信号Ａｏ１がデジタルフィルタ６１および６２に供給され、出力音声信号Ａｏ２がデジタルフィルタ６３および６４に供給され、合成回路６５でデジタルフィルタ６１および６３の出力信号が合成されて、その合成信号が左チャンネルの出力音声信号とされ、合成回路６６でデジタルフィルタ６２および６４の出力信号が合成されて、その合成信号が右チャンネルの出力音声信号とされる。

デジタルフィルタ６１および６２は、それぞれ定位させる左側の音像位置（仮想音源位置）からリスナーの左右の耳に至る伝達関数を時間軸上に変換したインパルス応答を畳み込むものであり、デジタルフィルタ６３および６４は、それぞれ定位させる右側の音像位置（仮想音源位置）からリスナーの左右の耳に至る伝達関数を時間軸上に変換したインパルス応答を畳み込むものである。

そして、定位処理部６０の合成回路６５および６６の出力のデジタル音声信号が、それぞれＤ／Ａコンバータ７１および７２でアナログ音声信号に変換され、その変換後の左右チャンネルのアナログ音声信号が、それぞれ音声増幅回路７３および７４で増幅され、音声出力端子７５および７６からヘッドフォン８４の左右の音響変換器８５および８６に供給される。

この例では、定位処理部６０のデジタルフィルタ６１〜６４の特性を選択することによって、リスナー頭外の任意の左右位置に左右の音像を定位させることができる。

図１の例のように左右のスピーカによって音声を出力する場合にも、図５の例の定位処理部６０のような定位処理部を設けることによって、任意の左右位置に左右の音像を定位させることができる。

［４．他の実施形態］
上述した例は、モノラル音声信号から疑似ステレオ音声信号を生成する場合であるが、この発明は、２チャンネルの入力音声信号から疑似的に４チャンネルの出力音声信号を生成するなど、少数チャンネルの入力音声信号から、それより多いチャンネルの出力音声信号を生成する場合に、適用することができる。

この発明の音声処理装置の一例を示す図である。音声のテンポや周波数スペクトルが変化する場合の例を示す図である。分離処理部の一例を示す図である。分離処理部の他の例を示す図である。この発明の音声処理装置の他の例を示す図である。モノラル音声信号から疑似ステレオ音声信号を生成する場合の一例を示す図である。モノラル音声信号から疑似ステレオ音声信号を生成する場合の一例を示す図である。モノラル音声信号から疑似ステレオ音声信号を生成する場合の一例を示す図である。

符号の説明

主要部については図中に全て記述したので、ここでは省略する。

Claims

入力音声信号から、互いに周波数特性の異なる複数チャンネルの出力音声信号を生成するとともに、前記入力音声信号を単位期間に分離し、その分離した単位期間ごとに、前記入力音声信号における音声のテンポまたは周波数スペクトルの解析結果に応じて前記各チャンネルの出力音声信号の周波数特性を制御することを特徴とする音声処理方法。
請求項１の音声処理方法において、
前記入力音声信号における音声のテンポまたは周波数スペクトルを解析し、その解析結果によって前記単位期間を定め、その単位期間ごとに前記解析結果に応じて前記各チャンネルの出力音声信号の周波数特性を制御することを特徴とする音声処理方法。
請求項１の音声処理方法において、
前記単位期間を定められた時間の期間とし、その単位期間ごとに、前記入力音声信号における音声のテンポまたは周波数スペクトルを解析し、その解析結果に応じて前記各チャンネルの出力音声信号の周波数特性を制御することを特徴とする音声処理方法。
請求項１の音声処理方法において、
前記複数チャンネルの出力音声信号に対して音像定位のための処理を施すことを特徴とする音声処理方法。
入力音声信号から、互いに周波数特性の異なる複数チャンネルの出力音声信号を生成する信号処理手段と、
前記入力音声信号を単位期間に分離し、その分離した単位期間ごとに、前記入力音声信号における音声のテンポまたは周波数スペクトルの解析結果に応じて前記各チャンネルの出力音声信号の周波数特性を制御する制御手段と、
を備えることを特徴とする音声処理装置。
請求項５の音声処理装置において、
前記制御手段は、前記入力音声信号における音声のテンポまたは周波数スペクトルを解析し、その解析結果によって前記単位期間を定め、その単位期間ごとに前記解析結果に応じて前記各チャンネルの出力音声信号の周波数特性を制御することを特徴とする音声処理装置。
請求項５の音声処理装置において、
前記制御手段は、前記単位期間を定められた時間の期間とし、その単位期間ごとに、前記入力音声信号における音声のテンポまたは周波数スペクトルを解析し、その解析結果に応じて前記各チャンネルの出力音声信号の周波数特性を制御することを特徴とする音声処理装置。
請求項５の音声処理装置において、
前記複数チャンネルの出力音声信号に対して音像定位のための処理を施す定位処理手段を備えることを特徴とする音声処理装置。