JP2006086558A - 音声処理方法および音声処理装置 - Google Patents

音声処理方法および音声処理装置 Download PDF

Info

Publication number
JP2006086558A
JP2006086558A JP2004266337A JP2004266337A JP2006086558A JP 2006086558 A JP2006086558 A JP 2006086558A JP 2004266337 A JP2004266337 A JP 2004266337A JP 2004266337 A JP2004266337 A JP 2004266337A JP 2006086558 A JP2006086558 A JP 2006086558A
Authority
JP
Japan
Prior art keywords
audio signal
audio
output
signal
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004266337A
Other languages
English (en)
Inventor
Kiyofumi Inanaga
潔文 稲永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2004266337A priority Critical patent/JP2006086558A/ja
Publication of JP2006086558A publication Critical patent/JP2006086558A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】モノラル音声信号から疑似ステレオ音声信号を生成するなど、少数チャンネルの入力音声信号から、それより多いチャンネルの出力音声信号を生成する場合に、自然で明確な音像定位が得られるようにする。
【解決手段】入力音声信号Axを分離処理部40に供給して出力音声信号Ao1およびAo2を得る。分離処理部40では、入力音声信号Ax中の、ある周波数の基本波成分Sa1と、その高調波成分Sh1を合成して、出力音声信号Ao1とし、別の周波数の基本波成分Sa2と、その高調波成分Sh2を合成して、出力音声信号Ao2とする。入力音声信号Axにおける音声のテンポまたは周波数スペクトルを解析し、その解析結果に応じて基本波成分抽出回路43,46および高調波成分抽出回路44,47を制御する。
【選択図】図4

Description

この発明は、モノラル音声信号から疑似ステレオ音声信号を生成するなど、少数チャンネルの入力音声信号から、それより多いチャンネルの出力音声信号を生成する音声処理方法および音声処理装置に関する。
モノラル音声信号(モノラル音源)から疑似ステレオ音声信号(疑似ステレオ音源)を生成することが考えられている。
例えば、特許文献1(特開平5−191896号公報)には、入力モノラル音声信号を周波数特性の異なる2つのフィルタに供給することによって、2つのフィルタから疑似ステレオ音声信号を得るとともに、入力モノラル音声信号におけるボーカル帯域の信号レベルと他の帯域の信号レベルを比較し、その比較結果に応じて各フィルタの出力音声信号におけるボーカル帯域の信号レベルを制御することによって、ボーカル音の広がりを抑え、ボーカル音源を定位させることが示されている。
また、特許文献2(特開平9−46798号公報)には、主として人の会話の音声からなるモノラル音声信号を疑似ステレオ音声信号に変換する方法として、入力モノラル音声信号をバンドパスフィルタを介して、それぞれ複数のノッチフィルタが縦列接続された互いに共振周波数の異なる左右チャンネル用の櫛形波形成回路に供給することが示されている。
特許文献1,2に示されるように、モノラル音声信号から疑似ステレオ音声信号を生成するには、入力モノラル音声信号を周波数特性の異なる2つ(2種)のフィルタに供給して、図6に示すように、一方のフィルタからは、チャンネル1(左チャンネル)の出力音声信号として、同図(A)に示すような、ある周波数帯域の信号A1を抽出し、他方のフィルタからは、チャンネル2(右チャンネル)の出力音声信号として、同図(B)に示すような、別の周波数帯域の信号A2を抽出し、または図7に示すように、一方のフィルタからは、チャンネル1の出力音声信号として、同図(A)に示すような、ある周波数帯域B1が除去された信号を得、他方のフィルタからは、チャンネル2の出力音声信号として、同図(B)に示すような、別の周波数帯域B2が除去された信号を得、あるいは、入力モノラル音声信号を、図8(A)(B)に示すような、櫛歯の山および谷の周波数が異なる2つ(2種)の櫛形フィルタに供給する方法が採られる。
上に挙げた先行技術文献は、以下のとおりである。
特開平5−191896号公報 特開平9−46798号公報
しかしながら、上述した従来の方法では、一定の広がり感は得られるが、特に音楽信号の場合、同じ楽器の基本波と高調波が左右のチャンネルに分離されて、不自然な音像定位になってしまう、明確な音像定位が得られない、櫛形フィルタによりチャンネル間で位相を変える場合には音色が変わってしまう、などの問題がある。
さらに、音楽でも、異なる曲が順次再生される場合があり、また、映画やドラマなどにおける映像に伴う音声のように、ある曲の音楽の後に、人の会話の音声が続き、その後に別の曲の音楽が続く、というように音楽と人の会話の音声とが順次再生される場合があるが、このような場合、従来の方法では、音声のテンポや周波数スペクトルが大きく変化するにもかかわらず、定められた周波数の成分が左右のチャンネルに振り分けられるため、不自然な感じとなる。
そこで、この発明は、モノラル音声信号から疑似ステレオ音声信号を生成するなど、少数チャンネルの入力音声信号から、それより多いチャンネルの出力音声信号を生成する場合に、自然で明確な音像定位が得られるようにしたものである。
この発明の音声処理方法は、入力音声信号から、互いに周波数特性の異なる複数チャンネルの出力音声信号を生成するとともに、前記入力音声信号を単位期間に分離し、その分離した単位期間ごとに、前記入力音声信号における音声のテンポまたは周波数スペクトルの解析結果に応じて前記各チャンネルの出力音声信号の周波数特性を制御することを特徴とする。
この場合、前記入力音声信号における音声のテンポまたは周波数スペクトルを解析し、その解析結果によって前記単位期間を定め、その単位期間ごとに前記解析結果に応じて前記各チャンネルの出力音声信号の周波数特性を制御し、または、前記単位期間を定められた時間の期間とし、その単位期間ごとに、前記入力音声信号における音声のテンポまたは周波数スペクトルを解析し、その解析結果に応じて前記各チャンネルの出力音声信号の周波数特性を制御する。
上記の構成の、この発明の音声処理方法では、入力音声信号が、ある曲の音楽であるときには、その曲のテンポまたは周波数スペクトルに応じて各チャンネルの出力音声信号の周波数特性が制御され、入力音声信号が、別の曲の音楽であるときには、その曲のテンポまたは周波数スペクトルに応じて各チャンネルの出力音声信号の周波数特性が制御され、入力音声信号が、人の会話の音声であるときには、その会話の音声のテンポまたは周波数スペクトルに応じて各チャンネルの出力音声信号の周波数特性が制御されるので、入力音声信号の音声が何であるかにかかわらず、自然で明確な音像定位が得られる。
以上のように、この発明によれば、モノラル音声信号から疑似ステレオ音声信号を生成するなど、少数チャンネルの入力音声信号から、それより多いチャンネルの出力音声信号を生成する場合に、自然で明確な音像定位が得られる。
[1.音声処理装置の一例:図1および図2]
図1は、この発明の音声処理装置の一例を示し、モノラル音声信号から疑似ステレオ音声信号を生成し、左右のスピーカから出力する場合である。
この例の音声処理装置では、音声入力端子10に得られるデジタル入力音声信号Ainが、一方で、遅延用(一時記憶用)のバッファメモリ20に書き込まれ、バッファメモリ20から読み出されることによって、後述のような時間、遅延されるとともに、他方で、解析処理部30に供給されて、入力音声信号Ainにおける音声のテンポまたは周波数スペクトルが解析され、音声の特徴が検出される。
バッファメモリ20から得られた遅延後の入力音声信号Axは、分離処理部40に供給され、分離処理部40から、チャンネル1(左チャンネル)の出力音声信号Ao1とチャンネル2(右チャンネル)の出力音声信号Ao2が分離されて得られる。
分離処理部40は、チャンネル1抽出処理部41およびチャンネル2抽出処理部42によって構成され、それぞれから出力音声信号Ao1およびAo2が得られる。
チャンネル1抽出処理部41およびチャンネル2抽出処理部42は、異なる周波数帯域を通過または減衰させるフィルタとして構成され、解析処理部30での解析結果(音声の特徴の検出結果)に応じて、それぞれの周波数特性、すなわち通過または減衰させる周波数帯域やレベルが制御される。フィルタは、櫛形フィルタでもよい。
デジタル出力音声信号Ao1およびAo2は、それぞれD/Aコンバータ71および72でアナログ出力音声信号に変換され、その変換後の左右チャンネルのアナログ出力音声信号が、それぞれ音声増幅回路73および74で増幅され、音声出力端子75および76からスピーカ81および82に供給される。
例えば、映画やドラマなどにおける映像に伴う音声は、図2に示すように、映像のシーン1に対しては、曲Aの音楽であり、映像のシーン2に対しては、人の会話であり、映像のシーン3に対しては、曲Aとは異なる曲Bの音楽であり、映像のシーン4に対しては、シーン2とは異なる人の会話である、というように、期間ごとにテンポや周波数スペクトルが変化する。
図1の例の音声処理装置では、解析処理部30において、この入力音声信号Ainにおける音声のテンポまたは周波数スペクトルが解析され、その解析結果によって、図2に「音声解析により検出された期間」として示すように、期間P1,P2,P3,P4‥‥が検出され、その検出された期間ごとに、当該の期間における解析結果に応じて、チャンネル1抽出処理部41およびチャンネル2抽出処理部42の周波数特性が制御され、出力音声信号Ao1およびAo2の周波数特性が制御される。
バッファメモリ20での遅延時間は、各期間P1,P2,P3,P4‥‥のうちの最も短いと予測される期間の時間より短い時間Tcとされる。
具体的に、期間P1の頭の時間Tcの期間P11で、入力音声信号Ainにおける音声のテンポまたは周波数スペクトルが解析され、期間P11の終了時点で、その解析結果が得られたら、分離処理部40のチャンネル1抽出処理部41およびチャンネル2抽出処理部42において、入力音声信号Ainに対して時間Tcだけ遅延した入力音声信号Axに対して、期間P11での解析結果に応じた特性制御が実行され、以後、同様に時間Tcの期間ごとに同様の処理が繰り返されるように構成する。
この場合、図2のように映像に伴う音声であって、かつ音声の遅れによって映像と音声の間の時間的なずれが問題となる場合には、映像についても同じ時間、遅延させるようにする。
なお、例えば、映像に伴う音声ではなく、音声単独である場合には、入力音声信号Ainがバッファメモリ20で遅延されることなく、そのまま分離処理部40に供給されるとともに、解析処理部30において、図2に「設定された期間」として示すように、あらかじめ時間Tcのような短い時間の期間P11,P12‥‥P1e,P21‥‥が定められ、その期間ごとに、当該の期間での解析結果に応じた特性制御が次の期間の音声信号に対して実行されるように構成してもよい。
この場合、例えば、図2の時点taの前後では、曲Aの期間P1の最後の期間P1eでの解析結果が、次の会話の期間P2の最初の期間P21の音声信号に対して反映されることになるが、時間Tcが短ければ、実質的な不具合はない。
[2.チャンネル分離処理の例:図3および図4]
図3に、図1の分離処理部40、すなわちチャンネル1抽出処理部41およびチャンネル2抽出処理部42の、一例を示す。
この例では、遅延後の入力音声信号Axが、基本波成分抽出回路43に供給されて、基本波成分抽出回路43から、基本波成分Sa1および残差成分S1(入力音声信号Axから基本波成分Sa1を除いた成分)が抽出され、さらに、その残差成分S1が、高調波成分抽出回路44に供給されて、高調波成分抽出回路44から、基本波成分Sa1に対する高調波成分Sh1、および残差成分S2(入力音声信号Axから基本波成分Sa1および高調波成分Sh1を除いた成分)が抽出され、合成回路45で、基本波成分Sa1と高調波成分Sh1が合成されて、その合成信号が、チャンネル1の出力音声信号Ao1として取り出されるとともに、残差成分S2が、チャンネル2の出力音声信号Ao2として取り出される。
基本波成分抽出回路43における基本波周波数、および高調波成分抽出回路44における高調波周波数は、上記の解析結果に応じて制御され、例えば、図2の曲Aの期間P1、会話の期間P2、曲Bの期間P3、および会話の期間P4で、変えられる。
したがって、この例では、例えば、同じ楽器の基本波と高調波が左右のチャンネルに分離されて不自然な音像定位になってしまう、というようなことがなく、自然で明確な音像定位が得られる。
図4に、図1の分離処理部40、すなわちチャンネル1抽出処理部41およびチャンネル2抽出処理部42の、他の例を示す。
この例では、遅延後の入力音声信号Axが、基本波成分抽出回路43に供給されて、基本波成分抽出回路43から、基本波成分Sa1および残差成分S1(入力音声信号Axから基本波成分Sa1を除いた成分)が抽出され、さらに、その残差成分S1が、高調波成分抽出回路44に供給されて、高調波成分抽出回路44から、基本波成分Sa1に対する高調波成分Sh1、および残差成分S2(入力音声信号Axから基本波成分Sa1および高調波成分Sh1を除いた成分)が抽出され、さらに、その残差成分S2が、基本波成分抽出回路46に供給されて、基本波成分抽出回路46から、基本波成分Sa1とは異なる周波数の基本波成分Sa2、および残差成分S3(入力音声信号Axから基本波成分Sa1、高調波成分Sh1および基本波成分Sa2を除いた成分)が抽出され、さらに、その残差成分S3が、高調波成分抽出回路47に供給されて、高調波成分抽出回路47から、基本波成分Sa2に対する高調波成分Sh2、および残差成分S4(入力音声信号Axから基本波成分Sa1、高調波成分Sh1、基本波成分Sa2および高調波成分Sh2を除いた成分)が抽出される。
そして、合成回路45で、基本波成分Sa1と高調波成分Sh1が合成され、加算回路51で、その合成信号に残差成分S4が加算されて、その加算信号が、チャンネル1の出力音声信号Ao1として取り出されるとともに、合成回路48で、基本波成分Sa2と高調波成分Sh2が合成され、加算回路52で、その合成信号に残差成分S4が加算されて、その加算信号が、チャンネル2の出力音声信号Ao2として取り出される。
基本波成分抽出回路43,46における基本波周波数、および高調波成分抽出回路44,47における高調波周波数は、上記の解析結果に応じて制御され、例えば、図2の曲Aの期間P1、会話の期間P2、曲Bの期間P3、および会話の期間P4で、変えられる。
したがって、この例では、例えば、ある楽器の基本波および高調波が左チャンネルに振り分けられ、別のある楽器の基本波および高調波が右チャンネルに振り分けられて、自然で明確な音像定位が得られる。
[3.音像定位処理:図5]
この発明の音声処理方法は、ヘッドフォンによって音声を出力する場合にも適用することができる。
ただし、図1に示した例のデジタル出力音声信号Ao1,Ao2を、そのままアナログ出力音声信号に変換してヘッドフォンの左右の音響変換器に供給すると、音像がリスナーの頭の中に定位する。そこで、この場合には、音像がリスナー頭外の左右位置に定位するような処理を行うことが望ましい。
図5は、ヘッドフォンによって音声を出力する場合に、このようにリスナー頭外の左右位置に音像を定位させる例である。
この例の音声処理装置では、図1の例の分離処理部40から得られる出力音声信号Ao1およびAo2が、定位処理部60に供給される。定位処理部60では、出力音声信号Ao1がデジタルフィルタ61および62に供給され、出力音声信号Ao2がデジタルフィルタ63および64に供給され、合成回路65でデジタルフィルタ61および63の出力信号が合成されて、その合成信号が左チャンネルの出力音声信号とされ、合成回路66でデジタルフィルタ62および64の出力信号が合成されて、その合成信号が右チャンネルの出力音声信号とされる。
デジタルフィルタ61および62は、それぞれ定位させる左側の音像位置(仮想音源位置)からリスナーの左右の耳に至る伝達関数を時間軸上に変換したインパルス応答を畳み込むものであり、デジタルフィルタ63および64は、それぞれ定位させる右側の音像位置(仮想音源位置)からリスナーの左右の耳に至る伝達関数を時間軸上に変換したインパルス応答を畳み込むものである。
そして、定位処理部60の合成回路65および66の出力のデジタル音声信号が、それぞれD/Aコンバータ71および72でアナログ音声信号に変換され、その変換後の左右チャンネルのアナログ音声信号が、それぞれ音声増幅回路73および74で増幅され、音声出力端子75および76からヘッドフォン84の左右の音響変換器85および86に供給される。
この例では、定位処理部60のデジタルフィルタ61〜64の特性を選択することによって、リスナー頭外の任意の左右位置に左右の音像を定位させることができる。
図1の例のように左右のスピーカによって音声を出力する場合にも、図5の例の定位処理部60のような定位処理部を設けることによって、任意の左右位置に左右の音像を定位させることができる。
[4.他の実施形態]
上述した例は、モノラル音声信号から疑似ステレオ音声信号を生成する場合であるが、この発明は、2チャンネルの入力音声信号から疑似的に4チャンネルの出力音声信号を生成するなど、少数チャンネルの入力音声信号から、それより多いチャンネルの出力音声信号を生成する場合に、適用することができる。
この発明の音声処理装置の一例を示す図である。 音声のテンポや周波数スペクトルが変化する場合の例を示す図である。 分離処理部の一例を示す図である。 分離処理部の他の例を示す図である。 この発明の音声処理装置の他の例を示す図である。 モノラル音声信号から疑似ステレオ音声信号を生成する場合の一例を示す図である。 モノラル音声信号から疑似ステレオ音声信号を生成する場合の一例を示す図である。 モノラル音声信号から疑似ステレオ音声信号を生成する場合の一例を示す図である。
符号の説明
主要部については図中に全て記述したので、ここでは省略する。

Claims (8)

  1. 入力音声信号から、互いに周波数特性の異なる複数チャンネルの出力音声信号を生成するとともに、前記入力音声信号を単位期間に分離し、その分離した単位期間ごとに、前記入力音声信号における音声のテンポまたは周波数スペクトルの解析結果に応じて前記各チャンネルの出力音声信号の周波数特性を制御することを特徴とする音声処理方法。
  2. 請求項1の音声処理方法において、
    前記入力音声信号における音声のテンポまたは周波数スペクトルを解析し、その解析結果によって前記単位期間を定め、その単位期間ごとに前記解析結果に応じて前記各チャンネルの出力音声信号の周波数特性を制御することを特徴とする音声処理方法。
  3. 請求項1の音声処理方法において、
    前記単位期間を定められた時間の期間とし、その単位期間ごとに、前記入力音声信号における音声のテンポまたは周波数スペクトルを解析し、その解析結果に応じて前記各チャンネルの出力音声信号の周波数特性を制御することを特徴とする音声処理方法。
  4. 請求項1の音声処理方法において、
    前記複数チャンネルの出力音声信号に対して音像定位のための処理を施すことを特徴とする音声処理方法。
  5. 入力音声信号から、互いに周波数特性の異なる複数チャンネルの出力音声信号を生成する信号処理手段と、
    前記入力音声信号を単位期間に分離し、その分離した単位期間ごとに、前記入力音声信号における音声のテンポまたは周波数スペクトルの解析結果に応じて前記各チャンネルの出力音声信号の周波数特性を制御する制御手段と、
    を備えることを特徴とする音声処理装置。
  6. 請求項5の音声処理装置において、
    前記制御手段は、前記入力音声信号における音声のテンポまたは周波数スペクトルを解析し、その解析結果によって前記単位期間を定め、その単位期間ごとに前記解析結果に応じて前記各チャンネルの出力音声信号の周波数特性を制御することを特徴とする音声処理装置。
  7. 請求項5の音声処理装置において、
    前記制御手段は、前記単位期間を定められた時間の期間とし、その単位期間ごとに、前記入力音声信号における音声のテンポまたは周波数スペクトルを解析し、その解析結果に応じて前記各チャンネルの出力音声信号の周波数特性を制御することを特徴とする音声処理装置。
  8. 請求項5の音声処理装置において、
    前記複数チャンネルの出力音声信号に対して音像定位のための処理を施す定位処理手段を備えることを特徴とする音声処理装置。
JP2004266337A 2004-09-14 2004-09-14 音声処理方法および音声処理装置 Pending JP2006086558A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004266337A JP2006086558A (ja) 2004-09-14 2004-09-14 音声処理方法および音声処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004266337A JP2006086558A (ja) 2004-09-14 2004-09-14 音声処理方法および音声処理装置

Publications (1)

Publication Number Publication Date
JP2006086558A true JP2006086558A (ja) 2006-03-30

Family

ID=36164744

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004266337A Pending JP2006086558A (ja) 2004-09-14 2004-09-14 音声処理方法および音声処理装置

Country Status (1)

Country Link
JP (1) JP2006086558A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019161343A (ja) * 2018-03-09 2019-09-19 学校法人早稲田大学 ステレオ信号生成装置、電子楽器、ステレオ信号生成方法、プログラム
CN110491412A (zh) * 2019-08-23 2019-11-22 北京市商汤科技开发有限公司 声音分离方法和装置、电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019161343A (ja) * 2018-03-09 2019-09-19 学校法人早稲田大学 ステレオ信号生成装置、電子楽器、ステレオ信号生成方法、プログラム
JP7072163B2 (ja) 2018-03-09 2022-05-20 学校法人早稲田大学 ステレオ信号生成装置、電子楽器、ステレオ信号生成方法、プログラム
CN110491412A (zh) * 2019-08-23 2019-11-22 北京市商汤科技开发有限公司 声音分离方法和装置、电子设备
CN110491412B (zh) * 2019-08-23 2022-02-25 北京市商汤科技开发有限公司 声音分离方法和装置、电子设备

Similar Documents

Publication Publication Date Title
JP4193835B2 (ja) 計測装置、計測方法、音声信号処理装置
US8229135B2 (en) Audio enhancement method and system
JP4666229B2 (ja) オーディオ再生装置
JP2005354695A (ja) オーディオ信号処理
KR101489035B1 (ko) 오디오 신호 프로세싱을 위한 방법 및 장치
JP5577787B2 (ja) 信号処理装置
KR20060046526A (ko) 의사 스테레오화 장치
JP7410282B2 (ja) スペクトル直交オーディオ成分を用いたサブバンド空間処理およびクロストーク処理
KR101637407B1 (ko) 부가적인 출력 채널들을 제공하기 위하여 스테레오 출력 신호를 발생시키기 위한 장치와 방법 및 컴퓨터 프로그램
KR20130007439A (ko) 신호 처리 장치, 신호 처리 방법 및 프로그램
JP5430263B2 (ja) オーディオ装置
US20080118071A1 (en) Low Computation Mono to Stereo Conversion Using Intra-Aural Differences
JP3888239B2 (ja) デジタル音声処理方法及び装置、並びにコンピュータプログラム
JP2008072600A (ja) 音響信号処理装置、音響信号処理プログラム、音響信号処理方法
KR20050026098A (ko) 음악 콘텐트의 재생을 향상하기 위한 방법 및 장치
JP2006086558A (ja) 音声処理方法および音声処理装置
JP2023544253A (ja) バイノーラル記録を処理するための方法及びデバイス
US9075697B2 (en) Parallel digital filtering of an audio channel
CN113348508A (zh) 电子设备、方法和计算机程序
JP2008187547A (ja) オーディオ装置
JP2005278158A (ja) 低音強調回路および低音強調処理プログラム
CN111699701B (zh) 声音信号处理装置和声音信号处理方法
US20230085013A1 (en) Multi-channel decomposition and harmonic synthesis
JP3599831B2 (ja) 疑似ステレオ化装置
JP6196437B2 (ja) 受信機、及びプログラム