JP6728400B2 - 多チャネルオーディオ信号を処理する装置及び方法 - Google Patents

多チャネルオーディオ信号を処理する装置及び方法 Download PDF

Info

Publication number
JP6728400B2
JP6728400B2 JP2018560586A JP2018560586A JP6728400B2 JP 6728400 B2 JP6728400 B2 JP 6728400B2 JP 2018560586 A JP2018560586 A JP 2018560586A JP 2018560586 A JP2018560586 A JP 2018560586A JP 6728400 B2 JP6728400 B2 JP 6728400B2
Authority
JP
Japan
Prior art keywords
signal
signals
channel
phase
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018560586A
Other languages
English (en)
Other versions
JP2019518988A (ja
Inventor
ウーレ,クリスチャン
クラッツ,ミヒャエル
クローゼ,パウル
レオナルド,ティモシー
ルビゾット,アンドレ
シャレル,ゼバスチャン
Original Assignee
フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2019518988A publication Critical patent/JP2019518988A/ja
Application granted granted Critical
Publication of JP6728400B2 publication Critical patent/JP6728400B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/005Reproducing at a different information rate from the information rate of recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)

Description

本発明は、多チャネルオーディオ信号を処理する装置に関する。多チャネルオーディオ信号は、複数の−すなわち少なくとも2つの−チャネル信号を含む。この装置は、多チャネルオーディオ信号の時間スケール修正を実行する。本発明は、対応する方法およびコンピュータプログラムにも関する。
時間スケール修正(TSM)は、オーディオ信号のピッチに影響を及ぼすことなくオーディオ信号の再生をスローダウンまたはスピードアップする処理を指す。サンプルレート変換と組み合わせたTSMはまた、テンポを変更することなくピッチを変更することを可能にする。TSMに関する課題は、(テンポまたはピッチのいずれかを除く)オーディオ信号の他のすべての特性、特に音質を維持することである。その処理は、可聴アーチファクトを生成すべきではない。
単一チャネル入力信号の場合、主要な重要特徴は音色(timbre)である。複数のチャネルを有する信号の場合、空間的特性も維持される必要がある。空間的特性は、直接音源の位置および幅と、周囲音の拡散とを含む。それらは、チャネル間レベル差(ICLD)、チャネル間時間差(ICTD)、チャネル間位相差(ICPD)、またはチャネル間コヒーレンス(ICC)によって定量化することができる。
時間スケール修正に対する基本的に異なる2つのアプローチが存在する。一方は時間ドメインで適用され、他方は周波数ドメインで適用される。
時間ドメインでの処理は、同期オーバーラップ加算(SOLA)スキームを使用する。信号はオーバーラップするフレームにカットされ、これらのフレームはシフトされ、信号を伸張又は収縮させるために結合される。シフト位置は、典型的には、類似性の尺度、例えば信号フレームとそのシフトされたコピーとの相関関係を最大化することによって計算される。
時間ドメインにおけるこの方法は、計算量が少ない。出力信号における不連続性および破壊的干渉を回避するために、シフトオフセットは基本周波数の周期の整数倍として決定することができるので、(ポリフォニックと対照的な)モノフォニック信号、例えばスピーチまたはフルートのトーンについて良好な結果が得られる。言い換えると、シフトされた信号フレームが位相コヒーレント方式で加算される。異なる基本周波数を有する複数のトーンを有するポリフォニック入力の場合、すべてのトーン(ピッチ)に対して波形の類似性が満たされるようにシフトが決定されることは不可能である。
多くの音楽信号では、周波数ドメインで処理を施すことにより、音質の点でより良好な結果が得られる。この方法は、例えば図1に示されるブロック図に示されるような位相ボコーダスキーム[非特許文献1]を使用し、簡単に説明すると、以下の通りである。
入力されたオーディオ信号x(n)は、短時間フーリエ変換(STFT)を用いて周波数ドメインに変換される。同様に、別のタイプのフィルタバンクまたは変換を使用することもでき、その場合でも、十分に小さい再構成誤差で逆処理を適用することができる。
上述の実施形態では、入力信号x(n)はオーバーラップするフレームにカットされ、以下の式(1)に従って各フレームについて離散フーリエ変換(DFT)が計算され、信号の短時間フーリエ変換(STFT)表現を得る。これはSTFT係数(又はスペクトル係数)とも呼ばれる。
Figure 0006728400
時間フレームインデックスはmで示され、kは0≦k≦N−1である離散周波数インデックスであり、waは窓関数である。正規化された角周波数Ωkは、Ωk=2πk/Nで与えられる。DFTはサイズNを有し、Raは分析ホップサイズである。
時間および周波数のインデックスは、簡潔にするために、この明細書では可能な場合は省略されている。
出力時間ドメイン信号y(n)は、STFTの逆を用いる合成ステージにおいて出力スペクトル係数Y(m,k)から計算され、その合成ステージは2つのステップで実行される。
第1に、次式に従ってM個のフレーム毎に逆離散フーリエ変換が計算される。
Figure 0006728400
第2に、任意の合成窓ws(n)と合成ホップサイズRsとを用いて、次式に従ってオーバーラップ加算手順が適用される。
Figure 0006728400
時間スケール修正は、合成ホップサイズRsと分析ホップサイズRaとを異なる値に設定することによって達成される。すなわち、Ra<Rsである場合には信号が時間的に伸張され、Ra>Rsである場合には収縮される。
分析窓waおよび合成窓wsは、Ra=RsおよびY(m,k)=X(m,k)の場合、入力信号と出力信号とが同一であるように選択される。
実数値の入力信号(本件で考慮対象とするオーディオに該当する)のための短時間フーリエ変換係数X(m,k)は、次式のように、それらの大きさ|X|および位相Φxによって、極座標で表すことができる複素数値である。
Figure 0006728400
ここで、j=√(−1)である。
2つのホップサイズRaおよびRsが異なる場合、すなわちRa≠Rsである場合、「水平位相コヒーレンス」が達成されるように、Y(m,k)の位相を修正する必要がある。これは、一定周波数の正弦波に対して、連続するフレームが不連続または位相キャンセル(破壊的干渉)なしにコヒーレントにオーバーラップすることを意味する。
位相ボコーダの手法は、例えば音楽録音などのポリフォニック入力に適している。その欠点は、位相の修正が「過渡スミアリング」として知られるアーチファクトを生成し得ることである。すなわち、信号の時間的包絡が修正された結果、音の始まりは、よりパンチが無くよりパーカッションが効かない音と知覚される恐れがある。例えば「位相同期(phase locking)」[非特許文献2]と呼ばれる方法を適用し、または無音期間中に位相をリセット[非特許文献3]することで、出力位相に付加的な処理を適用し、過渡スミアリングを緩和することもできる。
位相を修正する適切な手順の後、出力が得られる。出力のスペクトル係数は、極座標を用いて、
Figure 0006728400
として記述することができ、ここで、Φyは修正された位相を示す。位相Φyを計算するプロセスは、以下では位相適応(PA)と呼ばれる。
2チャネルオーディオ入力信号を処理する様々な方法が知られている。
1つの選択肢は、多チャネル信号を単一チャネル信号にダウンミックスすること、すなわち、すべてのチャネルのスケーリングされたバージョンを加算し、その単一チャネル(モノラル)信号を処理することである。入力信号のモノラル・ダウンミックスを処理することは、立体音響情報が失われ、それによって音質が低下するという欠点がある。
別の選択肢は、分離された入力チャネル信号を独立して処理することである。各チャネル信号を別々に処理することの主な欠点は、ステレオ音像を歪めるチャネル間の任意のデコリレーションが導入されることである。時間スケール修正の位相適応は信号依存処理であるので、対応するチャネル信号が異なる場合、個々のチャネルの位相間の関係は維持されない。空間情報の歪みは、直接音源(例えば歌手又はソリスト)のステレオ音像のぼやけ又は拡大として知覚され得る。
[1] M. Dolson, "The Phase Vocoder: A Tutorial", Computer Music Journal, vol. 10, pp. 14 − 27, 1986. [2] J. Laroche and M. Dolson, "Improved Phase Vocoder Time-Scale Modification of Audio", IEEE Transaction on Speech and Audio Processing, vol. 7, no. 3, pp. 323−332, 1999. [3] T. Karrer, E. Lee, and J. Borchers, "PhaVoRIT: A Phase Vocoder for Real-Time Interactive Time-Stretching," in Proc. of ICMC, 2006.
本発明の目的は、処理済み信号の空間特性の品質−例えばステレオ音像−に関して、既存の時間スケール修正方法を改善することである。
この目的は、本発明の装置及び方法によって達成される。
この目的は、多チャネルオーディオ信号を処理する装置によって達成される。多チャネルオーディオ信号は、複数の−または少なくとも2つの−チャネル信号を含む。この装置は、多チャネルオーディオ信号の時間スケール修正を実行するように構成され、即ち、多チャネルオーディオ信号は、そのピッチに影響を及ぼすことなくスローダウンされるか又はスピードアップされる。この装置は、位相アダプタとセパレータとを含む。位相アダプタは、チャネル信号同士の結合に基づくある信号の位相を修正することによって、少なくとも1つの処理済み信号を提供するように構成される。セパレータは、少なくとも1つの処理済み信号に基づいて複数の分離信号を提供するように構成される。
本発明は、信号の処理、特にオーディオ信号またはスピーチ信号の処理を改善する。特に、2以上のチャネルを有する立体音響入力信号の処理に係る課題が解決される。
本発明の利点は、知覚されるステレオ音像が歪められないように、入力オーディオ信号の空間特性が維持されることである。特に、TSM処理に起因して音源位置や拡散性が変化することがない。
このように、本発明は、従来技術において出力信号の空間特性がひどく歪められている、という課題を解決するものであり、その課題は、ステレオ音像の中心にパンされた音源を聴取する際に最も顕著である。
本装置は、位相適応を実行することによって多チャネルオーディオ信号の時間スケール修正を実行する。従来技術では、位相を修正する様々な手順(位相同期及び他の手段を含む)が知られている。
位相を修正するための一実施形態は、合成ホップサイズRsを有する隣接するフレーム間の位相伝播が、分析ホップサイズRaに対する入力信号の位相伝播と同一であるように、位相を修正することを含む。これにより、水平位相コヒーレンス(すなわち、各周波数ビンにおける位相の時間的進展)が維持されることが保証される。これは、現在の時間フレームおよび前の時間フレームの入力位相、分析ホップサイズRaおよびSTFT(短時間フーリエ変換)パラメータを所与として、時間フレームmでの瞬時周波数を計算することによって達成される。所望の位相伝播は、瞬時周波数および合成ホップサイズRsを使用して計算される。
追加の実施形態では、前述の方法は、「位相同期」を含む方法によって強化される。位相同期は、垂直位相コヒーレンスを改善すること、すなわち各フレーム内の隣接する周波数ビン間の位相の関係を維持することを目的とする。これは、例えば、過渡またはパーカッションが効いた音を含む音楽信号を処理するときに顕著となる方法で、音質を改善する。
位相アダプタは、多チャネルオーディオ信号に含まれるチャネル信号の少なくとも1つの結合の位相を適応させるように構成される。このために、位相アダプタによって処理される信号は、極座標を用いて大きさと位相とを与えられる。
位相アダプタに続くセパレータは、処理済み信号に基づいて、すなわち修正された位相を有する信号に基づいて分離信号を提供する。セパレータは、信号の結合を逆転させ、分離信号を抽出または生成する。
したがって、この装置は、チャネル信号同士の少なくとも1つの結合の位相を修正し、チャネル信号の位相適応された結合を分離信号に分離することによって、個々の修正された信号を提供する。
本発明の位相適応は、位相ボコーダすなわち周波数ドメインにおける処理を使用する、時間スケール修正への拡張として最も適している。しかし、それは時間ドメインにおけるTSMへの拡張として適用することもできる。このために、時間ドメインTSMは、多チャネルオーディオ信号に含まれるチャネル信号を結合することによって得られる、少なくとも1つの信号を処理するように構成される。時間ドメインTSMに続くセパレータは、処理済み信号に基づいて分離信号を提供する。
一実施形態では、位相アダプタは、N個のチャネル信号の結合に基づくN個の信号の位相を修正することによって、N個の処理済み信号を提供するように構成される。セパレータは、その処理済み信号に基づいてN個の分離信号を提供するように構成される。Nは多チャネルオーディオ信号に含まれるチャネル信号の数であり、Nは2以上の整数である。一実施形態では、Nは多チャネルオーディオ信号に含まれる全てのチャネル信号の数である。その場合、N個のチャネル信号はN個の結合信号に変換され、これらN個の結合信号は−位相適応後に−N個の信号に分離される。
一実施形態によれば、チャネル信号のN個の結合は、チャネル信号の線形結合である。一実施形態では、位相アダプタはチャネル信号の様々な結合を取り扱うが、その結合は線形結合であり、例えばチャネル信号の和または差である。
一実施形態では、Nは2に等しく(N=2)、2つのチャネル信号の2つの結合は、和信号および差信号である。別の実施形態では、Nは2より大きい。
さらなる実施形態では、この装置は変換器を含む。変換器は、信号を時間ドメインから周波数ドメインへ変換することによって変換済み信号を提供するように構成される。変換器は、信号を時間ドメインから周波数ドメインへ変換し、その後、これらの信号を周波数ドメインで処理することを可能にする。変換されるべき信号は、一実施形態では、多チャネルオーディオ信号に含まれるチャネル信号である。
一実施形態によれば、変換器は、短時間フーリエ変換を適用することによって変換済み信号を提供するように構成される。短時間フーリエ変換または代替的に短期フーリエ変換とも呼ばれる変換(STFT)は、時間とともに変化する信号の局部セクションのフーリエ関連変換である。実際には、長い信号は等しい長さの短いセグメントに分割され、フーリエ変換は各セグメントに対して別個に計算される。
さらなる実施形態では、この装置は結合器を含み、結合器はチャネル信号に基づいて結合信号を提供するように構成される。変換器は、変換を適用することによって、結合信号に基づく変換済み信号を提供するように構成される。ここでは、チャネル信号は結合され、それら結合は周波数ドメインに変換される。
別の実施形態では、結合器および変換器のシーケンスの順序は逆転される。この実施形態では、この装置に含まれる結合器は、変換器によって提供される変換済み信号に基づいて、結合信号を提供するように構成される。この実施形態では、結合器は、変換器から変換済み信号を受信し、結合信号を提供するためにそれらを結合する。このように、チャネル信号は、個別に周波数ドメインに変換され、結合器によってこのドメイン内で結合される。
さらなる実施形態では、結合器は、2つの変換済み信号の和を計算することによって、結合信号としての和信号を提供するように構成される。この実施形態では、変換済み信号を介した和の形態でのチャネル信号の線形結合が、少なくとも1つの結合信号を提供するために使用される。多チャネルオーディオ信号が、例えばステレオ信号として2つのチャネル信号を含む場合、和信号である1つの結合信号を得るために、両方のチャネル信号が互いに加算される。別の実施形態では、結合器は、少なくとも2つのチャネル信号から成る複数のチャネル信号の和を計算する。
一実施形態によれば、結合器は、2つの変換済み信号間の差を計算することによって、結合信号としての差信号を提供するように構成される。この実施形態では、信号の線形結合は、2つの信号間の差である。結合されるべき信号は、ここでは変換済み信号である。別の実施形態では、結合器は2つのチャネル信号間の差を計算する。
一実施形態によれば、結合器は、N個の変換済み信号を含む多チャネル信号に対し、次式に従ってN×Nの寸法を有するミキシング行列−gと呼ぶ−を適用することによって、結合信号を提供するように構成される。
Figure 0006728400
Nは多チャネルオーディオ信号に含まれるチャネル信号の数であり、
Figure 0006728400
は変換済み信号に基づく行列化された(matriced)多チャネル信号であり、従って、結合信号を一般的な形式で表す。
換言すると、結合器は、N個の変換済み信号−望ましくは行列化されたフォーマットで−に対してN×Nの寸法を有するミキシング行列を適用することにより結合信号を提供するように構成され、ここで、変換済み信号は多チャネルオーディオ信号に属するN個のチャネル信号に基づいている。
ミキシング行列が同数の列と行とを有するので、結合される信号の数は、次式に示されるように、結合信号の数に等しい。
Figure 0006728400
ミキシング行列の適用は、次式に示すように、その行列のk番目の行の対応する要素により乗算された多チャネルオーディオ信号の全てのチャネル信号を合計することによって、結合信号のk番目のチャネル信号を計算することと等価である。
Figure 0006728400
別の実施形態では、定義されたミキシング行列はN個のチャネル信号に基づいたある信号に適用される。ミキシング行列は、変換済み信号またはチャネル信号のいずれかである任意の所与の数の信号を結合することを可能にする。
さらなる実施形態では、位相アダプタは、位相ボコーダ法を適用することによって、位相を修正するように構成される。位相ボコーダは、位相情報を使用することにより、オーディオ信号の周波数ドメインと時間ドメインとの両方をスケーリングするボコーダである。
一実施形態によれば、位相アダプタは、振幅と修正された位相とを有する処理済み信号をそれらの極座標によって提供するように構成される。したがって、N=2チャネル信号Ys,Ydを有する一実施形態では、処理済み信号は次式により与えられ、
Figure 0006728400
ここで、Φs/d=arg Ys/dおよびj=√(−1)である。
セパレータは、結合信号に基づく処理済み信号に基づいた個別の信号を提供する。セパレータによって提供される信号は、時間スケール修正されたチャネル信号として使用される。したがって、一実施形態によれば、多チャネルオーディオ信号がN個のチャネル信号を含む場合、セパレータはN個の分離信号を提供する。
一実施形態によれば、セパレータは、処理済み信号のうちの2つの間の差に基づく1つの分離信号を提供するように構成される。
さらなる実施形態では、セパレータは、処理済み信号のうちの2つの和に基づく1つの分離信号を提供するように構成される。
一実施形態では、セパレータは、処理済み信号の各結合の振幅に対してある係数−例えば0.5−を適用する。
一実施形態によれば、セパレータは、N×Nの寸法を持つ逆ミキシング行列を、N個の処理済み信号に基づく行列化された信号に適用することにより、N個の分離信号を提供するように構成される。Nは、多チャネルオーディオ信号に含まれるチャネル信号の数である。この実施形態は、任意の所与の数の処理済み信号を処理し、対応する数の分離信号を提供することを可能にする。逆ミキシング行列は、結合信号を得るために使用されるミキシング行列の逆行列である。
一実施形態によれば、この装置は補正器を含み、補正器は、分離信号の振幅を多チャネルオーディオ信号に含まれるチャネル信号の振幅に基づく振幅で置換することによって、分離信号を補正するように構成される。
この実施形態は、チャネル信号の線形結合を処理すること、及び信号が周波数ドメインにおいて修正された後に振幅補正手順を適用することを含む。
このように、本方法の新しさは、この実施形態では2つの段階にある。すなわち、
1)TSM処理を、好ましくは線形結合、例えば和信号および差信号に適用すること、及び
2)チャネル間レベル差(ICLD)を回復するために、時間−周波数ドメインにおける出力信号の振幅を回復する処理を適用することである。
さらなる実施形態では、補正器は、分離信号の振幅を、変換器によって提供された対応する変換済み信号の振幅、すなわち周波数ドメインにおけるチャネル信号の振幅によって置換するように構成される。
このように、補正器は、適応された位相を有する分離信号の振幅を適応化前の対応する信号の振幅によって置換する。したがって、元の振幅が回復される。
以下の実施形態は、周波数ドメインにおいて信号を処理し、かつ時間ドメインにおいてそれらを処理することを可能にする。
一実施形態では、この装置は逆変換器を含む。逆変換器は、逆変換を適用することによって、分離信号に基づく修正済みチャネル信号を提供するように構成される。この逆変換は、一実施形態では、周波数ドメインから時間ドメインへ信号を変換する。
他の実施形態によれば、本装置は逆変換器を含む。逆変換器は、逆変換を適用することによって、補正器によって提供された補正済み信号に基づいて補正され修正されたチャネル信号を提供するように構成される。
別の実施形態によれば、逆変換器は、逆短時間フーリエ変換を適用するように構成される。
このように、逆変換器は、位相適応の前のステップで実行されるある種の変換を逆転するように構成される。
一実施形態によれば、この装置は抽出器を含み、抽出器は、多チャネルオーディオ信号に含まれるチャネル信号を提供するように構成される。この実施形態では、本装置は、例えば多チャネルオーディオ信号を受信し、抽出器は個々のチャネル信号を提供する。別の実施形態では、チャネル信号はこの装置に個別に供給される。
以下の実施形態は、計算ステップが容易になり、そのユニットに対する要件が緩和され得る。
一実施形態によれば、この装置は、チャネル信号の他の結合よりも、より精度の低い信号間の差に基づくチャネル信号の結合に対してステップを実行するように構成される。
この目的は、多チャネルオーディオ信号を処理する方法によっても達成される。
この方法は、少なくとも以下のステップを含む:
多チャネルオーディオ信号に含まれるチャネル信号に基づく少なくとも1つの結合信号を提供するステップ、
結合信号の時間スケール修正を実行することによって処理済み信号を提供するステップ、及び
処理済み信号の分離に基づいて修正済みチャネル信号を提供するステップ。
時間スケール修正は、一実施形態では、位相適応によって実行される。
一実施形態によれば、本方法は、振幅を、対応するチャネル信号の振幅に基づく振幅で置換することによって、修正済みチャネル信号の振幅を修正するステップをさらに含む。
この実施形態では、以下のステップが起こる。すなわち、チャネル信号は結合信号へと結合される。結合信号又はこの結合信号に基づく信号は、時間スケール修正を実行するために位相適応を受ける。位相適応された信号は、分離信号に分離される。それら信号は位相と振幅とを含む。これら信号の振幅/大きさは、チャネル信号に基づく振幅によって置換される。
本装置の実施形態は、方法のステップおよび方法の対応する実施形態によって実施することもできる。したがって、装置の実施形態について与えられた説明は、本方法についても当てはまる。
この目的は、コンピュータまたはプロセッサ上で実行されるときに、前述の実施形態のいずれかの方法を実行するコンピュータプログラムによっても達成される。
以下では、添付図面および添付図面に記載された実施形態に関連して、本発明について説明する。
従来技術による周波数ドメインにおける時間スケール修正方法のブロック図である。 2つのチャネルを有する入力オーディオ信号のための本発明の時間スケール修正方法のブロック図である。 本装置の一実施形態を概略的に示す。 この装置の異なる実施形態を示す。 図4の実施形態の一般的なバージョンを示す。
2つのチャネル(例えばステレオサウンドの左チャネルおよび右チャネル)を有する入力信号の例である、本発明方法の一実施形態のブロック図が図2に示されている。
入力オーディオ信号はx=[x12Tであり、ここで、x1は第1チャネル信号を表し、x2は第2チャネル信号を表す。短時間フーリエ変換(STFT)表現は、x1およびx2に対して計算され、ステップSTFTにおいてそれぞれX1およびX2を得る。
本発明によれば、和信号Xsおよび差信号Xdが、多チャネルオーディオ信号のチャネル信号−ここでは変換済みチャネル信号X1およびX2−から、MSと名付けられたステップにおいて、次式に従って計算される。
Figure 0006728400
別の実施形態では、STFTとステップMSにおける信号の結合との順序が切り替えられる。これは、和信号及び差信号の計算は時間ドメインでも実行することができ、かつSTFTを時間ドメインの和信号及び差信号から計算できる、ことを考慮している。しかしながら、計算負荷を低減するために、図2に示すような順序を適用するのが有利である。
次に、和信号Xs及び差信号Xdは、位相適応(PA)法によって、例えば[非特許文献2]に記載された位相ボコーダ法又は他の時間スケール修正法を使用して、処理される。処理された和信号および差信号は、それぞれYsおよびYdで示される。
これに続いて、例えば信号YsおよびYdを逆短時間フーリエ変換により変換することによって、ステップinverseMSにおける逆変換が行われる。
第1及び第2のチャネルについての処理済み信号は、図示の実施例においては、以下の式(8)及び(9)を適用することにより、すなわち式(6)及び(7)の逆処理を適用することにより、得られる。
したがって、2つの分離信号Y1およびY2は、図示の実施形態では、次式で与えられる。
Figure 0006728400
一般的な形態では、(結合信号の例としての)和信号と差信号の計算は、次式のように行列表記で表され、
Figure 0006728400
ここで、入力信号のSTFT係数X=[X1…XNT、チャネル数N、行列化された信号のSTFT係数
Figure 0006728400
及びサイズN×Nのミキシング行列gを用いる。
例えば、和信号Xsと差信号Xd−式(6)、(7)で与えられる−とは、N=2について、
Figure 0006728400
及び
Figure 0006728400
と設定することにより、取得される。
行列演算の逆処理、すなわち行列化された信号
Figure 0006728400
からチャネル信号Y=[Y1…YNTを計算することは、次式から得られ、
Figure 0006728400
ここで、
Figure 0006728400

Figure 0006728400
に適用されたPA処理の結果であり、g-1は行列gの逆行列である。この一般化を用いて、提案の方法は、2より多いチャネルを有する信号にも適用することができる。
上述の実施形態の非常に有利なステップは、スペクトル係数の大きさを補正することであり、それにより、結果として得られる複素値スペクトル係数は、式(8)および(9)を使用する分離ステップの結果の位相と、変換済みチャネル信号X1およびX2の大きさとを有する。
分離信号は、極座標で次式のように与えられる。
Figure 0006728400
ここで Φy,1/2=arg Y1/2及びj=√−1である。
したがって、図示された2チャネル入力信号に対して、ステップMCに続く補正済み信号Z1及びZ2は、次式で与えられる。
Figure 0006728400
このステップは、オーディオ信号のチャネル間レベル差(ICLD)が保持されることを保証する。
つまりこのステップでは、処理済み信号の大きさが変換済みチャネル信号の元の振幅によって置換される。
2より多いチャネルを有する入力信号の一般的な場合において逆行列演算後−すなわち個別の位相適応後に分離信号への分離後−の各出力信号は、一実施形態において、その大きさが対応する−好ましくは変換済みの−チャネル信号(行列化前、すなわち異なるチャネル信号の結合を計算する前)の大きさによって置換されるように修正される。
このPA処理は、かなりの計算複雑性を有する。それは、計算負荷を低減するために、より低い精度で実施され得る様々な処理ステップを含む。
例えば、デカルト座標によって与えられる複素数(実数成分および虚数成分)の極座標(大きさおよび位相)の計算は、より低いまたはより高い精度で実施することができる。より低い精度での計算は、より低い計算コストを有するが、誤差を導入してしまいがちである。
計算負荷は、典型的なオーディオ信号(例えば音楽録音又は放送信号)について、和信号が差信号よりも高いエネルギーを有するという事実を有利に利用することによって、低減することができる。計算における近似に起因する誤差は、それらが差信号に導入される場合にはより小さい影響を有し、和信号に生じる場合にはより大きな影響を有する。これは、差信号Ydを計算する際により低い精度の方法を適用し、かつ和信号Ysを計算する際により高い精度の方法を適用することによって、活用することができる。
計算負荷を低減するための他の手段は、ある処理ステップをスキップすることである。例えば、差信号Ydを算出する際に、位相同期をスキップすることができる。位相同期とは、音質を改善するための付加的な処理ステップのことである。計算負荷を低減するために、位相同期処理を適用することなく位相伝播が維持されるように、差信号Ydの位相が計算される。
計算負荷を低減するための別の手段は、ある最大周波数値までだけに、高品質(位相同期のようなすべての処理ステップを含む高い精度)での処理を適用することである。例えば、48kHzでサンプリングされたデジタル信号の場合、高品質の処理は、10kHzの最大値までの周波数帯域にのみ適用される。差信号の計算については、最良の可能な品質で処理が適用される最大周波数をさらに低減することができる。
図3は、多チャネルオーディオ信号100の時間スケール修正を実行する装置1の一実施形態を示す。多チャネルオーディオ信号100は、2よりも多いチャネル信号を含んでもよい。時間スケール修正は、位相適応によって達成される。
抽出器2は、多チャネルオーディオ信号100に含まれるチャネル信号x1,x2を回収する。図示の実施形態では、2つのチャネル信号のみが存在する。しかしながら、本発明は、2チャネル信号に限定されるものではない。
異なる実施形態−図示せず−では、チャネル信号x1,x2は装置1に別個に供給される。したがって、このような実施形態では抽出器は必要とされない。
チャネル信号x1、x2は時間ドメインの信号であり、図示の実施形態では変換器3に送られる。変換器3はチャネル信号x1,x2を周波数ドメインに変換し、変換済み信号X1,X2を供給する。
変換済み信号X1,X2は結合器4に送られる。結合器4は、−この実施例では−変換済み信号X1,X2の線形結合を適用すること、例えば変換済み信号の和Xsを計算し、かつそれらの間の差Xdを計算することによって、変換済み信号X1,X2を結合する。結合信号の数は、一実施形態ではチャネル信号の数と同じである。
異なる実施形態−図示せず−では、変換器3と結合器4とのシーケンスは逆転される。これは、この異なる図示されていない実施例では、結合器4がチャネル信号を結合してから、変換器3がその結合信号を変換することを意味する。
図示の実施形態では、結合信号−変換され結合されたチャネル信号である−XsおよびXdは位相アダプタ5に送られる。
位相アダプタ5は、結合信号XsおよびXdの位相を修正し、処理済み信号YsおよびYdを提供する。処理済み信号YsおよびYdは、結合信号XsおよびXdの適切な時間スケール修正を反映している適応された位相を有する。このように、結合信号は、スローダウンされるかまたはスピードアップされる。
時間スケール修正されたチャネル信号を得るために、処理済み信号YsおよびYdは、分離信号Y1およびY2を提供するセパレータ6によって分離され、これら分離信号は逆変換器7によって逆変換される。結果として得られた修正済みチャネル信号y1およびy2は時間信号であり、所望の時間スケールを有する。
図4は、装置1の異なる実施形態を示す。
図4に示す装置1の構造は、図3に示した実施形態と同様である。両実施形態の差は、セパレータ6に続くユニットによって与えられる。他の要素についての説明は、図3の説明を参照されたい。
図4に示された実施形態におけるセパレータ6も、分離信号Y1及びY2を提供する。これら周波数ドメイン信号Y1およびY2は、この実施形態では逆変換器7の上流にある補正器8に送られる。
補正器8は、分離信号Y1及びY2の振幅を、対応する変換済み信号X1及びX2の振幅によって置換する。即ち、位相適応前及び特にチャネル信号の結合前の振幅又は大きさを用いて置換する。
結果として得られる補正され又は振幅修正された信号Z1及びZ2(式(12)及び(13)と比較する)は、逆変換器7に送られ、補正されかつ修正されたチャネル信号z1,z2として時間ドメインに変換される。
補正を可能にするために、変換器3は補正器8と接続されている。
図示されていない更なる実施形態では、変換器3と結合器4の順序が逆転し、よって変換器3は結合信号を変換する。その場合、分離信号Y1,Y2の補正のために、補正器8は対応するチャネル信号x1,x2のさらなる変換信号を参照する。
図5の実施例は、図4に示された実施例の一般化されたバージョンである。
ここで、多チャネルオーディオ信号100はN個のチャネル信号x1,x2,…,xNを含み、Nは2より大きい整数である。
抽出器2によって回収された時間信号であるチャネル信号x1,x2,…,xNは変換器3へ送られ、変換器3は、周波数ドメインにおける変換済み信号X1,X2,…,XNを提供し、これら変換済み信号はここではベクトル
Figure 0006728400
によって与えられる(代替的にはXによって与えられる)。
次の結合器4は、式(10)を適用することによって、線形結合のベクトル
Figure 0006728400
を提供する。
次に、位相アダプタ5が処理済み信号(ここではベクトル
Figure 0006728400
によって与えられる)を提供し、その処理済み信号はセパレータ6によって分離される。分離信号Y1,Y2,…,YN(ここではベクトル
Figure 0006728400
によって与えられる)は、補正器8によってそれらの振幅に関して補正される。補正済み信号Z1,Z2,…,ZN(ここではベクトル
Figure 0006728400
によって与えられる)が逆変換器7に送られ、補正されかつ修正されたN個のチャネル信号z1、z2,…,zNを得る。大文字から小文字への切り替えは、周波数ドメインから時間ドメインへの変換を示している。
いくつかの態様が装置に関して説明されてきたが、これらの態様は、ブロックまたはデバイスが方法ステップまたは方法ステップの特徴に対応する、対応する方法の説明を表すことは明らかである。同様に、方法ステップの文脈において説明される態様は、対応する装置の対応するブロックまたはアイテムまたは特徴の説明を表す。方法ステップの一部または全部は、例えばマイクロプロセッサ、プログラム可能なコンピュータ、または電子回路などのハードウェア装置によって実行される(または使用される)ことが可能である。いくつかの実施形態において、最も重要な方法ステップのうちのいくつかの一つまたは複数は、そのような装置によって実行されてもよい。
本発明の伝送されまたは符号化された信号は、デジタル記憶媒体に記憶することができ、または無線伝送媒体またはインターネットなどの有線伝送媒体のような伝送媒体上で伝送することができる。
特定の実施要件に応じて、本発明の実施形態は、ハードウェアで実施されてもよいし、ソフトウェアで実施されてもよい。この実施は、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(または協働することができる)電子的に読み取り可能な制御信号を記憶するデジタル記憶媒体、例えばフロッピー(登録商標)ディスク、DVD、ブルーレイ、CD、ROM、PROMおよびEPROM、EEPROMまたはフラッシュメモリを使用して実行することができる。したがって、デジタル記憶媒体は、コンピュータ可読であってもよい。
本発明によるいくつかの実施形態は、本明細書に記載される方法のうちの一つが実行されるように、プログラム可能なコンピュータシステムと協働することができる、電子的に読み取り可能な制御信号を有するデータキャリアを含む。
一般に、本発明の実施形態は、コンピュータプログラム製品がコンピュータ上で実行されるときに、その方法の一つを実行するように動作するプログラムコードを有するコンピュータプログラム製品として実装することができる。プログラムコードは、例えば、機械読み取り可能なキャリアに格納されてもよい。
他の実施形態は、機械可読キャリアに格納された、本明細書に記載された方法のうちの一つを実行するコンピュータプログラムを含む。
言い換えると、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載された方法の一つを実行するプログラムコードを有するコンピュータプログラムである。
したがって、本発明の方法のさらなる実施形態は、本明細書に記載される方法のうちの一つを実行するコンピュータプログラムを記録したデータキャリア(または、デジタル記憶媒体などの非一時的記憶媒体、またはコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体、または記録媒体は、典型的には、有形および/または非一時的である。
したがって、本発明の方法のさらなる実施形態は、本明細書に記載されている方法の一つを実行するコンピュータプログラムを表すデータストリームまたは信号シーケンスである。データストリームまたは信号シーケンスは、例えば、インターネットを介するなど、データ通信接続を介して転送されるように構成されてもよい。
さらなる実施形態は、本明細書に記載される方法の一つを実行するように構成されるか、または適応されるように構成される、処理手段、例えば、コンピュータまたはプログラム可能な論理デバイスを含む。
さらなる実施形態は、本明細書に記載される方法の一つを実行するコンピュータプログラムをその上にインストールされたコンピュータを含む。
本発明によるさらなる実施形態は、本明細書に記載される方法の一つを実行するコンピュータプログラムを受信機に転送する(例えば、電子的にまたは光学的に)ように構成された装置またはシステムを含む。受信機は、例えば、コンピュータ、モバイル機器、メモリ機器などであってもよい。装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを備えることができる。
いくつかの実施形態において、プログラム可能な論理デバイス(例えば、フィールドプログラマブルゲートアレイ)は、本明細書に記載される方法の機能のいくつかまたは全ての機能を実行するために使用され得る。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書で説明される方法のうちの一つを実行するためにマイクロプロセッサと協働することができる。一般に、本方法は、任意のハードウェア装置によって実行されることが好ましい。
上述した実施形態は、本発明の原理を説明するためのものである。本明細書中に記載される配置および詳細の変更および変形は、当業者には明らかであることが理解される。従って、本明細書の実施形態の説明および記載によって提示される特定の詳細によるものではなく、本願の特許請求の範囲によってのみ限定されることが意図される。

Claims (24)

  1. 複数のチャネル信号(x1,x2)を含む多チャネルオーディオ信号(100)を処理する装置(1)であって、
    前記装置(1)は、前記多チャネルオーディオ信号(100)の時間スケール修正を実行するように構成され、
    前記装置(1)は、
    前記チャネル信号(x1,x2)に基づく結合信号(Xs,Xd)を提供する結合器(4)であって、2つのチャネル信号(x1,x2)の和を計算することによって和信号(Xs)を提供し、かつ2つのチャネル信号(x1,x2)の差を計算することによって差信号(Xd)を提供するよう構成される、結合器(4)と、
    位相アダプタ(5)であって、前記位相アダプタ(5)は、前記和信号(Xs)の位相を修正することによって少なくとも1つの処理済み信号(Ys)を提供し、任意に前記差信号の位相を修正することによって処理済み差信号(Yd)を提供するよう構成されており、前記位相アダプタ(5)は、位相ボコーダ法を適用して前記位相を修正するよう構成されるか、位相同期を適用して前記位相を修正するよう構成されるか、又は水平位相コヒーレンスが維持されるように前記位相を修正するよう構成される、位相アダプタ(5)と、
    前記少なくとも1つの処理済み信号(Ys)と前記差信号(Xd)又は前記処理済み差信号(Yd)とに基づいて分離信号(Y1,Y2)を提供するように構成されるセパレータ(6)であって、前記結合器(4)によって適用される前記チャネル信号の結合を逆転するよう構成される、セパレータ(6)と、
    を備える装置(1)。
  2. 前記位相アダプタ(5)は、N個のチャネル信号(x1,x2)の結合に基づくN個の信号(Xs,Xd)の位相を修正することによって、N個の処理済み信号(Ys,Yd)を提供するように構成され、
    前記セパレータ(6)は、前記処理済み信号(Ys,Yd)に基づいてN個の分離信号(Y1,Y2)を提供するように構成され、
    Nは、前記多チャネルオーディオ信号(100)に含まれるチャネル信号(x1,x2)の数である、請求項1に記載の装置(1)。
  3. 前記チャネル信号(x1,x2)のN個の結合は、前記チャネル信号(x1,x2)の線形結合であることを特徴とする、請求項2に記載の装置(1)。
  4. 請求項1乃至3のいずれか1項に記載の装置(1)であって、
    前記装置(1)は変換器(3)を備え、
    前記変換器(3)は、信号を時間ドメインから周波数ドメインに変換することによって変換信号(X1,X2)を提供するよう構成される、装置(1)。
  5. 請求項4に記載の装置(1)であって、
    前記変換器(3)は、短時間フーリエ変換を適用するよう構成されている、装置(1)。
  6. 請求項4又は5に記載の装置(1)であって、
    前記結合器(4)は、前記チャネル信号(x1,x2)に基づいて結合信号(Xs,Xd)を提供するように構成され、
    前記変換器(3)は、前記結合信号に変換を適用することによって、変換済み信号を提供するよう構成される、装置(1)。
  7. 請求項4または5に記載の装置(1)であって、
    前記結合器(4)は、前記変換器(3)によって提供される変換信号(X1,X2)に基づいて結合信号(Xs,Xd)を提供するよう構成される、装置(1)。
  8. 請求項7に記載の装置(1)において、
    前記結合器(4)は、2つの変換済み信号(X1,X2)の和を計算することによって和信号(Xs)を提供するよう構成されている、装置(1)。
  9. 請求項7または8に記載の装置(1)であって、
    前記結合器(4)は、2つの変換済み信号(X1,X2)間の差を計算することによって差信号(Xd)を提供するよう構成されている、装置(1)。
  10. 請求項7に記載の装置(1)であって、
    前記結合器(4)は、前記多チャネルオーディオ信号(100)に属するN個のチャネル信号(x1,x2)に基づくN個の変換済み信号(X1,X2)に対し、N×Nの寸法を持つミキシング行列(g)を適用することによって、前記結合信号(Xs,Xd)を提供するよう構成され、
    前記Nは、前記多チャネルオーディオ信号(100)に含まれるチャネル信号(x1,x2)の数である、装置(1)。
  11. 請求項4又は5に記載の装置(1)であって、
    前記変換器(3)は分析ホップサイズRaを有し、
    前記装置(1)は逆変換器(7)をさらに含み、前記逆変換器(7)は合成ホップサイズRsを有し、
    前記合成ホップサイズRsと分析ホップサイズRaとは異なる値に設定され、Ra<Rsの場合に前記時間スケール修正は時間的な信号伸張であり、又はRa>Rsの場合に前記時間スケール修正は時間的な信号収縮である、装置(1)。
  12. 請求項2乃至11のいずれか1項に記載の装置(1)であって、
    前記セパレータ(6)は、前記処理済み信号(Ys,Yd)の2つの間の差に基づいて1つの分離信号(Y1,Y2)を提供するように構成されている、装置(1)。
  13. 請求項2乃至12のいずれか1項に記載の装置(1)であって、
    前記セパレータ(6)は、前記処理済み信号(Ys,Yd)の2つの和に基づいて1つの分離信号(Y1,Y2)を提供するよう構成されていることを特徴とする、装置(1)。
  14. 請求項2乃至13のいずれか1項に記載の装置(1)であって、
    前記セパレータ(6)は、N個の処理済み信号(Ys,Yd)に基づく行列化された信号に対し、N×Nの寸法を持つ逆ミキシング行列(g-1)を適用することによって、N個の分離信号(Y1,Y2)を提供するように構成され、
    Nは、前記多チャネルオーディオ信号(100)に含まれるチャネル信号(x1,x2)の数である、装置(1)。
  15. 請求項1乃至14のいずれか1項に記載の装置(1)であって、
    前記装置(1)は補正器(8)を備え、
    前記補正器(8)は、前記分離信号(Y1,Y2)の振幅を前記チャネル信号(x1,x2)の振幅に基づく振幅で置換することによって、前記分離信号(Y1,Y2)を補正するように構成されている、装置(1)。
  16. 請求項15に記載の装置(1)であって、
    前記補正器(8)は、前記分離信号(Y1,Y2)の振幅を、変換器(3)によって提供される変換済み信号(X1,X2)の振幅で置換するように構成されている、装置(1)。
  17. 請求項1乃至16のいずれか1項に記載の装置(1)であって、
    前記装置(1)は逆変換器(7)を備え、
    前記逆変換器(7)は、前記分離信号(Y1,Y2)に逆変換を適用することによって、修正されたチャネル信号(y1,y2)を提供するよう構成される、装置(1)。
  18. 請求項15又は16に記載の装置(1)であって、
    前記装置(1)は逆変換器(7)を備え、
    前記逆変換器(7)は、前記補正器(8)によって提供される補正済み信号(Z1,Z2)に逆変換を適用することによって、補正され修正されたチャネル信号(z1,z2)を提供するように構成されている、装置(1)。
  19. 請求項17または18に記載の装置(1)であって、
    前記逆変換器(7)は、逆短時間フーリエ変換を適用するように構成されている、装置(1)。
  20. 請求項1乃至19のいずれか1項に記載の装置(1)であって、
    前記装置(1)は抽出器(2)を備え、
    前記抽出器(2)は、前記多チャネルオーディオ信号(100)に含まれるチャネル信号(x1,x2)を提供するよう構成される、装置(1)。
  21. 請求項1乃至20のいずれか1項に記載の装置(1)であって、
    前記装置(1)は、チャネル信号の他の結合よりも、精度の低い信号間の差に基づくチャネル信号(x1,x2)の結合に対してステップを実行するように構成されている、装置(1)。
  22. 複数のチャネル信号(x1,x2)を含む多チャネルオーディオ信号(100)を処理する方法であって、前記方法は、前記多チャネルオーディオ信号(100)の時間スケール修正を実行するように構成され、
    前記方法は、
    前記チャネル信号(x1,x2)に基づく結合信号(Xs,Xd)を提供するステップであって、前記結合信号は、2つのチャネル信号(x1,x2)の和から計算される和信号(Xs)と、2つのチャネル信号(x1,x2)の差から計算される差信号(Xd)とを含む、ステップと、
    前記和信号(Xs)の位相を修正することによって少なくとも1つの処理済み信号(Ys)を提供し、任意に前記差信号の位相を修正することによって処理済み差信号(Yd)を提供するステップであって、前記処理済み信号を提供するステップは、位相ボコーダ法を適用して前記位相を修正するか、位相同期を適用して位相を修正するか、又は水平位相コヒーレンスが維持されるように前記位相を修正するかを含む、ステップと、
    前記少なくとも1つの処理済み信号(Ys)と前記差信号(Xd)又は前記処理済み差信号(Yd)とに基づく分離信号(Y1,Y2)を提供するステップであって、前記分離信号(Y1,Y2)を提供するステップは前記結合信号(Xs,Xd)を提供するステップによって適用される、前記チャネル信号の結合の逆転を含む、ステップと、
    を含む方法。
  23. 請求項22に記載の方法であって、
    修正済みチャネル信号の振幅を、対応するチャネル信号の振幅に基づく振幅で置換することによって、前記修正済みチャネル信号の振幅を修正するステップをさらに含む、方法。
  24. コンピュータまたはプロセッサ上で実行されたときに、請求項22または23に記載の方法を実行するコンピュータプログラム。
JP2018560586A 2016-05-20 2017-05-17 多チャネルオーディオ信号を処理する装置及び方法 Active JP6728400B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP16170723.7 2016-05-20
EP16170723 2016-05-20
EP16179531.5A EP3246923A1 (en) 2016-05-20 2016-07-14 Apparatus and method for processing a multichannel audio signal
EP16179531.5 2016-07-14
PCT/EP2017/061895 WO2017198737A1 (en) 2016-05-20 2017-05-17 Apparatus and method for processing a multichannel audio signal

Publications (2)

Publication Number Publication Date
JP2019518988A JP2019518988A (ja) 2019-07-04
JP6728400B2 true JP6728400B2 (ja) 2020-07-22

Family

ID=56080267

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018560586A Active JP6728400B2 (ja) 2016-05-20 2017-05-17 多チャネルオーディオ信号を処理する装置及び方法

Country Status (13)

Country Link
US (1) US11929089B2 (ja)
EP (2) EP3246923A1 (ja)
JP (1) JP6728400B2 (ja)
KR (1) KR102329707B1 (ja)
CN (1) CN109416915B (ja)
AU (1) AU2017266294B2 (ja)
BR (1) BR112018073894A2 (ja)
CA (1) CA3023401C (ja)
ES (1) ES2841302T3 (ja)
MX (1) MX2018014041A (ja)
PL (1) PL3459078T3 (ja)
RU (1) RU2713094C1 (ja)
WO (1) WO2017198737A1 (ja)

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
JP2000049614A (ja) 1998-07-31 2000-02-18 Kobe Steel Ltd 再生装置
US8019598B2 (en) * 2002-11-15 2011-09-13 Texas Instruments Incorporated Phase locking method for frequency domain time scale modification based on a bark-scale spectral partition
US20050137729A1 (en) * 2003-12-18 2005-06-23 Atsuhiro Sakurai Time-scale modification stereo audio signals
US7391870B2 (en) 2004-07-09 2008-06-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Apparatus and method for generating a multi-channel output signal
MX2007005262A (es) * 2004-11-04 2007-07-09 Koninkl Philips Electronics Nv Codificacion y decodificacion de senales de audio de varios canales.
US7957960B2 (en) * 2005-10-20 2011-06-07 Broadcom Corporation Audio time scale modification using decimation-based synchronized overlap-add algorithm
US20070135952A1 (en) 2005-12-06 2007-06-14 Dts, Inc. Audio channel extraction using inter-channel amplitude spectra
US20090137729A1 (en) 2006-03-30 2009-05-28 Hirotaka Uosaki Process for Producing Oriented Film
US7647229B2 (en) * 2006-10-18 2010-01-12 Nokia Corporation Time scaling of multi-channel audio signals
EP1918911A1 (en) * 2006-11-02 2008-05-07 RWTH Aachen University Time scale modification of an audio signal
CN101079265B (zh) * 2007-07-11 2011-06-08 无锡中星微电子有限公司 一种语音信号处理系统
EP2250641B1 (en) * 2008-03-04 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for mixing a plurality of input data streams
EP2674943B1 (en) * 2009-01-28 2015-09-02 Dolby International AB Improved harmonic transposition
EP2214165A3 (en) * 2009-01-30 2010-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for manipulating an audio signal comprising a transient event
US8705769B2 (en) * 2009-05-20 2014-04-22 Stmicroelectronics, Inc. Two-to-three channel upmix for center channel derivation
CN101989426B (zh) * 2009-08-05 2012-09-05 立积电子股份有限公司 立体音频解码器以及多工信号解码方法
US8848925B2 (en) * 2009-09-11 2014-09-30 Nokia Corporation Method, apparatus and computer program product for audio coding
EP2362376A3 (en) * 2010-02-26 2011-11-02 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for modifying an audio signal using envelope shaping
KR101437896B1 (ko) * 2010-04-09 2014-09-16 돌비 인터네셔널 에이비 Mdct-기반의 복소수 예측 스테레오 코딩
FR2966634A1 (fr) * 2010-10-22 2012-04-27 France Telecom Codage/decodage parametrique stereo ameliore pour les canaux en opposition de phase
EP2705516B1 (en) * 2011-05-04 2016-07-06 Nokia Technologies Oy Encoding of stereophonic signals
WO2012167479A1 (en) * 2011-07-15 2012-12-13 Huawei Technologies Co., Ltd. Method and apparatus for processing a multi-channel audio signal
CN110047496B (zh) 2013-04-05 2023-08-04 杜比国际公司 立体声音频编码器和解码器
MY169132A (en) * 2013-06-21 2019-02-18 Fraunhofer Ges Forschung Method and apparatus for obtaining spectrum coefficients for a replacement frame of an audio signal, audio decoder, audio receiver and system for transmitting audio signals
WO2015038578A2 (en) * 2013-09-12 2015-03-19 Dolby Laboratories Licensing Corporation System aspects of an audio codec
CN103714847B (zh) * 2013-12-31 2016-05-04 中山大学花都产业科技研究院 一种基于dsp的多通道数字音频处理器

Also Published As

Publication number Publication date
MX2018014041A (es) 2019-04-01
WO2017198737A1 (en) 2017-11-23
AU2017266294B2 (en) 2019-10-17
CA3023401C (en) 2022-04-05
EP3246923A1 (en) 2017-11-22
CA3023401A1 (en) 2017-11-23
RU2713094C1 (ru) 2020-02-03
EP3459078B1 (en) 2020-11-04
ES2841302T3 (es) 2021-07-08
JP2019518988A (ja) 2019-07-04
CN109416915B (zh) 2020-11-24
KR20190013756A (ko) 2019-02-11
US11929089B2 (en) 2024-03-12
AU2017266294A1 (en) 2018-11-29
BR112018073894A2 (pt) 2019-02-26
KR102329707B1 (ko) 2021-11-22
US20190066712A1 (en) 2019-02-28
PL3459078T3 (pl) 2021-05-04
CN109416915A (zh) 2019-03-01
EP3459078A1 (en) 2019-03-27

Similar Documents

Publication Publication Date Title
KR102125410B1 (ko) 타깃 시간 도메인 포락선을 사용하여 처리된 오디오 신호를 얻도록 오디오 신호를 처리하기 위한 장치 및 방법
RU2518696C2 (ru) Аппаратный блок, способ и компьютерная программа для расширения сжатого аудио сигнала
JP5734517B2 (ja) 多チャンネル・オーディオ信号を処理する方法および装置
JP4227772B2 (ja) オーディオ復号装置と復号方法およびプログラム
JP5854520B2 (ja) オーディオ信号用の位相ボコーダに基づく帯域幅拡張方法における改善された振幅応答及び時間的整列のための装置及び方法
JP5266332B2 (ja) 信号処理方法及び装置
WO2005073958A1 (en) Method and apparatus for time scaling of a signal
JP7174081B2 (ja) マルチチャンネル音声符号化
TWI468031B (zh) 用以產生供提供額外輸出聲道的立體音響輸出信號之裝置、方法及電腦程式
US20120281841A1 (en) Apparatus and method for encoding/decoding a multi-channel audio signal
JP6728400B2 (ja) 多チャネルオーディオ信号を処理する装置及び方法
JP2009501353A (ja) オーディオ信号合成
US20230040657A1 (en) Method and system for instrument separating and reproducing for mixture audio source
WO2013020341A1 (zh) 一种音效变音方法及装置
WO2020179472A1 (ja) 信号処理装置および方法、並びにプログラム
JP2007033804A (ja) 音源分離装置,音源分離プログラム及び音源分離方法
Zhu et al. MusicHiFi: Fast high-fidelity stereo vocoding
US8781134B2 (en) Method and apparatus for encoding and decoding stereo audio
US8744089B2 (en) Method and apparatus for encoding and decoding stereo audio
WO2017188141A1 (ja) オーディオ信号処理装置、オーディオ信号処理方法、およびオーディオ信号処理プログラム
Akhmetov et al. Time Domain Source Separation with Spectral Penalties
KR20160045822A (ko) 엘리어싱 오류 신호를 사용하여 오디오 신호를 처리하기 위한 장치 및 방법
BR122019025118B1 (pt) Sistema e método para gerar um sinal de tempo alongado e/ou um sinal de frequência transposta a partir de um sinal de entrada e meio de armazenamento legível por computador

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181221

A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A529

Effective date: 20181220

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200701

R150 Certificate of patent or registration of utility model

Ref document number: 6728400

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250