JP6552132B2 - 音声信号のクロストーク低減のための音声信号処理装置および方法 - Google Patents

音声信号のクロストーク低減のための音声信号処理装置および方法 Download PDF

Info

Publication number
JP6552132B2
JP6552132B2 JP2017557249A JP2017557249A JP6552132B2 JP 6552132 B2 JP6552132 B2 JP 6552132B2 JP 2017557249 A JP2017557249 A JP 2017557249A JP 2017557249 A JP2017557249 A JP 2017557249A JP 6552132 B2 JP6552132 B2 JP 6552132B2
Authority
JP
Japan
Prior art keywords
signal
sub
channel input
input audio
left channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017557249A
Other languages
English (en)
Other versions
JP2018506937A (ja
Inventor
イェセニア・ラコウチューレ・パロディ
Original Assignee
ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ホアウェイ・テクノロジーズ・カンパニー・リミテッド filed Critical ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Publication of JP2018506937A publication Critical patent/JP2018506937A/ja
Application granted granted Critical
Publication of JP6552132B2 publication Critical patent/JP6552132B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Description

本発明は、音声信号処理の分野に関し、詳細には音声信号内のクロストーク低減に関する。
音声信号内のクロストークの低減は、複数の適用例において大きな関心事である。例えば、スピーカを使用して聴取者に対してバイノーラル音声信号を再生したとき、例えば聴取者の左耳において聞こえることになっている音声信号は、聴取者の右耳においても通常聞こえる。この効果は、クロストークとして表され、音声再生チェーン内に逆フィルタを追加することによって低減することができる。クロストーク低減は、クロストーク消去と呼ぶこともでき、音声信号をフィルタリングすることによって実現することができる。
正確な逆フィルタリングは、通常可能ではなく、近似値が適用される。逆フィルタが通常不安定であるので、これらの近似値は、逆フィルタの利得を制御するために、およびダイナミックレンジ損失を低減するために正則化を使用する。しかし、悪条件により、逆フィルタは、エラーに敏感である。言い換えれば、再生チェーンにおける小さなエラーは、結果として再生ポイントにおける大きなエラーとなり、Takeuchi, T. and Nelson, P.A., "Optimal source distribution for binaural synthesis over loudspeakers", Journal ASA 112(6), 2002に説明されているように結果として狭いスイートスポットおよび望ましくないカラーレーションを生じさせることがある。
EP1545154A2において、逆フィルタを決定するために、スピーカから聴取者までの測定が使用される。しかし、この方式は、正則化による狭いスイートスポットおよび不要なカラーレーションを被る。すべての周波数が最適化段階において等しく扱われるので、低周波数成分および高周波数成分は、悪条件によるエラーを起こしやすい。
M.R. Bai, G.Y. Shih, C.C. Lee "Comparative study of audio spatializers for dual-loudspeaker mobile phones", Journal ASA 121(1), 2007において、逆フィルタ設計の複雑性を低下させるためにサブバンド分割が使用される。この方式では、マルチレートのやり方でクロストーク低減を実装するために直交ミラーフィルタ(QMF)フィルタバンクが使用される。しかし、すべての周波数が等しく扱われ、サブバンド分割だけが複雑性を低下させるために使用される。その結果、高い正則化値が適用され、結果として、空間認知および音質の低下となる。
米国特許出願公開第2013/0163766(A1)号において、正則化値の選択を最適にするためにサブバンド分析が採用される。低周波数成分および高周波数成分が大きな正則化値を使用するので、空間認知および音質は、この方式によって影響される。
左チャンネル入力音声信号および右チャンネル入力音声信号をフィルタリングするための効率的な概念を提供することが本発明の目的である。
この目的は、独立請求項の特徴によって達成される。他の実装形態は、従属請求項、説明および図から明らかである。
本発明は、左チャンネル入力音声信号および右チャンネル入力音声信号を複数の所定の周波数帯に分解することができるとの知見に基づいており、各所定の周波数帯は、各所定の周波数帯内の両耳間時間差(ITD)および両耳間レベル差(ILD)などの関連するバイノーラルキューの精度を向上させるように、および複雑性を最小にするように選択される。
各所定の周波数帯は、堅牢性を提供することができ、および望ましくないカラーレーションを避けることができるように選択することができる。例えば1.6kHz未満の低周波数において、クロストーク低減は、単純な時間遅延および利得を使用して実施することができる。このようにして、高音質を維持することができるようにしながら、正確な両耳間時間差(ITD)を実現することができる。例えば1.6kHzから6kHzの間の中間周波数では、音声信号間で両耳間レベル差(ILD)を正確に再現するようにクロストーク低減を実施することができる。例えば200Hz未満の超低周波数成分および例えば6kHz超の高周波数成分は、高調波歪みおよび望ましくないカラーレーションを避けるために遅延させ、および/またはバイパスさせることができる。1.6kHz未満の周波数では、音像定位には両耳間時間差(ITD)を有力とすることができる。この周波数を超えると、両耳間レベル差(ILD)の効果は、周波数とともに系統的に増加させることができ、高周波数においてそれを有力なキューにすることができる。
第1の態様によれば、本発明は、左チャンネル出力音声信号を得るために左チャンネル入力音声信号をフィルタリングするため、および右チャンネル出力音声信号を得るために右チャンネル入力音声信号をフィルタリングするための音声信号処理装置に関し、左チャンネル出力音声信号および右チャンネル出力音声信号は、音響伝搬経路を介して聴取者に伝送されることになっており、音響伝搬経路の伝達関数は、音響伝達関数行列によって定義され、音声信号処理装置は、左チャンネル入力音声信号を第1の左チャンネル入力音声サブ信号および第2の左チャンネル入力音声サブ信号に分解するように、および右チャンネル入力音声信号を第1の右チャンネル入力音声サブ信号および第2の右チャンネル入力音声サブ信号に分解するように構成された分解器であって、第1の左チャンネル入力音声サブ信号および第1の右チャンネル入力音声サブ信号は、第1の所定の周波数帯に割り当てられ、第2の左チャンネル入力音声サブ信号および第2の右チャンネル入力音声サブ信号は、第2の所定の周波数帯に割り当てられる、分解器と、第1の左チャンネル出力音声サブ信号および第1の右チャンネル出力音声サブ信号を得るために音響伝達関数行列に基づいて第1の所定の周波数帯内の第1の左チャンネル入力音声サブ信号と第1の右チャンネル入力音声サブ信号との間のクロストークを低減するように構成された第1のクロストーク低減器と、第2の左チャンネル出力音声サブ信号および第2の右チャンネル出力音声サブ信号を得るために音響伝達関数行列に基づいて第2の所定の周波数帯内の第2の左チャンネル入力音声サブ信号と第2の右チャンネル入力音声サブ信号との間のクロストークを低減するように構成された第2のクロストーク低減器と、左チャンネル出力音声信号を得るために第1の左チャンネル出力音声サブ信号と第2の左チャンネル出力音声サブ信号とを組み合わせるように、および右チャンネル出力音声信号を得るために第1の右チャンネル出力音声サブ信号と第2の右チャンネル出力音声サブ信号とを組み合わるように構成された結合器とを備える。したがって、左チャンネル入力音声信号および右チャンネル入力音声信号をフィルタリングするための効率的な概念が実現される。
音声信号処理装置は、左チャンネル入力音声信号と右チャンネル入力音声信号との間のクロストーク低減を実施することができる。第1の所定の周波数帯は低周波数成分を含むことができる。第2の所定の周波数帯は中間周波数成分を含むことができる。
第1の態様それ自体による音声信号処理装置の第1の実装形態において、左チャンネル出力音声信号は、左スピーカと聴取者の左耳との間の第1の音響伝搬経路および左スピーカと聴取者の右耳との間の第2の音響伝搬経路を介して伝送されることになっており、右チャンネル出力音声信号は、右スピーカと聴取者の右耳との間の第3の音響伝搬経路および右スピーカと聴取者の左耳との間の第4の音響伝搬経路を介して伝送されることになっており、第1の音響伝搬経路の第1の伝達関数、第2の音響伝搬経路の第2の伝達関数、第3の音響伝搬経路の第3の伝達関数、および第4の音響伝搬経路の第4の伝達関数が音響伝達関数行列を形成する。したがって、音響伝達関数行列は、聴取者に対する左スピーカと右スピーカとの配列に基づいて提供される。
第1の態様それ自体による音声信号処理装置の第2の実装形態または第1の態様の任意の先行する実装形態において、第1のクロストーク低減器は、音響伝達関数行列に基づいて第1のクロストーク低減行列を決定するように、および第1のクロストーク低減行列に基づいて第1の左チャンネル入力音声サブ信号および第1の右チャンネル入力音声サブ信号をフィルタリングするように構成される。したがって、第1のクロストーク低減器によるクロストーク低減が効率的に実施される。
第1の態様の第2の実装形態による音声信号処理装置の第3の実装形態において、第1のクロストーク低減行列の要素は、第1の左チャンネル入力音声サブ信号および第1の右チャンネル入力音声サブ信号に関連付けられた利得および時間遅延を示し、利得および時間遅延は、第1の所定の周波数帯内で一定である。したがって、両耳間時間差(ITD)を効率的に実現することができる。
第1の態様の第3の実装形態による音声信号処理装置の第4の実装形態において、第1のクロストーク低減器は、以下の式により第1のクロストーク低減行列を決定するように構成される。
Figure 0006552132
ここで、CS1は第1のクロストーク低減行列を表し、Aijは利得を表し、dijは時間遅延を表し、Cは一般的クロストーク低減行列を表し、Cijは一般的クロストーク低減行列の要素を表し、Cijmaxは一般的クロストーク低減行列の要素Cijの最大値を表し、Hは音響伝達関数行列を表し、Iは単位行列を表し、βは正則化係数を表し、Mはモデリング遅延を表し、ωは角周波数を表す。したがって、第1のクロストーク低減行列は、第1の所定の周波数帯内に一定の利得および時間遅延を有する最小二乗平均クロストーク低減方式に基づいて決定される。
第1の態様それ自体による音声信号処理装置の第5の実装形態または第1の態様の任意の先行する実装形態において、第2のクロストーク低減器は、音響伝達関数行列に基づいて第2のクロストーク低減行列を決定するように、および第2のクロストーク低減行列に基づいて第2の左チャンネル入力音声サブ信号および第2の右チャンネル入力音声サブ信号をフィルタリングするように構成される。したがって、第2のクロストーク低減器によるクロストーク低減が効率的に実施される。
第1の態様の第5の実装形態による音声信号処理装置の第6の実装形態において、第2のクロストーク低減器は、以下の式により第2のクロストーク低減行列を決定するように構成される。
CS2=BP(HHH+β(ω)I)-1HHe-jωM
ここで、CS2は第2のクロストーク低減行列を表し、Hは音響伝達関数行列を表し、Iは単位行列を表し、BPは帯域通過フィルタを表し、βは正則化係数を表し、Mはモデリング遅延を表し、ωは角周波数を表す。したがって、第2のクロストーク低減行列は、最小二乗平均クロストーク低減方式に基づいて決定される。帯域通過フィルタリングは、第2の所定の周波数帯内で実施することができる。
第1の態様それ自体による音声信号処理装置の第7の実装形態または第1の態様の任意の先行する実装形態において、音声信号処理装置は、第3の左チャンネル出力音声サブ信号を得るために第3の所定の周波数帯内の第3の左チャンネル入力音声サブ信号を特定の時間遅延だけ遅延させるように、第3の右チャンネル出力音声サブ信号を得るために第3の所定の周波数帯内の第3の右チャンネル入力音声サブ信号をさらにもう1つの時間遅延だけ遅延させるように構成された遅延器をさらに備え、分解器は、左チャンネル入力音声信号を第1の左チャンネル入力音声サブ信号、第2の左チャンネル入力音声サブ信号、および第3の左チャンネル入力音声サブ信号に分解するように、および右チャンネル入力音声信号を第1の右チャンネル入力音声サブ信号、第2の右チャンネル入力音声サブ信号、および第3の右チャンネル入力音声サブ信号に分解するように構成され、第3の左チャンネル入力音声サブ信号および第3の右チャンネル入力音声サブ信号は、第3の所定の周波数帯に割り当てられ、結合器は、左チャンネル出力音声信号を得るために第1の左チャンネル出力音声サブ信号、第2の左チャンネル出力音声サブ信号、および第3の左チャンネル出力音声サブ信号を組み合わせるように、および右チャンネル出力音声信号を得るために第1の右チャンネル出力音声サブ信号、第2の右チャンネル出力音声サブ信号、および第3の右チャンネル出力音声サブ信号を組み合わせるように構成される。したがって、第3の所定の周波数帯内のバイパスが実現される。第3の所定の周波数帯は、超低周波数成分を含むことができる。
第1の態様の第7の実装形態による音声信号処理装置の第8の実装形態において、音声信号処理装置は、第4の左チャンネル出力音声サブ信号を得るために第4の所定の周波数帯内の第4の左チャンネル入力音声サブ信号を特定の時間遅延だけ遅延させるように、および第4の右チャンネル出力音声サブ信号を得るために第4の所定の周波数帯内の第4の右チャンネル入力音声サブ信号をさらにもう1つの時間遅延だけ遅延させるように構成されたさらにもう1つの遅延器をさらに備え、分解器は、左チャンネル入力音声信号を第1の左チャンネル入力音声サブ信号、第2の左チャンネル入力音声サブ信号、第3の左チャンネル入力音声サブ信号、および第4の左チャンネル入力音声サブ信号に分解するように、および右チャンネル入力音声信号を第1の右チャンネル入力音声サブ信号、第2の右チャンネル入力音声サブ信号、第3の右チャンネル入力音声サブ信号、および第4の右チャンネル入力音声サブ信号に分解するように構成され、第4の左チャンネル入力音声サブ信号および第4の右チャンネル入力音声サブ信号は、第4の所定の周波数帯に割り当てられ、および結合器は、左チャンネル出力音声信号を得るために第1の左チャンネル出力音声サブ信号、第2の左チャンネル出力音声サブ信号、第3の左チャンネル出力音声サブ信号、および第4の左チャンネル出力音声サブ信号を組み合わせるように、および右チャンネル出力音声信号を得るために第1の右チャンネル出力音声サブ信号、第2の右チャンネル出力音声サブ信号、第3の右チャンネル出力音声サブ信号、および第4の右チャンネル出力音声サブ信号を組み合わせるように構成される。したがって、第4の所定の周波数帯内のバイパスが実現される。第4の所定の周波数帯は高周波数成分を含むことができる。
第1の態様それ自体による音声信号処理装置の第9の実装形態または第1の態様の任意の先行する実装形態において、分解器は音声クロスオーバーネットワークである。したがって、左チャンネル入力音声信号および右チャンネル入力音声信号の分解は、効率的に実現される。
音声クロスオーバーネットワークは、アナログ音声クロスオーバーネットワークまたはデジタル音声クロスオーバーネットワークであり得る。分解は、左チャンネル入力音声信号および右チャンネル入力音声信号の帯域通過フィルタリングに基づいて実現することができる。
第1の態様それ自体による音声信号処理装置の第10の実装形態または第1の態様の任意の先行する実装形態において、結合器は、左チャンネル出力音声信号を得るために第1の左チャンネル出力音声サブ信号および第2の左チャンネル出力音声サブ信号を追加するように、および右チャンネル出力音声信号を得るために第1の右チャンネル出力音声サブ信号および第2の右チャンネル出力音声サブ信号を追加するように構成される。したがって、結合器による重ね合せが効率的に実現される。
結合器は、左チャンネル出力音声信号を得るために第3の左チャンネル出力音声サブ信号および/または第4の左チャンネル出力音声サブ信号を第1の左チャンネル出力音声サブ信号および第2の左チャンネル出力音声サブ信号に追加するようにさらに構成することができる。結合器は、右チャンネル出力音声信号を得るために第3の右チャンネル出力音声サブ信号および/または第4の右チャンネル出力音声サブ信号を第1の右チャンネル出力音声サブ信号および第2の右チャンネル出力音声サブ信号に追加するようにさらに構成することができる。
第1の態様それ自体による音声信号処理装置の第11の実装形態または第1の態様の任意の先行する実装形態において、左チャンネル入力音声信号は、マルチチャンネル入力音声信号の前部左チャンネル入力音声信号によって形成され、右チャンネル入力音声信号は、マルチチャンネル入力音声信号の前部右チャンネル入力音声信号によって形成され、または左チャンネル入力音声信号は、マルチチャンネル入力音声信号の後部左チャンネル入力音声信号によって形成され、右チャンネル入力音声信号は、マルチチャンネル入力音声信号の後部右チャンネル入力音声信号によって形成される。したがって、マルチチャンネル入力音声信号を音声信号処理装置によって効率的に処理することができる。
第1のクロストーク低減器および/または第2のクロストーク低減器は、修正最小二乗クロストーク低減方式を使用して聴取者に対する仮想スピーカの配列を考慮することができる。
第1の態様の第11の実装形態による音声信号処理装置の第12の実装形態において、マルチチャンネル入力音声信号は、センターチャンネル入力音声信号を含み、結合器は、左チャンネル出力音声信号を得るためにセンターチャンネル入力音声信号、第1の左チャンネル出力音声サブ信号、および第2の左チャンネル出力音声サブ信号を組み合わせるように、および右チャンネル出力音声信号を得るためにセンターチャンネル入力音声信号、第1の右チャンネル出力音声サブ信号、および第2の右チャンネル出力音声サブ信号を組み合わせるように構成される。したがって、未修正センターチャンネル入力音声信号との組合せが効率的に実現される。
センターチャンネル入力音声信号は、第3の左チャンネル出力音声サブ信号、第4の左チャンネル出力音声サブ信号、第3の右チャンネル出力音声サブ信号、および/または第4の右チャンネル出力音声サブ信号とさらに組み合わせることができる。
第1の態様それ自体による音声信号処理装置の第13の実装形態または第1の態様の任意の先行する実装形態において、音声信号処理装置は、音響伝達関数行列を記憶するように、および音響伝達関数行列を第1のクロストーク低減器および第2のクロストーク低減器に提供するように構成されたメモリをさらに備える。したがって、音響伝達関数行列を効率的に提供することができる。
音響伝達関数行列は、測定値、一般的頭部伝達関数、または頭部伝達関数モデルに基づいて決定することができる。
第2の態様によれば、本発明は、左チャンネル出力音声信号を得るために左チャンネル入力音声信号をフィルタリングするための、および右チャンネル出力音声信号を得るために右チャンネル入力音声信号をフィルタリングするための音声信号処理方法に関し、左チャンネル出力音声信号および右チャンネル出力音声信号は、音響伝搬経路を介して聴取者に伝送されることになっており、音響伝搬経路の伝達関数は、音響伝達関数行列によって定義され、音声信号処理方法は、分解器によって、左チャンネル入力音声信号を第1の左チャンネル入力音声サブ信号および第2の左チャンネル入力音声サブ信号に分解するステップと、分解器によって、右チャンネル入力音声信号を第1の右チャンネル入力音声サブ信号および第2の右チャンネル入力音声サブ信号に分解するステップとを含み、第1の左チャンネル入力音声サブ信号および第1の右チャンネル入力音声サブ信号は、第1の所定の周波数帯に割り当てられ、第2の左チャンネル入力音声サブ信号および第2の右チャンネル入力音声サブ信号は、第2の所定の周波数帯に割り当てられ、音声信号処理方法は、第1のクロストーク低減器によって、第1の左チャンネル出力音声サブ信号および第1の右チャンネル出力音声サブ信号を得るために音響伝達関数行列に基づいて第1の所定の周波数帯内の第1の左チャンネル入力音声サブ信号と第1の右チャンネル入力音声サブ信号との間のクロストークを低減するステップと、第2のクロストーク低減器によって、第2の左チャンネル出力音声サブ信号および第2の右チャンネル出力音声サブ信号を得るために音響伝達関数行列に基づいて第2の所定の周波数帯内の第2の左チャンネル入力音声サブ信号と第2の右チャンネル入力音声サブ信号との間のクロストークを低減するステップと、結合器によって、左チャンネル出力音声信号を得るために第1の左チャンネル出力音声サブ信号と第2の左チャンネル出力音声サブ信号とを組み合わせるステップと、結合器によって、右チャンネル出力音声信号を得るために第1の右チャンネル出力音声サブ信号と第2の右チャンネル出力音声サブ信号とを組み合わせるステップとをさらに含む。したがって、左チャンネル入力音声信号および右チャンネル入力音声信号をフィルタリングするための効率的な概念が実現される。
音声信号処理方法は、音声信号処理装置によって実施することができる。音声信号処理方法の他の特徴は、音声信号処理装置の機能から直接生じる。
第2の態様それ自体による音声信号処理方法の第1の実装形態において、左チャンネル出力音声信号は、左スピーカと聴取者の左耳との間の第1の音響伝搬経路および左スピーカと聴取者の右耳との間の第2の音響伝搬経路を介して伝送されることになっており、右チャンネル出力音声信号は、右スピーカと聴取者の右耳との間の第3の音響伝搬経路および右スピーカと聴取者の左耳との間の第4の音響伝搬経路を介して伝送されることになっており、第1の音響伝搬経路の第1の伝達関数、第2の音響伝搬経路の第2の伝達関数、第3の音響伝搬経路の第3の伝達関数、および第4の音響伝搬経路の第4の伝達関数が音響伝達関数行列を形成する。したがって、音響伝達関数行列は、聴取者に対する左スピーカと右スピーカとの配列に基づいて提供される。
第2の態様それ自体による音声信号処理方法の第2の実装形態または第2の態様の任意の先行する実施形態において、音声信号処理方法は、第1のクロストーク低減器によって、音響伝達関数行列に基づいて第1のクロストーク低減行列を決定するステップと、第1のクロストーク低減器によって、第1のクロストーク低減行列に基づいて第1の左チャンネル入力音声サブ信号および第1の右チャンネル入力音声サブ信号をフィルタリングするステップとをさらに含む。したがって、第1のクロストーク低減器によるクロストーク低減が効率的に実施される。
第2の態様の第2の実装形態による音声信号処理方法の第3の実装形態において、第1のクロストーク低減行列の要素は、第1の左チャンネル入力音声サブ信号および第1の右チャンネル入力音声サブ信号に関連付けられた利得および時間遅延を示し、利得および時間遅延は、第1の所定の周波数帯内で一定である。したがって、両耳間時間差(ITD)を効率的に実現することができる。
第2の態様の第3の実装形態による音声信号処理方法の第4の実装形態において、音声信号処理方法は、第1のクロストーク低減器によって、以下の式により第1のクロストーク低減行列を決定するステップをさらに含む。
Figure 0006552132
ここで、CS1は第1のクロストーク低減行列を表し、Aijは利得を表し、dijは時間遅延を表し、Cは一般的クロストーク低減行列を表し、Cijは一般的クロストーク低減行列の要素を表し、Cijmaxは一般的クロストーク低減行列の要素Cijの最大値を表し、Hは音響伝達関数行列を表し、Iは単位行列を表し、βは正則化係数を表し、Mはモデリング遅延を表し、ωは角周波数を表す。したがって、第1のクロストーク低減行列は、第1の所定の周波数帯内に一定の利得および時間遅延を有する最小二乗平均クロストーク低減方式に基づいて決定される。
第2の態様それ自体による音声信号処理方法の第5の実装形態または第2の態様の任意の先行する実施形態において、音声信号処理方法は、第2のクロストーク低減器によって、音響伝達関数行列に基づいて第2のクロストーク低減行列を決定するステップと、第2のクロストーク低減器によって、第2のクロストーク低減行列に基づいて第2の左チャンネル入力音声サブ信号および第2の右チャンネル入力音声サブ信号をフィルタリングするステップとをさらに含む。したがって、第2のクロストーク低減器によるクロストーク低減が効率的に実施される。
第2の態様の第5の実装形態による音声信号処理方法の第6の実装形態において、音声信号処理方法は、第2のクロストーク低減器によって、以下の式により第2のクロストーク低減行列を決定するステップをさらに含む。
CS2=BP(HHH+β(ω)I)-1HHe-jωM
ここで、CS2は第2のクロストーク低減行列を表し、Hは音響伝達関数行列を表し、Iは単位行列を表し、BPは帯域通過フィルタを表し、βは正則化係数を表し、Mはモデリング遅延を表し、およびωは角周波数を表す。したがって、第2のクロストーク低減行列は、最小二乗平均クロストーク低減方式に基づいて決定される。帯域通過フィルタリングは、第2の所定の周波数帯内で実施することができる。
第2の態様それ自体による音声信号処理方法の第7の実装形態または第2の態様の任意の先行する実施形態において、音声信号処理方法は、遅延器によって、第3の左チャンネル出力音声サブ信号を得るために第3の所定の周波数帯内の第3の左チャンネル入力音声サブ信号を特定の時間遅延だけ遅延させるステップと、遅延器によって、第3の右チャンネル出力音声サブ信号を得るために第3の所定の周波数帯内の第3の右チャンネル入力音声サブ信号をさらにもう1つの時間遅延だけ遅延させるステップと、分解器によって、左チャンネル入力音声信号を第1の左チャンネル入力音声サブ信号、第2の左チャンネル入力音声サブ信号、および第3の左チャンネル入力音声サブ信号に分解するステップと、分解器によって、右チャンネル入力音声信号を第1の右チャンネル入力音声サブ信号、第2の右チャンネル入力音声サブ信号、および第3の右チャンネル入力音声サブ信号に分解するステップとをさらに含み、第3の左チャンネル入力音声サブ信号および第3の右チャンネル入力音声サブ信号は、第3の所定の周波数帯に割り当てられ、音声信号処理方法は、結合器によって、左チャンネル出力音声信号を得るために第1の左チャンネル出力音声サブ信号、第2の左チャンネル出力音声サブ信号、および第3の左チャンネル出力音声サブ信号を組み合わせるステップと、結合器によって、右チャンネル出力音声信号を得るために第1の右チャンネル出力音声サブ信号、第2の右チャンネル出力音声サブ信号、および第3の右チャンネル出力音声サブ信号を組み合わせるステップとをさらに含む。したがって、第3の所定の周波数帯内のバイパスが実現される。第3の所定の周波数帯は、超低周波数成分を含むことができる。
第2の態様の第7の実装形態による音声信号処理方法の第8の実装形態において、音声信号処理方法は、さらにもう1つの遅延器によって、第4の左チャンネル出力音声サブ信号を得るために第4の所定の周波数帯内の第4の左チャンネル入力音声サブ信号を特定の時間遅延だけ遅延させるステップと、さらにもう1つの遅延器によって、第4の右チャンネル出力音声サブ信号を得るために第4の所定の周波数帯内の第4の右チャンネル入力音声サブ信号をさらにもう1つの時間遅延だけ遅延させるステップと、分解器によって、左チャンネル入力音声信号を第1の左チャンネル入力音声サブ信号、第2の左チャンネル入力音声サブ信号、第3の左チャンネル入力音声サブ信号、および第4の左チャンネル入力音声サブ信号に分解するステップと、分解器によって、右チャンネル入力音声信号を第1の右チャンネル入力音声サブ信号、第2の右チャンネル入力音声サブ信号、第3の右チャンネル入力音声サブ信号、および第4の右チャンネル入力音声サブ信号に分解するステップとをさらに含み、第4の左チャンネル入力音声サブ信号および第4の右チャンネル入力音声サブ信号は、第4の所定の周波数帯に割り当てられ、音声信号処理方法は、結合器によって、左チャンネル出力音声信号を得るために第1の左チャンネル出力音声サブ信号、第2の左チャンネル出力音声サブ信号、第3の左チャンネル出力音声サブ信号、および第4の左チャンネル出力音声サブ信号を組み合わせるステップと、結合器によって、右チャンネル出力音声信号を得るために第1の右チャンネル出力音声サブ信号、第2の右チャンネル出力音声サブ信号、第3の右チャンネル出力音声サブ信号、および第4の右チャンネル出力音声サブ信号を組み合わせるステップとをさらに含む。したがって、第4の所定の周波数帯内のバイパスが実現される。第4の所定の周波数帯は高周波数成分を含むことができる。
第2の態様それ自体による音声信号処理方法の第9の実装形態または第2の態様の任意の先行する実施形態において、分解器は音声クロスオーバーネットワークである。したがって、左チャンネル入力音声信号および右チャンネル入力音声信号の分解は、効率的に実現される。
第2の態様それ自体による音声信号処理方法の第10の実装形態または第2の態様の任意の先行する実施形態において、音声信号処理方法は、結合器によって、左チャンネル出力音声信号を得るために第1の左チャンネル出力音声サブ信号および第2の左チャンネル出力音声サブ信号を追加するステップと、結合器によって、右チャンネル出力音声信号を得るために第1の右チャンネル出力音声サブ信号および第2の右チャンネル出力音声サブ信号を追加するステップとをさらに含む。したがって、結合器による重ね合せが効率的に実現される。
音声信号処理方法は、結合器によって、左チャンネル出力音声信号を得るために第3の左チャンネル出力音声サブ信号および/または第4の左チャンネル出力音声サブ信号を第1の左チャンネル出力音声サブ信号および第2の左チャンネル出力音声サブ信号に追加するステップをさらに含むことができる。音声信号処理方法は、結合器によって、右チャンネル出力音声信号を得るために第3の右チャンネル出力音声サブ信号および/または第4の右チャンネル出力音声サブ信号を第1の右チャンネル出力音声サブ信号および第2の右チャンネル出力音声サブ信号に追加するステップをさらに含むことができる。
第2の態様それ自体による音声信号処理方法の第11の実装形態または第2の態様の任意の先行する実施形態において、左チャンネル入力音声信号は、マルチチャンネル入力音声信号の前部左チャンネル入力音声信号によって形成され、右チャンネル入力音声信号は、マルチチャンネル入力音声信号の前部右チャンネル入力音声信号によって形成され、または左チャンネル入力音声信号は、マルチチャンネル入力音声信号の後部左チャンネル入力音声信号によって形成され、右チャンネル入力音声信号は、マルチチャンネル入力音声信号の後部右チャンネル入力音声信号によって形成される。したがって、マルチチャンネル入力音声信号を音声信号処理方法によって効率的に処理することができる。
第2の態様の第11の実装形態による音声信号処理方法の第12の実装形態において、マルチチャンネル入力音声信号は、センターチャンネル入力音声信号を含み、音声信号処理方法は、結合器によって、左チャンネル出力音声信号を得るためにセンターチャンネル入力音声信号、第1の左チャンネル出力音声サブ信号、および第2の左チャンネル出力音声サブ信号を組み合わせるステップと、結合器によって、右チャンネル出力音声信号を得るためにセンターチャンネル入力音声信号、第1の右チャンネル出力音声サブ信号、および第2の右チャンネル出力音声サブ信号を組み合わせるステップとをさらに含む。したがって、未修正センターチャンネル入力音声信号との組合せが効率的に実現される。
音声信号処理方法は、結合器によって、センターチャンネル入力音声信号を第3の左チャンネル出力音声サブ信号、第4の左チャンネル出力音声サブ信号、第3の右チャンネル出力音声サブ信号、および/または第4の右チャンネル出力音声サブ信号と組み合わせるステップをさらに含むことができる。
第2の態様それ自体による音声信号処理方法の第13の実装形態または第2の態様の任意の先行する実施形態において、音声信号処理方法は、メモリによって、音響伝達関数行列を記憶するステップと、メモリによって、音響伝達関数行列を第1のクロストーク低減器および第2のクロストーク低減器に提供するステップとをさらに含む。したがって、音響伝達関数行列を効率的に提供することができる。
第3の態様によれば、本発明は、コンピュータ上で実行されたとき音声信号処理方法を実施するためのプログラムコードを含むコンピュータプログラムに関する。したがって、音声信号処理方法は、自動的なおよび繰り返し可能なやり方で実施することができる。音声信号処理装置は、コンピュータプログラムを実施するようにプログラム可能に配列することができる。
本発明は、ハードウェアおよび/またはソフトウェアに実装することができる。
本発明の実施形態を以下の図を参照して説明する。
実施形態による左チャンネル入力音声信号および右チャンネル入力音声信号をフィルタリングするための音声信号処理装置を示す図である。 実施形態による左チャンネル入力音声信号および右チャンネル入力音声信号をフィルタリングするための音声信号処理方法を示す図である。 左スピーカと、右スピーカと、聴取者とを含む一般的クロストーク低減状況を示す図である。 左スピーカと右スピーカとを含む一般的クロストーク低減状況を示す図である。 実施形態による左チャンネル入力音声信号および右チャンネル入力音声信号をフィルタリングするための音声信号処理装置を示す図である。 実施形態による第3の左チャンネル入力音声サブ信号、第3の右チャンネル入力音声サブ信号、第4の左チャンネル入力音声サブ信号、および第4の右チャンネル入力音声サブ信号を遅延させるための共同遅延器を示す図である。 実施形態による第1の左チャンネル入力音声サブ信号と第1の右チャンネル入力音声サブ信号との間のクロストークを低減するための第1のクロストーク低減器を示す図である。 実施形態による左チャンネル入力音声信号および右チャンネル入力音声信号をフィルタリングするための音声信号処理装置を示す図である。 実施形態による左チャンネル入力音声信号および右チャンネル入力音声信号をフィルタリングするための音声信号処理装置を示す図である。 実施形態による所定の周波数帯への周波数の割当てを示す図である。 実施形態による音声クロスオーバーネットワークの周波数応答を示す図である。
図1は、実施形態による音声信号処理装置100の図を示す。音声信号処理装置100は、左チャンネル出力音声信号X1を得るために左チャンネル入力音声信号Lをフィルタリングするように、および右チャンネル出力音声信号X2を得るために右チャンネル入力音声信号Rをフィルタリングするように適合させる。
左チャンネル出力音声信号X1および右チャンネル出力音声信号X2は、音響伝搬経路を介して聴取者に伝送されることになっており、音響伝搬経路の伝達関数は、音響伝達関数(ATF:acoustic transfer function)行列Hによって定義される。
音声信号処理装置100は、左チャンネル入力音声信号Lを第1の左チャンネル入力音声サブ信号および第2の左チャンネル入力音声サブ信号に分解するように、および右チャンネル入力音声信号Rを第1の右チャンネル入力音声サブ信号および第2の右チャンネル入力音声サブ信号に分解するように構成された分解器101であって、第1の左チャンネル入力音声サブ信号および第1の右チャンネル入力音声サブ信号は、第1の所定の周波数帯に割り当てられ、第2の左チャンネル入力音声サブ信号および第2の右チャンネル入力音声サブ信号は、第2の所定の周波数帯に割り当てられる、分解器101と、第1の左チャンネル出力音声サブ信号および第1の右チャンネル出力音声サブ信号を得るためにATF行列Hに基づいて第1の所定の周波数帯内の第1の左チャンネル入力音声サブ信号と第1の右チャンネル入力音声サブ信号との間のクロストークを低減するように構成された第1のクロストーク低減器103と、第2の左チャンネル出力音声サブ信号および第2の右チャンネル出力音声サブ信号を得るためにATF行列Hに基づいて第2の所定の周波数帯内の第2の左チャンネル入力音声サブ信号と第2の右チャンネル入力音声サブ信号との間のクロストークを低減するように構成された第2のクロストーク低減器105と、左チャンネル出力音声信号X1を得るために第1の左チャンネル出力音声サブ信号と第2の左チャンネル出力音声サブ信号とを組み合わせるように、および右チャンネル出力音声信号X2を得るために第1の右チャンネル出力音声サブ信号と第2の右チャンネル出力音声サブ信号とを組み合わせるように構成された結合器107とを備える。
図2は、実施形態による音声信号処理方法200の図を示す。音声信号処理方法200は、左チャンネル出力音声信号X1を得るために左チャンネル入力音声信号Lをフィルタリングするように、および右チャンネル出力音声信号X2を得るために右チャンネル入力音声信号Rをフィルタリングするように適合させる。
左チャンネル出力音声信号X1および右チャンネル出力音声信号X2は、音響伝搬経路を介して聴取者に伝送されることになっており、音響伝搬経路の伝達関数は、ATF行列Hによって定義される。
音声信号処理方法200は、左チャンネル入力音声信号Lを第1の左チャンネル入力音声サブ信号および第2の左チャンネル入力音声サブ信号に分解するステップ201と、右チャンネル入力音声信号Rを第1の右チャンネル入力音声サブ信号および第2の右チャンネル入力音声サブ信号に分解するステップ203とを含み、第1の左チャンネル入力音声サブ信号および第1の右チャンネル入力音声サブ信号は、第1の所定の周波数帯に割り当てられ、第2の左チャンネル入力音声サブ信号および第2の右チャンネル入力音声サブ信号は、第2の所定の周波数帯に割り当てられ、音声信号処理方法200は、第1の左チャンネル出力音声サブ信号および第1の右チャンネル出力音声サブ信号を得るためにATF行列Hに基づいて第1の所定の周波数帯内の第1の左チャンネル入力音声サブ信号と第1の右チャンネル入力音声サブ信号との間のクロストークを低減するステップ205と、第2の左チャンネル出力音声サブ信号および第2の右チャンネル出力音声サブ信号を得るためにATF行列Hに基づいて第2の所定の周波数帯内の第2の左チャンネル入力音声サブ信号と第2の右チャンネル入力音声サブ信号との間のクロストークを低減するステップ207と、左チャンネル出力音声信号X1を得るために第1の左チャンネル出力音声サブ信号と第2の左チャンネル出力音声サブ信号とを組み合わせるステップ209と、右チャンネル出力音声信号X2を得るために第1の右チャンネル出力音声サブ信号と第2の右チャンネル出力音声サブ信号とを組み合わせるステップ211とを含む。
上記のステップは直列で、並列で、またはそれらの組合せで実施できることを当業者は理解する。例えば、ステップ201および203は、互いに並列で、それぞれのステップ205および207に対して直列で実施することができる。
音声信号処理装置100および音声信号処理方法200の他の実装形態および実施形態を以下に説明する。
音声信号処理装置100および音声信号処理方法200は、サブバンド分析を使用して知覚的に最適化されたクロストーク低減に適用することができる。
概念は、音声信号処理の分野に関し、詳細には、増加させた空間(例えば、ステレオ拡張)または仮想サラウンド音声効果を聴取者に提供するために少なくとも2つのスピーカまたは変換器を使用する音声信号処理に関する。
図3は、一般的クロストーク低減状況の図を示す。図はクロストーク低減またはクロストーク消去の一般的スキームを示す。この状況において、要素Cijに基づいて、左チャンネル入力音声信号D1が、左チャンネル出力音声信号X1を得るためにフィルタリングされ、右チャンネル入力音声信号D2が、右チャンネル出力音声信号X2を得るためにフィルタリングされる。
左チャンネル出力音声信号X1は、左スピーカ303を通って音響伝搬経路を介して聴取者301に伝送されることになっており、右チャンネル出力音声信号X2は、右スピーカ305を通って音響伝搬経路を介して聴取者301に伝送されることになっている。音響伝搬経路の伝達関数は、ATF行列Hによって定義される。
左チャンネル出力音声信号X1は、左スピーカ303と聴取者301の左耳との間の第1の音響伝搬経路および左スピーカ303と聴取者301の右耳との間の第2の音響伝搬経路を介して伝送されることになっている。右チャンネル出力音声信号X2は、右スピーカ305と聴取者301の右耳との間の第3の音響伝搬経路および右スピーカ305と聴取者301の左耳との間の第4の音響伝搬経路を介して伝送されることになっている。第1の音響伝搬経路の第1の伝達関数HL1、第2の音響伝搬経路の第2の伝達関数HR1、第3の音響伝搬経路の第3の伝達関数HR2、および第4の音響伝搬経路の第4の伝達関数HL2が、ATF行列Hを形成する。聴取者301は、左耳において左耳音声信号VLを、右耳において右耳音声信号VRを知覚する。
例えばバイノーラル音声信号をスピーカ303、305を通して再生したとき、聴取者301の一方の耳において聞こえることになっている音声信号は、他方の耳においても聞こえる。この効果はクロストークとして表され、例えば逆フィルタを再生チェーンに追加することによってそれを低減することが可能である。これらの技法はクロストーク消去としても表される。
耳Viにおける音声信号が入力音声信号Diと同じである場合、理想的なクロストーク低減を達成することができる。すなわち、
Figure 0006552132
ここで、Hはスピーカ303、305から聴取者301の耳への伝達関数を含むATF行列を表し、Cはクロストーク低減フィルタを含むクロストーク低減フィルタ行列を表し、Iは単位行列を表す。
正確な解決策は通常存在せず、および最適な逆フィルタを、式(1)に基づく費用関数を最小にすることによって見つけることができる。最小二乗近似を使用する典型的なクロストーク低減最適化の結果は次式の通りである。
C=(HHH+β(ω)I)-1HHe-jωM (2)
ここで、βは正則化係数を表し、およびMはモデリング遅延を表す。正則化係数は、安定性を達成するために、およびフィルタの利得を抑制するために通常採用される。正則化係数が大きければ大きいほど、フィルタ利得は小さくなるが、再生精度および音質が犠牲になる。正則化係数は制御された付加雑音と見なすことができるが、それは安定性を達成するために導入される。
方程式系の悪条件が周波数とともに変動することがあるので、この係数は、周波数依存となるように設計することができる。例えば低周波数において、スピーカ303、305のスパン角度に依存する例えば1000Hz未満では、結果として得られるフィルタの利得は、かなり大きいことがある。したがって、ダイナミックレンジの固有の損失があり得、スピーカ303、305を過度に駆動することを避けるために大きな正則化値を採用する可能性がある。高周波数において、例えば6000Hzを超えると、スピーカ303、305と耳との間の音響伝搬経路は、頭部伝達関数(HRTF)の特徴であり得るノッチおよびピークを示すことがある。これらのノッチは、大きなピークに反転する可能性があり、結果として不要なカラーレーション、リンギングアーチファクトおよび歪みとなり得る。さらに、頭部伝達関数(HRTF)間の個々の差は、大きくなり、エラーを生じさせないで方程式系を適正に反転させることが困難になることがある。
図4は一般的クロストーク低減状況の図を示す。図はクロストーク低減またはクロストーク消去の一般的スキームを示す。
左スピーカ303および右スピーカ305により仮想音響効果をもたらすために、反対側のスピーカと同じ側の耳との間のクロストークは低減されまたは消去される。この方式は通常悪条件を被り、結果としてエラーに敏感である逆フィルタとなる。大きなフィルタ利得は、方程式系の悪条件の結果でもあり、正則化が通常適用される。
本発明の実施形態は、周波数が所定の周波数帯に分割され、両耳間時間差(ITD)および両耳間レベル差(ILD)などの関連するバイノーラルキューの精度を最大にするために、および複雑性を最小にするために各所定の周波数帯の最適な設計原理が選択されるクロストーク低減設計方法を適用する。
各所定の周波数帯は、出力がエラーに対して強く、不要なカラーレーションが避けられるように最適化される。例えば1.6kHz未満の低周波数において、クロストーク低減フィルタは、単純な時間遅延および利得となるように近似させることができる。このようにして、音質を維持しながら正確な両耳間時間差(ITD)を実現することができる。例えば1.6kHzから6kHzの間の中間周波数では、正確な両耳間レベル差(ILD)を再生するように設計されたクロストーク低減、例えば、従来のクロストーク低減を使用することができる。個々の差が顕著となる、例えば、スピーカに依存する200Hz未満の超低周波数、および例えば6kHzを超える高周波数は、高調波歪みおよび望ましくないカラーレーションを避けるために遅延させ、および/またはバイパスすることができる。
図5は、実施形態による音声信号処理装置100の図を示す。音声信号処理装置100は、左チャンネル出力音声信号X1を得るために左チャンネル入力音声信号Lをフィルタリングするように、および右チャンネル出力音声信号X2を得るために右チャンネル入力音声信号Rをフィルタリングするように適合させる。
左チャンネル出力音声信号X1および右チャンネル出力音声信号X2は、音響伝搬経路を介して聴取者に伝送されることになっており、音響伝搬経路の伝達関数は、ATF行列Hによって定義される。
音声信号処理装置100は、左チャンネル入力音声信号Lを第1の左チャンネル入力音声サブ信号、第2の左チャンネル入力音声サブ信号、第3の左チャンネル入力音声サブ信号、および第4の左チャンネル入力音声サブ信号に分解するように、および右チャンネル入力音声信号Rを第1の右チャンネル入力音声サブ信号、第2の右チャンネル入力音声サブ信号、第3の右チャンネル入力音声サブ信号、および第4の右チャンネル入力音声サブ信号に分解するように構成された分解器101を備え、第1の左チャンネル入力音声サブ信号および第1の右チャンネル入力音声サブ信号は、第1の所定の周波数帯に割り当てられ、第2の左チャンネル入力音声サブ信号および第2の右チャンネル入力音声サブ信号は、第2の所定の周波数帯に割り当てられ、第3の左チャンネル入力音声サブ信号および第3の右チャンネル入力音声サブ信号は、第3の所定の周波数帯に割り当てられ、および第4の左チャンネル入力音声サブ信号および第4の右チャンネル入力音声サブ信号は、第4の所定の周波数帯に割り当てられる。分解器101は音声クロスオーバーネットワークであり得る。
音声信号処理装置100は、第1の左チャンネル出力音声サブ信号および第1の右チャンネル出力音声サブ信号を得るためにATF行列Hに基づいて第1の所定の周波数帯内の第1の左チャンネル入力音声サブ信号と第1の右チャンネル入力音声サブ信号との間のクロストークを低減するように構成された第1のクロストーク低減器103と、第2の左チャンネル出力音声サブ信号および第2の右チャンネル出力音声サブ信号を得るためにATF行列Hに基づいて第2の所定の周波数帯内の第2の左チャンネル入力音声サブ信号と第2の右チャンネル入力音声サブ信号との間のクロストークを低減するように構成された第2のクロストーク低減器105とをさらに備える。
音声信号処理装置100は、共同遅延器501をさらに備える。共同遅延器501は、第3の左チャンネル出力音声サブ信号を得るために第3の所定の周波数帯内の第3の左チャンネル入力音声サブ信号を時間遅延d11だけ遅延させるように、および第3の右チャンネル出力音声サブ信号を得るために第3の所定の周波数帯内の第3の右チャンネル入力音声サブ信号をさらにもう1つの時間遅延d22だけ遅延させるように構成される。共同遅延器501は、第4の左チャンネル出力音声サブ信号を得るために第4の所定の周波数帯内の第4の左チャンネル入力音声サブ信号を時間遅延d11だけ遅延させるように、および第4の右チャンネル出力音声サブ信号を得るために第4の所定の周波数帯内の第4の右チャンネル入力音声サブ信号をさらにもう1つの時間遅延d22だけ遅延させるようにさらに構成される。
共同遅延器501は、第3の左チャンネル出力音声サブ信号を得るために第3の所定の周波数帯内の第3の左チャンネル入力音声サブ信号を時間遅延d11だけ遅延させるように、および第3の右チャンネル出力音声サブ信号を得るために第3の所定の周波数帯内の第3の右チャンネル入力音声サブ信号をさらにもう1つの時間遅延d22だけ遅延させるように構成された遅延器を備えることができる。共同遅延器501は、第4の左チャンネル出力音声サブ信号を得るために第4の所定の周波数帯内の第4の左チャンネル入力音声サブ信号を時間遅延d11だけ遅延させるように、および第4の右チャンネル出力音声サブ信号を得るために第4の所定の周波数帯内の第4の右チャンネル入力音声サブ信号をさらにもう1つの時間遅延d22だけ遅延させるように構成されたさらにもう1つの遅延器を備えることができる。
音声信号処理装置100は、左チャンネル出力音声信号X1を得るために第1の左チャンネル出力音声サブ信号、第2の左チャンネル出力音声サブ信号、第3の左チャンネル出力音声サブ信号、および第4の左チャンネル出力音声サブ信号を組み合わせるように、および右チャンネル出力音声信号X2を得るために第1の右チャンネル出力音声サブ信号、第2の右チャンネル出力音声サブ信号、第3の右チャンネル出力音声サブ信号、および第4の右チャンネル出力音声サブ信号を組み合わせるように構成された結合器107をさらに備える。組合せは追加によって実施することができる。
本発明の実施形態は、関連するバイノーラルキューの精度を最大にするために、および複雑性を最小にするために異なる所定の周波数帯においてクロストーク低減を実施すること、および各所定の周波数帯の最適な設計原理を選択することに基づく。周波数分解は、例えば、低複雑性フィルタバンクおよび/または音声クロスオーバーネットワークを使用する分解器101によって達成することができる。
カットオフ周波数は、例えば、再生スピーカ303、305の音響特性および/または人間の音感に合致するように選択することができる。周波数f0は、スピーカ303、305のカットオフ周波数、例えば、200〜400Hzにより設定することができる。周波数f1は、例えば、1.6kHzよりも小さく設定することができ、それは両耳間時間差(ITD)が有力である限界となり得る。周波数f2は、例えば、8kHzよりも小さく設定することができる。この周波数を超えると、頭部伝達関数(HRTF)は、聴取者間で顕著に変動し、結果として3D音像定位の誤りおよび望ましくないカラーレーションが生じることがある。したがって、音質を維持するためにこれらの周波数における任意の処理を避けることが望ましいことであり得る。
この方式により、各所定の周波数帯は、重要なバイノーラルキューが維持されるように、すなわち、両耳間時間差(ITD)が低周波数、すなわち、サブバンドS1に、両耳間レベル差(ILD)が中間周波数、すなわち、サブバンドS2に維持されるように、最適化することができる。音の自然性は超低周波数および高周波数、すなわち、サブバンドS0に維持することができる。このようにして、複雑性およびカラーレーションを低減しながら、仮想音響効果を達成することができる。
f1からf2の間の中間周波数、すなわち、サブバンドS2において、従来のクロストーク低減を次式により第2のクロストーク低減器105によって使用することができる。
C=(HHH+β(ω)I)-1HHe-jωM (3)
ここで、安定性を達成するために正則化係数β(ω)を非常に小さい数、例えば、1e-8に設定することができる。第2のクロストーク低減行列CS2は、まず全周波数範囲、例えば、20Hz〜20kHzに対して決定し、次いで、次式によりf1からf2の間で帯域通過フィルタをかけることができる。
CS2=BP(HHH+β(ω)I)-1HHe-jωM (4)
ここで、BPは対応する帯域通過フィルタの周波数応答を表す。
f1からf2の間の、例えば、1.6kHzから8kHzの間の周波数では、方程式系は、かなり良条件であり得、すなわち、正則化をほとんど使用しないようにすることができ、したがって、カラーレーションがほとんど導入されないようにすることができる。この周波数範囲において、両耳間レベル差(ILD)は、有力であり得、この方式により維持することができる。帯域制限の副産物は、より短いフィルタを得ることができ、このようにして複雑性をさらに低減することができることであり得る。
図6は、実施形態による共同遅延器501の図を示す。共同遅延器501は、超低および高周波数をバイパスするために時間遅延を実現することができる。
共同遅延器501は、第3の左チャンネル出力音声サブ信号を得るために第3の所定の周波数帯内の第3の左チャンネル入力音声サブ信号を時間遅延d11だけ遅延させるように、および第3の右チャンネル出力音声サブ信号を得るために第3の所定の周波数帯内の第3の右チャンネル入力音声サブ信号をさらにもう1つの時間遅延d22だけ遅延させるように構成される。共同遅延器501は、第4の左チャンネル出力音声サブ信号を得るために第4の所定の周波数帯内の第4の左チャンネル入力音声サブ信号を時間遅延d11だけ遅延させるように、および第4の右チャンネル出力音声サブ信号を得るために第4の所定の周波数帯内の第4の右チャンネル入力音声サブ信号をさらにもう1つの時間遅延d22だけ遅延させるようにさらに構成される。
f0未満およびf2超の、すなわち、サブバンドS0における周波数は、単純な時間遅延を使用してバイパスすることができる。スピーカ303、305のカットオフ周波数未満では、すなわち、周波数f0未満では、任意の処理を実施することが望ましいことではない可能性がある。周波数f2超では、例えば、8kHzでは、頭部伝達関数(HRTF)間の個々の差は反転させることが困難であり得る。したがって、いかなるクロストーク低減もこれらの所定の周波数帯において意図されない可能性がある。クロストーク低減行列Cの対角線、すなわちCiiにおけるクロストーク低減器の一定の時間遅延に合致する単純な時間遅延は、櫛形フィルタリング効果によるカラーレーションを避けるために使用することができる。
図7は、実施形態による第1の左チャンネル入力音声サブ信号と第1の右チャンネル入力音声サブ信号との間のクロストークを低減するための第1のクロストーク低減器103の図を示す。第1のクロストーク低減器103は、低周波数におけるクロストーク低減に適用することができる。
低周波数において、典型的には、1kHz未満では、利得を制御するために、およびスピーカ303、305の過度の駆動を避けるために大きな正則化を使用する可能性がある。これによって、結果としてダイナミックレンジの損失および空間表現の誤りが生じることがある。両耳間時間差(ITD)は1.6kHz未満の周波数において有力であり得るので、この所定の周波数帯において正確な両耳間時間差(ITD)を実現することが望ましいことであり得る。
本発明の実施形態は、次式によるクロストーク低減応答の線形位相情報だけを使用することによって単純な利得および時間遅延を実現するために低周波数において第1のクロストーク低減行列CS1を近似する設計方法を適用する。
Figure 0006552132
ここで、
Aij=max{│Cij│}・sign(Cijmax)
は、クロストーク低減行列Cの全帯域クロストーク低減要素Cij、例えば、全周波数範囲に対して計算された一般的クロストーク低減行列の最大値の大きさを表し、dijはCijの一定の時間遅延を表す。
この方式により、この範囲における大きな正則化値が適用されない場合は、両耳間時間差(ITD)を正確に再生することができ、その一方で、音質は損なわれないようにすることができる。
図8は、実施形態による音声信号処理装置100の図を示す。音声信号処理装置100は、左チャンネル出力音声信号X1を得るために左チャンネル入力音声信号Lをフィルタリングするように、および右チャンネル出力音声信号X2を得るために右チャンネル入力音声信号Rをフィルタリングするように適合させる。図は2つの入力、2つの出力の実施形態を表す。
左チャンネル出力音声信号X1および右チャンネル出力音声信号X2は、音響伝搬経路を介して聴取者に伝送されることになっており、音響伝搬経路の伝達関数は、ATF行列Hによって定義される。
音声信号処理装置100は、左チャンネル入力音声信号Lを第1の左チャンネル入力音声サブ信号、第2の左チャンネル入力音声サブ信号、第3の左チャンネル入力音声サブ信号、および第4の左チャンネル入力音声サブ信号に分解するように、および右チャンネル入力音声信号Rを第1の右チャンネル入力音声サブ信号、第2の右チャンネル入力音声サブ信号、第3の右チャンネル入力音声サブ信号、および第4の右チャンネル入力音声サブ信号に分解するように構成された分解器101を備え、第1の左チャンネル入力音声サブ信号および第1の右チャンネル入力音声サブ信号は、第1の所定の周波数帯に割り当てられ、第2の左チャンネル入力音声サブ信号および第2の右チャンネル入力音声サブ信号は、第2の所定の周波数帯に割り当てられ、第3の左チャンネル入力音声サブ信号および第3の右チャンネル入力音声サブ信号は、第3の所定の周波数帯に割り当てられ、第4の左チャンネル入力音声サブ信号および第4の右チャンネル入力音声サブ信号は、第4の所定の周波数帯に割り当てられる。分解器101は、左チャンネル入力音声信号Lの第1の音声クロスオーバーネットワークと、右チャンネル入力音声信号Rの第2の音声クロスオーバーネットワークとを備えることができる。
音声信号処理装置100は、第1の左チャンネル出力音声サブ信号および第1の右チャンネル出力音声サブ信号を得るためにATF行列Hに基づいて第1の所定の周波数帯内の第1の左チャンネル入力音声サブ信号と第1の右チャンネル入力音声サブ信号との間のクロストークを低減するように構成された第1のクロストーク低減器103と、第2の左チャンネル出力音声サブ信号および第2の右チャンネル出力音声サブ信号を得るためにATF行列Hに基づいて第2の所定の周波数帯内の第2の左チャンネル入力音声サブ信号と第2の右チャンネル入力音声サブ信号との間のクロストークを低減するように構成された第2のクロストーク低減器105とをさらに備える。
音声信号処理装置100は、共同遅延器501をさらに備える。共同遅延器501は、第3の左チャンネル出力音声サブ信号を得るために第3の所定の周波数帯内の第3の左チャンネル入力音声サブ信号を時間遅延d11だけ遅延させるように、および第3の右チャンネル出力音声サブ信号を得るために第3の所定の周波数帯内の第3の右チャンネル入力音声サブ信号をさらにもう1つの時間遅延d22だけ遅延させるように構成される。共同遅延器501は、第4の左チャンネル出力音声サブ信号を得るために第4の所定の周波数帯内の第4の左チャンネル入力音声サブ信号を時間遅延d11だけ遅延させるように、第4の右チャンネル出力音声サブ信号を得るために第4の所定の周波数帯内の第4の右チャンネル入力音声サブ信号をさらにもう1つの時間遅延d22だけ遅延させるようにさらに構成される。例示を容易にするために、共同遅延器501は、分散したやり方で図に示す。
共同遅延器501は、第3の左チャンネル出力音声サブ信号を得るために第3の所定の周波数帯内の第3の左チャンネル入力音声サブ信号を時間遅延d11だけ遅延させるように、および第3の右チャンネル出力音声サブ信号を得るために第3の所定の周波数帯内の第3の右チャンネル入力音声サブ信号をさらにもう1つの時間遅延d22だけ遅延させるように構成された遅延器を備えることができる。共同遅延器501は、第4の左チャンネル出力音声サブ信号を得るために第4の所定の周波数帯内の第4の左チャンネル入力音声サブ信号を時間遅延d11だけ遅延させるように、および第4の右チャンネル出力音声サブ信号を得るために第4の所定の周波数帯内の第4の右チャンネル入力音声サブ信号をさらにもう1つの時間遅延d22だけ遅延させるように構成されたさらにもう1つの遅延器を備えることができる。
音声信号処理装置100は、左チャンネル出力音声信号X1を得るために第1の左チャンネル出力音声サブ信号、第2の左チャンネル出力音声サブ信号、第3の左チャンネル出力音声サブ信号、および第4の左チャンネル出力音声サブ信号を組み合わせるように、および右チャンネル出力音声信号X2を得るために第1の右チャンネル出力音声サブ信号、第2の右チャンネル出力音声サブ信号、第3の右チャンネル出力音声サブ信号、および第4の右チャンネル出力音声サブ信号を組み合わせるように構成された結合器107をさらに備える。組合せは追加によって実施することができる。左チャンネル出力音声信号X1は、左スピーカ303を通って伝送される。右チャンネル出力音声信号X2は、右スピーカ305を通って伝送される。
音声信号処理装置100は、バイノーラル音声再生および/またはステレオ拡張に適用することができる。分解器101によるサブバンドへの分解は、スピーカ303、305の音響特性を考慮して実施することができる。
中間周波数における第2のクロストーク低減器105によるクロストーク低減またはクロストーク消去(XTC)は、スピーカ303、305と聴取者までの近似距離との間のスピーカスパン角度に依存させることができる。このために、測定値、一般的頭部伝達関数(HRTF)または頭部伝達関数(HRTF)モデルを使用することができる。低周波数における第1のクロストーク低減器103によるクロストーク低減の時間遅延および利得は、全周波数範囲内の一般的クロストーク低減方式から得ることができる。
本発明の実施形態は、仮想クロストーク低減方式を採用し、クロストーク低減行列および/またはフィルタは、実物のスピーカのクロストークを低減する代わりに所望の仮想スピーカのクロストーク信号および直接音声信号をモデル化するために最適化される。異なる低周波数クロストーク低減および中間周波数クロストーク低減を使用する組合せも使用することができる。例えば、低周波数の時間遅延および利得は、仮想クロストーク低減方式から得ることができるが、中間周波数では、従来のクロストーク低減を適用することができ、またはその逆にすることができる。
図9は、実施形態による音声信号処理装置100の図を示す。音声信号処理装置100は、左チャンネル出力音声信号X1を得るために左チャンネル入力音声信号Lをフィルタリングするように、および右チャンネル出力音声信号X2を得るために右チャンネル入力音声信号Rをフィルタリングするように適合させる。図はマルチチャンネル音声信号をフィルタリングするための仮想サラウンド音声システムを表す。
音声信号処理装置100は、2つの分解器101と、第1のクロストーク低減器103と、2つの第2のクロストーク低減器105と、共同遅延器501と、図8に関連して説明されている機能と同じ機能を有する結合器107とを備える。左チャンネル出力音声信号X1は、左スピーカ303を通って伝送される。右チャンネル出力音声信号X2は、右スピーカ305を通って伝送される。
図の上側部分において、左チャンネル入力音声信号Lは、マルチチャンネル入力音声信号の前部左チャンネル入力音声信号によって形成され、右チャンネル入力音声信号Rは、マルチチャンネル入力音声信号の前部右チャンネル入力音声信号によって形成される。図の下側部分において、左チャンネル入力音声信号Lは、マルチチャンネル入力音声信号の後部左チャンネル入力音声信号によって形成され、右チャンネル入力音声信号Rは、マルチチャンネル入力音声信号の後部右チャンネル入力音声信号によって形成される。
マルチチャンネル入力音声信号は、センターチャンネル入力音声信号をさらに含み、結合器107は、左チャンネル出力音声信号X1を得るためにセンターチャンネル入力音声信号と左チャンネル出力音声サブ信号とを組み合わせるように構成され、右チャンネル出力音声信号X2を得るためにセンターチャンネル入力音声信号と右チャンネル出力音声サブ信号とを組み合わせるように構成される。
すべてのチャンネルの低周波数は、低周波数において第1のクロストーク低減器103によりミックスダウンし、処理することができ、時間遅延および利得だけを適用することができる。したがって、1つの第1のクロストーク低減器103だけを採用することができ、それによって複雑性がさらに低減される。
前部チャンネルおよび後部チャンネルの中間周波数は、仮想サラウンド体験を改善するために異なるクロストーク低減方式を使用して処理することができる。センターチャンネル入力音声信号は、待ち時間を低減するために未処理のままにすることができる。
本発明の実施形態は、仮想クロストーク低減方式を採用し、クロストーク低減行列および/またはフィルタは、実物のスピーカのクロストークを低減する代わりに所望の仮想スピーカのクロストーク信号および直接音声信号をモデル化するために最適化される。
図10は、実施形態による所定の周波数帯への周波数の割当ての図を示す。割当ては分解器101によって実施することができる。図は周波数割当ての一般的スキームを示す。Siは異なるサブバンドを表し、異なる方式を異なるサブバンド内で適用することができる。
f0からf1の間の低周波数は、サブバンドS1を形成する第1の所定の周波数帯1001に割り当てられる。f1からf2の間の中間周波数は、サブバンドS2を形成する第2の所定の周波数帯1003に割り当てられる。f0未満の超低周波数は、サブバンドS0を形成する第3の所定の周波数帯1005に割り当てられる。f2超の高周波数は、さらにもう1つのサブバンドS0を形成する第4の所定の周波数帯1007に割り当てられる。
図11は、実施形態による音声クロスオーバーネットワークの周波数応答の図を示す。音声クロスオーバーネットワークは、フィルタバンクを備えることができる。
f0からf1の間の低周波数は、サブバンドS1を形成する第1の所定の周波数帯1001に割り当てられる。f1からf2の間の中間周波数は、サブバンドS2を形成する第2の所定の周波数帯1003に割り当てられる。f0未満の超低周波数は、サブバンドS0を形成する第3の所定の周波数帯1005に割り当てられる。f2超の高周波数は、さらにもう1つのサブバンドS0を形成する第4の所定の周波数帯1007に割り当てられる。
本発明の実施形態は、音質を維持しながらバイノーラルキューの正確な再生を可能にする設計方法に基づく。低周波数成分が単純な時間遅延および利得を使用して処理されるので、ほとんど正則化を採用しないようにすることができる。正則化係数の最適化は全く行われない可能性があり、それによってフィルタ設計の複雑性がさらに低減する。狭い帯域方式により、より短いフィルタが適用される。
方式は、タブレット、スマートフォン、テレビ、およびホームシアター用など、異なる聴取条件に容易に適合させることができる。バイノーラルキューは、それらの関連する周波数範囲において正確に再生される。すなわち、音質を損なうことなく現実的な3D音響効果を達成することができる。さらに、堅牢なフィルタを使用することができ、結果としてより広いスイートスポットとなる。方式は、例えば、異なるスパン角度、幾何形状および/またはスピーカサイズを使用する任意のスピーカ構成とともに採用することができ、2つよりも多くの音声チャンネルに容易に拡張することができる。
本発明の実施形態は、異なる所定の周波数帯またはサブバンド内でクロストーク低減を適用し、関連するバイノーラルキューの精度を最大にするために、および複雑性を最小にするために各所定の周波数帯またはサブバンドに最適な設計原理を選択する。
本発明の実施形態は、知覚キューに基づくサブバンド分解を使用する少なくとも2つのスピーカを通した仮想音響再生のための音声信号処理装置100および音声信号処理方法200に関する。方式は、時間遅延および利得だけを適用する低周波数クロストーク低減と、従来のクロストーク低減方式および/または仮想クロストーク低減方式を使用する中間周波数クロストーク低減とを含む。
本発明の実施形態は、テレビ、高忠実度(HiFi)システム、シネマシステム、スマートフォンまたはタブレットなどのモバイルデバイス、またはテレビ会議システムなど、少なくとも2つのスピーカを有する音声端末内で適用される。本発明の実施形態は、半導体チップセットに実装される。
本発明の実施形態は、コンピュータシステムなどのプログラマブル装置上で起動されたとき本発明による方法のステップを実施し、またはプログラマブル装置が本発明によるデバイスまたはシステムの機能を実施することを可能にするためのコード部分を少なくとも含む、コンピュータシステム上で起動するためのコンピュータプログラムに実装することができる。
コンピュータプログラムは、特定のアプリケーションプログラムおよび/またはオペレーティングシステムなどの命令のリストである。コンピュータプログラムは、例えば、サブルーチン、機能、手順、オブジェクト方法、オブジェクト実装、実行可能アプリケーション、アプレット、サーブレット、ソースコード、オブジェクトコード、共用ライブライリ/ダイナミックロードライブラリおよび/またはコンピュータシステム上での実行のために設計された他の命令のシーケンスのうちの1つまたは複数を含むことができる。
コンピュータプログラムは、コンピュータ可読記憶媒体内に記憶し、またはコンピュータ可読伝送媒体を通ってコンピュータシステムに伝送することができる。コンピュータプログラムの全部または一部は、情報処理システムに恒久的に、取り外し可能にまたは遠隔に結合された一時的または非一時的コンピュータ可読媒体上に提供することができる。コンピュータ可読媒体は、例えば、限定なしで、任意の数の以下を含むことができる。すなわち、少し例を挙げると、ディスクおよびテープ記憶媒体を含む磁気記憶媒体;コンパクトディスク媒体(例えば、CD-ROM、CD-Rなど)およびデジタルビデオディスク記憶媒体などの光学記憶媒体;フラッシュメモリ、EEPROM、EPROM、ROMなどの半導体ベースのメモリユニットを含む不揮発性メモリ記憶媒体;強磁性デジタルメモリ;MRAM;レジスタ、バッファまたはキャッシュ、メインメモリ、RAMなどを含む揮発性記憶媒体;ならびにコンピュータネットワーク、固定遠隔通信機器、および搬送波伝送媒体を含むデータ伝送媒体である。
コンピュータプロセスは、典型的には、実行する(起動する)プログラムまたはプログラムの部分、現在のプログラム値および状態情報、およびプロセスの実行を管理するためにオペレーティングシステムによって使用される資源を含む。オペレーティングシステム(OS)とは、コンピュータの資源の共有を管理し、それらの資源にアクセスするのに使用されるインターフェースをプログラマに提供するソフトウェアのことである。オペレーティングシステムは、システムデータおよびユーザ入力を処理し、タスクおよび内部システム資源をシステムのユーザおよびプログラムへのサービスとして割り当て、管理することによって応答する。
コンピュータシステムは、例えば、少なくとも1つの処理ユニット、関連付けられたメモリおよびいくつかの入出力(I/O)デバイスを含むことができる。コンピュータプログラムを実行するとき、コンピュータシステムは、コンピュータプログラムにより情報を処理し、結果として得られた出力情報をI/Oデバイスを通して出力する。
本明細書に論じる接続は、それぞれのノード、ユニットまたはデバイスから、またはそれらに、例えば、中間デバイスを介して信号を転送するのに適切な任意のタイプの接続でよい。したがって、特に他の暗示または記載がない限り、接続は、例えば、直接接続でも間接接続でもよい。接続は、単一の接続、複数の接続、一方向接続、または双方向接続であることに関して例示しまたは説明することができる。しかし、異なる実施形態は、接続の実装を変えることができる。例えば、双方向接続ではなく別々の一方向接続を使用することができ、逆も同様である。また、複数の接続を、複数の信号を逐次、または時分割のやり方で転送する単一の接続で置き換えることができる。同様に、複数の信号を搬送する単一の接続は、これらの信号のサブセットを搬送する様々な異なる接続に分離することができる。したがって、信号の転送には多くの選択肢が存在する。
論理ブロック間の境界は例示に過ぎないこと、および代替実施形態は、論理ブロックもしくは回路要素を併合しまたは様々な論理ブロックもしくは回路要素に対して機能の代替分解を加えることができることを当業者は認識するであろう。したがって、本明細書に示すアーキテクチャは例示に過ぎないこと、および、実際に、同じ機能を達成する多くの他のアーキテクチャを実装できることを理解されたい。
したがって、同じ機能を達成するための構成要素の任意の配列は、所望の機能が達成されるように効果的に「関連付けられる」。したがって、特定の機能を達成するように組み合わされた本明細書における任意の2つの構成要素は、アーキテクチャまたは中間の構成要素にかかわらず、所望の機能が達成されるように互いに「関連付けられる」ものと見なすことができる。同様に、そのように関連付けられた任意の2つの構成要素は、所望の機能を達成するように互いに「動作可能に接続された」または「動作可能に結合された」ものと見なすこともできる。
さらに、上記の動作間の境界は、例示に過ぎないことを当業者は認識するであろう。複数の動作は単一の動作に組み合わせることができ、単一の動作は、追加の動作の形で分散させることができ、動作は少なくとも部分的に時間的に重複させて実行することができる。さらに、代替実施形態は、特定の動作の複数の事例を含むことができ、動作の順序は、様々な他の実施形態において変更することができる。
また、例えば、例、またはその部分は、任意の適切なタイプのハードウェア記述言語などの物理的回路のまたは物理的回路に変換可能な論理的表現のソフト表現またはコード表現として実装することができる。
また、本発明は、非プログラマブルハードウェアに実装される物理的デバイスまたはユニットに限定されず、メインフレーム、ミニコンピュータ、サーバ、ワークステーション、パーソナルコンピュータ、ノートパッド、パーソナルデジタルアシスタント、電子ゲーム、自動車および他の組み込みシステム、携帯電話および本出願において「コンピュータシステム」として一般に表される様々な他のワイヤレスデバイスなど、適切なプログラムコードにより動作させることによって所望のデバイス機能を実施することができるプログラマブルデバイスまたはユニットにおいて適用することもできる。
しかし、他の変更、変形および代替も可能である。したがって、本明細書および図面は、制限的な意味ではなく例示的な意味で見なされるものとする。
100 音声信号処理装置
101 分解器
103 第1のクロストーク低減器
105 第2のクロストーク低減器
107 結合器
200 音声信号処理方法
301 聴取者
303 左スピーカ
305 右スピーカ
501 共同遅延器
1001 第1の所定の周波数帯
1003 第2の所定の周波数帯
1005 第3の所定の周波数帯
1007 第4の所定の周波数帯
D1 左チャンネル入力音声信号
D2 右チャンネル入力音声信号
HL1 第1の伝達関数
HL2 第4の伝達関数
HR1 第2の伝達関数
HR2 第3の伝達関数
L 左チャンネル入力音声信号
R 右チャンネル入力音声信号
S0 サブバンド
S1 サブバンド
S2 サブバンド
VL 左耳音声信号
VR 右耳音声信号
X1 左チャンネル出力音声信号
X2 右チャンネル出力音声信号

Claims (13)

  1. 音声信号処理装置であって、
    左チャンネル出力音声信号(X1)を得るために左チャンネル入力音声信号(L)をフィルタリングするための、および右チャンネル出力音声信号(X2)を得るために右チャンネル入力音声信号(R)をフィルタリングするための音声信号処理装置であって、前記左チャンネル出力音声信号(X1)および前記右チャンネル出力音声信号(X2)が、音響伝搬経路を介して聴取者に伝送されることになっており、前記音響伝搬経路の伝達関数が、音響伝達関数(ATF)行列(H)によって定義され、
    前記左チャンネル入力音声信号(L)を第1の左チャンネル入力音声サブ信号および第2の左チャンネル入力音声サブ信号に分解するように、および前記右チャンネル入力音声信号(R)を第1の右チャンネル入力音声サブ信号および第2の右チャンネル入力音声サブ信号に分解するように構成された分解器であって、前記第1の左チャンネル入力音声サブ信号および前記第1の右チャンネル入力音声サブ信号が、第1の所定の周波数帯に割り当てられ、前記第2の左チャンネル入力音声サブ信号および前記第2の右チャンネル入力音声サブ信号が、第2の所定の周波数帯に割り当てられる、分解器と、
    第1の左チャンネル出力音声サブ信号および第1の右チャンネル出力音声サブ信号を得るために前記ATF行列(H)に基づいて前記第1の所定の周波数帯内の前記第1の左チャンネル入力音声サブ信号と前記第1の右チャンネル入力音声サブ信号との間のクロストークを低減するように構成された第1のクロストーク低減器と、
    第2の左チャンネル出力音声サブ信号および第2の右チャンネル出力音声サブ信号を得るために前記ATF行列(H)に基づいて前記第2の所定の周波数帯内の前記第2の左チャンネル入力音声サブ信号と前記第2の右チャンネル入力音声サブ信号との間のクロストークを低減するように構成された第2のクロストーク低減器と、
    前記左チャンネル出力音声信号(X1)を得るために前記第1の左チャンネル出力音声サブ信号と前記第2の左チャンネル出力音声サブ信号とを組み合わせるように、および前記右チャンネル出力音声信号(X2)を得るために前記第1の右チャンネル出力音声サブ信号と前記第2の右チャンネル出力音声サブ信号とを組み合わせるように構成された結合器と
    を備え
    前記第1のクロストーク低減器が、前記ATF行列(H)に基づいて第1のクロストーク低減行列(C S1 )を決定するように、および前記第1のクロストーク低減行列(C S1 )に基づいて前記第1の左チャンネル入力音声サブ信号および前記第1の右チャンネル入力音声サブ信号をフィルタリングするように構成され、
    前記第1のクロストーク低減行列(C S1 )の要素が、前記第1の左チャンネル入力音声サブ信号および前記第1の右チャンネル入力音声サブ信号に関連付けられた利得(A ij )および時間遅延(d ij )を示し、前記利得(A ij )および前記時間遅延(d ij )が、前記第1の所定の周波数帯内で一定である、音声信号処理装置。
  2. 前記左チャンネル出力音声信号(X1)が、左スピーカと前記聴取者の左耳との間の第1の音響伝搬経路および前記左スピーカと前記聴取者の右耳との間の第2の音響伝搬経路を介して伝送されることになっており、前記右チャンネル出力音声信号(X2)が、右スピーカと前記聴取者の前記右耳との間の第3の音響伝搬経路および前記右スピーカと前記聴取者の前記左耳との間の第4の音響伝搬経路を介して伝送されることになっており、前記第1の音響伝搬経路の第1の伝達関数(HL1)、前記第2の音響伝搬経路の第2の伝達関数(HR1)、前記第3の音響伝搬経路の第3の伝達関数(HR2)、および前記第4の音響伝搬経路の第4の伝達関数(HL2)が、ATF行列(H)を形成する、請求項1に記載の音声信号処理装置。
  3. 前記第1のクロストーク低減器が、以下の式により前記第1のクロストーク低減行列(CS1)を決定するように構成され、
    Figure 0006552132
    ここで、CS1は前記第1のクロストーク低減行列を表し、Aijは前記利得を表し、dijは前記時間遅延を表し、Cは一般的クロストーク低減行列を表し、Cijは前記一般的クロストーク低減行列の要素を表し、Cijmaxは前記一般的クロストーク低減行列の前記要素Cijの最大値を表し、Hは前記ATF行列を表し、Iは単位行列を表し、βは正則化係数を表し、Mはモデリング遅延を表し、およびωは角周波数を表す、請求項1に記載の音声信号処理装置。
  4. 前記第2のクロストーク低減器が、前記ATF行列(H)に基づいて第2のクロストーク低減行列(CS2)を決定するように、および前記第2のクロストーク低減行列(CS2)に基づいて前記第2の左チャンネル入力音声サブ信号および前記第2の右チャンネル入力音声サブ信号をフィルタリングするように構成された、請求項1から3のいずれか一項に記載の音声信号処理装置。
  5. 前記第2のクロストーク低減器が、以下の式により前記第2のクロストーク低減行列(CS2)を決定するように構成され、
    CS2=BP(HHH+β(ω)I)-1HHe-jωM
    ここで、CS2は前記第2のクロストーク低減行列を表し、Hは前記ATF行列を表し、Iは単位行列を表し、BPは帯域通過フィルタを表し、βは正則化係数を表し、Mはモデリング遅延を表し、ωは角周波数を表す、請求項4に記載の音声信号処理装置。
  6. 第3の左チャンネル出力音声サブ信号を得るために第3の所定の周波数帯内の第3の左チャンネル入力音声サブ信号を時間遅延(d11)だけ遅延させるように、および第3の右チャンネル出力音声サブ信号を得るために前記第3の所定の周波数帯内の第3の右チャンネル入力音声サブ信号をさらにもう1つの時間遅延(d22)だけ遅延させるように構成された遅延器をさらに備え、
    前記分解器が、前記左チャンネル入力音声信号(L)を前記第1の左チャンネル入力音声サブ信号、前記第2の左チャンネル入力音声サブ信号、および前記第3の左チャンネル入力音声サブ信号に分解するように、および前記右チャンネル入力音声信号(R)を前記第1の右チャンネル入力音声サブ信号、前記第2の右チャンネル入力音声サブ信号、および前記第3の右チャンネル入力音声サブ信号に分解するように構成され、前記第3の左チャンネル入力音声サブ信号および前記第3の右チャンネル入力音声サブ信号が、前記第3の所定の周波数帯に割り当てられ、
    前記結合器が、前記左チャンネル出力音声信号(X1)を得るために前記第1の左チャンネル出力音声サブ信号、前記第2の左チャンネル出力音声サブ信号、および前記第3の左チャンネル出力音声サブ信号を組み合わせるように、および前記右チャンネル出力音声信号(X2)を得るために前記第1の右チャンネル出力音声サブ信号、前記第2の右チャンネル出力音声サブ信号、および前記第3の右チャンネル出力音声サブ信号を組み合わせるように構成された、請求項1から5のいずれか一項に記載の音声信号処理装置。
  7. 第4の左チャンネル出力音声サブ信号を得るために第4の所定の周波数帯内の第4の左チャンネル入力音声サブ信号を前記時間遅延(d11)だけ遅延させるように、および第4の右チャンネル出力音声サブ信号を得るために前記第4の所定の周波数帯内の第4の右チャンネル入力音声サブ信号を前記さらにもう1つの時間遅延(d22)だけ遅延させるように構成されたさらにもう1つの遅延器をさらに備え、
    前記分解器が、前記左チャンネル入力音声信号(L)を前記第1の左チャンネル入力音声サブ信号、前記第2の左チャンネル入力音声サブ信号、前記第3の左チャンネル入力音声サブ信号、および前記第4の左チャンネル入力音声サブ信号に分解するように、および前記右チャンネル入力音声信号(R)を前記第1の右チャンネル入力音声サブ信号、前記第2の右チャンネル入力音声サブ信号、前記第3の右チャンネル入力音声サブ信号、および前記第4の右チャンネル入力音声サブ信号に分解するように構成され、前記第4の左チャンネル入力音声サブ信号および前記第4の右チャンネル入力音声サブ信号が、前記第4の所定の周波数帯に割り当てられ、
    前記結合器が、前記左チャンネル出力音声信号(X1)を得るために前記第1の左チャンネル出力音声サブ信号、前記第2の左チャンネル出力音声サブ信号、前記第3の左チャンネル出力音声サブ信号、および前記第4の左チャンネル出力音声サブ信号を組み合わせるように、および前記右チャンネル出力音声信号(X2)を得るために前記第1の右チャンネル出力音声サブ信号、前記第2の右チャンネル出力音声サブ信号、前記第3の右チャンネル出力音声サブ信号、および前記第4の右チャンネル出力音声サブ信号を組み合わせるように構成された、請求項6に記載の音声信号処理装置。
  8. 前記分解器が、音声クロスオーバーネットワークである、請求項1から7のいずれか一項に記載の音声信号処理装置。
  9. 前記結合器が、前記左チャンネル出力音声信号(X1)を得るために前記第1の左チャンネル出力音声サブ信号および前記第2の左チャンネル出力音声サブ信号を追加するように、および前記右チャンネル出力音声信号(X2)を得るために前記第1の右チャンネル出力音声サブ信号および前記第2の右チャンネル出力音声サブ信号を追加するように構成された、請求項1から8のいずれか一項に記載の音声信号処理装置。
  10. 前記左チャンネル入力音声信号(L)が、マルチチャンネル入力音声信号の前部左チャンネル入力音声信号によって形成され、前記右チャンネル入力音声信号(R)が、前記マルチチャンネル入力音声信号の前部右チャンネル入力音声信号によって形成され、または前記左チャンネル入力音声信号(L)が、マルチチャンネル入力音声信号の後部左チャンネル入力音声信号によって形成され、前記右チャンネル入力音声信号(R)が、前記マルチチャンネル入力音声信号の後部右チャンネル入力音声信号によって形成される、請求項1から9のいずれか一項に記載の音声信号処理装置。
  11. 前記マルチチャンネル入力音声信号が、センターチャンネル入力音声信号を含み、前記結合器が、前記左チャンネル出力音声信号(X1)を得るために前記センターチャンネル入力音声信号、前記第1の左チャンネル出力音声サブ信号、および前記第2の左チャンネル出力音声サブ信号を組み合わせるように、および前記右チャンネル出力音声信号(X2)を得るために前記センターチャンネル入力音声信号、前記第1の右チャンネル出力音声サブ信号、および前記第2の右チャンネル出力音声サブ信号を組み合わせるように構成された、請求項10に記載の音声信号処理装置。
  12. 音声信号処理方法であって、
    左チャンネル出力音声信号(X1)を得るために左チャンネル入力音声信号(L)をフィルタリングするための、および右チャンネル出力音声信号(X2)を得るために右チャンネル入力音声信号(R)をフィルタリングするための音声信号処理方法であって、前記左チャンネル出力音声信号(X1)および前記右チャンネル出力音声信号(X2)が、音響伝搬経路を介して聴取者に伝送されることになっており、前記音響伝搬経路の伝達関数が、ATF行列(H)によって定義され、
    前記左チャンネル入力音声信号(L)を第1の左チャンネル入力音声サブ信号および第2の左チャンネル入力音声サブ信号に分解するステップと、
    前記右チャンネル入力音声信号(R)を第1の右チャンネル入力音声サブ信号および第2の右チャンネル入力音声サブ信号に分解するステップと
    を含み、
    前記第1の左チャンネル入力音声サブ信号および前記第1の右チャンネル入力音声サブ信号が、第1の所定の周波数帯に割り当てられ、前記第2の左チャンネル入力音声サブ信号および前記第2の右チャンネル入力音声サブ信号が、第2の所定の周波数帯に割り当てられ、前記音声信号処理方法は、
    第1の左チャンネル出力音声サブ信号および第1の右チャンネル出力音声サブ信号を得るために前記ATF行列(H)に基づいて前記第1の所定の周波数帯内の前記第1の左チャンネル入力音声サブ信号と前記第1の右チャンネル入力音声サブ信号との間のクロストークを低減するステップと、
    第2の左チャンネル出力音声サブ信号および第2の右チャンネル出力音声サブ信号を得るために前記ATF行列(H)に基づいて前記第2の所定の周波数帯内の前記第2の左チャンネル入力音声サブ信号と前記第2の右チャンネル入力音声サブ信号との間のクロストークを低減するステップと、
    前記左チャンネル出力音声信号(X1)を得るために前記第1の左チャンネル出力音声サブ信号と前記第2の左チャンネル出力音声サブ信号とを組み合わせるステップと、
    前記右チャンネル出力音声信号(X2)を得るために前記第1の右チャンネル出力音声サブ信号と前記第2の右チャンネル出力音声サブ信号とを組み合わせるステップと
    をさらに含み、
    前記第1の所定の周波数帯内の前記第1の左チャンネル入力音声サブ信号と前記第1の右チャンネル入力音声サブ信号との間のクロストークを低減するステップは、前記ATF行列(H)に基づいて第1のクロストーク低減行列(C S1 )を決定するように、および前記第1のクロストーク低減行列(C S1 )に基づいて前記第1の左チャンネル入力音声サブ信号および前記第1の右チャンネル入力音声サブ信号をフィルタリングするステップを含み、
    前記第1のクロストーク低減行列(C S1 )の要素が、前記第1の左チャンネル入力音声サブ信号および前記第1の右チャンネル入力音声サブ信号に関連付けられた利得(A ij )および時間遅延(d ij )を示し、前記利得(A ij )および前記時間遅延(d ij )が、前記第1の所定の周波数帯内で一定である、音声信号処理方法。
  13. コンピュータ上で実行されたとき、請求項12に記載の音声信号処理方法を実施するためのプログラムコードを含むコンピュータプログラム。
JP2017557249A 2015-02-16 2015-02-16 音声信号のクロストーク低減のための音声信号処理装置および方法 Active JP6552132B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2015/053231 WO2016131471A1 (en) 2015-02-16 2015-02-16 An audio signal processing apparatus and method for crosstalk reduction of an audio signal

Publications (2)

Publication Number Publication Date
JP2018506937A JP2018506937A (ja) 2018-03-08
JP6552132B2 true JP6552132B2 (ja) 2019-07-31

Family

ID=52577839

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017557249A Active JP6552132B2 (ja) 2015-02-16 2015-02-16 音声信号のクロストーク低減のための音声信号処理装置および方法

Country Status (12)

Country Link
US (1) US10194258B2 (ja)
EP (1) EP3222058B1 (ja)
JP (1) JP6552132B2 (ja)
KR (1) KR101964106B1 (ja)
CN (2) CN111131970B (ja)
AU (1) AU2015383600B2 (ja)
BR (1) BR112017014288B1 (ja)
CA (1) CA2972573C (ja)
MX (1) MX367239B (ja)
MY (1) MY183156A (ja)
RU (1) RU2679211C1 (ja)
WO (1) WO2016131471A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017153872A1 (en) 2016-03-07 2017-09-14 Cirrus Logic International Semiconductor Limited Method and apparatus for acoustic crosstalk cancellation
US10111001B2 (en) 2016-10-05 2018-10-23 Cirrus Logic, Inc. Method and apparatus for acoustic crosstalk cancellation
US10623883B2 (en) 2017-04-26 2020-04-14 Hewlett-Packard Development Company, L.P. Matrix decomposition of audio signal processing filters for spatial rendering
CN107801132A (zh) * 2017-11-22 2018-03-13 广东欧珀移动通信有限公司 一种智能音箱控制方法、移动终端及智能音箱
US11070912B2 (en) * 2018-06-22 2021-07-20 Facebook Technologies, Llc Audio system for dynamic determination of personalized acoustic transfer functions
US10715915B2 (en) * 2018-09-28 2020-07-14 Boomcloud 360, Inc. Spatial crosstalk processing for stereo signal
GB2591222B (en) * 2019-11-19 2023-12-27 Adaptive Audio Ltd Sound reproduction
JP7147814B2 (ja) * 2020-08-27 2022-10-05 カシオ計算機株式会社 音響処理装置、方法、およびプログラム

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07105999B2 (ja) * 1990-10-11 1995-11-13 ヤマハ株式会社 音像定位装置
DE4134130C2 (de) * 1990-10-15 1996-05-09 Fujitsu Ten Ltd Vorrichtung zum Aufweiten und Ausbalancieren von Schallfeldern
GB9417185D0 (en) 1994-08-25 1994-10-12 Adaptive Audio Ltd Sounds recording and reproduction systems
JPH08182100A (ja) * 1994-10-28 1996-07-12 Matsushita Electric Ind Co Ltd 音像定位方法および音像定位装置
GB9603236D0 (en) * 1996-02-16 1996-04-17 Adaptive Audio Ltd Sound recording and reproduction systems
US6078669A (en) * 1997-07-14 2000-06-20 Euphonics, Incorporated Audio spatial localization apparatus and methods
US6424719B1 (en) * 1999-07-29 2002-07-23 Lucent Technologies Inc. Acoustic crosstalk cancellation system
TWI230024B (en) 2001-12-18 2005-03-21 Dolby Lab Licensing Corp Method and audio apparatus for improving spatial perception of multiple sound channels when reproduced by two loudspeakers
KR20050060789A (ko) * 2003-12-17 2005-06-22 삼성전자주식회사 가상 음향 재생 방법 및 그 장치
US20050271214A1 (en) * 2004-06-04 2005-12-08 Kim Sun-Min Apparatus and method of reproducing wide stereo sound
KR101562379B1 (ko) * 2005-09-13 2015-10-22 코닌클리케 필립스 엔.브이. 공간 디코더 유닛 및 한 쌍의 바이노럴 출력 채널들을 생성하기 위한 방법
KR100739776B1 (ko) * 2005-09-22 2007-07-13 삼성전자주식회사 입체 음향 생성 방법 및 장치
JP4051408B2 (ja) * 2005-12-05 2008-02-27 株式会社ダイマジック 収音・再生方法および装置
US8064624B2 (en) * 2007-07-19 2011-11-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for generating a stereo signal with enhanced perceptual quality
BRPI0907508B1 (pt) * 2008-02-14 2020-09-15 Dolby Laboratories Licensing Corporation Método, sistema e método para modificar uma entrada estéreo que inclui sinais de entrada esquerdo e direito
KR101768260B1 (ko) 2010-09-03 2017-08-14 더 트러스티즈 오브 프린스턴 유니버시티 스피커를 통한 오디오에 대한 스펙트럼적으로 채색되지 않은 최적의 크로스토크 제거
AU2014236850C1 (en) * 2013-03-14 2017-02-16 Apple Inc. Robust crosstalk cancellation using a speaker array
CN104219604B (zh) * 2014-09-28 2017-02-15 三星电子(中国)研发中心 一种扬声器阵列的立体声回放方法

Also Published As

Publication number Publication date
CN107431871B (zh) 2019-12-17
AU2015383600B2 (en) 2018-08-09
CA2972573C (en) 2019-03-19
US10194258B2 (en) 2019-01-29
KR101964106B1 (ko) 2019-04-01
MY183156A (en) 2021-02-16
MX367239B (es) 2019-08-09
BR112017014288A2 (pt) 2018-01-02
KR20170095344A (ko) 2017-08-22
CN111131970B (zh) 2023-06-02
CN111131970A (zh) 2020-05-08
RU2679211C1 (ru) 2019-02-06
CA2972573A1 (en) 2016-08-25
BR112017014288B1 (pt) 2022-12-20
US20170325042A1 (en) 2017-11-09
MX2017010430A (es) 2017-11-28
EP3222058B1 (en) 2019-05-22
EP3222058A1 (en) 2017-09-27
WO2016131471A1 (en) 2016-08-25
AU2015383600A1 (en) 2017-07-20
CN107431871A (zh) 2017-12-01
JP2018506937A (ja) 2018-03-08

Similar Documents

Publication Publication Date Title
JP6552132B2 (ja) 音声信号のクロストーク低減のための音声信号処理装置および方法
AU2015383608B2 (en) An audio signal processing apparatus and method for filtering an audio signal
CN107980225B (zh) 使用驱动信号驱动扬声器阵列的装置和方法
US20200275208A1 (en) Subband spatial processing and crosstalk cancellation system for conferencing
KR20120067294A (ko) 가상 서라운드 렌더링을 위한 스피커 어레이
WO2018151858A1 (en) Apparatus and method for downmixing multichannel audio signals
US11388539B2 (en) Method and device for audio signal processing for binaural virtualization
TW201926323A (zh) 用於對相聽覺傳輸技術之揚聲器系統之串音消除
US10841728B1 (en) Multi-channel crosstalk processing
JP2023522995A (ja) 音響クロストークのキャンセルと仮想スピーカ技術
CN109121067B (zh) 多声道响度均衡方法和设备
US11470435B2 (en) Method and device for processing audio signals using 2-channel stereo speaker
Jot et al. Loudspeaker-Based 3-D Audio System Design Using the MS Shuffler Matrix

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181001

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190610

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190701

R150 Certificate of patent or registration of utility model

Ref document number: 6552132

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250