JP6385376B2 - 音声信号処理のためのマルチチャネル直接・環境分解のための装置及び方法 - Google Patents

音声信号処理のためのマルチチャネル直接・環境分解のための装置及び方法 Download PDF

Info

Publication number
JP6385376B2
JP6385376B2 JP2015560567A JP2015560567A JP6385376B2 JP 6385376 B2 JP6385376 B2 JP 6385376B2 JP 2015560567 A JP2015560567 A JP 2015560567A JP 2015560567 A JP2015560567 A JP 2015560567A JP 6385376 B2 JP6385376 B2 JP 6385376B2
Authority
JP
Japan
Prior art keywords
spectral density
power spectral
density information
channel signals
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015560567A
Other languages
English (en)
Other versions
JP2016513814A (ja
Inventor
クリスティアン ウーレ、
クリスティアン ウーレ、
エマーヌエル ハーベッツ、
エマーヌエル ハーベッツ、
パトリック ガンプ、
パトリック ガンプ、
ミヒャエル クラッツ、
ミヒャエル クラッツ、
Original Assignee
フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー.
フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー., フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. filed Critical フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー.
Publication of JP2016513814A publication Critical patent/JP2016513814A/ja
Application granted granted Critical
Publication of JP6385376B2 publication Critical patent/JP6385376B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Algebra (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Stereophonic System (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Description

本発明は、音声信号処理のためのマルチチャネル直接・環境分解のための装置及び方法に関する。
音声信号処理の重要性が増している。この分野では、音信号を直接音信号及び環境音信号に分離させることが重要な役割を演じている。
一般的に、音響音は、直接音及び環境(又は拡散)音を混合したものからなる。直接音は、音源、例えば楽器、歌唱者又はスピーカーによって放射され、可能な限り最短の経路で受信機、例えば聴取者の耳の入り口又はマイクロフォンに到達する。
直接音を聞く場合、これは音源の方向から来るものとして知覚される。位置及び他の空間的音特性に適切な聴覚的手がかりは、両耳間のレベル差、両耳間の時間差及び両耳間のコヒーレンスである。同一の両耳間のレベル差及び両耳間の時間差を引き起こす直接音波は、同じ方向から来るものとして知覚される。拡散音が存在しない場合、左耳及び右耳、又は他の多数のセンサに到達する信号はコヒーレントである。
これに対し、環境音は、同じ環境音に寄与する互いに間隔を置いた多数の音源又は音反射境界によって放射される。音波が室内の壁に到達すると、その一部が反射され、室内の全ての反射を重ね合わせたもの、即ち反響が環境音の主要な例である。他の例としては、聴衆の音(例えば拍手)、自然環境の音(例えば雨)及びその他の背景音(例えばがやがやとしたノイズ)が挙げられる。環境音は、拡散したもの、位置を判定できないものとして知覚され、聴取者には包み込まれる(「音の中に没入した」)ような印象を与える。互いに間隔を置いた多数のセンサを用いて環境音フィールドを捕捉した場合、記録された信号は少なくとも部分的に非コヒーレントである。
音声信号を直接信号成分と環境信号成分とに分解することからは、音の後生成及び再生における様々な応用分野で利益が得られる。このような信号処理についての主な課題は、任意の数の入力チャネル信号及び全ての可能な入力信号特性について高い音質を維持しながら、高程度の分離を達成することである。直接・環境分解(DAD)、即ち音声信号の直接信号成分及び環境信号成分への分解によって、信号成分を別個に再生又は変更することが可能となり、これは例えば音声信号のアップミックスに望ましいものである。
アップミックスという用語は、入力信号がN個のチャネルを有する場合にP個のチャネルを有する信号を作成する(ただしP>N)プロセスを指す。その主な応用例として、入力信号で利用可能であるよりも多くのチャネルを有するサラウンド音セットアップを用いた音声信号の再生がある。高度な信号処理アルゴリズムを用いてコンテンツを再生することにより、聴取者は、マルチチャネル音再生セットアップの全ての利用可能なチャネルを用いることが可能となる。このような処理により、入力信号を、意味のある信号成分(例えばステレオ画像における知覚位置、直接音対環境音、単一の楽器に基づくもの)、又はこれらの信号成分を減衰若しくは増強させた信号、へと分解することができる。
アップミックスの2つの概念が広く知られている。
1.ガイド型アップミックス:アップミックスプロセスをガイドする追加の情報を用いてアップミックスする。この追加の情報は、入力信号において特定の方法で「符号化」されるか、又は追加的に記憶され得る。
2.非ガイド型アップミックス:出力信号は、追加の情報なしに排他的に音声入力信号から得られる。
高度なアップミックス方法は、更に、直接信号及び環境信号の位置付けに関して分類することができる。即ち、「直接・環境方式」と「帯内」方式とに区別される。直接・環境ベースの技術の中核的な要素は、環境信号を抽出し、これを例えばマルチチャネルサラウンド音セットアップの後方チャネル又は高さチャネルに入力することである。後方チャネルまたは高さチャネルを用いて環境音を再生することによって、聴取者には包み込まれる(「音の中に没入した」)ような印象が与えられる。更に、直接音源を、ステレオパノラマ中の知覚位置に従って前方チャネルの間で配置することができる。これに対し、「帯内」方式は、全ての利用可能なラウドスピーカーを用いて聴取者の周囲の全ての音(直接音及び環境音)を位置付けることをめざすものである。
音声信号を直接信号及び環境信号に分解することによって、例えばこれをスケーリング又はフィルタリングすることによって環境音又は直接音に別個に変更を加えることも可能となる。一使用例として、過剰な量の環境音を伴って捕捉された音楽演奏の録音処理が挙げられる。別の使用例として、音声生成(例えば映画のサウンド又は音楽におけるもの)であって、異なる位置で捕捉されたため異なる環境音特性を有する音声信号を組み合わせる場合が挙げられる。
いずれの場合でも、このような信号処理のための要件は、任意の数の入力チャネル信号及び全ての可能な入力信号特性について高い音質を維持しながら、高程度の分離を達成することである。
DAD、又は直接信号成分若しくは環境信号成分の減衰若しくは増強についての先行技術における様々な方策が提案されており、以下に簡単に説明する。
公知の概念は、マイクロフォン録音から望ましくない背景ノイズを除去することを目的としたスピーチ信号の処理に関する。
[1]においては、2つの入力チャネルを有するスピーチ録音からの反響を減衰させる方法が記載されている。入力信号における無相関(又は拡散)信号成分を減衰させることによって反響信号成分を低減させる。この処理は、時間周波数領域で実現されるため、サブバンド信号は、スペクトル重み付け方法を用いて処理される。実数値重み付け因子は、パワースペクトル密度(PSD)を用いて
Figure 0006385376
により計算され、ここでX(m,k)及びY(m,k)は、時間領域入力信号x[n]及びy[n]の時間周波数領域表現を示し、E{・}は、期待演算であり、Xは、Xの複素共役である。
この文献の著者等は、φxy(m,k)に比例する場合、例えば正規化された相互相関関数(又はコヒーレンス関数)に等しい重みを用いる場合に、異なるスペクトル重み付け関数が有効であると指摘している。
Figure 0006385376
これと同様の理論で、[2]に記載の方法では、周波数帯域で計算された正規化された相互相関関数から導出した重みによるスペクトル重み付けを用いて環境信号を抽出する。式(4)(この文献の著者等は、「チャネル間短時間コヒーレント関数」という用語を用いている)を参照。[1]と比較すると、拡散信号成分を減衰させる代わりに、(1−ρ(m,k))の単調で一様な関数であるスペクトル重みを用いて直接信号成分を減衰させている点で異なっている。
[3]においては、マルチチャネル・ウィーナフィルタリングを用いて2つのチャネルを有する入力信号をアップミックスする応用例における分解が記載されている。この処理は、時間周波数領域で行われる。入力信号は、環境信号及び(1周波数帯当り)1つのアクティブな直接源を混合したものとしてモデル化され、ここで、1つのチャネルにおける直接信号は、第2のチャネル、即ち振幅パンニングにおける直接信号成分のスケーリングされたコピーへと制限される。正規化された相互相関と、両方のチャネルにおける入力信号パワーとを用いて、パンニング係数と直接信号及び環境信号のパワーとを推定する。直接出力信号及び環境出力信号は、実数値重み付け係数によって入力信号の線形組み合わせから導出される。追加の後スケーリングを適用することにより、出力信号のパワーが推定量に等しくなるようにする。
[4]に記載の方法では、環境パワーの推定値に基づいてスペクトル重み付けを用いて環境信号を抽出する。環境パワーの推定は、両方のチャネルにおける直接信号成分が完全に相関しており、環境チャネル信号が互いに及び直接信号と相関しておらず、且つ両方のチャネルにおける環境パワーが等しいという想定に基づいている。
[5]においては、方向性音声符号化(DirAC)に基づくステレオ信号のアップミックス方法が記載されている。DirACは、到来方向、拡散性及び音の場のスペクトルを分析及び再生することをめざすものである。ステレオ入力信号をアップミックスするために、入力信号の無エコー性Bフォーマット録音をシミュレートする。
[6]においては、適応フィルタアルゴリズムを用いたステレオ音声信号から無相関の反響を抽出する方法であって、1つのチャネル信号における直接信号成分を、最小平均二乗(LMS)アルゴリズムによって他のチャネル信号を用いて予測することをめざすものが記載されている。次に、入力信号から推定直接信号を減算することにより環境信号を導出する。この方策の理論は、予測は相関の信号についてのみ有効であり、予測エラーは無相関の信号に似るというものである。LMS原理に基づく様々な適応フィルタアルゴリズム、例えばLMS又は正規化LMS(NLMS)アルゴリズムが存在し、有効である。
[7]においては、2つのチャネルよりも多くのチャネルを有する入力信号を分解するために、まずマルチチャネル信号をダウンミックスして2チャネルステレオ信号を得てから、[3]で示されたステレオ入力信号処理方法を適用する方法が記載されている。
[8]に記載の方法では、モノ信号を処理するために、スペクトル重み付けを用いて環境信号を抽出し、スペクトル重みは、特徴抽出及び教師有り学習を用いて計算される。
アップミックスの応用例におけるモノ録音から環境信号を抽出するもう1つの方法では、入力信号の時間周波数領域表現と、これを圧縮したもの、好ましくは負でない行列の因数分解を用いて計算されたものとの差から時間周波数領域表現を得る[9]。
[10]には、音声信号における反響信号成分を、反響信号を生成した反響システムの大きさ伝達関数の推定値に基づいて抽出し変化させる方法が記載されている。信号成分の周波数領域表現の大きさの推定値は、再帰的フィルタリングによって導出され、変更を加えることができる。
本発明の目的は、音声信号処理のためのマルチチャネル直接・環境分解のための改善された概念を提供することである。本発明の目的は、請求項1に記載の装置、請求項14に記載の方法、及び請求項15に記載のコンピュータプログラムによって解決される。
2つ以上の音声入力チャネル信号に応じて1つ以上の音声出力チャネル信号を生成するための装置が提供される。2つ以上の音声入力チャネル信号の各々は、直接信号部分及び環境信号部分を含む。装置は、第1のパワースペクトル密度情報を推定し第2のパワースペクトル密度情報を推定することによりフィルタを決定するためのフィルタ決定部を備える。更に、装置は、2つ以上の音声入力チャネル信号にフィルタを適用することにより1つ以上の音声出力チャネル信号を生成するための信号処理部を備える。第1のパワースペクトル密度情報は、2つ以上の音声入力チャネル信号についてのパワースペクトル密度情報を示し、第2のパワースペクトル密度情報は、2つ以上の音声入力チャネル信号の環境信号部分についてのパワースペクトル密度情報を示す。或いは、第1のパワースペクトル密度情報は、2つ以上の音声入力チャネル信号についてのパワースペクトル密度情報を示し、第2のパワースペクトル密度情報は、2つ以上の音声入力チャネル信号の直接信号部分についてのパワースペクトル密度情報を示す。或いは、第1のパワースペクトル密度情報は、2つ以上の音声入力チャネル信号の直接信号部分についてのパワースペクトル密度情報を示し、第2のパワースペクトル密度情報は、2つ以上の音声入力チャネル信号の環境信号部分についてのパワースペクトル密度情報を示す。
実施例は、音声入力信号を直接信号成分及び環境信号成分に分解し、これらを音の後生成及び再生に適用するための概念を提供する。このような信号処理における主な課題は、任意の数の入力チャネル信号及び全ての可能な入力信号特性について高い音質を維持しながら、高程度の分離を達成することである。本願により提供される概念は、時間周波数領域におけるマルチチャネル信号処理であって、平均平方誤差の意味での条件付き最適解につながるものであり、例えば推定された所望の信号の歪み又は残差干渉の低減に対する条件を受けるものに基づく。
音声入力信号を直接信号成分及び環境信号成分に分解するための実施例が提供される。更に、環境信号成分を計算するためのフィルタの導出が提供され、更に、フィルタの応用例における実施例が記載される。
いくつかの実施例は、1つのチャネルよりも多くのチャネルを有する入力信号を伴う直接・環境方式に従う非ガイド型アップミックスに関する。
本願に記載の分解の想定される応用例として、同じ数のチャネルを有する出力信号を入力信号として計算することへの関心が集まっている。この応用例においては、実施例は、分離及び音質の観点で極めて良好な結果を提供するが、それは、直接信号が入力チャネル間で時間遅延される入力信号に対処できるからである。他の概念、例えば[3]で提案された概念とは対照的に、実施例は、入力信号における直接音がスケーリングのみによってパンニングされる(振幅パンニング)のではなく、各々のチャネルにおける直接信号間の時間差をも導入することによってパンニングされることを想定している。
更に、実施例は、1つ又は2つのチャネルを有する入力信号しか処理できない先行技術の全ての他の概念(上記を参照)とは対照的に、任意の数のチャネルを有する入力信号に対する演算を行うことができる。
実施例の他の利点は、制御パラメータの利用、環境PSD行列の推定、及びフィルタの更なる変更が挙げられ、これについては後述する。
いくつかの実施例は、全ての入力音オブジェクトについて一貫性のある環境音を提供する。入力信号を直接音及び環境音に分解したとき、いくつかの実施例では、適切な音声信号処理を用いて環境音特性を適合し、他の実施例では、環境信号成分の代わりに人工的な反響及び他の人工的な環境音を用いる。
実施例によると、装置は、更に、2つ以上の音声入力チャネル信号を時間領域から時間周波数領域に変換するように構成された分析フィルタバンクを備えることができる。フィルタ決定部は、時間周波数領域で表される音声入力チャネル信号に応じて第1のパワースペクトル密度情報及び第2のパワースペクトル密度情報を推定することによってフィルタを決定するように構成することができる。信号処理部は、時間周波数領域で表される2つ以上の音声入力チャネル信号にフィルタを適用することにより、時間周波数領域で表される1つ以上の音声出力チャネル信号を生成するように構成することができる。また、装置は、更に、時間周波数領域で表される1つ以上の音声出力チャネル信号を、時間周波数領域から時間領域に変換するように構成された合成フィルタバンクを備えることができる。
更に、2つ以上の音声入力チャネル信号に応じて1つ以上の音声出力チャネル信号を生成するための方法が提供される。2つ以上の音声入力チャネル信号の各々は、直接信号部分及び環境信号部分を含む。方法は、
−第1のパワースペクトル密度情報を推定し第2のパワースペクトル密度情報を推定することによりフィルタを決定するステップと、
−2つ以上の音声入力チャネル信号にフィルタを適用することにより前記1つ以上の音声出力チャネル信号を生成するステップと、を備える。
第1のパワースペクトル密度情報は、2つ以上の音声入力チャネル信号についてのパワースペクトル密度情報を示し、第2のパワースペクトル密度情報は、2つ以上の音声入力チャネル信号の環境信号部分についてのパワースペクトル密度情報を示す。或いは、第1のパワースペクトル密度情報は、2つ以上の音声入力チャネル信号についてのパワースペクトル密度情報を示し、第2のパワースペクトル密度情報は、2つ以上の音声入力チャネル信号の直接信号部分についてのパワースペクトル密度情報を示す。或いは、第1のパワースペクトル密度情報は、2つ以上の音声入力チャネル信号の直接信号部分についてのパワースペクトル密度情報を示し、第2のパワースペクトル密度情報は、2つ以上の音声入力チャネル信号の環境信号部分についてのパワースペクトル密度情報を示す。
更に、コンピュータ又は信号プロセッサにおいて実行されたときに上述の方法を実現するためのコンピュータプログラムが提供される。
以下、本発明の実施例について、図面を参照してより詳細に説明する。
図1は、実施例による2つ以上の音声入力チャネル信号に応じて1つ以上の音声出力チャネル信号を生成するための装置を示す図である。 図2は、実施例によるクラシック音楽の5チャネル録音の分解の入力信号及び出力信号であって、入力信号(左列)、環境出力信号(中列)及び直接出力信号(右列)を示す図である。 図3は、実施例による環境信号推定及び直接信号推定を用いた分解の基本的な概観を示す図である。 図4は、実施例による直接信号推定を用いた分解の基本的な概観を示す図である。 図5は、実施例による環境信号推定を用いた分解の基本的な概観を示す図である。 図6aは、別の実施例による装置であって、分析フィルタバンク及び合成フィルタバンクを更に備えた装置を示す図である。 図6bは、更なる実施例による装置であって、直接信号成分の抽出を示し、ブロックAFBは、N個の分析フィルタバンク(各々のチャネルにつき1つ)の組であり、SFBは、1組の合成フィルタバンクであるものを示す図である。
図1は、実施例による2つ以上の音声入力チャネル信号に応じて1つ以上の音声出力チャネル信号を生成するための装置を示す。2つ以上の音声入力チャネル信号の各々は、直接信号部分及び環境信号部分を含む。
装置は、第1のパワースペクトル密度情報を推定し第2のパワースペクトル密度情報を推定することによりフィルタを決定するためのフィルタ決定部110を備える。
更に、装置は、2つ以上の音声入力チャネル信号にフィルタを適用することにより1つ以上の音声出力チャネル信号を生成するための信号処理部120を備える。
第1のパワースペクトル密度情報は、2つ以上の音声入力チャネル信号についてのパワースペクトル密度情報を示し、第2のパワースペクトル密度情報は、2つ以上の音声入力チャネル信号の環境信号部分についてのパワースペクトル密度情報を示す。
或いは、第1のパワースペクトル密度情報は、2つ以上の音声入力チャネル信号についてのパワースペクトル密度情報を示し、第2のパワースペクトル密度情報は、2つ以上の音声入力チャネル信号の直接信号部分についてのパワースペクトル密度情報を示す。
或いは、第1のパワースペクトル密度情報は、2つ以上の音声入力チャネル信号の直接信号部分についてのパワースペクトル密度情報を示し、第2のパワースペクトル密度情報は、2つ以上の音声入力チャネル信号の環境信号部分についてのパワースペクトル密度情報を示す。
実施例によっては、音声入力信号を直接信号成分及び環境信号成分に分解するための概念が提供され、これらを音の後生成及び再生に適用することができる。このような信号処理における主な課題は、任意の数の入力チャネル信号及び全ての可能な入力信号特性について高い音質を維持しながら、高程度の分離を達成することである。本願により提供される実施例は、時間周波数領域におけるマルチチャネル信号処理に基づくものであり、平均平方誤差の意味での最適解であって、推定された所望の信号の歪み又は残余干渉の低減に対する条件を受けるものが提供される。
まず、本発明の実施例が基づく発明概念について説明する。
Figure 0006385376
Figure 0006385376
Figure 0006385376
Figure 0006385376
Figure 0006385376
実施例によると、この処理は、例えば、時間周波数領域で実行することができる。入力音声信号の時間周波数領域表現は、例えば、フィルタバンク(分析フィルタバンク)、例えば短時間フーリエ変換(STFT)を用いて得ることができる。
Figure 0006385376
図6aの実施例においては、分析フィルタバンク605は、2つ以上の音声入力チャネル信号を時間領域から時間周波数領域に変換するように構成される。フィルタ決定部110は、時間周波数領域で表される音声入力チャネル信号に応じて第1のパワースペクトル密度情報及び第2のパワースペクトル密度情報を推定することによってフィルタを決定するように構成される。信号処理部120は、時間周波数領域で表される2つ以上の音声入力チャネル信号にフィルタを適用することにより、時間周波数領域で表される1つ以上の音声出力チャネル信号を生成するように構成される。合成フィルタバンク625は、時間周波数領域で表される1つ以上の音声出力チャネル信号を、時間周波数領域から時間領域に変換するように構成される。
時間周波数領域表現は、時間の経過に伴って発展する或る数のサブバンド信号を含む。任意には、隣接するサブバンドを線形に組み合わせてより広いサブバンド信号とすることで計算上の複雑度を低減させることができる。入力信号における各々のサブバンドは、以下に詳細に説明するように個別に処理される。時間領域出力信号は、それぞれフィルタバンク、即ち合成フィルタバンクの逆処理を適用することによって得られる。全ての信号がゼロの平均値を有するものと想定され、時間周波数領域信号は、複雑なランダム変数としてモデル化することができる。
以下、定義及び想定について説明する。
以下の定義は、考案された方法の記載全体を通して用いられる。N個のチャネルを有するマルチチャネル入力信号の時間周波数領域表現は、時間インデックスm及びサブバンドインデックスk,k=1…Kを用いて
Figure 0006385376
Figure 0006385376
Figure 0006385376
であり、ここで
Figure 0006385376
であり、ここで、Di(m,k)は直接成分を示し、Ai(m,k)は、i番目のチャネルにおける環境成分を示す。
Figure 0006385376
Figure 0006385376
から得ることができる。これに代えて、1つのフィルタ行列だけを用いても良く、図4に示す減算は、
Figure 0006385376
Figure 0006385376
Figure 0006385376
Figure 0006385376
Figure 0006385376
Figure 0006385376
フィルタ行列は、以下に説明するように信号統計の推定値から計算される。
具体的には、フィルタ決定部110は、第1のパワースペクトル密度(PSD)情報及び第2のPSD情報を推定することによってフィルタを決定するように構成される。
Figure 0006385376
を定義し、ここで、E{・}は、期待値演算子であり、Xは、Xの複素共役を示す。i=jの場合にはPSDが、i≠jの場合にはクロスPSDが得られる。
Figure 0006385376
Figure 0006385376
Figure 0006385376
Figure 0006385376
Figure 0006385376
以下のように想定する。
・Di(m,k)及びA(m,k)は、相互に無相関である。
Figure 0006385376
・A(m,k)及びA(m,k)は、相互に無相関である。
Figure 0006385376
・環境パワーは、全てのチャネルにおいて等しい。
Figure 0006385376
その結果、
Figure 0006385376
が成立する。
Figure 0006385376
考案された方法の性能を評価するために、以下の信号を定義する。
・直接信号歪み:
Figure 0006385376
・残差環境信号:
Figure 0006385376
・環境信号歪み:
Figure 0006385376
・残差直接信号:
Figure 0006385376
以下においては、フィルタ行列の導出について図4及び図5に従って説明する。読みやすくするために、サブバンドインデックス及び時間インデックスは省略する。
最初に、直接信号成分の推定についての実施例について説明する。
Figure 0006385376
Figure 0006385376
Figure 0006385376
Figure 0006385376
によって与えられる。i番目のチャネルの直接出力信号を計算するためのフィルタは、
Figure 0006385376
に等しく、ここでuiは、i番目の位置における1を伴う長さNの零ベクトルである。パラメータβiにより、残差環境信号の低減と環境信号歪みとの間のトレードオフが可能となる。図4に示すシステムについては、直接出力信号におけるより低い残差環境レベルが、環境出力信号におけるより高い環境レベルにつながる。より少ない直接信号歪みは、環境出力信号における直接信号成分の良好な減衰につながる。時間及び周波数に依存するパラメータβiは、各々のチャネルについて別個に設定することができ、入力信号又は以下のように導出された信号によって制御することができる。
これと類似の解を得るには、条件付き最適化問題を
Figure 0006385376
Figure 0006385376
Figure 0006385376
として導出され、ここでφDiDiは、i番目のチャネルにおける直接信号のPSDであり、λはマルチチャネル直接対環境比(DAR)
Figure 0006385376
であり、ここで、正方行列Aのトレースは、主対角線上の要素の和に等しい。
Figure 0006385376
Figure 0006385376
以下、環境信号成分の推定について説明する。
考案された方法の理論は、環境信号歪みqを条件付きとしながら残差直接信号rが最小になるようにフィルタを計算することである。これは、条件付き最適化問題
Figure 0006385376
Figure 0006385376
Figure 0006385376
によって与えられる。i番目のチャネルの環境出力信号を計算するためのフィルタは、
Figure 0006385376
に等しい。
以下、本発明の概念を実現する実施例を詳細に記載する。
Figure 0006385376
Figure 0006385376
Figure 0006385376
Figure 0006385376
Figure 0006385376
と書き替えることができる。式(33)は、式(22)についての条件付き最適化問題についての解をもたらす。
Figure 0006385376
Figure 0006385376
更に、式(33)を再公式化する(式(20)を参照)ことによって、
Figure 0006385376
Figure 0006385376
更に、式(33)を再公式化する(式(20)を参照)ことによって、
Figure 0006385376
Figure 0006385376
更に、式(33)を再公式化することによって、
Figure 0006385376
Figure 0006385376
式(33c)によって、式(29)の条件付き最適化問題についての解が得られる。
これと同様に、式(33a),(33b)を再公式化して、
Figure 0006385376
又は
Figure 0006385376
とすることができる。
Figure 0006385376
Figure 0006385376
Figure 0006385376
Figure 0006385376
Figure 0006385376
を用いて、例えば直接推定することができ、ここで、αは、積分時間を決定するフィルタ係数であり、又は、例えば、短時間移動重み付き平均
Figure 0006385376
を用いて、例えば直接推定することができ、ここで、Lは、例えばPSDの計算に用いられる過去の値の数であり、b…bは、例えば[0 1]の範囲内のフィルタ係数であり(例えば0≦フィルタ係数≦1)、又は、例えば、式(34b)に従い、ただし全てのi=0…Lについて
Figure 0006385376
による短時間移動平均を用いて、例えば直接推定することができる。
Figure 0006385376
Figure 0006385376
Figure 0006385376
Figure 0006385376
Figure 0006385376
Figure 0006385376
Figure 0006385376
Figure 0006385376
であり、ここで、パラメータgは、環境パワーの量を制御し、0<g<1である。
更なる実施例によると、推定は、算術平均に基づいて行われる。式(20)及び式(21)へつながる仮定の場合、
Figure 0006385376
Figure 0006385376
Figure 0006385376
として推定される。
Figure 0006385376
更に、式(20),(35)から、
Figure 0006385376
が得られる。
Figure 0006385376
以下、パラメータβiについての選択について検討する。
βiは、トレードオフパラメータである。トレードオフパラメータβiは、数である。
いくつかの実施例では、全ての音声入力チャネル信号について有効なただ1つのトレードオフパラメータβiを決定し、このトレードオフパラメータを音声入力チャネル信号のトレードオフ情報と見做す。
他の実施例では、2つ以上の音声入力チャネル信号の各々について1つのトレードオフパラメータβiを決定し、音声入力チャネル信号のこれら2つ以上のトレードオフパラメータが合わさってトレードオフ情報を構成する。
更なる実施例においては、トレードオフ情報は、パラメータとして表されるのではなく、異なる種類の好適なフォーマットとして表されることができる。
上述のように、パラメータβiによって、環境信号の低減と直接信号の歪みとの間のトレードオフが可能となる。これは一定のものとして選択されるか、又は図6bに示すように信号依存のものとして選択され得る。
Figure 0006385376
Figure 0006385376
Figure 0006385376
以下、信号分析を用いてパラメータβiを制御するための異なった使用例について説明する。
最初に、トランジェント信号について検討する。
実施例によると、フィルタ決定部110は、2つ以上の音声入力チャネル信号のうちの少なくとも1つにトランジェントが存在するか否かに応じてトレードオフ情報(βi,β)を決定するように構成される。
Figure 0006385376
次に、望ましくない環境信号について検討する。
実施例においては、フィルタ決定部110は、2つ以上の音声入力チャネル信号のうちの1つが送信される少なくとも1つの信号チャネルにおける加算ノイズの存在に応じてトレードオフ情報(βi,β)を決定するように構成される。
提案される方法は、環境信号成分の性質に関わらず入力信号を分解する。ノイズの多い信号チャネルを介して入力信号が送信された場合、望ましくない加算ノイズ存在の確率を推定してβiを制御することで出力DAR(直接対環境比)が増加するようにすることが有利である。
次に、出力信号のレベルの制御について記載する。
出力信号のレベルを制御するために、βiをi番目のチャネルについて別個に設定することができる。i番目のチャネルの環境出力信号を計算するためのフィルタは、式(31)によって与えられる。
Figure 0006385376
Figure 0006385376
又は
Figure 0006385376
となるようにβiを計算することができる。
Figure 0006385376
次に、パンニング情報の使用について検討する。
入力チャネルが2つある場合、パンニング情報は、サブバンドごとの両方のチャネル間のレベル差を定量化する。パンニング情報を適用してβiを制御することによって、出力信号の知覚幅を制御することができる。
以下、出力環境チャネル信号の等化について検討する。
Figure 0006385376
Figure 0006385376
として得ることができる。
Figure 0006385376
Figure 0006385376
Figure 0006385376
Figure 0006385376
となる対角行列である。
Figure 0006385376
Figure 0006385376
として得ることができる。
Figure 0006385376
Figure 0006385376
装置の文脈でいくつかの局面を記載したが、これらの局面は対応の方法の記載をも表すものであり、ブロック又はデバイスは、方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップの文脈で記載した局面は、対応する装置の対応するブロック若しくは項目又は特徴の記載をも表す。
本発明の分解された信号は、デジタル記憶媒体で記憶することができ、又は、無線伝送媒体又はインターネットのような有線伝送媒体のような伝送媒体、で送信することができる。
特定の実現要件に応じて、本発明の実施例は、ハードウェア又はソフトウェアによって実現され得る。その実現は、デジタル記憶媒体、例えばフロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROM又はフラッシュメモリであって、電子的に読み出し可能な制御信号を格納しており、プログラム可能なコンピュータシステムと協働する(又は協働可能である)ことによりそれぞれの方法が実行されるようにするものを用いて実行され得る。
本発明のいくつかの実施例は、プログラム可能なコンピュータシステムと協働可能であることによって本願明細書に記載の方法の1つが実行されるようにする、電子的に読み出し可能な制御信号を有する非一時的データキャリアを含む。
一般的には、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品であって、このコンピュータプログラム製品がコンピュータにおいて実行されるときに上記プログラムコードが上記方法の1つを実行するように動作するものとして実現され得る。プログラムコードは、例えば、機械読み取り可能キャリアに格納され得る。
他の実施例は、機械読み取り可能キャリアに格納された、本願明細書に記載の方法の1つを実行するためのコンピュータプログラムを含む。
従って、換言すると、本発明の方法の一実施例は、コンピュータプログラムであって、このコンピュータプログラムがコンピュータにおいて実行されるときに、本願明細書に記載の方法の1つを実行するためのプログラムコードを有するものである。
従って、本発明の方法の更なる実施例は、データキャリア(又はデジタル記憶媒体若しくはコンピュータ読み取り可能媒体)であって、そこに記録された、本願明細書に記載の方法の1つを実行するためのコンピュータプログラムを含むものである。
従って、本発明の方法の更なる実施例は、本願明細書に記載の方法の1つを実行するためのコンピュータプログラムを表すデータストリーム又は信号シーケンスである。データストリーム又は信号シーケンスは、例えば、インターネットを介したデータ通信接続を介して転送されるように構成され得る。
更なる実施例は、本願明細書に記載の方法の1つを実行するように構成又は適合された処理手段、例えばコンピュータ又はプログラム可能論理装置を含む。
更なる実施例は、本願明細書に記載の方法の1つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。
いくつかの実施例においては、プログラム可能論理装置(例えば、フィールドプログラマブルゲートアレイ)を用いて、本願明細書に記載の方法におけるいくつか又は全ての機能を実行しても良い。いくつかの実施例においては、フィールドプログラマブルゲートアレイは、マイクロプロセッサと協働して、本願明細書に記載の方法の1つを実行しても良い。一般的に、当該方法は、どのようなハードウェア装置によって実行されても良い。
上述の各実施例は、単に本発明の原理を例示するものである。本願明細書に記載の構成及び詳細を変更及び変形したものが当業者には明らかであることが理解される。従って、本願明細書における各実施例の記載及び説明として提示された特定の詳細によってではなく、添付の特許請求の範囲によってのみ限定されることが意図される。
参考文献
[1]J.B.アレン(Allen)、D.A.バークリー(Berkeley)、J.ブラウアート(Blauert)、「スピーチ信号から室内反響を除去するためのマルチマイクロフォン信号処理技術(Multimicrophone signal-processing technique to remove room reverberation from speech signals)」、米国音響協会報(J.Acoust.Soc.Am)、62巻、1977年
[2]C.アヴェンダーノ(Avendano)、J.M.ジョット(Jot)、「マルチチャネルアップミックスのための周波数領域方策(A frequency-domain approach to multi-channel upmix)」、音声工学協会報(J.Audio Eng.Soc.)、52巻、2004年
[3]C.ファラー(Faller)、「ステレオ信号の多スピーカー式再生(Multiple-loudspeaker playback of stereo signals)」、”, 音声工学協会報(J.Audio Eng.Soc.)、54巻、2006年
[4]J.メリマー(Merimaa)、M.グッドウィン(Goodwin)、J.M.ジョット(Jot)、「ステレオ録音からの相関ベースの環境抽出(Correlation-based ambience extraction from stereo recordings)」、第123回AES会議集録(Proc.of the AES 123rd Conv.)、2007年
[5]ヴィッレ・プルキ(Ville Pulkki)、「空間音再生及びステレオアップミックスにおける方向性音声符号化(Directional audio coding in spatial sound reproduction and stereo upmixing)」、第28回国際AES会議集録(Proc.of the AES 28th Int.Conf.)、2006年
[6]J.アッシャー(Usher)、J.ベネスティー(Benesty)、「空間音質の向上:新規の反響抽出音声アップミキサー(Enhancement of spatial sound quality:A new reverberation-extraction audio upmixer)」、音声・スピーチ・言語処理に関するIEEE会報(IEEE Tram.on Audio,Speech.and Language Processing)、l5巻、2141〜2150頁、2007年
[7]A.ヴァルター(Walther)、C.ファラー(Faller)、「サラウンド音信号の直接・環境分解及びアップミックス(Direct−ambient decomposition and upmix of surround sound signals)」、IEEE WASPAA集録(Proc.of IEEE WASPAA)、2011年
[8]C.ウーレ(Uhle)、J.ヘレ(Herre)、S.ガイヤースベルガー(Geyersberger)、F.リッダーブッシュ(Ridderbusch)、A.ヴァルター(Walter)、O.モーザー(Moser)、「環境信号を抽出するための重みづけ係数を得るための装置及び方法において環境信号を抽出するための装置及び方法、並びにコンピュータプログラム(Apparatus and method for extracting an ambient signal in an:apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program)」、米国特許出願第2009/0080666号、2009年
[9]C.ウーレ(Uhle)、J.ヘレ(Herre)、A.ヴァルター(Walther)、O.ヘルムート(Hellmuth)、C.ヤンセン(Janssen)、「音声信号から環境信号を生成するための装置及び方法、音声信号からマルチチャネル音声信号を導出するための装置及び方法、並びにコンピュータプログラム(Apparatus and method for generating an ambient signal from an audio signal,apparatus and method for deriving a multi−channel audio signal from an audio signal and computer program)」、米国特許出願第2010/0030563号、2010年
[10]G.ソウルオウダー(Soulodre)、「音声入力信号の反響コンテンツを抽出し変化させるためのシステム(System for extracting and changing the reverberant content of an audio input signal)」、米国特許第8,036,767号、特許日:2011年10月11日

Claims (12)

  1. 2つ以上の音声入力チャネル信号に応じて1つ以上の音声出力チャネル信号を生成するための装置であって、前記2つ以上の音声入力チャネル信号の各々は、直接信号部分及び環境信号部分を含み、前記装置は、
    第1のパワースペクトル密度情報を推定し第2のパワースペクトル密度情報を推定することによりフィルタを決定するためのフィルタ決定部(110)と、
    前記2つ以上の音声入力チャネル信号に前記フィルタを適用することにより前記1つ以上の音声出力チャネル信号を生成するための信号処理部(120)と、を備え、
    前記第1のパワースペクトル密度情報は、前記2つ以上の音声入力チャネル信号についてのパワースペクトル密度情報を示し、前記第2のパワースペクトル密度情報は、前記2つ以上の音声入力チャネル信号の環境信号部分についてのパワースペクトル密度情報を示し、或いは、
    前記第1のパワースペクトル密度情報は、前記2つ以上の音声入力チャネル信号についてのパワースペクトル密度情報を示し、前記第2のパワースペクトル密度情報は、前記2つ以上の音声入力チャネル信号の直接信号部分についてのパワースペクトル密度情報を示し、或いは、
    前記第1のパワースペクトル密度情報は、前記2つ以上の音声入力チャネル信号の直接信号部分についてのパワースペクトル密度情報を示し、前記第2のパワースペクトル密度情報は、前記2つ以上の音声入力チャネル信号の環境信号部分についてのパワースペクトル密度情報を示し、
    前記フィルタ決定部(110)は、前記2つ以上の音声入力チャネル信号のうちの少なくとも1つに応じて、数であるトレードオフ情報(β,β)を決定するように構成され、
    前記フィルタ決定部(110)は、前記第1のパワースペクトル密度情報、前記第2のパワースペクトル密度情報および前記トレードオフ情報に応じて前記フィルタを決定するように構成され、
    Figure 0006385376
  2. 請求項1に記載の装置であって、
    前記装置は、更に、前記2つ以上の音声入力チャネル信号を時間領域から時間周波数領域へ変換するための分析フィルタバンク(605)を備え、
    前記フィルタ決定部(110)は、前記時間周波数領域で表される前記音声入力チャネル信号に応じて前記第1のパワースペクトル密度情報及び前記第2のパワースペクトル密度情報を推定することによって前記フィルタを決定するように構成され、
    前記信号処理部(120)は、前記時間周波数領域で表される前記2つ以上の音声入力チャネル信号に前記フィルタを適用することにより、前記時間周波数領域で表される前記1つ以上の音声出力チャネル信号を生成するように構成され、
    前記装置は、更に、前記時間周波数領域で表される前記1つ以上の音声出力チャネル信号を前記時間周波数領域から前記時間領域へ変換するための合成フィルタバンク(625)を備える、装置。
  3. 請求項1または請求項2に記載の装置であって、
    前記フィルタ決定部(110)は、前記2つ以上の音声入力チャネル信号のうちの少なくとも1つにトランジェントが存在するか否かに応じて前記トレードオフ情報(β,β)を決定するように構成される、装置。
  4. 請求項1から請求項3のいずれか1項に記載の装置であって、
    前記フィルタ決定部(110)は、前記2つ以上の音声入力チャネル信号のうちの1つが送信される少なくとも1つの信号チャネルにおける加算ノイズの存在に応じて前記トレードオフ情報(β,β)を決定するように構成される、装置。
  5. Figure 0006385376
  6. Figure 0006385376
  7. 請求項1から請求項6のいずれかに記載の装置であって、前記フィルタ決定部(110)は、前記トレードオフ情報(β,β)として、2つ以上の音声入力チャネル信号の各々についてトレードオフパラメータ(β,β)を決定するように構成され、前記音声入力チャネル信号の各々のトレードオフパラメータ(β,β)は、前記音声入力チャネル信号に依存する、装置。
  8. Figure 0006385376
  9. Figure 0006385376
  10. Figure 0006385376
  11. 2つ以上の音声入力チャネル信号に応じて1つ以上の音声出力チャネル信号を生成するための方法であって、前記2つ以上の音声入力チャネル信号の各々は、直接信号部分及び環境信号部分を含み、前記方法は、
    第1のパワースペクトル密度情報を推定し第2のパワースペクトル密度情報を推定することによりフィルタを決定するステップと、
    前記2つ以上の音声入力チャネル信号に前記フィルタを適用することにより前記1つ以上の音声出力チャネル信号を生成するステップと、を備え、
    前記第1のパワースペクトル密度情報は、前記2つ以上の音声入力チャネル信号についてのパワースペクトル密度情報を示し、前記第2のパワースペクトル密度情報は、前記2つ以上の音声入力チャネル信号の環境信号部分についてのパワースペクトル密度情報を示し、或いは、
    前記第1のパワースペクトル密度情報は、前記2つ以上の音声入力チャネル信号についてのパワースペクトル密度情報を示し、前記第2のパワースペクトル密度情報は、前記2つ以上の音声入力チャネル信号の直接信号部分についてのパワースペクトル密度情報を示し、或いは、
    前記第1のパワースペクトル密度情報は、前記2つ以上の音声入力チャネル信号の直接信号部分についてのパワースペクトル密度情報を示し、前記第2のパワースペクトル密度情報は、前記2つ以上の音声入力チャネル信号の環境信号部分についてのパワースペクトル密度情報を示し、
    前記方法は、更に、前記2つ以上の音声入力チャネル信号のうちの少なくとも1つに応じて、数であるトレードオフ情報(β,β)を決定するステップを備え、
    前記フィルタを決定するステップは、前記第1のパワースペクトル密度情報、前記第2のパワースペクトル密度情報および前記トレードオフ情報に応じて実行され、
    Figure 0006385376
  12. コンピュータ又はプロセッサにおいて実行されたときに請求項11に記載の方法を実現するためのコンピュータプログラム。
JP2015560567A 2013-03-05 2013-10-23 音声信号処理のためのマルチチャネル直接・環境分解のための装置及び方法 Active JP6385376B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361772708P 2013-03-05 2013-03-05
US61/772,708 2013-03-05
PCT/EP2013/072170 WO2014135235A1 (en) 2013-03-05 2013-10-23 Apparatus and method for multichannel direct-ambient decomposition for audio signal processing

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2017212311A Division JP6637014B2 (ja) 2013-03-05 2017-11-02 音声信号処理のためのマルチチャネル直接・環境分解のための装置及び方法

Publications (2)

Publication Number Publication Date
JP2016513814A JP2016513814A (ja) 2016-05-16
JP6385376B2 true JP6385376B2 (ja) 2018-09-05

Family

ID=49552336

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2015560567A Active JP6385376B2 (ja) 2013-03-05 2013-10-23 音声信号処理のためのマルチチャネル直接・環境分解のための装置及び方法
JP2017212311A Active JP6637014B2 (ja) 2013-03-05 2017-11-02 音声信号処理のためのマルチチャネル直接・環境分解のための装置及び方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2017212311A Active JP6637014B2 (ja) 2013-03-05 2017-11-02 音声信号処理のためのマルチチャネル直接・環境分解のための装置及び方法

Country Status (18)

Country Link
US (1) US10395660B2 (ja)
EP (1) EP2965540B1 (ja)
JP (2) JP6385376B2 (ja)
KR (1) KR101984115B1 (ja)
CN (1) CN105409247B (ja)
AR (1) AR095026A1 (ja)
AU (1) AU2013380608B2 (ja)
BR (1) BR112015021520B1 (ja)
CA (1) CA2903900C (ja)
ES (1) ES2742853T3 (ja)
HK (1) HK1219378A1 (ja)
MX (1) MX354633B (ja)
MY (1) MY179136A (ja)
PL (1) PL2965540T3 (ja)
RU (1) RU2650026C2 (ja)
SG (1) SG11201507066PA (ja)
TW (1) TWI639347B (ja)
WO (1) WO2014135235A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018036666A (ja) * 2013-03-05 2018-03-08 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 音声信号処理のためのマルチチャネル直接・環境分解のための装置及び方法

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US9502044B2 (en) 2013-05-29 2016-11-22 Qualcomm Incorporated Compression of decomposed representations of a sound field
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US9502045B2 (en) 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
CN105992120B (zh) 2015-02-09 2019-12-31 杜比实验室特许公司 音频信号的上混音
EP3067885A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding a multi-channel signal
ES2717330T3 (es) 2015-03-27 2019-06-20 Fraunhofer Ges Forschung Aparato y procedimiento para el procesamiento de señales estéreo para la reproducción en automóviles, para lograr un sonido tridimensional individual por los altavoces frontales
CN106297813A (zh) 2015-05-28 2017-01-04 杜比实验室特许公司 分离的音频分析和处理
WO2017055485A1 (en) 2015-09-30 2017-04-06 Dolby International Ab Method and apparatus for generating 3d audio content from two-channel stereo content
US9930466B2 (en) * 2015-12-21 2018-03-27 Thomson Licensing Method and apparatus for processing audio content
TWI584274B (zh) * 2016-02-02 2017-05-21 美律實業股份有限公司 具逆相位衰減特性之共腔體式背箱設計揚聲器系統的音源訊號處理方法及其裝置
CN106412792B (zh) * 2016-09-05 2018-10-30 上海艺瓣文化传播有限公司 对原立体声文件重新进行空间化处理并合成的系统及方法
GB201716522D0 (en) * 2017-10-09 2017-11-22 Nokia Technologies Oy Audio signal rendering
CN111656442A (zh) * 2017-11-17 2020-09-11 弗劳恩霍夫应用研究促进协会 使用量化和熵编码来编码或解码定向音频编码参数的装置和方法
EP3518562A1 (en) 2018-01-29 2019-07-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal processor, system and methods distributing an ambient signal to a plurality of ambient signal channels
EP3573058B1 (en) * 2018-05-23 2021-02-24 Harman Becker Automotive Systems GmbH Dry sound and ambient sound separation
WO2020037280A1 (en) 2018-08-17 2020-02-20 Dts, Inc. Spatial audio signal decoder
WO2020037282A1 (en) 2018-08-17 2020-02-20 Dts, Inc. Spatial audio signal encoder
CN109036455B (zh) * 2018-09-17 2020-11-06 中科上声(苏州)电子有限公司 直达声与背景声提取方法、扬声器系统及其声重放方法
EP3671739A1 (en) * 2018-12-21 2020-06-24 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Apparatus and method for source separation using an estimation and control of sound quality
EP3980993A1 (en) * 2019-06-06 2022-04-13 DTS, Inc. Hybrid spatial audio decoder
DE102020108958A1 (de) 2020-03-31 2021-09-30 Harman Becker Automotive Systems Gmbh Verfahren zum Darbieten eines ersten Audiosignals während der Darbietung eines zweiten Audiosignals
WO2023170756A1 (ja) * 2022-03-07 2023-09-14 ヤマハ株式会社 音響処理方法、音響処理システムおよびプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
US8036767B2 (en) * 2006-09-20 2011-10-11 Harman International Industries, Incorporated System for extracting and changing the reverberant content of an audio input signal
DE102006050068B4 (de) * 2006-10-24 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals aus einem Audiosignal, Vorrichtung und Verfahren zum Ableiten eines Mehrkanal-Audiosignals aus einem Audiosignal und Computerprogramm
EP2136358A4 (en) * 2007-03-16 2011-01-19 Panasonic Corp LANGUAGE ANALYSIS DEVICE, LANGUAGE ANALYSIS PROCEDURE, LANGUAGE ANALYSIS PROGRAM AND SYSTEM INTEGRATION CIRCUIT
RU2472306C2 (ru) * 2007-09-26 2013-01-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство и способ для извлечения сигнала окружающей среды в устройстве и способ получения весовых коэффициентов для извлечения сигнала окружающей среды
DE102007048973B4 (de) * 2007-10-12 2010-11-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung
JP5508550B2 (ja) * 2010-02-24 2014-06-04 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 拡張ダウンミックス信号を発生するための装置、拡張ダウンミックス信号を発生するための方法及びコンピュータプログラム
TWI459828B (zh) * 2010-03-08 2014-11-01 Dolby Lab Licensing Corp 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統
BR112015021520B1 (pt) 2013-03-05 2021-07-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V Aparelho e método para criar um ou mais sinais do canal de saída de áudio dependendo de dois ou mais sinais do canal de entrada de áudio

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018036666A (ja) * 2013-03-05 2018-03-08 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 音声信号処理のためのマルチチャネル直接・環境分解のための装置及び方法

Also Published As

Publication number Publication date
JP2016513814A (ja) 2016-05-16
JP6637014B2 (ja) 2020-01-29
BR112015021520B1 (pt) 2021-07-13
TW201444383A (zh) 2014-11-16
JP2018036666A (ja) 2018-03-08
HK1219378A1 (zh) 2017-03-31
CA2903900C (en) 2018-06-05
TWI639347B (zh) 2018-10-21
CA2903900A1 (en) 2014-09-12
BR112015021520A2 (pt) 2017-08-22
PL2965540T3 (pl) 2019-11-29
RU2650026C2 (ru) 2018-04-06
CN105409247B (zh) 2020-12-29
KR101984115B1 (ko) 2019-05-31
AU2013380608A1 (en) 2015-10-29
US10395660B2 (en) 2019-08-27
MY179136A (en) 2020-10-28
RU2015141871A (ru) 2017-04-07
EP2965540B1 (en) 2019-05-22
MX354633B (es) 2018-03-14
WO2014135235A1 (en) 2014-09-12
CN105409247A (zh) 2016-03-16
US20150380002A1 (en) 2015-12-31
KR20150132223A (ko) 2015-11-25
AU2013380608B2 (en) 2017-04-20
MX2015011570A (es) 2015-12-09
EP2965540A1 (en) 2016-01-13
ES2742853T3 (es) 2020-02-17
AR095026A1 (es) 2015-09-16
SG11201507066PA (en) 2015-10-29

Similar Documents

Publication Publication Date Title
JP6637014B2 (ja) 音声信号処理のためのマルチチャネル直接・環境分解のための装置及び方法
JP6100441B2 (ja) コンテンツ解析および重み付けを用いたバイノーラル室内インパルス応答によるフィルタリング
JP4964943B2 (ja) オーディオ入力信号の反響コンテンツを抽出および変更するためのシステム
US7412380B1 (en) Ambience extraction and modification for enhancement and upmix of audio signals
KR101989062B1 (ko) 오디오 신호를 향상시키기 위한 장치 및 방법 및 음향 향상 시스템
JP5906312B2 (ja) スペクトル重みジェネレータを使用する周波数領域処理を用いてステレオ録音を分解するための方法および装置
WO2012076332A1 (en) Apparatus and method for decomposing an input signal using a downmixer
JP6280983B2 (ja) 信号対ダウンミックス比に基づいたセンター信号スケーリング及び立体音響強調のための装置及び方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161206

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20170302

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20170501

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170605

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20171102

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20171122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171226

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20180320

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180621

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180710

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180807

R150 Certificate of patent or registration of utility model

Ref document number: 6385376

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250