JP2010507943A - 音声信号からアンビエント信号を生成するための装置および方法、音声信号からマルチチャンネル音声信号を導出するための装置および方法並びにコンピュータプログラム - Google Patents

音声信号からアンビエント信号を生成するための装置および方法、音声信号からマルチチャンネル音声信号を導出するための装置および方法並びにコンピュータプログラム Download PDF

Info

Publication number
JP2010507943A
JP2010507943A JP2009533720A JP2009533720A JP2010507943A JP 2010507943 A JP2010507943 A JP 2010507943A JP 2009533720 A JP2009533720 A JP 2009533720A JP 2009533720 A JP2009533720 A JP 2009533720A JP 2010507943 A JP2010507943 A JP 2010507943A
Authority
JP
Japan
Prior art keywords
signal
matrix
audio signal
representation
ambient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009533720A
Other languages
English (en)
Other versions
JP5048777B2 (ja
Inventor
クリスティアン ウーレ
ユールゲン ヘレ
アンドレーアス ワルサー
オリヴァー ヘルムート
クリスティアン ヤンセン
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2010507943A publication Critical patent/JP2010507943A/ja
Application granted granted Critical
Publication of JP5048777B2 publication Critical patent/JP5048777B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)

Abstract

音声信号からアンビエント信号を生成するための装置は、圧縮された音声信号を表す音声信号の圧縮表現を得るために、音声信号の表現の非可逆圧縮のための手段を含む。アンビエント信号を生成するための装置は、識別表現を得るために、音声信号の圧縮表現および音声信号の表現間の差を算出するための手段をさらに含む。装置は、識別表現を用いてアンビエント信号を提供するための手段をさらに含む。
音声信号からマルチチャンネル音声信号を導出するための装置は、音声信号からアンビエント信号を生成するための装置、フロントラウドスピーカ信号として音声信号を提供するための装置およびバックラウドスピーカ信号としてアンビエント信号を提供するための装置を含む。
【選択図】図1

Description

本発明は、一般に、音声信号からアンビエント信号を生成するための装置および方法、音声信号からマルチチャンネル音声信号を導出するための装置および方法、並びにコンピュータプログラムに関する。特に、本発明は、マルチチャンネルシステム上での再生のためのモノラル音声信号をアップミックスするための音声信号からアンビエント信号を算出するための方法および概念に関する。
以下に、本発明の基礎をなす動機が述べられる。現在、マルチチャンネル録音資料は、消費者の家庭環境においても人気が高まってきている。この主な理由は、DVDメディア上での映画がしばしば5.1マルチチャンネルサウンドを提供するということである。このために、ホームユーザでさえ、マルチチャンネル音声信号を再現することができる音声再生システムをたびたびインストールする。
対応するセットアップは、例えば、前方に配置される3つのラウドスピーカ(L,CおよびRで例示される)、後方にまたはリスナーの後ろに配置される2つのラウドスピーカ(LSおよびRSで示される)および1つの低周波効果チャンネル(LFEとも呼ばれる)からなる。前方に配置される3つのラウドスピーカ(L,C,R)は、以下においてフロントラウドスピーカとも呼ばれる。後方におよびリスナーの後ろに配置されるラウドスピーカ(LS,RS)は、以下においてバックラウドスピーカとも呼ばれる。
さらに、便宜上の理由で、以下の詳細および説明が5.1システムに言及する点に留意すべきである。もちろん、以下の詳細は、なされる小さい変更で、他のマルチチャンネルシステムにも適用することもできる。
マルチチャンネルシステム(例えば5.1マルチチャンネルオーディオシステム)は、2チャンネルステレオ再現に優るいくつかの周知の利点を提供する。これは、以下の利点によって例示される:
利点1:最適な(中央の)リスニングポジションと同等のポジションまたはその外で、改善されたフロントイメージの安定性。「スイートスポット」は、センターチャンネルによって広げられる。ターム「スイートスポット」は、最適なサウンド印象が(リスナーによって)知覚されるリスニングポジションのエリアを意味する。
利点2:コンサートホールの印象または体験のより良好な近似を確立すること。「包囲」および広大さのさらなる体験は、リアチャンネルラウドスピーカまたはバックチャンネルラウドスピーカによって得られる。
それにもかかわらず、2つの(「ステレオの」)音声チャンネルからなる大量のレガシー音声内容が、例えばコンパクトディスクにまだある。非常に古いレコード、古い映画およびテレビの連続番組でさえ、モノラル品質においておよび/または1チャンネル「モノラル」音声信号によって利用できるCDおよび/またはDVDで販売される。
したがって、5.1マルチチャンネルセットアップを介してモノラルのレガシー録音資料の再生のためのオプションがある:
オプション1:真のモノラルソースを得るために、センターを通してまたはセンターラウドスピーカを通してモノラルチャンネルの再現または再生。
オプション2:LおよびRラウドスピーカに優る(すなわちフロントレフトラウドスピーカおよびフロントライトラウドスピーカに優る)モノラル信号の再現または再生。
この方法は、リスナーがスイートスポットにおいてまたはそこに座る場合に、真のモノラルソースに比べてより広い知覚されたソース幅を有するがリスナーに最も近いラウドスピーカへの傾向を有するファントムモノラルソースを発生する。
この方法は、2チャンネル再生システムが利用できる場合に用いることができ、それは、拡張されたラウドスピーカセットアップ(例えば5つまたは6つのラウドスピーカを有するラウドスピーカセットアップ)を用いない。Cラウドスピーカまたはセンターラウドスピーカ、LSラウドスピーカまたはリアレフトラウドスピーカ、RSラウドスピーカまたはリアライトラウドスピーカおよびLFEラウドスピーカまたは低周波効果チャンネルラウドスピーカは、用いられないままである。
オプション3:ある方法は、モノラル信号のチャンネルを、5.1ラウドスピーカの全て(すなわち、5.1マルチチャンネルシステムに用いられる全部で6つのラウドスピーカ)を用いるマルチチャンネル信号に変換するために用いることができる。このように、マルチチャンネル信号は、マルチチャンネルセットアップの先に述べられた利点から利益を得る。この方法は、リアルタイムに若しくは「オンザフライ」でまたは前処理によって用いることができ、アップミックスプロセスまたは「アップミキシング」と呼ばれる。
オーディオ品質またはサウンド品質に関して、オプション3は、オプション1およびオプション2に優る利点を提供する。しかしながら、特にリアラウドスピーカに供給するために生成される信号に関して、必要な信号処理は明らかでない。
文献には、アップミックス方法またはアップミックスプロセスのための2つの異なる概念が記載される。これらの概念は、「直接/アンビエントの概念」および「バンドにおける概念」である。述べられた2つの概念は、以下に記載される。
直接/アンビエントの概念
「直接のサウンドソース」は、それらが元の2チャンネルバージョンのような同じ位置で知覚されるように、3つのフロントチャンネルを通して再現されまたは再生される。ここでターム「直接のサウンドソース」は、1つの個別のサウンドソース(例えば楽器)から唯一かつ直接に生じかつ例えば壁から反射することによるさらなるサウンドをほとんどあるいは全く示さない、サウンドを表すために用いられる。
このシナリオにおいて、リアラウドスピーカに供給されるサウンドまたはノイズは、アンビエンスのようなサウンドまたはアンビエンスのようなノイズ(元のレコードに存在してもよくまたは存在しなくてもよい)からなるべきである。アンビエンスのようなサウンドまたはアンビエンスのようなノイズは、1つの単一のサウンドソースまたはノイズソースと関連しないが、レコードの音響環境(室内音響学)の再現若しくは再生にまたはリスナーのいわゆる「包囲感覚」に貢献する。アンビエンスのようなサウンドまたはアンビエンスのようなノイズは、実演での観客からのさらなるサウンド若しくはノイズ(例えば拍手)、または、芸術的な意図によって追加される環境サウンドまたは環境ノイズ(例えばレコーディングノイズ、鳥の鳴き声、コオロギの鳴き声サウンド)である。
例として、図7は、(音声レコードの)元の2チャンネルバージョンを表す。図8は、直接/アンビエントの概念を用いるアップミックスされた演奏を示す。
バンドにおける概念
「バンドにおける概念」としばしば呼ばれるサラウンディング概念に従って、それぞれのサウンドまたはノイズは(直接のサウンドもアンビエントのノイズも)、リスナーの周囲に完全におよび/または任意に位置付けることができる。ノイズまたはサウンドの位置は、その特性(直接のサウンドまたは直接のノイズまたはアンビエントのサウンドまたはアンビエントのノイズ)から独立し、アルゴリズムの詳細設計およびそのパラメータの設定に依存する。
図9は、サラウンディング概念を表す。
要約すると、図7、図8および図9は、いくつかの再生概念を示す。ここで、図7、図8および図9は、リスナーがサウンドの源を知覚する場所を暗いプロットされたエリアとして表す。図7は、ステレオ再生中の音響知覚を表す。図8は、直接/アンビエントの概念を用いる音響知覚および/またはサウンド定位を表す。図9は、サラウンディング概念を用いるサウンド知覚および/またはサウンド定位を表す。
以下のセクションは、マルチチャンネルバージョンを形成するために1チャンネルまたは2チャンネル信号のアップミキシングに関して先行技術に優る概要を示す。文献は、1チャンネル信号およびマルチチャンネル信号をアップミックスするためのいくつかの方法を教える。
非信号適応法
いわゆる「擬似ステレオ」信号を生成するための大部分の方法は、非信号適応である。これは、信号の内容に関係なく、それらが同様にいかなるモノラル信号も処理することを意味する。これらのシステムは、生成された信号を非相関するために、単純なフィルタ構造および/または時間遅延でしばしば作動する。そのようなシステムの全般的概観は、例えば、非特許文献1に見つけることができる。
信号適応法
マトリクスデコーダ(例えば、非特許文献2に記載されるドルビープロロジックIIデコーダ、非特許文献3に記載されるDTS NEO:6デコーダ、または、非特許文献4に記載されるハーマン・カードン(Harman Kardon)/レキシコンロジック7デコーダ)は、現在販売されるあらゆるオーディオ/ビデオレシーバに包含される。それらの実際であるか意図された機能の副産物として、これらのマトリクスデコーダはブラインドアップミキシングを実行することができる。
言及されるデコーダは、マルチチャンネル出力信号を作り出すために、チャンネル間差および信号適応ステアリングメカニズムを用いる。
マルチチャンネルオーディオアップミキシングのためのステレオ信号からアンビエンスの抽出および合成
アベンダノ(Avendano)およびヨット(Jot)は、ステレオ音声信号においてアンビエンス情報を確認して抽出するために周波数ドメイン技術を提唱する(非特許文献5参照)。
その方法は、主に2チャンネル信号においてアンビエンス成分またはアンビエンス部分からなる時間周波数領域の決定を可能にするチャンネル間コヒーレンスインデックスおよび非線形マッピング関数を算出することに基づく。そして、アンビエンス信号は、マルチチャンネル再生システムのサラウンドチャンネルに供給するために、合成され用いられる。
ステレオサウンドをマルチチャンネルサウンドに変換する方法
イルワン(Irwan)およびアーツ(Aarts)は、信号をステレオ表現からマルチチャンネル表現に変換するための方法を示す(非特許文献6参照)。サラウンドチャンネルのための信号は、相互相関技術を用いて算出される。主成分分析(PCA)は、主要な信号の方向を示すベクトルを算出するために用いられる。そして、このベクトルは、3つのフロントチャンネルを生成するために、2チャンネル表現から3チャンネル表現にマップされる。
アンビエンスに基づくアップミキシング
ソーロドル(Soulodre)は、ステレオ信号からマルチチャンネル信号を生成するシステムを示す(非特許文献7参照)。信号は、いわゆる「個々のソースストリーム」および「アンビエンスストリーム」に分解される。これらのストリームに基づいて、いわゆる「エステティックエンジン(aesthetic engine)」は、マルチチャンネル出力を合成する。しかしながら、分解ステップおよび合成ステップに関するさらなる技術的な詳細は、示されていない。
空間キューに基づく擬似ステレオ音響
準信号適応の擬似ステレオプロセスは、非特許文献1にファラー(Faller)によって記載される。この方法は、同じ信号のモノラル信号および所定のステレオレコードを用いる。さらなる空間情報または空間キューは、ステレオ信号から抽出され、モノラル信号をステレオ信号に変換するために用いられる。
C.Faller、「擬似ステレオ音響再訪(Pseudostereophony Revisited)」、AESの第118回コンベンションで発表(Presented at the 118th Convention of the AES)、スペイン、バルセロナ、2005年 R.Dressler、「ドルビーサラウンドプロロジック2デコーダ−動作原理(Dolby Surround Prologic2Decoder−Principles of operation)」、2000年、技術レポート(Tech. Rep.)、ドルビーラボラトリーズ(Dolby Laboratories)、インターネット<URL:http://www.dolby.com/assets/pdf/tech library/208 Dolby Surround Pro Logic Decoder.pdf> DTS技術スタッフ、「DTS NEoの概要:6マルチチャンネル(An overview of DTS NEo:6 multi−channel)」、DTS、インターネット<URL:http://www.dts.com/media/uploads/pdfs/DTS%20Neo6%20Overview.pdf> Harman Kardon技術スタッフ、「ロジック7説明(Logic 7 explained)」、Harman Kardon、インターネット<URL:http://manuals.harman.com/HK/Technology%20Articles/logic7−TechSheet.pdf> C.AvendanoおよびJ.M.Jot、「マルチチャンネルオーディオアップミックスのためのステレオ信号からアンビエンスの抽出および合成(Ambience Extraction and Synthesis from Stereo Signals for Multi−channel Audio Upmix)」、IEEEの音響音声信号処理に関する国際会議(ICASSP)のプロシーディング、フロリダ州、オーランド、2002年5月 R.IrwanおよびR.M.Aarts、「ステレオをマルチチャンネルサウンドに変換する方法(A method to convert stereo to multi−channel sound)」、AES第19回国際会議で発表(Presented at the AES 19th International Conference)、ドイツ、シュロス エルマウ、2001年6月21日−24日、139−143頁 G.Soulodre、「アンビエンスに基づくアップミキシング(Ambience−Based Upmixing)」、ワークショップ サラウンドサウンドの空間符号化:プログレスレポート(Workshop Spatial Coding of Surround Sound:A Progress Report)、第117回AESコンベンションで発表(Presented at the 117th AES convention)、米国、カリファルニア州、サンフランシスコ、2004年 D.LeeおよびH.Seung、「負でないマトリクス因数分解によるオブジェクトの部分の学習(Learning the parts of objects by Non−negative Matrix Factorization)」、Letters To Nature、1999年 A.Cichocki,R.ZdunekおよびS.Amari、「ブラインドソース分離へのアプリケーションにおける負でないマトリクス因数分解のための新しいアルゴリズム(New algorithms for Non−negative Matrix Factorization in applications to Blind Source Separation)」、IEEEの音響音声信号処理に関する国際会議(ICASSP)のプロシーディング、2006年 D.LeeおよびH.Seung、「負でないマトリクス因数分解のためのアルゴリズム(Algorithms for Non−negative Matrix Factorization)」、NIPSのプロシーディング、2001年 C.Duxbury,M.Davies,M.Sandler、「マルチ解像度分析技術を用いた音楽的な音声における過渡情報の分離(Separation of transient information in musical audio using multiresolution analysis techniques)」、DAFX−01のプロシーディング、2001年 M.GoodwinおよびC.Avendano、「過渡検出および変更を用いた音声信号のエンハンスメント(Enhancement of Audio Signals Using Transient Detection and Modification)」、第117回AESコンベンションで発表(Presented at the 117th AES convention)、米国、カリファルニア州、サンフランシスコ、2004年 A.Walther,C.Janssen,J.HerreおよびO.Hellmuth、「アンビエンスのような信号における過渡抑制((Transient suppression in ambience−like signals)」、Patent FPL−Fallnummer:06F47242−IIS G.Kendall、「空間イメージにおける音声信号およびその影響の非相関(The decorrelation of audio signals and its impact on spatial imagery)」、Computer Music Journal、19:4、1995年 C.FallerおよびF.Baumgarte、「バイノーラルキュー符号化−パート2(Binaural Cue Coding−Part 2):Schemes and Applications、IEEE TSAP、2003年 C.Faller、「空間オーディオのパラメータ符号化(Parametric coding of spatial audio」、Phd thesis、2004年 M.Schroeder、「単一信号の使用から得られる人工的な立体音響効果(An artificial stereophonic effect obtained from using a single signal)」、JAES 6:74、1957年 G.PotardおよびI.Burnett、「3D音声ディスプレイにおいて見掛け上のサウンドソース幅のレンダリングのための非相関技術(Decorrelation techniques for the rendering of apparent sound source width in 3D audio displays)」、DAFX−04のプロシーディング、2004年
本発明の目的は、音声信号からアンビエント信号を生成するため概念および音声信号からマルチチャンネル音声信号を導出するための概念を提供することであり、それらの概念は、アンビエント信号が特に良好な聴覚印象を伝えるするように、1チャンネル信号においていかなる前の情報なしに1チャンネル信号からアンビエント信号の生成を可能にする。
この目的は、請求項1に記載の音声信号からアンビエント信号を生成するための装置、請求項20、27または28に記載の音声信号からマルチチャンネル音声信号を導出するための装置、請求項25に記載の音声信号からアンビエント信号を生成するための方法、請求項26、29または30に記載の音声信号からマルチチャンネル音声信号を導出するための方法、および請求項31に記載のコンピュータプログラムによって達成される。
本発明は、圧縮された音声信号を表す音声信号の圧縮表現を得るために、音声信号の表現の非可逆圧縮のための手段によって音声信号からアンビエント信号を生成するための装置を提供する。アンビエント信号を生成するための装置は、識別表現を得るために、音声信号の圧縮表現および音声信号の表現間の差を算出するための手段をさらに含む。アンビエント信号を生成するための装置は、識別表現を用いてアンビエント信号を提供するための手段をさらに含む。
アンビエント信号が、音声信号の元の表現の非可逆圧縮によって生成された音声信号の圧縮表現および音声信号の元の表現間の差を決定することによって特に効率的な方法で音声信号から生成され得ることは、本発明の主要な考えである。すなわち、非可逆圧縮の使用において、元の音声信号と非可逆圧縮によって元の音声信号から得られる非可逆圧縮における音声信号との間の差が、アンビエント信号、すなわち、例えば、ノイズのようなまたはアンビエンスのようなまたは非局在化可能な信号を実質的に表すことが示される。
換言すれば、非可逆圧縮を実行するときに、音声信号の圧縮表現は、局在化可能なサウンドイベントまたは直接のサウンドイベントを実質的に含む。これは、特に局在化可能なサウンドイベントが特に高エネルギーおよび特に特性波形を特徴とするという事実に基づく。したがって、局在化可能な信号は、圧縮表現が高エネルギーまたは特性波形の局在化可能な信号を実質的に含むように、非可逆圧縮によって処理されることが好ましい。
しかしながら、非可逆圧縮において、特にいかなる特性波形も典型的に示さない非局在化可能なアンビエント信号は、局在化可能な信号に比べて圧縮表現によってより少ない程度に示される。このように、非可逆圧縮の方法における音声信号の表現および音声信号の元の表現間の差が音声信号の非局在化可能な部分を実質的に表すことが認識される。さらに、音声信号の非可逆圧縮の方法における表現および音声信号の元の表現間の差をアンビエント信号として用いることが結果として特に良好な聴覚印象をもたらすことが認識される。
換言すれば、音声信号の非可逆圧縮が典型的に音声信号のアンビエント信号部分を組み込まないか非常に小さい程度にだけ組み込むことが認識され、したがって、特に音声信号の元の表現および音声信号の非可逆圧縮の方法における表現間の差は、音声信号のアンビエント信号部分によく近似する。したがって、請求項1によって定義される本発明の概念は、音声信号からアンビエント信号部分のブラインド抽出に適している。
本発明の概念は、アンビエント信号がいかなる追加の補助情報の存在なしで1チャンネル信号からも抽出することができるという点で特に有利である。さらに、本発明の概念は、アルゴリズム的に単純なステップ、すなわち非可逆圧縮を実行するステップおよび非可逆圧縮の方法における音声信号の表現および音声信号の元の表現間の差を算出するステップからなる。さらに、本発明の方法は、合成の音声効果がアンビエント信号に導入されないという点で有利である。したがって、アンビエント信号は、アンビエント信号を生成するための従来の方法との関連で生じるような残響が存在しない。さらに、本発明の方法において生成されるアンビエント信号は非可逆圧縮との関連におけるように聴覚印象を妨げるいかなる高エネルギー部分ももはや典型的に有しない点に留意すべきであり、そのような高エネルギー部分は、非可逆圧縮の方法における音声信号の表現に含まれ、したがって、非可逆圧縮の方法における表現および音声信号の元の表現間の差において生じないか非常にわずかに生じるだけである。
換言すれば、本発明によれば、アンビエント信号は、非可逆圧縮との関連で情報内容の表現のために重要でないと考えられるそれらの部分を正確に含む。しかしながら、この情報は背景ノイズを正確に表す。
したがって、本発明の概念は、非可逆圧縮を用いて局在化可能な情報および背景ノイズの一貫した分離を可能にし、非可逆圧縮によって抑制され除去されるべき背景ノイズは、アンビエント信号として働く。
本発明は、音声信号からフロントラウドスピーカ信号およびバックラウドスピーカ信号を含むマルチチャンネル音声信号を導出するための装置をさらに提供する。ここで、マルチチャンネル音声信号を導出するための装置は、上述にように音声信号からアンビエント信号を生成するための装置を含む。アンビエント信号を生成するための装置は、音声信号の表現を受信するように構成される。マルチチャンネル音声信号を導出するための装置は、フロントラウドスピーカ信号として音声信号またはそれから導出される信号を提供するための装置と、バックラウドスピーカ信号としてアンビエント信号を生成するための装置によって提供されるアンビエント信号またはそれから導出される信号を提供するためのバックラウドスピーカ信号提供装置とをさらに含む。換言すれば、マルチチャンネル音声信号を導出するための装置は、バックラウドスピーカ信号としてアンビエント信号を生成するための装置によって生成されるアンビエント信号を用いるが、マルチチャンネル音声信号を導出するための装置は、フロントラウドスピーカ信号としてまたはフロントラウドスピーカ信号の基礎として元の音声信号をさらに用いる。したがって、全体としてマルチチャンネル音声信号を導出するための装置は、1つの単一の元の音声信号に基づいて、マルチチャンネル音声信号のフロントラウドスピーカ信号およびバックラウドスピーカ信号の両方を生成することができる。したがって、元の音声信号は、フロントラウドスピーカ信号を提供するために用いられる(またはフロントラウドスピーカ信号を直接にさえ表す)が、元の音声信号の非可逆圧縮の方法における表現および元の音声信号の表現間の差は、バックラウドスピーカ信号を生成するために働く(またはバックラウドスピーカ信号として直接にさえ用いられる)。
さらに、本発明は、それらの機能性に関する限り、本発明の装置に対応する方法を提供する。
本発明は、本発明の方法を実現するコンピュータプログラムをさらに提供する。
本発明の好適な特に有利な実施形態は、添付の請求の範囲によって別に定義される。
以下に、本発明の好適な実施形態例が添付図面に関して述べられる。
図1は、本発明の実施形態による音声信号からアンビエント信号を生成するための本発明の装置のブロック図である。 図2は、本発明の実施形態による音声信号からアンビエント信号を生成するための本発明の装置のブロック図である。 図3は、本発明の実施形態による音声信号からアンビエント信号を生成するための本発明の装置の詳細なブロック図である。 図4aは、2つのマトリクスの積によるマトリクスの近似表現の例となる表現である。 図4bは、マトリクスXの略図である。 図5は、本発明の実施形態による音声信号からマルチチャンネル音声信号を導出するための本発明の装置のブロック図である。 図6は、本発明の実施形態による音声信号からアンビエント信号を作り出すための本発明の方法のフローチャートである。 図7は、ステレオ再生概念における聴覚印象の略図である。 図8は、直接/アンビエントの概念における聴覚印象の略図である。 図9は、サラウンディング概念における聴覚印象の略図である。
図1は、本発明の実施形態による音声信号からアンビエント信号を生成するための本発明の装置のブロック図を示す。
図1による装置は、その全体が100で示される。装置100は、基本的に任意に選択することができる表現における音声信号を受信するように構成される。換言すれば、装置100は、音声信号の表現を受信する。装置100は、音声信号または音声信号の表現の非可逆圧縮のための手段110を含む。手段110は、音声信号の表現108を受信するように構成される。手段110は、音声信号の(元の)表現108から音声信号の非可逆圧縮の方法における表現112を生成する。
装置100は、音声信号の非可逆圧縮の方法における音声信号の表現112および(元の)表現108間の差を算出するための手段120をさらに含む。したがって、手段120は、音声信号の非可逆圧縮の方法における表現112および音声信号の(元の)表現108を受信するように構成される。音声信号の(元の)表現108および音声信号の非可逆圧縮の方法における表現112に基づいて、手段120は、音声信号の(元の)表現108および音声信号の非可逆圧縮の方法における表現112間の差を表す識別表現122を算出する。
装置100は、識別表現122を用いておよび/またはそれに基づいておよび/またはそれの関数としてアンビエント信号132を提供するための手段130をさらに含む。
装置100の上述の構造記述に基づいて、装置100の動作が以下に簡単に記載される。装置100は、音声信号の表現108を受信する。手段110は、音声信号の非可逆圧縮の方法における表現112を生成する。手段120は、音声信号の表現108および音声信号の非可逆圧縮の方法における表現112間の差を表すおよび/または言及される差の関数である識別表現122を算出する。換言すれば、識別表現122は、表現108によって表される(元の)音声信号のそれらの信号部分を表し、それらの信号部分は、非可逆圧縮のための手段110による音声信号の非可逆圧縮の方法における表現112において、除去されるおよび/または再生されない。典型的に、手段110によって、正確に不規則な曲線を示すそれらの信号部分が、音声信号の非可逆圧縮の方法における表現112において、除去されるおよび/または再生されないので、識別表現122は、正確に不規則な曲線または不規則なエネルギー分布を有するそれらの信号部分、すなわち、例えば、ノイズのような信号部分を表す。典型的に、リスナーに特に重要である直接の部分および/または「局在化可能な信号部分」が、フロントラウドスピーカによって(「バック」ラウドスピーカによってではなく)再生されるので、識別表現122は、この事項に関して、音声再生の要件に適応する。このように、元の音声信号の直接の部分および/または局在化可能な部分は、実質的に破損されないように音声信号の非可逆圧縮の方法における表現112に含まれ、したがって、要求されるように識別表現122において実質的に抑制される。一方、音声信号の非可逆圧縮の方法における表現112において、不規則に分布されたエネルギーおよび/または少ない局在化可能性を有する情報部分は低減される。その理由は、非可逆圧縮において、非可逆圧縮のための手段110によって実行されるように、規則的に分布されたエネルギーのおよび/または高エネルギーを有する情報が音声信号の非可逆圧縮の方法における表現112に持ち越されるということであるが、不規則に分布されたエネルギーおよび/または低エネルギーを有する(元の)音声信号の部分は、減衰された形で音声信号の非可逆圧縮の方法における表現112にまたはわずかな程度だけに持ち越される。その結果、不規則なエネルギー分布を有する信号部分のおよび/または非可逆圧縮との関連で生じる音声信号の低エネルギー信号部分の減衰によって、識別表現122は、低エネルギー信号部分および/または不規則に分布されたエネルギーを有する信号部分の比較的大きい部分をまだ含む。それらが識別表現122によって表されるように、正確にエネルギーがあまり豊富でないこれらの信号部分および/または不規則に分布されたエネルギーを有する信号部分は、(バックラウドスピーカによる)再生において特に良好で快適な聴覚印象をもたらす情報を表す。
要約すれば、識別表現122において、規則的に分布されたエネルギー(すなわち、例えば、局在化可能な信号)を有する信号部分が抑制されまたは減衰されると述べることができる。それとは対照的に、識別表現122において、不規則に分布されたエネルギー(例えば非局在化可能な信号)を有する信号部分は、抑制されず減衰されない。したがって、識別表現において、不規則に分布されたエネルギーを有する信号部分は、規則的に分布されたエネルギーを有する信号部分と比較して、強調されまたは強められる。したがって、識別表現は、アンビエント信号として特に適している。
換言すれば、好適な実施形態において、時間周波数表現において繰り返して現れる全てのものは、非可逆圧縮によってよく近似される。
ここで、規則的なエネルギー分布は、例えば、時間周波数表現において繰り返し起こるパターンを生じるまたは時間周波数表現においてエネルギーの局所的な集中を生じるエネルギー分布であることを意味する。不規則なエネルギー分布は、例えば、時間周波数表現においていかなる繰り返して起こるパターンもエネルギーの局所的な集中も生じないエネルギー分布である。
換言すれば、好適な実施形態において、アンビエント信号は、(例えば時間周波数分布において構造化されていない)構造化されていないエネルギー分布を有する信号部分を実質的に含むが、音声信号の非可逆圧縮の方法における表現は、(例えば上述のように時間周波数表現において構造化された)構造化されたエネルギー分布を有する信号部分を実質的に含む。
したがって、識別表現122に基づいてアンビエント信号を提供するための手段130は、人間のリスナーの予想に特によく適応するアンビエント信号を提供する。
非可逆圧縮のための手段110は、例えば、MP3音声圧縮器、MP4音声圧縮器、ELP音声圧縮器またはSPR音声圧縮器であってもよい。
以下に図2および図3に関して、本発明の実施形態がより詳細に記載される。このために、図2は、本発明の実施形態による音声信号からアンビエント信号を生成するための本発明の装置のブロック図を示す。さらに、図3は、本発明の実施形態による音声信号からアンビエント信号を生成するための本発明の装置の詳細なブロック図を示す。その全体において、図2による装置が200で示され、さらに、その全体において、図3による装置が300で示される。
装置200は、例えば、時間表現x[n]の形で存在する入力信号208を受信するように構成される。入力信号208は、音声信号を典型的に表す。
手段200は、時間周波数分布プロバイダ210を含む。時間周波数分布プロバイダ210は、時間表現x[n]において存在する入力信号208から時間周波数分布(TFD)を生成するように構成される。時間周波数分布プロバイダ210は任意である点に留意すべきである。すなわち、時間周波数表現の表現212が、装置200の入力信号として働くこともでき、この場合、時間周波数分布の表現212に対して、時間信号として存在する入力信号208(x[n])の変換が、省略されてもよい。
時間周波数分布の表現212は、例えば、時間周波数分布マトリクスの形で存在してもよい点にさらに留意すべきである。例えば、以下にさらに詳細に説明されるマトリクスX(ω,k)、または他にマトリクス|X(ω,k)|が、時間周波数分布の表現212として働いてもよい点にさらに留意すべきである。
手段200は、近似手段220をさらに含み、それは、時間周波数分布の表現212を受信し、さらに、表現212と比較して典型的に非可逆圧縮される時間周波数表現212の近似表現222を生成するように構成される。換言すれば、時間周波数分布212の近似または近似表現222は、例えば以下にさらに詳細に記載されるように数値最適化法を用いて、近似のための手段220によって形成される。しかしながら、近似は、(音声信号の元の表現である)時間周波数分布の(元の)表現212と時間周波数分布の近似表現222との間の偏差を引き起こすと仮定される。本発明の1つの実施形態において、元の表現212と時間周波数分布の近似表現222との間の差は、近似のための手段220が非可逆近似を実行するように好ましくは構成されるという事実に基づき、エネルギーの規則的な分布を示すおよび/または大きい信号エネルギーを伝える信号部分は、近似表現に持ち越されることが好ましいが、比較的不規則に分布されたエネルギーおよび/または比較的より少ない信号エネルギーを示す信号部分は、規則的に分布されたエネルギーおよび/または大きい信号エネルギーを有する信号部分と比較して近似表現222において減衰されまたは弱められる。
装置200は、元の表現212および近似表現222間の差に基づいて、基本的に元の表現212および近似表現222間の差を表すおよび/または元の表現212および近似表現222間の差の関数である識別表現232を生成するために、時間周波数分布の元の表現212および時間周波数表現の近似表現222を受信するように構成される差決定器230をさらに含む。識別表現232の算出に関する詳細は、以下に説明される。
装置200は、再合成手段240をさらに含む。再合成手段240は、それに基づいて再合成信号242を生成するために、識別表現232を受信するように構成される。再合成手段240は、例えば、時間周波数分布の形で存在する識別表現232を時間信号242に変換するように構成されてもよい。
再合成手段240は、任意であり、例えば必要に応じて時間周波数分布の形で存在してもよい識別表現232の直接の再処理の場合に省略されてもよい点にさらに留意すべきである。
手段200は、マルチチャンネル音声信号をアセンブルするためのおよび/または後処理するための任意の手段250をさらに含む。手段250は、例えば、再合成のための手段240から再合成信号242を受信し、さらに、再合成信号242から(a1[n],・・・,ak[n]で示される)複数のアンビエント信号252,254を生成するように構成される。
複数のアンビエント信号252,254の生成は、以下にさらに詳細に説明される。
要約すれば、本発明がアンビエント信号の計算に実質的に関することが示される。図2のブロック図は、本発明の実施形態による本発明の概念および本発明の装置および本発明の方法の簡単な概要を提供するように働く。本発明の概念は、以下の通りに短く要約することができる。
入力信号208(x[n])の時間周波数分布212(TFD)は、時間周波数分布を決定するための(任意の)手段210において(任意に)計算される。計算は、以下にさらに詳細に説明される。入力信号208(x[n])の時間周波数分布212(TFD)の近似220は、例えば、以下にさらに詳細に記載される数値近似のための方法を用いて計算される。この計算は、例えば、近似のための手段220において実行することができる。入力信号208(x[n])の時間周波数分布212(TFD)およびその近似222(例えば差を算出するための手段230における)間の差異または差を計算することによって、アンビエント信号の時間周波数分布(TFD)の推定232が得られる。その結果、アンビエント信号の時間信号242の再合成が(例えば任意の再合成手段240において)実行される。再合成は、以下にさらに詳細に説明される。さらに、任意の使用は、(例えばアンビエント信号252,254からなる)導出されたマルチチャンネル信号の聴覚印象を改善するために、(例えばマルチチャンネル音声信号をアセンブルするためのおよび/または後処理するための任意の手段250において実現される)後処理からなる。任意の後処理も、以下にさらに詳細に説明される。
図2との関連で示される個々の処理ステップに関する詳細は、以下に説明される。その際に、音声信号からアンビエント信号を生成するための本発明の装置のより詳細なブロック図を示す図3も参照される。
図3による装置300は、例えば、時間連続入力信号x(t)の形でまたは時間離散入力信号x[n]の形で存在する入力信号308を受信するように構成される。それ以外では、入力信号308は、装置200の入力信号208に対応する。
装置300は、時間信号時間周波数分布コンバータ310をさらに含む。時間信号時間周波数分布コンバータ310は、入力信号308を受信し、さらに、時間周波数分布(TFD)の表現312を提供するように構成される。時間周波数分布の表現312は、それ以外では、装置200における時間周波数分布の表現212に実質的に対応する。以下において、時間周波数分布は、X(ω,k)でも示される点にさらに留意すべきである。
時間周波数分布X(ω,k)は装置300の入力信号であってもよい、すなわち、装置310は省略されてもよい点にさらに留意すべきである。装置300は、強度位相スプリッタ314をさらに(任意に)含む。強度位相スプリッタ314は、時間周波数分布312が(完全に実数でない)複素数値を採用できるときに、好ましくは用いられる。この場合、強度位相スプリッタ314は、時間周波数分布312に基づいて、時間周波数分布312の強度表現316および時間周波数分布312の位相表現318を提供するように好ましくは構成される。時間周波数分布312の強度表現は、別に、|X(ω,k)|でも示される。時間周波数分布312の強度表現316は、装置200における表現212に置換されてもよい点に留意すべきである。
時間周波数分布312の位相表現318の使用は、任意である点にさらに留意すべきである。時間周波数分布312の位相表現318も場合によってはφ(ω,k)で示される点にも留意すべきである。
時間周波数分布312の強度表現316がマトリクスの形で存在するとさらに仮定される。
Figure 2010507943
装置300は、強度表現316および近似322の両方を受信する差形成器330をさらに含む。さらに、差形成器330は、以下に記載される表現|A(ω,k)|に実質的に対応する識別表現332を提供する。それ以外では、識別表現332も、装置200における識別表現232に実質的に対応する点に留意すべきである。
装置300は、位相加算器334をさらに含む。位相加算器334は、識別表現332および位相表現318を受信し、さらに、位相表現318によって表されるように、識別表現332のエレメントに位相を加算する。したがって、位相加算器334は、A(ω,k)でも示される位相を備えている識別表現336を提供する。位相加算器334が省略される場合に、識別表現332が、例えば、位相を備えている識別表現336に置換されてもよいように、位相加算器334は任意と考えられる点に留意すべきである。それぞれの特定の場合に応じて、識別表現332と位相を備えている識別表現336との両方が識別表現232に対応されてもよい点にさらに留意すべきである。
装置300は、(任意の)時間周波数分布時間信号コンバータ340をさらに含む。(任意の)時間周波数分布時間信号コンバータ340は、位相を備えている識別表現336(あるいは:識別表現332)を受信し、さらに、アンビエント信号の時間ドメイン表現(または時間信号表現)を形成する(a(t)またはa[n]でも示される)時間信号342を提供するように構成される。
時間周波数分布時間信号コンバータ340は、図2による再合成手段240に実質的に対応する点にさらに留意すべきである。さらに、時間周波数分布時間信号コンバータ340によって提供される信号342は、装置200において示されるように、信号242に実質的に対応する。
入力信号の時間周波数分布
以下に、入力信号の時間周波数分布(TFD)、すなわち、例えば、表現212,312が算出される方法を記載する。時間周波数分布(TFD)は、時間および周波数の両方に対して時間信号(すなわち、例えば、入力信号208または入力信号308)の表現および/または説明である。時間周波数分布の多種多様な定式化(例えば、フィルターバンクまたは離散コサイン変換(DCT)を用いて)の中で、短時間フーリエ変換(STFT)は、時間周波数分布の計算のための柔軟で計算的に効率的な方法である。周波数ビンまたは周波数インデックスωと時間インデックスkとを有する短時間フーリエ変換(STFT)X(ω,k)は、離散時間信号x[n]の(すなわち、例えば、入力信号208,308の)窓が掛けられたデータセグメントの一連のフーリエ変換として計算される。したがって、以下が真である。
Figure 2010507943
ここで、w[n]は、窓関数を意味する。フレームインデックス(または時間インデックス)kに対するインデックスmの関係は、窓長と隣接する窓の重なりの量との関数である。
時間周波数分布(TFD)が、(例えば、短時間フーリエ変換(STFT)を用いる場合において)複素数値である場合、好適な実施形態において、さらなる計算が時間周波数分布(TFD)の係数の絶対値を用いて達成されてもよい。時間周波数分布(TFD)の係数の絶対値および/または強度は、|X(ω,k)|でも示される。この場合、位相情報φ(ω,k)=∠X(ω,k)は、後の使用のための再合成ステージに記憶される。装置300において、強度表現|X(ω,k)|は、316で示される点に留意すべきである。位相情報φ(ω,k)は、318で示される。
X(ω,k)は、それらが例えばSTFTによって得られるように、個々のフーリエ係数(一般に、時間周波数分布の個々の係数)を意味する点に留意すべきである。対照的に、X(ω,k)は、複数の係数(ω,k)を含むマトリクスを意味する。例えば、マトリクスX(ω,k1)は、ω´=1,2,・・・,nおよびk´=k1,k1+1,・・・,k1+m−1のための係数X(ω´,k´)を含む。ここで、nはマトリクスX(ω,k1)の第1の次元、例えば行の数であり、mはマトリクスX(ω,k1)の第2の次元である。このように、マトリクスX(ω,k1)のエレメントXi,jに対して、以下が真である。
i,j=X(ω=ωi,k=k1+j-1
ここで、以下が真である。
1≦j≦n
および
1≦i≦m
記載されているコンテクストは、別に、図4bに示される。
換言すれば、マトリクスX(ω,k)は、複数の時間周波数分布値X(ω,k)を含む。
以下において、|X|で示されるマトリクスの強度の計算は、別に示されない限り、エレメント的な強度形成を意味する点にさらに留意すべきである。
時間周波数分布(TFD)の近似
本発明との関連で、実施形態によれば、入力信号の時間周波数分布の近似は、数値最適化法を用いて計算される。時間周波数分布の近似および数値最適化法は、以下に記載される。
Figure 2010507943
別に、近似エラーは、距離関数または発散関数を用いて測定される。距離および発散間の差は、数学的な性質を持ち、2つのマトリックスA,B間の距離に対して以下が真であるという意味では距離が対照的であるという事実に基づく。
d(A,B)=d(B,A)
それとは対照的に、発散は、非対称であってもよい。
時間周波数分布の近似または以下に記載される時間周波数分布マトリクスX(k,ω)は、例えば、近似手段220またはマトリクス近似器320によって達成される点に留意すべきである。
負でないマトリクス因数分解(NMF)は、近似の計算のための適切な方法である点にさらに留意されるべきである。
負でないマトリクス因数分解(NMF)
以下に、負でないマトリクス因数分解が記載される。負でないマトリクス因数分解(NMF)は、2つのマトリックスW∈RnxrおよびH∈Rrxmの積として、負でないエレメントを有するマトリクスV∈Rnxmの近似である。ここで、マトリクスWのエレメントWi,kおよびマトリクスHのエレメントHi,kに対して、以下が真である。
i,k≧0、および
i,k≧0
換言すれば、マトリックスWおよびHは、以下が真であるように決定される。
Figure 2010507943
これをエレメント的に表して、以下が真である。
Figure 2010507943
Figure 2010507943
因子WおよびHは、近似のエラーを測定する費用関数c=f(V,WH)を最小化する最適化問題を解決することによって計算される。換言すれば、費用関数cは、近似、すなわちマトリックスVおよびWH間の距離(および/または発散)のエラーを測定する。2つのマトリックスAおよびB間の近似距離測度は、そのエレメント的な差におけるフロベニウスノルムDF(A,B)である(方程式3)。
Figure 2010507943
フロベニウスノルムは、相関のないガウス分布データに理想的である(非特許文献9参照)。換言すれば、費用関数cは、好適な実施形態において計算され、以下が真である。
Figure 2010507943
Figure 2010507943
さらに周知の誤差関数は、一般化カルバックライブラー(Kullback−Leibler)ダイバージェンス(GKLD)である(方程式4)。一般化カルバックライブラーダイバージェンス(GKLD)は、ポアソン分布(非特許文献9参照)または指数分布により関連し、したがって、音楽的な音声信号の量または強度スペクトルの近似にさらに適している。2つのマトリックスAおよびB間の一般化カルバックライブラーダイバージェンスの定義は、以下の通りである。
Figure 2010507943
それ以外では、AijおよびBijは、それぞれマトリックスAおよびBのエントリーまたはマトリクスエレメントである。
換言すれば、費用関数cは、以下の通りに選択することができる。
Figure 2010507943
以下には、近似マトリックスWおよびHのエントリーがどのようにして決定されるかの説明がある。傾斜降下として公知の単純な数値最適化法は、ステップサイズαおよび費用関数の傾斜∇f(x)を有する更新ルールおよび/または反復ルール
Figure 2010507943
を適用することによって費用関数f(x)の極小(または大域的最小点)に反復して接近する。
方程式(3)による費用関数を有する方程式(2)による最適化問題に対して、加算の更新ルールまたは反復ルールは、以下の方程式によって与えられる。
Figure 2010507943
本発明のアルゴリズムとの関連で、1つの実施形態において、以下が真である。
V=X(ω,k)
リー(Lee)およびスン(Seung)が方程式(8)および(9)による乗算の更新ルールまたは反復ルールを見つけまたは確認している点にさらに留意すべきである(非特許文献10参照)。さらに、リー(Lee)およびスン(Seung)は、乗算の更新ルールと傾斜降下およびその収束との関係を示している。乗算の更新ルールは、以下の通りである。
Figure 2010507943
また、1つの好適な実施形態において、以下が真である。
V=X(ω,k)
傾斜降下方法の速度およびロバスト性は、ステップサイズまたはステップ幅αの正しい選択に強く依存する。傾斜降下方法に優る乗算の更新ルールの1つの主たる利点は、ステップサイズまたはステップ幅の選択の独立性である。手順および方法は、実施しやすく、計算的に効率的であり、さらに、費用関数の極小を見つけることを保証する。
アンビエンス分離との関連で負でないマトリクス因数分解(NMF)
提示された方法との関連で、負でないマトリクス因数分解(NMF)は、入力音声信号x[n]の量または強度スペクトログラム|X(ω,k)|の近似を計算するために用いられる。それに関して、強度スペクトログラム|X(ω,k)|は、エレメント的な強度形成を実行することによってマトリクスX(ω,k)から導出される点に留意すべきである。換言すれば、|X(ω,k)|ijで示される|X(ω,k)|からインデックスi,jを有するエレメントに対して、以下が真である。
|X(ω,k)|ij=|X(ω,k)ij
ここで、X(ω,k)ijは、インデックスiおよびjを有するマトリクスX(ω,k)のエレメントを示す。|.|は、強度形成の演算を別に示す。
|X|の負でないマトリクス因数分解(NMF)は、因子WおよびHをもたらす。好適な実施形態において、40および100間の大きな因数分解ランクrは、信号長および信号内容に応じて、近似によって直接のサウンドまたは直接のノイズの十分な量を示すために必要である。
Figure 2010507943
しかしながら、好適な実施形態において、方程式10による結果は、以下において説明されるように直接に考慮されない。すなわち、上述の費用関数を最小化する近似に対して、方程式(10)の適用は、負の値および正の値の両方のエレメントを有する量または強度スペクトログラム|A|をもたらす。しかしながら、量または強度スペクトログラム|A|が正の値のエレメントだけを含む1つの実施形態において好ましいように、差|X|−WHの負の値のエレメントを扱う方法を用いることが好ましい。
いくつかの方法が、負のエレメントを扱うために用いられてもよい。負のエレメントを扱うための1つの単純な方法は、0および−1間に因子β(β=0,・・・−1)を有する負の値の乗算にある。換言すれば、−1≦β≦0である。ここで、β=0は半波整流に対応し、さらに、β=−1は全波整流に対応する。
アンビエント信号の強度スペクトログラムまたは振幅スペクトログラム|A|の計算のための一般的定式化は、以下の方程式によって与えられ、
Figure 2010507943
ここで、γ∈[−1,0]は一定である。
Figure 2010507943
Figure 2010507943
Figure 2010507943
最後に記載されている手順は、方程式(11)および(12)に関して記載されている手順と対照的に、マトリクス|A|の計算において、大量の直接のサウンドまたは直接のノイズがアンビエント信号において現れるという効果を含む点に留意すべきである。したがって、典型的に、方程式(11)および(12)との関連で記載されている手順が好ましい。
以下において記載されるように、マトリクス|A|を決定するためのさらなる第3の別の手順がさらにある。第3の別の方法は、ターム
|A|=|X|−WH
において負の値のエレメントの量または値に影響するために、境界拘束または境界条件を費用関数に加算することにある。
換言すれば、費用関数に関する境界拘束または境界条件の適切な選択は、できるだけ少ない負の値(あるいは、できるだけ少ない正の値)が、例えば、差|A|=|X|−WHにおいて生じることを達成するように働く。
換言すれば、マトリックスWおよびHのエントリーを決定するための最適化法は、言及される差が好ましくは正の値および/または比較的より少ない負の値(または逆も同様)を含むように適応される。
新しい費用関数
c=f(|X|,WH)
は、以下の通りに公式化される。
Figure 2010507943
ここで、εは、総費用における(または費用関数cの総価値における)境界拘束または境界条件の影響を決定する定数である。傾斜降下のための更新ルールおよび/または反復ルールは、(方程式14による)微分演算子∂c/∂Hおよび微分演算子∂c/∂Wを方程式(5)に代入することによって導出される。微分演算子∂c/∂Hおよび∂c/∂Wに対して、以下が真である。
Figure 2010507943
それ以外では、方程式(11)および(12)に関して記載されるような手順は、実施しやすいので好ましく、良好な結果を提供する点に留意すべきである。
要約すれば、異なる3つの方法が記載された上述のマトリクス|A|の決定は、例えば本発明の好適な実施形態において差決定手段230または差形成器330によって実行できることが示される。
時間信号の再構成
位相情報を備えている(また、336で示される)表現A(ω,k)がアンビエント信号の(また、332で示される)強度表現|A(ω,k)|からどのようにして得ることができるかの記載が続く。
アンビエント信号の複素スペクトログラムA(ω,k)は、方程式(16)によって算出され、入力信号308(また、x(t),(x[n])で示される)の時間周波数分布(TFD)Xの位相φ=∠Xを用いて算出される。
Figure 2010507943
ここで、φは、例えば、角度値のマトリクスである。換言すれば、時間周波数分布(TFD)Xの位相情報または角度情報は、エレメント的に量または強度表現|A|に加算される。換言すれば、行インデックスiおよび列インデックスjを有するエントリーまたはマトリクスエレメントAi,jに、行インデックスiおよび列インデックスjを有するエントリーまたはマトリクスエレメントXi,jの位相情報が、例えば強度1のそれぞれの複素数を有する乗算によって加算される。全体の結果は、位相情報(336で示される)を備えているアンビエント信号の表現A(ω,k)である。
そして、アンビエント信号a[n](またはアンビエント信号の時間離散表現あるいはアンビエント信号の時間連続表現)は、A(ω、k)を時間周波数分布(TFD)の計算の逆処理にかけることによって、位相情報を備えている表現A(ω,k)から(任意に)導出される。すなわち、位相情報を備えている表現A(ω,k)は、例えば、X(ω,k)に適用されるときに、時間信号xnをもたらす重なりおよび加算スキームを有する逆短時間フーリエ変換によって処理される。
記載されている手順は、それぞれ数秒間の長さの重なりセグメントに別に適用される。セグメントは、隣接するセグメント間の円滑な移行を確実にするためにハン窓を用いて窓が掛けられる。
最後に記載されているアンビエント信号の時間表現a[n]を導出するための手順は、例えば再合成のための手段240においてまたは時間周波数分布時間信号コンバータ340において達成できる点に留意すべきである。
マルチチャンネル音声信号のアセンブリ
5.0信号または5.0音声信号(すなわち、例えばフロントレフトチャンネル、フロントセンターチャンネル、フロントライトチャンネル、リアレフトチャンネルおよびリアライトチャンネルを含む音声信号)は、アンビエント信号をリアチャンネル(すなわち、例えば、少なくとも、リアレフトチャンネル、リアライトチャンネル、または、リアレフトチャンネルおよびリアライトチャンネルの両方)に供給することによって得られる。フロントチャンネル(すなわち、例えば、フロントレフトチャンネル、センターチャンネルおよび/またはフロントライトチャンネル)は、好適な実施形態において元の信号を再生する。ここで、例えば、ゲインパラメータおよび/またはラウドネスパラメータは、追加のセンターチャンネルが用いられるときに、全エネルギーが得られる(または実質的に変化しないままである)ことを確実にする。
さらに、アンビエント信号を生成するための記載されている概念がいかなるマルチチャンネルシステムおよびマルチチャンネル音声再生システムにおいて用いられてもよい点に留意すべきである。例えば、本発明の概念は、7.0システムにおいて(例えば3つのフロントラウドスピーカ、2つのサイドラウドスピーカおよび2つのバックラウドスピーカを有するシステムにおいて)用いられてもよい。このように、アンビエント信号は、例えば、一方または両方のサイドラウドスピーカおよび/または一方または両方のバックスピーカに供給されてもよい。
アンビエンスの分離後に(またはアンビエント信号を生成した後に)、さらなる処理が、高い知覚品質のマルチチャンネル音声信号を得るために任意に実行されてもよい。1つの単一のチャンネルからマルチチャンネル音声信号をアセンブルするときに、フロントイメージは、広大さの印象が加算される間に保存されることが好ましい。これは、例えば、アンビエント信号に数ミリ秒間の遅延を導入しまたは加算することによっておよび/またはアンビエント信号において過渡部分を抑制することによって達成される。さらに、リアラウドスピーカまたはバックラウドスピーカに供給する信号相互間でのおよび/またはフロントラウドスピーカに供給する信号に関しての非相関は、有利である。
過渡抑制および/またはピークまたは整定動作の抑制
過渡(および/またはピークまたは整定動作)の検出のためおよび過渡を操作するためのアルゴリズムが、例えばデジタル音声効果(非特許文献11および12参照)のためのおよびアップミキシング(非特許文献13参照)のためなどのさまざまな音声信号処理アプリケーションにおいて用いられる。
アップミキシングとの関連で過渡の抑制は、フロントイメージを維持することを目的としている。過渡ノイズまたは過度サウンドがアンビエント信号において現れるときに、(例えばリスナーによって)これらの過渡を生成するソースは、フロントにおいてローカライズされない。これは、望ましくない効果であり、「直接のサウンドソース」が、元の場合に比べてより広く(またはより拡げられて)現れ、または、さらに悪いことに、リスナーの後ろに独立した「直接のサウンドソース」として知覚される。
リアチャンネルまたはバックチャンネルの信号の非相関
文献には、ターム「非相関」は、(2以上の)出力信号が異なる波形を示すが入力信号と同様に聞こえるように、入力信号を操作するプロセスを表す(非特許文献14参照)。例えば、2つの類似のコヒーレント広帯域ノイズ信号が一対のラウドスピーカによって同時に再生されまたは示される場合、コンパクトな聴覚イベントが知覚される(非特許文献15参照)。2つのチャンネル信号の相関を減少することは、2つの別々のソースが知覚されるまで、サウンドソースまたはノイズソースの知覚された幅または拡張を増大する。2つの中央にされた信号xおよびy(すなわち、ゼロの平均値を有する信号)の相関は、方程式(17)
Figure 2010507943
によって表されるように、相関係数Rxyによってしばしば表される。
ここで、y*(k)は、y(k)の共役複素数を意味する。相関係数が信号xおよびy間の小さい遅延から独立していないので、2つの中央にされた信号xおよびy間の類似性の程度のための別の測度は、チャンネル間相関Γ(非特許文献15参照)によってまたはそれを用いて、または、チャンネル間コヒーレント(非特許文献16参照)によって定義される(方程式(18))。方程式(18)において、チャンネル間相関またはチャンネル間コヒーレントΓは、以下の通りに定義される。
Figure 2010507943
ここで、正規化相互相関rxyは、方程式(19)によって定義される。
Figure 2010507943
非相関プロセスの例としては、自然の残響およびいくつかの信号プロセッサ(フランジャー、コーラス、フェイザー、合成の残響)がある。
音声信号処理の分野における非相関の前の方法は、非特許文献17に記載される。ここで、2つの出力チャンネル信号は、入力信号と入力信号の遅延バージョンとの合計によって生成され、1つのチャンネルにおいて、遅延チャンネルの位相が反転される。
他の方法は、畳み込みによって非相関する信号を生成する。所定のまたは特定の相関測度を有する一対の出力信号は、所定の値に従って互いに相関する一対のパルスレスポンスを有する入力信号を畳み込むことによって生成される(非特許文献14参照)。
動的な(すなわち時間変化の)非相関は、時間変化の全域通過フィルタ、すなわち新しいランダムな位相応答が隣接する時間フレームに対して算出される全域通過フィルタを用いることによって得られる(非特許文献18および11参照)。
非特許文献18には、サブバンド方法が記載され、個々の周波数バンドにおける相関が、可変的に変えられる。
ここに記載されている本発明の方法との関連で、非相関は、アンビエント信号に印加される。5.1セットアップにおいて(すなわち、例えば6つのラウドスピーカを有するセットアップにおいて)(しかしながら、少なくとも2つのラウドスピーカを有する別のセットアップにおいても)、2つのリアまたはバックチャンネルに最終的に供給されるアンビエント信号は、少なくともある程度互いに関連して非相関することが好ましい。
本発明の方法の望ましい特性は、サウンドフィールド拡散(またはノイズフィールド拡散またはサウンドフィールド広がりまたはノイズフィールド広がり)および包囲である。
以下においてさらに図5に関して、音声信号からフロントラウドスピーカ信号およびリアラウドスピーカ信号を含むマルチチャンネル音声信号を導出するための装置が記載される。図5によるマルチチャンネル音声信号を導出するための装置は、その全体において500で示される。装置500は、音声信号508または音声信号の表現508を受信する。装置500は、アンビエント信号を生成するための装置510を含み、装置510は、音声信号508または音声信号の表現508を受信する。装置510は、アンビエント信号512を提供する。好適な実施形態において、装置510は、図1による装置100である点に留意すべきである。さらなる好適な実施形態において、装置510は、図2による装置200である。さらなる好適な実施形態において、装置510は、図3による装置300である。
時間ドメイン表現(または時間信号表現)の形でおよび/または時間周波数表現において存在するアンビエント信号512は、後処理手段520にさらに供給される。後処理手段520は、任意なものであり、例えば、アンビエント信号512に存在する過渡を低減しまたは除去するように構成されるパルスレデューサを含む。ここで、過渡は、所定の最大許容エッジ峻度よりも大きいエッジ峻度を示す高エネルギー信号部分である。さらに、過渡イベントは、別にアンビエント信号512の信号ピークであってもよく、それの振幅は一定の所定の最大振幅を超える。
さらに、後処理手段520は、アンビエント信号512を遅延する遅延器または遅延手段を(任意に)含んでもよい。したがって、後処理手段520は、後処理されたアンビエント信号522を提供し、例えば、過渡は、(元の)アンビエント信号512と比較して低減されまたは除去され、および/または、それは(元の)アンビエント信号512と比較して例えば遅延される。
後処理手段520が省略される場合、信号522は、信号512と同一であってもよい。
装置500は、コンバイナ530をさらに(任意に)含む。コンバイナを含む場合、コンバイナ530は、例えばバックラウドスピーカ信号532を提供し、それは、後処理されたアンビエント信号522と元の音声信号508の(任意に後処理された)バージョンとの組み合わせによって形成される。
任意のコンバイナ530が省略される場合、信号532は、信号522と同一であってもよい。装置500は、デコレレータ540をさらに(任意に)含み、それは、バックラウドスピーカ信号532を受信し、それに基づいて、少なくとも2つの非相関するバックラウドスピーカ信号542,544を供給する。第1のバックラウドスピーカ信号542は、例えば、リアレフトバックラウドスピーカのためのバックラウドスピーカ信号を表すことができる。第2のバックラウドスピーカ信号544は、例えば、リアライトバックラウドスピーカのためのバックラウドスピーカ信号を表すことができる。
最も単純な場合(例えば、後処理手段520、コンバイナ530およびデコレレータ540が省略される場合)において、例えば、装置510によって生成されるアンビエント信号512は、第1のバックラウドスピーカ信号542としておよび/または第2のバックラウドスピーカ信号544として用いられる。一般に、後処理手段520、コンバイナ530および/またはデコレレータ540を考慮して、装置510によって生成されるアンビエント信号512は、第1のバックラウドスピーカ信号542を生成するためにおよび/または第2バックラウドスピーカ信号544を生成するために考慮されると言うことができる。
したがって、本発明は、明示的に、第1のバックラウドスピーカ信号542としておよび/または第2のバックラウドスピーカ信号544として装置510によって生成されるアンビエント信号512を用いることを含む。
同様に、本発明は、明示的に、装置510によって生成されるアンビエント信号512を用いて第1のバックラウドスピーカ信号542および/または第2のバックラウドスピーカ信号544を生成することも含む。
装置は、さらに、任意に、追加として、第1のフロントラウドスピーカ信号、第2のフロントラウドスピーカ信号および/または第3のフロントラウドスピーカ信号を生成するように構成されてもよい。この目的のために、例えば、(元の)音声信号508は、後処理手段550に供給される。後処理手段550は、音声信号508を受信して処理し、さらに後処理された音声信号552を生成するように構成され、それは、例えば、コンバイナ530に(任意に)供給される。後処理手段が省略される場合、信号552は、信号508と同一であってもよい。信号552は、フロントラウドスピーカ信号を別に形成する。
好適な実施形態において、装置500は、フロントラウドスピーカ信号552を受信し、それに基づいて、第1のフロントラウドスピーカ信号562、第2のフロントラウドスピーカ信号564および/または第3のフロントラウドスピーカ信号566を生成するように構成される信号スプリッタ560を含む。第1のフロントラウドスピーカ信号562は、例えば、フロントレフトに位置するラウドスピーカのためのラウドスピーカ信号であってもよい。第2のフロントラウドスピーカ信号564は、例えば、フロントライトに位置するラウドスピーカのためのラウドスピーカ信号であってもよい。第3のフロントラウドスピーカ信号566は、例えば、フロントセンターに位置するラウドスピーカのためのラウドスピーカ信号であってもよい。
図6は、本発明の実施形態による本発明の方法のフローチャートを別に示す。図6による方法は、その全体において600で示される。方法600は、第1のステップ610を含む。第1のステップ610は、非可逆圧縮の方法における音声信号の表現を得るために、音声信号の(または音声信号の表現の)非可逆圧縮ステップを含む。方法600の第2のステップ620は、識別表現を得るために、音声信号の圧縮表現および音声信号の表現間の差を算出するステップを含む。
第3のステップ630は、識別表現を用いてアンビエント信号を提供するステップを含む。したがって、全体として、方法600は、音声信号からアンビエント信号の生成を可能にする。
ここで図6による本発明の方法600は、上述の本発明の装置によって実行されるそれらのステップによって補完することができる点に留意すべきである。このように、方法は、例えば、図1による装置100の機能、図2による装置200の機能、図3による装置300の機能および/または図5による装置500の機能を果たすために、修正および/または補完することができる。
換言すれば、本発明の装置および本発明の方法は、ハードウェアにおいてまたはソフトウェアにおいて実施することができる。実施は、それぞれの方法が実行されるプログラム可能なコンピュータシステムと協働する、電子的に読み取ることができる制御信号を有する、例えばフロッピー(登録商標)ディスク、CD、DVDまたはFLASHメモリなどのデジタル記憶媒体において達成することができる。そのため、本発明は、一般に、コンピュータプログラム製品がコンピュータ上で実行されるときに、機械で読み取り可能なキャリアに記憶された本発明の方法を実行するためのプログラムコードを有するコンピュータプログラム製品にある。したがって、換言すれば、本発明は、コンピュータプログラムがコンピュータ上で実行されるときにその方法を実行するためのプログラムコードを有するコンピュータプログラムとして実現することができる。
方法の概要
要約すれば、アンビエント信号は、入力信号から生成され、さらにリアチャンネルに供給されるといえる。ここで、概念は、表題「直接/アンビエントの概念」の下で記載されるように用いることができる。本発明の本質は、アンビエント信号の算出に関し、図2は、それがアンビエント信号を得るために用いることができるように、処理のブロック図を示す。
要約すれば、以下が示される。
入力信号の時間周波数分布(TFD)は、表題「入力信号の時間周波数分布」の下で述べられるように算出される。入力信号の時間周波数分布(TFD)の近似は、セクション「時間周波数分布の近似」に記載されるように、数値最適化の方法を用いて算出される。入力信号の時間周波数分布(TFD)およびその近似間の差異または差を算出することによって、アンビエント信号の時間周波数分布(TFD)の評価が得られる。評価は、|A|および/またはAでも示される。アンビエント信号の時間信号の再合成は、表題「時間信号の再構成」の下でのセクションにおいて別に説明される。さらに、後処理は、表題「マルチチャンネル音声信号のアセンブリ」の下で記載されるように、導出されたマルチチャンネル信号の聴覚印象を強めるために(任意に)用いられてもよい。
結論
要約すれば、本発明は、複数の1チャンネル音声信号から(または1つの1チャンネル音声信号から)アンビエント信号を分離するための方法および概念を表すといえる。導出されたアンビエント信号は、高いオーディオ品質を示す。それは、アンビエンス、すなわち反響、観客のノイズ、アンビエンスノイズまたは環境ノイズから生じるサウンドエレメントまたはノイズエレメントを含む。アンビエント信号において直接のサウンドまたは直接のノイズの量または音量は、非常に低いまたは感知しにくくさえある。
記載されている方法の成功の理由は、分かりやすく以下の通りに記載することができる。
直接のサウンドまたは直接のノイズの時間周波数分布(TFD)は、アンビエントノイズまたはアンビエントサウンドの時間周波数分布(TFD)に比べて一般によりまばらであるかまたはより低密度である。すなわち、直接のノイズまたは直接のサウンドのエネルギーは、アンビエントノイズまたはアンビエントサウンドのエネルギーに比べて、より少ないビンまたはマトリクスエントリーにおいてより集中する。したがって、近似は、直接のノイズまたは直接のサウンドを検出するが、アンビエントノイズまたはアンビエントサウンドを検出しない(または非常に小さい程度にだけ検出する)。あるいは、近似は、アンビエントノイズまたはアンビエントサウンドに比べてより大きい程度に直接のノイズまたは直接のサウンドを検出する。したがって、入力信号の時間周波数分布(TFD)およびその近似間の差異または差は、入力信号に存在する全てのアンビエントノイズおよび/またはアンビエントサウンドの時間周波数分布(TFD)の良好な表現である。
それにもかかわらず、本発明は、1つの1チャンネル信号または1つの2チャンネル信号から(または複数の1チャンネル信号または複数の2チャンネル信号から)複数のマルチチャンネル信号(または1つのマルチチャンネル信号)を算出する方法を含む。したがって、記載されている方法および概念の使用は、マルチ信号レンダリングの利点が維持されるように1つのマルチチャンネルシステム(または複数のマルチチャンネルシステム)における従来のレコードの演奏を可能にする。
さらに、本発明の方法では、好適な実施形態において、人工的な音声効果が用いられなく、さらに、サウンドおよび/または音声信号の操作が包囲および広大さだけに関する点に留意すべきである。元のサウンドまたは元のノイズのトーン着色がない。音声信号の作者によって意図される聴覚印象が維持される。
したがって、記載されている本発明の方法および概念は、周知の方法または概念のかなりの欠点を克服するといえる。導入部に記載されている信号適応法は、2チャンネル入力信号のチャンネル間差を算出することによってバックチャンネル信号(すなわちリアラウドスピーカのための信号)を算出する点に留意すべきである。したがって、これらの方法は、入力信号の両方のチャンネルが同一であるとき(すなわち、入力信号がデユアルのモノラル信号であるとき)または2つのチャンネルの信号がほぼ同一であるとき、オプション3によって入力信号からマルチチャンネル信号を生成することができない。
表題「空間キューに基づく擬似ステレオ音響」の下で記載されている方法は、同じ内容のマルチチャンネルバージョンまたは手入力で空間キューを生成する演算子を常に必要とする。したがって、記載される周知の方法は、リアルタイム対応の方法の1つにまたは同じ入力信号のマルチチャンネルバージョンが利用できないときに自動的に、用いることができない。
対照的に、ここに記載されている本発明の方法および概念は、信号においていかなる前の情報なしに1チャンネル信号からアンビエント信号を生成することができる。さらに、合成の音声オブジェクトまたは音声効果(例えば残響)が用いられない。
以下に、本発明の実施形態による本発明の概念のアプリケーションのためのパラメータの特に有利な選択が記載される。
換言すれば、以下に、モノラルアップミックスアプリケーションのためのアンビエンス分離方法のための最適パラメータ設定が記載される。さらに、パラメータのための最小値または最大値が与えら、それは、それらが機能するにもかかわらず、オーディオ品質および/または必要な処理負荷に関して最適な結果をもたらさない。
ここで、パラメータFFTサイズ(nfft)は、いくつの周波数バンドが処理されるかを表す。換言すれば、パラメータFFTサイズは、いくつの識別可能な周波数ω1からωnが存在するかを示す。したがって、パラメータFFTサイズは、マトリクスX(ω,k)の第1の次元(例えばマトリクス行の数)の大きさの測度でもある。換言すれば、好適な実施形態において、パラメータFFTサイズは、マトリクスX(ω,k)の行(または列)の数を表す。したがって、パラメータFFTサイズは、例えば値nに対応する。さらに、値FFTサイズも、いくつのサンプルがマトリクスXの1つの単一のエントリーXi,jの算出のために用いられるかを表す。換言すれば、入力信号の時間表現のnfft個のサンプルは、それに基づいてnfft個の異なる周波数ω1からωnfftのためのnfft個のスペクトル係数を算出するために用いられる。したがって、nfft個のサンプルに基づいて、マトリクスX(ω,k)の列が算出される。
そして、入力信号の考慮されたサンプルを定義する窓は、パラメータhopによって定義されるサンプルの数によって移動される。それから、移動された窓によって定義される入力信号のnfft個のサンプルは、フーリエ変換によってnfft個のスペクトル係数にマップされ、スペクトル係数は、マトリクスXの次の列を定義する。
マトリクスXの第1の列は、インデックス1からnfftを有する入力信号のサンプルのフーリエ変換によって形成することができると例示的にいえる。マトリクスXの第2の列は、インデックス1+hopからnfft+hopを有する入力信号のサンプルのフーリエ変換によって形成することができる。
パラメータセグメント長は、信号フレームの1つのセグメントの長さを示し、それのスペクトログラムは、因数分解される。換言すれば、パラメータセグメント長は、マトリクスXのエントリーを算出するために考慮される入力音声信号の持続時間の長さを表す。したがって、マトリクスXは、パラメータセグメント長(segLen)に等しい時間の入力時間信号を表す。
パラメータ因数分解ランクは、負でないマトリクス因数分解、すなわちパラメータrの因数分解ランクを表す。換言すれば、パラメータ因数分解ランクは、第1の近似マトリクスWの次元および第2の近似マトリクスHの次元の大きさを示す。
パラメータのための好ましい値は、以下の表において与えられる。
Figure 2010507943
さらなるパラメータとして、どのエラー測度cがNMFの算出のために用いられるかがさらに決定される。カルバックライブラーダイバージェンスの使用は、量または強度スペクトログラムが処理されるときに好ましい。他の距離測度は、対数で表されるスペクトログラム値(SPL)またはエネルギースペクトログラム値が処理されるときに、用いることができる。
さらに、好ましい値の範囲は、上述されている点に留意すべきである。本発明の方法を用いて、FFTサイズは、128から65,536までの範囲にあってもよい点に留意すべきである。hopサイズは、FFTサイズの1/64とFFTサイズとの間にあってもよい。セグメント長は、典型的に少なくとも0.1秒間に等しい。
簡単に要約すると、本発明は、音声信号からアンビエント信号を算出するための新しい概念または方法を含むといえる。導出されたアンビエント信号は、マルチチャンネルシステム上での再生のための音楽音声信号をアップミキシングするための特定の利点を持つ。他の方法と比較して記載されている本発明の概念または方法の1つの利点は、合成の音声効果を用いないで1チャンネル信号を処理する能力である。
さらに、本発明は、単純なシステムにおいて用いることもできる点に留意すべきである。システムは、1つのフロントラウドスピーカおよび1つのバックラウドスピーカだけが存在しおよび/またはアクティブであるように、考慮されてもよい。この場合、例えば、元の音声信号は、フロントラウドスピーカ上で再生することができる。元の音声信号から導出されるアンビエント信号は、バックラウドスピーカ上で再生することができる。換言すれば、元のモノラル音声信号は、1つのフロントラウドスピーカ上でのモノラル信号として再生することができるが、元の音声信号から導出されるアンビエント信号は、1つの単一のバックチャンネルとして再生される。
しかしながら、いくつかのチャンネルがある場合、それらは本発明の実施形態において個々に処理することができる。換言すれば、元の音声信号の第1のチャンネルは、第1のアンビエント信号を生成するために考慮され、さらに元の音声信号の第2のチャンネルは、第2のアンビエント信号を生成するために用いられる。そして、元の音声信号の第1のチャンネルは、例えば、第1のフロントラウドスピーカ(例えばフロントレフト)上で再生され、さらに元の音声信号の第2のチャンネルは、例えば、第2のフロントラウドスピーカ(例えばフロントライト)上で再生される。さらに、例えば、第1のアンビエント信号は、第1のバックラウドスピーカ(例えばリアレフト)上で再生されるが、第2のアンビエント信号は、例えば、第2のバックラウドスピーカ(例えばリアライト)上で再生される。
したがって、本発明は、記載されている方法において2つのフロントラウドスピーカ信号から2つのバックラウドスピーカ信号を生成するステップも含む。
さらなる実施態様において、元の音声信号は、3つのチャンネル、例えばフロントレフトチャンネル、フロントセンタータチャンネルおよびフロントライトチャンネルを含む。したがって、第1のアンビエント信号は、元の音声信号の第1のチャンネル(例えばフロントレフトチャンネル)から得られる。元の音声信号の第2のチャンネル(例えばフロントセンターチャンネル)から、第2のアンビエント信号が得られる。元の音声信号の第3のチャンネル(例えばフロントライトチャンネル)から、第3のアンビエント信号が(任意に)得られる。
そして、アンビエント信号の2つ(例えば第1のアンビエント信号および第2のアンビエント信号)は、第1のアンビエンスラウドスピーカ(例えばリアレフトラウドスピーカ)に供給される第1のアンビエンスラウドスピーカ信号を得るために、組み合される(例えば、重み付けられたまたは重み付けられていない合計によってミックスされまたは組み合される)。
任意に、さらに、2つのさらなるアンビエント信号(例えば第2のアンビエント信号および第3のアンビエント信号)は、第2のアンビエンスラウドスピーカ(例えばリアライトラウドスピーカ)に供給される第2のアンビエンスラウドスピーカ信号を得るために組み合される。
したがって、第1のアンビエンスラウドスピーカ信号は、それぞれが元のマルチチャンネル音声信号のチャンネルから形成されるアンビエント信号の第1の組み合わせによって形成され、第2のアンビエンスラウドスピーカ信号は、アンビエント信号の第2の組み合わせによって形成される。第1の組み合わせは、好ましくは少なくとも2つのアンビエント信号を含み、第2の組み合わせは、好ましくは少なくとも2つのアンビエント信号を含む。さらに、第1の組み合わせは、第2の組み合わせと異なることが好ましいが、第1の組み合わせおよび第2の組み合わせは、共通のアンビエント信号を用いることが好ましい。
さらに、本発明の方法において生成されるアンビエント信号は、例えばサイドラウドスピーカを含むラウドスピーカ装置が用いられる場合に、例えばサイドラウドスピーカに供給されてもよい点に留意すべきである。したがって、アンビエント信号は、7.1ラウドスピーカ装置の使用においてレフトサイドラウドスピーカに供給されてもよい。さらに、アンビエント信号は、ライトサイドラウドスピーカに供給されてもよく、好ましくはレフトサイドラウドスピーカに供給されるアンビエント信号は、ライドサイドラウドスピーカに供給されるアンビエント信号と異なる。
したがって、本発明は、全体として、1チャンネル信号からアンビエント信号の特に良好な抽出をもたらす。

Claims (31)

  1. Figure 2010507943
  2. Figure 2010507943
  3. 非可逆圧縮のための前記手段(110;220;320)は、前記音声信号(108;208;308;x(t);x[n])の前記スペクトル表現(108;212;316;|X|)として、前記音声信号のスペクトログラムを表す時間周波数分布マトリクス(|X|)を用いるように、さらに
    第1の近似マトリクス(W)および第2の近似マトリクス(H)の積(WH)によって前記時間周波数分布マトリクス(|X|)を近似するように構成される、請求項2に記載の装置(100;200;300;510)。
  4. 非可逆圧縮のための前記手段(110;220;320)は、前記音声信号(108;208;308;x(t);x[n])の前記スペクトル表現(108;212;316;|X|)として、前記音声信号のスペクトログラムを表す実数値の時間周波数分布マトリクス(|X|)を用いるように構成される、請求項3に記載の装置(100;200;300;510)。
  5. 非可逆圧縮のための前記手段(110;220;320)は、前記音声信号(108;208;308;x(t);x[n])の前記スペクトル表現(108;212;316;|X|)として、時間周波数分布マトリクス(|X|)を用いるように構成され、それのエントリー(X)は、複数の時間間隔に対して前記音声信号の複数の周波数ドメイン(ω)において振幅またはエネルギーを表す、請求項4に記載の装置(100;200;300;510)。
  6. 非可逆圧縮のための前記手段(110;220;320)は、前記音声信号(108;208;308;x(t);x[n])の前記スペクトル表現(108;212;316)として、排他的に負でないまたは排他的に正でないエントリーを含む時間周波数分布マトリクス(|X|)を用いるように構成される、請求項3ないし請求項5のいずれかに記載の装置(100;200;300;510)。
  7. 非可逆圧縮のための前記手段(110;220;320)は、
    前記第1の近似マトリクス(W)および前記第2の近似マトリクス(H)が排他的に負でないエントリーまたは排他的に正でないエントリーを有するように、または
    前記第1の近似マトリクス(W)が排他的に負でないエントリーを有し、さらに前記第2の近似マトリクス(H)が排他的に正でないエントリーを有するように、または
    前記第1の近似マトリクス(W)が排他的に正でないエントリーを有し、さらに前記第2の近似マトリクス(H)が排他的に負でないエントリーを有するように、
    前記第1の近似マトリクス(W)および前記第2の近似マトリクス(H)の積(WH)によって前記時間周波数分布マトリクスを近似するように構成される、請求項3ないし請求項6のいずれかに記載の装置(100;200;300;510)。
  8. 非可逆圧縮のための前記手段(110;220;320)は、一方では前記時間周波数分布マトリクス(|X|)と他方では前記第1の近似マトリクス(W)および前記第2の近似マトリクス(H)の前記積(WH)との間の差の定量的記述を含む費用関数(c)を評価することによって前記第1の近似マトリクス(W)のエントリーおよび前記第2の近似マトリクス(H)のエントリーを決定するように構成される、請求項3ないし請求項7のいずれかに記載の装置(100;200;300;510)。
  9. 非可逆圧縮のための前記手段(110;220;320)は、前記費用関数(c)の極値を決定するための方法を用いてまたは前記費用関数(c)の前記極値に近似のための方法を用いて前記第1の近似マトリクス(W)および前記第2の近似マトリクス(H)の前記エントリーを決定するように構成される、請求項8に記載の装置(100;200;300;510)。
  10. 前記費用関数(c)は、前記費用関数(c)が一方では前記時間周波数分布マトリクスのエントリー(|X|ij)と他方では前記第1の近似マトリクス(W)および前記第2の近似マトリクス(H)の前記積(WH)のエントリー((WH)ij)との間の差の符号に依存する部分を含むように選択される、請求項8または請求項9に記載の装置(100;200;300;510)。
  11. 前記費用関数(c)または非可逆圧縮のための前記手段の境界条件は、一方では前記時間周波数分布マトリクスのエントリー(|X|ij)と他方では前記第1の近似マトリクス(W)および前記第2の近似マトリクス(H)の前記積(WH)のエントリー((WH)ij)との間の差において、第1の符号の値がそれに対して逆の符号の値と比較して発生することが好ましいように選択される、請求項8、請求項9または請求項10に記載の装置(100;200;300;510)。
  12. 前記費用関数(c)は、一方では前記時間周波数分布マトリクス(|X|)と他方では前記第1の近似マトリクス(W)および前記第2の近似マトリクス(H)の前記積(WH)との間のエレメント的な差のフロベニウスノルムを決定するように構成される、請求項8ないし請求項11のいずれかに記載の装置(100;200;300,510)。
  13. 前記費用関数(c)は、一方では前記時間周波数分布マトリクス(|X|)と他方では前記第1の近似マトリクス(W)および前記第2の近似マトリクス(H)の前記積(WH)との間のエレメント的な差の一般化カルバックライブラーダイバージェンスを決定するように構成される、請求項8ないし請求項11のいずれかに記載の装置(100;200;300,510)。
  14. 前記時間周波数分布マトリクス(|X|)は、関連した第1のマトリクス次元nおよび関連した第2のマトリクス次元mを含み、
    前記第1の近似マトリクス(W)は、関連した第1のマトリクス次元nおよび関連した第2のマトリクス次元rを含み、
    前記第2の近似マトリクス(H)は、関連した第1のマトリクス次元rおよび関連した第2のマトリクス次元mを含み、さらに
    以下
    (n+m)r<nm
    が真である、請求項3ないし請求項13のいずれかに記載の装置(100;200;300,510)。
  15. 差を算出するための前記手段(120;230;330)は、近似エラーマトリクス(|A|)のエレメント(A)が一方では前記時間周波数分布マトリクス(|X|)のエレメントと他方では前記第1の近似マトリクス(W)および前記第2の近似マトリクス(H)の前記積(WH)のエレメント((WH)ij)との間の差の関数であるように近似エラーマトリクス(|A|)を導出するように構成され、
    前記近似エラーマトリクス(|A|)は、前記識別表現(122;232;332)を形成する、請求項3ないし請求項14のいずれかに記載の装置(100;200;300,510)。
  16. 差を算出するための前記手段(120;230;330)は、前記近似エラーマトリクス(|A|)の所定のエントリー(|A|ij)の算出において、一方では前記所定のエントリー(|A|ij)に関連する前記時間周波数マトリクス(|X|)のエントリー(|X|ij)と他方では前記所定のエントリー(|X|ij)に関連する前記第1の近似マトリクス(W)および前記第2の近似マトリクス(H)の前記積(WH)のエントリー((WH)ij)との間の差を決定するように、さらに前記差の前記符号に依存して前記差を重み付けることによって前記差の関数として前記近似エラーマトリクス(|A|)の前記所定のエントリー(|A|ij)を算出するように構成される、請求項15に記載の装置(100;200;300;510)。
  17. 算出するための前記手段(120;230;330)は、前記近似エラーマトリクス(|A|)の所定のエントリー(|A|ij)の算出において、一方では前記所定のエントリー(|A|ij)に関連する前記時間周波数マトリクス(|X|)のエントリー(|X|ij)と他方では前記所定のエントリー(|A|ij)に関連するものに等しくない重み係数(ξ)によって重み付けられる前記第1の近似マトリクス(W)および前記第2の近似マトリクス(H)の前記積(WH)のエントリー((WH)ij)との間の差を決定するように、さらに
    前記差の強度となる前記近似エラーマトリクス(|A|)の前記所定のエントリー(|A|ij)を決定するように構成される、請求項15に記載の装置(100;200;300;510)。
  18. Figure 2010507943
  19. 提供するための前記手段(130;240;334)は、前記時間周波数分布マトリクス(X)において得られる位相値(φ)を、前記実数値の品質測度(|A|)によって表される前記差に割り当てるように構成される、請求項18に記載の装置(100;200;300;510)。
  20. 音声信号(508)からフロントラウドスピーカ信号(562,564,566)およびバックラウドスピーカ信号(542,544)を含むマルチチャンネル音声信号を導出するための装置(500)であって、
    請求項1ないし請求項19のいずれかに記載の音声信号(508)からアンビエント信号(512)を生成するための装置(100;200;300;510)であって、前記アンビエント信号(512)を生成するための前記装置(510)は、前記音声信号(508)を受信するように構成される、装置、
    前記フロントラウドスピーカ信号(563,564,566)として前記音声信号(508)またはそれから導出される信号を提供するための装置(550,560)、および
    前記バックラウドスピーカ信号(542,544)として前記アンビエント信号(512)を生成するための前記装置(510)によって提供される前記アンビエント信号(512)またはそれから導出される信号を提供するためのバックラウドスピーカ信号提供装置(520,530,540)を含む、装置。
  21. 前記バックラウドスピーカ信号提供装置(520,530,540)は、前記バックラウドスピーカ信号が前記フロントラウドスピーカ信号(562,564,566)と比較して1ミリ秒および50ミリ秒間の範囲において遅延するように、前記バックラウドスピーカ信号(542,544)を生成するように構成される、請求項20に記載の装置(500)。
  22. 前記バックラウドスピーカ信号提供装置(520,530,540)は、前記バックラウドスピーカ信号(542,544)においてパルスのような信号部分を減衰するようにまたは前記バックラウドスピーカ信号(542,544)から前記パルスのような信号部分を除去するように構成される、請求項20または請求項21に記載の装置(500)。
  23. 前記バックラウドスピーカ信号提供装置(520,530,540)は、前記アンビエント信号(512)を生成するための前記装置(510)によって提供される前記アンビエント信号に基づいて、第1のバックラウドスピーカのための第1のバックラウドスピーカ信号(542)および第2のバックラウドスピーカのための第2のバックラウドスピーカ信号(544)を提供するように構成される、請求項20ないし請求項22のいずれかに記載の装置(500)。
  24. 前記バックラウドスピーカ信号提供装置(520,530,540)は、前記第1のバックラウドスピーカ信号および前記第2のバックラウドスピーカ信号が少なくとも部分的に互いに非相関するように、前記アンビエント信号(512)に基づいて前記第1のバックラウドスピーカ信号(542)および前記第2のバックラウドスピーカ信号(544)を提供するように構成される、請求項23に記載の装置(500)。
  25. 音声信号(108;208;308)からアンビエント信号(132;242;252;254;336;342)を生成するための方法(600)であって、
    前記音声信号の圧縮表現(112;222;322)を得るために、前記音声信号の表現(108;212;316)の非可逆圧縮ステップ(610)、
    識別表現(122;232;332)を得るために、前記音声信号の前記圧縮表現および前記音声信号の前記表現間の差(122;232;332)を算出するステップ(620)、および
    前記識別表現を用いて前記アンビエント信号を提供するステップ(630)を含む、方法。
  26. 音声信号からフロントラウドスピーカ信号およびバックラウドスピーカ信号を含むマルチチャンネル音声信号を導出するための方法であって、
    請求項25に記載の前記音声信号から前記アンビエント信号を生成するステップ、
    前記フロントラウドスピーカ信号として前記音声信号またはそれから導出される信号を提供するステップ、および
    前記バックラウドスピーカ信号として前記アンビエント信号またはそれから導出される信号を提供するステップを含む、方法。
  27. Figure 2010507943
  28. Figure 2010507943
  29. 音声信号からフロントラウドスピーカ信号およびバックラウドスピーカ信号を含むマルチチャンネル音声信号を導出するための方法であって、
    前記音声信号から前記アンビエント信号を生成するステップを含み、前記音声信号から前記アンビエント信号を前記生成するステップは、
    前記音声信号の圧縮表現(112;222;322)を得るために、前記音声信号の圧縮表現(108;212;316)の非可逆圧縮ステップ(610)、および
    前記アンビエント信号を形成する識別表現(122;232;332)を得るために、前記音声信号の前記圧縮表現および前記音声信号の前記表現間の差(122;232;332)を算出するステップ(620)を含み、
    前記識別表現は、前記音声信号の前記表現および前記音声信号の前記圧縮表現間の前記差を表し、さらに
    前記識別表現は、非可逆圧縮の方法における前記表現において再生されない前記音声信号のそれらの部分を表し、さらに
    前記非可逆圧縮ステップは、エネルギーの規則的な分布を示すまたは大きい信号エネルギーを伝える信号部分が前記圧縮表現に含まれることが好ましいように実行され、前記マルチチャンネル音声信号を導出するための方法は、
    前記フロントラウドスピーカ信号として前記音声信号またはそれから導出される信号を提供するステップ、および
    前記バックラウドスピーカ信号として前記アンビエント信号またはそれから導出される信号を提供するステップを含む、方法。
  30. 音声信号からフロントラウドスピーカ信号およびバックラウドスピーカ信号を含むマルチチャンネル音声信号を導出するための方法であって、
    前記音声信号から前記アンビエント信号を生成するステップを含み、前記音声信号から前記アンビエント信号を前記生成するステップは、
    前記音声信号の圧縮表現(112;222;322)を得るために、前記音声信号の表現(108;212;316)の非可逆圧縮ステップ(610)、
    識別表現(122;232;332)を得るために、前記音声信号の前記圧縮表現および前記音声信号の前記表現間の差(122;232;332)算出するステップ(620)、および
    前記識別表現を用いて前記アンビエント信号を提供するステップ(630)を含み、
    前記識別表現は、前記音声信号の前記表現および前記音声信号の前記圧縮表現間の前記差を表し、さらに
    前記識別表現は、非可逆圧縮の方法における前記表現において再生されない前記音声信号のそれらの部分を表し、さらに
    前記非可逆圧縮ステップは、エネルギーの規則的な分布を示すまたは大きい信号エネルギーを伝える信号部分が前記圧縮表現に含まれることが好ましいように実行され、前記マルチチャンネル音声信号を導出するための方法は、
    前記フロントラウドスピーカ信号として前記音声信号またはそれから導出される信号を提供するステップ、および
    前記バックラウドスピーカ信号として前記アンビエント信号またはそれから導出される信号を提供するステップを含む、方法。
  31. コンピュータ上で実行されるときに、請求項25または請求項26または請求項29または請求項30に記載の方法を実行するためのコンピュータプログラム。
JP2009533720A 2006-10-24 2007-10-23 音声信号からアンビエント信号を生成するための装置および方法、音声信号からマルチチャンネル音声信号を導出するための装置および方法並びにコンピュータプログラム Active JP5048777B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102006050068A DE102006050068B4 (de) 2006-10-24 2006-10-24 Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals aus einem Audiosignal, Vorrichtung und Verfahren zum Ableiten eines Mehrkanal-Audiosignals aus einem Audiosignal und Computerprogramm
DE102006050068.7 2006-10-24
PCT/EP2007/009197 WO2008049587A1 (en) 2006-10-24 2007-10-23 Apparatus and method for generating an ambient signal from an audio signal, apparatus and method for deriving a multi-channel audio signal from an audio signal and computer program

Publications (2)

Publication Number Publication Date
JP2010507943A true JP2010507943A (ja) 2010-03-11
JP5048777B2 JP5048777B2 (ja) 2012-10-17

Family

ID=38988087

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009533720A Active JP5048777B2 (ja) 2006-10-24 2007-10-23 音声信号からアンビエント信号を生成するための装置および方法、音声信号からマルチチャンネル音声信号を導出するための装置および方法並びにコンピュータプログラム

Country Status (13)

Country Link
US (1) US8346565B2 (ja)
EP (2) EP1997102B1 (ja)
JP (1) JP5048777B2 (ja)
KR (1) KR101090565B1 (ja)
CN (1) CN101536085B (ja)
AU (1) AU2007308413B2 (ja)
CA (1) CA2664163C (ja)
DE (1) DE102006050068B4 (ja)
ES (2) ES2391308T3 (ja)
HK (2) HK1122391A1 (ja)
PL (2) PL1997102T3 (ja)
TW (1) TWI352971B (ja)
WO (1) WO2008049587A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011530913A (ja) * 2008-08-13 2011-12-22 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 空間出力マルチチャネルオーディオ信号を決定する装置
JP2013517687A (ja) * 2010-01-22 2013-05-16 ドルビー ラボラトリーズ ライセンシング コーポレイション マルチチャネル脱相関を使った改善されたマルチチャネル上方混合

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2097895A4 (en) 2006-12-27 2013-11-13 Korea Electronics Telecomm DEVICE AND METHOD FOR ENCODING AND DECODING MULTI-OBJECT AUDIO SIGNAL WITH DIFFERENT CHANNELS WITH INFORMATION BIT RATE CONVERSION
US20080228470A1 (en) * 2007-02-21 2008-09-18 Atsuo Hiroe Signal separating device, signal separating method, and computer program
EP2220646A1 (en) * 2007-11-06 2010-08-25 Nokia Corporation Audio coding apparatus and method thereof
US20100250260A1 (en) * 2007-11-06 2010-09-30 Lasse Laaksonen Encoder
WO2009059633A1 (en) * 2007-11-06 2009-05-14 Nokia Corporation An encoder
KR101271972B1 (ko) * 2008-12-11 2013-06-10 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 다채널 오디오 신호를 생성하기 위한 장치
EP2382799A1 (en) * 2008-12-23 2011-11-02 Koninklijke Philips Electronics N.V. Speech capturing and speech rendering
BR112012008257A2 (pt) * 2009-10-09 2017-06-06 Dts Inc método para condicionamento de um sinal de áudio, e, aparelho de processamento de sinal de áudio
WO2011060816A1 (en) * 2009-11-18 2011-05-26 Nokia Corporation Data processing
WO2011090437A1 (en) * 2010-01-19 2011-07-28 Nanyang Technological University A system and method for processing an input signal to produce 3d audio effects
EP2543199B1 (en) * 2010-03-02 2015-09-09 Nokia Technologies Oy Method and apparatus for upmixing a two-channel audio signal
US9219972B2 (en) * 2010-11-19 2015-12-22 Nokia Technologies Oy Efficient audio coding having reduced bit rate for ambient signals and decoding using same
US20120316886A1 (en) * 2011-06-08 2012-12-13 Ramin Pishehvar Sparse coding using object exttraction
EP2544466A1 (en) 2011-07-05 2013-01-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for decomposing a stereo recording using frequency-domain processing employing a spectral subtractor
WO2013093569A1 (en) 2011-12-23 2013-06-27 Nokia Corporation Audio processing for mono signals
MX343564B (es) * 2012-09-12 2016-11-09 Fraunhofer Ges Forschung Aparato y metodo para proveer funciones mejoradas de mezcla guiada para audio 3d.
EP2965540B1 (en) 2013-03-05 2019-05-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for multichannel direct-ambient decomposition for audio signal processing
US9788119B2 (en) * 2013-03-20 2017-10-10 Nokia Technologies Oy Spatial audio apparatus
CN104240711B (zh) * 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、系统和装置
EP2830336A3 (en) * 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Renderer controlled spatial upmix
JP6242489B2 (ja) * 2013-07-29 2017-12-06 ドルビー ラボラトリーズ ライセンシング コーポレイション 脱相関器における過渡信号についての時間的アーチファクトを軽減するシステムおよび方法
EP2866227A1 (en) * 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
DE102013223201B3 (de) * 2013-11-14 2015-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Komprimieren und Dekomprimieren von Schallfelddaten eines Gebietes
US10002622B2 (en) * 2013-11-20 2018-06-19 Adobe Systems Incorporated Irregular pattern identification using landmark based convolution
US9351060B2 (en) 2014-02-14 2016-05-24 Sonic Blocks, Inc. Modular quick-connect A/V system and methods thereof
MX363415B (es) 2014-07-22 2019-03-22 Huawei Tech Co Ltd Un metodo y aparato para manipular una señal de audio de entrada.
EP2980789A1 (en) 2014-07-30 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhancing an audio signal, sound enhancing system
US9576583B1 (en) * 2014-12-01 2017-02-21 Cedar Audio Ltd Restoring audio signals with mask and latent variables
WO2016087583A1 (en) * 2014-12-03 2016-06-09 Meridian Audio Limited Non linear filter with group delay at pre-response frequency for high res audio
JP6519959B2 (ja) * 2017-03-22 2019-05-29 カシオ計算機株式会社 操作処理装置、再生装置、操作処理方法およびプログラム
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
BR112021010956A2 (pt) * 2018-12-07 2021-08-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparelho e método para gerar uma descrição de campo de som
CN109597342B (zh) * 2019-01-16 2020-10-20 郑州轻工业学院 一种动态组网智能辨识的采砂船监测装置及方法
US11579838B2 (en) 2020-11-26 2023-02-14 Verses, Inc. Method for playing audio source using user interaction and a music application using the same
KR102401549B1 (ko) * 2020-11-26 2022-05-24 주식회사 버시스 사용자의 인터랙션을 이용한 오디오 소스 재생 방법 및 이를 이용한 음악 어플리케이션
US11575998B2 (en) 2021-03-09 2023-02-07 Listen and Be Heard LLC Method and system for customized amplification of auditory signals based on switching of tuning profiles
US11432078B1 (en) 2021-03-09 2022-08-30 Listen and Be Heard LLC Method and system for customized amplification of auditory signals providing enhanced karaoke experience for hearing-deficient users

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004289196A (ja) * 2002-03-08 2004-10-14 Nippon Telegr & Teleph Corp <Ntt> ディジタル信号符号化方法、復号化方法、符号化装置、復号化装置及びディジタル信号符号化プログラム、復号化プログラム
JP2005004119A (ja) * 2003-06-16 2005-01-06 Victor Co Of Japan Ltd 音響信号符号化装置及び音響信号復号化装置
JP2005049869A (ja) * 2003-07-23 2005-02-24 Mitsubishi Electric Research Laboratories Inc 非定常信号の成分を検出する方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE467332B (sv) * 1990-06-21 1992-06-29 Ericsson Telefon Ab L M Foerfarande foer effektreglering i ett digitalt mobiltelefonisystem
UA51671C2 (uk) 1995-09-02 2002-12-16 Нью Транзд'Юсез Лімітед Акустичний пристрій
TW411723B (en) * 1996-11-15 2000-11-11 Koninkl Philips Electronics Nv A mono-stereo conversion device, an audio reproduction system using such a device and a mono-stereo conversion method
US6229453B1 (en) * 1998-01-26 2001-05-08 Halliburton Energy Services, Inc. Method to transmit downhole video up standard wireline cable using digital data compression techniques
US7076071B2 (en) * 2000-06-12 2006-07-11 Robert A. Katz Process for enhancing the existing ambience, imaging, depth, clarity and spaciousness of sound recordings
US7257231B1 (en) * 2002-06-04 2007-08-14 Creative Technology Ltd. Stream segregation for stereo signals
US7738881B2 (en) * 2003-07-22 2010-06-15 Microsoft Corporation Systems for determining the approximate location of a device from ambient signals
US7412380B1 (en) * 2003-12-17 2008-08-12 Creative Technology Ltd. Ambience extraction and modification for enhancement and upmix of audio signals
CN1677491A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
JP3916087B2 (ja) * 2004-06-29 2007-05-16 ソニー株式会社 疑似ステレオ化装置
US7876909B2 (en) * 2004-07-13 2011-01-25 Waves Audio Ltd. Efficient filter for artificial ambience
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
WO2006079086A2 (en) * 2005-01-24 2006-07-27 Thx, Ltd. Ambient and direct surround sound system
EP1927102A2 (en) * 2005-06-03 2008-06-04 Dolby Laboratories Licensing Corporation Apparatus and method for encoding audio signals with decoding instructions
US7965848B2 (en) * 2006-03-29 2011-06-21 Dolby International Ab Reduced number of channels decoding
US9088855B2 (en) * 2006-05-17 2015-07-21 Creative Technology Ltd Vector-space methods for primary-ambient decomposition of stereo audio signals

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004289196A (ja) * 2002-03-08 2004-10-14 Nippon Telegr & Teleph Corp <Ntt> ディジタル信号符号化方法、復号化方法、符号化装置、復号化装置及びディジタル信号符号化プログラム、復号化プログラム
JP2005004119A (ja) * 2003-06-16 2005-01-06 Victor Co Of Japan Ltd 音響信号符号化装置及び音響信号復号化装置
JP2005049869A (ja) * 2003-07-23 2005-02-24 Mitsubishi Electric Research Laboratories Inc 非定常信号の成分を検出する方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011530913A (ja) * 2008-08-13 2011-12-22 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 空間出力マルチチャネルオーディオ信号を決定する装置
JP2012070414A (ja) * 2008-08-13 2012-04-05 Fraunhofer Ges Zur Foerderung Der Angewandten Forschung Ev 空間出力マルチチャネルオーディオ信号を決定する装置
US8824689B2 (en) 2008-08-13 2014-09-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus for determining a spatial output multi-channel audio signal
US8855320B2 (en) 2008-08-13 2014-10-07 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus for determining a spatial output multi-channel audio signal
US8879742B2 (en) 2008-08-13 2014-11-04 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus for determining a spatial output multi-channel audio signal
JP2013517687A (ja) * 2010-01-22 2013-05-16 ドルビー ラボラトリーズ ライセンシング コーポレイション マルチチャネル脱相関を使った改善されたマルチチャネル上方混合
US9269360B2 (en) 2010-01-22 2016-02-23 Dolby Laboratories Licensing Corporation Using multichannel decorrelation for improved multichannel upmixing

Also Published As

Publication number Publication date
PL2500900T3 (pl) 2014-08-29
ES2461191T3 (es) 2014-05-19
HK1122391A1 (en) 2009-05-15
US8346565B2 (en) 2013-01-01
PL1997102T3 (pl) 2012-11-30
WO2008049587A1 (en) 2008-05-02
AU2007308413B2 (en) 2010-08-26
AU2007308413A1 (en) 2008-05-02
ES2391308T3 (es) 2012-11-23
EP2500900B1 (en) 2014-04-02
TWI352971B (en) 2011-11-21
CN101536085A (zh) 2009-09-16
WO2008049587A8 (en) 2009-04-09
DE102006050068A1 (de) 2008-06-19
CA2664163A1 (en) 2008-05-02
JP5048777B2 (ja) 2012-10-17
HK1176156A1 (en) 2013-07-19
KR101090565B1 (ko) 2011-12-08
TW200837718A (en) 2008-09-16
US20100030563A1 (en) 2010-02-04
EP1997102B1 (en) 2012-07-25
DE102006050068B4 (de) 2010-11-11
EP1997102A1 (en) 2008-12-03
KR20090042856A (ko) 2009-04-30
CN101536085B (zh) 2012-01-25
CA2664163C (en) 2013-07-16
EP2500900A1 (en) 2012-09-19

Similar Documents

Publication Publication Date Title
JP5048777B2 (ja) 音声信号からアンビエント信号を生成するための装置および方法、音声信号からマルチチャンネル音声信号を導出するための装置および方法並びにコンピュータプログラム
JP6637014B2 (ja) 音声信号処理のためのマルチチャネル直接・環境分解のための装置及び方法
CA2599969C (en) Device and method for generating an encoded stereo signal of an audio piece or audio data stream
TWI396188B (zh) 依聆聽事件之函數控制空間音訊編碼參數的技術
AU2015295518B2 (en) Apparatus and method for enhancing an audio signal, sound enhancing system
JP4664431B2 (ja) アンビエンス信号を生成するための装置および方法
CA2835463C (en) Apparatus and method for generating an output signal employing a decomposer
KR20070107698A (ko) 오디오 소스의 파라메트릭 조인트 코딩
AU2015255287B2 (en) Apparatus and method for generating an output signal employing a decomposer
Negru et al. Automatic Audio Upmixing Based on Source Separation and Ambient Extraction Algorithms

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110526

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110614

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110914

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110922

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120703

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120719

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150727

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5048777

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250